對於初學生物資訊的不知道 DNA 序列中的「N」是什麼是很正常的,對於有經驗的人,大多也只知道「N」是代表 A 或 T 或 G 或 C,其實這個符號是來自NC-IUB (Nomenclature Committee of International Union of Biochemistry) 所建議的編號,也稱為 NC-IUB codes 或 IUB codes。 IUB codes可分為兩類,一為 Standard Bases,一為 Mixed Bases (Wobble)。 Standard Bases:
N50是一個用來評估de novo assembly效果好壞的方法之一。當我們把contig或scaffold從大到小排列後,從最大的contig開始進行長度的累加,當累加長度達到全部contig或scaffold總長度的50%時,這時所加上的contig或scaffold長度,即為N50。如下圖所示: 而N50的50,即為50%的意思。同理,N25即代表25%;N75即代表75%。數字越大,則評估條件越嚴苛。
首先我們將 DNA 打斷成長度為 2000~5000bp 的片段,然後將這些片段的尾端給連接起來,因此可以形成一個環狀的 DNA。圖中的紅色和綠色圓點分別代表 DNA 的 5’和 3’端。然後再將此環形 DNA 給打斷,帶有紅色和綠色圓點的區域即為我們最後要定序的 DNA 片段。由上圖可知,mate-paired 的特色除了含有極長片段的資訊之外,也由於經過環形連接,因此其定序的方向也與 paired-end 相反,分別由原始 DNA 片段的內側往外側延伸定序,這在生物資訊的處理時是要特別注意到的地方。