Paired-End V.S. Single-End－有勁的基因資訊

一句話去去解釋 single end 和 paired-end 的差異： single end 只讀取DNA片段的一端，而 paired-end 則是讀取兩端。如下圖所示：

新圖片 (9).png

為何要有 paired-end 這樣的技術發明呢？主要的原因在於 illumina 在每一次定序的過程中，最多只能定序到 150bp 的長度。這樣的長度對比於第一代的 Sanger 定序法(約 1000bp )或是同樣屬於 NGS 的 454 定序儀(約 400bp)，顯然是短了許多。因此 illumina 發展了 paired-end 的定序，先將 DNA 打斷成固定長度範圍的片段( 200~500bp )，再利用此技術讀取片段兩端的序列，我們即可得到 300bp ( 150x2 )的定序長度。此一技術不僅拉近了 illumina 和 454 之間的差距，也大大的改善了生物資訊的分析。

舉例來說，藉由 pair-end 的技術，假設有一個 DNA 片段剛好跨越了重複序列區域(下圖左側)以及獨特序列區域(下圖右側)。假如只讀取 single end，我們只會獲得紅色實線的序列資料，也就是 ATATATAT。接下來當我們想要將這段 read 跟 reference genome 做比對的時候，便會出現問題：到底這段 read 是出自於紅色實線的位置，還是紅色虛線的位置？這個問題我們可以藉由 paired-end 的技術來加以解決。由於 paired-end reads 之間的距離為已知(在此我們假設為 34 bp)，我們便可以先定位綠色 read 的位置，再正確定位出左方紅色 read 的位置，而不至於將其誤判在紅色虛線的位置。如下圖所示：

新圖片 (10).png

此外，根據我們內部的一個測試。在進行 de novo assembly 的時候，序列長度以及 paiedr-end 的資訊可以讓我們獲得最好的組裝結果。透過下表我們可以發現，paired-end 的資訊甚至比序列長度要來得更為重要。因此建議大家在選擇定序方案的時候，盡量選擇 paired-end 吧！

新圖片 (8).png