Long fragment reads技術在次代定序儀上的應用－有勁的基因資訊

Single Molecule Real-Time (SMRT) sequencing發展至今，的確在讀長方面相當優勢 (約 5K-10Kbp)，但是在定序價格無法降低的情況下，許多狀況並不合適完全取代次世代定序儀，例如：metagenomics 的定序。近年，10X Genomics 導入這套系統甚至可以產生 50 Kb 組裝後序列，但原理細節對外部並沒有公布，而 Illumina 也增加了一種新的 library 製備方式來獲得近似第三代定序儀讀長的結果，商品名稱為 TruSeq synthetic long read (TSLR) technology。這項技術使用過去 BAC library 這常用來研究物種基因體的觀念，將龐大複雜的基因體切割成許多小部份，只不過每一小部份相較於 BAC，insert 增加至 Kb 以上的單位來做次世代定序。

目前常見的兩種 Long fragment reads library 製備方式，均不需要真的 cloning放入細菌載體中複製，但會將 Kb 為單位的片段打碎後掛上各自的 barcode，再藉由後端解讀barcode，將定序的資料重新分群後以 Kb 為單位組裝，重現近似第三代定序儀讀長的結果。無庸置疑的，在定序未知物種基因體的 de novo assembly 上相當的有幫助，尤其是能跨越重覆序列 (repeat sequence) 來幫助組裝，除此之外，由於多數物種基因體為多倍型染色體，例如：人類是二倍體 (Diploid) 生物，幾百 base-pair 的讀長有時可能無法正確判斷基因座落在何條同源染色體上，如今，這項技術應用在人類染色單倍體分類 (Haplotyping) 研究，甚至能追溯親代基因型的遺傳。

圖一、Long fragment reads library 能對現代基因體研究帶來的幫助。

上圖一為這項技術應用上的代表示意圖，將掛有相同 barcode 的 reads 重組成 Kb 等級上的長片段序列後，能輕易跨越 reference genome 上的未知序列 (灰色長方形)，也能靠著 SNP 的差異性找到子代的基因序列來自親代的哪一方。

首先簡單介紹 Illumina 所使用的策略：圖A可看到物種基因體的 DNA，使用 g-TUBE 剪切成 Kb 為單位長短不一的 DNA 片段，接著全被接上 adapter，再切膠篩選出 8-10Kb 的片段。

圖B可看見所有 8-10Kb 的 DNA 片段被稀釋至 pg/μL 等級後，被分裝在 384 孔盤（將龐大複雜的基因體分割處理），並且掛上 adapter 後使用 long-range PCR 增幅放大。

圖C 每個盤中孔內的片段被帶有 384 種 Index 的 tagment 以 Nextera 特有方式製備成較短片段的 library。

圖D為收集孔盤中所有掛有不同 Index 的 library 回收集合並經次世代定序，定序後使用生物資訊程式分析組裝及可獲得 Long fragment reads。

前面提到製備方式有兩種，那麼就要來提另一種由 Brock A. Peters 與 Radoje Drmanac 專業團隊所發明的另一種方法，筆者認為實驗技巧上難度更高，但成效將更顯著，組裝後的讀長甚至可突破到 30-300 Kb，這項技術在美國也正在專利申請當中。（見圖二）首先物種基因體的 DNA 從一開始就被稀釋至 pg/μL 等級分裝在 384 孔盤中，接著每個孔中進行 WGA 放大，不同於 Illumina 使用 g-TUBE 剪切 gDNA，由 phi29 polymerase 製造出的片段大小範圍即 30-300 Kb，然後接著進行 DNA 裂解成適合次世代定序儀適合的定序長度，特別的是這個步驟，由於在 WGA 的過程中加入低比例的 dUTP，再利用 uracil DNA glycosylase 使得增幅的 DNA 裂解，調控 dUTP 的比例等同控制裂解片段的長度（下圖三；此項技術同樣為專利的一部分）。

圖二、Brock A. Peters 與 Radoje Drmanac團隊發明的 Long fragment reads library 製備簡易流程。

圖三、簡單利用dUTP 加入增幅片段及使用 uracil DNA glycosylase 使 DNA 裂解成適當大小。

接續圖二，在裂解後的 DNA 片段進行二段式具方向性的端點黏合反應 (directional ligation)（下圖四），首先加入 command adpter 反應，第二步再加入十個 base 的 barcode adapter （384 種組合）進行 5’ 端上的黏合反應，

收集所有孔盤中的 library 再進行 PCR 及純化後即完成，經次世代定序，定序後使用生物資訊程式分析組裝及可獲得 Long fragment reads。

圖四、Brock A. Peters 與 Radoje Drmanac 法建構 library 方式示意圖。

不論是 Brock A. Peters 與 Radoje Drmanac 團隊、Illumina，甚至是有勁及世界上各個基因體的研究、研發單位，都試圖創造出「完美基因體（perfect genome）」的成就，技術越來越新，儀器越來越先進，研究越來越成熟，大家的目標是讓每一片拼圖都正確的座落在它理所應當的位置，讓我們能一窺生命體奧秘的全貌。

參考文獻

Peters, B. et al. Accurate whole-genome sequencing and haplotyping from 10 to 20 human cells. Nature 487, 190–195 (2012)
Peters, B. et al. Co-barcoded sequence reads from long DNA fragments: a cost-effective solution for “perfect genome” sequencing. Front. Genet., 14:466. doi: 10.3389/fgene.2014.00466 (2015)
TruSeq Synthetic Long-Read DNA Library Prep Guide
http://support.illumina.com/downloads/truseq-synth-long-read-dna-library-prep-guide-15047264.html