Genome-guided transcriptome assembly淺談 @ 有勁的基因資訊

作者：鄭翰欽/有勁生物科技

Genome-guided transcriptome assembly，顧名思義，就是使用基因參考序列 (reference genome)的資訊 (如序列sequence或註解annotation)，來協助進行總轉錄本(transcriptome)的組裝 (assembly)，期望組裝出來的所有信使RNA轉錄本 (mRNA transcript)能更正確，且錯誤率更低。

為何要發展Genome-guided transcriptome assembly (利用基因參考序列比對方法進行總轉錄本組裝) 技術？

真核生物基因轉錄成mRNA轉錄本的過程，會歷經選擇性剪接 (alternative splicing)的步驟。此時，mRNA轉錄本內的內含子(intron)和在此次轉錄當中用不到的外顯子 (exon)都會被去掉；接著再將要保留的外顯子接在一起，產生轉錄本。換句話說，一個基因可能會產出數種不同的mRNA (見下圖一)。至於細胞需要製造哪一種mRNA，則由當時接收到的外在刺激和內在需求所決定。製造出來的mRNA若後來不需要，或者其蛋白質轉譯本已經存在，那麼這種mRNA就會被細胞分解掉。因此，考慮到mRNA的分解半衰期，基本上同一個基因模版產生出來的所有mRNA種類，是有可能同時存在於一個細胞內的。

圖一、選擇性剪接(Alternative splicing)示意圖

圖片來源：National Human Genome Research Institute, via Wikimedia Commons

要組裝轉錄本，就得做RNA測序 (RNA-Seq)。RNA測序是指將我們有興趣的生物樣本其總轉錄本抽出來之後，送到定序平台定序 (sequencing)的動作。由於測序是在細胞生理活動的某個時間點所進行，此時從細胞樣本中隨機抓出來測序的那些轉錄本，依照上文所述，我們便可姑且假設已包含了來自基因所有可能的mRNA轉錄本。

次世代定序 (Next Generation Sequencing; NGS)的原理是將待測序的序列切成許多短小片段去做定序，這些短片段稱為reads。之後若想得知原來的mRNA轉錄本序列，就要再將適合的reads組裝回去。從前的序列組裝是應用傳統的原理 (如overlap-layout-consensus或de-bruijn graph) 來進行；然而應用軟體在進行組裝時，只知道根據reads與reads間的關係進行排列組合，而不會去考慮各個read的來源與對應性─也就是說，某些reads只會來自某些特定的mRNA，因此便有可能會組裝出實際上根本就不存在的轉錄本。如下圖二所示。

為了避免這種狀況，軟體開發者運用基因參考序列的資訊、以及序列比對 (mapping)後所得到的reads定序深度 (各reads的定序量多寡），來提高組裝的準確性，以求得到正確的轉錄本及總轉錄本。Genome-guided transcriptome assembly的技術和軟體便是這樣因運而生。

圖二、傳統RNA測序(RNA-Seq)示意圖

上圖基因含有1,2,3,4四種外顯子，在測序的當下，樣品細胞中來自這個基因的mRNA總共有三種。NGS定序時會將所有mRNA切成短片段序列─稱為reads。倘若這些被切出的各種reads定序量夠大，把reads拿去和基因參考序列進行序列比對 (mapping)，可以發現這些reads似乎是足以涵蓋基因參考序列上的這四種外顯子 (上圖第二排左＆中)範圍。接下來要進行序列組裝 (De novo assembly)時，由於傳統軟體只知道reads和reads間的排列組合關係，無法分辨哪些reads來自哪種mRNA，於是就組裝出實際情況上並不存在的第四種mRNA序列來 (上圖右下的黑色mRNA轉錄本）。 (圖片來源: 鄭翰欽/ 有勁生物科技)

筆者目前所知悉的Genome-guided transcriptome assembly有三種不同應用模式的組裝軟體： Cufflinks、StringTie、及Genome-guided Trinity De novo Transcriptome Assembly。雖然這三種組裝軟體都會利用reads比對基因參考序列所得到的資料，提供給軟體進行運算，但它們應用這些資料的原理倒是不太一樣。這裡一一簡述如下：

Cufflinks

Cufflinks是用TopHat這個軟體將reads和基因參考序列進行比對。比對時，有些reads序列會完全落在外顯子區域內，有些則橫跨兩種外顯子。Cufflink會將這些橫跨外顯子的reads當作選擇性剪接位點判定以及序列組裝的參考。 (Cufflink詳細原理，可參考有勁部落格2013年的文章：Nature Protocol教學實作:重建轉錄體分析與已知基因體序列物種的RNA-Seq概念及分析實作)

圖三、Cufflink原理示意圖

Cufflinks會運用reads比對基因參考序列的資訊 (上圖a)，然後組裝出初步的結果 (上圖b, c)。之後Cufflinks會將reads與這些初步組裝好的序列再次進行比對，並用之前reads與基因參考序列比對所得到的資訊來估算定序深度/涵蓋度 (coverage)和匹配度 (compatibility) (上圖d)。最後再透過log-likelihood和Maximum likelihood abundances等演算法推算出軟體認為最為正確的轉錄本序列和表現量 (上圖e)。(圖片來源：Trapnell, C., et al., 2012)

圖四、利用Reads和基因參考序列進行比對所得資訊，來判定選擇性剪接的位點

轉錄本是由多個外顯子拼接而成，在定序時，一定會有些reads橫跨兩個不同的外顯子。把這些reads拿去與基因參考序列進行比對，會發現有些reads的前半部序列對應到外顯子#1的部分序列，而後半部則對到外顯子#2部分序列的情況。若發現reads上有位點的前後段分別對應到兩個不同的外顯子，就可以合理推斷該位點應該就是選擇性剪接的斷裂點。(圖片來源: 鄭翰欽/ 有勁生物科技)

StringTie

StringTie模式請見下圖五。一開始是先將reads以重疊的方式組成較長的序列 (super-reads)。接著再將這些super-reads以及無法重疊的reads與基因參考序列進行比對，找出可能的選擇性剪接位點。然後結合前述的序列比對結果，將序列連接的所有可能情況建構出來 (見圖五, step4處)，並根據前面的序列比對結果算出每個位點上的reads定序深度/ 覆蓋度。最後StringTie會根據這些序列連接可能路徑，推測出所有可能的轉錄本序列，將每一個reads分配至可對應的轉錄本上，並檢查每種轉錄本上的reads定序覆蓋度。倘若StringTie判斷仍有改進空間，則會再次重新分配，直到所有轉錄本上的表現量都達到理論上的最大值為止。讀者若對於StringTie如何分配reads有興趣，可上網搜尋maximum flow problem (最大流量演算法的問題)。

圖五、StringTie原理示意圖

(圖片來源：Pertea, M., et. al., 2015)

Trinity genome-guided mode

Trinity genome-guided組裝模式，跟其他兩者的原理相差很大。Cufflinks和StringTie使用基因參考序列的資訊來判定選擇性剪接位點，但Trinity並沒有這麼做。那麼Trinity genome-guided模式的考量是什麼呢？

Trinity的開發者認為，同物種間的不同個體是有差異的。也就是說，甲研究者今天拿某物種的個體A去定序並組裝的出基因序列。之後，若乙研究者有同物種的個體B樣品，想要了解其總轉錄本序列的話，他一定會想拿甲研究者的個體A基因序列去比對分析。然而就算是同物種，不同個體的基因序列多多少少都有些差異─例如遺傳變異等等。基於這個因素，其他兩種模式的genome-guided組裝軟體可能就無法忠實反應出這些個體間的差異性 (見下圖六)。

圖六: 個體差異會影響reads的比對結果

(圖片來源: 鄭翰欽/有勁生物科技)

因此Trinity genome-guided組裝模式在利用reads比對定序結果之後，會根據基因的位置，將同屬於一個基因範圍的reads歸群在一起，再將各歸群的reads分別進行de novo assembly。這個模式本質上仍算是De novo assembly只不過其reads比對的結果資料 (含reads對應到的位置等)，則是用來將在序列分佈在不同基因區域的reads分別歸類，以避免屬於其他序列區域的reads，因序列相似而被誤植到該區域的組裝上。因此Trinity開發者宣稱可以保留基因原來的差異性。

當然，這三種組裝軟體哪種表現比較好很難下定論。畢竟不同的物種，在不同的軟體下表現也會不一樣。要選哪種軟體，只能先做一輪詳細測試，或是看個別需要而定。不過，可以確定的是，在進行genome-guided transcriptome assembly之前，一定要先知道你所欲定序物種的完整基因參考序列，這樣才有辦法和reads進行比對。

參考資料

1. Trapnell, C., et. al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nature protocols. 2012 Mar; 7(3):562-578.
2.Pertea, M., et. al. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads. Nature biotechnology. 2015 Feb; 33(3):290-295.
3. Brian Haas (editor) Genome Guided Trinity Transcriptome Assembly.

官網用CC創用_SA.png