作者:鄭翰欽/有勁生物科技
Genome-guided transcriptome assembly,顧名思義,就是使用基因參考序列 (reference genome)的資訊 (如序列sequence或註解annotation),來協助進行總轉錄本(transcriptome)的組裝 (assembly),期望組裝出來的所有信使RNA轉錄本 (mRNA transcript)能更正確,且錯誤率更低。
為何要發展Genome-guided transcriptome assembly (利用基因參考序列比對方法進行總轉錄本組裝) 技術?
真核生物基因轉錄成mRNA轉錄本的過程,會歷經選擇性剪接 (alternative splicing)的步驟。此時,mRNA轉錄本內的內含子(intron)和在此次轉錄當中用不到的外顯子 (exon)都會被去掉;接著再將要保留的外顯子接在一起,產生轉錄本。換句話說,一個基因可能會產出數種不同的mRNA (見下圖一)。至於細胞需要製造哪一種mRNA,則由當時接收到的外在刺激和內在需求所決定。製造出來的mRNA若後來不需要,或者其蛋白質轉譯本已經存在,那麼這種mRNA就會被細胞分解掉。因此,考慮到mRNA的分解半衰期,基本上同一個基因模版產生出來的所有mRNA種類,是有可能同時存在於一個細胞內的。
圖一、選擇性剪接(Alternative splicing)示意圖
圖片來源:National Human Genome Research Institute, via Wikimedia Commons
要組裝轉錄本,就得做RNA測序 (RNA-Seq)。RNA測序是指將我們有興趣的生物樣本其總轉錄本抽出來之後,送到定序平台定序 (sequencing)的動作。由於測序是在細胞生理活動的某個時間點所進行,此時從細胞樣本中隨機抓出來測序的那些轉錄本,依照上文所述,我們便可姑且假設已包含了來自基因所有可能的mRNA轉錄本。
次世代定序 (Next Generation Sequencing; NGS)的原理是將待測序的序列切成許多短小片段去做定序,這些短片段稱為reads。之後若想得知原來的mRNA轉錄本序列,就要再將適合的reads組裝回去。從前的序列組裝是應用傳統的原理 (如overlap-layout-consensus或de-bruijn graph) 來進行;然而應用軟體在進行組裝時,只知道根據reads與reads間的關係進行排列組合,而不會去考慮各個read的來源與對應性─也就是說,某些reads只會來自某些特定的mRNA,因此便有可能會組裝出實際上根本就不存在的轉錄本。如下圖二所示。
為了避免這種狀況,軟體開發者運用基因參考序列的資訊、以及序列比對 (mapping)後所得到的reads定序深度 (各reads的定序量多寡),來提高組裝的準確性,以求得到正確的轉錄本及總轉錄本。Genome-guided transcriptome assembly的技術和軟體便是這樣因運而生。
圖二、傳統RNA測序(RNA-Seq)示意圖
上圖基因含有1,2,3,4四種外顯子,在測序的當下,樣品細胞中來自這個基因的mRNA總共有三種。NGS定序時會將所有mRNA切成短片段序列─稱為reads。倘若這些被切出的各種reads定序量夠大,把reads拿去和基因參考序列進行序列比對 (mapping),可以發現這些reads似乎是足以涵蓋基因參考序列上的這四種外顯子 (上圖第二排左&中)範圍。接下來要進行序列組裝 (De novo assembly)時,由於傳統軟體只知道reads和reads間的排列組合關係,無法分辨哪些reads來自哪種mRNA,於是就組裝出實際情況上並不存在的第四種mRNA序列來 (上圖右下的黑色mRNA轉錄本)。 (圖片來源: 鄭翰欽/ 有勁生物科技)
筆者目前所知悉的Genome-guided transcriptome assembly有三種不同應用模式的組裝軟體: Cufflinks、StringTie、及Genome-guided Trinity De novo Transcriptome Assembly。雖然這三種組裝軟體都會利用reads比對基因參考序列所得到的資料,提供給軟體進行運算,但它們應用這些資料的原理倒是不太一樣。這裡一一簡述如下:
Cufflinks
Cufflinks是用TopHat這個軟體將reads和基因參考序列進行比對。比對時,有些reads序列會完全落在外顯子區域內,有些則橫跨兩種外顯子。Cufflink會將這些橫跨外顯子的reads當作選擇性剪接位點判定以及序列組裝的參考。 (Cufflink詳細原理,可參考有勁部落格2013年的文章:Nature Protocol教學實作:重建轉錄體分析與已知基因體序列物種的RNA-Seq概念及分析實作)
圖三、Cufflink原理示意圖
Cufflinks會運用reads比對基因參考序列的資訊 (上圖a),然後組裝出初步的結果 (上圖b, c)。之後Cufflinks會將reads與這些初步組裝好的序列再次進行比對,並用之前reads與基因參考序列比對所得到的資訊來估算定序深度/涵蓋度 (coverage)和匹配度 (compatibility) (上圖d)。最後再透過log-likelihood和Maximum likelihood abundances等演算法推算出軟體認為最為正確的轉錄本序列和表現量 (上圖e)。(圖片來源:Trapnell, C., et al., 2012)
圖四、利用Reads和基因參考序列進行比對所得資訊,來判定選擇性剪接的位點
轉錄本是由多個外顯子拼接而成,在定序時,一定會有些reads橫跨兩個不同的外顯子。把這些reads拿去與基因參考序列進行比對,會發現有些reads的前半部序列對應到外顯子#1的部分序列,而後半部則對到外顯子#2部分序列的情況。若發現reads上有位點的前後段分別對應到兩個不同的外顯子,就可以合理推斷該位點應該就是選擇性剪接的斷裂點。(圖片來源: 鄭翰欽/ 有勁生物科技)
StringTie
StringTie模式請見下圖五。一開始是先將reads以重疊的方式組成較長的序列 (super-reads)。接著再將這些super-reads以及無法重疊的reads與基因參考序列進行比對,找出可能的選擇性剪接位點。然後結合前述的序列比對結果,將序列連接的所有可能情況建構出來 (見圖五, step4處),並根據前面的序列比對結果算出每個位點上的reads定序深度/ 覆蓋度。最後StringTie會根據這些序列連接可能路徑,推測出所有可能的轉錄本序列,將每一個reads分配至可對應的轉錄本上,並檢查每種轉錄本上的reads定序覆蓋度。倘若StringTie判斷仍有改進空間,則會再次重新分配,直到所有轉錄本上的表現量都達到理論上的最大值為止。讀者若對於StringTie如何分配reads有興趣,可上網搜尋maximum flow problem (最大流量演算法的問題)。
圖五、StringTie原理示意圖
(圖片來源:Pertea, M., et. al., 2015)
Trinity genome-guided mode
Trinity genome-guided組裝模式,跟其他兩者的原理相差很大。Cufflinks和StringTie使用基因參考序列的資訊來判定選擇性剪接位點,但Trinity並沒有這麼做。那麼Trinity genome-guided模式的考量是什麼呢?
Trinity的開發者認為,同物種間的不同個體是有差異的。也就是說,甲研究者今天拿某物種的個體A去定序並組裝的出基因序列。之後,若乙研究者有同物種的個體B樣品,想要了解其總轉錄本序列的話,他一定會想拿甲研究者的個體A基因序列去比對分析。然而就算是同物種,不同個體的基因序列多多少少都有些差異─例如遺傳變異等等。基於這個因素,其他兩種模式的genome-guided組裝軟體可能就無法忠實反應出這些個體間的差異性 (見下圖六)。
圖六: 個體差異會影響reads的比對結果
(圖片來源: 鄭翰欽/有勁生物科技)
因此Trinity genome-guided組裝模式在利用reads比對定序結果之後,會根據基因的位置,將同屬於一個基因範圍的reads歸群在一起,再將各歸群的reads分別進行de novo assembly。這個模式本質上仍算是De novo assembly只不過其reads比對的結果資料 (含reads對應到的位置等),則是用來將在序列分佈在不同基因區域的reads分別歸類,以避免屬於其他序列區域的reads,因序列相似而被誤植到該區域的組裝上。因此Trinity開發者宣稱可以保留基因原來的差異性。
當然,這三種組裝軟體哪種表現比較好很難下定論。畢竟不同的物種,在不同的軟體下表現也會不一樣。要選哪種軟體,只能先做一輪詳細測試,或是看個別需要而定。不過,可以確定的是,在進行genome-guided transcriptome assembly之前,一定要先知道你所欲定序物種的完整基因參考序列,這樣才有辦法和reads進行比對。
參考資料
- 1. Trapnell, C., et. al. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nature protocols. 2012 Mar; 7(3):562-578.
- 2.Pertea, M., et. al. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads. Nature biotechnology. 2015 Feb; 33(3):290-295.
- 3. Brian Haas (editor) Genome Guided Trinity Transcriptome Assembly.
留言列表