在次世代定序 RNA-seq 成為 transcriptome 研究的主要來源前,我們多是使用 microarray 來分析基因體表現量的變化與樣本條件之間的關聯性,例如:基因表現量與不同組織細胞的性狀。每一個個體的 transcriptome 受到基因體變異而不一樣,像是 SNP、copy number 的變異。而直接分析轉錄本的表現量變化是最容易觀察到與性狀之間的關係。一般定義真核細胞中的一個基因被轉錄後,其調控會透過 RNA edit (例如 splicing ) 形成多種轉錄本。不同轉錄本的表現量變化造成性狀不同的關聯性可能更高。RNA-seq 高解析度的定量 mRNA,提供給研究人員們一個機會來研究轉錄本的變化。
於是有西班牙生物資訊學家開始研究如何用 RNA-seq 來分析 reference genome 上的同一個基因內不同轉錄本表現量的差異。轉錄體的比較比基因表現量的比較要來的複雜。計算上,我們會假設不同的基因之間表現量的資訊是獨立變數,但是相同基因內的轉錄本數量,卻有相依性。某一轉錄本的數量越多會造成其他轉錄本的表現量減少。因此需要思考各個轉錄本 RPKM 在個體間的差異要如何分析。
如圖所示,我們利用 microarray 或是 RNA-seq 所偵測到的基因表現量與轉錄本之間的表現量可能存在著以下四類關係(在極端的情況下): a) 基因及其轉錄本的比例變化皆不大、 b) 基因表現量在個體間差異大,但是轉錄本的表現量比例一致較無變化、 c) 基因表現量穩定,但是所屬的轉錄本表現量比例變化大、 d) 表現量及轉錄本的表現量變化皆很大。有此可見,如果只看基因表現量的變化,其代表性及關連性可能不足以讓我們發現和性狀之間的關係,因此忽略了這些變化比例不定的轉錄本所隱含的功能。
圖片來源: http://genome.cshlp.org/content/22/3/528/F1.large.jp
另外 ENCODE project 裡中的一個子計畫,對於非洲奈及利亞境內的一個黑種人族群及高加索發源地的白種人族群定序進行 RNA-seq 的定序。在經過 mapping 和計算 RPKM 後,試圖比較兩個人種的 transcriptome 是否有哪些不同。比較的方向有 1) 基因表現量變化量分布比較及族群間的差異、 2) 轉錄本表現量變化量分布比較及族群間的差異、 3) 哪些基因/轉錄本表現量在兩個族群間有顯著差異、 4) 那些轉錄本表現量變異與基因表現量有顯著一致。
透過分析比較後,發現同一族群內各個基因的 isoform 比例變化比族群間差異小。而在各個基因中,負責 scplicing 的基因表現量變化也比其他部分的基因穩定。雖然轉錄本的表現量和其他因素有關,例如:RNA edit 或是 poly-A tail ,研究人員假設一個轉錄本的表現量變化除了和該基因表現總量有關外也和該轉錄本表現比例有關,認為這是一個比較明顯變因。平均來說,其基因表現總量變化對轉錄本比例變化的影響約占 60% 。而另外也有一小部分的轉錄體表現與該基因表現量沒有關聯,反而與 isoform 的數量有關。
與其他的 NGS 應用技術一樣,RNA-seq 的分析方式依然在摸索階段,也有許多不確定因素仍然存在,像是 RPKM 所代表的基因表現量的精確性和比較方式。RNA-seq 主要的分析方式為找出兩個樣本之間的 RPKM 差異較大的基因,但是這僅是針對個別基因來尋找差異。像是尋找出各個 ( replicate ) 樣本之間,各個基因與基因的關聯性也是 RNA-seq 研究可以努力的研究方向。本篇研究兩個人種之間的基因的表現與 RNA-splicing 之間的關聯性提供一個類似” 比較基因體”的研究方式來促進更有深度的 RNA-seq 研究,使該技術的應用層面可以更廣泛。
留言列表