關於RNA-Seq量化誤差的解決方向 @ 有勁的基因資訊

作者：張美虹/有勁生物科技

現今次世代定序蓬勃發展，RNA-Seq儼然成為測量基因表達的標準，並且是經常被應用於人類疾病研究的重要技術。

基因表達定量牽涉到定序序列與已知的基因組或轉錄組參考序列比對。而量化的準確性依賴於經過生物資訊工具分析後，定序序列是否產生足夠且獨特的訊息進而能精確地對上參考序列。

圖一、12種分析方法組合

圖一為作者提供的12種分析方法組合。這些分析方法包括使用序列比對工具，如TopHat或STAR。序列比對的準確性將取決於選用的工具與參數，其中的校正步驟需要經過非常密集地計算且每一個樣品需要花費幾小時的時間。其產出的結果是，每個序列片段被比對上參考序列中的零個、一個或多個的預測位置。如何處理和描述多定位或定位模糊的序列片段，同時也取決於選擇分析軟體與參數。這也是造成RNA-Seq量化誤差的一個主要來源。

以下為了得知在這12種分析方法的準確性，使用模擬RNA-Seq數據(模擬數據為帶有正確的基因表現量化數值的數據)進行基因表現量的量化。然而，結果顯示有數百個基因其表現量在一個或多個方法中被低估(如圖二)。

圖二、十二種分析方法預期的基因表現量與實際測得基因表現量

紅線表示y=x。

圖三、具有分析上問題基因的特徵

而這些容易在分析工具量化時誤判的基因，多數在前人研究中被指出與人類疾病相關。此篇研究也將這些較難以分析的基因與其他基因做比較。發現這些基因最長的外顯子與其他基因相較下是比較短的，而整個基因的轉錄片段也呈現較短的現象(如圖三)。而具有這些特性的基因在相較其他基因下，擁有更多具多重比對位置的序列片段。然而分析工具會將具多重比對位置的序列片段丟棄，這也說明在分析基因量化表現時為何這些基因容易有量化誤差。

接下來，此篇研究提出一種兩階段分析RNA-Seq數據方式。第一階段，為使用常見的分析方法進行；第二階段，取回因多重比對或定義不清被丟棄的序列片段，將這些序列片段進行叢集成為Multi-map groups (MMGs)。在此作者使用自己開發的分析流程與程式，於連結https://github.com/mw55309/RNAfreak中可進行下載。然後，將此方法應用於最近發布的小鼠癌症研究，證明從那些被丟棄的數據中是可以提取出具有生物意義的訊息。

如下表所示，MG994中包含三個基Plac9a（ENSMUSG00000095304），Plac9b（ENSMUSG00000072674）和偽基因Gm9780（ENSMUSG00000094800）。在定序片段只能被比對到單一基因的分析方式下，所比對上此三個基因的序列為零。而在MMG分析方法下顯示，在正常與腫瘤樣品細胞有數百與數千條序列比對上此三個基因且具有表現量的差異。