分析資料太少？那就找你的遠房親戚來吧！ @ 有勁的基因資訊

作者：林志鵬/有勁生物科技

自2008年開始，次世代定序技術便一直推陳出新，定序價格因此不斷往下探底；例如2017年Illumina推出的NovaSeq，目標就是要讓人類全基因體定序價格下降至100美元。而定序價格的下降也讓許多國家開始想藉由全國性大規模定序計畫 (例如1,000 Genome Project、UK10K、Taiwan BioBank等)來確認其人民的基因是否具有地域性或種族特殊性，並了解該國種族基因有哪些染色體變異屬於常見變異，哪些屬於罕見變異。一般來說，與疾病相關的染色體變異幾乎皆為罕見型，畢竟整個人類群體裡帶有疾病基因的屬少數。然而我們不能反向解讀這樣的關係，亦即，罕見的染色體變異並非皆與致病有關。因此該如何解釋這些意義不明且罕見的變異，並能進一步區分該變異是否為良性或與致病相關，就變成大家亟希克服的難題。

Illumina與史丹佛大學、佛羅里達大學等研究單位組成的合作團隊於2018年7月份的《Nature Genetics》發表了一篇論文。他們使用深度神經網路搭配6種非人類靈長類的定序資料，來區分罕見的致病突變基因、以及普遍存在健康人群身上的良性變異基因。他們將這個計算方法命名為PrimateAI¹(點此進入該軟體位於GitHub的專案頁面)。

該研究的作者提到，假如某個染色體變異會出現在有演化關係之不同物種的同基因型上 (identical-by-state)，則對該相關物種所造成的影響往往也是「相近」的。由此，作者推論：基於人類與非人類靈長類動物在演化上的「近親」關係，若某個染色體變異在健康的非人類靈長類動物身上為「常見的良性突變」，那麼該染色體變異就算對人類來說是罕見的變異，也應是屬於良性的突變。為了確認這點，作者採用會造成蛋白質結構中胺基酸變異的錯義突變(misssense variant)來進行分析，如下圖一所示。

作者先將人類ClinVar資料庫內的紀錄，根據特定條件進行篩選(包括：是否具有hg19的紀錄、是否具有明確的良性或致病性…等等)，最後整理出42,438個錯義突變，其中良性突變佔約35％＝14,782 / (14,782+27,656) (最上方橫條圖的藍色區塊)，其餘為pathogenic (病原性)突變。接著，作者想知道ClinVar資料庫上所登錄的這些錯義突變，若發生在一般健康人類以及非人類的靈長類身上，結果是良性 (不影響健康)的機率各有多高？為此作者先利用ExAC /gnomAD資料庫內的等位基因頻率 (Allele frequency)去「模擬」出30個健康人類的染色體資料 (作者之所以選擇「30」這個數字，是因為他們判斷這是一般多樣性研究在進行定序時所採用的樣品數量)，然後進一步比對以上模擬資料和ClinVar資料交集的情形。結果發現這30個模擬出來的健康人類染色體上所發生的錯義突變，有將近96%(~247.7 / (247.7+11.8) )是「良性突變」⼀這樣的結果是可預期的，因為一般健康人身上本就不太會帶著致病性的染色體變異。資料來源接著再延伸到6種非人類靈長類的染色體變異資料，當這些靈長類資料與ClinVar進行交集後，發現不致影響健康的良性突變也有9成(~123.7 / (123.7+13.5) )。這些比對結果支持了作者前面的假設推論：「若某個染色體變異在健康的非人類靈長類動物身上是「常見的良性突變」，那麼即使該染色體變異對人類來說是罕見的，也應該是為罕見的良性突變。」

圖一、人類ClinVar資料庫上所登錄的這些染色體錯義突變，若發生在一般健康人類以及非人類的靈長類身上，9成以上皆屬良性的

圖片來源：Sundaram, L., et al. Nature Genetics. 2018 Jul. 23; 50(8): 1161-1170

之後，作者再從此6種非人類靈長類動物的基因庫選出了30萬個常見於其中，卻不常見於人類基因庫的染色體變異；另外再加入常見的人類染色體變異 (等位基因頻率>0.1%)，用來作為訓練深度神經網路的數據集 (dataset)。針對這數據集裡的胺基酸基因位點，作者除了使用人類以及其他物種的蛋白質一級結構胺基酸序列之外，也加入了蛋白質二級結構與蛋白質溶劑可接觸性的預測結果，一併輸入PrimateAI。

為了將PrimateAI與其他計算方法進行準確性比較，作者挑出1萬個靈長類常見、但在之前深度神經網路訓練時未包含在內的變異數據。從下圖二中我們可以看到最右側PrimateAI長條圖 (human+primates版本)的準確率達91%，相較於準確率次高 (80%)的軟體CADD，高出了10％。作者提到，這樣的改善約有一半是採用深度學習網路的效果，另一半則是得力於非人類的靈長類資料庫；此代表除了電腦的演算法之外，資料取得的「廣度」也非常重要，而非人類靈長類就是一個很好的來源。

圖二、靈長類基因變異是否良性或攸關致病的預測模型

左方四條紅色的長條圖分別代表四種預測程式的預測效果。右方兩條黃色長條圖則分別代表「僅使用人類的染色體變異來建立的模型」以及「使用人類與其他靈長類的染色體變異來建立的模型」。(圖片來源：Sundaram, L., et al. Nature Genetics. 2018 Jul. 23; 50(8): 1161-1170)

筆者過往基於愛護地球人道主義自我良知….等等理由，認為大家都應該要愛護野生動物，而現在這篇論文又給了我們另外一個保護動物的理由：「讓自己的基因檢測解讀更加準確」。這個新的AI軟體已經由Illumina雲端計算平臺BaseSpace Sequence Hub公開發佈，有興趣的使用者可以趕緊試試看囉。

參考文獻

1.Sundaram, L., et al. Predicting the clinical impact of human mutation with deep neural networks. Nature Genetics. 2018 Jul. 23; 50(8): 1161-1170. https://doi.org/10.1038/s41588-018-0167-z

官網用CC創用_SA.png