結合深度學習與基因檢測的DeepVariant－有勁的基因資訊

作者：林志鵬/有勁生物科技

凌晨兩點，熱血次世代定序資料分析員的你，不停強打精神盯著電腦看著一堆由NGS序列構成的序列比對圖；突然，不小心打了瞌睡，一頭撞上桌子打翻咖啡……電腦瞬間當機，你看著螢幕想哭但是哭不出來……~~你累了嗎？保力達蠻~~X！

想避免這樣的場景成真嗎？那麼，或許你可以試試Google在2016年12月份發表的生物資訊分析新工具(點此進入軟體位於GitHub的專案頁面)─DeepVariant¹！這個軟體利用目前最熱門的深度學習來針對次世代定序結果進行染色體變異分析。其主要原理是藉由深度學習在圖像辨識上的優勢，將次世代定序的序列比對結果轉換成紅綠藍三原色RGB的數值；藉此，可以讓電腦「自己看到」序列比對的「圖」並加以判斷可能的染色體變異型態。換句話說，我們不再需要辛苦盯著電腦上面的「圖」，用「人工」判定染色體變異的位置。

圖一、實際定序資料與參考序列進行比對後的圖形

這四張圖分別代表不同案例的實際定序資料與參考序列進行比對後的圖形。圖A：經過序列比對後，確實發生單核苷酸多型性(SNP)的定序資料圖形，我們可以看到在正中間有一條螢光綠色的線條，此即為SNP所在位置。圖B：比對後發現雙套染色體其中有一套有缺失(deletion)現象，可以發現中間有一半的區域沒有序列比對到。圖C：比對後發現雙套染色體都有缺失(deletion)現象，可以發現中間幾乎所有的區域沒有序列比對到。圖D：因為實驗過程、分析方式、或是儀器本身等等問題而導致的染色體變異誤判，這裡可以看到出現很多雜點分佈(圖片來源：Mark DePristo ＆ Ryan Poplin, 2017². Retrieved from Google Open Source)

　　要瞭解DeepVariant是如何將圖像辨識應用到基因檢測上，我們必須先瞭解光的三原色。人類在螢幕上所看到的顏色都可以透過光的紅綠藍三原色的各種組合呈現出來。三原色光以不同比例加以混合後，在人眼中可以形成與各種可見光等效的色覺；而三種光等量相加則會成為白色光。如下圖所示。

圖二、光的三原色呈色效果

三原色光模式 (圖片來源：維基百科三原色光模式3)

電腦目前針對圖像上的每一個像素使用了24bit（位元）的空間來記錄，所以三種原色光各別可分到8bit (24bit/3=8bit)，每一種原色的強度在8bit的記錄空間下就可再細分成256個值(2的8次方)。藉由組合不同強度的三原色，對每一個像素，我們共可組合16,777,216種顏色2 (256x256x256)。因此在電腦上我們所看到的每一張圖，其實都可以拆解成一個個的各色發光小點，每個小點都由三種不同強度的三原色(RGB)所組成。

本文一開始有說過，深度學習目前的主要應用是圖像辨識，其概略作法為：先給予電腦大量的圖片並且標記這些圖片的意義(例如，各種交通號誌)，接著電腦會將哪些圖片由哪些顏色(RGB)小點所組成、以及這些小點在圖片上的總數一一記錄下來。透過深度學習，電腦就可以瞭解這些圖片組成的特徵(顏色、邊界….等等)並建立出模型；之後若有其他圖片進來，就會透過先前學習所得出的模型加以預測。這邊要注意的是，這些由RGB小點所組成的圖片不見得一定是人類可以辨識的圖片，有可能甚至是「違反人類常識」的東西。例如我們可以跟電腦說下圖照片裡的傢伙跟金城武一樣帥。

圖三、電腦的圖像辨識⼀帥氣的金城武照片

我們若跟電腦說照片裡的傢伙跟金城武一樣帥，電腦便認定他就是金城武，會去辨識這張圖的「特徵」並以此作為往後預測金城武的根據。(圖片來源：Trollface by Carlos Ramirez. Retrieved from https://www.bleedingcool.com/2016/10/23/trollface-comes-black-mirror-spoilers/)

上圖雖然違反我們的常識，可是既然定義了這張圖就是金城武的自拍照，那電腦便會認定他是金城武，會去辨識這張圖的「特徵」並以此作為往後預測之用，還會將預測結果給予相對應的辨識信心指數；例如當電腦看到下圖裡的傢伙，有可能會認為與它心目中的金城武有87分像。

圖四、電腦的圖像辨識⼀與金城武有87分相似度的照片

根據圖三的辨識標準，電腦認為本圖中的傢伙與它心目中的金城武有87分像。(圖片來源：Open Mouth Troll Face, Retrieved from Pinterest https://www.pinterest.com/audraseyller/troll-faces/)

因此若我們想要把這個技術快速移植到其他領域，只要將資料轉換成RGB格式，就可以直接套用到目前已經開發好的深度學習軟體套件裡，不必去在意轉換成RGB之後的圖是否符合人類所認知圖像意義。

在DeepVariant裡，作者將三原色(RGB)的紀錄空間重新進行定義，讓RGB分別代表：R⼀定序結果(read base)，G─定序品質(quality score)，B─定序資料是否為正股(read strand)。除了RGB之外，為了判斷定序鹼基(read base)與參考序列的鹼基(reference base)是否相同，作者們還加了一個數值alpha，將alpha乘以原始的RGB數值，所得到的乘積即為最終像素的RGB數值。

確認像素的RGB後，還得決定圖像大小。目前的設定是100 x 221個像素；一來這是因為一般全基因體定序的定序深度不會超過100，且目前NGS的定序規格主要為paired-end 100bp，所以只要向兩側多延伸100bp，即可將涵蓋可能變異位點的定序資料給囊括進來；二來考慮到要涵蓋insertion變異的可能長度而預留了20bp；上述兩個理由決定了100 x 211這個圖像大小。之後再將這些圖像依據homozygous reference、homozygous alternate、heterozygous三種Genotype類型進行定義，然後丟到CNN（Convolution Neural Network；卷積神經網絡），讓電腦去進行深度學習並建立模型。將來電腦便會根據這個建好的模型去判斷序列比對結果屬於上述哪一類型的Genotype，並且給予相對應的預測機率。如圖五所示。

圖五、DeepVariant的深度學習工作流程

圖片來源：取自Poplin, Ryan, et al., 20161. doi: https://doi.org/10.1101/092890

整個流程當中，作者不僅只將序列比對資料進行轉換，轉換之前，為了提升預測效能，還加了好幾個篩檢步驟來事先過濾有問題的資料，例如：定序資料(duplicate read)是否有重複、比對品質分數是否不低於10 (mapping quality score >= 10)、paired-end read的擺置是否適當 (properly placed)…等等。

DeepVariant這方法所帶來的迴響效應如何呢？在美國食品藥物管理局所頒發2016年precisionFDA Truth Challenge六個Challenge Community Challenge Awards獎項中，贏得了最佳單核苷酸多態性(SNP)綜合分數獎(見下圖六紅框的部份)。

圖六、2016 precisionFDA Truth Challenge Community Challenge Awards

2016年美國食品藥物管理局precisionFDA Truth Challenge ─ Community Challenge Awards獎項的六位贏家。(圖片來源：2016 precisionFDA Truth Challenge Results. Retrieved from https://precision.fda.gov/challenges/truth/results)

然而在驚喜之餘，當我們深入觀察其各項指標的評鑑，卻發現DeepVariant在insertion和deletion變異表現差強人意。雖然如此，相較於GATK這套目前廣為大家使用，其經驗累積了10年才有現今成果的軟體，DeepVariant顯然還很年輕。但不管如何，DeepVariant已經將人工智慧應用在基因檢測的序幕拉起，相信未來的發展以及其他的應用延伸足以令人期待。

參考文獻

1. Poplin, Ryan, et al. Creating a universal SNP and small indel variant caller with deep neural networks. BioRxiv. 2016 Dec. 14. https://doi.org/10.1101/092890

2. Mark DePristo & Ryan Poplin. (2017, Dec. 4). DeepVariant: Highly Accurate Genomes With Deep Neural Networks [Web log post]. Retrieved from Google Open Source https://opensource.googleblog.com/2017/12/deepvariant-highly-accurate-genomes.html

3. 三原色光模式。檢自《維基百科https://zh.wikipedia.org/wiki/三原色光模式》

4. 2016 precisionFDA Truth Challenge Results. Retrieved from https://precision.fda.gov/challenges/truth/results

5. 人和未來(2017, Dec. 18)。基因+深度學習：DeepVariant技術詳解及評測。檢自微文庫•貝殼社 https://weiwenku.net/d/104339378

官網用CC創用_SA.png