作者:鄭翰欽/有勁生物科技

 

        隨著演算法的日新月異,很多變異點偵測(Variant Calling)軟體陸續被開發出來,如16gt、lancet等等。當然,老牌軟體諸如GATK、freebayes、varscan、vardict等也仍持續進行運作準確度與效率的改善。如今還有些軟體打著AI的旗幟,標榜自己使用AI來辨識變異點(variant),因此可得到極為準確的結果,例如DeepVariant1(相關原理可以參考有勁部落格《結合深度學習與基因檢測的DeepVariant》一文)。然而,究竟哪個軟體的變異點偵測比較準確?想要驗證這一點,就得先要有一個「標準結果」以供評比才行。

 

        那麼,誰做出來的偵測結果夠資格被大家公認為「標準結果」呢?由於目前所有的變異點皆是用演算法「算」出來的,所以真的很難去評斷誰的答案更為接近實際狀況。幸好後來美國國家標準暨技術研究院(NIST; National Institute of Standards and Technology)成立了一個名為「瓶中基因體」2的策略聯盟(GIAB; Genome in a Bottle Consortium),專門負責去製作這個「標準結果」。

 

        GIAB是以人類作為研究物種,並為其建立出變異點偵測的標準分析流程、準則與偵測結果。為了盡可能提升這個「結果」的準確率,GIAB使用了ABI Solid、Illumina、PacBio、Ion Proton等多種定序平台來進行定序;並且還輔以多種變異點偵測軟體、以及極深的定序量(300x coverage),來確保能夠獲得更接近真實狀況的偵測結果。一旦有新技術出現,GIAB也會採用這些技術去進行「標準結果」的版本更新。表一即為GIAB所研究的人類樣本與相關變異點偵測資料的範例。

 

 

表一、GIAB所研究的人類樣本與相關變異點偵測資料範例

190417_1.png

資料來源:National Institute of Standards and Technology (NIST). 2012 Jul. Genome in a bottle (GIAB).

 

 

        GIAB的這些「標準結果」都被用在什麼地方呢?變異點偵測軟體開發者會拿來測試自家軟體,有人會拿來作為AI機器學習的培訓用數據(training data);也有單位會拿來舉辦比賽,比比看誰的軟體比較優秀。美國食品暨藥物管理局(FDA; Food and Drug Administration)於2016年就曾舉辦PrecisionFDA Truth Challenge競賽3。在當時HG001是已被軟體開發者廣為使用的變異點偵測「標準結果」,而2016年PrecisionFDA Truth Challenge競賽時,FDA則是跟GIAB取得最新但尚未公開釋出的標準結果─HG002,提供各大開發商相關的定序資料去測試軟體產品的變異點偵測能力,然後互相比拼,一爭高下。那一年以標榜使用AI聞名的DeepVariant,在比賽中贏得了Challenge Community Challenge Awards六個獎項中的「最佳單核苷酸多態性(SNP)綜合分數獎(Highest-SNP-Performance)」4

 

        直到今日,GIAB仍不斷地在修正變異點偵測的「標準結果」,並公布給大家參考。若你手中正好有變異點偵測軟體想測試一下準確度,不妨就拿GIAB的結果比對看看,或許會讓你有意想不到的驚奇體驗!

 

 

參考文獻

1. Poplin, R., et al. A universal SNP and small indel variant caller with deep neural networks. Nature Biotechnology. 2018 Sep; 36:983-987. http://dx.doi.org/10.1038/nbt.4235

2. National Institute of Standards and Technology (NIST). 2012 Jul. Genome in a bottle (GIAB). Retrieved from https://www.nist.gov/programs-projects/genome-bottle

3. Food and Drug Administration (FDA). 2016 Apr. PrecisionFDA Truth Challenge: Challenge Info. Retrieved from https://precision.fda.gov/challenges/truth

4. Food and Drug Administration (FDA). 2016 Apr. PrecisionFDA Truth Challenge: Challenge Results. Retrieved from https://precision.fda.gov/challenges/truth/results

 

 

 

官網用CC創用_SA.png

arrow
arrow
    創作者介紹
    創作者 TIGS 的頭像
    TIGS

    有勁的基因資訊

    TIGS 發表在 痞客邦 留言(0) 人氣()