如何精確的利用NGS定序資料來偵測腫瘤細胞的染色體變異一直是一個非常重要的課題。一篇在2016發表在NAR的論文裡,作者開發了一個工具VarDict,使得研究者在進行腫瘤突變偵測的過程中能夠更加順利。

一般來說,常見的腫瘤細胞變異不外乎以下幾種:Single nucleotide variant (SNV)、Multiple nucleotide variants (MNV),Insertion,Deletion,complex variant、Structural variants (SV)。目前大家比較常用的variant calling軟體,例如:GATK、FreeBayes、VarScan,則是設計來針對SNV 以及small insertion and deletion進行偵測,至於複雜的變異型態 (complex variant)則是沒有包含。然而抑癌基因,例如 TP53, PTEN, BRA1/2, RB1, STK11, NF1…等等,經常包含了大片段的frameshift insertion and deletion或者是complex variant以及SV,就經常會被偵測軟體給遺漏。

除此之外,那些屬於低頻率變異 (low allele frequency mutations)往往讓研究者更感興趣。不僅僅是因為在腫瘤細胞中,那些佔有量極小但卻帶有特殊變異腫瘤細胞很有可能帶有抗藥性之外;目前最熱門的ctDNA (circulating tumor )DNA也需要進行低頻率變異的偵測。要完成這樣的偵測,我們往往會採用深度定序 (>5000X)。然而大部分的軟體遇到這樣的深度定序,為了避免使用運算資源及時間,往往會採用所謂的downsampling的方式,亦即將本來的定序資料進行隨機採樣來降低資料量。而這樣的過程會減少偵測靈敏度 (sensitity),而與當初的目的相違背。

為了解決以上的問題,VarDict採用了數種方法來解決。筆者在此條列幾項比較重要的特色:

  • ◆ Linear performance to depth
  • ◆ Local realignment
  • ◆ Built-in capability of deduplication
  • ◆ Accepting both DNA- and RNA-Seq
  • ◆ Paired analysis to detect variant frequency shifts alongside somatic and Loss of heterozygosity (LOH) variant detection and structural variant calling.
  • ◆ Detecting strand bias
  • ◆ Detection of polymerase chain reaction (PCR) artifacts
  • ◆ Ability to call larger complex variants

 

其中 Detection of polymerase chain reaction (PCR) artifacts,是指VarDict內建「amplicon aware variant calling」的功能。針對兩種情況,VarDict將會認為是錯誤的variant而加以過濾:

1. 在amplicon的重疊位置出現variant,但此variant卻僅出現在其中1個amplicon內,其他的amplicon則無,如下圖A。

20161108_1.png

2. 此variant出現在PCR primer的設計區域。理論上PCR primer在設計的時候應該是要與參考序列perfect match,因此假如variant座落在primer的位置,則此處很有可能是一個因為PCR放大錯誤而形成的variant。如下圖B。原本應該要與ERRB2結合的primer,卻因為與EGFR在序列上相當接近,而產生錯誤的PCR產物。

20161108_2.png

至於最後一項特色,作者列舉了一個與臨床用藥有關的例子來解釋偵測complex variant的重要性。目前已知肺癌患者假如帶有in-frame EGFR exon 19 deletion,則患者將可以使用EGFR抑制劑,例如gefitnib, erlotinib, AZD9291,來進行治療。然而下圖卻是一個偵測錯誤的例子

20161108_3.png

此為BWA mapping之後的結果。許多偵測軟體對於此區域會產生許多out-of-frame的InDel結果。因此造成此病人無法使用EGFR抑制劑。然而VarDict的演算法卻可以偵測出此變異應該是屬於的演算法卻可以偵測出此變異應該是屬於deletion (黃色框線) + insertion (藍色框線)的綜合複雜變異。而紅色框線代表reads和reference之間正確的比對區域。

另一個例子,在CELA1這個基因上,dbSNP有相當多筆不同的變異紀錄落在此處。但作者認為這很有可能是因為一個複雜的變異(29-bp deletion followed by a 13-bp insertion),造成錯誤的序列比對以及後續錯誤的變異偵測的結果:

20161108_4.png

參考文獻:

Lai, Zhongwu, et al. "VarDict: a novel and versatile variant caller for next-generation sequencing in cancer research." Nucleic acids research (2016): gkw227.

 

 

 

 

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()