作者:許博凱/有勁生物科技
過去的臨床試驗偵測CNVs和疾病的相關性研究,所使用的方式為genomic microarrays, 例如aCGH (array Comparative Genomic Hybridization), 圖 1。利用數百萬個探針來偵測基因體序列上的差異,其長度範圍可以從數千個到數百萬個base pairs,但仍有許多重要的且會致病的CNVs因晶片技術上的限制而被忽略沒有被偵測出來。因此愈來愈多的研究單位嘗試加入次世代序列的技術 (NGS)來強化檢測這類臨床上的變異,而NGS資料又分成來自Whole Exome Sequencing (WES)及Whole Genome Sequencing (WGS)兩種不同的定序結果。到底哪一個方式才是最好的選擇呢?接下來就依據其分析上的優缺點來解析。
圖1. Array CGH實驗流程。(from www.nggthailand.com/array-comparative-genomic-hybridisation-acgh/)
首先,以生物晶片來檢測CNVs來說,是最早被認為是高通量臨床試驗的利器,藉由不同的探針設計,配合實驗組及對照組的樣本在晶片上螢光表現的差異 (圖 1),再透過不同的統計檢定,就可以說明基因體於特定的區域上具有不同的拷貝數量,且可以推定可能是因為樣本差異所造成。但其結果無法了解序列上的實際差異,仍需要透過其他額外的實驗才能夠了解,此外許多研究發現CNVs並非致病的的單一因素,而是會配合基因體上其他型態的變異,例如,SNPs, InDel, translocation, inversion…等。而次世代序列定序的技術即是可以透過一次性的實驗結果後,就可以直接分析基因體上不同型態的變異,因此普遍被認為在未來會取代生物晶片作為臨床試驗的首要選擇。
使用NGS偵測CNVs常見的兩種為WES及WGS,其概念皆為樣本定序後得到大量的raw reads,使用序列比對的演算法將reads貼回基因體上後,透過觀察reads的位置/深度來偵測CNVs,主要有四種方式分別為read-pair(RP), split-read(SR), read-depth (RD)和assembly(AS), 圖 2。
圖 2. 四種主要的比對方式來偵測CNVs.
Read-pair (RP)是利用paired-end reads貼回參考基因體後,因為read1及read2間的距離(insert size, 可以參考YourGene paired-end vs. single end文章)和預期長度相比的差異來決定該區域出現insertion或deletion的變異,由圖2.1左邊來說,read1和read2貼回參考基因體序列後(綠色區域),中間所包含的區域(黃色區域)比預期insert size來的短,可以推斷參考基因體序列可能發生了deletion,反之則為insertion。Split-read(SR)則是相同的概念,只是insertion/deletion發生在read1或read2序列上。第三種方法為Read-dpeth(RD),是利用reads對應上參考基因體序列後,分析不同區域中的reads數量差異(深度差異)來判定insertion/deletion的區域。最後一種方法有別於前三種必須先和參考序列比對,而是先將定序所得到的所有reads做de novo assembly後,再和參考基因體之序列做比較,不過這個方法會面臨到許多問題 (請參考YourGene De novo assembly problem的介紹),一般較不會採用這個方式。這四種方式有其優缺點,特別在於不同的CNVs size偵測能力和決定CNVs開始/結束之準確位置的能力(圖 3),Read-depth的方法可以偵測較長的CNVs,為WES及WGS資料皆可採用的方法,但此方法breakpoint的準確性較弱。而其他三種方法大多用於WGS資料的分析。
圖3. NGS資料,四種主要的方法在CNV size及breakpoint的差異
許多研究針對相同的疾病資料(disease cohorts)和不同的NGS資料,試圖比較WES及WGS偵測CNVs的能力差異,畢竟WGS的花費相較於WES高上許多,會發現WES在一些較短的CNVs偵測上會出現問題,特別是這較短的CNVs所包含的exons小於三個以及CNVs發生於intron 區域。後者的問題可以從圖 4了解,WES主要是偵測CNVs 發生於exome的區域內及exome附近區域,若是CNVs在intron區域內,WES會明顯無法偵測到這類的變異,而WGS即不會有這樣的問題出現。
圖 4. 利用Read-depth偵測CNVs的差異(WES vs. WGS)
而前者的問題主要在於WES利用depth of coverage的方式,其資料點的計算(RPKM)及觀測單位為一個exon區域,若CNVs只包含了一個exon區域,在一個樣本中只佔一個資料點(相較其他exon區域值較大/較小),在整體資料分析時會被認為雜訊;相對的若CNVs包含較多的exons區域,在圖表上則會有較多的資料點而呈現較強的訊號,較不會被認定為不確定性的訊息(雜訊)。由於WES使用read-depth的方式來偵測CNVs,許多被偵測到的CNVs無法說明為致病的原因,但是透過WGS的資料結果分析後就可以簡單的被說明,以下用一個嚴重智能障礙(intellectual disability)的臨床資料為例,如圖 5,可以發現這類的病人在TENM3基因上皆有duplications的現象,但是確無法直接說明為何會影響到智能的障礙。WGS的資料分析結果會發現,如圖 6及圖 7可以說明,發生於TENM3上的duplication會 inverse並插入到chrX上的IQSEC2的基因上造成這個基因表現的不正常,而這個基因明顯和智能的表現是有相關的。
圖5. 在病人的TENM3基因(chr4)上會找到duplications.
圖6. WGS資料的分析,發現TENM3基因上的duplications會插入到chrX上的IQSEC2基因中
圖7. TENM3的一個區域被插入到IQSEC2基因之中
目前許多臨床試驗的實驗室是直接採用genomic microarray搭配WES的結果來分析CNVs,有些甚至就直接採用WES,原因是因為microarray所能偵測的範圍以及變異型態相較於WES小很多,需要靠其他的實驗來說明可能發生的原,因此兩者並行即除了可以相亙輔助並增加資料的確定性。此外WES資料儘管相較於WGS所偵測的範圍主要是侷限在exons區域附近佔整體基因體僅1%左右,偵測的區域少了許多intergenic region以及intron regions (這些區域所發現的CNVs在文獻上仍會和部份疾病有關),至少可以優先針對這些CNVs 可能直接影響基因的表現做為初步的分析。當有較多的經費時再使用WGS的方法。
參考文獻:
1. de Ligt, J., Boone, P.M., Pfundt, R., Vissers, L.E., Richmond, T., Geoghegan, J., O'Moore, K., de Leeuw, N., Shaw, C., Brunner, H.G. et al. Detection of clinically relevant copy number variants with whole-exome sequencing. Hum Mutat, 34, 1439-1448.
2. Hehir-Kwa, J.Y., Pfundt, R. and Veltman, J.A. Exome sequencing and whole genome sequencing for the detection of copy number variation. Expert Rev Mol Diagn, 15, 1023-1032.
3. Pirooznia, M., Goes, F.S. and Zandi, P.P. Whole-genome CNV analysis: advances in computational approaches. Front Genet, 6, 138.
留言列表