臨床疾病相關的序列拷貝數變異偵測方式 @ 有勁的基因資訊

作者：許博凱/有勁生物科技

過去的臨床試驗偵測CNVs和疾病的相關性研究，所使用的方式為genomic microarrays, 例如aCGH (array Comparative Genomic Hybridization), 圖 1。利用數百萬個探針來偵測基因體序列上的差異，其長度範圍可以從數千個到數百萬個base pairs，但仍有許多重要的且會致病的CNVs因晶片技術上的限制而被忽略沒有被偵測出來。因此愈來愈多的研究單位嘗試加入次世代序列的技術 (NGS)來強化檢測這類臨床上的變異，而NGS資料又分成來自Whole Exome Sequencing (WES)及Whole Genome Sequencing (WGS)兩種不同的定序結果。到底哪一個方式才是最好的選擇呢？接下來就依據其分析上的優缺點來解析。

圖1. Array CGH實驗流程。(from www.nggthailand.com/array-comparative-genomic-hybridisation-acgh/)

首先，以生物晶片來檢測CNVs來說，是最早被認為是高通量臨床試驗的利器，藉由不同的探針設計，配合實驗組及對照組的樣本在晶片上螢光表現的差異 (圖 1)，再透過不同的統計檢定，就可以說明基因體於特定的區域上具有不同的拷貝數量，且可以推定可能是因為樣本差異所造成。但其結果無法了解序列上的實際差異，仍需要透過其他額外的實驗才能夠了解，此外許多研究發現CNVs並非致病的的單一因素，而是會配合基因體上其他型態的變異，例如，SNPs, InDel, translocation, inversion…等。而次世代序列定序的技術即是可以透過一次性的實驗結果後，就可以直接分析基因體上不同型態的變異，因此普遍被認為在未來會取代生物晶片作為臨床試驗的首要選擇。

使用NGS偵測CNVs常見的兩種為WES及WGS，其概念皆為樣本定序後得到大量的raw reads，使用序列比對的演算法將reads貼回基因體上後，透過觀察reads的位置/深度來偵測CNVs，主要有四種方式分別為read-pair(RP), split-read(SR), read-depth (RD)和assembly(AS), 圖 2。

圖 2. 四種主要的比對方式來偵測CNVs.

Read-pair (RP)是利用paired-end reads貼回參考基因體後，因為read1及read2間的距離(insert size, 可以參考YourGene paired-end vs. single end文章)和預期長度相比的差異來決定該區域出現insertion或deletion的變異，由圖2.1左邊來說，read1和read2貼回參考基因體序列後(綠色區域)，中間所包含的區域(黃色區域)比預期insert size來的短，可以推斷參考基因體序列可能發生了deletion，反之則為insertion。Split-read(SR)則是相同的概念，只是insertion/deletion發生在read1或read2序列上。第三種方法為Read-dpeth(RD)，是利用reads對應上參考基因體序列後，分析不同區域中的reads數量差異(深度差異)來判定insertion/deletion的區域。最後一種方法有別於前三種必須先和參考序列比對，而是先將定序所得到的所有reads做de novo assembly後，再和參考基因體之序列做比較，不過這個方法會面臨到許多問題 (請參考YourGene De novo assembly problem的介紹)，一般較不會採用這個方式。這四種方式有其優缺點，特別在於不同的CNVs size偵測能力和決定CNVs開始/結束之準確位置的能力(圖 3)，Read-depth的方法可以偵測較長的CNVs，為WES及WGS資料皆可採用的方法，但此方法breakpoint的準確性較弱。而其他三種方法大多用於WGS資料的分析。

圖3. NGS資料，四種主要的方法在CNV size及breakpoint的差異

許多研究針對相同的疾病資料(disease cohorts)和不同的NGS資料，試圖比較WES及WGS偵測CNVs的能力差異，畢竟WGS的花費相較於WES高上許多，會發現WES在一些較短的CNVs偵測上會出現問題，特別是這較短的CNVs所包含的exons小於三個以及CNVs發生於intron 區域。後者的問題可以從圖 4了解，WES主要是偵測CNVs 發生於exome的區域內及exome附近區域，若是CNVs在intron區域內，WES會明顯無法偵測到這類的變異，而WGS即不會有這樣的問題出現。

圖 4. 利用Read-depth偵測CNVs的差異(WES vs. WGS)

而前者的問題主要在於WES利用depth of coverage的方式，其資料點的計算(RPKM)及觀測單位為一個exon區域，若CNVs只包含了一個exon區域，在一個樣本中只佔一個資料點(相較其他exon區域值較大/較小)，在整體資料分析時會被認為雜訊；相對的若CNVs包含較多的exons區域，在圖表上則會有較多的資料點而呈現較強的訊號，較不會被認定為不確定性的訊息(雜訊)。由於WES使用read-depth的方式來偵測CNVs，許多被偵測到的CNVs無法說明為致病的原因，但是透過WGS的資料結果分析後就可以簡單的被說明，以下用一個嚴重智能障礙(intellectual disability)的臨床資料為例，如圖 5，可以發現這類的病人在TENM3基因上皆有duplications的現象，但是確無法直接說明為何會影響到智能的障礙。WGS的資料分析結果會發現，如圖 6及圖 7可以說明，發生於TENM3上的duplication會 inverse並插入到chrX上的IQSEC2的基因上造成這個基因表現的不正常，而這個基因明顯和智能的表現是有相關的。

圖5. 在病人的TENM3基因(chr4)上會找到duplications.

圖6. WGS資料的分析，發現TENM3基因上的duplications會插入到chrX上的IQSEC2基因中

圖7. TENM3的一個區域被插入到IQSEC2基因之中

目前許多臨床試驗的實驗室是直接採用genomic microarray搭配WES的結果來分析CNVs，有些甚至就直接採用WES，原因是因為microarray所能偵測的範圍以及變異型態相較於WES小很多，需要靠其他的實驗來說明可能發生的原，因此兩者並行即除了可以相亙輔助並增加資料的確定性。此外WES資料儘管相較於WGS所偵測的範圍主要是侷限在exons區域附近佔整體基因體僅1%左右，偵測的區域少了許多intergenic region以及intron regions (這些區域所發現的CNVs在文獻上仍會和部份疾病有關)，至少可以優先針對這些CNVs 可能直接影響基因的表現做為初步的分析。當有較多的經費時再使用WGS的方法。

參考文獻：

1. de Ligt, J., Boone, P.M., Pfundt, R., Vissers, L.E., Richmond, T., Geoghegan, J., O'Moore, K., de Leeuw, N., Shaw, C., Brunner, H.G. et al. Detection of clinically relevant copy number variants with whole-exome sequencing. Hum Mutat, 34, 1439-1448.

2. Hehir-Kwa, J.Y., Pfundt, R. and Veltman, J.A. Exome sequencing and whole genome sequencing for the detection of copy number variation. Expert Rev Mol Diagn, 15, 1023-1032.

3. Pirooznia, M., Goes, F.S. and Zandi, P.P. Whole-genome CNV analysis: advances in computational approaches. Front Genet, 6, 138.