降低定序錯誤率的實驗方法 @ 有勁的基因資訊

NGS技術中，降低錯誤率一直是很重要的一個環節。尤其是在癌症領域、法醫鑑定、遠古生物的基因體學、cell free DNA應用、metagenomics應用等領域，目標就是要正確地偵測到頻率很低的變異點位。也因此在實驗方法上如果會造成非特異性的錯誤率太高，就會無法正確的將非常稀有的變異點位找出來，這樣的點位會淹沒在非特異錯誤之中。

在2012年，Quail, M. et al. 曾經測試了當時各種定序平台的錯誤率，在當時，illumina 定序平台之隨機錯誤率基準值在0.1~0.5% 之間，而其他定序平台則在>1%。然而經過3年的時間，各家定序平台都推出了新版本的反應試劑，像是Ion Torrent 系統推出了Hi-Q定序試劑，Illumina 系統推出了SBS kit V2。這些定序試劑藉由更改化學配方與反應酵素，嘗試著降低各種可能的錯誤。在2015年，尚未有看到詳盡的新版本評比資訊，但隨著不同廠商不同機種的持續推出，可以期待未來在定序機台本身會有更好的表現。

High fidelity PCR enzyme

在NGS的流程中，另一個會導入錯誤的部分，會在樣品文庫製備的步驟。使用PCR polymerase所造成的錯誤或是鹼基受到損害，如氧化或是脫胺基作用。關於PCR polymerase的進步，主要是改進在B-family polymerase的酵素有越來越強的proof reading的能力，而不同廠商的研發，讓更好的high fidelity PCR polymerase 可供使用。在Newman, A. M., et. al.的報告 (2013年)中，他們測試了數種B-family polymerase，他們的實驗結果顯示在Illumina 系統之中KAPA Library Preparation Kit所使用的酵素是最合適的選擇。

除了酵素選擇之外，也有不同的研究團隊致力於使用不同的文庫建構與分析方法，來增加我們正確偵測到罕見變異點位的能力。在Hiatt, J. B. 等人在2010年使用tag，單股分子標記的方式來增加正確性，2011年，Kinde, I.,等人介紹了Safe-SeqS，2012年，Schmitt, M. W., et. al. 發表了Duplex Sequencing 技術改進前項技術，並使用該技術應用在各個領域，並發了一系列的paper在各個重要期刊。Lou, D. I., 等人則發展了Circle sequencing方法，Gregory, M. T. et. al.發展了CypherSeq方法。

Safe-SeqS

Safe-SeqS主要分為兩個步驟，1. 將unique identifier (UID)放入我們的樣本中的每個分子上，2. 放大我們的樣本，每個分子由於有UID，所以可以視作是同一個家族，只有在大於95%的UID家族中都有相同的變異點，才被視為是真的變異點位。而UID可以有很多種形式，有內生性的也有外加型的，內生性的可以是我們使用機械式打斷DNA時，分子兩端所呈現的不同片段，而外加式的則多半是由Ligation或是PCR的步驟加入。在Kinde, I.等人2011年的報導中，內生性的UID方法大概可以將錯誤率從2.4 × 10⁻⁴mutations/bp降低至3.5 × 10⁻⁶ mutations/bp，而外生性的則約在9.0 ± 3.1 ×10⁻⁶ mutations/bp。

Kinde, I.等人將這個技術也帶入到Target seq的領域，他們將target seq所使用的Primer設計為如圖1，具有Universal primer, UPS-1 UPS-2，接著unique identifier，UID1~，來進行很少的PCR 循環，讓UID接到我們的樣品分子上。接著會去除掉Safe-SeqS的primer，並用帶有定序所需序列的與Universal序列的Primer，進行後續步驟的放大。

圖1.jpg

圖1. Diagram of the modified Safe-SeqS assay used, which allowed for the simultaneous detection of mutations in 12 different genes. 在2013年的paper顯示了這樣結合target enrichment與 Safe-SeqS的方法可以正確偵測到allele frequency >0.1%的能力。

Duplex sequencing

Kennedy, S. R.等人在2014年發表的文章中，詳細說明了Duplex Sequencing的設計原理如圖2。

圖2.png

圖2. Duplex Sequencing 概要圖

整個Duplex Sequencing概念是是在樣品的序列兩邊旁邊先接上隨機的Duplex tag，這些Duplex tag設計在定序的adapter 上如圖2a，在圖2b黃色的部分為我們樣品序列，當接合之後才去進行放大。由於每個特異的樣品序列都有自己的Tag，所以放大後我們可藉由這些tag分辨出從同一個原始序列放大出的序列。定序完後，藉由tag，我們可以把不同群的序列分開，並且把得到每一個單股序列的一致變異點位(Single-strand consensus sequences, SSCSs)(圖2C)，最後將兩個互補股的變異點位互相比較，最後只有共有的變異點位(Duplex consensus sequences, DCSs)才被確認為是真實的變異點位。

相較於其他方法，Duplex Sequencing的優點在於高正確性。其他方法主要會遭遇到在第一輪放大如有產生insertion或deletion等帶入的錯誤，會一直被保留下來，而被錯誤的當成是突變。尤其是在受損的或是有降解的DNA中特別會受到影響，在這類品質不佳的樣品中DNA 附加物(DNA adduct)的存在造成DNA聚合錯誤，產生錯誤的鹼基配對。而由於Duplex sequencing定序兩股來判斷真實變異點位的方式，讓這個方法可以大幅的降低背景錯誤的頻率(background error frequency)，該團隊的研究數據顯示，他們的背景錯誤頻率小於5x10^-8 而一般定序平台的數值約在10^-2~10^-3 小了超過10000倍以上。

然而Duplex sequencing 也有其缺點存在，這個方法要定序大量的PCR duplicate以及互補股的DNA 序列，所以需要定序的資料量與深度就變得很驚人。依照該團隊的報告，>1~2Mbp的目標序列長度，所需的資料量與花費就會讓人打退堂鼓。

Circle sequencing

Lou, D. I.等人在2013年發表了circle sequencing方法如下圖3。

圖3.png

圖3 circle sequencing 概要圖

圖3A比較了使用Barcode的方法來減少錯誤的概念。圖3B 則概要性的介紹了circle sequencing 的重點。首先先將DNA denature後，使其環狀化。接著使用有strand-displacement的能力的Phi29 polymerase，將環形的DNA上的基因資訊放大成一長條的DNA。之後，使用random primer產出雙股的DNA產物，上面帶有原本環形DNA數倍的資訊。在定序此序列後，我們可以將read分成好幾個copy，每個copy等同於一個環形DNA的資訊。藉由比較一致性的變異點位，最終我們可以得到真實的變異點位。

Circle sequencing在該篇報導中的錯誤率是7.6 × 10⁻⁶ per base sequenced，而該定序方式的幾個特點在作者的總結如下：1. 可以減少一開始就產生的放大錯誤 2. 比較不會有barcode方法有些放大的比較多，有些比較少的情形。3. 避免barcode法中相同的barcode接到相似的序列中，造成了分析錯誤，4. Barcode本身的定序錯誤不會出現。

Cypher seq

2015年Gregory, M. T.,等人分享了如下圖4的方法。

圖4.png

圖4 Cypher seq 概要

他們設計了一個如圖4A的載體，並將我們要定序的序列接入，經過PCR放大後，或是使用細菌生長放大並用酵素切出後，我們可以將此序列拿去定序。接著一樣是用類似的概念，只有一致性都有產生變異的點位，才被歸納為真正的變異點位。而這個方法的優點，在於他可以搭配目標區域的primer 進行Rolling circle amplification來產生enrichment的效果如圖5，讓target enrichment不再受限於capture的方法。

圖5.png

圖5使用Rolling circle amplification 與cypher seq library來進行target enrichment

參考文獻:

Gregory, Mark T., et al. "Targeted single molecule mutation detection with massively parallel sequencing." Nucleic acids research (2015): gkv915.

Hiatt, Joseph B., et al. "Parallel, tag-directed assembly of locally derived short sequence reads." Nature methods 7.2 (2010): 119-122.

Kennedy, Scott R., et al. "Detecting ultralow-frequency mutations by Duplex Sequencing." Nature protocols 9.11 (2014): 2586-2606.

Kinde, Isaac, et al. "Detection and quantification of rare mutations with massively parallel sequencing." Proceedings of the National Academy of Sciences 108.23 (2011): 9530-9535.

Kinde, Isaac, et al. "Evaluation of DNA from the Papanicolaou test to detect ovarian and endometrial cancers." Science translational medicine 5.167 (2013): 167ra4-167ra4.

Lou, Dianne I., et al. "High-throughput DNA sequencing errors are reduced by orders of magnitude using circle sequencing." Proceedings of the National Academy of Sciences 110.49 (2013): 19872-19877.

Newman, Aaron M., et al. "An ultrasensitive method for quantitating circulating tumor DNA with broad patient coverage." Nature medicine 20.5 (2014): 548.

Schmitt, Michael W., et al. "Detection of ultra-rare mutations by next-generation sequencing." Proceedings of the National Academy of Sciences 109.36 (2012): 14508-14513.

Quail, Michael A., et al. "A tale of three next generation sequencing platforms: comparison of Ion Torrent, Pacific Biosciences and Illumina MiSeq sequencers." BMC genomics 13.1 (2012): 1.

https://ioncommunity.thermofisher.com/docs/DOC-9220