跨越定序平臺的迷思 @ 有勁的基因資訊

我們偶爾會聽到客戶方有這樣的問題：「在 illumina 其他平臺上定序的資料是否可以跟 Hiseq 2000 上的資料一起比較？」，這樣的問題其實很微妙。

首先，我們先探討不同廠牌平臺 (如 illumina與 Roche 454) 間的比較能力，由於 Roche 454 與illumina 平臺的樣品備製方法不同，定序原理不同，在序列取樣上的方式就不同，若直接進行比較，無法得知有差異之處究竟是來自樣本間的差異，還是定序方法上之差異。

但是同一廠牌，不同平臺間的資料是否能比較呢? 以illumina 為例，由於 Illumina 在製備樣品 library 時的方式固定，並且定序平臺使用的定序策略相近，理論上應該是可以被當作重複性的實驗，為了證明這個平臺相容性的問題，在最近 3 月 8 日的 Nature ISME 期刊中，illumia 與美國的一些知名大學教授合作，發表一篇 short communication 比較 Hiseq 以及 Miseq 的定序結果，探討跨越平臺是否會產生定序結果的差異性。

在這篇文章中所研究的主題為探討微生物的族群分布並且使用 Metagenomic 的方式來分析，材料來源分別取自土壤環境或是與寄主相關的口腔、表皮和排泄物，將全部 24 隻樣品平均上在 Hiseq2000 三條 lane 上以及 Miseq 一片 flow cell 上 (一片只有一條 lane)，再將這總共四條得到的 pair-end 資料分成 5′ 和 3′ 共 8 組。上圖 1 挑選出其中 4 組做為代表，比較 Hiseq 的 lane 與 lane 之間、5′ 與 3′ 之間和Hiseq 與 Miseq 之間定序的相關性。

由以上設定條件比較差異性利用加權 UniFrac 距離 (weighted UniFrac distances)所繪製的主座標三維空間的圖(principal coordinates plots) (圖一)，接下來以QIIME (Quantitative Insights Into Microbial Ecology, QIIME 是一種比較與分析微生物聚落的開放源碼軟體) 進行普氏分析(Procrustes analysis)，我們可以得到色點的分布在 Hiseq 的 lane 與 lane 之間、5′ 與 3′ 之間和Hiseq 與 Miseq 之間並沒有特別的差異。

新圖片 (2)

圖一

除此之外，作者進行了 10,000 次蒙地卡羅迭代 (Monte Carlo iterations) 檢定所有可能的 28 種組合之間的差異性 (如圖二)，發現 p-value 均是小於 0.0001。根據以上的結果我們可以得知，在 illumina 不同平臺上定序，其實不用擔心再現性不佳，當我們在不同的時間點採樣要求實驗重複的再現性時，比較需要注意的反倒是固定 library 的製備方式、定序的 program、以及分析的方式，如此統一而獲得的結果，相信在證明實驗的假說上才會更有說服力。

新圖片 (1)