我們偶爾會聽到客戶方有這樣的問題:「在 illumina 其他平臺上定序的資料是否可以跟 Hiseq 2000 上的資料一起比較?」,這樣的問題其實很微妙。

首先,我們先探討不同廠牌平臺 ( illumina Roche 454) 間的比較能力,由於 Roche 454 illumina 平臺的樣品備製方法不同,定序原理不同,在序列取樣上的方式就不同,若直接進行比較,無法得知有差異之處究竟是來自樣本間的差異,還是定序方法上之差異。

但是同一廠牌,不同平臺間的資料是否能比較呢? illumina 為例,由於 Illumina 在製備樣品 library 時的方式固定,並且定序平臺使用的定序策略相近,理論上應該是可以被當作重複性的實驗,為了證明這個平臺相容性的問題,在最近 3 8 日的 Nature ISME 期刊中,illumia 與美國的一些知名大學教授合作,發表一篇 short communication 比較 Hiseq 以及 Miseq 的定序結果,探討跨越平臺是否會產生定序結果的差異性。

在這篇文章中所研究的主題為探討微生物的族群分布並且使用 Metagenomic 的方式來分析,材料來源分別取自土壤環境或是與寄主相關的口腔、表皮和排泄物,將全部 24 隻樣品平均上在 Hiseq2000 三條 lane 上以及 Miseq 一片 flow cell (一片只有一條 lane),再將這總共四條得到的 pair-end 資料分成 5′ 3′ 8 組。上圖 1 挑選出其中 4 組做為代表,比較 Hiseq lane lane 之間、5′ 3′ 之間和Hiseq Miseq 之間定序的相關性。

由以上設定條件比較差異性利用加權 UniFrac 距離 (weighted UniFrac distances)所繪製的主座標三維空間的圖(principal coordinates plots) (圖一),接下來以QIIME (Quantitative Insights Into Microbial Ecology, QIIME 是一種比較與分析微生物聚落的開放源碼軟體) 進行普氏分析(Procrustes analysis),我們可以得到色點的分布在 Hiseq lane lane 之間、5′ 3′ 之間和Hiseq Miseq 之間並沒有特別的差異。

新圖片 (2)

圖一

 

除此之外,作者進行了 10,000 蒙地卡羅迭代 (Monte Carlo iterations) 檢定所有可能的 28 種組合之間的差異性 (如圖二),發現 p-value 均是小於 0.0001。根據以上的結果我們可以得知,在 illumina 不同平臺上定序,其實不用擔心再現性不佳,當我們在不同的時間點採樣要求實驗重複的再現性時,比較需要注意的反倒是固定 library 的製備方式、定序的 program、以及分析的方式,如此統一而獲得的結果,相信在證明實驗的假說上才會更有說服力。

 新圖片 (1) 

圖二


參考文獻:http://www.nature.com/ismej/journal/vaop/ncurrent/full/ismej20128a.html

 

logo_121_55.png  

YourGene 發表在 痞客邦 PIXNET 留言(2) 人氣()


留言列表 (2)

發表留言
  • 淵
  • 您好, 不好意思
    不曉得您對於Qiime的軟體有沒有了解
    我看到一篇paper中也有提到這種類似的點狀圖

    由於不是這個領域的,想問這種圖的重軸和橫軸的那個PC是什麼呢
    怎麼調整condition ,而他們這些點的相對關係 又是怎麼解釋呢
    我閱讀的paper是這篇
    http://www.ncbi.nlm.nih.gov/pubmed/22297845
    FIG3就有類似的點狀圖
    希望能幫小弟解答
    謝謝!!
  • Hi 淵,
    我想你的問題應該主要是源自對於 PC 的意義不清楚的關係。
    PC 指的是 Principal Coordinate,而 PC 來自於 Principal Coordinate Analysis (PCoA,主座標分析),其定義為: Principal Coordinate Analysis (PCoA) is a technique that helps to extract and visualize a few highly informative components of variation from complex, multidimensional data. This is a transformation that maps the samples present in the distance matrix to a new set of orthogonal axes such that a maximum amount of variation is explained by the first principal coordinate, the second largest amount of variation is explained by the second principal coordinate, etc. The principal coordinates can be plotted in two or three dimensions to provide an intuitive visualization of the data structure and look at differences between the samples, and look for similarities by sample category.
    每個 PC 後面的百分比代表該維度的解釋能力。

    如果你還有不清楚的地方,可以 google "Principal Coordinate Analysis"關鍵字,應該可以找到你要的答案。
    關於你提到的 paper ,由於我們並非學術單位,無法觀看,所以沒辦法回答關於該 paper 的問題。

    YourGene 於 2012/04/30 10:35 回覆

  • Kristy
  • 有勁科技您好:
    有一篇文獻:Concordance among Gene-Expression-Based Predictors for Breast Cancer,他們利用NKI295的資料(此資料使用的平台是Agilent)來比較5種模型(此5種使用的平台不一定是Agilent)預測的結果的一致性,一致性蠻高的。
    我想請教的是,假設我用非Agilent平台找出50個基因,我也想利用NKI295資料,看我的基因表現結果,或是說我想用Agilent晶片,看我的基因表現結果,但Agilent晶片有些porbeset並無標示出所代表的gene symbol,您是否知道該如何將這50個基因,對應回Agilent晶片,是哪個probeset?
  • 您好:
    首先感謝妳對於本公司部落格的支持與閱讀,關於你所閱讀的這篇文獻,該實驗技術是類似 array comparative genomic hybridization chip 為主,關於這些本公司則無相關之實驗分析經驗,恕無法於此提供詳細之建議給您。建議您可以直接詢問Agilent原廠,以得到更完善的解答,謝謝!!

    YourGene 於 2015/07/21 15:42 回覆