比較不同實驗條件下生物體的基因表現量差異,不再只能透過生物晶片觀察螢光反應定量基因表現量,亦可以藉由次世代定序偵測生物體的基因表現 (圖一) (Garber M, 2011)。而從RNA-seq結果尋找具有顯著表現量差異的基因是分析定序資料很重要的一部份,想要精確地定量和正規化定序資料,至少需要考慮兩個因素:基因長度和定序深度(或是總定序資料量)

20130104_pic1

圖一

 

第一個因素 基因長度。特別是分析一個基因體中不同基因的表現量時,需要考慮各個基因的長度。一般而言,長度越長的基因,會傾向被定序到更多reads。例如:RPKM (Reads Per Kilobase per Million mapped reads)和FPKM (Fragments Per Kilobase of transcript per Million)就是以基因長度作為正規化的參數之一 (公式如下所示)。關於RPKM和FRKM的說明,請參考之前的文章:RPKM簡介FPKM - Fragments Per Kilobase of transcript per Million

20130104_pic2  

 

20130104_pic4    圖二、以四個transcript為例,在不同長度和read coverage程度,經過FPKM的轉換,樣品3和樣品4具有相同的表現量。

 

 

第二個因素 定序深度。假若想要分析不同實驗條件下的基因表現量差異,則須考慮在這幾個樣品的定序深度。常見方法有兩種:(1)整體尺度正規化:藉由在每一個樣品的read count統計數字(例如 :四分位數或是平均數)將定序深度一致化;(2)分布標準化:將不同樣品間的read count分布一致化(Kadota K, et al, 2012)。一般而言,RNA-seq的分布偏向卜瓦松分布(Poisson distribution),但是,部分研究顯示卜瓦松分布無法反映樣品間的生物變異(biological variability),主要是由於目前很少有實驗室會多組重複的RNA-seq定序,因而低估了生物取樣的樣品間誤差(Garber M, 2011Oshlack A, 2010)DESeq為其中一種方法,企圖藉由負二項分布(negative binomial distribution)為模型,在沒有大量重複定序資料的情況下,來量度非線性的定序資料。

 

DESeq是一個R語言分析套件,常用於分析RNA-seq的資料和基因表現量差異。模擬基因在隨機抽樣定序中,按照負二項分布的假設對數據進行估計而的分布,並且依據FDR(false discovery rate)計算各個基因間是否有顯著的差異。

 

DESeq使用的模型為負二項分布,具有以下特點(Garber M, 2011Oshlack A, 2010Anders S, e2010)

  1. 由於read count資料是離散傾斜的分布,與常態分佈不同。而透過負二項分布的統計檢驗,較能檢測出基因表現量差異。
  2. 比較兩個不同實驗條件的基因表現差異,需要考慮樣品取樣的差異性。如同上面的段落提到,部分文獻認為卜瓦松分布適合用來分析基因表現差異。然而,基於卜瓦松分布(包含二項式分布和卡方檢驗)忽略了生物樣本的變異性,導致過度樂觀估計p值,因此提高Flase positive rate。負二項分布是一個卜瓦松模型的一般化,考慮了生物取樣的變異性。
  3. DESeq相似的工具 - edgeR同樣具有前兩個特性,而DESeq的特性在於它可以估計局部的變異,對於不同基因表現量採用不同的變異參數,可以降低因為高表現量所產生的偏見,得到更加準確的結果。

 

 

參考文獻:

  1. Garber M, Grabherr MG, Guttman M, Trapnell C. (2011) Computational methods for transcriptome annotation and quantification using RNA-seq. Nat Methods 8: 469-477.
  2. Kadota K, Nishiyama T, Shimizu K. (2012) A normalization strategy for comparing tag count data. Algorithms Mol Biol. 7:5.
  3. Oshlack A, Robinson MD, Young MD. (2010) From RNA-seq reads to differential expression results. Genome Biol. 11:220.
  4. Anders S and Huber W. (2010) Differential expression analysis for sequence count data. Genome Biol. 11:R106

  

 

 

 

logo yourgene    

 

 

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()