RNA-seq 是透過次世代定序的技術來偵測基因表現量的方法,在衡量基因表現量時,若是單純以 map 到的 read 數來計算基因的表現量,在統計上是一件相當不合理事,因為在隨機抽樣的情況下,序列較長的基因被抽到的機率本來就會比序列短的基因較高,如此一來,序列長的基因永遠會被認為表現量較高,而錯估基因真正的表現量,所以 Ali Mortazavi 等人在 2008 年提出以 RPKM 在估計基因的表現量。

RPKM 是將 map 到基因的 read 數除以 mapgenome 的所有 read (million 為單位)RNA 的長度( KB 為單位)

 

其公式為:

image006.png 

其中,total exon reads / mapped reads (millions) 可以視為所有 read 數中有百分之多少是 map 到這個基因,然後再除以基因長度,就可以某基因得到單位長度有百分之多少的 total mapped read 有表現。

 

 

以下就用一個簡化的例子來說明 RPKM 的運用方式與概念:

假設一基因體只有兩個基因,一個9 KB,一個1 KB,如今有一 sample,其 map 到 9 KB 的 read 有 18 個,map 到 1 KB 的有 2 個,如下圖所示。

圖片1.png  

對於 9 KB 的基因而言,

Total exon reads=18 

Mapped reads=18+2=20 million

Exon length=9 KB

RPKM=18/(20*9)=0.1

 

對於 1 KB 的基因而言,

Total exon reads=2 

Mapped reads=18+2=20 million

Exon length=1 KB

RPKM=2/(20*1)=0.1

 

由此我們可以知道這兩個基因表現量沒有差別。

 

假設此時我們有另一個 sample,其表現如下圖所示:

圖片2.png  

我們可以發現此 sample 9 KB 基因的 read 數明顯比上一個 sample 少,如果我們計算 RPKM 可以得到 RPKM = 9/((9+1)*9)=0.1,卻與上一個 sample 相同,這可能是因為 cDNA 濃度較低或是其他 sample 備製過程的問題,造成整體 read 變少,但是對 9 KB 基因而言,其 read 數佔所有 read 數的比例並沒有發生改變,所以其表現量會和上一個 sample 相同。

 

 

 

 

 

logo yourgene    

YourGene 發表在 痞客邦 PIXNET 留言(4) 人氣()


留言列表 (4)

發表留言
  • VI
  • 不好意思打擾了,想請問一個笨問題,因為一直不太了解在NGS中所測得的reads到底是代表什麼意思,能不能請較一下?非常感謝~
  • YourGene
  • NGS 所測定出來的序列一般是較短的序列,這些短序列通稱為 reads,換言之,reads 就是指由定序儀器所測定出的核苷酸序列。
  • VI
  • 瞭解了~~非常感謝你!!!!!!!想再請教一個問題,一般如果是做miR-seq的話,片段這麼短的大約幾個reads是常用的呢?10 million 足夠嗎?? 先謝謝你的幫忙!!
  • 這主要看你想研究的 miRNA 的表現量,假如你只想那些量較高的 miRNA,那可以定少一點,如果連一些比較 minor 的 miRNA 的表現量也想觀察到的話,那就需要定多一點,這就像統計上的抽樣一樣。
    至於真正該定多少量,可能還是看你研究的物種與研究的主題才有辦法判斷。

    YourGene 於 2011/12/19 18:35 回覆

  • vi
  • 好的,真的受益良多!!很謝謝你喔~~~~^^