RNA-seq 是透過次世代定序的技術來偵測基因表現量的方法,在衡量基因表現量時,若是單純以 map 到的 read 數來計算基因的表現量,在統計上是一件相當不合理事,因為在隨機抽樣的情況下,序列較長的基因被抽到的機率本來就會比序列短的基因較高,如此一來,序列長的基因永遠會被認為表現量較高,而錯估基因真正的表現量,所以 Ali Mortazavi 等人在 2008 年提出以 RPKM 在估計基因的表現量。

RPKM 是將 map 到基因的 read 數除以 mapgenome 的所有 read (million 為單位)RNA 的長度( KB 為單位)

 

其公式為:

image006.png 

其中,total exon reads / mapped reads (millions) 可以視為所有 read 數中有百分之多少是 map 到這個基因,然後再除以基因長度,就可以某基因得到單位長度有百分之多少的 total mapped read 有表現。

 

 

以下就用一個簡化的例子來說明 RPKM 的運用方式與概念:

假設一基因體只有兩個基因,一個9 KB,一個1 KB,如今有一 sample,其 map 到 9 KB 的 read 有 18 個,map 到 1 KB 的有 2 個,如下圖所示。

圖片1.png  

對於 9 KB 的基因而言,

Total exon reads=18 

Mapped reads=18+2=20 million

Exon length=9 KB

RPKM=18/(20*9)=0.1

 

對於 1 KB 的基因而言,

Total exon reads=2 

Mapped reads=18+2=20 million

Exon length=1 KB

RPKM=2/(20*1)=0.1

 

由此我們可以知道這兩個基因表現量沒有差別。

 

假設此時我們有另一個 sample,其表現如下圖所示:

圖片2.png  

我們可以發現此 sample 9 KB 基因的 read 數明顯比上一個 sample 少,如果我們計算 RPKM 可以得到 RPKM = 9/((9+1)*9)=0.1,卻與上一個 sample 相同,這可能是因為 cDNA 濃度較低或是其他 sample 備製過程的問題,造成整體 read 變少,但是對 9 KB 基因而言,其 read 數佔所有 read 數的比例並沒有發生改變,所以其表現量會和上一個 sample 相同。

 

 

 

 

 

logo yourgene    

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 TIGS 的頭像
    TIGS

    有勁的基因資訊

    TIGS 發表在 痞客邦 留言(6) 人氣()