RNA-seq 是透過次世代定序的技術來偵測基因表現量的方法,在衡量基因表現量時,若是單純以 map 到的 read 數來計算基因的表現量,在統計上是一件相當不合理事,因為在隨機抽樣的情況下,序列較長的基因被抽到的機率本來就會比序列短的基因較高,如此一來,序列長的基因永遠會被認為表現量較高,而錯估基因真正的表現量,所以 Ali Mortazavi 等人在 2008 年提出以 RPKM 在估計基因的表現量。
RPKM 是將 map 到基因的 read 數除以 map 到 genome 的所有 read 數 (以 million 為單位) 與 RNA 的長度(以 KB 為單位)。
其公式為:
其中,total exon reads / mapped reads (millions) 可以視為所有 read 數中有百分之多少是 map 到這個基因,然後再除以基因長度,就可以某基因得到單位長度有百分之多少的 total mapped read 有表現。
以下就用一個簡化的例子來說明 RPKM 的運用方式與概念:
假設一基因體只有兩個基因,一個9 KB,一個1 KB,如今有一 sample,其 map 到 9 KB 的 read 有 18 個,map 到 1 KB 的有 2 個,如下圖所示。
對於 9 KB 的基因而言,
Total exon reads=18
Mapped reads=18+2=20 million
Exon length=9 KB
RPKM=18/(20*9)=0.1
對於 1 KB 的基因而言,
Total exon reads=2
Mapped reads=18+2=20 million
Exon length=1 KB
RPKM=2/(20*1)=0.1
由此我們可以知道這兩個基因表現量沒有差別。
假設此時我們有另一個 sample,其表現如下圖所示:
我們可以發現此 sample 中 9 KB 基因的 read 數明顯比上一個 sample 少,如果我們計算 RPKM 可以得到 RPKM = 9/((9+1)*9)=0.1,卻與上一個 sample 相同,這可能是因為 cDNA 濃度較低或是其他 sample 備製過程的問題,造成整體 read 變少,但是對 9 KB 基因而言,其 read 數佔所有 read 數的比例並沒有發生改變,所以其表現量會和上一個 sample 相同。
留言列表