RPKM 簡介－有勁的基因資訊

RNA-seq 是透過次世代定序的技術來偵測基因表現量的方法，在衡量基因表現量時，若是單純以 map 到的 read 數來計算基因的表現量，在統計上是一件相當不合理事，因為在隨機抽樣的情況下，序列較長的基因被抽到的機率本來就會比序列短的基因較高，如此一來，序列長的基因永遠會被認為表現量較高，而錯估基因真正的表現量，所以 Ali Mortazavi 等人在 2008 年提出以 RPKM 在估計基因的表現量。

RPKM 是將 map 到基因的 read 數除以 map 到 genome 的所有 read 數 (以 million 為單位) 與 RNA 的長度(以 KB 為單位)。

其公式為:

其中，total exon reads / mapped reads (millions) 可以視為所有 read 數中有百分之多少是 map 到這個基因，然後再除以基因長度，就可以某基因得到單位長度有百分之多少的 total mapped read 有表現。

以下就用一個簡化的例子來說明 RPKM 的運用方式與概念:

假設一基因體只有兩個基因，一個9 KB，一個1 KB，如今有一 sample，其 map 到 9 KB 的 read 有 18 個，map 到 1 KB 的有 2 個，如下圖所示。

圖片1.png

對於 9 KB 的基因而言，

Total exon reads=18

Mapped reads=18+2=20 million

Exon length=9 KB

RPKM=18/(20*9)=0.1

對於 1 KB 的基因而言，

Total exon reads=2

Mapped reads=18+2=20 million

Exon length=1 KB

RPKM=2/(20*1)=0.1

由此我們可以知道這兩個基因表現量沒有差別。

假設此時我們有另一個 sample，其表現如下圖所示:

圖片2.png

我們可以發現此 sample 中 9 KB 基因的 read 數明顯比上一個 sample 少，如果我們計算 RPKM 可以得到 RPKM = 9/((9+1)*9)=0.1，卻與上一個 sample 相同，這可能是因為 cDNA 濃度較低或是其他 sample 備製過程的問題，造成整體 read 變少，但是對 9 KB 基因而言，其 read 數佔所有 read 數的比例並沒有發生改變，所以其表現量會和上一個 sample 相同。