作者:林志鵬/有勁生物科技
過往我們進行RNA-Seq時,會使用RPKM或是FPKM來代表某個gene或是isoform的表現量多寡。可是當我們想要比較不同次實驗內的某個基因,其表現量相較於「整體基因表現」而言,是否維持在「固定比例」時,便無法使用這樣的計算方式。因此Wagner et. al. 在2012年的時候提出TPM (Transcript Per Million) 的概念來補足這個缺點。我們將利用以下的表格來進行FPKM以及TPM之間的解釋以及比較。
假設某個生物具有4個基因,分別為A, B, C, D。然後我們做了3次的RNA-Seq實驗,將獲得的reads與每個基因進行比對,其比對的數目如下表所示。
|
Replicate 1 |
Replicate 2 |
Replicate 3 |
Gene A (2kb) |
10,000,000 |
12,000,000 |
30,000,000 |
Gene B (4kb) |
20,000,000 |
25,000,000 |
60,000,000 |
Gene C (1kb) |
5,000,000 |
8,000,000 |
15,000,000 |
Gene D (10kb) |
0 |
0 |
1,000,000 |
Sum |
35,000,000 |
45,000,000 |
106,000,000 |
根據RPKM的公式,
我們來計算實驗1的Gene A的RPKM,
然後再將表格內所有的數值都轉換成RPKM之後,我們得到下方表格
|
Replicate 1 (RPKM) |
Replicate 2 (RPKM) |
Replicate 3 (RPKM) |
Gene A (2kb) |
142857 |
133333 |
141509 |
Gene B (4kb) |
142857 |
138889 |
141509 |
Gene C (1kb) |
142857 |
177778 |
141509 |
Gene D (10kb) |
0 |
0 |
943 |
Sum |
428,571 |
450,000 |
425,470 |
我們再根據TPM的公式
來計算實驗1的Gene A的TPM,
然後再將表格內所有的數值都轉換成TPM之後,我們得到下方表格
|
Replicate 1 (TPM) |
Replicate 2 (TPM) |
Replicate 3 (TPM) |
Gene A (2kb) |
333333 |
296296 |
332594 |
Gene B (4kb) |
333333 |
308642 |
332594 |
Gene C (1kb) |
333333 |
395062 |
332594 |
Gene D (10kb) |
0 |
0 |
2217 |
Sum |
1,000,000 |
1,000,000 |
1,000,000 |
我們比較RPKM以及TPM的表格之後,我們可以發現RPKM在「Sum」這個欄位,三個實驗中的數值均不同,因此我們很難直接利用RPKM數值去比較每個基因「相較於整體」的表現量多寡。然而TPM則一律為1,000,000,也就是1 million,意即TPM的定義(Transcript Per Million)。因此這些數值便可以直接比較,瞭解基因之間的相對表現量。
參考資料
1. Wagner, Günter P., Koryu Kin, and Vincent J. Lynch. "Measurement of mRNA abundance using RNA-seq data: RPKM measure is inconsistent among samples." Theory in Biosciences 131.4 (2012): 281-285.
2. http://www.rna-seqblog.com/rpkm-fpkm-and-tpm-clearly-explained/