過往我們進行RNA-Seq時,會使用RPKM或是FPKM來代表某個gene或是isoform的表現量多寡。可是當我們想要比較不同次實驗內的某個基因,其表現量相較於「整體基因表現」而言,是否維持在「固定比例」時,便無法使用這樣的計算方式。因此Wagner et. al. 在2012年的時候提出TPM (Transcript Per Million) 的概念來補足這個缺點。我們將利用以下的表格來進行FPKM以及TPM之間的解釋以及比較。

假設某個生物具有4個基因,分別為A, B, C, D。然後我們做了3次的RNA-Seq實驗,將獲得的reads與每個基因進行比對,其比對的數目如下表所示。

 

Replicate 1

Replicate 2

Replicate 3

Gene A (2kb)

10,000,000

12,000,000

30,000,000

Gene B (4kb)

20,000,000

25,000,000

60,000,000

Gene C (1kb)

5,000,000

8,000,000

15,000,000

Gene D (10kb)

0

0

1,000,000

Sum

35,000,000

45,000,000

106,000,000

根據RPKM的公式,

719-1.jpg

我們來計算實驗1的Gene A的RPKM,

719-2.png

然後再將表格內所有的數值都轉換成RPKM之後,我們得到下方表格

 

Replicate 1 (RPKM)

Replicate 2 (RPKM)

Replicate 3 (RPKM)

Gene A (2kb)

142857

133333

141509

Gene B (4kb)

142857

138889

141509

Gene C (1kb)

142857

177778

141509

Gene D (10kb)

0

0

943

Sum

428,571

450,000

425,470

 

我們再根據TPM的公式

719-3.png

來計算實驗1的Gene A的TPM,

719-4.png

然後再將表格內所有的數值都轉換成TPM之後,我們得到下方表格

 

Replicate 1 (TPM)

Replicate 2 (TPM)

Replicate 3 (TPM)

Gene A (2kb)

333333

296296

332594

Gene B (4kb)

333333

308642

332594

Gene C (1kb)

333333

395062

332594

Gene D (10kb)

0

0

2217

Sum

1,000,000

1,000,000

1,000,000

 

我們比較RPKM以及TPM的表格之後,我們可以發現RPKM在「Sum」這個欄位,三個實驗中的數值均不同,因此我們很難直接利用RPKM數值去比較每個基因「相較於整體」的表現量多寡。然而TPM則一律為1,000,000,也就是1 million,意即TPM的定義(Transcript Per Million)。因此這些數值便可以直接比較,瞭解基因之間的相對表現量。

參考資料

1. Wagner, Günter P., Koryu Kin, and Vincent J. Lynch. "Measurement of mRNA abundance using RNA-seq data: RPKM measure is inconsistent among samples." Theory in Biosciences 131.4 (2012): 281-285.

2. http://www.rna-seqblog.com/rpkm-fpkm-and-tpm-clearly-explained/

 

 

 

 

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()