作者:徐于晴/有勁生物科技

 

物種繁衍的過程當中,個體之間都會有所差異,這些差異從微觀的角度來看,就是每個個體的DNA序列會有不同,反映在外觀上,就是每個個體性狀的不同。這些性狀的差異,或多或少都會影響到個體適應環境的生存能力,若是在遇到環境有大變動時,原本在族群中較為罕見的性狀,有可能會因為較能適應變動後的環境而被篩選出來,導致這個性狀在族群中變得相當普遍,這就是所謂的天擇。

 

      個體DNA序列的差異以是否會影響蛋白質序列做區分,可以分成兩種:

  (1). Synonymous mutation:DNA序列的改變不會影響蛋白質序列

   (2). Non-synonymous mutation:DNA序列的改變會影響蛋白質序列,可能進而造成蛋白質功能的改變。

 

天擇的作用會對以上兩種變異去做篩選,根據篩選的方向,天擇可能有以下三種狀況:

(1). Positive selection:性狀的改變使個體更能適應環境,傾向保留non-synonymous mutations。

(2). Negative selection:性狀的改變使個體變得較不適應環境,non-synonymous mutations的數量會減少。

(3). Neutral selection:沒有明顯的天擇作用,或是以上兩種天擇達到平衡。不會特別篩選出某種變異或性狀。

 

       不同的天擇作用會影響族群的演化方向,要想知道族群目前的演化狀況,可以藉由計算dN/dS ratio這個指標來觀察天擇的作用:

dN/dS ratio的定義是 ”the ratio of the number of non-synonymous substitutions per non-synonymous site (PN) to the number of synonymous substitutions per synonymous site (PS)”,在概念上來說,dN/dS ratio可以視為將樣品non-synonymous mutation的觀察值對期望值的比值 (PN)除以synonymous mutation的觀察值對期望值之比值 (PS),詳細的計算過程如下:

 

1. 用reference序列來計算non-synonymous的期望值和synonymous的期望值,主要是用以下兩個公式 (公式一、公式二):

 

171315_1.png

 

說明:fi的算法是逐一去檢視codon中第i個核酸序列的各種突變可能性,並且看該點突變後所轉錄、轉譯出的蛋白質序列是否和原本相同,若是不同,則表示該種突變為non-synonymous,該點的該種突變之期望值為1/3,若是相同,則表示該種突變為synonymous,期望值為0,fi就是由加總第i個序列的各種突變可能性之non-synonymou期望值而得,而每個序列位置的fi值,最大只能到1,最小則為0。n則是進一步去加總codon的每個fi值,且最大只能到3,最小一樣是0。

 

例子:以TAT這個codon為例:

第一個位置的核酸序列為T,其可能突變為A、C或G,因此我們依序檢查每種突變可能性:

TAT (Tyr) -> AAT (Asn):non-synonymous

TAT (Tyr) -> CAT (His):non-synonymous

TAT (Tyr) -> GAT (Asp):non-synonymous

因為non-synonymous的期望值是1/3,所以在第一個核酸序列,我們所算得的fi值就是 1/3 x 3 = 1。

後面的兩個核酸序列也以此類推去計算,如果把整個計算過程整理成表格的話,會看起來像:

 

171315_2.png

 

由以上公式計算出每個codon的期望值之後,接著要計算一個基因或是一段核酸序列的期望值,就只要把每個codon的值加總就好了,如公式二:

 

171315_3.png

 

例子:假設有個基因它的所有codon是ATG – AAA – CCC – GGG – TTT – TAA,要計算這個基因的non-synonymous期望值 (N)和synonymous期望值 (S),就只要先利用公式一計算出每個codon的期望值,接著再加總即可,計算步驟整理如下表:

 

171315_4.png

 

 2. 對照reference序列和sample序列來計算non-synonymoussynonymous的觀察值:

171315_5.png

 

說明:要得到每個codon的觀察值 (ndi),主要是將樣品序列和參考序列做比對,去檢視樣品序列中有哪些變異,並且考慮這些變異可能的發生先後順序來計算non-synonymous和synonymous mutation的觀察值。

 

例子:假設現在有個sample的序列為ATG – AAA – CGC – GGC – TAC – TAA,將它和reference的序列ATG – AAA – CCC – GGG – TTT – TAA (同上例的序列)做比較,並可計算出non-synonymous和synonymous mutation的觀察值,計算步驟如下表:

171315_6.png

 

3. 計算dN/dS ratio,主要是利用以下三個公式 (公式四、五、六)

171315_7.png

 

例子:延續上例,套用公式四、五、六的計算步驟如下:

171315_8.png

  1. 結果解讀:

dN/dS ratio > 1: positive selection

dN/dS ratio < 1: negative selection

dN/dS ratio = 1: neutral selection

 

        以上所描述的是已知sample完整序列的計算方式,至於要計算定序sample的dN/dS ratio,公式一、二、三、四,也就是一直到計算PN、PS的部份可以改成以下列公式計算:

171315_9.png

說明

ni、si的算法和公式一的n算法是一樣的,ndij、sdij則可以使用diversitools這個程式去做計算:http://josephhughes.github.io/btctools/,算出PN、PS之後,一樣用公式五、六去接著計算dN/dS ratio就可以得到結果了!

 

官網用CC創用_SA.png

 

arrow
arrow

    Yourgene Health 發表在 痞客邦 留言(0) 人氣()