族群演化研究：利用dN/dS ratio觀察天擇作用 @ 有勁的基因資訊

作者：徐于晴/有勁生物科技

物種繁衍的過程當中，個體之間都會有所差異，這些差異從微觀的角度來看，就是每個個體的DNA序列會有不同，反映在外觀上，就是每個個體性狀的不同。這些性狀的差異，或多或少都會影響到個體適應環境的生存能力，若是在遇到環境有大變動時，原本在族群中較為罕見的性狀，有可能會因為較能適應變動後的環境而被篩選出來，導致這個性狀在族群中變得相當普遍，這就是所謂的天擇。

個體DNA序列的差異以是否會影響蛋白質序列做區分，可以分成兩種：

(1). Synonymous mutation：DNA序列的改變不會影響蛋白質序列

(2). Non-synonymous mutation：DNA序列的改變會影響蛋白質序列，可能進而造成蛋白質功能的改變。

天擇的作用會對以上兩種變異去做篩選，根據篩選的方向，天擇可能有以下三種狀況：

(1). Positive selection：性狀的改變使個體更能適應環境，傾向保留non-synonymous mutations。

(2). Negative selection：性狀的改變使個體變得較不適應環境，non-synonymous mutations的數量會減少。

(3). Neutral selection：沒有明顯的天擇作用，或是以上兩種天擇達到平衡。不會特別篩選出某種變異或性狀。

不同的天擇作用會影響族群的演化方向，要想知道族群目前的演化狀況，可以藉由計算dN/dS ratio這個指標來觀察天擇的作用：

dN/dS ratio的定義是 ”the ratio of the number of non-synonymous substitutions per non-synonymous site (PN) to the number of synonymous substitutions per synonymous site (PS)”，在概念上來說，dN/dS ratio可以視為將樣品non-synonymous mutation的觀察值對期望值的比值 (PN)除以synonymous mutation的觀察值對期望值之比值 (PS)，詳細的計算過程如下：

1. 用reference序列來計算non-synonymous的期望值和synonymous的期望值，主要是用以下兩個公式 (公式一、公式二)：

說明：f_i的算法是逐一去檢視codon中第i個核酸序列的各種突變可能性，並且看該點突變後所轉錄、轉譯出的蛋白質序列是否和原本相同，若是不同，則表示該種突變為non-synonymous，該點的該種突變之期望值為1/3，若是相同，則表示該種突變為synonymous，期望值為0，f_i就是由加總第i個序列的各種突變可能性之non-synonymou期望值而得，而每個序列位置的f_i值，最大只能到1，最小則為0。n則是進一步去加總codon的每個f_i值，且最大只能到3，最小一樣是0。

例子：以TAT這個codon為例：

第一個位置的核酸序列為T，其可能突變為A、C或G，因此我們依序檢查每種突變可能性：

TAT (Tyr) -> AAT (Asn)：non-synonymous

TAT (Tyr) -> CAT (His)：non-synonymous

TAT (Tyr) -> GAT (Asp)：non-synonymous

因為non-synonymous的期望值是1/3，所以在第一個核酸序列，我們所算得的f_i值就是 1/3 x 3 = 1。

後面的兩個核酸序列也以此類推去計算，如果把整個計算過程整理成表格的話，會看起來像：

由以上公式計算出每個codon的期望值之後，接著要計算一個基因或是一段核酸序列的期望值，就只要把每個codon的值加總就好了，如公式二：

例子：假設有個基因它的所有codon是ATG – AAA – CCC – GGG – TTT – TAA，要計算這個基因的non-synonymous期望值 (N)和synonymous期望值 (S)，就只要先利用公式一計算出每個codon的期望值，接著再加總即可，計算步驟整理如下表：

2. 對照reference序列和sample序列來計算non-synonymous和synonymous的觀察值：

說明：要得到每個codon的觀察值 (n_di)，主要是將樣品序列和參考序列做比對，去檢視樣品序列中有哪些變異，並且考慮這些變異可能的發生先後順序來計算non-synonymous和synonymous mutation的觀察值。

例子：假設現在有個sample的序列為ATG – AAA – CGC – GGC – TAC – TAA，將它和reference的序列ATG – AAA – CCC – GGG – TTT – TAA (同上例的序列)做比較，並可計算出non-synonymous和synonymous mutation的觀察值，計算步驟如下表：