在基因體分析上,對於研究單一個基因,可以透過它本身的基因註解,例如Gene Ontology (GO) term (可參考之前的文章,”Gene Ontology簡介”);或是透過同源蛋白質的註解,來推測此基因的功能。然而,當研究的對象轉換為一群基因時,例如一群具有顯著表現量差異的基因時,則會得到太多基因註解的資料,造成分析困難。為了解決使問題,許多文獻透過Hypergeometric distribution,尋找具有顯著統計意義的基因註解。
首先,先簡介Hypergeometric test ,它描述了由有限個物件中抽出n個物件,成功抽出指定種類的物件的次數,並且抽出的物件不放回去。
N = Size of population
M = Number of items in population with property “E”
N-M = Number of items in population without property “E”
n = Number of items sampled
i = Number of items in sample with property “E”
在實際生活中,以餅乾工廠的品質管控作為例子:
假設工廠每日生產1000 片巧克力餅乾,已知200片忘記塗上巧克力。
如果每盒餅乾裝10片,則超過3片沒有巧克力的機率是?
已知,樣本成功數 (i) : 3
樣本大小 (n) : 10
母群體成功數 (M) : 200
母群體大小 (N) : 1000
則p-value
= p (3) + p (4) + …+ p (9) + p (10)
= 0.2021 + 0.0877 + … + 3.57e-06 + 8.52e-08
= 0.32189479
若將hypergeometric distribution應用在GO enrichment,在此以阿茲海默症的amyloid beta (A4) precursor protein(縮寫為APP)為例。參考Curtis Huttenhower在2009年發表於Genome research的文獻,此篇文獻中敘述人類約有25,000基因,與APP相關的基因共有24個,透過基因兩兩之間的功能相關性(probabilities of functional interaction),繪製一個具有25個基因的網絡,作者稱之為Functional map。
圖一、以APP基因為中心的Functional map
進一步分析這25個基因是否具有那些共同的特性,得以說明阿茲海默症的機制或是相關的生化路徑。這25個基因皆具有GO分類中Molecular function註解,其中HSD17B10和HADHB被註解為3-hydroxyacyl-CoA dehydrogenase activity。其Network frequency為8.0% (2 / 25),乍看之下,會認為阿茲海默症與3-hydroxyacyl-CoA dehydrogenase activity相關性不大。
但是,當我們也考慮3-hydroxyacyl-CoA dehydrogenase activity在人類基因體出現的頻率,發現基因體中只有6個基因被註解為3-hydroxyacyl-CoA dehydrogenase activity,則Genome frequency為4*10-4 (6 / 14,673)。
藉由上面的資料已知3-hydroxyacyl-CoA dehydrogenase activity的Network frequency和Genome frequency,則可以透過Hypergeometric test,計算其p-value。在此處的p-value經過Bonferroni corrected校正,而得到以下結果。
表一、於GO分類中Molecular function,計算GO enrichment
N為具有GO annotation的總基因數,在此例為14,673個基因
M為屬於某個GO term的基因數,在此指註解3-hydroxyacyl-CoA dehydrogenase activity在的6個基因
n為進行GO enrichment的基因集的數目,在此指與APP相關的基因(包含APP基因),共有25個
i为n中属于M的数目。
此外,也可以將Hypergeometric test應用於GO分類中Biological process、Cellular component以及KEGG pathway,計算其functional enrichment。
表二、於GO分類中Biological process,計算GO enrichment
表三、於GO分類中Cellular component,計算GO enrichment
表四、於KEGG pathway,計算functional enrichment
References:
- Curtis Huttenhower*, Erin M. Haley*, Matthew A. Hibbs, Vanessa Dumeaux, Daniel R. Barrett, Hilary A. Coller†, and Olga G. Troyanskaya†. Exploring the human genome with functional maps, Genome Research 2009, PMID 19246570
- http://hefalmp.princeton.edu/geneset/all_genes?context=0&genes=APP
留言列表