在基因體分析上,對於研究單一個基因,可以透過它本身的基因註解,例如Gene Ontology (GO) term (可參考之前的文章,”Gene Ontology簡介”);或是透過同源蛋白質的註解,來推測此基因的功能。然而,當研究的對象轉換為一群基因時,例如一群具有顯著表現量差異的基因時,則會得到太多基因註解的資料,造成分析困難。為了解決使問題,許多文獻透過Hypergeometric distribution,尋找具有顯著統計意義的基因註解。

首先,先簡介Hypergeometric test ,它描述了由有限個物件中抽出n個物件,成功抽出指定種類的物件的次數,並且抽出的物件不放回去。

20120928_pic1  
   

N = Size of population

M = Number of items in population with property “E”

N-M = Number of items in population without property “E”

n = Number of items sampled

i = Number of items in sample with property “E”

  

在實際生活中,以餅乾工廠的品質管控作為例子:

假設工廠每日生產1000 片巧克力餅乾,已知200片忘記塗上巧克力。

如果每盒餅乾裝10片,則超過3片沒有巧克力的機率是?

已知,樣本成功數 (i)    : 3

樣本大小 (n)     : 10

母群體成功數 (M) : 200

母群體大小 (N)   : 1000

p-value

= p (3) + p (4) + …+ p (9) + p (10)

= 0.2021 + 0.0877 + … + 3.57e-06 + 8.52e-08

= 0.32189479

 

若將hypergeometric distribution應用在GO enrichment,在此以阿茲海默症的amyloid beta (A4) precursor protein(縮寫為APP)為例。參考Curtis Huttenhower在2009年發表於Genome research的文獻,此篇文獻中敘述人類約有25,000基因,與APP相關的基因共有24個,透過基因兩兩之間的功能相關性(probabilities of functional interaction),繪製一個具有25個基因的網絡,作者稱之為Functional map。

20120928_pic2  圖一、以APP基因為中心的Functional map

 

進一步分析這25個基因是否具有那些共同的特性,得以說明阿茲海默症的機制或是相關的生化路徑。這25個基因皆具有GO分類中Molecular function註解,其中HSD17B10和HADHB被註解為3-hydroxyacyl-CoA dehydrogenase activity。其Network frequency為8.0% (2 / 25),乍看之下,會認為阿茲海默症與3-hydroxyacyl-CoA dehydrogenase activity相關性不大。

但是,當我們也考慮3-hydroxyacyl-CoA dehydrogenase activity在人類基因體出現的頻率,發現基因體中只有6個基因被註解為3-hydroxyacyl-CoA dehydrogenase activity,則Genome frequency為4*10-4 (6 / 14,673)。

 藉由上面的資料已知3-hydroxyacyl-CoA dehydrogenase activity的Network frequency和Genome frequency,則可以透過Hypergeometric test,計算其p-value。在此處的p-value經過Bonferroni corrected校正,而得到以下結果。

 表一、於GO分類中Molecular function,計算GO enrichment

20120928_pic3

 N為具有GO annotation的總基因數,在此例為14,673個基因

M為屬於某個GO term的基因數,在此指註解3-hydroxyacyl-CoA dehydrogenase activity在的6個基因

n為進行GO enrichment的基因集的數目,在此指與APP相關的基因(包含APP基因),共有25個

in中属于M的数目。

 

 

此外,也可以將Hypergeometric test應用於GO分類中Biological process、Cellular component以及KEGG pathway,計算其functional enrichment。

 

表二、於GO分類中Biological process,計算GO enrichment

20120928_pic4  

 

表三、於GO分類中Cellular component,計算GO enrichment

20120928_pic5

 

表四、於KEGG pathway,計算functional enrichment

20120928_pic6

 

 

References:

  1. Curtis Huttenhower*, Erin M. Haley*, Matthew A. Hibbs, Vanessa Dumeaux, Daniel R. Barrett, Hilary A. Coller†, and Olga G. Troyanskaya†. Exploring the human genome with functional maps, Genome Research 2009, PMID 19246570
  2. http://hefalmp.princeton.edu/geneset/all_genes?context=0&genes=APP

 

Yourgene Bioscience  

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()