隨著定序技術不斷的創新,就算是定序人類基因體也不再是難事。當越來越多基因體定序資料的產生,在有限的經費下,如何大規模且有效地註解基因也越來越受到重視。
圖一、代表物種的基因體和基因大小
在2006年於國際期刊Nature Reviews Genetics所發表的文獻中,作者認為基因體註解可被分為四個層級 (圖二):
圖二、基因體註解的四個層級
一維註解:生物網路上的組成單位 (network components),包含核酸、胺基酸和小分子化合物等。
透過基因體定序資料定義基因,方法有:
1)基因預測,工具有:GLIMMER, GlimmerM, GENSCAN)
2) 尋找同源基因,工具有:BLAST, FASTA, and HMMER
3) 非同源基因的方法
二維註解:組成單位間的交互作用 (component interactions)
透過了解組成單位所在的生物路徑或網絡,推測該組成單位的功能。
二維註解其中一個方法是透過蒐集已知的生物路徑或網絡,推測蛋白質的未知功能。而目前已經相當多的研究建立許多生物路徑(網絡)資料庫,可以供我們使用。這些資料庫可以粗分為兩類:
1)針對特定物種:此類型著名的資料庫有大腸桿菌 (EcoCyc)和酵母菌 (SGD)等。
2)針對非特定物種:此類型著名的資料庫有ExPASy Proteomics Server和KEGG,至於其他資料庫請參考下表。
三維註解:在基因體上的空間與方向 (genome spatial orientation)
越來越多研究指出,生物體中所有基因位於染色質上的位置和組成單元(包含核酸、蛋白質和化合物等)作用於細胞中的位置並不是隨機的,而是有特定模式的。
四維註解:演化上的變異 (evolutionary changes)
透過觀察物種的適應性演化來註解基因體。
而在本篇部落格,我們先來介紹常用的生物代謝路徑資料庫KEGG PATHWAY database。KEGG(Kyoto Encyclopedia of Genes and Genomes,京都基因與基因組百科全書,京都遺伝子ゲノム百科事典)是一套日本於1995年制定的人類基因組計劃,此為關於基因體、酵素代謝路徑以及生物化學物質的線上資料庫。此計畫主持人為京都大學化學研究所金久 實(Minoru Kanehisa)教授,金久教授的團隊仍持續地更新KEGG資料庫中,自1999年至2013年間,並將更新資料庫的成果發表於國際期刊Nucleic acids research上。目前KEGG的各個子資料庫統計如下:
在這些子資料庫中,最常被使用的資料庫則是代謝路徑資料庫(KEGG PATHWAY database),而此資料庫的最大特色是其生物路徑圖是透過人工繪製,這些路徑圖被稱之為”Reference pathway”,再透過另一個子資料庫KEGG ORTHOLOGY建立物種特異的生物路徑(Species-specific pathway)。KEGG PATHWAY可被分為七大類,包含:
1. Metabolism
2. Genetic Information Processing
3. Environmental Information Processing
4. Cellular Processes
5. Organismal Systems
6. Human Diseases
7. Drug Development
以Metabolism中的Metabolic pathways (http://www.genome.jp/kegg-bin/show_pathway?map01100)為例,圖三的路徑圖就是KEGG團隊發表2008年的成果之一,此圖片也被許多生物化學教科書所引用。
圖三、KEGG PATHWAY資料庫的Metabolic pathways
至於KEGG PATHWAY資料庫的使用教學,將會在後續的部落格文章再介紹。
References:
1. Yandell M and Ence D. (2012) A beginner's guide to eukaryotic genome annotation. Nat Rev Genet. 13(5):329-342.
2. Reed JL, Famili I, Thiele I, and Palsson BO. (2006) Towards multidimensional genome annotation. Nat Rev Genet. 7(2):130-141.
3. Kanehisa M. (1997) A database for post-genome analysis. Trends Genet. 13(9):375-376.
4. Ogata H, Goto S, Sato K, Fujibuchi W, Bono H, and Kanehisa M. (1999) KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Res. 27(1):29-34.
5. Kanehisa M and Goto S. (2000) KEGG: kyoto encyclopedia of genes and genomes. Nucleic Acids Res. 28(1):27-30.
6. Kanehisa M, Goto S, Kawashima S, and Nakaya A. (2002) The KEGG databases at GenomeNet. Nucleic Acids Res. 30(1):42-46.
7. Kanehisa M, Goto S, Kawashima S, Okuno Y, and Hattori M. (2004) The KEGG resource for deciphering the genome. Nucleic Acids Res. 32(Database issue):D277-280.
8. Kanehisa M, Goto S, Hattori M, Aoki-Kinoshita KF, Itoh M, Kawashima S, Katayama T, Araki M, and Hirakawa M. (2006) From genomics to chemical genomics: new developments in KEGG. Nucleic Acids Res. 34(Database issue):D354-357.
9. Kanehisa M, Araki M, Goto S, Hattori M, Hirakawa M, Itoh M, Katayama T, Kawashima S, Okuda S, Tokimatsu T, and Yamanishi Y. (2008) KEGG for linking genomes to life and the environment. Nucleic Acids Res. 36(Database issue):D480-484.
10. Okuda S, Yamada T, Hamajima M, Itoh M, Katayama T, Bork P, Goto S, and Kanehisa M. (2008) KEGG Atlas mapping for global analysis of metabolic pathways. Nucleic Acids Res. 36(Web Server issue):W423-426.
11. Kanehisa M, Goto S, Furumichi M, Tanabe M, Hirakawa M. (2010) KEGG for representation and analysis of molecular networks involving diseases and drugs. Nucleic Acids Res. 38(Database issue):D355-360.
12. Kanehisa M, Goto S, Sato Y, Furumichi M, and Tanabe M. (2012) KEGG for integration and interpretation of large-scale molecular data sets. Nucleic Acids Res. 40(Database issue):D109-114.
13. Nakaya A, Katayama T, Itoh M, Hiranuka K, Kawashima S, Moriya Y, Okuda S, Tanaka M, Tokimatsu T, Yamanishi Y, Yoshizawa AC, Kanehisa M, and Goto S. (2013) KEGG OC: a large-scale automatic construction of taxonomy-based ortholog clusters. Nucleic Acids Res. 41(Database issue):D353-357.
14. http://zh.wikipedia.org/wiki/KEGG
留言列表