在今年五月的部落格” 基因體註解(genome annotation)面面觀 ─ 淺談KEGG資料庫”中,介紹到基因註解的粗略概念和簡介KEGG資料庫。在本篇部落格,我們將繼續介紹如何使用KEGG資料庫以及其他蛋白質交互作用資料庫。
上圖為該網站的首頁(http://www.kegg.jp/kegg/)
當我們拿到龐大的次世代定序資料,這些資訊經過序列組裝(De novo assembly)和基因預測後,可以得知某特定物種的基因序列,然而,這些序列需要經過註解才能推測其生物功能。在此篇部落格我們將介紹利用KEGG的網站服務BLAST來註解有興趣的基因序列。
第一步:點選上圖的”BLAST”,進入下圖並輸入序列資料,挑選合適的blast功能和搜尋資料庫後,按下”Compute”按鈕。(註:由於KEGG的資料庫並非開放,採收費下載制,倘若想知道KEGG基因資料庫是否包含相似序列,也可以透過”BLAST”功能搜尋。)
第二步:得到BLAST結果,點選bits分數最高者,則可以得到該基因的資訊,包含蛋白質名稱、序列和相關生物路徑等,得知此基因名稱為DNA-directed RNA polymerase subunit B',物種為Methanocaldococcus jannaschii (詹氏甲烷球菌),使用者可點選有興趣的生物路徑。
第三步:尋找基因坐落於生物路徑的位置。以此圖”RNA plymerase”為例,紅色的”B”表示所蒐尋的基因 (DNA-directed RNA polymerase subunit B'),淺綠色方塊可被註解於詹氏甲烷球菌(M. jannaschii)之基因,可以藉由網頁上方的下拉式選單選取其他物種,得知該物種的同源基因。
除了本篇部落格所介紹的BLAST工具之外,也有其他部落格介紹KEGG網站的工具使用,例如”KEGG的獨創使用經驗分享”,例如KAAS (KEGG Automatic Annotation Server)的使用,可以用來註解基因體或是EST(expressed sequence tag)。
其他網站:
目前有多個團隊擁有各自的生物路徑和網絡資料庫,包含此篇所介紹到的日本京都大學團隊維護的KEGG資料庫,另一個筆者想要推薦的團隊為歐洲分子生物實驗室(EMBL, The European Molecular Biology Laboratory)所維護的兩個資料庫 ─ STRING(蛋白質交互作用資料庫) 和 STITCH(化合物-蛋白質交互作用資料庫),這二個資料庫的資訊來源包含已知和預測的交互作用。
STRING (Search Tool for the Retrieval of Interacting Genes/Proteins)為蛋白質交互作用資料庫,此資料庫的蛋白質交互作用包含物理性的和功能性的,並且提供蛋白質結晶結構資訊。使用方式相當簡單,可以透過基因名稱或是蛋白質序列進行搜尋。
STITCH(Search Tool for Interactions of Chemicals)為化合物-蛋白質交互作用資料庫,此資料庫的用法與STRING 相似,此網站對於代謝物相關的研究提供不錯的資訊,尋找潛在的相似化合物或是標的蛋白質。
參考文獻:
- Moriya Y, Itoh M, Okuda S, Yoshizawa AC, Kanehisa M. (2007) KAAS: an automatic genome annotation and pathway reconstruction server. Nucleic Acids Res. 35(Web Server issue):W182-185.
- Franceschini A, Szklarczyk D, Frankild S, Kuhn M, Simonovic M, Roth A, Lin J, Minguez P, Bork P, von Mering C, Jensen LJ. (2013) STRING v9.1: protein-protein interaction networks, with increased coverage and integration. Nucleic Acids Res. 41(Database issue):D808-815.
- Kuhn M, Szklarczyk D, Franceschini A, von Mering C, Jensen LJ, Bork P. (2012) STITCH 3: zooming in on protein-chemical interactions. Nucleic Acids Res. 40(Database issue):D876-880.
留言列表