基因體註解面面觀 ─ KEGG與蛋白質交互作用資料庫－有勁的基因資訊

在今年五月的部落格” 基因體註解(genome annotation)面面觀 ─ 淺談KEGG資料庫”中，介紹到基因註解的粗略概念和簡介KEGG資料庫。在本篇部落格，我們將繼續介紹如何使用KEGG資料庫以及其他蛋白質交互作用資料庫。

20130802_pic1

上圖為該網站的首頁(http://www.kegg.jp/kegg/)

當我們拿到龐大的次世代定序資料，這些資訊經過序列組裝(De novo assembly)和基因預測後，可以得知某特定物種的基因序列，然而，這些序列需要經過註解才能推測其生物功能。在此篇部落格我們將介紹利用KEGG的網站服務BLAST來註解有興趣的基因序列。

第一步：點選上圖的”BLAST”，進入下圖並輸入序列資料，挑選合適的blast功能和搜尋資料庫後，按下”Compute”按鈕。(註：由於KEGG的資料庫並非開放，採收費下載制，倘若想知道KEGG基因資料庫是否包含相似序列，也可以透過”BLAST”功能搜尋。)

20130802_pic2

第二步：得到BLAST結果，點選bits分數最高者，則可以得到該基因的資訊，包含蛋白質名稱、序列和相關生物路徑等，得知此基因名稱為DNA-directed RNA polymerase subunit B'，物種為Methanocaldococcus jannaschii (詹氏甲烷球菌)，使用者可點選有興趣的生物路徑。

20130802_pic3

20130802_pic4

第三步：尋找基因坐落於生物路徑的位置。以此圖”RNA plymerase”為例，紅色的”B”表示所蒐尋的基因 (DNA-directed RNA polymerase subunit B')，淺綠色方塊可被註解於詹氏甲烷球菌(M. jannaschii)之基因，可以藉由網頁上方的下拉式選單選取其他物種，得知該物種的同源基因。

20130802_pic5

除了本篇部落格所介紹的BLAST工具之外，也有其他部落格介紹KEGG網站的工具使用，例如”KEGG的獨創使用經驗分享”，例如KAAS (KEGG Automatic Annotation Server)的使用，可以用來註解基因體或是EST(expressed sequence tag)。

其他網站：

目前有多個團隊擁有各自的生物路徑和網絡資料庫，包含此篇所介紹到的日本京都大學團隊維護的KEGG資料庫，另一個筆者想要推薦的團隊為歐洲分子生物實驗室(EMBL, The European Molecular Biology Laboratory)所維護的兩個資料庫 ─ STRING(蛋白質交互作用資料庫) 和 STITCH(化合物-蛋白質交互作用資料庫)，這二個資料庫的資訊來源包含已知和預測的交互作用。

STRING (Search Tool for the Retrieval of Interacting Genes/Proteins)為蛋白質交互作用資料庫，此資料庫的蛋白質交互作用包含物理性的和功能性的，並且提供蛋白質結晶結構資訊。使用方式相當簡單，可以透過基因名稱或是蛋白質序列進行搜尋。

20130802_pic6

20130802_pic7

STITCH(Search Tool for Interactions of Chemicals)為化合物-蛋白質交互作用資料庫，此資料庫的用法與STRING 相似，此網站對於代謝物相關的研究提供不錯的資訊，尋找潛在的相似化合物或是標的蛋白質。

20130802_pic8

20130802_pic9

參考文獻:

Moriya Y, Itoh M, Okuda S, Yoshizawa AC, Kanehisa M. (2007) KAAS: an automatic genome annotation and pathway reconstruction server. Nucleic Acids Res. 35(Web Server issue):W182-185.
Franceschini A, Szklarczyk D, Frankild S, Kuhn M, Simonovic M, Roth A, Lin J, Minguez P, Bork P, von Mering C, Jensen LJ. (2013) STRING v9.1: protein-protein interaction networks, with increased coverage and integration. Nucleic Acids Res. 41(Database issue):D808-815.
Kuhn M, Szklarczyk D, Franceschini A, von Mering C, Jensen LJ, Bork P. (2012) STITCH 3: zooming in on protein-chemical interactions. Nucleic Acids Res. 40(Database issue):D876-880.