作者:黃千容/有勁基因
PICRUSt2 (Phylogenetic Investigation of Communities by Reconstruction of Unobserved States)是一套根據標記基因的序列去預測微生物基因功能的工具。相較於初版,這個2013年所發行的第二版,其改版部分包括:可以使用任何16s的序列(OTUs或ASVs)去進行預測、參考基因體的資料庫擴增10倍以上、並增加了MetaCyc代謝途徑的預測結果等等1, 2。本文就不詳細說明改版內容,而是直接解釋要如何將PICRUSt2運用在微生物基因功能的預測分析上,並介紹程式指令與常用參數,以及輸出的結果。
下圖一為PICRUSt2的分析流程。橘框中的內容是使用者需要輸入的資料,包括想要分析的樣本中所帶有的ASVs或OTUs序列(以下稱樣本物種序列)、以及樣本物種序列的豐度。程式會自動將樣本物種的序列拿來和參考資料庫的序列進行比對,並推論樣本物種序列在參考資料庫中可能對應到的基因序列以及基因拷貝數(圖一步驟1與2)。然後再根據基因拷貝數與基因序列去推論基因豐度(圖一步驟3與4)。最後,在步驟5採用MinPath演算法去預測生物途徑(biological pathway)過程中所涉及基因的豐度,也就是「生物途徑豐度」。可利用PICRUSt2去預測生物途徑豐度的資料庫,目前有KEGG與MetaCyc資料庫兩種。
圖一、PICRUSt2分析流程
圖片來源:Douglas, G.M., Maffei, V.J., Zaneveld, J.R. et al. Nat Biotechnol. 2020 Jun;38:685-688
PICRUSt2的另一個特點是:只需一條指令,就可以讓整個分析流程運轉;圖二列出PICRUSt2程式中主要的指令與必要參數。其中-s為樣本物種序列;-i指示將樣本物種基因體豐度資料轉換成biom格式的資料;-o為「欲輸出資料夾」的名稱;-p則是欲使用多工處理的流程數目;所有結果都會輸出到「欲輸出資料夾」中。軟體預設的分析結果會包含下列四個資料夾,分別為EC_metagenome_out(MetaCyc代謝途徑資料庫所使用的EC基因豐度預測結果)、KO_metagenome_out(KEGG生物途徑資料庫所使用的KO基因豐度預測結果)、intermediate(中繼檔案)、以及pathways_out(根據EC基因豐度預測結果所推論出的MetaCyc代謝途徑豐度)。此外,如果要輸出覆蓋率,只要另外增加--coverage參數即可3。
圖二、PICRUSt2的主要指令
圖片來源:黃千容/有勁基因
另外,由於PICRUSt2的軟體預設並未包含KEGG生物途徑豐度預測結果的輸出,如需額外輸出,則需要加入圖三的指令,並搭配事先建立好的KEGG生物途徑、以及所對應的KO基因豐度預測清單檔案來進行預測分析。圖三指令中的-i為KEGG生物途徑資料庫所使用的KO基因豐度預測結果;-o為「欲輸出資料夾」的名稱;-m為所要預測的KEGG生物途徑以及其對應的KO基因豐度預測清單檔案;-p則是欲使用多工處理的流程數目;所有KEGG的生物途徑豐度預測結果都會輸出到「欲輸出資料夾」中。
圖三、客製化輸出KEGG生物途徑豐度預測結果的指令
圖片來源:黃千容/有勁基因
參考文獻
1. Douglas, G.M., Maffei, V.J., Zaneveld, J., et al. PICRUSt2: An improved and customizable approach for metagenome inference. bioRxiv. 2020 Mar. Retrieved from https://doi.org/10.1101/672295
2. Douglas, G.M., Maffei, V.J., Zaneveld, J.R. et al. PICRUSt2 for prediction of metagenome functions. Nat Biotechnol. 2020 Jun;38:685-688 (2020). Retrieved from https://doi.org/10.1038/s41587-020-0548-6
3. Douglas, G. (2020, Feb 7). PICRUSt2. GitHub Inc. Retrieved from https://github.com/picrust/picrust2/wiki
留言列表