BIOM全名為Biological Observation Matrix,其發音同 biome。是一種以JSON (JavaScript Object Notation)格式為基礎,設計出能呈現樣本、其觀察數據以及其他相關資料列聯表的格式。目的是希望能廣泛使用在體學 (Omics)研究上,因Omics研究領域中出現的檔案特性之一為其資料矩陣密度不高(例如:含有大量為零的數值)。由於矩陣在程式中常使用二維陣列表示,二維陣列的大小與使用的記憶體空間成正比,如果多數的元素沒有資料,則會造成記憶體空間的浪費。為此,開發BIOM格式作為更適合Omics研究領域的資料型態。
而Omics一詞於希臘原文意指一種整體的研究領域,常聽聞的有蛋白質體學 (Proteinomics)、代謝體學 (Metabolomics)、總體基因體學 (Metagenomics)等。近年來可見體學研究隨時間逐漸成長,或發展出各種與體學相關的資料類型。如圖一。因此,將MEDLINE文獻資料庫這些數據,以已知有限的分析方式如無母數統計中的Chao1分析方法。藉此去推測,隨著科技發展進入“ome-omics”新時代後可能會有超過三千種的Omics。
圖一、於Medline文獻資料庫中提及“ome-ome”或”omic”類型的詞彙,隨年份計算不重複的單詞所繪製出的成長曲線圖。
在初次使用BIOM資料格式時,是用來呈現於Metagenomics研究中可操作性分類單元 (operational taxonomic units,OTUs)數據表格。OTU基本概念為依據基因序列的相似性將序列分群。有別於傳統的OTU表格格式 (圖二)僅為樣本與OTU相對應的資料矩陣。
圖二、傳統的OTU表格
圖三、BIOM格式OTU表格
在BIOM格式下 (圖三)的OTU表格,可儲存更多關於樣本與OTU相關資訊的資料。雖然BIOM格式不同於傳統OTU表格容易由人們直接進行判讀,但能更有效率的利用運算資源與資料儲存空間。如圖四,將QIIME 資料庫中所儲存的60個獨立的微生物群落研究做為資料來源進行分析。由此可看出當檔案大小超過約0.2MB後,BIOM格式能利用較少的記憶體空間儲存完整的矩陣資訊,這也增進磁碟空間利用率而使得IO速度加快。
圖四、以檔案大小分割BIOM檔案格式與QIIME分析產出”綱”層級的生物操作單元資料表格。
目前已知在Matagenomics領域中,BIOM格式被廣泛使用在各種分析套件上。如QIIME、MG-RAST、PICRUSt、Mothur、phyloseq等。另外於Python、R語言中也開發了相應的Biom-format軟體套件。考量資料的使用性,Biom-format軟體套件也支援BIOM與Tab分隔檔案格式間的轉換。
References :
McDonald D, Clemente JC, Kuczynski J, Rideout J, Stombaugh J, Wendel D,Wilke A, Huse SM, Hufnagle J, Meyer F et al. 2012.The Biological Observation Matrix (BIOM) format or: how I learned to stop worrying and love the ome-ome. GigaScience 1: 7
Blaxter, M.; Mann, J.; Chapman, T.; Thomas, F.; Whitton, C.; Floyd, R.; Abebe, E. (Oct 2005). "Defining operational taxonomic units using DNA barcode data.".
Eisen JA: Badomics words and the power and peril of the ome-meme. GigaScience. 2012, 1: 6.
http://openhome.cc/Gossip/AlgorithmGossip/SparseMatrix.htm
http://biom-format.org/
http://qiime.org/
http://www.edamamecourse.org/docs/qiime_2_tutorial.html
https://rdp.cme.msu.edu/tutorials/cluster/RDPtutorial_CLUST-RESULTS.html
留言列表