161412_1.png

BIOM全名為Biological Observation Matrix,其發音同 biome。是一種以JSON (JavaScript Object Notation)格式為基礎,設計出能呈現樣本、其觀察數據以及其他相關資料列聯表的格式。目的是希望能廣泛使用在體學  (Omics)研究上,因Omics研究領域中出現的檔案特性之一為其資料矩陣密度不高(例如:含有大量為零的數值)由於矩陣在程式中常使用二維陣列表示,二維陣列的大小與使用的記憶體空間成正比,如果多數的元素沒有資料,則會造成記憶體空間的浪費。為此,開發BIOM格式作為更適合Omics研究領域的資料型態。

而Omics一詞於希臘原文意指一種整體的研究領域,常聽聞的有蛋白質體學 (Proteinomics)、代謝體學 (Metabolomics)總體基因體學 (Metagenomics)近年來可見體學研究隨時間逐漸成長,或發展出各種與體學相關的資料類型。如圖一。因此,將MEDLINE文獻資料庫這些數據,以已知有限的分析方式如無母數統計中的Chao1分析方法。藉此去推測,隨著科技發展進入“ome-omics”新時代後可能會有超過三千種的Omics。

161412_2.png

圖一、於Medline文獻資料庫中提及“ome-ome””omic”類型的詞彙,隨年份計算不重複的單詞所繪製出的成長曲線圖。

在初次使用BIOM資料格式時,是用來呈現於Metagenomics研究中可操作性分類單元  (operational taxonomic unitsOTUs)數據表格。OTU基本概念為依據基因序列的相似性將序列分群。有別於傳統的OTU表格格式  (圖二)僅為樣本與OTU相對應的資料矩陣。

161412_3.png

圖二、傳統的OTU表格

161412_4.png

圖三、BIOM格式OTU表格

在BIOM格式下  (圖三)OTU表格,可儲存更多關於樣本與OTU相關資訊的資料。雖然BIOM格式不同於傳統OTU表格容易由人們直接進行判讀,但能更有效率的利用運算資源與資料儲存空間。如圖四,QIIME 資料庫中所儲存的60個獨立的微生物群落研究做為資料來源進行分析由此可看出當檔案大小超過約0.2MB後,BIOM格式能利用較少的記憶體空間儲存完整的矩陣資訊,這也增進磁碟空間利用率而使得IO速度加快

 

161412_5.png

圖四、以檔案大小分割BIOM檔案格式與QIIME分析產出層級的生物操作單元資料表格。

目前已知在Matagenomics領域中,BIOM格式被廣泛使用在各種分析套件上。如QIIMEMG-RASTPICRUStMothurphyloseq等。另外於PythonR語言中也開發了相應的Biom-format軟體套件。考量資料的使用性,Biom-format軟體套件也支援BIOMTab分隔檔案格式間的轉換。

 

References :

McDonald D, Clemente JC, Kuczynski J, Rideout J, Stombaugh J, Wendel D,Wilke A, Huse SM, Hufnagle J, Meyer F et al. 2012.The Biological Observation  Matrix (BIOM) format or: how I learned to stop worrying and love the ome-ome.  GigaScience 1: 7

Blaxter, M.; Mann, J.; Chapman, T.; Thomas, F.; Whitton, C.; Floyd, R.; Abebe, E. (Oct 2005). "Defining operational taxonomic units using DNA barcode data.".

Eisen JA: Badomics words and the power and peril of the ome-meme. GigaScience. 2012, 1: 6.

http://openhome.cc/Gossip/AlgorithmGossip/SparseMatrix.htm

http://biom-format.org/

http://qiime.org/

http://www.edamamecourse.org/docs/qiime_2_tutorial.html

https://rdp.cme.msu.edu/tutorials/cluster/RDPtutorial_CLUST-RESULTS.html

 

  

 

 

 

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()