作者:鄭翰欽/有勁基因

       

  環境中,各種微生物之間的交互作用其實比人們原本想像的更加複雜;不僅如此,和疾病有關的微生物與其宿主之間的交互作用,目前我們所知的,也只是冰山的一角而已。由於很多疾病和微生物關係匪淺,一直以來都有專家學者投入研究;近年來,環境微生物學更是成了顯學。對第一次踏入環境微生物分析這個研究領域的人來說,如何選擇適合的分析策略是個考驗。若因為對不同分析策略的各種限制不了解,以致選了不適當的策略,就可能事倍功半。本文要介紹給大家的是幾個常見策略的原理與用途,作為大家選擇方案時的判斷參考。

 

        環境微生物的分析大致上可以分成兩種,微生物相(Microbiota)的分析、以及總體基因體(metagenome)分析。

 

一、微生物相

  微生物相分析,顧名思義,就是去分析環境樣本中的微生物組成。微生物(例如細菌)核醣體的核醣核酸(ribosomal RNA; rRNA)序列,在同物種間是沒有差異或差異極微小的;但在不同物種之間,彼此的差異就可以被區分出來了。因此,想要知道環境樣本中有哪些微生物,我們只要將其rRNA序列抽出來定序,然後將定序結果拿去跟rRNA序列資料庫(例如Ribosomal Database Project (RDP)、SILVA database、Greengenes database等)做比對,便可知道樣本中包含哪些種類的微生物了。然而,由於我們只定序了rRNA序列,因此像基因功能和代謝途徑這些資訊,實際上是無法從微生物相分析得知的。

 

        理論上來說,微生物物種間親緣關係越近,rRNA序列就愈相似;而親緣關係極為相近的物種,基因功能也不會差太多。於是就有研究團隊想到,假如我們手邊有個未知微生物物種,想知道它的基因功能的話,是否能利用微生物相分析找出與它親緣關係最接近、且基因功能已經知曉的已知物種,然後用已知物種的基因功能來代表未知物種的基因功能?基於這個推論,諸如PICRUSt1的微生物相分析工具被開發出來了;但這些工具只是利用親緣相近的物種資料去進行分析,所得到的基因與代謝相關資料可能仍與實際狀況有所落差,這點需要特別注意。即便如此,PICRUSt不可否認的確大幅提高了微生物相分析結果的參考價值。

 

二、總體基因體

  總體基因體分析是把環境樣本中所有微生物物種的基因體(genome)通通拿去定序並進行分析。由於是把總個基因體拿去定序,所以理論上應該可以得知樣本裡的所有基因。總體基因體分析又可細分成reference-based mapping and analysis以及de novo assembly and analysis兩種方式,分別說明如下:

 

1、Reference-based mapping and analysis

        此方式是將樣本定序出來的所有序列(Reads)拿去比對目前已知的微生物參考序列,然後進行分析,以得知樣本中包含哪些物種、其基因功能與代謝途徑。此方式一般來說需要的樣本定序量不會太多,約10 million reads就足以分析(但仍須根據樣本中微生物多樣性的高低來決定)。但缺點是分析結果會受限於參考序列資料的充分性;例如:人類腸道菌的參考序列充足,使用這種方式分析就可以得到精確的結果。但若分析的是海溝、或火星上的環境微生物,因為沒有相關的微生物參考序列資料,所以就無法用Reference-based mapping and analysis方式進行分析。類似此類環境微生物樣本,目前可以考慮利用MetaPhlAn2與HUMAnN3軟體的組合來分析,才有機會取得較多的微生物組成、基因功能、基因拷貝數以及代謝途徑等資訊。但要注意的是,分析的精確度可能也會隨著樣品來源不同而有所差異。

 

2、De novo assembly and analysis

  此方式可針對沒有參考序列的微生物物種提供基因體定序;也就是能在沒有參考序列的情況下,直接拿定序出來的序列片段所提供的資訊去拼接組裝,還原出樣本中所有微生物的基因體樣貌及資訊(可參考有勁官網《探究未知物種發現生物多樣性》)。由於是直接進行組裝,因此理論上就算是未知的物種,也可以透過此方式去拼裝出該物種的基因體,進而分析推測其基因功能。當然了,實際情況還是會受到定序深度、該物種在環境樣本中的佔比等因素所影響。有鑑於此,專家們又發展出「數據分箱策略(binning method)4」方法來試圖還原出更正確的基因體資訊。當然也有軟體是將兩種方法結合再一起的,如metaSPAdes5等等。基因體組裝好後,接下來就可以透過傳統基因預測(gene prediction)與註解(annotation)等方法去分析環境樣本中微生物的基因功能了。

 

  如果想要鑑別微生物物種,則可先利用MetaBat6軟體針對已拼接組裝好的序列(稱為Scaffold序列)去進行分群,然後再將這些序列拿去比對已知物種的基因體序列,看看該物種和哪個已知物種的序列最相像。假若這個序列跟所有已知物種的序列都對不起來,且組裝錯誤的可能性皆已排除,那恭喜你,你找到新物種了!

 

  看到這邊,讀者們都眼花了沒?沒關係,下面表一有為大家大致整理比較了幾個環境微生物分析的策略;以後大家在做相關研究時,希望都可以針對實驗的需求、選擇適當的策略,然後順利得到結果。

 

表一、微生物分析策略比較

 

 

Microbiota

Metagenome

 

Reference-based mapping and analysis

De novo assembly and analysis

原理

微生物的rRNA序列有物種間的差異;將rRNA序列與已知資料庫進行比對,就可以分析樣本中的物種。

將環境樣本中所有微生物的基因體定序結果拿去與已知的微生物參考序列進行比對,藉此取得物種、基因功能與代謝途徑等資訊。

在沒有參考序列的情況下,直接拿定序出的序列片段,根據序列資訊去進行拼接組裝,藉此還原出環境樣本當中樣本中所有微生物基因體的樣貌及資訊。

樣本類型

微生物核醣體的核醣核酸序列(例如:16S rRNA)

基因體

基因體

定序規格

Paired End 300 bp或Paired End 250 bp;

0.05 ~ 0.1 million reads / per sample

Paired End 150 bp;

10 million reads / per sample

Case by case, 必要時須採取多平台混和組裝策略(如Pacbio + Illumina)

價格

便宜

中等

分析結果

微生物相組成

基因功能與代謝途徑(援引資料庫,屬預測性質)

微生物相組成

量化後的基因功能與代謝途徑

基因體序列

根據基因體序列所預測出的基因位置、基因功能與代謝途徑。

微生物種類

建議使用

時機

只想了解環境樣本中的微生物相組成時。

礙於經費,無法做metagenome,但仍希望了解環境樣本中微生物的基因功能,且可以接受與實際狀況有可能不相符的分析結果時。

已有許多人研究過此環境中的微生物物種;換言之,該環境中大部分的微生物物種都是已知的。

想要了解環境樣本中的微生物相組成、基因功能與代謝途徑。

此環境中的微生物較少被人研究;或是該環境的樣本較難取得。換言之,該環境中大部分的微生物物種都是未知的。

懷疑該環境中有新物種,想要嘗試還原出新物種的基因體。(需搭配大量經費)

補充說明

原核生物16S rRNA全長約1.6 kilo bp,次世代定序平台無法定序16S全長,所以會用PCR去針對特定的保守區域(conserved regions)進行放大與分析。至於該挑選哪個保守區域,建議是參考文獻之後再做決定。

由於鑑定微生物物種與基因的方式,是拿定序所得到的序列去比對參考序列。若想要分析的物種在環境樣本中的含量過少時,有可能會鑑定不出來。

建議在進行此策略之前,先有完整的評估與計畫,這樣子才能提高分析結果的準確度。

表格來源: 鄭翰欽/有勁基因

 

 

參考資料

1. Langille, M.G.I., et al. Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature Biotechnology. 2013 Aug; 31(9):814-821. https://doi.org/10.1038/nbt.2676

2. Segata, N., et al. Metagenomic microbial community profiling using unique clade-specific marker genes. Nature Methods. 2012 Jun; 9(8):811-814. https://doi.org/10.1038/nmeth.2066

3. Abubucker, Sahar, et al. Metabolic reconstruction for metagenomic data and its application to the human microbiome. PLoS Comput Biol. 2012 June; 8(6): e1002358. https://doi.org/10.1371/journal.pcbi.1002358

4. Albertsen, M., et al. Genome sequences of rare, uncultured bacteria obtained by differential coverage binning of multiple metagenomes. Nature Biotechnology. 2013 May; 31(6):533-538. https://doi.org/10.1038/nbt.2579

5. Nurk, S., et al. metaSPAdes: a new versatile metagenomic assembler. Genome Research. 2017 Mar; 27:824-834 http://www.genome.org/cgi/doi/10.1101/gr.213959.116

6. Kang, D.D., et al. MetaBAT, an efficient tool for accurately reconstructing single genomes from complex microbial communities. PeerJ. 2015 Aug; 3:e1165. https://doi.org/10.7717/peerj.1165

 

 

 

thumbnail_官網用CC創用_ND_YH.png

 

arrow
arrow

    Yourgene Health 發表在 痞客邦 留言(0) 人氣()