當我們將NGS 資料(reads data)利用各種方法去和參考序列(reference sequence)做比對之後,我們該如何表達比對之後的結果呢?這個問題的答案就是我們耳熟能詳的SAM檔案。SAM的縮寫是Sequence Alignment/Map,它是來自於Heng Li 等人在2009發表在Bioinformatics的文章。藉由標準的SAM檔案格式,我們得以描述每一次比對之後的結果。SAM是一個純文字檔案,可以用任何的文字編輯器開啟,其格式具有以下的優點:

  1. Is flexible enough to store all the alignment information generated by various alignment programs;
  2. Is simple enough to be easily generated by alignment programs or converted from existing alignment formats;
  3. Is compact in file size;
  4. Allows most of operations on the alignment to work on a stream without loading the whole alignment into memory;
  5. Allows the file to be indexed by genomic position to efficiently retrieve all reads aligning to a locus.

 

簡單的說,透過SAM檔案的內容,我們可以很有彈性的去描述各種比對的狀況。此外我們也可以透過作者所提供的工具(SAMTools)來去抓取特定的區域,合併或排序比對的結果、甚至是可以根據不同的比對狀況來抓取相對應的序列資料….等等非常多的應用。

除了SAM檔案之外,我們也往往會看到BAM檔案。BAM其實就是2進位檔的SAM,因此具有檔案大小較小、存取速度較快的優點,但是缺點為無法用一般的文字編輯器開啟。由於以上特性,某些工具會僅針對BAM檔案去設計。遇到這種狀況,我們變需要先將SAM利用SAMTools去轉換成BAM,才能再往下進行相關的分析。

 

Reference:

  1. Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, Marth G, Abecasis G, Durbin R, 1000 Genome Project Data Processing Subgroup. 2009. The Sequence Alignment/Map format and SAMtools. Bioinformatics 25: 2078–2079.
  2. http://samtools.sourceforge.net/
 
 
 
Yourgene Bioscience

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()