教學-於window7平台下使用bowtie－有勁的基因資訊

當我們利用NGS定序儀器所產出的資料格式為FASTQ，細節的說明可參閱之前的介紹(http://yourgene.pixnet.net/blog/post/84563506)，其後續的生物資訊分析步驟中，如定序的物種有已知的基因體參考序列，則可將定序出來的short reads針對已知的基因體參考序列做alignment。

傳統的alignment分析過程，最常使用的工具就是BLAST(Basic Local Alignment Search Tool)，不過由於NGS的技術所產出的資料特點是資料量龐大，序列片段都較短，針對NGS產出的資料如使用傳統的BLAST針對已知的基因體參考序列做alignment是非常沒有效率的。因此在近幾年針對NGS的資料所設計的alignment工具大量的被發展出來。

今天以window7的作業系統下，介紹常使用的alignment工具bowtie的基本操作

步驟一：下載bowtie

連結到(http://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/bowtie-0.12.8-win32.zip/download)下載bowtie的軟體

步驟二：解壓縮及放到C槽下

步驟三：使用命令提示字元操作執行指令

Bowtie在操作上面是需要使用輸入執行指令的方式來執行，在window7下則需開啟命令提示字元，快速開啟的方法是 1.【開始】→2.輸入cmd →3.Enter，之後請輸入cd c:\bowtie-0.12.8，則命令提示字元的畫面會切換到前一步驟解壓縮的位置。

20120810_louis_pic2

步驟四：執行bowtie，以single-end read做alignment

在bowite的資料夾下，已經有將e_coli的已知基因體序列做完索引放在C:\bowtie-0.12.8\indexes之下；測試用的reads放在C:\bowtie-0.12.8\reads之下

最簡單的指令請輸入bowtie –S indexes\e_coli reads\e_coli_1000.fq e_coli.sam

20120810_louis_pic3

當輸入完上列指令後，螢幕會列出此alignment步驟的結果，共用1000條reads，其中有699條是有map到e_coli上，301條是沒有map到任何位置。

而打開資料夾可看到e_coli.sam這個檔案

20120810_louis_pic4

e_coli.sam記錄此alignment的結果，以sam的格式紀錄，打開後的內容如下圖

20120810_louis_pic5

在此簡單介紹sam檔的格式

開頭3行以”@”起始的稱為標頭行，紀錄了此alignment步驟中的註解資訊，包含參考序列的長度等資訊，接者的每一行即read map到參考序列的資訊，以r0這條read為例，這條read以reverse mapping map到e_coli的已知基因體參考序列的第3658050位置；r5這條read為例，這條read以forward mapping map到e_coli的已知基因體參考序列的第4249842位置。

在alignment的過程中，可以調整的參數很多，其中允許的mismatch數在bowtie中有兩種模式，一種是n模式，一種是v模式。

這邊以v模式為例，v0代表read和已知的參考序列間不能有mismatch，v1代表read和已知的參考序列間能有1個mismatch，依此類推最多到3個mismatch。

以下將同樣資料(e_coli_1000.fq)從v0~v3的alignment結果列出來：

v0 模式

20120810_louis_pic6