BLAST 是生物學上常用的序列比對工具,隨著BLAST 改版至BLAST+ 後,許多指令的用法已經與之前不太相同,以下就對 BLAST+ 的指令做一個簡單的介紹。
安裝:
首先請到 ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/ 下載適合平台的 BLAST 程式,一般只需要下載tar.gz 檔,解壓縮後即可使用。
BLAST 是生物學上常用的序列比對工具,隨著BLAST 改版至BLAST+ 後,許多指令的用法已經與之前不太相同,以下就對 BLAST+ 的指令做一個簡單的介紹。
安裝:
首先請到 ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/ 下載適合平台的 BLAST 程式,一般只需要下載tar.gz 檔,解壓縮後即可使用。
Bioperl是一個基於perl程式語言之上的工具箱,他提供數個不同套件來方便生物學家分析生物資訊的資料。當使用perl分析一些檔案時,透過Bioperl僅需要幾行的程式碼就可以擷取出檔案中的各項資訊,節省一些撰寫基本程式碼的時間。儘管如此,使用Bioperl的時候,開發者仍然要相當熟悉perl語言。越熟悉perl的進階用法以及其他perl模組的搭配,越可以用Bioperl作一些變化。在許多已發表的NGS相關分析軟體中,就可以看到Bioperl的蹤影。
功能
Bioperl中的許多功能皆使用物件導向的方式來提供,也就是在使用大多功能時皆需要先建立物件才能取得他的功能。在官方網站可以看到常見的基本用法有:
我們偶爾會聽到客戶方有這樣的問題:「在 illumina 其他平臺上定序的資料是否可以跟 Hiseq 2000 上的資料一起比較?」,這樣的問題其實很微妙。
首先,我們先探討不同廠牌平臺 (如 illumina與 Roche 454) 間的比較能力,由於 Roche 454 與illumina 平臺的樣品備製方法不同,定序原理不同,在序列取樣上的方式就不同,若直接進行比較,無法得知有差異之處究竟是來自樣本間的差異,還是定序方法上之差異。
但是同一廠牌,不同平臺間的資料是否能比較呢? 以illumina 為例,由於 Illumina 在製備樣品 library 時的方式固定,並且定序平臺使用的定序策略相近,理論上應該是可以被當作重複性的實驗,為了證明這個平臺相容性的問題,在最近 3 月 8 日的 Nature ISME 期刊中,illumia 與美國的一些知名大學教授合作,發表一篇 short communication 比較 Hiseq 以及 Miseq 的定序結果,探討跨越平臺是否會產生定序結果的差異性。
在這篇文章中所研究的主題為探討微生物的族群分布並且使用 Metagenomic 的方式來分析,材料來源分別取自土壤環境或是與寄主相關的口腔、表皮和排泄物,將全部 24 隻樣品平均上在 Hiseq2000 三條 lane 上以及 Miseq 一片 flow cell 上 (一片只有一條 lane),再將這總共四條得到的 pair-end 資料分成 5′ 和 3′ 共 8 組。上圖 1 挑選出其中 4 組做為代表,比較 Hiseq 的 lane 與 lane 之間、5′ 與 3′ 之間和Hiseq 與 Miseq 之間定序的相關性。
NGS 技術近年來協助科學家解開許多以往醫學上無法破解的謎團,其中包含致病分子機轉、感染性微生物特性及流行病學等,也使得科學家對於醫學的治療及預防提出許多新穎的想法,除此之外,在臨床分子診斷技術上,科學家及醫師皆認為 NGS 技術未來勢必可以成為診斷的利器。然而,NGS技術所提供的資訊,在實際臨床上似乎少有病患直接受惠的案例,直到2011年獲得普立茲獎的一篇文章報導以 Exome sequencing 協助醫師解救一名叫做Nicholas Volker的4歲小孩故事1,並且此案例被發表在 Genetics in Medicine 上2。
Nicholas Volker首先在其肛門附近不明原因地出現許多簍管,使得排泄物不斷湧出,並且出現感染發炎現象,為防止致命性的細菌感染及傷口惡化,醫師對Nicholas Volker做了結腸造口術,期望他的傷口能夠免除自體排泄物的感染,但出乎意料之外的事情發生了,就在結腸造口術的位置出現新的簍管且有嚴重的發炎現象,而這些發炎的區域漸漸地侵襲Nicholas Volker的整個大腸(圖一),使得醫師不得不切除小孩所有的大腸,然而,不久之後小腸也開始出現簍管及發炎的現象,Nicholas Volker的體力越來越糟,若不快速找出病因,尋求有效的治療方法,生命可能不保。
此時傳統的病理切片檢查及免疫學檢查所提供的訊息,僅顯示小孩的病症並非是一般的發炎性腸病 (inflammatory bowel disease),但仍無法知道確切的病因,後來醫師利用 Exome sequencing 技術,分析小孩 exome 中的 nonsynonymous variants,發現小孩的 X-linked inhibitor of apoptosis gene 變異是造成小孩腸子不斷發炎最有可能的原兇。有了NGS提供的這個資訊,醫師很明確地為小孩進行骨髓移植,移植後的小孩目前已恢復健康,並且期待長大成人迎接這個美好的世界。
當我們在進行 de novo 定序時,一般而言,定序深度越深 (定序量越多)組裝效果會越好,就如同統計學中所述,抽樣的樣本數越多,其分佈會越接近母體之分佈。
不過,是不是只要一直增加定序量就能完整組出 de novo 的基因體序列呢? 目前來恐怕還是件很困難的事。主要的理由在於基因體中長片段重複序列造成組裝上之問題,由於長片段重複序列被打斷時會產生許多相似的序列,使得在組裝過程中無法判斷何種組裝結果是正確的。
以下就以非常簡化的例子來說明長片段重複序列組裝上的問題。
假設一個read只包含兩個base。
有時候會遇到使用者詢問,為什麼做不同長度的mate-paired 呢? 這是因為contig間的距離不同,為了將這些不同距離的contig 組裝起來,得到更完整的組裝資訊,所以才需要使用不同長度的mate-paired。
以下就用一個簡化的例子來說明不同 mate-paired 在組裝效果上的差異:
假設我們有三個contig,這三個contig在genome上的距離如下:
即時聚合酶鏈鎖反應(Real-time polymerase chain reaction,簡稱為Real-time PCR),又稱定量即時聚合酶鏈鎖反應(Quantitative real time polymerase chain reaction,簡稱為Q-PCR)。Q-PCR是藉由PCR擴增原理將DNA放大的同時並達到即時定量之結果,若使用傳統PCR方法來定量的話是較費時費工又容易汙染,因此Q-PCR已經廣泛使用在定量這方面。
目前Q-PCR常用化學物質大致上可以分為:非專一性化學物質(SYBR Green )與專一性化學物質(TaqMan probe)。分述如下:
1.SYBR Green I
研究生物基因轉錄體的方法有許多種,而使用次代定序儀系統進行轉錄體定序是目前相當熱門的一種方式,科學家們使用 RNA-seq 分析轉錄體表現主要期望能夠獲得三種重要資訊:1. 了解整個轉錄體構造、splicing 位置以及註解基因的功能。2. 將所有轉錄體的表現量多寡定量。3. 找出 alternative splicing 的可能性方式。
相較於使用轉錄體反應 DNA-RNA 雜合為基礎的 RNA microarray,可以直接地得知轉錄體的方向性,但目前 RNA-seq 所常用的製備方法必須反轉錄成 cDNA,因此缺少了轉錄體序列的方向性,而分析上針對這個問題所作的解決方式為,例如:利用轉譯的蛋白質基因預測 open reading frame、利用 3’端定序量常較 5’端多的 bias、以及藉由真核生物 splicing 位置方向來做判斷。但即使如此,發展能區分出方向性的 RNA-seq 製備方式是很重要的,這是因為當面對較小基因體的物種,如微生物或低等真核生物時,基因會密集的出現在 DNA 的正負股上,而無法確認方向性會造成評估基因表現量上的誤判,另外,當轉錄體表現時,也有機會產生負股調控基因的轉錄體,這些轉錄體並不轉譯,但與蛋白質表現量卻息息相關。
目前被用來製備 strand-specific RNA-seq library 的方式五花八門,容易會讓操作者困惑不知該選用何種方法為佳,因此 2010 年 9 月 Levin 等人於 Nature Methods 上發表了一篇文章統整了這些製備方式,筆者使用同一來源的 RNA 作為材料,用不同的製備方式製造 cDNA library,爾後使用 illumina 定序系統獲得序列資料再分析,而評斷這些製備方式孰優孰劣的標準在於:
1. Library complexity-這些 reads 的獨特性高低、
目前發展成熟而被應用在許多研究的次世代定序技術中,被定序的library 大多為DNA而非RNA(定序原理請參照本部落格先前文章),在現有的mRNA-seq技術中,需先將RNA反轉錄為DNA,製備出DNA型態的library後,始能執行定序反應。針對mRNA-seq,近日Lira Mamanova團隊以Illumina定序平台為基礎,發展出可直接以RNA library做為定序材料的新技術,名為FRT-seq(Flowcell Reverse Transcription sequencing),此技術將RNA library注入flowcell內,並且直接在flowcell內執行反轉錄及bridge PCR,FRT-seq能完整保留RNA正負股的資訊(即strand-specific mRNA sequencing),除此之外,其製備library過程中不需經由PCR的放大,所以可以減少PCR所產生的錯誤(請參照本部落格PCR free文章)。
FRT-seq library的製備過程中,首先將mRNA純化出來並且打斷,再將RNA的3'及5'端分別接上兩段特殊設計且不同序列的adapter,經由qPCR及library分子大小的檢查後,便能以Illumina cBot將RNA library注入flowcell內,經由反轉錄及bridge PCR反應後,即可執行定序反應,流程如下圖所示。