目前分類:De Novo Sequencing (4)

瀏覽方式: 標題列表 簡短摘要

NCBI、GenBank等序列資料庫的開放性使許多人的研究如虎添翼,特別是那些早被定過千千萬萬條序列的模式物種,各種基因的序列、註解與表現量資訊皆可信手拈來。反之,以往非模式物種的研究者卻常常必須使用痛苦指數很高的工具如degenerate PCR除草開路,或是在經費限制下使用表現序列標幟(Expressed sequence tag, EST)取得所需的序列資源。

 

但EST library的資訊量依舊有限,雖然能比較部分基因表現量的差異,卻會忽略掉許多表現量較少的基因。現在,你能選擇使用次世代定序儀建造自己的transcriptome sequence database,讓所有有興趣的序列信手拈來。有篇文獻正好說明這麼做的好處。

20120828_pic1

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

之前我們探討了兩種會造成組裝過程產生錯誤結果的因素,這次我們要再來探討第三種因素。

3.重複區域Repeat region

20120810_darren_pic1  

假設我們將NGS的定序資料隨機抽取出三條reads (紅色線條),發現這三條reads的尾端(藍色區域)均有相同的序列,所以藍色區域即為repeat region。當遇到這種情況時,程式會無法判定究竟哪兩條reads應該要組合在一起。但是假如我們使用paired-end reads,即可解決此一問題。如圖示:

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

目前 De Novo 序列組裝演算法有兩種, 一種稱為 overlap-layout-consensus , 簡稱 OLC. 另一種則是 de-bruijn-graph , 簡稱 DBG.

OLC 方法較為直觀, 先是將所有的 reads 做兩兩比對( pair-wise alignment ), 找出 reads 重疊( overlap )的區域, 再以圖學( graph theory )的方式呈現( layout ) reads 之間的重疊的關係, 以節點( vertex )表示 read,( edge )表示 read 之間的重疊, 見圖一.

最後, 我們要將圖轉為序列. 這個問題, 和一個古典的問題相同, 就是漢米爾頓路徑問題 ( Hamiltonian Path Problem ), 如何走過圖上每一個節點, 而且每一個節點只經過一次?

目前組裝以OLC演算法為基礎的軟體有 Arachne, CAP3, Phrap, Newbler.

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

當我們想要研究一個物種,可是卻發現這個物種的序列資料 (DNA or RNA) 並不存在於世界上現有的資料庫。當我們遇到這種情況,便可以利用 NGS 的資料來進行所謂的 de novo assembly,藉此幫助我們獲取此物種的序列內容。而一個常見的 de novo assembly 流程概念如下:

新圖片 (5) 
上圖表示將 NGS 的定序資料隨機抽取出兩條 reads (紅色線條),觀察此 reads 的尾端序列是否相同。如有某區域相同(藍色序列),則將此區域的序列合併連結起來,最後獲得一條更長的序列。透過這樣不斷的重複尋找,最終我們便可以將 reads 的資料還原回 genome 序列。

上述的過程是一個理想狀態,然而事實上有許多因素會造成我們組裝困難,我們將這些因素條列如後:

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼