目前分類:De Novo Sequencing (4)

瀏覽方式: 標題列表 簡短摘要

NCBI、GenBank等序列資料庫的開放性使許多人的研究如虎添翼,特別是那些早被定過千千萬萬條序列的模式物種,各種基因的序列、註解與表現量資訊皆可信手拈來。反之,以往非模式物種的研究者卻常常必須使用痛苦指數很高的工具如degenerate PCR除草開路,或是在經費限制下使用表現序列標幟(Expressed sequence tag, EST)取得所需的序列資源。

 

但EST library的資訊量依舊有限,雖然能比較部分基因表現量的差異,卻會忽略掉許多表現量較少的基因。現在,你能選擇使用次世代定序儀建造自己的transcriptome sequence database,讓所有有興趣的序列信手拈來。有篇文獻正好說明這麼做的好處。

20120828_pic1

YourGene 發表在 痞客邦 留言(0) 人氣()

之前我們探討了兩種會造成組裝過程產生錯誤結果的因素,這次我們要再來探討第三種因素。

3.重複區域Repeat region

20120810_darren_pic1  

假設我們將NGS的定序資料隨機抽取出三條reads (紅色線條),發現這三條reads的尾端(藍色區域)均有相同的序列,所以藍色區域即為repeat region。當遇到這種情況時,程式會無法判定究竟哪兩條reads應該要組合在一起。但是假如我們使用paired-end reads,即可解決此一問題。如圖示:

YourGene 發表在 痞客邦 留言(0) 人氣()

目前 De Novo 序列組裝演算法有兩種, 一種稱為 overlap-layout-consensus , 簡稱 OLC. 另一種則是 de-bruijn-graph , 簡稱 DBG.

OLC 方法較為直觀, 先是將所有的 reads 做兩兩比對( pair-wise alignment ), 找出 reads 重疊( overlap )的區域, 再以圖學( graph theory )的方式呈現( layout ) reads 之間的重疊的關係, 以節點( vertex )表示 read,( edge )表示 read 之間的重疊, 見圖一.

最後, 我們要將圖轉為序列. 這個問題, 和一個古典的問題相同, 就是漢米爾頓路徑問題 ( Hamiltonian Path Problem ), 如何走過圖上每一個節點, 而且每一個節點只經過一次?

目前組裝以OLC演算法為基礎的軟體有 Arachne, CAP3, Phrap, Newbler.

YourGene 發表在 痞客邦 留言(0) 人氣()

當我們想要研究一個物種,可是卻發現這個物種的序列資料 (DNA or RNA) 並不存在於世界上現有的資料庫。當我們遇到這種情況,便可以利用 NGS 的資料來進行所謂的 de novo assembly,藉此幫助我們獲取此物種的序列內容。而一個常見的 de novo assembly 流程概念如下:

新圖片 (5) 
上圖表示將 NGS 的定序資料隨機抽取出兩條 reads (紅色線條),觀察此 reads 的尾端序列是否相同。如有某區域相同(藍色序列),則將此區域的序列合併連結起來,最後獲得一條更長的序列。透過這樣不斷的重複尋找,最終我們便可以將 reads 的資料還原回 genome 序列。

上述的過程是一個理想狀態,然而事實上有許多因素會造成我們組裝困難,我們將這些因素條列如後:

YourGene 發表在 痞客邦 留言(0) 人氣()

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼