之前我們探討了兩種會造成組裝過程產生錯誤結果的因素,這次我們要再來探討第三種因素。

3.重複區域Repeat region

20120810_darren_pic1  

假設我們將NGS的定序資料隨機抽取出三條reads (紅色線條),發現這三條reads的尾端(藍色區域)均有相同的序列,所以藍色區域即為repeat region。當遇到這種情況時,程式會無法判定究竟哪兩條reads應該要組合在一起。但是假如我們使用paired-end reads,即可解決此一問題。如圖示:

20120810_darren_pic2  

 

當我們將paired-end reads去和兩種不同的組裝結果進行比對,因為Paired-end reads是來自於同一個DNA fragment,所以我們只要觀察哪一個組裝結果可以允許paired-end reads (紅色箭頭和綠色箭頭)同時都mapping上,即可以判斷出正確的組裝結果。

Repeat region解決方法:

  1. 使用長片段的定序資料Longer reads.
  2. 使用包含不同插入長度的對讀定序Different insert size of paired-end and mate-paired reads

 

 

logo_121_55.png     

創作者介紹

有勁的生技資訊

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()