當我們在進行 de novo 定序時,一般而言,定序深度越深 (定序量越多)組裝效果會越好,就如同統計學中所述,抽樣的樣本數越多,其分佈會越接近母體之分佈。

不過,是不是只要一直增加定序量就能完整組出 de novo 的基因體序列呢? 目前來恐怕還是件很困難的事。主要的理由在於基因體中長片段重複序列造成組裝上之問題,由於長片段重複序列被打斷時會產生許多相似的序列,使得在組裝過程中無法判斷何種組裝結果是正確的。

以下就以非常簡化的例子來說明長片段重複序列組裝上的問題。

假設一個read只包含兩個base。

Genome與 reads 的資訊如下:

圖片3  

 

進行 de novo 定序,即意味著該物種之基因體序列未知,在沒有基因體序列資料時,單就read的序列進行組裝,我們無法得知以下哪個結果才是真正的基因體序列?

 

GATC

GATATC

GATATATC

GATATATATATATATATATATC

 

針對長片段重複序列,目前尚未發現有比較好的解決方式,因此,在目前,若單純地只增加定序量,而沒有輔助一些其他的工具 (如: mate-pair 或 optical mapping),要組出完整的全基因體序列,還是非常困難的。


logo_121_55.png 

arrow
arrow
    全站熱搜

    Yourgene Health 發表在 痞客邦 留言(0) 人氣()