當我們在進行 de novo 定序時,一般而言,定序深度越深 (定序量越多)組裝效果會越好,就如同統計學中所述,抽樣的樣本數越多,其分佈會越接近母體之分佈。
不過,是不是只要一直增加定序量就能完整組出 de novo 的基因體序列呢? 目前來恐怕還是件很困難的事。主要的理由在於基因體中長片段重複序列造成組裝上之問題,由於長片段重複序列被打斷時會產生許多相似的序列,使得在組裝過程中無法判斷何種組裝結果是正確的。
以下就以非常簡化的例子來說明長片段重複序列組裝上的問題。
假設一個read只包含兩個base。
Genome與 reads 的資訊如下:
進行 de novo 定序,即意味著該物種之基因體序列未知,在沒有基因體序列資料時,單就read的序列進行組裝,我們無法得知以下哪個結果才是真正的基因體序列?
GATC
GATATC
GATATATC
…
GATATATATATATATATATATC
針對長片段重複序列,目前尚未發現有比較好的解決方式,因此,在目前,若單純地只增加定序量,而沒有輔助一些其他的工具 (如: mate-pair 或 optical mapping),要組出完整的全基因體序列,還是非常困難的。
全站熱搜
留言列表