重複序列廣泛的出現在各物種的基因體序列中,這些序列對於生物資訊的分析上將會造成許多biases。

以人類的基因體序列為例,有將近51%的序列是屬於repeated sequence,請見圖一。

20121012_pic1  

圖一: a.人類基因體序列中的repeated sequence分布情形。b. 23對染色體各自的repeated sequence分布情形。

 

Repeated sequence對於alignment造成的影響

20121012_pic2   

圖二: 圖中X1及X2為基因體中repeat sequence,而read: AAGCATAGCT 可同時比對到X1及X2,此時無法判定此read是屬於X1還是X2


20121012_pic3   

圖三: 一條read: AGAATGAGCCGAG,同時對到參考序列的兩個位置,a位置表示此read含一個mismatch,而b位置表示此read含一個deletion。由於我們在alignment時的扣分deletion會比mismatch的扣分重,程式會給最高分的比對結果a,但假設此read的變異是真的由deletion造成的,此時已造成誤判的情形了。

 

而目前在處理reads 比對到多個位置的策略,可分成三種,如圖四所示。

20121012_pic4  

圖四:圖中A及B為repeat sequence。a. 只取reads 要獨特比對到參考序列的結果,所以沒有reads有比對到。b. 當reads比對到多個位置,取最高得分的噹結果,當最高得分的位置不只一個時,隨機選一個當結果。c. 最後一種策略則是不限制reads 比對到的位置數,全部都回報,即一條read比對到A和B,則兩個結果都記錄下來。 

 

Repeated sequence對於De novo assembly造成的影響

(詳細可參見De novo assembly problem. Part II)

20121012_pic5  

圖五:圖中 A和C,R1和R2即B和D分別為repeat sequence,真正在基因體中的序列是A- R1 -B即C-R2-D,不過assembly時因為重複序列造成組裝錯誤成A-R1-D即C- R2-B。

 

克服repeat sequence在assembly所造成的錯誤,可使用不同inserted-size library所定序的paired-end reads來解決,如圖六所示,(詳細可參見不同長度mate-paired 在組裝上之差異)。

20121012_pic6  

圖六:以assembly馬鈴薯的基因體為例,圖中的X軸代表assembly後N50的長度,Y軸代表paired-end reads的inserted-size的大小,每一個點代表不同size的Scaffold N50所對應組裝時的inserted-size,可發現最右上方的點代表利用inserted-size 20kb能組裝出約1.3Mb的Scaffold N50。

 

Reference:

TJ Treangen, SL Salzberg ., Repetitive DNA and next-generation sequencing: computational challenges and solutions. Nature Reviews Genetics, 2011


 


Yourgene Bioscience  


 

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()