在Re-sequencing 的分析中,將Paired-end reads 對回到參考序列後的SAM 格式中,其中一個欄位”FLAG”,將會記錄paired-end reads 對回參考序列的特性。FLAG定義reads對回參考序列後的幾種特性,如圖一所式,其計算方法則是將read含有的每一個特性所對應的數值相加。

20130125_pic1  

 

圖一:SAM format中的FLAG欄位

 

 

 

藉由以上的定義,如果一對paired-end reads 在合理的inserted-size下map到同一條參考序列,稱為Concordant pairs,會有圖二及圖三的兩種情形。

20130125_pic2  

圖二: Concordant pairs 對回參考序列的情形,其READ1forward mappingFLAG99READ2reverse mappingFLAG147

 

 

20130125_pic3  

圖三: Concordant pairs 對回參考序列的情形,其READ1為reverse mapping,FLAG為83;READ2為forward mapping,FLAG為163。

 

若一對paired-end reads的READ1及READ2分別map到不同的參考序列,稱為Discordant pairs,有圖四及圖五的兩種情形。在分析的應用上,如是genomic DNA,有可能是genome rearrangements後造成,或病毒序列鑲嵌到宿主DNA後造成的情形。如是RNA-Seq,則有可能fusion gene或trans-splicing造成的。

20130125_pic4  

圖四: Discordant pairs 對回參考序列的情形,其READ1forward mappingFLAG97READ2reverse mappingFLAG145

 

 

20130125_pic5  

圖五: Discordant pairs 對回參考序列的情形,其READ1為reverse mapping,FLAG為81;READ2為forward mapping,FLAG為161。

 

若一對paired-end reads的READ1及READ2只有其中一邊有map到參考序列,另一邊的READ沒辦法對到參考序列,則有圖六~圖九的情形,unmapped read依造定序的種類有不同的可能,如是genomic DNA,unmapped read有可能是橫跨genome rearrangements中的break point,或是病毒序列鑲嵌到宿主DNA後的Insertion size。如是RNA-Seq,則有可能是novel gene中的exon boundary或fusion gene或trans-splicing中的fusion transcript的break point。

 20130125_pic6  

圖六: READ1為forward mapping,其FLAG為73;READ2為unmapped,FLAG為133。

 

20130125_pic7  

 

圖七: READ1為reverse mapping,其FLAG為89;READ2為unmapped,FLAG為133。

 

20130125_pic8  

 

圖八:READ1為unmapped,FLAG為69;READ2為forward mapping,FLAG為137。

 

 

 

20130125_pic9  

圖九: READ1為unmapped,FLAG為69;READ2為reverse mapping,FLAG為153。

 

這邊我們舉了Illumina platform定序後的paired-end reads常碰到的flag組合,在不同sequencing platform或alignment parameters下會有很多可能性,可供後續生物資訊分析來擷取資訊。

 補充:在 2013年5月22日,本部落格發表一篇對於FLAG換算的文章,請參考"SAM format中的FLAG應用 - FLAG換算"

 

 

 

Yourgene Bioscience  

 

 

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()