Fusion gene 從基因體或轉錄體來講,是2個分開的基因的成為1個混合基因(hybride gene)。在生物資訊分析上,若只做map到Reference genome,

生物資訊參數有時會設為90%相似性,即定序長度100bases情況下,有90bases以上核甘酸序列是一樣的,就可map到Reference genome,因此就只能看小片段的 Insertion/deletion。

 

有些研究,是想看virus genome插在chromosome哪個位置,此需要用fusion gene生物資訊分析方式。首先,要將reads map到Reference genome後,因有些reads與Reference genome相似性低,無法將Map上,就會產生unmapped reads。如下圖: 

20121228_pic1  

之後,將每條定序長度100base的unmapped reads切成2段,25bases及75bases;26bases及74bases;27bases及73bases;……直到75bases到25base等51種組合片段。然後,將這些每種組合片段分別map至Reference genome及Virus genome,從 map的位置,推估insertion至Reference genome的那個位置。以下是一條定序長度為100base的read的51種組合片段示意圖:

20121228_pic2如Virus基因插在Reference chrosome1的position1000位置,我們將每條reads的51組合片段,分別map至Reference genome及TDNA,不可能每種組合都會map上,最後也許會找到一種組合可map至Reference Chrosome1及Virus genome.

就可知道map位置,找到Virus genome插到至染色體的位置。

 

20121228_pic3  

最後,我們會推論出Pseudo sequence reference,並且將完整的100bases的unmapped reads map到Pseudo sequence reference,以確定此推論的正確性。

20121228_pic4  

 

 

 

Yourgene Bioscience  

 

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()