IGV(Integrative Genomics Viewer) 也是Broad Institute開發的NGSarray-based定序資料的genome viewer。他跟GATK 一樣在java平台之上提供反應快速的視覺化界面來瀏覽在本機端或是網路上的多種基因體資料,並且讓我們快速地在不同放大倍率間的序列瀏覽搜尋。他也提供各種定序資料與其他臨床性狀資料的關聯,將不同資料放在一起比較。

Broad Institute2006年與美國癌症研究所(NCI),美國基因體研究中心(NHGRI)合作的癌症基因體圖譜計畫(TCGA)時為了彙整基因copy numberCHIP-seq、表現量、序列變異和臨床資料而開發的。在後續與其他計劃合作(1000 genome, ENCODE)時,IGV也整合了SAM/BAMVCF等檔案。目前IGV主要版本為2.x。以下就操作界面、檔案格式、功能特色加以明。

 

操作界面

IGV視窗主要分成三個部分(如下所示):最上面是導覽列,可以讓你選擇reference genome(Reference Genome Selector)和選擇你要看的區域(Seach Box)。下面的chromosome Ideogram顯示了完整的reference和目前顯示的範圍(紅色方塊);而Genomic Coordinates標示出了reference放大顯示後視窗的坐標範圍。顯示不同mapping資料或是不同樣本資料的區域稱作"track",他們各自只代表一個樣本或是一種、annotation,如範例圖裡面的data track(CHIP-sdeq)。有時候該track裡會有一些屬性(property)IGV會用顏色方塊來代表這些屬性,也可以用這些屬性來排序多個track。最下面的部分則顯示reference sequence上的基因標示。當把reference放大到大的時候,最下面的區域(reference genome track)也會顯示reference的序列。

20130419_pic1  

  

檔案格式

IGV自定了一個可以用來快速縮放及搜尋alignemnt的檔案類型-TDF。使用igvtools可以將alignment檔案或是annotation檔案換成TDF。但是IGV並沒有要求需要轉檔後才可以將資料匯入,反之它可以匯入許多格式的資料。基本上這些資料分成三種:1)第一種是非索引式檔案,像是GFF或是BED需要從頭開始一筆一筆搜尋,不過這些檔案也可以透過igvtools轉成索引式檔案。2)像是BAM或是Goby都算是索引式檔案,在一個大genome裡比較能快速找出我們要的注解或是read序列。3)第三種是預存不同解析度的格式,包含TDF或是bidBED,他們除了預存不同解析度的資料外,也將這些資料索引化,以方便快速存取。其他資料格式可以參考http://www.broadinstitute.org/software/igv/FileFormats

使用IGV第一個步驟就是要先讀入reference genome;除了IGV附屬的Server上已經提供十多個(大多來自1000genome project)genome的資料之外,也可以匯入額外的序列資料。refenrece容除了有基本的fasta之外也可以納入cytoband, annotation或是該序列的其他名稱。當實驗資料的區塊放到最大或是接近最大時,該reference的正股序列就會出現在視窗下方的annotation區塊中。這一個區塊也可以顯示反股的序列或是codon

 

讀入檔案的方式有三種:1)直接由檔案對話視窗選擇檔案, 2)透過ftp或是http讀入檔案, 3)透過DAS系統選擇檔案。經由網路匯入資料可以讓大家把序列資料集中放在server一起分享。

20130419_pic2  

 

功能特色

IGV提供很多功能來協助研究NGS alignment相關資料,像是序列變異的瀏覽及驗證、RNA splicing或是bisulfite。幾份資料依序匯入後會顯示在個別的區塊、並且依序並排著。跟reference一樣,當放大接近最大的時候,這些alignment裡面的序列就會顯示出。

 

顯示在資料列的序列會依照序列屬性(像是正反股或是quality)或是樣本屬性來塗顏色,不同NGS分析資料也會有不同的色系來標示。像是在alignment的區塊中,當放大到一定等級後,會有一個長柱狀的方塊來標示大量出現mismatch的鹼基。不同相對高度的顏色代表不同的鹼基,我們可以藉由這一個功能來尋找潛在的SNP位置。另外再放大到更細的時候,可以看到read序列中中與reference一樣的序列接與reference的顏色一致,但是mismatch除了依照鹼基顏色來標示外,也利用顏色通明度來標示base callquality。由此可以看出這一個位置有其他mismatch並且都只出現在反股,意味著這可能不是真的SNP

20130419_pic3  

 

在瀏覽methylation定序資料時,也會分別用紅色和藍色標示hypermethylatedhypomethylation的位置。當瀏覽RNA-Seqalignment資料的時候,跨越不同exonread片段會以藍色的直線連結。在途中Junction區塊中顯示跨越不同exon的紅線的寬度則顯示跨越該junctionread數量。 

20130419_pic4  

序列上的注解格式像是BED, GFF, GTF2等所紀錄的features,IGV會依照UCSC Genome browser所設計的方式來顯示。

 

第二版IGV新增了在同一genome上利用切割畫面的方式檢視多個區域,這有助於我們用非常直覺得方式來比較同一pathway不同基因或是element的資料。IGV可以利用兩種方法式啓用分割畫面,一是以基因或是feature為單位的分割畫面,透過主選單的Gene list對話視窗來選擇基因,如下圖。

20130419_pic5  

二是先選擇其中一條paired read,在右鍵選單裡面選擇”Show Mate Region”,也會產生分割畫面。這個功能想當然是為了尋找評估inter/intra chromosome translocation所設計的。

 

儲存與分享

IGV在資料分享這一方面也有些著墨(特別是在這個雲端的年代)。它可以讓我們將瀏覽狀態(session)存起來,並且可以將這個session與其他資料檔案一併與其他人分享,這樣其他人就會看到你自己所調整過的圖 。另外一種方式可以搭web server一起分享,你可以先將資料和瀏覽狀態檔session(xml格式)一起放在web server上,在IGV首頁上的將session檔的網址加在後面:像是http://www.broadinstitute.org/igv/projects/current/igv.php?sessionURL=http://www.broadinstitute.org/igvdata/tcga/gbmsubtypes/gbm_subtypes_session.xml&locus=chr7:55054218-55206232。另外IGV在執行階段也可以接受socket或是http界面傳來的指令,這樣我們就可以將IGV的功能整合到自己的pipeline。

 

IGV開發的目標是要在個人電腦的桌面環境上提供類似Google Maps的瀏覽互動界面,並且利用跨平台的JAVA及其豐富的API建立功能強大的genome borwser。後續發展應該會往更視覺化的資料顯示方式邁進,令人非常期待。

 

 

參考文獻:

Thorvaldsdóttir H, Robinson JT, Mesirov JP: Integrative Genomics Viewer (IGV): high-performance genomics data visualization and exploration.
Brief Bioinform 2012.

 

 

 

Yourgene Bioscience  

arrow
arrow
    全站熱搜

    Yourgene Health 發表在 痞客邦 留言(2) 人氣()