GATK ( Genome Analysis Toolkit),一套用來分析DNA sequencing data,找尋genomic variation的工具,由Broad Institute開發。目前已被應用在幾個大計畫中,例如1000 genomes projectTCGA(The Cancer Genome Atlas)。而在今年七月也更新成第二版。

20121128_pic1  

圖1. GATK流程圖

 

不同於類似的工具,GATK除了本身擁有相當多的walker供使用者使用外,更擁有一連串的校正步驟,目的就是為了減少false positive。舉個例子來說,GATK利用幾個public dataset (dbSNP、HapMap、Omni 2.5M chip),training出model來篩選掉一些false positive的SNP。

 

使用GATK的簡單分析流程如下:

  1. Alignment
  2. Remove PCR duplicates
  3. Local realignment
  4. Base quality recalibration
  5. Variant calling
  6. Variant quality recalibration

 

而在第二版修正了一些walker的使用方法(例如:base quality recalibration),此外還有新增了一些walkers:

  1. HaplotypeCaller-加入de novo assembly的概念去call variants,增加Sensitivity。
  2. ReduceReads-將沒有變異的consensus 區域merge起來,減少calling時間。
  3. Indel error model-第一版只有SNP的error model,在第二版加入了Indel的error model,使用2011年Ryan E. Mills發表在Genome Res上面的dataset。

 

References:

  1. McKenna A, et al., (2010) The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data. Genome Res, 20:1297-1303.
  2. McKenna A, et al., (2011) A framework for variation discovery and genotyping using next-generation DNA sequencing data. Nat Genet, 43:491-498.
  3. http://www.broadinstitute.org/gatk/



Yourgene Bioscience  

YourGene 發表在 痞客邦 PIXNET 留言(1) 人氣()


留言列表 (1)

發表留言
  • 悄悄話