SnpEff是用來註解基因變異所造成可能影響的工具,其所需要的檔案及輸出的檔案格式皆為VCF檔,有經過SnpEff註解過的檔案看起來如下:

1025-1.png

前面header line的部分會加上幾行SnpEff的相關資訊,包含有:

(1) 版本資訊

##SnpEffVersion="3.6c (build 2014-05-20), by Pablo Cingolani"

(2) 當時下的指令

##SnpEffCmd="SnpEff -csvStats GCA_000007105.1.21 /home/yuching/test.vcf "

(3) SnpEff註解的格式:

1025-2.png

(i) ID=EFF: 表示此為SnpEffheader line

(ii) Type = String: 表示SnpEff所加入的註解為字串

(iii) Description="Predicted effects for this variant. Format: 'Effect ( Effect_Impact | Functional_Class | Codon_Change | Amino_Acid_Change| Amino_Acid_length | Gene_Name | Transcript_BioType | Gene_Coding | Transcript_ID | Exon_Rank | Genotype_Number [ | ERRORS | WARNINGS ] )' ": 說明SnpEff的功能是用來預測基因變異的可能影響,並列出SnpEff的註解格式。以下列出幾個重要欄位做簡短說明:

 1. Effect: SnpEff是使用Sequence Ontology來區分各種變異可能產生的影響。

2. Effect_Impact: 這欄顯示的是effect的分類。總共有四類:High, Moderate, Low, Modifier。詳細的Effect及相對應的Effect_Impact的列表可參考:

           http://snpeff.sourceforge.net/SnpEff_manual.html#input

3. Functional_Class: 基因變異是否對protein的可能影響。可分為none, silent, missense, nonsense等。

4. Codon_Change: 此欄列出codon的改變,格式為:原本codon+變異後codon (ex. Cga/Tga),而在upstreamdownstreamEffect中,此欄顯示的則是到transcript的距離 (ex. 2959)

5. Amino_Acid_Change: 此欄列出胺基酸序列的改變,格式為:原本胺基酸序列+胺基酸位置+變異後的胺基酸序列(ex. E30K)

6. Gene_Coding: 此欄顯示此基因的transcript是否會在轉譯出protein。分為CODINGNON_CODING

7. Genotype_Number: 此欄指出此變異為何種genotype(ex. ‘2’ 代表是第二個ALT)

Header line後面就是每一筆的基因變異及其註解,舉例來說:

1025-3.png

在這個例子中,SnpEff的註解就是:

1025-4.png

SnpEff預測此基因變異會有五種可能的影響,每種可能的影響會分別以逗號隔開,並在各自的括號裡列出相關資訊,每項資訊會以’|’作分隔,分別對應前面所提的SnpEff註解格式。以預測出的第一個影響來說:

1025-5.png

所表示的資訊是:

1025-6.png

1025-7.png

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()