在處理NGS的資料時,一開始會碰到的資料型態即是Fastq的序列格式,可以想成是fasta格式+quality值。

在前幾週的blog我們介紹了fasta的序列格式,格式如下

>sequence_name
TTAATTGGTAAATAAATCTCCTAATAGCTTAGATNTTACCTTNNNNNNNNNNTAGTTTCTTGAGATTTG

 

而Fastq的格式如下

@sequence_name
TTAATTGGTAAATAAATCTCCTAATAGCTTAGATNTTACCTTNNNNNNNNNNTAGTTTCTTGAGATTTG
+sequence_name
efcfffffcfeefffcffffffddf`feed]`]_Ba_^__[YBBBBBBBBBBRTT\]][]dddd`ddd^

在Fastq的格式第一行是序列的名子,以’@’開頭

第二行則是序列

第三行由’+’開始

第四行則是序列中每一個base對應的quality value

 

Quality value 有不同的定義,常使用的有Sanger定義的分數:

新圖片 (2).png  

p 代表的是每個base對應的錯誤機率

例如:p=0.01代表錯誤率為百分之一,換算成quality value則為20。

 

而算出來的數值會藉由ASCII表的對應將數值用字元代表

 新圖片 (3).png  

 

細節上不同的定序儀器及版本所使用的quality value 轉ASCII表對應區間也不同

 新圖片 (4).png  

(http://en.wikipedia.org/wiki/FASTQ_format)

 

Illumina 1.8版後的QV值也轉成和Sanger定義的一樣,其好處就是大家都用統一的計分定義,方便後續的分析。

logo_121_55.png  

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()