在處理NGS的資料時,一開始會碰到的資料型態即是Fastq的序列格式,可以想成是fasta格式+quality值。
在前幾週的blog我們介紹了fasta的序列格式,格式如下
>sequence_name
TTAATTGGTAAATAAATCTCCTAATAGCTTAGATNTTACCTTNNNNNNNNNNTAGTTTCTTGAGATTTG
而Fastq的格式如下
@sequence_name
TTAATTGGTAAATAAATCTCCTAATAGCTTAGATNTTACCTTNNNNNNNNNNTAGTTTCTTGAGATTTG
+sequence_name
efcfffffcfeefffcffffffddf`feed]`]_Ba_^__[YBBBBBBBBBBRTT\]][]dddd`ddd^
在Fastq的格式第一行是序列的名子,以’@’開頭
第二行則是序列
第三行由’+’開始
第四行則是序列中每一個base對應的quality value
Quality value 有不同的定義,常使用的有Sanger定義的分數:
p 代表的是每個base對應的錯誤機率
例如:p=0.01代表錯誤率為百分之一,換算成quality value則為20。
而算出來的數值會藉由ASCII表的對應將數值用字元代表
細節上不同的定序儀器及版本所使用的quality value 轉ASCII表對應區間也不同
(http://en.wikipedia.org/wiki/FASTQ_format)
Illumina 1.8版後的QV值也轉成和Sanger定義的一樣,其好處就是大家都用統一的計分定義,方便後續的分析。
全站熱搜
留言列表