FASTQ格式簡介 @ 有勁的基因資訊

在處理NGS的資料時，一開始會碰到的資料型態即是Fastq的序列格式，可以想成是fasta格式+quality值。

在前幾週的blog我們介紹了fasta的序列格式，格式如下

>sequence_name

TTAATTGGTAAATAAATCTCCTAATAGCTTAGATNTTACCTTNNNNNNNNNNTAGTTTCTTGAGATTTG

而Fastq的格式如下

@sequence_name

TTAATTGGTAAATAAATCTCCTAATAGCTTAGATNTTACCTTNNNNNNNNNNTAGTTTCTTGAGATTTG

+sequence_name

efcfffffcfeefffcffffffddf`feed]`]_Ba_^__[YBBBBBBBBBBRTT\]][]dddd`ddd^

在Fastq的格式第一行是序列的名子，以’@’開頭

第二行則是序列

第三行由’+’開始

第四行則是序列中每一個base對應的quality value

Quality value 有不同的定義，常使用的有Sanger定義的分數：

p 代表的是每個base對應的錯誤機率

例如:p=0.01代表錯誤率為百分之一，換算成quality value則為20。

而算出來的數值會藉由ASCII表的對應將數值用字元代表

新圖片 (3).png

細節上不同的定序儀器及版本所使用的quality value 轉ASCII表對應區間也不同

新圖片 (4).png

(http://en.wikipedia.org/wiki/FASTQ_format)

Illumina 1.8版後的QV值也轉成和Sanger定義的一樣，其好處就是大家都用統一的計分定義，方便後續的分析。

Yourgene Health

有勁的基因資訊

Yourgene Health 發表在痞客邦留言(0) 人氣()

E-mail轉寄

«	四月 2024	»
日	一	二	三	四	五	六
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

四月 2024

日

一

二

三

四

五

六

有勁的基因資訊

『有』字天書讀領風潮『勁』入剖析研究探討『基因』解碼探索知曉『技術精湛』品質良好

FASTQ格式簡介

歷史上的今天

留言列表

有勁部落格動態月曆

本日來訪人數

最新文章

文章彙整（依月份）

文章搜尋

文章分類

本站歷年文章點閱排行

訪客留言(請提供姓名)

RSS訂閱

QR Code

新聞交換(RSS)

相簿幻燈片

«	四月 2024					»
日	一	二	三	四	五	六
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

«	四月 2024					»
日	一	二	三	四	五	六
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

有勁的基因資訊

『有』字天書讀領風潮『勁』入剖析研究探討 『基因』解碼探索知曉『技術精湛』品質良好

FASTQ格式簡介

歷史上的今天

留言列表

有勁部落格動態月曆

本日來訪人數

最新文章

文章彙整（依月份）

文章搜尋

文章分類

本站歷年文章點閱排行

訪客留言(請提供姓名)

RSS訂閱

QR Code

新聞交換(RSS)

相簿幻燈片

『有』字天書讀領風潮『勁』入剖析研究探討『基因』解碼探索知曉『技術精湛』品質良好

«	四月 2024					»
日	一	二	三	四	五	六
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30