作者:張家豪/有勁基因

 

有勁部落格文章《Illumina 平台上的「標籤跳躍」現象》中曾提到,NovaSeq™6000在兩天內就能量產出高達2 Tb的定序資料。為了節省成本會將多個樣品基因庫(library)混和定序,定序完成後會再經過一道「多工解訊(demultiplexing)」的步驟,將混和的樣品根據標籤(Index)分離出來。但是,萬一遇到未曾進行多工解訊處理的定序資料,該怎麼辦呢?這裡就以實際案例來跟讀者作個介紹。

 

首先先介紹此次需要進行多工解訊的案例背景:此次的檔案PSPL0657A_R1.fq.gz和PSPL0657A_R2.fq.gz是使用16S rRNA雙端(paired-end)定序建庫的資料(建庫方式請參考有勁部落格文章《16S rRNA總體基因體定序文庫的製備方式與優缺點》)。4個樣品混和上機所使用的Index和Primer是TruSeq barcode1的序列(詳見下表一) 。接下來要跟大家介紹兩種不同的多工解訊手動操作方法。

 

表一、此次案例檔案的定序資訊

1125_1.png

表格來源:張家豪/有勁基因

 

  

方法一、不使用任何軟體,只使用Linux內建指令進行操作:以樣品zz0001為例

【步驟1】先檢查檔案的Index(紅色)和Primer(綠色)序列,確定都符合定序資訊的格式。圖一是用i7 Index D702 + Primer 341F的序列進行檢查。

 

圖一、用Index D702和Primer 341F序列進行定序資訊的格式檢查

Linux指令:

zcat PSPL0657A_R1.fq.gz | egrep "^TCCGGAGA" --color=always | GREP_COLOR="1;32" egrep --color "CCTACGGG[ATCG]GGC[ATCG]GCA"

1125_2.png

圖片來源:張家豪/有勁基因

 

【步驟2】從兩個定序檔案中分別掃描包含正確i7或i5Index序列(TCCGGAGA、GGCTCTGA)的資訊;從結果中抓出符合該掃描的所有序列,序列編號以@開頭。

 

圖二、用i7 Index D702及i5 Index D504抓出序列的編號

Linux指令:

zcat PSPL0657A_R1.fq.gz | grep -B 1  "^TCCGGAGA" | awk '$0~/\@/ {print substr($0,0,45)}'>D702_ID_R1.txt

zcat PSPL0657A_R2.fq.gz | grep -B 1  "^GGCTCTGA" | awk '$0~/\@/ {print substr($0,0,45)}'>D504_ID_R2.txt

1125_3.png

1125_4.png

圖片來源:張家豪/有勁基因

 

【步驟3】從PSPL0657A_R1.fq.gz和PSPL0657A_R2.fq.gz兩個檔案中抓出所有編號相同的序列,即為樣品zz0001的所有DNA片段序列。

Linux指令:

grep -Ff D702_ID_R1.txt D504_ID_R2.txt > zz0001.txt

 

【步驟4】最後再根據zz0001的序列編號抓出樣品的定序檔案

Linux指令:

zcat PSPL0657A_R1.fq.gz | grep -A 3 -Ff zz0001.txt | awk '$0!~/^\-\-$/ {print $0}'> zz0001_R1.fastq

zcat PSPL0657A_R2.fq.gz | grep -A 3 -Ff zz0001.txt | awk '$0!~/^\-\-$/ {print $0}'> zz0001_R2.fastq

 

方法二、使用fastq-multx2,3軟體,進行指令操作

【步驟1】將每個樣品的i7及i5Index序列列出建檔(檔名:barcode.txt)

 

表二、此次案例4個樣品的Index序列

1125_5.png

表格來源:張家豪/有勁基因

 

【步驟2】根據Index序列資料,開始進行多工解訊

 

圖三、使用fastq-multx軟體指令進行多工解訊

fastq-multx軟體指令:

fastq-multx -B barcode.txt -m 0 -b PSPL0657A_R1.fq.gz PSPL0657A_R2.fq.gz -o %.R1.fastq -o %.R2.fastq

1125_6.png

圖片來源:張家豪/有勁基因

 

 

顯而易見,使用軟體輔助進行多工解訊,會有效率的多。但是,藉著這次教學主要是想跟讀者們分享一個觀念:雖然使用軟體操作可以輕鬆容易地達成你所的目標,但如果能瞭解軟體的操作原理,你在使用軟體時才能更加應用自如。當然,萬一真的遇到未進行多工解訊的定序資料時,建議還是交給專業人員去處理,不要貿然自行解決才是!

 

 

參考文獻

1. Illumina Inc. (2020, July 15). Illumina Adapter Sequences (1000000002694 v14). Retrieved from https://support.illumina.com/downloads/illumina-adapter-sequences-document-1000000002694.html

2. brwnj. (2015). fastq-multx. Retrieved from https://github.com/brwnj/fastq-multx

3. Aronesty, E. Comparison of Sequencing Utility Programs. TOBioiJ. 2013 Jan. Retrieved from http://doi.org/10.2174/1875036201307010001

 

 

 

thumbnail_官網用CC創用_ND_YH.png

arrow
arrow

    Yourgene Health 發表在 痞客邦 留言(0) 人氣()