作者:吳上豪/有勁生物科技

 

數月前筆者曾撰文介紹Illumina現行HiSeq 3000/4000/X Ten平台所使用的patterned flow cell(詳見有勁部落格文章:Illumina Patterned Flow Cell簡介),其藉由「固定孔洞」這個設計,讓基因文庫(gene library)能在flow cell上均勻且有效率地擴增,提高了定序資料量與儀器訊號判讀的能力。然而,由於筆者曾在HiSeq4000平台體驗過定序出現品質低落或資料量不足的經驗,所以在此想將使用patterned flow cell平台定序時所需注意的事項介紹給大家。

 

雖說patterned flow cell好處多多,但這類定序平台因所採用的叢集(cluster)擴增原理和定序即時分析程式(real time analysis software; RTA)與之前舊版本的non-patterned flow cell平台不同,所以能在MiSeq或HiSeq 2000/2500上成功定序的樣品,未必也能在HiSeq 3000/4000/X ten平台取得相同的定序結果與品質。至於哪些文庫樣品才適合採用patterned flow cell平台進行定序,以下是應留意的事項:

1. 樣品的長度分布

在patterned flow cell系統上機的文庫樣品,原廠建議目標序列的長度在300至500個鹼基對之間。文庫長度若過長,單一條文庫就有可能在叢集擴增的過程中漫出,長到有其他文庫也正在進行叢集擴增的格子裡,造成定序過程中一個格子出現兩種訊號的現象。定序時一旦因此發生這種情況,定序即時分析程式便可能會將這些格子的定序資訊完全濾除。1

 

此外,patterned flow cell偏好去擴增「長度較短的文庫」,像adapter dimer(接合體雙體;如圖一所示)這類短文庫就會比較敏感,擴增進行得特別快,以致adapter dimer佔據更多格子,減少了可用的定序資料量。所以在上機之前,建議先利用電泳確認是否已將adapter dimer從文庫中確實清除;若仍有殘留,則應將文庫重新再純化過。

 

 

 

圖一、adapter dimer示意圖

181031_1.png

左圖為正常的基因文庫,紫色區域是定序的目標序列,紅色、橘色和綠色區域合稱為adapter。Adapter在文庫製備過程中有可能跟自己互相黏合,形成adapter dimer,如右圖所示。(圖片來源:吳上豪/有勁生物科技)

 

 

此外,也因為長度短的文庫在patterned flow cell平台較容易被擴增,若想混合不同長度的文庫去做定序,就有可能發生所取得的短長度文庫資料量比預期要高,而長長度的文庫資料量卻過低的狀況。文庫長度對定序資料量的影響程度不盡相同,使用者需累積上機經驗才有辦法估算出較精確的倍率;因此當有此類須將文庫混合定序的考量時,建議盡量選擇種類相同、且長度相近的文庫去混合上機。

 

2.樣品的鹼基多樣性:

由於Illumina平台是藉由偵測螢光訊號來進行定序,若叢集之間在序列上相似性太高(例如:amplicon),儀器便容易因無法量化訊號而將這些叢集定義為品質不良,以致只能取得極低且品質不佳的定序資料量。

 

然而使用patterned flow cell的平台,由於採用了與舊式平台不同版本的定序即時分析程式,其對訊號的分析方法與定序結果也因此有些許差異。除了前述的amplicon例子外,對鹼基比例分布極端不平衡的文庫,也有定序能力不佳的紀錄。所謂「鹼基比例分布極端不平衡」指的是四種鹼基的其中一種含量比例過多或過少;特別若是在前25個鹼基的定序過程中出現了這樣的序列特徵時,假如不為樣品另行加入「平衡文庫」,定序品質會變得非常糟糕(見圖二)。舉例來說,用來鑑別胞嘧啶是否有受到甲基化修飾的「亞硫酸鹽定序文庫 (其鹼基C的比例低於10%)」2、或者「在5′端有加入特定相同鹼基序列的文庫(如以SMARTer® RNA文庫試劑組製作出的文庫,其前3個鹼基皆為G)」3,這些文庫在MiSeq與HiSeq2000/2500平台上,即使不加入「平衡文庫」仍可進行定序;但在HiSeq3000/4000/X平台上,這些相似性太高的序列一旦出現,就會因為大量的叢集被程式定義成品質不良而遭到濾除,導致定序資料量不足;即便有叢集被保留下來,其序列也有非常高比例會被定義為不具任何意義的N(任意鹼基)。想要避免這類文庫的定序失敗,原廠建議可加入ATCG鹼基比例均衡的文庫(即所謂的「平衡文庫」)去混合上機,以增加鹼基多樣性,解決此問題。

 

圖二、鹼基多樣性過低的定序品質記錄圖

181031_2.PNG

左圖為Hiseq4000正常上機可觀察到的定序品質─分數大於30分的百分比記錄。右圖是用SMARTer® RNA文庫試劑組製作出的文庫的上機記錄,品質分數明顯下降。(圖片來源:吳上豪/有勁生物科技)

 

 

總結筆者這兩篇文章,patterned flow cell平台將定序時間縮得更短、叢集密度與定序資料量提升得更高,且較不需因擔心上機濃度過高而造成定序失敗。然而如果想將不同長度的文庫混合上機,或者想定序鹼基多樣性偏低的文庫,則應事先謹慎評估。建議可在上機之前,多與服務供應商或Illumina原廠確認定序的可行性及注意事項,以確保定序成果與品質。

 

 

參考資料

1.Genohub Inc. (2018). Beginner's Handbook to Next Generation Sequencing: HiSeq 3000 / 4000 Services. Retrieved from https://genohub.com/services/sequencing/illumina-hiseq-3000-4000/

2.Illumina, Inc. (2016). Whole-Genome Bisulfite Sequencing on the HiSeq® 3000/HiSeq 4000 Systems - Guidelines for optimal detection of DNA methylation using next-generation sequencing, including a performance comparison of single-read and paired-end runs. Application Note: Epigenetics. Retrieved from https://support.illumina.com/content/dam/illumina-marketing/documents/products/appnotes/hiseq3000-hiseq4000-wgbs-application-note-770-2015-052.pdf

3.Takara Bio USA, Inc. SMARTer® Stranded Total RNA-Seq Kit - Pico Input Mammalian User Manual. Retrieved from https://goo.gl/irvQtH

 

 

官網用CC創用_SA.png

arrow
arrow

    Yourgene Health 發表在 痞客邦 留言(0) 人氣()