我們在先前的文章SAM format中的FLAG概念及應用中提到SAM的格式。可是對於使用者來說要將FLAG的數字內容轉換成文字意義是不太方便的。
然而我們可以透過原作者的網頁,將FLAG的數字轉換成相對應的文字意涵,作者的網頁如下:"Explain SAM flags"。
我們在先前的文章SAM format中的FLAG概念及應用中提到SAM的格式。可是對於使用者來說要將FLAG的數字內容轉換成文字意義是不太方便的。
然而我們可以透過原作者的網頁,將FLAG的數字轉換成相對應的文字意涵,作者的網頁如下:"Explain SAM flags"。
在先前我們已經介紹使用於window7下使用bowtie(http://yourgene.pixnet.net/blog/post/92081187),今天在來介紹在window7下使用bowtie2的流程,bowtie2跟bowtie的最大差別在於bowtie2將reads比對到參考序列上時能允許indel的容錯率。
步驟一: 下載bowtie2
相信許多人都看過侏儸紀公園這部電影,藉由DNA的解序有機會可以重現已滅絕的生物,然而,現階段的生物技術實現侏儸紀公園的場景,還有一大段路要走,主要原因便是DNA品質問題,化石內的DNA遭受了千百年,甚至上百萬年的氧化、水解等化學反應,DNA的化學結構已經有明顯的改變,不但,破碎且含量非常微少,這篇文章主要是要來探討古老DNA定序所面對的問題。下述三個類型的化學反應是在化石中常見的。
1. Hydorlysis
這會發生在DNA磷酸與Purine的位置。
隨著NGS次代定序的技術不斷的推陳出新,其能力所涵蓋的層面亦越來越豐富,但一套完整的NGS,其構成的條件,不單只有最新的定序儀器就足夠,定序核酸樣品的良劣往往左右最後定序結果,所謂工欲善其事,必先利其器,要怎麼收穫就要先怎麼栽的道理。本篇文章主要淺談游離核酸(Cell-Free nucleic acids) 的品質對於NGS定序之重要性。在醫學方面,以游離核酸的研究漸趨深入,其為一種細胞外呈游離狀態的小片段核酸,存在於血液、尿液與唾液等…,大部分可經由三種方式:細胞凋亡(apoptosis)、細胞壞死(necrosis)與胞泌作用(secretion)進行胞外釋放(圖一),其中又以游離DNA (Cell-Free DNA,cfDNA) 應用於癌症腫瘤監控及胎兒產前的診斷(圖二)之進展最為豐富。
圖一
IGV(Integrative Genomics Viewer) 也是Broad Institute開發的NGS及array-based定序資料的genome viewer。他跟GATK 一樣在java平台之上提供反應快速的視覺化界面來瀏覽在本機端或是網路上的多種基因體資料,並且讓我們快速地在不同放大倍率間的序列瀏覽搜尋。他也提供各種定序資料與其他臨床性狀資料的關聯,將不同資料放在一起比較。
Broad Institute在2006年與美國癌症研究所(NCI),美國基因體研究中心(NHGRI)合作的癌症基因體圖譜計畫(TCGA)時為了彙整基因copy number、CHIP-seq、表現量、序列變異和臨床資料而開發的。在後續與其他計劃合作(1000 genome, ENCODE)時,IGV也整合了SAM/BAM和VCF等檔案。目前IGV主要版本為2.x。以下就操作界面、檔案格式、功能特色加以說明。
操作界面
自從 NGS 技術發展至今,已有無數的古老生物被進行定序,這些生物樣品可能來自數千年以前。為了進行定序,首先需要將這些受損或降解的 DNA 片段製備成可供 NGS 定序儀上機使用的 library,而製備的目的主要是讓 DNA 片段兩端接上人工合成的 adapter,一則可起始定序反應,一則可用作 PCR 增輻反應。目前製備的主流方式分為兩種:一種是 454 Life science 使用的 blund end ligation;另一種是 Illumina 使用 Y 型結構的 adapter 進行 A-T ligating,不論何種方式,均為雙股 DNA 的黏合反應,然而,在操作古老 DNA 時,這種製備流程可能會發生一些缺憾。
使用新的單股 DNA 來製備 NGS library,比較目前常見的方式具有以下的優點:
第一、製備過程中 DNA 標示上 biotin,因此純化的步驟使用 streptavidin-coated的磁珠,能減少樣品流失。
Next Generation Sequencing 這個名稱是相較於傳統定序技術而言。
傳統的定序技術包括:
一般見到「傳統定序技術」大部份是指 Sanger 的定序方法。
由於孕婦年齡、體質或其他外在干擾因素導致懷胎的新生兒染色體平衡對調(balanced translocation),常導致新生兒身體主要結構缺損畸形,一般在懷孕18到20週時,在超音波檢查下是可以發現胎兒結構上明顯的異常,然而,若要進一步了解哪些染色體發生了平衡對調,以常見的核型分析karyotyping或array-based CGH皆難以判斷。
Michael E. Talkowski研究團隊發表可以在14天內以次世代定序技術判斷胎兒哪些染色體發生了平衡對調,並且可以分析這種平衡對調導致的基因異常(詳細流程見下圖)。研究內容以一位37歲有多次流產病史的孕婦為例,其18.8週開始超音波檢查陸陸續續發現胎兒有一些明顯的畸形異常,而karyotyping或array-based CGH皆顯示無明顯的臨床致病性的變異。Michael E. Talkowski研究團隊將孕婦羊水的胎兒DNA抽出後,經由DNA打斷成平均2kb的長度,擷取此DNA片段兩端的黏合物(類似本部落格之前有提到的mate-pair原理),以Illumina Hiseq2000執行Pair-End 25 cycles的定序。
隨著現在次世代定序技術越來越進步,定序所需的成本也越來越低,許多研究者也開始紛紛進行許多物種的全基因體定序。當我們得到一個物種的全基因體DNA序列之後,下一步接著要做的便是基因體上的蛋白質coding region的預測。在這邊就來跟大家介紹一個適用於細菌及古生菌的基因預測軟體:Prodigal
圖一:以Artemis查看在Anaeromyxobacter dehalogenans以Prodigal預測出來的基因(黃色部份)和其他基因預測軟體預測出來的基因(Glimmer:綠色、GeneMark:紅色)位置比較。
人類乳突病毒Human Papilloma virus(HPV)是一種分子較小直徑約55nm的DNA病毒,目前人類乳突病毒有一百多種基因型,不同基因型的人類乳突病毒引起的疾病種類不盡相同,其中以30~40種類型的人類乳突病毒會透過性行為傳染到生殖器或周邊皮膚,而這些種類當中又以10~15種最容易引起子宮頸癌與其他生殖道癌,例如HPV16、18、31、33、35、39、45、51、52、56、58、59和68
被稱為高危險性病毒。人類乳突病毒除了導致大家所熟悉的子宮頸癌之外,在流行病學與分子生物學研究報告中顯示人類乳突病毒也可能造成頭頸癌的發生。
加拿大知名生物學家在Human Papilloma virus研究中
在哺乳動物,DNA 甲基化通常發生在CpG dinucleotides 上,而且是研究基因調控和疾病誘發重要的epigenetic mark 。詳細的了解 DNA 甲基化程度和位置對於研究發育 (development) 和疾病型態 (disease phenotype) 有很大的幫助,尤其以癌症來說,甲基化的研究可以提供診斷的 biomarker。在哺乳動物的DNA大約有~1 % 的 5’-methylcytosine (5MeC), 其中這甲基化有70~80% 位於CpG dinucleotides。但是DNA methylation pattern 在每一個個體或是組織會有所不同,是處於一種動態的模式,這樣的情況讓基因的定序常常有偏差的情況發生。
近年發展了三種研究 DNA 甲基化的主要方法:
1. Chemical conversion with sodium bisulfite
2. Digestion with methylation-sensitive restriction enzymes