在次世代定序 RNA-seq 成為 transcriptome 研究的主要來源前,我們多是使用 microarray 來分析基因體表現量的變化與樣本條件之間的關聯性,例如:基因表現量與不同組織細胞的性狀。每一個個體的 transcriptome 受到基因體變異而不一樣,像是 SNP、copy number 的變異。而直接分析轉錄本的表現量變化是最容易觀察到與性狀之間的關係。一般定義真核細胞中的一個基因被轉錄後,其調控會透過 RNA edit (例如 splicing ) 形成多種轉錄本。不同轉錄本的表現量變化造成性狀不同的關聯性可能更高。RNA-seq 高解析度的定量 mRNA,提供給研究人員們一個機會來研究轉錄本的變化。

於是有西班牙生物資訊學家開始研究如何用 RNA-seq 來分析 reference genome 上的同一個基因內不同轉錄本表現量的差異。轉錄體的比較比基因表現量的比較要來的複雜。計算上,我們會假設不同的基因之間表現量的資訊是獨立變數,但是相同基因內的轉錄本數量,卻有相依性。某一轉錄本的數量越多會造成其他轉錄本的表現量減少。因此需要思考各個轉錄本 RPKM 在個體間的差異要如何分析。

如圖所示,我們利用 microarray 或是 RNA-seq 所偵測到的基因表現量與轉錄本之間的表現量可能存在著以下四類關係(在極端的情況下)a) 基因及其轉錄本的比例變化皆不大、 b) 基因表現量在個體間差異大,但是轉錄本的表現量比例一致較無變化、 c) 基因表現量穩定,但是所屬的轉錄本表現量比例變化大、 d) 表現量及轉錄本的表現量變化皆很大。有此可見,如果只看基因表現量的變化,其代表性及關連性可能不足以讓我們發現和性狀之間的關係,因此忽略了這些變化比例不定的轉錄本所隱含的功能。

 

YourGene 發表在 痞客邦 留言(0) 人氣()

傳統中藥醫學(Traditional Chinese Medicines ,TCMs),於博大精深的中國已超過3000年載的使用歷史,隨著日新月異的醫學科技,訴求自然之傳統中醫業已與速效的西醫並駕齊驅,很多醫學觀念亦紛紛導向中西合璧之途,在各種醫學評估及試圖尋找西藥替代品的情況下,中草藥勢必為首選。而中藥產品的日益普及,與其接受度漸趨增加,也使得產值逐年水漲船高,消費者除了注意藥品安全問題外,亦衍生出藥物來源合法性之問題,但往往在選購中藥產品時,看見的只是包裝的成分內容,附註之藥品標籤是否誠實,亦或其中隱藏很多摻假不實的添加成分,皆無從得知,而消費者就可能成為這場交易中的蒙蔽者。甚至有不肖商人,利用違法的瀕臨絕種動植物為藥材,或添加禁止入藥之植物萃取物試圖魚目混珠,這些非法行為都可能導致消費者身體損害或後遺症。迄今,鑑識中藥內容方式,雖可鑑別出植物成分,但也侷限於已知標準品的範圍,欲知其確切來自何物種仍有難度,因此,要如何有效把關這些市面上流通的中藥產品,本篇作者將中藥檢驗結合次代定序 (NGS) 平臺,探究每種藥品中所含之 DNA 種類,將其序列與已知動植物之 DNA 資料庫進行比對,利用此方式作者成功鑑定出中藥成分的物種來源。此外,為了達到保護野生動植物的永續發展,也結合瀕臨絕種野生動植物國際貿易公約,探討這些中藥來源的合法性,作者分析由澳洲海關人員所查扣包含粉末、錠劑、膠囊與草藥等多種違反當地環境法之中藥製品 (圖一)

新圖片 (2)  


YourGene 發表在 痞客邦 留言(3) 人氣()

科學家們發現在不同環境發現的古生物化石 DNA,其受損降解的情形其實是很類似的,使用次代定序的平臺研究古代 DNA 能夠直接的檢測許多現象,為人熟知的例如:嘌呤丟失作用 (Depurination)、胞嘧啶的去胺基作用(Cytosine deamiation)fragmentation rate……等等。

   圖一是研究人員將始祖馬的次代定序所獲得的讀序,比對回現代馬基因體後所做的統計分析結果,觀察發現古生物 DNA 時常斷裂在嘌呤 (GuanineAdenosine) 的後方 (Y 軸標示 -1 位置),也因此讀序的第一個鹼基 (Y 軸標示 +1 位置) 有較高的機率出現嘧啶 (CytosineThymine ),這一項證據似乎可以證明嘌呤丟失作用 (Depurination) 對於 DNA 斷裂降解的影響。

圖一

新圖片 

YourGene 發表在 痞客邦 留言(0) 人氣()

NGS 的高輸出量特性,帶給基因體學研究上的突破,然而,目前技術仍有存在一些缺陷,其中最令人詬病的點是定序深度不均勻,造成 NGS 必須提升定序深度,來彌補定序深度不均勻的問題。造成定序深度不均勻的原因很多,其中最明顯的就是序列 AT 或 GC bias 造成,往往 high AT 或 high GC 的區域很難得到滿意的定序品質與定序深度;有一部分的原因很可能是 library 製備過程中造成的,一般 NGS DNA library 製備流程包含,fragmentation、end repair、A-tailing、adaptor ligation、PCR 等步驟,製備流程中,所有的環節都有可能會造成bias,當然包含每一個純化的步驟。為了釐清到底是哪一步驟造成,Aird 團隊利用 QPCR 來檢驗 library 製備流程產生 bias 的情況 (Aird et al. , 2011),結果整理於圖一,縱軸是序列的數量,橫軸是 GC content 的百分比。由圖一可以清楚地觀察到,library 製備的流程中,PCR 過程是造成 bias 的主要原因 (圖一);而 fragmentation、end repair、A-tailing、adaptor ligation 等步驟,不太會產生 high AT 或 high GC 的區域定序深度下降的問題。

圖一

新圖片 

要讓定序深度更加平均,從 PCR 步驟進行改良將是最有效率的。當然製作 PCR free 的 library 一定是最有用的方式,除此之外,還有三種方式來改善 PCR 造成的問題:

YourGene 發表在 痞客邦 留言(0) 人氣()

當我們進行 miRNA 定序時,有時我們會發現有一些 reads 沒有辦法 map miRBase 中的miRNA 序列,那這些 reads 究竟是什麼呢?

由於在樣本備製時,是以 size selection 來決定要定序的 RNA ,只要 RNA size 是落在我們所設定範圍內,都會被定序到,所以這些無法對到miRBase RNA ,有可能是其他的 small RNA ,也有可能是 degrade RNA,當然也有可能是 Novel miRNA

我們該如何判斷得到的 reads 是屬於 Novel miRNA,並知道此 Novel miRNA hairpin 的位置與序列呢?

首先,我們要先有我們所研究之物種的 genome sequence

YourGene 發表在 痞客邦 留言(1) 人氣()

當我們想要研究一個物種,可是卻發現這個物種的序列資料 (DNA or RNA) 並不存在於世界上現有的資料庫。當我們遇到這種情況,便可以利用 NGS 的資料來進行所謂的 de novo assembly,藉此幫助我們獲取此物種的序列內容。而一個常見的 de novo assembly 流程概念如下:

新圖片 (5) 
上圖表示將 NGS 的定序資料隨機抽取出兩條 reads (紅色線條),觀察此 reads 的尾端序列是否相同。如有某區域相同(藍色序列),則將此區域的序列合併連結起來,最後獲得一條更長的序列。透過這樣不斷的重複尋找,最終我們便可以將 reads 的資料還原回 genome 序列。

上述的過程是一個理想狀態,然而事實上有許多因素會造成我們組裝困難,我們將這些因素條列如後:

YourGene 發表在 痞客邦 留言(0) 人氣()

之前我們在”跨越定序平台的迷思”一文中提到,同一個library在Illumina的兩個不同定序機台 (Miseq 及 Hiseq2000) 定序的結果並沒有特別的差異。然而,同一樣品在不同 library 製備方法下,會產生出不同的定序結果嗎?

        2012 年 Joern Toedling 的研究團隊以 small RNA sequencing 做了一系列相關的研究,其將老鼠的 ES_XX (embryonic stem cell line female) 及 ES_XY (embryonic stem cell line male) 做為比較的對象,以不同平台的 small RNA library 的製備法處理樣品,並且分析其定序資料,不同製備法配合樣品的資訊如下表。

新圖片 (2)  作者以 pair-wise Spearman rank correlation 分析上表十個樣品間 miRNA reads 數量的 correlation,並且將結果以 heatmap 形式呈現(如下圖)

新圖片 (3)  

YourGene 發表在 痞客邦 留言(0) 人氣()

BLAST 是生物學上常用的序列比對工具,隨著BLAST 改版至BLAST+ 後,許多指令的用法已經與之前不太相同,以下就對 BLAST+ 的指令做一個簡單的介紹。

安裝:

首先請到 ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/ 下載適合平台的 BLAST 程式,一般只需要下載tar.gz 檔,解壓縮後即可使用。

 

YourGene 發表在 痞客邦 留言(0) 人氣()

Bioperl是一個基於perl程式語言之上的工具箱,他提供數個不同套件來方便生物學家分析生物資訊的資料。當使用perl分析一些檔案時,透過Bioperl僅需要幾行的程式碼就可以擷取出檔案中的各項資訊,節省一些撰寫基本程式碼的時間。儘管如此,使用Bioperl的時候,開發者仍然要相當熟悉perl語言。越熟悉perl的進階用法以及其他perl模組的搭配,越可以用Bioperl作一些變化。在許多已發表的NGS相關分析軟體中,就可以看到Bioperl的蹤影。

 

功能

Bioperl中的許多功能皆使用物件導向的方式來提供,也就是在使用大多功能時皆需要先建立物件才能取得他的功能。在官方網站可以看到常見的基本用法有:

YourGene 發表在 痞客邦 留言(1) 人氣()

我們偶爾會聽到客戶方有這樣的問題:「在 illumina 其他平臺上定序的資料是否可以跟 Hiseq 2000 上的資料一起比較?」,這樣的問題其實很微妙。

首先,我們先探討不同廠牌平臺 (illuminaRoche 454) 間的比較能力,由於 Roche 454illumina 平臺的樣品備製方法不同,定序原理不同,在序列取樣上的方式就不同,若直接進行比較,無法得知有差異之處究竟是來自樣本間的差異,還是定序方法上之差異。

但是同一廠牌,不同平臺間的資料是否能比較呢?illumina 為例,由於 Illumina 在製備樣品 library 時的方式固定,並且定序平臺使用的定序策略相近,理論上應該是可以被當作重複性的實驗,為了證明這個平臺相容性的問題,在最近 38 日的 Nature ISME 期刊中,illumia 與美國的一些知名大學教授合作,發表一篇 short communication 比較 Hiseq 以及 Miseq 的定序結果,探討跨越平臺是否會產生定序結果的差異性。

在這篇文章中所研究的主題為探討微生物的族群分布並且使用 Metagenomic 的方式來分析,材料來源分別取自土壤環境或是與寄主相關的口腔、表皮和排泄物,將全部 24 隻樣品平均上在 Hiseq2000 三條 lane 上以及 Miseq 一片 flow cell(一片只有一條 lane),再將這總共四條得到的 pair-end 資料分成 5′3′8 組。上圖 1 挑選出其中 4 組做為代表,比較 Hiseqlanelane 之間、5′3′ 之間和HiseqMiseq 之間定序的相關性。

YourGene 發表在 痞客邦 留言(2) 人氣()

NGS 技術近年來協助科學家解開許多以往醫學上無法破解的謎團,其中包含致病分子機轉、感染性微生物特性及流行病學等,也使得科學家對於醫學的治療及預防提出許多新穎的想法,除此之外,在臨床分子診斷技術上,科學家及醫師皆認為 NGS 技術未來勢必可以成為診斷的利器。然而,NGS技術所提供的資訊,在實際臨床上似乎少有病患直接受惠的案例,直到2011年獲得普立茲獎的一篇文章報導以 Exome sequencing 協助醫師解救一名叫做Nicholas Volker的4歲小孩故事1,並且此案例被發表在 Genetics in Medicine 2

Nicholas Volker首先在其肛門附近不明原因地出現許多簍管,使得排泄物不斷湧出,並且出現感染發炎現象,為防止致命性的細菌感染及傷口惡化,醫師對Nicholas Volker做了結腸造口術,期望他的傷口能夠免除自體排泄物的感染,但出乎意料之外的事情發生了,就在結腸造口術的位置出現新的簍管且有嚴重的發炎現象,而這些發炎的區域漸漸地侵襲Nicholas Volker的整個大腸(圖一),使得醫師不得不切除小孩所有的大腸,然而,不久之後小腸也開始出現簍管及發炎的現象,Nicholas Volker的體力越來越糟,若不快速找出病因,尋求有效的治療方法,生命可能不保。

新圖片  

此時傳統的病理切片檢查及免疫學檢查所提供的訊息,僅顯示小孩的病症並非是一般的發炎性腸病 (inflammatory bowel disease),但仍無法知道確切的病因,後來醫師利用 Exome sequencing 技術,分析小孩 exome 中的 nonsynonymous variants,發現小孩的 X-linked inhibitor of apoptosis gene 變異是造成小孩腸子不斷發炎最有可能的原兇。有了NGS提供的這個資訊,醫師很明確地為小孩進行骨髓移植,移植後的小孩目前已恢復健康,並且期待長大成人迎接這個美好的世界。

YourGene 發表在 痞客邦 留言(0) 人氣()

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼