• Nov 25 Fri 2011 09:28
  • FASTA

 當我們需要記錄DNARNA和蛋白質的序列時,我們常用一種稱為FastA的檔案格式。其檔案範例如下:

>Annotation….

ATGCGGATCGATCGA

AAACCCTGA

YourGene 發表在 痞客邦 留言(0) 人氣()

Velvet 是 Daniel Zerbin 與 Ewan Birney 提出的一種應用在序列組裝 (assembly) 的演算法,這個演算法是利用一種特殊的序列索引 (De Bruijn graph) 來記錄各條互相配對 read 序列,並且在此索引上依照序列 depth 以及較長序列組裝路徑來處理定序誤差及 repeat 的情況。De Bruijn graph 索引結構的設計特別適合短序列並且索引結構本身並不容易受到 read 序列庫大小而增大,同時還可記錄序列上 repeat 的片段,因此此一演算法大多應用於 Solexa 所產生的序列庫。

新圖片.png  

Velvet 在組裝序列的過程中,先將 read 序列儲存於一張網絡結構 (De Bruijn graph) 以及一張查詢表格中(上圖節錄於原作論文中,是一張非常簡化的網絡)。此一網絡結構主要是將所有 read 片段以固定長度 (K-mer,像是一個 reading frame) 抓取序列下來,單一 read 序列由多個K-mer組成,並在網絡中以一個 base 位移相互並列在一起(也就是上圖傾斜排列的序列)。如果有遇到與其配對的 read,就會把配對的 K-mer 分離出(形成上圖中藍色的區塊),並且將原來鄰近的 K-mer 以一個箭頭連接起來。將 read 序列轉變成上圖的過程中也會將各 read 在 De Bruijn graph 起始位置以及與其它序列配對的資訊記錄在一個表格中。

YourGene 發表在 痞客邦 留言(1) 人氣()

在談論eQTL之前,首先要介紹一下它的由來。

 

最早在研究遺傳與性狀時,大多數是根據孟德爾遺傳定律,認為性狀的不同主要是來自於等位基因不同組合所造成,當然,在某些性狀上,我們可以發現確實是如此,但是在一些性狀上卻不是這樣,例如黑貓和白貓交配的後代就可能是灰色、黑白斑,而不會只有黑或白兩種結果,於是有些人開始提出多基因調控一性狀的理論,會被多基因調控的性狀就稱為數量性狀 (Quantitative trait),而參與調控的基因則稱為數量性狀基因座 (QTL, Quantitative trait loci)。

 

YourGene 發表在 痞客邦 留言(1) 人氣()

Library construction過程中,DNA及RNA濃度的精準測定是相當重要的。尤其在製備library之前,必須要了解樣品的濃度,才能取出適當總量的DNA或RNA做為製備的原料,若因為濃度偵測的不準確,會導致最後library產物總量不足夠上機定序。目前常見的DNA及RNA濃度測定方法有吸光值測定法、專一性螢光染劑測定法。

 

一.  吸光值測定法

Beer-Lambert law顯示,分子對於特定波長光之吸光程度會隨著分子濃度而有所不同,所以可以藉由測量溶液的吸光程度optical density推估分子的濃度1DNARNA分子會吸收波長260nm的光,所以可藉由260nm的吸光值換算成濃度(如下圖所示)。此測定法操作簡單且快速,但極容易造成量測的不準確,因為若萃取DNARNA的過程中,溶液混有其他也會吸收260nm波長光的物質,常常會造成高估DNARNA的濃度,進而影響後續實驗的進行。

YourGene 發表在 痞客邦 留言(0) 人氣()

對於初學生物資訊的不知道 DNA 序列中的「N」是什麼是很正常的,對於有經驗的人,大多也只知道「N」是代表 A 或 T 或 G 或 C,其實這個符號是來自NC-IUB (Nomenclature Committee of International Union of Biochemistry) 所建議的編號,也稱為 NC-IUB codes 或 IUB codes。

IUB codes可分為兩類,一為 Standard Bases,一為 Mixed Bases (Wobble)。

Standard Bases:

Code Base Origin of designation
G G Guanine
A A Adenine
T T Thymine
C C Cytosine

Mixed Bases (Wobble):

YourGene 發表在 痞客邦 留言(0) 人氣()

心肌病變可分為擴張型(dilated)、肥厚型(hypertrophic)或限制型(restrictive)三種,而這些心肌病變的臨床表現是依收縮壓舒張壓功能障礙而有所不同,現今

擴張型心肌病變普遍被認為是心臟衰竭與心臟移植的問題所在。目前研究顯示,

YourGene 發表在 痞客邦 留言(0) 人氣()

由於原核生物的 mRNA缺乏poly-A的結構,使得要純化出原核生物的mRNA技術困難度要比真核生物高出許多,目前比較常用的方式是利用hybridization去除rRNA後,再進行RNA的定序,然而,不同的物種去除的效果差異頗大,定序結果中,往往只有大約10-20%的mRNA,其餘大部分為rRNA的序列,圖一為Shaomei He團隊的研究結果,a與b分別來自兩個的環境樣品metatranscriptome的結果,結果可以發現hybridization去除rRNA效果不盡理想,尤其是樣品b,即使利用兩次hybridization,非rRNA的比例也只有11.3%,如何有效降低rRNA比例將是研究員何生物轉錄體的重要課題。

圖一:

新圖片.png 

YourGene 發表在 痞客邦 留言(0) 人氣()

基因的轉錄後調控常常發生在mRNA的3’UTR,近兩年許多團隊透過NGS技術來研究3’UTR的調控及演化,並發現了新的調控機制。以線蟲為例,由於線蟲大部分基因的3’UTR缺少註解,Calvin H.Jan 等人在2010年透過3P-Seq的方法將RNA尾巴位置透過NGS技術定序後,經分析發現高比例的A/U序列內容會促進線蟲基因體的壓縮 ( genome compaction ),因為造成切割的因子是A/U高比例的,也因此他們容易在A/U高比例的序列內容中出現。事實上30%的protein-coding基因有不同的mRNA型態 ( alternative mRNA isoform ),另外在尾巴距離很近但不同的切割位置以往都是被忽略掉的,作者發現大量的這種isoform可能是線蟲3UTR在演化上逐漸變短的中間物。甚至作者發現三分之一的匯聚基因對( convergent gene pair) 在3UTR重疊的地方,將具有正負股雙面功能的因子在序列上做回文的排列,這個現象節省了基因之間的距離,造成基因體的壓縮。雖然線蟲3UTR的長度只有哺乳動物的六分之一,但線蟲具有保留性miRNA位置的密度是哺乳動物的兩倍。部分是因為有更多類型的種子互補位置 ( seed complementary site ) 較傾向被保留。這些發現揭開了切割與多聚腺苷酸化對基因結構演化的影響,也提供了研究後轉錄基因調控的資源。

新圖片.png

透過3P-Seq方法確保oligo(dT)是和3’UTR的polyA接合,而不是internal polyA的序列接合。

YourGene 發表在 痞客邦 留言(0) 人氣()

FPKM 是 Fragments Per Kilobase of transcript per Million mapped reads 的縮寫,FPKM 與 RPKM 其實是幾乎一樣的東西,都是用來衡量 transcripts (mRNA) 表現量一種指標,兩者主要的不同在於計算單位上的不同,RPKM 是以 Reads 為單位,而 FPKM 是以 paired-end reads 為單位,一對 paired-end reads 視為一個 Fragment,所以 FPKM 僅適用於 paired-end 的定序資料。
在 RPKM 中,只要 read 能 map 到 transcripts,即列入計算,在 FPKM 中,只有 paired-end reads 都能 map 到 transcript (在符合 quality 條件下),才列入計算,若 paired-end reads 中只有一個 read 能 map 到 transcript,或是其中有某個 read 的 quality 太差,都不會列入計算。

FPKM 目前主要常見於 Cufflinks 這個 RNA-Seq 分析軟體的分析結果上。

YourGene 發表在 痞客邦 留言(3) 人氣()

一直以來,癌症研究中一直缺乏能夠在早期判斷罹癌的指標,如今相關研究有了一項新的進步。臨床醫學的癌症病人檢體中,有一個特別的現象,在病人癌組織以及正常組織中的 miRNA 組成種類會產生變化,但是由於癌組織採取十分不方便,因此可能癌症已進入末期才被發現。如今科學家們,在病人血液、尿液、唾液等檢體中發現也能觀察到這個現象,miRNA 隨著體內循環系統循環而容易被醫檢系統取得,如此也許能替癌症預防多了一股新的曙光!

許多的癌症在初期並不明顯,不易被偵測檢驗,而癌細胞隨著人體內循環系統:血液、淋巴腺等轉移,很多病例在發現出現症狀時,往往都是轉移後癌末惡性腫瘤。20111 月發表在 Journal of Biomedicine and Biotechnology 期刊上有一則相關的研究被報導,QianWu 等人研究乳癌病人的罹癌組織與健康組織 miRNA 之區別時,使用次世代的定序系統列出所有在罹癌組織被大量形成的miRNA 種類 (下圖),超過 2 倍以上則視為有差異。再更進一步的嚴格限制,以超過五倍以上的 miRNA 當作模板,設計出 qPCR 需要的引子對,用來偵測其他乳癌病人的血漿。結果發現,編號miR-29a 以及miR21 在血漿中也能大量的被偵測到!

新圖片 (14).png  

YourGene 發表在 痞客邦 留言(0) 人氣()

癌症的發生主要是細胞基因發生變異,常見的是在染色體內或染色體間發生相互重組的現象,而導致染色體結構的不穩定。根據研究指出1 (圖一),即使是同一種癌症,在不同病患內的癌細胞顯現出的基因變異模式皆不相同。因此,為了防止病患接受不適當的抗癌藥物治療,導致化療後不但沒有成效,更受到副作用的侵害,癌症的治療需分析每個病患基因變異的模式,針對每個病患特有的變異做最精確的抗癌藥物篩選,除此之外,找出的變異區也可做為後續診斷的依據。

新圖片 (11).png 

圖一

YourGene 發表在 痞客邦 留言(0) 人氣()

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼