新圖片 (6)
有時候會遇到使用者詢問,為什麼做不同長度的mate-paired 呢? 這是因為contig間的距離不同,為了將這些不同距離的contig 組裝起來,得到更完整的組裝資訊,所以才需要使用不同長度的mate-paired。
以下就用一個簡化的例子來說明不同 mate-paired 在組裝效果上的差異:
假設我們有三個contig,這三個contig在genome上的距離如下:
 

TIGS 發表在 痞客邦 留言(0) 人氣()

新圖片 (2).png
在處理NGS的資料時,一開始會碰到的資料型態即是Fastq的序列格式,可以想成是fasta格式+quality值。

TIGS 發表在 痞客邦 留言(0) 人氣()

  • Nov 25 Fri 2011 09:28
  • FASTA

logo_121_55.png
 當我們需要記錄DNARNA和蛋白質的序列時,我們常用一種稱為FastA的檔案格式。其檔案範例如下:

TIGS 發表在 痞客邦 留言(0) 人氣()

Velvet 是 Daniel Zerbin 與 Ewan Birney 提出的一種應用在序列組裝 (assembly) 的演算法,這個演算法是利用一種特殊的序列索引 (De Bruijn graph) 來記錄各條互相配對 read 序列,並且在此索引上依照序列 depth 以及較長序列組裝路徑來處理定序誤差及 repeat 的情況。De Bruijn graph 索引結構的設計特別適合短序列並且索引結構本身並不容易受到 read 序列庫大小而增大,同時還可記錄序列上 repeat 的片段,因此此一演算法大多應用於 Solexa 所產生的序列庫。
新圖片.png  

Velvet 在組裝序列的過程中,先將 read 序列儲存於一張網絡結構 (De Bruijn graph) 以及一張查詢表格中(上圖節錄於原作論文中,是一張非常簡化的網絡)。此一網絡結構主要是將所有 read 片段以固定長度 (K-mer,像是一個 reading frame) 抓取序列下來,單一 read 序列由多個K-mer組成,並在網絡中以一個 base 位移相互並列在一起(也就是上圖傾斜排列的序列)。如果有遇到與其配對的 read,就會把配對的 K-mer 分離出(形成上圖中藍色的區塊),並且將原來鄰近的 K-mer 以一個箭頭連接起來。將 read 序列轉變成上圖的過程中也會將各 read 在 De Bruijn graph 起始位置以及與其它序列配對的資訊記錄在一個表格中。
另外為了解決反股序列配對的問題,在上圖中的各個藍色區塊下方記錄反股序列的訊息。

TIGS 發表在 痞客邦 留言(1) 人氣()

logo_121_55.png
在談論eQTL之前,首先要介紹一下它的由來。
 
最早在研究遺傳與性狀時,大多數是根據孟德爾遺傳定律,認為性狀的不同主要是來自於等位基因不同組合所造成,當然,在某些性狀上,我們可以發現確實是如此,但是在一些性狀上卻不是這樣,例如黑貓和白貓交配的後代就可能是灰色、黑白斑,而不會只有黑或白兩種結果,於是有些人開始提出多基因調控一性狀的理論,會被多基因調控的性狀就稱為數量性狀 (Quantitative trait),而參與調控的基因則稱為數量性狀基因座 (QTL, Quantitative trait loci)。
 

TIGS 發表在 痞客邦 留言(1) 人氣()

logo_121_55.png
對於初學生物資訊的不知道 DNA 序列中的「N」是什麼是很正常的,對於有經驗的人,大多也只知道「N」是代表 A 或 T 或 G 或 C,其實這個符號是來自NC-IUB (Nomenclature Committee of International Union of Biochemistry) 所建議的編號,也稱為 NC-IUB codes 或 IUB codes。
IUB codes可分為兩類,一為 Standard Bases,一為 Mixed Bases (Wobble)。
Standard Bases:



Code
Base
Origin of designation


G
G
Guanine


A
A
Adenine


T
T
Thymine


C
C
Cytosine


TIGS 發表在 痞客邦 留言(0) 人氣()

logo_121_55.png
FPKM 是 Fragments Per Kilobase of transcript per Million mapped reads 的縮寫,FPKM 與 RPKM 其實是幾乎一樣的東西,都是用來衡量 transcripts (mRNA) 表現量一種指標,兩者主要的不同在於計算單位上的不同,RPKM 是以 Reads 為單位,而 FPKM 是以 paired-end reads 為單位,一對 paired-end reads 視為一個 Fragment,所以 FPKM 僅適用於 paired-end 的定序資料。
在 RPKM 中,只要 read 能 map 到 transcripts,即列入計算,在 FPKM 中,只有 paired-end reads 都能 map 到 transcript (在符合 quality 條件下),才列入計算,若 paired-end reads 中只有一個 read 能 map 到 transcript,或是其中有某個 read 的 quality 太差,都不會列入計算。

FPKM 目前主要常見於 Cufflinks 這個 RNA-Seq 分析軟體的分析結果上。

  

TIGS 發表在 痞客邦 留言(3) 人氣()

  • Aug 20 Sat 2011 01:29
  • N50

N50是一個用來評估de novo assembly效果好壞的方法之一。當我們把contigscaffold從大到小排列後,從最大的contig開始進行長度的累加,當累加長度達到全部contigscaffold總長度的50%時,這時所加上的contigscaffold長度,即為N50。如下圖所示:
新圖片.png  
而N50的50,即為50%的意思。同理,N25即代表25%;N75即代表75%。數字越大,則評估條件越嚴苛。
 

TIGS 發表在 痞客邦 留言(0) 人氣()

一樣用一句話去去解釋 mate-paired 和 paired-end 的差異:mate-paired 技術可以讓定序兩端的間隔高達 2k-5k (目前新 kit 可到 10k )。如下圖所示:
新圖片 (7).png 

首先我們將 DNA 打斷成長度為 2000~5000bp 的片段,然後將這些片段的尾端給連接起來,因此可以形成一個環狀的 DNA。圖中的紅色和綠色圓點分別代表 DNA 的 5’和 3’端。然後再將此環形 DNA 給打斷,帶有紅色和綠色圓點的區域即為我們最後要定序的 DNA 片段。由上圖可知,mate-paired 的特色除了含有極長片段的資訊之外,也由於經過環形連接,因此其定序的方向也與 paired-end 相反,分別由原始 DNA 片段的內側往外側延伸定序,這在生物資訊的處理時是要特別注意到的地方。
 

TIGS 發表在 痞客邦 留言(0) 人氣()

image006.png
RNA-seq 是透過次世代定序的技術來偵測基因表現量的方法,在衡量基因表現量時,若是單純以 map 到的 read 數來計算基因的表現量,在統計上是一件相當不合理事,因為在隨機抽樣的情況下,序列較長的基因被抽到的機率本來就會比序列短的基因較高,如此一來,序列長的基因永遠會被認為表現量較高,而錯估基因真正的表現量,所以 Ali Mortazavi 等人在 2008 年提出以 RPKM 在估計基因的表現量。
RPKM 是將 map 到基因的 read 數除以 mapgenome 的所有 read (million 為單位)RNA 的長度( KB 為單位)
 
其公式為:

TIGS 發表在 痞客邦 留言(6) 人氣()

一句話去去解釋 single end 和 paired-end 的差異: single end 只讀取DNA片段的一端,而 paired-end 則是讀取兩端。如下圖所示:
新圖片 (9).png 

為何要有 paired-end 這樣的技術發明呢?主要的原因在於 illumina 在每一次定序的過程中,最多只能定序到 150bp 的長度。這樣的長度對比於第一代的 Sanger 定序法(約 1000bp )或是同樣屬於 NGS 的 454 定序儀(約 400bp),顯然是短了許多。因此 illumina 發展了 paired-end 的定序,先將 DNA 打斷成固定長度範圍的片段( 200~500bp ),再利用此技術讀取片段兩端的序列,我們即可得到 300bp ( 150x2 )的定序長度。此一技術不僅拉近了 illumina 和 454 之間的差距,也大大的改善了生物資訊的分析。
舉例來說,藉由 pair-end 的技術,假設有一個 DNA 片段剛好跨越了重複序列區域(下圖左側)以及獨特序列區域(下圖右側)。假如只讀取 single end,我們只會獲得紅色實線的序列資料,也就是 ATATATAT。接下來當我們想要將這段 read reference genome 做比對的時候,便會出現問題:到底這段 read 是出自於紅色實線的位置,還是紅色虛線的位置?這個問題我們可以藉由 paired-end 的技術來加以解決。由於 paired-end reads 之間的距離為已知(在此我們假設為 34 bp),我們便可以先定位綠色 read 的位置,再正確定位出左方紅色 read 的位置,而不至於將其誤判在紅色虛線的位置。如下圖所示:

TIGS 發表在 痞客邦 留言(3) 人氣()

Blog Stats
⚠️

成人內容提醒

本部落格內容僅限年滿十八歲者瀏覽。
若您未滿十八歲,請立即離開。

已滿十八歲者,亦請勿將內容提供給未成年人士。