目前分類:生物資訊 (40)

瀏覽方式: 標題列表 簡短摘要

如何精確的利用NGS定序資料來偵測腫瘤細胞的染色體變異一直是一個非常重要的課題。一篇在2016發表在NAR的論文裡,作者開發了一個工具VarDict,使得研究者在進行腫瘤突變偵測的過程中能夠更加順利。

一般來說,常見的腫瘤細胞變異不外乎以下幾種:Single nucleotide variant (SNV)、Multiple nucleotide variants (MNV),Insertion,Deletion,complex variant、Structural variants (SV)。目前大家比較常用的variant calling軟體,例如:GATK、FreeBayes、VarScan,則是設計來針對SNV 以及small insertion and deletion進行偵測,至於複雜的變異型態 (complex variant)則是沒有包含。然而抑癌基因,例如 TP53, PTEN, BRA1/2, RB1, STK11, NF1…等等,經常包含了大片段的frameshift insertion and deletion或者是complex variant以及SV,就經常會被偵測軟體給遺漏。

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

生物資訊分析師 徵才公告  

 

YourGene 發表在 痞客邦 PIXNET 留言(1) 人氣()

Ion Torrent世界基因科學大會-1

Ion World Tour 2015  

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

現階段NGSmapping軟體裡,BWA可以說是相當知名的一個。在BWA aln裡有一個參數-n,其程式內部說明如下:

 

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

除了透過Gene Ontology和KEGG pathway來註解蛋白質功能,也可以將蛋白質序列註解蛋白質結構域(protein domain),推測具有生物功能的序列。

InterPro是一個整合多個蛋白質功能註解的資料庫,透過蛋白質或是核酸序列,此工具由EMBL-EBI提供線上服務(http://www.ebi.ac.uk/interpro/),InterProScan可以註解其蛋白質功能,包含Domain, 2nd structure, GO terms, pathway...

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

在先前的部落格中我們介紹過了在Windows 7平台下利用bowtie或bowtie2將NGS定序的資料和reference序列作alignment,並利用samtools進行檔案的處理以及利用IGV觀看瀏覽alignment結果

詳細內容可參照:

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

SSR(simple sequence repeat)是指兩個或多個核甘酸重複排列,重複的核甘酸稱為一個motif,重複的次數在不同的個體或族群中會有所不同,為一種多型性(polymorphism)的類型;以Jun在大豆芽的研究為例,如下圖一,研究團隊收集了不同區域的大豆芽(soybean aphid),分別在美國的俄亥俄州(OH)、伊利諾州(IL)、明尼蘇達州(MN)及加拿大的安大略省(ON),可發現不同區域的大豆芽,motif重複的次數會有所相異。

20130814_pic1  

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

在今年五月的部落格” 基因體註解(genome annotation)面面觀 ─ 淺談KEGG資料庫”中,介紹到基因註解的粗略概念和簡介KEGG資料庫。在本篇部落格,我們將繼續介紹如何使用KEGG資料庫以及其他蛋白質交互作用資料庫。

 20130802_pic1

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

隨著定序技術不斷的創新,就算是定序人類基因體也不再是難事。當越來越多基因體定序資料的產生,在有限的經費下,如何大規模且有效地註解基因也越來越受到重視。

20130510_pic1  

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

先前發布的部落格RPKM 簡介中,Total exon read所引用的單位誤標為"million reads"。

共有四處標記錯誤,目前已將Total exon read的單位修正為"reads"。

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

在先前我們已經介紹使用於window7下使用bowtie(http://yourgene.pixnet.net/blog/post/92081187),今天在來介紹在window7下使用bowtie2的流程,bowtie2跟bowtie的最大差別在於bowtie2將reads比對到參考序列上時能允許indel的容錯率。

 

YourGene 發表在 痞客邦 PIXNET 留言(1) 人氣()

IGV(Integrative Genomics Viewer) 也是Broad Institute開發的NGSarray-based定序資料的genome viewer。他跟GATK 一樣在java平台之上提供反應快速的視覺化界面來瀏覽在本機端或是網路上的多種基因體資料,並且讓我們快速地在不同放大倍率間的序列瀏覽搜尋。他也提供各種定序資料與其他臨床性狀資料的關聯,將不同資料放在一起比較。

Broad Institute2006年與美國癌症研究所(NCI),美國基因體研究中心(NHGRI)合作的癌症基因體圖譜計畫(TCGA)時為了彙整基因copy numberCHIP-seq、表現量、序列變異和臨床資料而開發的。在後續與其他計劃合作(1000 genome, ENCODE)時,IGV也整合了SAM/BAMVCF等檔案。目前IGV主要版本為2.x。以下就操作界面、檔案格式、功能特色加以明。

YourGene 發表在 痞客邦 PIXNET 留言(1) 人氣()

            隨著現在次世代定序技術越來越進步,定序所需的成本也越來越低,許多研究者也開始紛紛進行許多物種的全基因體定序。當我們得到一個物種的全基因體DNA序列之後,下一步接著要做的便是基因體上的蛋白質coding region的預測。在這邊就來跟大家介紹一個適用於細菌及古生菌的基因預測軟體:Prodigal

20130301_pic1  

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

在Re-sequencing 的分析中,將Paired-end reads 對回到參考序列後的SAM 格式中,其中一個欄位”FLAG”,將會記錄paired-end reads 對回參考序列的特性。FLAG定義reads對回參考序列後的幾種特性,如圖一所式,其計算方法則是將read含有的每一個特性所對應的數值相加。

20130125_pic1  

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

Fusion gene 從基因體或轉錄體來講,是2個分開的基因的成為1個混合基因(hybride gene)。在生物資訊分析上,若只做map到Reference genome,

生物資訊參數有時會設為90%相似性,即定序長度100bases情況下,有90bases以上核甘酸序列是一樣的,就可map到Reference genome,因此就只能看小片段的 Insertion/deletion。

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

比較不同實驗條件下生物體的基因表現量差異,不再只能透過生物晶片觀察螢光反應定量基因表現量,亦可以藉由次世代定序偵測生物體的基因表現 (圖一) (Garber M, 2011)。而從RNA-seq結果尋找具有顯著表現量差異的基因是分析定序資料很重要的一部份,想要精確地定量和正規化定序資料,至少需要考慮兩個因素:基因長度和定序深度(或是總定序資料量)

20130104_pic1

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

        GATK ( Genome Analysis Toolkit),一套用來分析DNA sequencing data,找尋genomic variation的工具,由Broad Institute開發。目前已被應用在幾個大計畫中,例如1000 genomes projectTCGA(The Cancer Genome Atlas)。而在今年七月也更新成第二版。

20121128_pic1  

YourGene 發表在 痞客邦 PIXNET 留言(1) 人氣()

當我們將NGS 資料(reads data)利用各種方法去和參考序列(reference sequence)做比對之後,我們該如何表達比對之後的結果呢?這個問題的答案就是我們耳熟能詳的SAM檔案。SAM的縮寫是Sequence Alignment/Map,它是來自於Heng Li 等人在2009發表在Bioinformatics的文章。藉由標準的SAM檔案格式,我們得以描述每一次比對之後的結果。SAM是一個純文字檔案,可以用任何的文字編輯器開啟,其格式具有以下的優點:

  1. Is flexible enough to store all the alignment information generated by various alignment programs;
  2. Is simple enough to be easily generated by alignment programs or converted from existing alignment formats;
  3. Is compact in file size;
  4. Allows most of operations on the alignment to work on a stream without loading the whole alignment into memory;
  5. Allows the file to be indexed by genomic position to efficiently retrieve all reads aligning to a locus.

 

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

重複序列廣泛的出現在各物種的基因體序列中,這些序列對於生物資訊的分析上將會造成許多biases。

以人類的基因體序列為例,有將近51%的序列是屬於repeated sequence,請見圖一。

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

1 2