目前分類:生物資訊工具與技術 (83)
- Oct 11 Tue 2016 10:12
TCGA controlled access data ?
- Sep 29 Thu 2016 10:22
分類工具(2) - 邏輯斯回歸 (Logistic Regression)
作者:謝維馨/有勁生物科技
‧什麼是邏輯斯迴歸 (Logistic Regression)
迴歸分析(Regression Analysis)是一種統計學上的分析方法,主要是用來了解兩個或多個變數間的相關程度,並建立模型來預測未知的樣品。當應變數(Dependent Variable)為連續型變數時,通常會使用線性迴歸(Linear Regression)來進行分析;若應變數為類別變數時(特別是兩分類的變數),則會使用邏輯斯迴歸來做分析。
和邏輯斯迴歸密不可分的概念就是「勝算(odds )」,勝算是指某一件事情成功機率和失敗機率的比值。而將勝算取對數(log)後所得到的方程式就是邏輯斯迴歸方程式。
- Aug 30 Tue 2016 11:12
NCBI資料庫基因體上傳與tbl2asn簡易教學
作者:鍾婉嘉/有勁生物科技
在大家的研究的過程中,應該很容易遇到需要將組裝的基因體上傳到NCBI資料庫上的需求。現在這些步驟,可以很輕易地使用一連串NCBI提供的網頁介面或是工具完成,這篇文章就來簡單的介紹這些工具該如何使用。
一 、 利用 NCBI Submission Portal 上傳 draft genome
- Jul 19 Tue 2016 09:24
TPM 簡介
作者:林志鵬/有勁生物科技
過往我們進行RNA-Seq時,會使用RPKM或是FPKM來代表某個gene或是isoform的表現量多寡。可是當我們想要比較不同次實驗內的某個基因,其表現量相較於「整體基因表現」而言,是否維持在「固定比例」時,便無法使用這樣的計算方式。因此Wagner et. al. 在2012年的時候提出TPM (Transcript Per Million) 的概念來補足這個缺點。我們將利用以下的表格來進行FPKM以及TPM之間的解釋以及比較。
假設某個生物具有4個基因,分別為A, B, C, D。然後我們做了3次的RNA-Seq實驗,將獲得的reads與每個基因進行比對,其比對的數目如下表所示。
- Jul 05 Tue 2016 16:41
淺談TCGA與資料下載教學
作者:紀雅齡/有勁生物科技
美國癌症基因體圖譜計畫TCGA ( The Cancer Genome Atlas ) 是由 美國國家癌症研究所National Cancer Institute (NCI) 與 國家人類基因體研究所National Human Genome Research Institute (NHGRI) 從2005年開始共同合作的一個大型研究計畫。此計畫大規模地蒐集特定癌症病患的相關臨床記錄、腫瘤組織以及相對應正常組織,進行定序以及生物資訊分析,整合資料並公開定序資料與分析結果於官方網站供大家瀏覽及下載,利於世界各地的科學家、研究人員或是學術單位取得使用。其目的是希望流通知識、促進研究,並打造完整的癌症基因組資訊,助於癌症的預防、診斷與治療。
- Jun 21 Tue 2016 14:44
分類工具(1) - 支持向量機(Support Vector Machine)
‧什麼是支持向量機(Support Vector Machine)
支持向量機(Support Vector Machine,簡稱SVM),是一種機械學習(machine learning)中監督式學習(Supervised learning)的方法,可以廣泛的應用於統計分類(classification)和回歸分析(regression analysis)。
SVM最主要的概念,就是希望可以在一個由不同類別混合而成的資料集中,依據一些特徵(feature),找到一個最佳的超平面(hyper plane)將不同類別的資料分開來。所謂最佳的超平面就是其距離兩個類別的邊界可以達到最大,而最靠近邊界的這些樣本點提供SVM最多的分類資訊,就叫做支持向量(Support Vector)。
- Apr 12 Tue 2016 12:28
BIOM file format
BIOM全名為Biological Observation Matrix,其發音同 biome。是一種以JSON (JavaScript Object Notation)格式為基礎,設計出能呈現樣本、其觀察數據以及其他相關資料列聯表的格式。目的是希望能廣泛使用在體學 (Omics)研究上,因Omics研究領域中出現的檔案特性之一為其資料矩陣密度不高(例如:含有大量為零的數值)。由於矩陣在程式中常使用二維陣列表示,二維陣列的大小與使用的記憶體空間成正比,如果多數的元素沒有資料,則會造成記憶體空間的浪費。為此,開發BIOM格式作為更適合Omics研究領域的資料型態。
而Omics一詞於希臘原文意指一種整體的研究領域,常聽聞的有蛋白質體學 (Proteinomics)、代謝體學 (Metabolomics)、總體基因體學 (Metagenomics)等。近年來可見體學研究隨時間逐漸成長,或發展出各種與體學相關的資料類型。如圖一。因此,將MEDLINE文獻資料庫這些數據,以已知有限的分析方式如無母數統計中的Chao1分析方法。藉此去推測,隨著科技發展進入“ome-omics”新時代後可能會有超過三千種的Omics。
- Jun 04 Wed 2014 16:39
bwa aln的n參數意義
現階段NGS的mapping軟體裡,BWA可以說是相當知名的一個。在BWA aln裡有一個參數-n,其程式內部說明如下:
Options:
-n NUM max #diff (int) or missing prob under 0.02 err rate (float) [0.04]
- Apr 28 Mon 2014 09:36
透過InterProScan註解蛋白質結構域(protein domain)
除了透過Gene Ontology和KEGG pathway來註解蛋白質功能,也可以將蛋白質序列註解蛋白質結構域(protein domain),推測具有生物功能的序列。
InterPro是一個整合多個蛋白質功能註解的資料庫,透過蛋白質或是核酸序列,此工具由EMBL-EBI提供線上服務(http://www.ebi.ac.uk/interpro/),InterProScan可以註解其蛋白質功能,包含Domain, 2nd structure, GO terms, pathway...
只需要輸入蛋白質序列,就可以預期蛋白質功能,這對於非生物資訊人員而言,算是個簡單的分析方法。
- Dec 04 Wed 2013 09:32
在Window7平台利用samtools尋找SNPs / INDELs
在先前的部落格中我們介紹過了在Windows 7平台下利用bowtie或bowtie2將NGS定序的資料和reference序列作alignment,並利用samtools進行檔案的處理以及利用IGV觀看瀏覽alignment結果
詳細內容可參照:
1. bowtie教學
- Aug 07 Wed 2013 16:43
基因體註解面面觀 ─ KEGG與蛋白質交互作用資料庫
在今年五月的部落格” 基因體註解(genome annotation)面面觀 ─ 淺談KEGG資料庫”中,介紹到基因註解的粗略概念和簡介KEGG資料庫。在本篇部落格,我們將繼續介紹如何使用KEGG資料庫以及其他蛋白質交互作用資料庫。
上圖為該網站的首頁(http://www.kegg.jp/kegg/)
當我們拿到龐大的次世代定序資料,這些資訊經過序列組裝(De novo assembly)和基因預測後,可以得知某特定物種的基因序列,然而,這些序列需要經過註解才能推測其生物功能。在此篇部落格我們將介紹利用KEGG的網站服務BLAST來註解有興趣的基因序列。
- May 27 Mon 2013 02:02
基因體註解面面觀 ─ 淺談KEGG pathway
隨著定序技術不斷的創新,就算是定序人類基因體也不再是難事。當越來越多基因體定序資料的產生,在有限的經費下,如何大規模且有效地註解基因也越來越受到重視。
圖一、代表物種的基因體和基因大小
- May 22 Wed 2013 22:57
[勘誤聲明] RPKM 簡介
- May 22 Wed 2013 18:15
SAM format中的FLAG應用 - FLAG換算
我們在先前的文章SAM format中的FLAG概念及應用中提到SAM的格式。可是對於使用者來說要將FLAG的數字內容轉換成文字意義是不太方便的。
然而我們可以透過原作者的網頁,將FLAG的數字轉換成相對應的文字意涵,作者的網頁如下:"Explain SAM flags"。
- May 22 Wed 2013 12:11
在window7平台使用bowtie2並利用IGV瀏覽序列比對結果
在先前我們已經介紹使用於window7下使用bowtie(http://yourgene.pixnet.net/blog/post/92081187),今天在來介紹在window7下使用bowtie2的流程,bowtie2跟bowtie的最大差別在於bowtie2將reads比對到參考序列上時能允許indel的容錯率。
步驟一: 下載bowtie2
- Apr 24 Wed 2013 15:22
Integrative Genomics Viewer
IGV(Integrative Genomics Viewer) 也是Broad Institute開發的NGS及array-based定序資料的genome viewer。他跟GATK 一樣在java平台之上提供反應快速的視覺化界面來瀏覽在本機端或是網路上的多種基因體資料,並且讓我們快速地在不同放大倍率間的序列瀏覽搜尋。他也提供各種定序資料與其他臨床性狀資料的關聯,將不同資料放在一起比較。
Broad Institute在2006年與美國癌症研究所(NCI),美國基因體研究中心(NHGRI)合作的癌症基因體圖譜計畫(TCGA)時為了彙整基因copy number、CHIP-seq、表現量、序列變異和臨床資料而開發的。在後續與其他計劃合作(1000 genome, ENCODE)時,IGV也整合了SAM/BAM和VCF等檔案。目前IGV主要版本為2.x。以下就操作界面、檔案格式、功能特色加以說明。
操作界面
- Mar 11 Mon 2013 09:43
Gene Prediction: Prodigal軟體介紹
隨著現在次世代定序技術越來越進步,定序所需的成本也越來越低,許多研究者也開始紛紛進行許多物種的全基因體定序。當我們得到一個物種的全基因體DNA序列之後,下一步接著要做的便是基因體上的蛋白質coding region的預測。在這邊就來跟大家介紹一個適用於細菌及古生菌的基因預測軟體:Prodigal
圖一:以Artemis查看在Anaeromyxobacter dehalogenans以Prodigal預測出來的基因(黃色部份)和其他基因預測軟體預測出來的基因(Glimmer:綠色、GeneMark:紅色)位置比較。
- Jan 28 Mon 2013 11:38
SAM format中的FLAG概念及應用
在Re-sequencing 的分析中,將Paired-end reads 對回到參考序列後的SAM 格式中,其中一個欄位”FLAG”,將會記錄paired-end reads 對回參考序列的特性。FLAG定義reads對回參考序列後的幾種特性,如圖一所式,其計算方法則是將read含有的每一個特性所對應的數值相加。
圖一:SAM format中的FLAG欄位
- Jan 21 Mon 2013 12:11
Fusion Gene 觀念概要
Fusion gene 從基因體或轉錄體來講,是2個分開的基因的成為1個混合基因(hybride gene)。在生物資訊分析上,若只做map到Reference genome,
生物資訊參數有時會設為90%相似性,即定序長度100bases情況下,有90bases以上核甘酸序列是一樣的,就可map到Reference genome,因此就只能看小片段的 Insertion/deletion。
有些研究,是想看virus genome插在chromosome哪個位置,此需要用fusion gene生物資訊分析方式。首先,要將reads map到Reference genome後,因有些reads與Reference genome相似性低,無法將Map上,就會產生unmapped reads。如下圖:
- Dec 14 Fri 2012 14:10
RNA-seq之基因表現量差異 - 利用DESeq分析
比較不同實驗條件下生物體的基因表現量差異,不再只能透過生物晶片觀察螢光反應定量基因表現量,亦可以藉由次世代定序偵測生物體的基因表現 (圖一) (Garber M, 2011)。而從RNA-seq結果尋找具有顯著表現量差異的基因是分析定序資料很重要的一部份,想要精確地定量和正規化定序資料,至少需要考慮兩個因素:基因長度和定序深度(或是總定序資料量)。
圖一