目前分類:生物資訊工具與技術 (48)

瀏覽方式: 標題列表 簡短摘要

作者:謝維馨/ 有勁生物科技

 

進行研究時,我們常常需要比較兩組資料是否具有顯著差異,而最常用來協助我們判斷差異的統計方法就是t檢定。

 

文章標籤

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

作者:郭任超/ 有勁生物科技

 

隨著科技的進步與雲端數據應用的普及,未來在這個領域,如同英文溝通能力於商務領域那樣,具備基礎的程式撰寫能力也將會是必備的基本技能。學習程式編碼(coding)也是一種訓練利用邏輯進行思考及解決問題的方法。透過良好程式撰寫習慣的養成,不但可大大提高工作效率,也可減少不必要的失誤。

 

文章標籤

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

作者:徐于晴/有勁生物科技

 

物種繁衍的過程當中,個體之間都會有所差異,這些差異從微觀的角度來看,就是每個個體的DNA序列會有不同,反映在外觀上,就是每個個體性狀的不同。這些性狀的差異,或多或少都會影響到個體適應環境的生存能力,若是在遇到環境有大變動時,原本在族群中較為罕見的性狀,有可能會因為較能適應變動後的環境而被篩選出來,導致這個性狀在族群中變得相當普遍,這就是所謂的天擇。

 

文章標籤

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

近年來,NIPT非侵入性產前染色體檢在臨床上已被大量的應用,因不需做羊膜穿刺,且僅須懷孕十週以上即可檢測,又加上NIPT具有高度正確性99%以上,因此讓許多孕婦多了一個可以更安心的選擇。不過,國際上對於NIPT的定位仍然屬於篩選性質,而非作為診斷的唯一依據,目的在於篩選出較有可能懷有染色體套數異常胎兒的孕婦,並即早讓醫師判斷是否需要進行進一步侵入性檢查及安排後續的醫療計畫。

當NIPT結果是檢出或高度風險時,就代表胎兒一定是染色體套數異常嗎? 答案是否定的。如果以PPV1 (定義如下圖一)表示檢出或高度風險結果的正確性,依照研究2,3,4,NIPT的PPV最低40%到最高80%,代表針對被NIPT認定為positive的群組中,並非一定都是懷有染色體異常之胎兒。

圖一

170207_1.png

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

ENCODE是美國NHGRI (National Human Genome Research Institute)在2003所開始的一個計畫,目的是希望能註解人類基因體上的功能,包含去註解基因、RNA、轉錄調節相關的區域  (transcriptional regulatory regions)、染色質狀態(chromatin state)、DNA甲基化 (DNA methylation)等項目。下圖是ENCODE所想要註解的目標及其相對應的研究方法統整:

170202_1.png

ENCODE在推行上分為兩大階段:

  1. Pilot project phase (2003-2007): 此階段以建立與測試實驗和分析流程為主,主要針對200筆資料中,分散於各處且總長約30Mb的人類基因體區域 (大約人類基因體的1%)來做分析。
  2. Production phase (2007-現在): 此階段使用前一階段所建立的實驗和分析流程,將分析目標拓展到整個人類基因體。

除了人類基因體的註解之外,ENCODE所建立的實驗及分析流程也被其他計畫用來註解其他種生物的基因體,像是老鼠、果蠅、線蟲等模式生物,其相關的計畫有:

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

一般來說,當我們希望藉由統計的方法來協助我們進行推論時,我們會先針對結果提出假設,並希望能夠利用有限的的資料加以證實我們提出的假設,而假設檢定就是一種用來檢驗統計假設的方法。

在研究的過程中,要提出一個強而有力的證據來證明假設為真是不容易的,因此在進行假設檢定的過程中,我們會先將結果分成兩種相反的決策:虛無假設 (Null Hypothesis, H0)和對立假設(Alternative Hypothesis, H1),並利用反證法來證實我們的推論。換句話說,進行假設檢定的目標,不是在於證明立論為真,而是希望能夠有足夠的證據可以推翻相反的立論。因此,我們通常會將我們希望推翻的目標設為虛無假設 (H0)、將我們期望證實的結果設為對立假設 (H1),並期望可以透過推翻虛無假設來證實我們的推論。

根據H0所定訂範圍的差異,可將假設檢定的型式分成兩種:單尾檢定 (one-tailed tests)以及雙尾檢定 (two-tailed tests)。其中,單尾檢定又可細分為右尾檢定 (upper-tail test)和左尾檢定  (lower-tail test)。當樣本檢定量越大,越容易拒絕H0時,即為右尾檢定;反之,當樣本檢定量越小,越容易拒絕H0時,就稱為左尾檢定;若樣本檢定量越大或越小均可能拒絕H0時,則為雙尾檢定。

 

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

RNA-Seq可幫助科學家偵測所有表現的基因,即使是尚未發現的基因也可被偵測,因此能應用於找尋新的基因;延伸的應用包含找尋一些和基因的結構相似但不會轉譯成蛋白的non-coding RNA及基因表現時因同一個基因下選擇性剪接產生(Alternative splicing)isoform

RNA-Seq的實驗設計中,定序深度是很重要的因子,定序深度會與transcriptome size有相關,一般而言genome size越大的物種,其transcriptome size就越大,定序的深度也需要更高。下表初略將不同物種的transcriptome size分類

Organism

Transcriptome Size (Estimate)

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

現今次世代定序蓬勃發展,RNA-Seq儼然成為測量基因表達的標準,並且是經常被應用於人類疾病研究的重要技術。

基因表達定量牽涉到定序序列與已知的基因組或轉錄組參考序列比對。而量化的準確性依賴於經過生物資訊工具分析後,定序序列是否產生足夠且獨特的訊息進而能精確地對上參考序列。

1122-1.png

圖一、12種分析方法組合

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

如何精確的利用NGS定序資料來偵測腫瘤細胞的染色體變異一直是一個非常重要的課題。一篇在2016發表在NAR的論文裡,作者開發了一個工具VarDict,使得研究者在進行腫瘤突變偵測的過程中能夠更加順利。

一般來說,常見的腫瘤細胞變異不外乎以下幾種:Single nucleotide variant (SNV)、Multiple nucleotide variants (MNV),Insertion,Deletion,complex variant、Structural variants (SV)。目前大家比較常用的variant calling軟體,例如:GATK、FreeBayes、VarScan,則是設計來針對SNV 以及small insertion and deletion進行偵測,至於複雜的變異型態 (complex variant)則是沒有包含。然而抑癌基因,例如 TP53, PTEN, BRA1/2, RB1, STK11, NF1…等等,經常包含了大片段的frameshift insertion and deletion或者是complex variant以及SV,就經常會被偵測軟體給遺漏。

除此之外,那些屬於低頻率變異 (low allele frequency mutations)往往讓研究者更感興趣。不僅僅是因為在腫瘤細胞中,那些佔有量極小但卻帶有特殊變異腫瘤細胞很有可能帶有抗藥性之外;目前最熱門的ctDNA (circulating tumor )DNA也需要進行低頻率變異的偵測。要完成這樣的偵測,我們往往會採用深度定序 (>5000X)。然而大部分的軟體遇到這樣的深度定序,為了避免使用運算資源及時間,往往會採用所謂的downsampling的方式,亦即將本來的定序資料進行隨機採樣來降低資料量。而這樣的過程會減少偵測靈敏度 (sensitity),而與當初的目的相違背。

為了解決以上的問題,VarDict採用了數種方法來解決。筆者在此條列幾項比較重要的特色:

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

生物資訊分析師 徵才公告  

 

 

 

YourGene 發表在 痞客邦 PIXNET 留言(1) 人氣()

Ion Torrent世界基因科學大會-1

Ion World Tour 2015  

2015年在新加坡舉辦的Ion Torrent世界基因科學大會,此次所舉辦的基因定序科學互動研討會,跳脫以往對於科學研究的刻板印象,主要訴求以輕鬆的氛圍,討論與分享科學卓越想法和研究成果,而且與會的專家學者,皆來自世界各地的基因科學研究翹楚,齊聚一堂進行生物基因科技交流互動。 

有勁生技執行長―詹佳翰 博士(Dr. Bill Chang,亦受邀本次大會講述【生物資訊分析的經驗分享:關於全基因組、目標基因及臨床醫學的基因定序與應用】,將基因科學/臨床醫學研究的點滴,透過Ion Torrent所舉辦的研討大會,向全世界的頂尖學者交流與公佈豐碩成果,期許能為基因研究領域激盪出全新思維,讓有勁的基因種子延續的散播世界。

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

現階段NGSmapping軟體裡,BWA可以說是相當知名的一個。在BWA aln裡有一個參數-n,其程式內部說明如下:

 

Options:

-n NUM    max #diff (int) or missing prob under 0.02 err rate (float) [0.04]

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

除了透過Gene Ontology和KEGG pathway來註解蛋白質功能,也可以將蛋白質序列註解蛋白質結構域(protein domain),推測具有生物功能的序列。

InterPro是一個整合多個蛋白質功能註解的資料庫,透過蛋白質或是核酸序列,此工具由EMBL-EBI提供線上服務(http://www.ebi.ac.uk/interpro/),InterProScan可以註解其蛋白質功能,包含Domain, 2nd structure, GO terms, pathway...

只需要輸入蛋白質序列,就可以預期蛋白質功能,這對於非生物資訊人員而言,算是個簡單的分析方法。

 

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

在先前的部落格中我們介紹過了在Windows 7平台下利用bowtie或bowtie2將NGS定序的資料和reference序列作alignment,並利用samtools進行檔案的處理以及利用IGV觀看瀏覽alignment結果

詳細內容可參照:

1. bowtie教學

2. bowtie2, samtools教學

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

SSR(simple sequence repeat)是指兩個或多個核甘酸重複排列,重複的核甘酸稱為一個motif,重複的次數在不同的個體或族群中會有所不同,為一種多型性(polymorphism)的類型;以Jun在大豆芽的研究為例,如下圖一,研究團隊收集了不同區域的大豆芽(soybean aphid),分別在美國的俄亥俄州(OH)、伊利諾州(IL)、明尼蘇達州(MN)及加拿大的安大略省(ON),可發現不同區域的大豆芽,motif重複的次數會有所相異。

20130814_pic1  

 

在Jun的研究中,為第一個針對大豆芽的genomic DNA使用NGS定序後,經過de novo assembly後的contigs從中找尋SSR marker及比較在不同區域中的genetic diversity。同樣的分析概念也可應用於RNA-Seq,在Parchman的研究中,定序了黑松(P. contorta)的RNA,透過de novo assembly及reference-guided assembly後的contigs,來找尋SSR marker,圖二為Parchman研究中的流程,可供想做相關研究的團隊一個參考。

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

在今年五月的部落格” 基因體註解(genome annotation)面面觀 ─ 淺談KEGG資料庫”中,介紹到基因註解的粗略概念和簡介KEGG資料庫。在本篇部落格,我們將繼續介紹如何使用KEGG資料庫以及其他蛋白質交互作用資料庫。

 20130802_pic1

上圖為該網站的首頁(http://www.kegg.jp/kegg/)

當我們拿到龐大的次世代定序資料,這些資訊經過序列組裝(De novo assembly)和基因預測後,可以得知某特定物種的基因序列,然而,這些序列需要經過註解才能推測其生物功能。在此篇部落格我們將介紹利用KEGG的網站服務BLAST來註解有興趣的基因序列。

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

隨著定序技術不斷的創新,就算是定序人類基因體也不再是難事。當越來越多基因體定序資料的產生,在有限的經費下,如何大規模且有效地註解基因也越來越受到重視。

20130510_pic1  

圖一、代表物種的基因體和基因大小

 

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

先前發布的部落格RPKM 簡介中,Total exon read所引用的單位誤標為"million reads"。

共有四處標記錯誤,目前已將Total exon read的單位修正為"reads"。

若有其他不足之處,歡迎各位不吝指教。

 

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

我們在先前的文章SAM format中的FLAG概念及應用中提到SAM的格式。可是對於使用者來說要將FLAG的數字內容轉換成文字意義是不太方便的。

然而我們可以透過原作者的網頁,將FLAG的數字轉換成相對應的文字意涵,作者的網頁如下:"Explain SAM flags"。

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

在先前我們已經介紹使用於window7下使用bowtie(http://yourgene.pixnet.net/blog/post/92081187),今天在來介紹在window7下使用bowtie2的流程,bowtie2跟bowtie的最大差別在於bowtie2將reads比對到參考序列上時能允許indel的容錯率。

 

步驟一: 下載bowtie2

首先請先下載bowtie2 (64位元版本32位元版本)

YourGene 發表在 痞客邦 PIXNET 留言(1) 人氣()

1 23
找更多相關文章與討論

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼