目前分類:生物資訊工具與技術 (54)

瀏覽方式: 標題列表 簡短摘要

作者:林志鵬 /有勁生物科技 

 

自2000年6月26日,美國總統柯林頓與英國首相布萊爾共同宣布人類基因組計劃 (Human Genome Project, HGP)工作草圖完成後,人類的染色體序列至今依然持續進行改版。這其中原因包含了:1. 人類的基因體中仍有許多的區域尚未獲得定序結果、2. 定序資料有誤以及 3. 註解資料的更新修正。無法獲得定序結果的原因主要來自於染色體的重複序列:例如染色體的中心區域 (centromere)及染色體末端區域 (telomere)就含有大量重複DNA序列。此種序列受到現今的定序技術限制,無法進行精確定序。此外,人類好幾個染色體區域,在不同人之間會出現一定程度的變異性,例如MHC region。這些區域序列是無法使用單一標準序列來代表。因此每當定序技術有所改進或是註解資料有所更新,人類的染色體序列便會持續進行改版。

 

文章標籤

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

作者:張凱迪 /有勁生物科技

 

每當我們要編輯文件的時候,如果同時也想要保留舊版的檔案,最簡單的方式我們會複製不同的資料夾或是檔案名稱來標示,像是我們會用日期或是人名來做分類。但是長期來說,這樣的命名方式常常會產生一些問題,像是可能會忘記某個資料夾或是檔案究竟做了什麼編輯,哪些檔案是一樣的,哪一些檔案比較新。有時候我們還會遇到像是最新的檔案需要與之前某一個檔案整併,或是整併某幾個人的各自編輯的檔案,如果這只由單一個人編輯的話也許還可以保持一致性,但是如果是需要經過多人反覆編輯的話會是一個惱人的工作,更糟的是我們可能覆蓋掉某人編輯的檔案。這時我們會藉由一個專門的版本控制軟體來協助這些工作流程,也許可以減輕我們的負擔。

 

文章標籤

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

作者:張美虹/有勁生物科技

 

對微生物群落的觀察研究來說,群落物種豐富度(Species richness) 的測量可說是最簡單直觀的方式。此處要介紹如何進行16S總基因體的物種豐富度分析。

 

文章標籤

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

作者:郭任超/ 有勁生物科技

 

人口數量快速成長、慢性疾病盛行,醫療支出持續升高對政府財政造成壓力,因此歐洲許多國家都朝向電子醫療照護 (e-Health)等創新服務方向發展。在過去十年來,醫療照護服務的數位化轉型,在促進醫療照護服務品質方面扮演重要角色。健康服務也從服務提供者為中心轉向以病人為中心的模式,引發了健康數位化策略和服務提供方式的重大改變。

 

文章標籤

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

 作者:徐銘鴻/有勁生物科技

 

今年大學指定考試志願選填在前幾周結束了。每到此時大家就開始討論就讀哪個科系CP值最低、哪個科系最沒用,而生科系總是於此話題榜上有名。其實生命科學範疇包羅萬象,許多科系之間似乎都有些親緣、裙帶或曖昧關係,五花八門反而常常讓學子在選擇未來出路時舉棋不定。本篇文章這次要來「解惑」的,是生物和資訊領域的愛情結晶─生物資訊。

 

文章標籤

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

作者:鄭翰欽/有勁生物科技

 

      Genome-guided transcriptome assembly,顧名思義,就是使用基因參考序列 (reference genome)的資訊 (如序列sequence或註解annotation),來協助進行總轉錄本(transcriptome)的組裝 (assembly),期望組裝出來的所有信使RNA轉錄本 (mRNA transcript)能更正確,且錯誤率更低。

 

文章標籤

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

作者:謝維馨/ 有勁生物科技

 

進行研究時,我們常常需要比較兩組資料是否具有顯著差異,而最常用來協助我們判斷差異的統計方法就是t檢定。

 

文章標籤

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

作者:郭任超/ 有勁生物科技

 

隨著科技的進步與雲端數據應用的普及,未來在這個領域,如同英文溝通能力於商務領域那樣,具備基礎的程式撰寫能力也將會是必備的基本技能。學習程式編碼(coding)也是一種訓練利用邏輯進行思考及解決問題的方法。透過良好程式撰寫習慣的養成,不但可大大提高工作效率,也可減少不必要的失誤。

 

文章標籤

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

作者:徐于晴/有勁生物科技

 

物種繁衍的過程當中,個體之間都會有所差異,這些差異從微觀的角度來看,就是每個個體的DNA序列會有不同,反映在外觀上,就是每個個體性狀的不同。這些性狀的差異,或多或少都會影響到個體適應環境的生存能力,若是在遇到環境有大變動時,原本在族群中較為罕見的性狀,有可能會因為較能適應變動後的環境而被篩選出來,導致這個性狀在族群中變得相當普遍,這就是所謂的天擇。

 

文章標籤

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

近年來,NIPT非侵入性產前染色體檢在臨床上已被大量的應用,因不需做羊膜穿刺,且僅須懷孕十週以上即可檢測,又加上NIPT具有高度正確性99%以上,因此讓許多孕婦多了一個可以更安心的選擇。不過,國際上對於NIPT的定位仍然屬於篩選性質,而非作為診斷的唯一依據,目的在於篩選出較有可能懷有染色體套數異常胎兒的孕婦,並即早讓醫師判斷是否需要進行進一步侵入性檢查及安排後續的醫療計畫。

當NIPT結果是檢出或高度風險時,就代表胎兒一定是染色體套數異常嗎? 答案是否定的。如果以PPV1 (定義如下圖一)表示檢出或高度風險結果的正確性,依照研究2,3,4,NIPT的PPV最低40%到最高80%,代表針對被NIPT認定為positive的群組中,並非一定都是懷有染色體異常之胎兒。

圖一

170207_1.png

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

ENCODE是美國NHGRI (National Human Genome Research Institute)在2003所開始的一個計畫,目的是希望能註解人類基因體上的功能,包含去註解基因、RNA、轉錄調節相關的區域  (transcriptional regulatory regions)、染色質狀態(chromatin state)、DNA甲基化 (DNA methylation)等項目。下圖是ENCODE所想要註解的目標及其相對應的研究方法統整:

170202_1.png

ENCODE在推行上分為兩大階段:

  1. Pilot project phase (2003-2007): 此階段以建立與測試實驗和分析流程為主,主要針對200筆資料中,分散於各處且總長約30Mb的人類基因體區域 (大約人類基因體的1%)來做分析。
  2. Production phase (2007-現在): 此階段使用前一階段所建立的實驗和分析流程,將分析目標拓展到整個人類基因體。

除了人類基因體的註解之外,ENCODE所建立的實驗及分析流程也被其他計畫用來註解其他種生物的基因體,像是老鼠、果蠅、線蟲等模式生物,其相關的計畫有:

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

一般來說,當我們希望藉由統計的方法來協助我們進行推論時,我們會先針對結果提出假設,並希望能夠利用有限的的資料加以證實我們提出的假設,而假設檢定就是一種用來檢驗統計假設的方法。

在研究的過程中,要提出一個強而有力的證據來證明假設為真是不容易的,因此在進行假設檢定的過程中,我們會先將結果分成兩種相反的決策:虛無假設 (Null Hypothesis, H0)和對立假設(Alternative Hypothesis, H1),並利用反證法來證實我們的推論。換句話說,進行假設檢定的目標,不是在於證明立論為真,而是希望能夠有足夠的證據可以推翻相反的立論。因此,我們通常會將我們希望推翻的目標設為虛無假設 (H0)、將我們期望證實的結果設為對立假設 (H1),並期望可以透過推翻虛無假設來證實我們的推論。

根據H0所定訂範圍的差異,可將假設檢定的型式分成兩種:單尾檢定 (one-tailed tests)以及雙尾檢定 (two-tailed tests)。其中,單尾檢定又可細分為右尾檢定 (upper-tail test)和左尾檢定  (lower-tail test)。當樣本檢定量越大,越容易拒絕H0時,即為右尾檢定;反之,當樣本檢定量越小,越容易拒絕H0時,就稱為左尾檢定;若樣本檢定量越大或越小均可能拒絕H0時,則為雙尾檢定。

 

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

RNA-Seq可幫助科學家偵測所有表現的基因,即使是尚未發現的基因也可被偵測,因此能應用於找尋新的基因;延伸的應用包含找尋一些和基因的結構相似但不會轉譯成蛋白的non-coding RNA及基因表現時因同一個基因下選擇性剪接產生(Alternative splicing)isoform

RNA-Seq的實驗設計中,定序深度是很重要的因子,定序深度會與transcriptome size有相關,一般而言genome size越大的物種,其transcriptome size就越大,定序的深度也需要更高。下表初略將不同物種的transcriptome size分類

Organism

Transcriptome Size (Estimate)

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

現今次世代定序蓬勃發展,RNA-Seq儼然成為測量基因表達的標準,並且是經常被應用於人類疾病研究的重要技術。

基因表達定量牽涉到定序序列與已知的基因組或轉錄組參考序列比對。而量化的準確性依賴於經過生物資訊工具分析後,定序序列是否產生足夠且獨特的訊息進而能精確地對上參考序列。

1122-1.png

圖一、12種分析方法組合

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

如何精確的利用NGS定序資料來偵測腫瘤細胞的染色體變異一直是一個非常重要的課題。一篇在2016發表在NAR的論文裡,作者開發了一個工具VarDict,使得研究者在進行腫瘤突變偵測的過程中能夠更加順利。

一般來說,常見的腫瘤細胞變異不外乎以下幾種:Single nucleotide variant (SNV)、Multiple nucleotide variants (MNV),Insertion,Deletion,complex variant、Structural variants (SV)。目前大家比較常用的variant calling軟體,例如:GATK、FreeBayes、VarScan,則是設計來針對SNV 以及small insertion and deletion進行偵測,至於複雜的變異型態 (complex variant)則是沒有包含。然而抑癌基因,例如 TP53, PTEN, BRA1/2, RB1, STK11, NF1…等等,經常包含了大片段的frameshift insertion and deletion或者是complex variant以及SV,就經常會被偵測軟體給遺漏。

除此之外,那些屬於低頻率變異 (low allele frequency mutations)往往讓研究者更感興趣。不僅僅是因為在腫瘤細胞中,那些佔有量極小但卻帶有特殊變異腫瘤細胞很有可能帶有抗藥性之外;目前最熱門的ctDNA (circulating tumor )DNA也需要進行低頻率變異的偵測。要完成這樣的偵測,我們往往會採用深度定序 (>5000X)。然而大部分的軟體遇到這樣的深度定序,為了避免使用運算資源及時間,往往會採用所謂的downsampling的方式,亦即將本來的定序資料進行隨機採樣來降低資料量。而這樣的過程會減少偵測靈敏度 (sensitity),而與當初的目的相違背。

為了解決以上的問題,VarDict採用了數種方法來解決。筆者在此條列幾項比較重要的特色:

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

生物資訊分析師 徵才公告  

 

 

 

YourGene 發表在 痞客邦 PIXNET 留言(1) 人氣()

Ion Torrent世界基因科學大會-1

Ion World Tour 2015  

2015年在新加坡舉辦的Ion Torrent世界基因科學大會,此次所舉辦的基因定序科學互動研討會,跳脫以往對於科學研究的刻板印象,主要訴求以輕鬆的氛圍,討論與分享科學卓越想法和研究成果,而且與會的專家學者,皆來自世界各地的基因科學研究翹楚,齊聚一堂進行生物基因科技交流互動。 

有勁生技執行長―詹佳翰 博士(Dr. Bill Chang,亦受邀本次大會講述【生物資訊分析的經驗分享:關於全基因組、目標基因及臨床醫學的基因定序與應用】,將基因科學/臨床醫學研究的點滴,透過Ion Torrent所舉辦的研討大會,向全世界的頂尖學者交流與公佈豐碩成果,期許能為基因研究領域激盪出全新思維,讓有勁的基因種子延續的散播世界。

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

現階段NGSmapping軟體裡,BWA可以說是相當知名的一個。在BWA aln裡有一個參數-n,其程式內部說明如下:

 

Options:

-n NUM    max #diff (int) or missing prob under 0.02 err rate (float) [0.04]

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

除了透過Gene Ontology和KEGG pathway來註解蛋白質功能,也可以將蛋白質序列註解蛋白質結構域(protein domain),推測具有生物功能的序列。

InterPro是一個整合多個蛋白質功能註解的資料庫,透過蛋白質或是核酸序列,此工具由EMBL-EBI提供線上服務(http://www.ebi.ac.uk/interpro/),InterProScan可以註解其蛋白質功能,包含Domain, 2nd structure, GO terms, pathway...

只需要輸入蛋白質序列,就可以預期蛋白質功能,這對於非生物資訊人員而言,算是個簡單的分析方法。

 

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

在先前的部落格中我們介紹過了在Windows 7平台下利用bowtie或bowtie2將NGS定序的資料和reference序列作alignment,並利用samtools進行檔案的處理以及利用IGV觀看瀏覽alignment結果

詳細內容可參照:

1. bowtie教學

2. bowtie2, samtools教學

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()

1 23
找更多相關文章與討論

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼