目前分類:生物資訊工具與技術 (83)

瀏覽方式: 標題列表 簡短摘要

作者:謝維馨/有勁生物科技

 

什麼是決策樹 (Decision Tree)

決策樹(Decision Tree)是常見的資料探勘(Data Mining)技術,主要是使用樹狀分枝的概念來作為決策模式,是一種強大且廣受歡迎的分析方法。

文章標籤

Yourgene Health 發表在 痞客邦 留言(0) 人氣()

作者:王育彬/有勁生物科技

 

資料圖形化(data visualization)是資料統計過程的重要元素,資料要經過適當的圖形化處理,大家才容易找出及理解資料背後所蘊藏的秘密;科學的研究領域中,資料圖形化更是呈現實驗數據的重要工具。論文內容裡,從簡單的長條圖、折線圖,到複雜的樹狀圖及網路圖,各種圖的應用都扮演重要的角色,再加上清楚的圖說,讀者就能簡單地消化研究數據所要傳達的概念。heatmap (熱圖)便是基因研究領域中大量被採用的一種資料圖形化工具。

 

文章標籤

Yourgene Health 發表在 痞客邦 留言(0) 人氣()

作者:鄭翰欽/有勁生物科技

 

由Pacific Biosciences公司(簡稱PacBio)所建立的第三代定序技術─Single Molecule Real Time (SMRT) (相關技術原理可參考有勁2013/11/21部落格文章),其reads長度普遍都能超過10KB,因此可以跨過一些基因體(Genome)上的重複序列,讓組裝(Assembly)過程更容易。然而SMRT定序過程中,直接對單一DNA分子進行定序的話,錯誤率會偏高;若在此過程中使用SMRTbell template對同一條序列進行重複定序,並將這些重複的序列整合成Circular consensus sequencing (CCS) reads,就可將定序錯誤率壓到很低。於是現在愈來愈多人會利用SMRT定序技術去進行基因體定序及後續的組裝。然而,使用SMRT定序所得到的reads為HDF5格式,而非常見的fastq格式,想直接拿SMRT reads結果做分析會很不方便。因此,在這裡要介紹PacBio官方出版的分析軟體─SMRT link給大家參考。

 

文章標籤

Yourgene Health 發表在 痞客邦 留言(0) 人氣()

作者:林志鵬 /有勁生物科技 

 

自2000年6月26日,美國總統柯林頓與英國首相布萊爾共同宣布人類基因組計劃 (Human Genome Project, HGP)工作草圖完成後,人類的染色體序列至今依然持續進行改版。這其中原因包含了:1. 人類的基因體中仍有許多的區域尚未獲得定序結果、2. 定序資料有誤以及 3. 註解資料的更新修正。無法獲得定序結果的原因主要來自於染色體的重複序列:例如染色體的中心區域 (centromere)及染色體末端區域 (telomere)就含有大量重複DNA序列。此種序列受到現今的定序技術限制,無法進行精確定序。此外,人類好幾個染色體區域,在不同人之間會出現一定程度的變異性,例如MHC region。這些區域序列是無法使用單一標準序列來代表。因此每當定序技術有所改進或是註解資料有所更新,人類的染色體序列便會持續進行改版。

 

文章標籤

Yourgene Health 發表在 痞客邦 留言(0) 人氣()

作者:張凱迪 /有勁生物科技

 

每當我們要編輯文件的時候,如果同時也想要保留舊版的檔案,最簡單的方式我們會複製不同的資料夾或是檔案名稱來標示,像是我們會用日期或是人名來做分類。但是長期來說,這樣的命名方式常常會產生一些問題,像是可能會忘記某個資料夾或是檔案究竟做了什麼編輯,哪些檔案是一樣的,哪一些檔案比較新。有時候我們還會遇到像是最新的檔案需要與之前某一個檔案整併,或是整併某幾個人的各自編輯的檔案,如果這只由單一個人編輯的話也許還可以保持一致性,但是如果是需要經過多人反覆編輯的話會是一個惱人的工作,更糟的是我們可能覆蓋掉某人編輯的檔案。這時我們會藉由一個專門的版本控制軟體來協助這些工作流程,也許可以減輕我們的負擔。

 

文章標籤

Yourgene Health 發表在 痞客邦 留言(0) 人氣()

作者:謝維馨/有勁生物科技

 

進行統計分析時,常見的資料型態主要有連續型資料及類別型資料兩種。當我們想要檢定連續性資料之間的差異時,我們通常會使用回歸分析或t檢定等檢驗方法;而針對類別型資料,我們最常使用的檢定方法則為卡方分析。

 

文章標籤

Yourgene Health 發表在 痞客邦 留言(0) 人氣()

作者:郭任超/ 有勁生物科技

 

人口數量快速成長、慢性疾病盛行,醫療支出持續升高對政府財政造成壓力,因此歐洲許多國家都朝向電子醫療照護 (e-Health)等創新服務方向發展。在過去十年來,醫療照護服務的數位化轉型,在促進醫療照護服務品質方面扮演重要角色。健康服務也從服務提供者為中心轉向以病人為中心的模式,引發了健康數位化策略和服務提供方式的重大改變。

 

文章標籤

Yourgene Health 發表在 痞客邦 留言(0) 人氣()

 作者:徐銘鴻/有勁生物科技

 

今年大學指定考試志願選填在前幾周結束了。每到此時大家就開始討論就讀哪個科系CP值最低、哪個科系最沒用,而生科系總是於此話題榜上有名。其實生命科學範疇包羅萬象,許多科系之間似乎都有些親緣、裙帶或曖昧關係,五花八門反而常常讓學子在選擇未來出路時舉棋不定。本篇文章這次要來「解惑」的,是生物和資訊領域的愛情結晶─生物資訊。

 

文章標籤

Yourgene Health 發表在 痞客邦 留言(1) 人氣()

作者:鄭翰欽/有勁生物科技

 

      Genome-guided transcriptome assembly,顧名思義,就是使用基因參考序列 (reference genome)的資訊 (如序列sequence或註解annotation),來協助進行總轉錄本(transcriptome)的組裝 (assembly),期望組裝出來的所有信使RNA轉錄本 (mRNA transcript)能更正確,且錯誤率更低。

 

文章標籤

Yourgene Health 發表在 痞客邦 留言(0) 人氣()

作者:張凱迪/ 有勁生物科技

 

Alphabet (Google母公司)旗下子公司的DeepMind的人工智慧系統AlphaGo近日將與中國棋士柯潔在中國的圍棋發源地烏鎮再度對決,使得時下機器學習的應用再度成為新聞話題。機器學習並不是近幾年才熱門了研究領域,媒體使用「人工智慧」、「機器學習」與「深度學習」這幾個名詞來描述 DeepMind 的致勝方式,這三者雖皆是 AlphaGo 擊敗前次比賽韓國棋手李世乭的原因,卻並非指同一件事情,其中各有巧妙不同。

 

文章標籤

Yourgene Health 發表在 痞客邦 留言(0) 人氣()

作者:張美虹/ 有勁生物科技

 

群集分析( cluster analysis )主要目的是將一大筆資料精簡成少數幾個同質性次群體( homogeneous subgroups ),以便從雜亂無章的一大堆原始資料中,做到分類、分群的目標。

 

文章標籤

Yourgene Health 發表在 痞客邦 留言(0) 人氣()

作者:謝維馨/ 有勁生物科技

 

進行研究時,我們常常需要比較兩組資料是否具有顯著差異,而最常用來協助我們判斷差異的統計方法就是t檢定。

 

文章標籤

Yourgene Health 發表在 痞客邦 留言(2) 人氣()

作者:郭任超/ 有勁生物科技

 

隨著科技的進步與雲端數據應用的普及,未來在這個領域,如同英文溝通能力於商務領域那樣,具備基礎的程式撰寫能力也將會是必備的基本技能。學習程式編碼(coding)也是一種訓練利用邏輯進行思考及解決問題的方法。透過良好程式撰寫習慣的養成,不但可大大提高工作效率,也可減少不必要的失誤。

 

文章標籤

Yourgene Health 發表在 痞客邦 留言(0) 人氣()

作者:徐于晴/有勁生物科技

 

物種繁衍的過程當中,個體之間都會有所差異,這些差異從微觀的角度來看,就是每個個體的DNA序列會有不同,反映在外觀上,就是每個個體性狀的不同。這些性狀的差異,或多或少都會影響到個體適應環境的生存能力,若是在遇到環境有大變動時,原本在族群中較為罕見的性狀,有可能會因為較能適應變動後的環境而被篩選出來,導致這個性狀在族群中變得相當普遍,這就是所謂的天擇。

 

文章標籤

Yourgene Health 發表在 痞客邦 留言(0) 人氣()

作者:徐于晴/有勁生物科技

 

ENCODE是美國NHGRI (National Human Genome Research Institute)在2003所開始的一個計畫,目的是希望能註解人類基因體上的功能,包含去註解基因、RNA、轉錄調節相關的區域  (transcriptional regulatory regions)、染色質狀態(chromatin state)、DNA甲基化 (DNA methylation)等項目。下圖是ENCODE所想要註解的目標及其相對應的研究方法統整:

170202_1.png

Yourgene Health 發表在 痞客邦 留言(0) 人氣()

作者:謝維馨/有勁生物科技

 

一般來說,當我們希望藉由統計的方法來協助我們進行推論時,我們會先針對結果提出假設,並希望能夠利用有限的的資料加以證實我們提出的假設,而假設檢定就是一種用來檢驗統計假設的方法。

在研究的過程中,要提出一個強而有力的證據來證明假設為真是不容易的,因此在進行假設檢定的過程中,我們會先將結果分成兩種相反的決策:虛無假設 (Null Hypothesis, H0)和對立假設(Alternative Hypothesis, H1),並利用反證法來證實我們的推論。換句話說,進行假設檢定的目標,不是在於證明立論為真,而是希望能夠有足夠的證據可以推翻相反的立論。因此,我們通常會將我們希望推翻的目標設為虛無假設 (H0)、將我們期望證實的結果設為對立假設 (H1),並期望可以透過推翻虛無假設來證實我們的推論。

Yourgene Health 發表在 痞客邦 留言(2) 人氣()

作者:李覺白/有勁生物科技

 

RNA-Seq可幫助科學家偵測所有表現的基因,即使是尚未發現的基因也可被偵測,因此能應用於找尋新的基因;延伸的應用包含找尋一些和基因的結構相似但不會轉譯成蛋白的non-coding RNA及基因表現時因同一個基因下選擇性剪接產生(Alternative splicing)isoform

RNA-Seq的實驗設計中,定序深度是很重要的因子,定序深度會與transcriptome size有相關,一般而言genome size越大的物種,其transcriptome size就越大,定序的深度也需要更高。下表初略將不同物種的transcriptome size分類

Yourgene Health 發表在 痞客邦 留言(0) 人氣()

作者:張美虹/有勁生物科技

 

現今次世代定序蓬勃發展,RNA-Seq儼然成為測量基因表達的標準,並且是經常被應用於人類疾病研究的重要技術。

基因表達定量牽涉到定序序列與已知的基因組或轉錄組參考序列比對。而量化的準確性依賴於經過生物資訊工具分析後,定序序列是否產生足夠且獨特的訊息進而能精確地對上參考序列。

Yourgene Health 發表在 痞客邦 留言(0) 人氣()

作者:林志鵬/有勁生物科技

 

  如何精確的利用NGS定序資料來偵測腫瘤細胞的染色體變異一直是一個非常重要的課題。一篇在2016發表在NAR的論文裡,作者開發了一個工具VarDict,使得研究者在進行腫瘤突變偵測的過程中能夠更加順利。

一般來說,常見的腫瘤細胞變異不外乎以下幾種:Single nucleotide variant (SNV)、Multiple nucleotide variants (MNV),Insertion,Deletion,complex variant、Structural variants (SV)。目前大家比較常用的variant calling軟體,例如:GATK、FreeBayes、VarScan,則是設計來針對SNV 以及small insertion and deletion進行偵測,至於複雜的變異型態 (complex variant)則是沒有包含。然而抑癌基因,例如 TP53, PTEN, BRA1/2, RB1, STK11, NF1…等等,經常包含了大片段的frameshift insertion and deletion或者是complex variant以及SV,就經常會被偵測軟體給遺漏。

Yourgene Health 發表在 痞客邦 留言(0) 人氣()

作者:徐于晴/有勁生物科技

 

SnpEff是用來註解基因變異所造成可能影響的工具,其所需要的檔案及輸出的檔案格式皆為VCF檔,有經過SnpEff註解過的檔案看起來如下:

1025-1.png

Yourgene Health 發表在 痞客邦 留言(0) 人氣()

Close

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

reload

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼