當我們將NGS 資料(reads data)利用各種方法去和參考序列(reference sequence)做比對之後,我們該如何表達比對之後的結果呢?這個問題的答案就是我們耳熟能詳的SAM檔案。SAM的縮寫是Sequence Alignment/Map,它是來自於Heng Li 等人在2009發表在Bioinformatics的文章。藉由標準的SAM檔案格式,我們得以描述每一次比對之後的結果。SAM是一個純文字檔案,可以用任何的文字編輯器開啟,其格式具有以下的優點:

  1. Is flexible enough to store all the alignment information generated by various alignment programs;
  2. Is simple enough to be easily generated by alignment programs or converted from existing alignment formats;
  3. Is compact in file size;
  4. Allows most of operations on the alignment to work on a stream without loading the whole alignment into memory;
  5. Allows the file to be indexed by genomic position to efficiently retrieve all reads aligning to a locus.

 

簡單的說,透過SAM檔案的內容,我們可以很有彈性的去描述各種比對的狀況。此外我們也可以透過作者所提供的工具(SAMTools)來去抓取特定的區域,合併或排序比對的結果、甚至是可以根據不同的比對狀況來抓取相對應的序列資料….等等非常多的應用。

除了SAM檔案之外,我們也往往會看到BAM檔案。BAM其實就是2進位檔的SAM,因此具有檔案大小較小、存取速度較快的優點,但是缺點為無法用一般的文字編輯器開啟。由於以上特性,某些工具會僅針對BAM檔案去設計。遇到這種狀況,我們變需要先將SAM利用SAMTools去轉換成BAM,才能再往下進行相關的分析。

Yourgene Health 發表在 痞客邦 留言(0) 人氣()

近幾年來肺癌成為前十大癌症死亡率最高,原因是現今社會中由於空氣汙染嚴重、二手菸或是因為工作關係長期處在於大型廢氣排放設備的工作區域等等,又加上肺臟本身沒有痛覺神經,所以當發現肺部有異狀時通常癌症已經轉移到淋巴或其他組織。

肺癌與其他癌症的治療方法不外乎就是化療、標靶等等,而近年來國內掀起一陣風潮,就是由基因定序來協助治療肺癌。在2010.09.14的中時健康網(http://health.chinatimes.com/contents.aspx?cid=6,60&id=11649)曾報導過,台北醫學大學附設醫院透過國內外文獻,推出全台首創肺癌基因定序篩檢,癌症患者只要透過基因篩檢就可以找到最適合自己的治療方式或是藥物使用,這樣一來不僅可以對症下藥還可以減少一些治療的時間。在國外早就在2008年Campbell等人在文獻中提利用全基因體定序協助肺癌的研究,接著分別在2010年與2011年陸陸續續都有相關的文獻出爐,如下表

20121105_pic1  

由上表中的main finding可得知,目前找到與肺癌相關的突變點已達到非常多,相信在未來全基因體定序不僅在於學術研究,而是更廣泛應用在臨床診斷與治療並且對於醫療方面會有加乘作用。

Yourgene Health 發表在 痞客邦 留言(0) 人氣()

       真核生物的genome size較原核生物大,且有許多條大小不一的染色體,所以在進行optical mapping及定序資料的組裝上較為困難。若能將真核生物的每個染色體獨立的分離出來,再分別進行定序或解出restriction enzyme map,對序列組裝上會有相當大的幫助。

將不同大小型態的染色體分離出來的技術一直以來都有許多研究團隊在開發,其中的技術包含使用micromanipulator配合雷射切割、使用原子力顯微鏡atomic force microscope nanolithography及流式細胞儀Flow cytometry,其中流式細胞儀Flow cytometry是被認為分離效果較佳的技術。

        Flow cytometry是生物學上相當常用的技術之一,例如當一個樣品中混有許多不同特性的細胞在裡面時,Flow cytometry可以依據細胞的顆粒性及螢光染色呈色性,將相同性質的細胞做分群分析且可將同一性質的細胞分別分離出來。不同染色體之間的大小及DNA螢光染劑染色後的螢光相對強度亦不相同,所以可以利用Flow cytometry將染色體獨立的分開來(如下圖)。

20121102_pic1  

Yourgene Health 發表在 痞客邦 留言(1) 人氣()

新興感染(emerging infection disease)疾病的病原可能來自於:

  1. 尚未偵測到或者未知的病原
  2. 已知的病原但散佈到新的地理位置
  3. 已知病源經過突變感染更強

對於新興感染疾病的預防,其中重要的一部份就是主動尋找偵測可能造成疾病流行的病源。國外學者發現包含蚊子、線蟲等無脊椎動物的small RNA中會帶有遭到感染的病毒序列,且彼此之間有overlap,可組裝出完整病毒序列[1];除此之外有時候甚至可以組出一組以上的病毒,且與已知病毒序列比對發現存在著差異,有new species存在的可能性,因此認為定序其small RNA可做為檢測病源的方法。Maijuan Ma[2]以家蚊為實驗對象分析其small RNA,組裝比對到具有大部分相同序列(80%)的三種病毒,分別為Aedes albopictus parvovirus, Anopheles gambiae densonucleosis virus, Aedes aegypti densovirus strain 0814616,為了確認答案,將組裝好的三種病毒genome作為reference,將reads貼回此三種reference genome上後,map比例最高者為Anopheles gambiae densonucleosis virus(78.5%),且組裝出來的consensus region與最新發表的的同種病毒(Anopheles gambiae)序列有98%的相似度,接著以PCR方式進一步確認,僅有Anopheles gambiae densonucleosis virus得到positive的結果,因此確認感染的病毒是Anopheles gambiae densonucleosis virus。無脊椎動物抵抗病毒感染的機制使得病毒片段出現於small RNA中尚未完全清楚,且coat protein的coverage最高,non-structure protein排行第二[2],此生物現象發生的原因也不清楚,這些問題仍待未來更深入的研究闡明。

 

References:

文章標籤

Yourgene Health 發表在 痞客邦 留言(0) 人氣()

有勁生技與國內電子大廠台達電子雲端事業處攜手打造雲端生物資訊分析平台,提供高速生物資訊運算環境,滿足生物科技相關人員面對 NGS 龐大資料量所需巨大運算量的需求。

透過台達電子雲端事業處提供的可擴充式大量高速運算資源與技術合作。

 

  有勁生技台達電子雲端事業處合作垂直整合了硬體、系統、軟體至使用者介面,開發高速雲端生物資訊分析平台,提供生物科技相關研究人員高速、穩定且方便使用的運算環境。

Yourgene Health 發表在 痞客邦 留言(0) 人氣()

有勁提供細菌基因定序完整解決方案,包含多項定序服務和生物資訊分析,各項優惠詳細內容請來電洽詢! 有勁生技(02)2675-8068

20121016定序解決方案1  

20121016定序解決方案2  

 

Yourgene Health 發表在 痞客邦 留言(0) 人氣()

為了感謝及回饋顧客的支持與愛護,有勁提供限量20組Optical Mapping優惠 (原價八萬元),幫助顧客增進研究品質,詳情請洽有勁生技(02)2675-8068

 20121016_OM1  

20121016_OM2  

 

Yourgene Health 發表在 痞客邦 留言(0) 人氣()

重複序列廣泛的出現在各物種的基因體序列中,這些序列對於生物資訊的分析上將會造成許多biases。

以人類的基因體序列為例,有將近51%的序列是屬於repeated sequence,請見圖一。

20121012_pic1  

圖一: a.人類基因體序列中的repeated sequence分布情形。b. 23對染色體各自的repeated sequence分布情形。

Yourgene Health 發表在 痞客邦 留言(0) 人氣()

我們對於數位資訊儲存媒體的容量需求一直不斷地增加. 以硬碟容量而言, 30年前一顆數十MB, 到今日一顆數TB的硬碟, 儲存的密度可以說增加了數十萬倍. 即使有如此大的進步, 我們對於更大容量的儲存設備還是有需求.

 

自從1988, 開始有人提出利用DNA作為儲存媒體的想法. 目前為止, 將資訊儲存於DNA上的資料量僅止於7,920位元(990位元組, bytes).  近年來由於NGS技術的發展, 使得DNA儲存媒體的技術也相對有很大的進步. 在最近一期的科學期刊, Church等人結合了NGS的技術, 將資料的儲存量提高到5.27百萬位元(相當於66萬位元組, 660 Kbytes), 約上一代技術660倍的增加.

 

Yourgene Health 發表在 痞客邦 留言(0) 人氣()

隨著次世代定序技術的純熟,對於基因體規模的定序及應用生物資訊演算龐大基因體資料,越來越重視。

10月中,將於中山大學舉辦一個研討會,會中將會討論到"基因體學與轉錄體學之研究方法"、"演化基因體學"、"發育生物學"、"調控與癌症基因體學和"計算生物學""等議題。

歡迎相關研究領域的人士,一同與會,詳細資訊如下。 

 

Yourgene Health 發表在 痞客邦 留言(0) 人氣()

在基因體分析上,對於研究單一個基因,可以透過它本身的基因註解,例如Gene Ontology (GO) term (可參考之前的文章,”Gene Ontology簡介”);或是透過同源蛋白質的註解,來推測此基因的功能。然而,當研究的對象轉換為一群基因時,例如一群具有顯著表現量差異的基因時,則會得到太多基因註解的資料,造成分析困難。為了解決使問題,許多文獻透過Hypergeometric distribution,尋找具有顯著統計意義的基因註解。

首先,先簡介Hypergeometric test ,它描述了由有限個物件中抽出n個物件,成功抽出指定種類的物件的次數,並且抽出的物件不放回去。

20120928_pic1  
   

Yourgene Health 發表在 痞客邦 留言(0) 人氣()

Close

您尚未登入,將以訪客身份留言。亦可以上方服務帳號登入留言

請輸入暱稱 ( 最多顯示 6 個中文字元 )

請輸入標題 ( 最多顯示 9 個中文字元 )

請輸入內容 ( 最多 140 個中文字元 )

reload

請輸入左方認證碼:

看不懂,換張圖

請輸入驗證碼