作者:張家豪/有勁基因

 

  隨著次世代定序技術的普及,定序價格下降讓愈來愈多學者得以利用這個技術平台進行定序。但是,定序完的資料該如何作分析呢?至於R語言,又和次世代定序有什麼關係呢?

 

  首先,我們可以從TIOBE公司提供的R語言使用率統計圖(詳見下圖一)來看看R語言應用的發展。R語言在1993年開發出來時,原本只是為了統計分析之用,所以當時使用率成長得很緩慢;即使到了2010年1月,使用率也才只有0.1%。不過,這個趨勢從2011年開始便往上攀升至0.54%,直到2014年都還一直維持著0.5%上下的使用率;關於這點,個人分析認為可能和下面兩個原因有關:(1)2011年2月28日,RStudio1這個為R語言所設計的免費整合軟體開發上市,圖形化的操作介面讓初學者更容易入門學習。(2)大數據概念與次世代定序技術的興起,R語言強大的視覺化資料處理能力,正好適合將定序資料應用在統計分析、圖形繪製(如:聚類熱圖)等處理功能上。

 

  2014年10月,R語言的使用率竄升至1.54%,直到今日,使用率大多都能保持在1%以上(使用率排名穩穩地位於20名內)。雖然筆者並不確定R語言的使用率再度竄升的真正原因,但個人推斷部分原因可能和Bioconductor2(請見備註一)大量開發出能應用於次世代定序分析的R語言套件有關。以下幾個例子是2010年之後陸續開發出來、經常被生物資訊人員應用在定序分析的R語言套件。

1、DESeq2&edgeR3,4:提供RNA-seq差異化表現的基因分析

2、clusterProfiler5:提供基因的功能性分析

3、TCGAbiolinks6:TCGA資料庫檔案下載

4、DiffBind&csaw7,8:提供ChIP-seq差異結合分析

 

圖一、TIOBE公司提供的R語言使用率統計圖

0506_1.png

 2007年至2020年4月期間的R程式語言使用率統計圖。(圖片來源:TIOBE. (2020, Apr). TIOBE Index for R. Retrieved from https://www.tiobe.com/tiobe-index/r/)

 

 

  現今有愈來愈多的定序資料分析需要使用到R語言專屬套件,因此想從事生物資訊分析的研究者,不太可能單單只靠練就時下熱門的Python語言就想完成所有分析;實際上往往還是得花些時間去學習R語言,才能運用這些套件作更全面性的定序分析。既然R語言在生物資訊分析領域已經佔有一席之地,想要做好完整的定序分析,當然是兩種語言一起來才能得心應手啊!

 

【備註一】Bioconductor是Fred Hutchinson癌症研究中心發起的計畫;這個計畫是以R語言為基礎,開發套件去進行各種基因體資料的分析。計畫前期的套件大部分都是用來分析基因微陣列資料之用。

 

 

參考資料

1. RStudio Team. (2011, Feb 8). RStudio, new open-source IDE for R [Web log post]. Retrieved from https://blog.rstudio.com/2011/02/28/rstudio-new-open-source-ide-for-r/

2. Bioconductor. (2020). Open source software for Bioinformatics. Retrieved from https://www.bioconductor.org/

3. Love, M.I., Huber, W., and Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Biol. 2014 Dec;15(12):550-570. Retrieved from http://doi.org/10.1186/s13059-014-0550-8

4. Robinson, M.D., McCarthy, D.J., and Smyth, G.K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 2010 Jan;26(1):139-140.

Retrieved from http://doi.org/10.1093/bioinformatics/btp616

5. Yu, G., Wang, L., Han, Y., and He, Q. clusterProfiler: an R package for comparing biological themes among gene clusters. OMICS. 2012 May;16(5):284-287. Retrieved from http://doi.org/10.1089/omi.2011.0118

6. Colaprico, A. et al. TCGAbiolinks: an R/Bioconductor package for integrative analysis of TCGA data. Nucleic Acids Res. 2016 May;44(8):e71-e81. Retrieved from http://doi.org/10.1093/nar/gkv1507.

7. Ross-Innes, C.S. et al. Differential oestrogen receptor binding is associated with clinical outcome in breast cancer. Nature. 2012 Jan;481(7381):389-393. Retrieved from https://doi.org/10.1038/nature10730

8. Lun, A.T.L., and Smyth, G.K. De novo detection of differentially bound regions for ChIP-seq data using peaks and windows: controlling error rates correctly. Nucleic Acids Res. 2014 Jul;42(11):e95-e105. Retrieved from https://doi.org/10.1093/nar/gku351

9. TIOBE. (2020, Apr). TIOBE Index for R. Retrieved from https://www.tiobe.com/tiobe-index/r/

 

 

 

thumbnail_官網用CC創用_ND_YH.png

arrow
arrow
    創作者介紹
    創作者 TIGS 的頭像
    TIGS

    有勁的基因資訊

    TIGS 發表在 痞客邦 留言(0) 人氣()