作者:紀雅齡/有勁生物科技
美國癌症基因體圖譜計畫TCGA ( The Cancer Genome Atlas ) 是由 美國國家癌症研究所National Cancer Institute (NCI) 與 國家人類基因體研究所National Human Genome Research Institute (NHGRI) 從2005年開始共同合作的一個大型研究計畫。此計畫大規模地蒐集特定癌症病患的相關臨床記錄、腫瘤組織以及相對應正常組織,進行定序以及生物資訊分析,整合資料並公開定序資料與分析結果於官方網站供大家瀏覽及下載,利於世界各地的科學家、研究人員或是學術單位取得使用。其目的是希望流通知識、促進研究,並打造完整的癌症基因組資訊,助於癌症的預防、診斷與治療。
TCGA至今已經蒐集逾11,000個癌症病患以上的資料、33種不同的腫瘤型態、其中更包含10種較罕見的癌症、並以7種不同的資料型態紀錄,總資料量更超過2.5 petabytes。TCGA包含著豐富多元的資料,使用TCGA資料做研究、寫論文的人也越來越多。下面我們將以簡易圖文示範如何下載資料。
TCGA Data Download教學 :
1.請先連至TCGA首頁(http://cancergenome.nih.gov/)
2.跳至此頁面後,畫面右邊以圖表清楚列舉出各種癌症類型以及相關數據,左邊則是有兩個主要的按鈕可以點選,分別是Projects以及Data,下方則是列出目前資料庫的統計數據 。
3.若點選Project Button,此部分是TCGA幫我們分好類別的資料,目前共有39種可供選擇 。
可以看到左側有不同分類的checkbox,可供使用者點選自己需要的種類來過濾檔案。在checkbox旁邊還有Table / Graph兩種分頁可以選擇,若您點選Table,資料以表格式細列出各種相關資 訊,讓使用者ㄧ目瞭然。
若您點選”Graph”,是以圖表的方式來呈現各Project的資料數據與相對應的位置。
將滑鼠移至您有興趣的Project ID 或是 Primary Site上則會有更詳細的數據顯示。
4.點選Project ID之後會顯示出所有相關資訊,左上角Summary記錄著此Project的資訊,左下角以不同的實驗方式來做檔案的分類,右下角以資料類型做分類,右上角記錄著整個Project的統計數字。
假設我們現在要下載BRCA的Copy Number Variant為例,點選藍底數字即可。
5.點選後跳至此頁面,左邊一樣是讓您過濾資料的checkbox,上方是您下的過濾條件,中間則是符合條件的檔案資料,在表格的第一行可以看到很像購物車的圖式,若您需要此筆資料你可以直接點選此圖式,加到你的購物車內,第二行Access則是表示此檔案現在是否有開放下載,Open是可下載、Controlled則是目前暫不開放,第三行以後則是此筆資料的相關資訊。
當然也有能快速地將所有資料放入購物車的選項,點選標題列的購物車旁邊的dropdownlist,則會跑出兩個選項,將所有資料加入購物車以及將所有資料從購物中車移除。
點選全部加入購物車之後,它會顯示一個提示(綠色部分),告知您加入成功,而車子也會變成綠色底,右上角的購物車也會顯示您目前加入的檔案數。確認所有需要的檔案都加入購物車之後,點選右上角的購物車,即可開始下載檔案。
6.點選購物車之後,跳至此畫面,上方是所有檔案的統計數據,下方表列出所有檔案的資訊,右方中間有”Download” dropdownlist可以點選,拉開選項後,點選”Cart”它就會幫你把所有檔案壓縮成一個壓縮檔了!!!
P.S 若您不想要使用Project也可以點選”Data”來選擇自己需要的檔案
自行在左邊的checkbox點選您需要的資料類型。
以下載乳癌突變資料為例,在Cases的部分,選取Breas t
在Files的部分,在Data type選取Annotated Somatic Mutation,在Workflow type的部分,也可以選擇不同軟體操作出來的檔案。
將分頁切換至Files之後,下載的步驟就跟之前的步驟一樣,點選購物車就可以下載資料了。
最後,不曉得有沒有人發現一件有趣的事情,「TCGA」這個簡寫也有一個可愛的巧合,剛好就是核酸的代碼- Thymine , Cytosine , Guanine , Adenine。
留言列表