作者:張凱迪/有勁生物科技
隨著NGS在醫療檢測上的應用越來越廣泛,大量例行性的數據分析讓許多定序中心與醫療檢測等單位面臨資料分析承載力與儲存資源不足的窘境。本文以美國食品藥物管理局(FDA)為其資訊運算設備所設計的分析環境(High-Performance Integrated Virtual Environment; HIVE)為範例 1 ,來作為成立NGS大型計畫時需要考量哪些因素的參考。整體來說,一個靈活彈性化的計算環境必須能夠解決以下幾項問題。
資料儲存
一般而言,各檢體樣本在初步分析之後,會先藉由比對諸如BLAST或是RefSeq等各應用資料庫來進行資料的過濾與註解。由於這些第三方資料庫本身都會持續進行更新,因此我們所設計的系統也得同步因應去更新不同版本的資料庫,但這就勢必會涉及後續驗證及確保各項資料完整度的問題。再來,就樣品分析資料的保存來說,這些分析數據的檔案體積大多都和原始定序檔案一樣大,長時間累積下來相當可觀,所以高容量具容錯空間的儲存系統是必備的。另外,一般分析資料的分析歷程紀錄也不能省略,將執行時的分析環境記錄下來,資料才具有可追蹤性。
權限設計
既是共用的計算資源環境,就表示一定有不同使用者同時使用這些運算資源的時候;有些使用者甚至還是一個以上團隊所組成的合作專案,所以系統便需要有完整的機制來規範使用者權限—誰可以使用哪一些資料庫與硬體資源、哪些分析程式、哪些樣品資料等等,特別是涉及個人隱私的資訊內容,更需要備有嚴格的存取政策。
分析計算
NGS的資料屬於大容量資料,常需要加入平行運算的設計來解決運算時間過長的問題。但是平行運算的實作,門檻高且耗時,容易出現分析結果整併不齊全的問題;因此在評估分析流程的設計時,我們首先會考慮在分析流程中最耗時的階段優先採用最可行的方案來縮短時程。另外,為了讓各步驟的分析活動皆具有可追蹤性,負責串接不同程式的分析流程就需要設計可紀錄完整記錄檔、流程版本、參數等資訊的功能。
舉例而言,FDA的HIVE環境中,除了本身有提供工具程式來協助管理,也有提供一些運作策略來確保分析流程的一致性與追蹤性。為了在分析最初始的資料匯入階段就確認資料的完整性,匯入資料之時即應確認資料皆有被正常傳送出來。此外各種資料還要依其所屬類型分別就格式、資料ID、QC (品質管控)等進行確認。一切就緒之後便可將資料存入分散式檔案系統(詳見圖一)。2
圖一、美國食品藥物管理局(FDA)的分析平台設計範例
美國食品藥物管理局的HIVE分析平台在資料匯入階段,藉由統一儲存入口存入資料,並由分析系統進行前期資料完整度、格式、QC等等的確認。最後再進入分散式儲存系統。 (圖片來源:Simonyan, V. et al. Database. 2016:1-16.)
除了資料完整性須確認之外,管理存入大型儲存系統中經年累月增加的NGS資料更是項大挑戰。這時,可使用物件儲存將使用者所定義的屬性以及程式快取的屬性都存入一個通用的資料庫系統,來解決這些大量定序資料的搜尋與追蹤需求。而使用關連式資料庫搭配軟體定義則可以將不同資料類型的屬性統一採固定格式儲存起來。此外,許多受檢資料皆屬個資隱私,我們可以在上述這個物件儲存的軟體定義儲存基礎上設計更細緻的權限機制,針對不同的使用者作很細部的存取限制。
隨著NGS的應用越來越廣泛,其分析計算也變得非常多樣化。分析計算的基礎架構可約略區分為以下五種類型:
一、分析服務。這裡會包裝成一組可應用的演算法組合,可能是一個簡單的QC(品質管控)分析、alignment(序列比對)、或是其他比較複雜的分析。
二、分析請求。此為使用者所提出的分析需求,其中會包含資料分析、選項設定以及某些特定的分析服務。每一個分析請求都會被賦予一個「唯一編碼」,方便在這個環境中追蹤該請求的處理狀態。
三、分析資料。該資料類型是已為分析服務所知的類型,輸入的資料亦符合分析服務所預期。
四、資源。相較於其他類型,這裡是固定、不會被更新的資料。一般指的是分析的映像檔、靜態資料或是分析的組態檔。
五、工作任務。為工作管理員的執行程序。這裡主要是指挑出一個分析請求作為任務,並會將執行後所產出的資料再回存到資料系統中。
NGS資料分析管理平台在NGS逐漸普及的今日顯然是越來越受重視,尤其當定序中心與醫療檢測單位面臨大規模分析的挑戰時,更是如此。因此,該如何建置或維護靈活有彈性並兼具標準化的運算儲存環境,是大數據管理必要的學習方向。
參考文獻
1.Simonyan, V. and Mazumder, R. High-Performance Integrated Virtual Environment (HIVE) Tools and Applications for Big Data Analysis. Genes (Basel). 2014 Sep 30; 5(4):957-981. http://doi.org/10.3390/genes5040957
2. Simonyan, V. et al. (2016 Jan 1) High-performance integrated virtual environment (HIVE): a robust infrastructure for next-generation sequence data analysis. Database: The Journal of Biological Databases and Curation. http://doi.org/10.1093/database/baw022
留言列表