作者:張凱迪/有勁基因
黑客松,Hackathon是黑客/駭客 + 馬拉松(Hack + Marathon)的組合字,因為今日大數據以及開放資料庫當道,黑客松活動在全球各地蓬勃興起;許多擁有大量數據資料的公司單位經常都會舉辦黑客松活動,廣邀各方資料科學領域的高手來挑戰大數據資料海。黑客松這種群眾外包活動大致上是由數人組成團隊參加,各團隊聚在一起以馬拉松的方式進行一段長時間的 Hack 活動,在期間內通力合作腦力激盪來積極解決主辦方所提出的各個題目,優勝者可在活動最後贏得比賽獎金或是獲得創投邀請的機會。
舉例來說,痞客邦網站每年都會提供匿名文章關鍵字資訊、以及網站訪客瀏覽紀錄等商業資訊來邀請高手們研究推薦系統、網路輿論聲量、使用者行為分析等各類社交科學主題。而其他國內外知名公司,像是雅虎、微軟、NASA、趨勢科技、台新銀行、北醫大、中華電信等,也都有在舉辦這類群眾外包活動。
美國西雅圖也有一個非營利團隊Dream Challenges將這類群眾外包概念運用在生物醫學數據研究上,他們的這個黑客松計畫,名稱叫做Data2Model(D2M)。參加者們運用許多新興的資訊技術,去解決生物醫學研究上會遇到的一些諸如廣義或狹義的個人隱私問題、學術發表競爭、分析演算法擴展性等等實務問題,讓原本生物醫學研究社群因開放性及隱私道德而衍生的問題,可以取得平衡或獲得解決。在這群眾外包機制的設計裡,包含了以下幾種參與角色,一起來推動這個計畫的進行:
● 參加隊伍(Challenge participant):由資料科學家組隊去分析主辦方所提供的訓練組資料,再將設計建立出來的預測模型提交給主辦方。
● 主辦方(Challenge organizer):收集並整理生物醫學檢測的原始數據資料,並且負責管理與維護資料的安全。為了維護驗證資料的隱私,主辦方也必須主動在伺服器上驗證各個參加隊伍所提交的模型。
● 病人群組(Patient cohort):參與計畫的病人,簽署自願參與並提供資料。
圖一、Data2Model計畫流程
由資料科學家所組成的參加隊伍,運用主辦方提供的訓練組資料來建立模型,並以虛擬化技術進行程式包裝與模型提交。之後,主辦方會利用雲端化技術來維持活動的運作,並使用驗證資料夾(Validation Data Sets)來驗證結果,最後再將評分板(Scores)轉交給參加隊伍,以提供參加隊伍作為後續模型訓練調教的依據。(圖片來源:Ellrott, K.et al. Genome Biology. 2019 Sep; 20:195-203.)
Dream Challenges早先所舉辦的競賽活動中,分析資料曾涵蓋乳癌攝影的數位影像(Digital Mammography)、多發性骨髓瘤(Multiple myeloma)的基因體和轉錄子定序資料、診斷紀錄、惡性腫瘤異質細胞的定序資料、質譜儀的磷酸蛋白質組資料等等。在舉辦了數次黑客松活動之後,Dream challenges對該群眾外包模式提出如下的分析與趨勢,作為經驗心得給大眾參考。
參加者需要能反覆建立預測模型:傳統黑客松活動的運作模式,是由主辦方提供訓練和測試資料讓參加隊伍下載並建立預測模型,活動結束時參加隊伍則將所建立的模型繳交給主辦方。這個運作模式所建立出來的模型,有興趣的大眾並不容易取得及使用,特別是在黑客松活動結束後,如果又有新的數據資料進來,模型就無法再重新進行預測也無法被驗證。為了讓新數據也可以讓預測模型使用,就需要讓參加隊伍能持續進行分析;但是,這又會大大增加參加隊伍的負擔。因此,Dream Challenges 建議可以利用虛擬化分析模型的流程與軟體來改善這個問題。
不同資料提供者之間的資料整合與維護:主辦方在評分各參加隊伍所建立出來的模型時必須要有相同的基準,這就得靠相同的訓練資料以及驗證資料才辦得到。驗證資料一般都來自研究機構單位的非公開合作計畫數據,因此這些驗證資料通常都會有一些隱密性及安全性方面的問題。通常這些研究單位都會想要優先在學術期刊上發表他們數據資料的初步研究成果,這些資料只要被公開發表,就不能再當作黑客松活動的驗證資料了。此外,提供資料的不同研究單位之間彼此也可能有競爭關係,活動主辦方因此就更需要小心維護資料的隱密及安全性。Dream Challenges因此建議主辦方也需發展符合原始資料特性的虛擬資料組來當作訓練資料才好。
發展創新模型訓練資料組合的策略:絕大部分提供給參加隊伍的模型訓練資料都會含有個人資訊,包括生物特性,例如:身高、體重、性別之類。主辦方基於保護隱私權的需要,也得想辦法研發能產生保有原始生物特性的虛擬訓練資料的策略。若遇到資料提供者絕對不允許透露資料給參加隊伍時,參加隊伍便可能需要利用虛擬容器的方式,將模型訓練程式轉交給主辦方,由主辦方來實際執行模型訓練。此外,為了避免程式輸出結果時把個人資訊帶出來,主辦方也得先檢視這些模型所建立的輸出紀錄,之後才能再交回給參加隊伍,進行後續的最佳化作業。
建立與參加隊伍之間完善的資訊交換管道:想舉辦一個大眾都可以參與的黑客松活動,準備工作非常複雜,內容包括:提供詳細的技術文件說明、接收參加隊伍提交的成果、確認提交預測模型的相容性等等,流程中同時也會涉及許多軟體開發、演算法開發、基礎研究等作業。在執行這些活動程序的期間,也常會遇到訓練資料或是程式輸出格式出現缺陷的情況,這時就會需要請參加隊伍重新開始他們的研發工作。另外,在回報分析程式的錯誤結果時,同樣也容易在輸出除錯訊息時,不小心洩漏出資料所有人的個資;對此,Dream Challenges建議在回傳除錯訊息時,使用「模擬資料 」或是「開放性資料」來除錯,才不會洩漏個人資訊。
隨著計算分析生態系統的快速成長,類似Dream Challenges這樣的活動將會越來越多,想要成功舉辦一個兼具彈性與公平性的比賽,就需要在隱私權、資料保密性、以及競賽公平性之間找到平衡點。這類的比賽,藉由引進新興科技與技術來促成以演算法為中心的生物醫學研究計畫,也讓更多的生醫領域資料及各研究之間得以有更廣泛與深入的相互交流。
參考文獻
1. Ellrott, K.et al. Reproducible biomedical benchmarking in the cloud: lessons from crowd-sourced data challenges. Genome Biology. 2019 Sep; 20:195-203. https://doi.org/10.1186/s13059-019-1794-0
留言列表