作者:李覺白/有勁生物科技
資料探勘(Data mining)是透過自動(由演算法自行完成探勘,不需人工介入)或半自動(探勘時仍需依賴人為介入過往處理資料的經驗判斷)的方式,從資料集(dataset)當中探索發掘有意義的資訊或模式的電腦科學,這裡的「模式」指的是「可重複出現的現象」,因此,也可以把資料探勘想成是一門從資料中探索知識的學科。資料探勘也是一門跨領域的學科,其包含了機器學習(machine learning)、人工智能(Artificial Intelligence)、模式辨別(Pattern cognition)、統計學(statistics)及資料庫系統(database systems)等等不同範疇(圖一)。
圖一、資料探勘所包含的學科領域
資料探勘為一門結合多門學科領域的電腦科學,其目標是從資料中挖掘出有用的知識。(圖片來源:Frontender Corporation. (2018). Retrieved from http://frontender.com/blog/enablers/data-mining/)
國際上與資料探勘相關的最著名的學會是SIGKDD (Special Interest Group on Knowledge Discovery in Data)。該學會曾將從資料中探索知識的過程定義出五個步驟(如下圖二所示),包含挑選(selection)、預處理(preprocessing)、轉換(transformation)、資料探勘(data mining)、以及解釋與評估(interpretation evaluation)。
圖二、從資料轉化為知識的流程步驟
圖片來源:Kayaalp, F., et al. (2018, Apr 3). Düzce University Journal of Science & Technology. 6:455-468.
一、挑選(selection):一般而言是指從原始資料中挑出目標變數、以及與目標變數有關的相關變
數。經挑選過的資料會被簡化為目標資料集(target data),而相關變數則會被拿來預測目標
變數之用。
二、預處理(preprocessing):針對資料完整性去過濾不符合規則的資料,或者根據後續演算法對
資料的輸入需求去轉換資料的型態(譬如將連續型資料轉換為離散型資料)。
三、轉換(transformation):將資料的輸入格式轉換成符合後續資料探勘步驟的格式。
四、資料探勘(data mining):利用資料探勘演算法去發掘資料中會重複出現的行為,一旦可重複
出現的行為被找到,便可被拿來預測後續的行為。
五、解釋與評估(interpretation & evaluation):解釋資料探勘所發掘出來的重複行為,並將之
轉化為知識;評估該重複行為及利用該行為去進行預測的準確性。
資料探勘的實務應用非常地多。舉例來說,英國倫敦基金公司Derwent Capital Markets於2011年曾利用Twitter上發表的推文去統計大眾情緒以預測股市走勢,因此在當年全球市場低迷之時,還能維持1.85%的報酬率,和S&P500下跌了2.2%的指數相比,領先許多。另一個有名的例子是美國零售商Target利用公司內部所擁有的消費者購買資料進行分析,並由此去預測消費者的行為⼀例如預測孕婦在懷孕初、中期大概會想購買甚麼樣的物品;然後當消費者在網路上購買了某一項產品,系統就會自動提供更多其可能會感興趣的產品資訊。當時Target寄送了孕婦用品廣告到有可能購買的消費者家中,其中一位收到廣告的孩子父親非常生氣,特地跑到Target去理論,認為自己女兒不需要這種產品,為何賣場要寄這種「有辱名節」的嫌疑廣告;結果事後才發現女兒是真的懷孕了。這個有意思的例子就是「可以比爸爸更早知道女兒懷孕」的資料探勘實例。
隨著各類數據的快速增加,資料當中所蘊藏的資訊已經遠遠超過人類可直接歸納演繹的能力所及範圍。利用資料探勘來發掘資訊、知識的技術與方法,將來無論應用在何種領域,想來都會是非常有潛力的。
參考文獻
1. Kayaalp, F., et al. (2018, Apr 3). Open Source Data Mining Programs: A Case Study on R. Düzce University Journal of Science & Technology. 6:455-468. https://www.researchgate.net/publication/324171539_Open_Source_Data_Mining_Programs_A_Case_Study_on_R
2. Frontender Corporation. (2018). Data Mining: Production & operation data-based decisions. Retrieved from http://frontender.com/blog/enablers/data-mining/
留言列表