作者:謝維馨/有勁生物科技

 

什麼是決策樹 (Decision Tree)

決策樹(Decision Tree)是常見的資料探勘(Data Mining)技術,主要是使用樹狀分枝的概念來作為決策模式,是一種強大且廣受歡迎的分析方法。

 

大多數的決策樹可以運用在分類預測上。當其用來預測的應變數類別型態(例如:生或死、男或女)時,該決策樹便稱為分類樹(Classification Tree)。有些決策樹演算法也可以像迴歸分析一樣,預測的結果呈現的是一個實數(例如:身高、體重),這種決策樹就稱為迴歸樹(Regression Tree)。

 

另有一種決策樹,則結合了分類樹與迴歸樹的特性,其預測結果不僅可以呈現類別型態,也可以是數值型的資料,該決策樹則稱為分類迴歸樹(Classification and Regression Tree,簡稱CART)。分類迴歸樹是由美國統計學家Brieman於1984年所提出,此方法的特色是在進行分類時每次只產生兩個分枝來歸納與分析資料集,且不限制變數的類型;由於分析上有較大的彈性,因此成為最受歡迎的決策樹分析方法之一。

 

如何使用決策樹

以下例子中,我們使用R語言搭配鳶尾花(iris)資料集進行決策樹分析。鳶尾花(iris)資料集取自UCI (University of California, Irvine)的機械學習資料庫,共有150筆資料、5個欄位,且沒有遺失值。

 

我們先從150筆資料中隨機抽取百分之八十的資料當作訓練資料(training data),剩餘百分之二十的資料當作測試資料(testing data),並依進行分類預測:

 

首先,我們利用R語言中的軟體─rpart package,搭配上述取自鳶尾花資料集的training data進行決策樹分析的建模,得到以下決策樹(見下圖):

 

圖一、決策樹─取自鳶尾花資料集3的training data

180301_1.png

圖片製作:謝維馨/有勁生物科技

 

 

從上圖決策樹可以看出,以花瓣長度2.45公分為分類標準時,可以明確的將長度小於2.45公分的setosa品系區分出來。若再以花瓣寬度1.65公分為分類標準時,則可以進一步區分出versicolor和virginica兩個品系出來。

 

接著,我們再利用上面建好的決策樹來分類testing data,得到以下分類結果:

 

表一、檢測鳶尾花資料3的決策樹分類結果

180301_2.png

圖表製作:謝維馨/有勁生物科技

 

 

決策樹分類的優缺點

決策樹在資料探勘領域中,是非常受歡迎的一種分類方法,原因是其可用簡單規則將欲分析的資料進行分類,而且不需要經過龐大的運算,更重要的是無論是類別型資料或連續型資料,都可以使用決策樹來分析。但是,對於有順序的資料,決策樹需要做很多預先處理的工作,且當要分析的類別太多時,錯誤率可能會明顯升高。

 

因此,在決定使用決策樹之前,需要先針對自身資料進行評估,才能讓選用的分析方法達到最高的效益。

 

致謝:感謝UCI Machine Learning Repository提供鳶尾花資料3

 

參考資料

  1. 1. Wikipedia─Decision tree (https://en.wikipedia.org/wiki/Decision_tree)
  2. 2. Wikipedia─Decision tree learning (https://en.wikipedia.org/wiki/Decision_tree_learning)
  3. 3. Lichman, M. (2013). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.
  4.  
  5.  
  6. 官網用CC創用_SA.png

arrow
arrow
    創作者介紹
    創作者 TIGS 的頭像
    TIGS

    有勁的基因資訊

    TIGS 發表在 痞客邦 留言(0) 人氣()