作者:謝維馨/有勁生物科技
‧什麼是邏輯斯迴歸 (Logistic Regression)
迴歸分析(Regression Analysis)是一種統計學上的分析方法,主要是用來了解兩個或多個變數間的相關程度,並建立模型來預測未知的樣品。當應變數(Dependent Variable)為連續型變數時,通常會使用線性迴歸(Linear Regression)來進行分析;若應變數為類別變數時(特別是兩分類的變數),則會使用邏輯斯迴歸來做分析。
和邏輯斯迴歸密不可分的概念就是「勝算(odds )」,勝算是指某一件事情成功機率和失敗機率的比值。而將勝算取對數(log)後所得到的方程式就是邏輯斯迴歸方程式。
‧如何使用邏輯斯迴歸
邏輯斯迴歸的使用工具有很多,以下我們使用R語言的glm函數來對著名的生物資訊資料集 - 鳶尾花(iris)進行二元邏輯斯迴歸分析。
鳶尾花(iris)資料集,取自UCI (University of California, Irvine)的機械學習資料庫,共有150筆資料、5個欄位,且沒有遺失值。
我們先將資料分成setosa和non-setosa兩類,並從150筆資料中隨機抽取百分之八十的資料當作訓練資料(training data),剩餘百分之二十的資料當作測試資料(testing data),並依進行建模預測。
(1) 建模:
我們使用R語言的內建函數glm搭配training data來進行建模,並得到以下建模資訊:
(2) 預測
得到模型之後,我們可以將testing data丟進建好的模型做測試,便可以得到預測的結果:
參考資料:
Wikipedia - Logistic Regression:https://en.wikipedia.org/wiki/Logistic_regression
R軟體:應用統計方法(修訂版) - 陳景祥 著
留言列表