‧什麼是邏輯斯迴歸 (Logistic Regression)

迴歸分析(Regression Analysis)是一種統計學上的分析方法,主要是用來了解兩個或多個變數間的相關程度,並建立模型來預測未知的樣品。當應變數(Dependent Variable)為連續型變數時,通常會使用線性迴歸(Linear Regression)來進行分析;若應變數為類別變數時(特別是兩分類的變數),則會使用邏輯斯迴歸來做分析。

和邏輯斯迴歸密不可分的概念就是「勝算(odds )」,勝算是指某一件事情成功機率和失敗機率的比值。而將勝算取對數(log)後所得到的方程式就是邏輯斯迴歸方程式。

0927-1.png

‧如何使用邏輯斯迴歸

邏輯斯迴歸的使用工具有很多,以下我們使用R語言的glm函數來對著名的生物資訊資料集 - 鳶尾花(iris)進行二元邏輯斯迴歸分析。

鳶尾花(iris)資料集,取自UCI (University of California, Irvine)機械學習資料庫,共有150筆資料、5個欄位,且沒有遺失值。

我們先將資料分成setosanon-setosa兩類,並從150筆資料中隨機抽取百分之八十的資料當作訓練資料(training data),剩餘百分之二十的資料當作測試資料(testing data),並依進行建模預測。

0927-2.png

(1) 建模:

我們使用R語言的內建函數glm搭配training data來進行建模,並得到以下建模資訊:

0927-3.png

(2) 預測

得到模型之後,我們可以將testing data丟進建好的模型做測試,便可以得到預測的結果:

0927-4.png

參考資料:

Wikipedia - Logistic Regression:https://en.wikipedia.org/wiki/Logistic_regression

R軟體:應用統計方法(修訂版) - 陳景祥 著

YourGene 發表在 痞客邦 PIXNET 留言(0) 人氣()