姜阿麗
(云南財(cái)經(jīng)大學(xué) 云南 昆明 650000)
Logistic回歸模型原理介紹及實(shí)例分析
姜阿麗
(云南財(cái)經(jīng)大學(xué) 云南 昆明 650000)
我們知道,在日常處理的回歸模型中,大多數(shù)都屬于線性回歸模型,然而有一些研究的問題中,其因變量是二分類變量,此時(shí)我們則需要用到logistic模型,本篇文章我們主要來介紹Logistic模型的原理以及其優(yōu)缺點(diǎn),并研究其適用的范圍,然后我們利用高校就業(yè)去向的例子來加深對(duì)模型的理解,并根據(jù)模型的結(jié)果進(jìn)行分析。
logistic模型;實(shí)例分析
(一)Logistic回歸模型原理
在我們的日常處理的回歸模型中,大多數(shù)都屬于線性回歸模型,他們可以用線性表達(dá)式進(jìn)行表達(dá),y=βTx+b,但是,有些時(shí)候,我們接觸的問題,它們的因變量為二分類變量,即因變量是非連續(xù)變量,這個(gè)時(shí)候我們就需要對(duì)模型進(jìn)行一些簡單的調(diào)整與變換,此時(shí)就要引出另一個(gè)概念:logistic回歸模型。
logistic回歸是通過函數(shù)Ln將因變量y來對(duì)應(yīng)一個(gè)概率p,然后將其結(jié)果間接轉(zhuǎn)化成一個(gè)連續(xù)變量。比如我們研究一些現(xiàn)象,其發(fā)生的概率為p,很明顯它為概率值,有[0,1]的取值范圍,我們就會(huì)很難去用線性模型描述概率p與自變量的關(guān)系,因此我們需要利用Logit變換來進(jìn)行處理,我們通常的把出現(xiàn)某種結(jié)果的概率與不出現(xiàn)的概率之比作為比值,然后再把取值進(jìn)行取對(duì)數(shù)處理,變換如下:
其中當(dāng)p從0→1時(shí),Logit(p)從-∞→+∞,另外從函數(shù)的變形可得如下等價(jià)的公式:

此時(shí)我們稱滿足上面條件的回歸方程為Logistic線性回歸。
(二)Logistic模型優(yōu)缺點(diǎn)
對(duì)于logistic模型,我們也說到它可以解決一些普通線性回歸模型解決不了的問題,存在一定的優(yōu)點(diǎn),例如:模型不需要樣本數(shù)據(jù)作嚴(yán)格的假設(shè)條件并且可以對(duì)每個(gè)變量進(jìn)行顯著性檢驗(yàn),另外,logistic模型對(duì)于用來判別二分類變量問題有良好的效果,且使用該模型還可以顯著降低犯第一類錯(cuò)誤的概率。但是
Logistic模型也有一定的缺點(diǎn),例如:它在采用極大似然法進(jìn)行參數(shù)估計(jì)時(shí)要求樣本的數(shù)量要足夠,并且對(duì)中間區(qū)域判別敏感性較強(qiáng),導(dǎo)致判別結(jié)果不穩(wěn)定。而且當(dāng)概率接近1或者0的時(shí)候還會(huì)出現(xiàn)低估的現(xiàn)象,因此我們?nèi)匀恍枰^續(xù)研究新的方法來對(duì)模型進(jìn)行改進(jìn)。
我們對(duì)本科畢業(yè)生的去向做了一個(gè)調(diào)查,調(diào)查了40個(gè)學(xué)生,分析影響畢業(yè)去向的相關(guān)因素,我們自變量主要四個(gè),分別為x1為專業(yè)課成績,x2為英語成績,x3為性別,x4為月生活費(fèi)(單位:元),其中性別取值“1”=男生,“0”=女生。因變量為畢業(yè)去向,取值分別為0和1,“1”=工作,“0”=繼續(xù)深造,
對(duì)于這種因變量為二分類變量的情況,我們選擇用logistic回歸來進(jìn)行擬合,分析影響畢業(yè)去向的因素。
我們利用R3.3.3軟件來建立logistic模型,因?yàn)槲覀兊谋唤忉屪兞繛槎诸愖兞浚虼宋覀冃枰紫葘⑵滢D(zhuǎn)化為因子,然后模型1中我們加入所有的解釋變量來檢驗(yàn)各解釋變量的顯著性,回歸系數(shù)的顯著性檢驗(yàn)我們選用的統(tǒng)計(jì)量為Z統(tǒng)計(jì)量,結(jié)果顯示:變量x1、x2、x3、x4檢驗(yàn)的p值分別為0.01105、0.10839、0.95211、0.04368,因此可以看出在顯著性水平α=0.05的水平下,解釋變量x2、x3檢驗(yàn)的結(jié)果是不顯著的,因此我們選擇將其剔除,重新對(duì)模型進(jìn)行擬合,擬合結(jié)果如下表所示:

表1 回歸系數(shù)
我們從表1可以看出,刪除解釋變量x2、x3之后,解釋變量x1、x4檢驗(yàn)的p值分別為0.01062、0.12592,在顯著性水平α=0.05的條件下,勉強(qiáng)通過檢驗(yàn),我們又計(jì)算了比較全模型與剔除變量x2、x3后的模型的AIC值,分別為48.444、46.448,發(fā)現(xiàn),剔除變量之后的模型較優(yōu),下面我們根據(jù)擬合結(jié)果寫出模型表達(dá)式:
所謂模型過散布,它是指觀測到的響應(yīng)變量的方差大于期望的二項(xiàng)分布的方差。過散布將會(huì)導(dǎo)致奇異的標(biāo)準(zhǔn)誤檢驗(yàn)以及不精準(zhǔn)的顯著性檢驗(yàn),檢驗(yàn)過散布的一種方法是比較二項(xiàng)分布模型的殘差偏差與殘差自由度,即:
我們擬合出的模型進(jìn)行過散布檢驗(yàn),發(fā)現(xiàn)在指定參數(shù)為family和binomial時(shí),我們可以看到默認(rèn)的散布系數(shù)φ為1,檢驗(yàn)結(jié)果看出其φ的估計(jì)值明顯小于1,因此我們能判定該模型沒有出現(xiàn)過散布的情況。
因此對(duì)于被解釋變量為二分類變量,我們不能用到傳統(tǒng)的回歸模型解決時(shí),我們可以選擇logistic回歸模型進(jìn)行擬合,并且使用logistic模型預(yù)測還能夠降低犯第一類錯(cuò)誤的概率。我們利用logistic模型進(jìn)行實(shí)例分析結(jié)果可以看出,影響畢業(yè)去向的主要因素為專業(yè)課成績以及每月生活費(fèi)的數(shù)量,且一個(gè)人專業(yè)課成績每增加一分,則就業(yè)與繼續(xù)深造的比值變?yōu)樵瓉淼膃xp(-0.106222)倍,約為0.899倍,說明了專業(yè)課成績?cè)胶玫娜司蜆I(yè)的可能性越小,繼續(xù)深造的可能性越大。另外一個(gè)人每月的生活費(fèi)每增加一分,則就業(yè)與繼續(xù)深造的比值變?yōu)樵瓉淼膃xp(-0.003988)倍,約為0.996倍,說明了每月生活費(fèi)越多的人就業(yè)的可能性越小,繼續(xù)深造的可能性越大。
[1]劉小秦,林元,楊冬華,晁麗麗,李娟生.兩水平logistic回歸模型在高血壓患病影響因素分析中的應(yīng)用[J].中國衛(wèi)生統(tǒng)計(jì),2013,673-675.
[2]賈鵬芳.高職會(huì)計(jì)專業(yè)就業(yè)影響因素分析——基于Logistic回歸的研究[J].價(jià)值工程,2015,228-230.
姜阿麗(1996-),女,漢族,安徽阜陽人,碩士研究生,云南財(cái)經(jīng)大學(xué),統(tǒng)計(jì)與數(shù)學(xué)學(xué)院學(xué)院,應(yīng)用統(tǒng)計(jì)專業(yè)。