999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

邏輯斯特模型在社會(huì)學(xué)量化研究中的應(yīng)用

2011-10-18 10:31:54儲(chǔ)慶羅強(qiáng)強(qiáng)
統(tǒng)計(jì)與決策 2011年5期
關(guān)鍵詞:分類模型研究

儲(chǔ)慶,羅強(qiáng)強(qiáng)

(1.中央民族大學(xué)民族學(xué)與社會(huì)學(xué)學(xué)院,北京100081;2.安慶師范學(xué)院,安徽安慶246133)

邏輯斯特模型在社會(huì)學(xué)量化研究中的應(yīng)用

儲(chǔ)慶1,2,羅強(qiáng)強(qiáng)1

(1.中央民族大學(xué)民族學(xué)與社會(huì)學(xué)學(xué)院,北京100081;2.安慶師范學(xué)院,安徽安慶246133)

隨著對(duì)社會(huì)科學(xué)研究科學(xué)性要求的不斷提高,越來(lái)越多的學(xué)者開(kāi)始使用量化方法進(jìn)行社會(huì)科學(xué)研究。從發(fā)表于國(guó)內(nèi)學(xué)術(shù)雜志的一些量化研究文章來(lái)看,存在著諸多對(duì)量化研究的誤解和一些對(duì)統(tǒng)計(jì)模型使用和解釋上的偏差。文章以社會(huì)科學(xué)研究中最為常用模型—邏輯斯特模型為例,詳細(xì)解析了模型使用前提和參數(shù)意義,避免了科學(xué)方法的誤用。

科學(xué)方法;線性回歸;邏輯斯特;社會(huì)學(xué)

縱觀社會(huì)學(xué)學(xué)科重建30年來(lái)的發(fā)展,可以看出社會(huì)學(xué)研究中的科學(xué)性在不斷加強(qiáng),尤其是從近七、八年來(lái)發(fā)表在《中國(guó)社會(huì)科學(xué)》、《社會(huì)學(xué)研究》中的社會(huì)學(xué)論文更可以看出這一明顯的趨勢(shì)。雖然很多研究者在實(shí)際研究中使用的一些統(tǒng)計(jì)模型,但是仔細(xì)研讀這些論文,還是會(huì)發(fā)現(xiàn)很多作者對(duì)一些模型的前提假設(shè)并不甚了解,對(duì)一些模型參數(shù)的實(shí)質(zhì)意義與統(tǒng)計(jì)意義的區(qū)分比較模糊,這樣導(dǎo)致一些明顯有誤的解釋。本文將以在社會(huì)學(xué)量化研究中最為常用的模型之一邏輯斯特(Logistic)模型為例,系統(tǒng)分析社會(huì)學(xué)量化研究中模型使用的前提和參數(shù)的實(shí)際意義,避免科學(xué)方法的誤用。

1 線性回歸模型的回顧

1.1 線性回歸模型的基本假定

回歸分析是一種利用兩個(gè)變量或幾個(gè)變量之間的關(guān)系,從而一個(gè)變量(因變量、響應(yīng)變量、結(jié)果變量)能被另一個(gè)或幾個(gè)變量(自變量、解釋變量、預(yù)測(cè)變量)所預(yù)測(cè)。線性回歸就是用一條直線來(lái)擬合一個(gè)變量與另一個(gè)或幾個(gè)變量之間的關(guān)系。線性回歸分析也是對(duì)數(shù)據(jù)的一種簡(jiǎn)化。在線性回歸分析中,研究者利用自變量的一個(gè)線性函數(shù)來(lái)盡可能地預(yù)測(cè)因變量的一批觀測(cè)值。顯而易見(jiàn),這種預(yù)測(cè)不可能完全準(zhǔn)確。從形式上看,回歸分析將觀測(cè)值分解為兩個(gè)部分[1]:

因變量的實(shí)際觀測(cè)值=回歸線性方程所解釋的部分+隨機(jī)部分

回歸線性方程解釋的部分是研究者認(rèn)為自變量與因變量之間存在的結(jié)構(gòu)關(guān)系,隨機(jī)部分包括現(xiàn)有方程中未能包括的其它結(jié)構(gòu)關(guān)系、測(cè)量誤差和“噪音”。對(duì)于個(gè)觀測(cè)值有:

對(duì)于方程(1)來(lái)說(shuō),xiβ相當(dāng)于回歸線性方程所解釋的部分,亦即研究者假設(shè)的自變量與因變量的結(jié)構(gòu)關(guān)系,εi為隨機(jī)部分。方程(1)是對(duì)所有觀測(cè)值的完全擬合,而研究者的目的在于對(duì)復(fù)雜社會(huì)現(xiàn)象的簡(jiǎn)化,因此方程(1)只有理論意義,而無(wú)實(shí)際意義。

對(duì)于實(shí)際研究來(lái)說(shuō),不是預(yù)測(cè)具體的個(gè)觀測(cè)值,而是對(duì)一定條件下yi均值的預(yù)測(cè),即E(y|xi)。為了簡(jiǎn)化模型,必須對(duì)(1)式進(jìn)行一些必要限制。

(1)隨機(jī)部分的期望為零,即E(εi)=0;

(2)隨機(jī)部分的協(xié)方差為零,即Cov(εi,εj)=0,i≠j;

(3)隨機(jī)部分等方差,即Var(εi)=σ2;

(4)隨機(jī)部分服從正態(tài)分布,即εi~N(0,σ2)。

在上述四項(xiàng)假定的情況下,我們可以得到關(guān)于E(y|xi)數(shù)學(xué)方程式:

由于因變量Y是隨機(jī)變量εi的線性函數(shù),因此對(duì)εi的基本假定均適用于Y,只是Y的均值和方差與εi不一樣而已。

1.2 線性回歸模型的局限

線性回歸模型以其簡(jiǎn)潔性和解釋的方便性,在實(shí)際生產(chǎn)生活中有著廣泛的應(yīng)用。利用線性回歸分析,可以對(duì)數(shù)據(jù)進(jìn)行描述,對(duì)生產(chǎn)過(guò)程進(jìn)行控制和預(yù)測(cè)。在應(yīng)用線性回歸模型時(shí),研究者應(yīng)對(duì)線性回歸模型的假定條件保持足夠警醒。現(xiàn)實(shí)中的大多時(shí)候研究不能直接應(yīng)用線性回歸模型,需要對(duì)數(shù)據(jù)進(jìn)行一定的變換。實(shí)際研究中,線性回歸模型的局限性主要表現(xiàn)在兩個(gè)方面。

(1)模型的基本假定不足

線性回歸模型最為基本的前提條件就是因變量與自變量之間的關(guān)系是線性。這一點(diǎn)在社會(huì)科學(xué)中不一定滿足。比如工作年限對(duì)收入的影響就不是線性,剛工作時(shí)收入會(huì)隨著工作年限的增長(zhǎng)而增加,但到一定工作年限后收入會(huì)隨著年齡的增長(zhǎng)而下降,這是一個(gè)二次曲線關(guān)系。線性回歸模型還假定因變量(也即殘差)之間互相獨(dú)立,且服從同一分布。在實(shí)際社會(huì)現(xiàn)象中,這項(xiàng)假定中的一項(xiàng)或幾項(xiàng)常常不滿足。比如社會(huì)科學(xué)中最為常見(jiàn)的收入變量,顯而易見(jiàn)的是剛開(kāi)始參加工作的時(shí)候人們之間的收入差異比較小,工作一定年限后人們之間的收入差異會(huì)加大——收入作為因變量不符合等方差的假設(shè)。遇到類似不符合線性回歸模型基本假定的時(shí)候,處理的思路有二:一是采用其它模型擬合數(shù)據(jù);二是通過(guò)對(duì)數(shù)據(jù)進(jìn)行適當(dāng)?shù)霓D(zhuǎn)換,以使其符合線性回歸模型的基本假定。由于線性回歸模型具有的簡(jiǎn)潔性和解釋的便利性,在可能的情況下,研究者都是采用后一種處理策略。比如對(duì)第一種情況,可以在工作年限變量上加上二次項(xiàng),對(duì)于后一種情況,可以對(duì)收入取對(duì)數(shù)。如設(shè)收入為因變量y,工作年限為自變量x,若直接應(yīng)用線性回歸有:

顯然(3)式不符合線性回歸的基本假定,為使其符合線性假定,作如下變換有:

令y'=1ny,x1=x,x2=x2,則有:

式(5)即是標(biāo)準(zhǔn)的線性回歸方程。

(2)與社會(huì)現(xiàn)象的實(shí)際狀況不符

所謂與社會(huì)現(xiàn)象的實(shí)際狀況不符常常是與線性回歸模型的基本假定不符聯(lián)系在一起的。這種與社會(huì)現(xiàn)實(shí)狀況的不符,正是社會(huì)科學(xué)研究中廣泛采用Logistic模型的原因之一。由線性回歸方程可以看出,對(duì)因變量Y的取值沒(méi)有任何限制,即Y的取值區(qū)間在[-∞,+∞]。但是,研究者所關(guān)注的一些社會(huì)現(xiàn)象常常是“是”和“否”的問(wèn)題,即0和1變量。比如研究人們的婚姻意愿,研究者關(guān)心的結(jié)果只有兩個(gè)取值:結(jié)婚和不結(jié)婚。在此情況下,若強(qiáng)行應(yīng)用線性回歸模型,有可能使因變量取值超出[0,1]的取值區(qū)間,沒(méi)有實(shí)際意義。面對(duì)這種情況,同樣有兩種方式出來(lái):一是換模型,二是進(jìn)行數(shù)據(jù)轉(zhuǎn)換。社會(huì)學(xué)研究中,最為常用的是進(jìn)行邏輯斯特(Logit)轉(zhuǎn)換。

2 邏輯斯特(Logistic)回歸模型

Logit模型廣泛應(yīng)用于社會(huì)科學(xué)和生物科學(xué)中,在人口學(xué)和流行病學(xué)研究時(shí),對(duì)某一因素對(duì)某些結(jié)果的相對(duì)風(fēng)險(xiǎn)的評(píng)估中尤其有用。邏輯斯特轉(zhuǎn)換可以解釋為成功對(duì)失敗之發(fā)生比的對(duì)數(shù),下面將從最簡(jiǎn)單的二分類變量開(kāi)始對(duì)這一模型進(jìn)行探討。

2.1 二分類變量的邏輯斯特回歸模型

2.1.1 Logit轉(zhuǎn)換

在社會(huì)科學(xué)研究中,研究者面對(duì)的因變量很多時(shí)候是分類變量。最常見(jiàn)的分類變量就是二分類變量,又稱(0,1)變量。習(xí)慣上二分類變量的結(jié)果通常被描述為成功或失敗,比如一個(gè)高中畢業(yè)生能否上大學(xué):上大學(xué)了就是成功,賦值為1,未能上大學(xué)認(rèn)為是失敗,賦值為0。對(duì)于二分類因變量,研究者的目標(biāo)是以一組自變量為條件來(lái)估計(jì)或預(yù)測(cè)成功或失敗的概率。這樣問(wèn)題就轉(zhuǎn)化為,對(duì)概率p的回歸分析。

由于概率取值區(qū)間是[0,1],因此直接對(duì)概率進(jìn)行線性回歸肯定不合適。這就要求能通過(guò)某種方式,對(duì)概率p進(jìn)行轉(zhuǎn)換,使得轉(zhuǎn)換后的一個(gè)關(guān)于概率p的函數(shù)符合線性回歸的基本假定,從而進(jìn)行(廣義)線性回歸分析。Logitic回歸模型就是對(duì)概率p進(jìn)行Logit轉(zhuǎn)換,轉(zhuǎn)換的公式為:

公式(6)可以看作廣義線性模型框架內(nèi)的一個(gè)鏈接函數(shù),得到的Logti模型為:

對(duì)(7)式進(jìn)行變換,即可得到概率p:

經(jīng)過(guò)Logit轉(zhuǎn)換后,對(duì)于x和β的所有可能取值,概率p始終在區(qū)間[0,1]內(nèi)。隨著p接近0,Logit(p)趨近于-∞;隨著p接近1,Logit(p)趨近于+∞。使用一般化線性模型理論的術(shù)語(yǔ),則Logit鏈接使模型在未知參數(shù)上呈現(xiàn)線性形式。

2.1.2 比數(shù)、比數(shù)比和相對(duì)風(fēng)險(xiǎn)

從一般線性回歸模型的角度來(lái)思考,則得到事件的概率即8式后,似乎研究者的工作已經(jīng)結(jié)束。Logistic回歸模型之所以在社會(huì)科學(xué)得到非常廣泛的應(yīng)用,一個(gè)重要的原因在于logit(p)可以很容易的擴(kuò)展為用來(lái)描述某一群體相對(duì)于另一群體的成功的比數(shù)之比。

⑴比數(shù)

在社會(huì)科學(xué)研究中,研究的興趣可能并不主要在于事件發(fā)生的概率。比如還以前述上大學(xué)為例,研究的目的不在于一個(gè)人上大學(xué)的概率是多少,更令人感興趣的問(wèn)題時(shí)上大學(xué)與不上大學(xué)的兩組人之間比較。上大學(xué)與不上大學(xué)的概率比為pi/(1-pi),由1.6式可知,這恰好是logit轉(zhuǎn)換。比數(shù)定義為一個(gè)結(jié)果的概率對(duì)另一個(gè)結(jié)果的概率之比,公式為:

⑵比數(shù)比

線性回歸模型的目的是在于用自變量來(lái)預(yù)測(cè)因變臉。線性回歸模型得到極大的采用,就在于回歸系數(shù)解釋的簡(jiǎn)潔性和實(shí)質(zhì)性意義:在保持其它自變量不變的情況下,回歸系數(shù)代表某一自變量增加一個(gè)單位因變量的增加量。Logistic回歸模型中的系數(shù)是否也具有類似的意義呢?

假設(shè)要研究性別與個(gè)人是否上大學(xué)的關(guān)系,Logit模型如下:

p為上大學(xué)的概率,xsex為性別,男性=1,女性=0,βkxk為其它控制變量。

研究者關(guān)注的是男女兩性在上大學(xué)這一事件上是否有差異。分別令xsex=0和1,可以得到關(guān)于男性和女性上大學(xué)的對(duì)數(shù)比數(shù)的線性回歸方程:

為得到男性與女性上大學(xué)的差異,將(12)式減去(11)式,有:

對(duì)(13)式進(jìn)行變換:

ωm/ωf即為比數(shù)比,比數(shù)比具有與線性回歸系數(shù)類似的意義:在保持其它變量不變的情況下,男性上大學(xué)的比數(shù)是女性上大學(xué)的比數(shù)的expβ1倍。

⑶相對(duì)風(fēng)險(xiǎn)

比數(shù)比是與相對(duì)風(fēng)險(xiǎn)概念密切聯(lián)系在一起,從理解上來(lái)說(shuō),相對(duì)風(fēng)險(xiǎn)的概念要比比數(shù)比的概念更為直觀,更容易理解。風(fēng)險(xiǎn)是指在一定時(shí)間間隔內(nèi)(通常稱之為暴露期——explore)的概率。比如,假設(shè)100個(gè)人抽煙的人處在患肺癌的風(fēng)險(xiǎn)之中,觀察10年,發(fā)現(xiàn)有15人得了癌癥,則風(fēng)險(xiǎn)是15/ 100,或0.15。假定要研究抽煙與肺癌之間的關(guān)系,前述觀察的100人均分為兩組,結(jié)果發(fā)現(xiàn)控制組(戒煙)得肺癌的有5人,實(shí)驗(yàn)組(不戒煙)得肺癌的10人,則可以兩組患肺癌的相對(duì)風(fēng)險(xiǎn)為:

若以前述的比數(shù)比的概念構(gòu)造,則為:

事件發(fā)生的概率很小的時(shí)候,即r戒煙→0,r不戒煙→0,比數(shù)比將非常接近于相對(duì)風(fēng)險(xiǎn)。而在生物統(tǒng)計(jì)學(xué)和流行病學(xué)中的患病研究時(shí),患病率一般來(lái)說(shuō)都是非常小的,因此比數(shù)比的概念得到了廣泛的應(yīng)用。對(duì)于社會(huì)科學(xué)的研究者來(lái)說(shuō),弄清楚相對(duì)風(fēng)險(xiǎn)的概念,有益于加深對(duì)比數(shù)比涵義的理解。

2.2 多項(xiàng)邏輯斯特回歸模型

前面討論的只是二分類變量的Logit模型,從思路來(lái)說(shuō)很容易將之?dāng)U展到一般分類變量(分類類別≥3)的情況,需要注意是,當(dāng)涉及到3個(gè)或以上的分類時(shí),需要考慮這些類別之間是否包含序次信息。

2.2.1 多分類定類變量的Logit回歸模型

假設(shè)因變量分為三個(gè)類別,三個(gè)類別的概率分別記為:p1,p2,p3。與二分類變量略微不同的是,對(duì)于多分類變量,研究者需要先確定一個(gè)參照組。為不失一般性,這里制定第一類別為參照組。則可以建立多項(xiàng)邏輯斯特回歸模型:

系數(shù)的解釋與二分類變量類似,只是此事的比數(shù)比是相對(duì)于參照組的比數(shù)比。

2.2.2 多分類定序變量的Logit回歸模型

當(dāng)分類變量是定序變量時(shí),當(dāng)然也可以不考慮其包好的次序信息,直接應(yīng)用上述定類變量的Logit回歸模型。考慮變量自身的次序信息后,可以有三中稍微不同的處理方式。

⑴基線Logit模型

基線Logit模型實(shí)質(zhì)與定類的Logit模型一樣,只是在選擇參考類別時(shí),會(huì)考慮到序次信息,一般選擇最低或最高序次作為參照。

⑵相鄰Logit模型

相鄰Logit模型的基本想法是比較一對(duì)相鄰的類別,一般式可以表達(dá)為:

⑶累積Logit模型

累積Logit模型是用累積概率來(lái)計(jì)算比數(shù),以某一類別為分界點(diǎn),計(jì)算其上的概率與其下的概率的比率,一般表達(dá)式為:

3 小結(jié)

以上只是從便于理解和實(shí)際應(yīng)用的角度,對(duì)邏輯斯特模型在社會(huì)學(xué)量化研究中的分析。在分析的過(guò)程中,筆者的分析始終圍繞兩方面來(lái)進(jìn)行。第一,構(gòu)建模型的目的是什么,或者說(shuō)模型的適用范圍是什么?第二,這一模型解決問(wèn)題的基本思路是什么?至于模型背后復(fù)雜的數(shù)學(xué)推導(dǎo)過(guò)程,則不在本文論述之列。這兩點(diǎn)本質(zhì)上也是對(duì)利用模型進(jìn)行量化研究的研究者的根本要求。研究者只有明了模型前提條件和基本思路,才能在實(shí)際科學(xué)研究中應(yīng)用自如。否則,只能是照貓畫(huà)虎,得出一些令人啼笑皆非的所謂研究發(fā)現(xiàn)。

在終極的分析中,一切知識(shí)都是歷史;在抽象的意義下,一切的科學(xué)都是數(shù)學(xué);在理性的基礎(chǔ)上,所有的判斷都是統(tǒng)計(jì)學(xué)(C.R.勞,2004:2)。不僅是社會(huì)學(xué)的量化研究,可以說(shuō)所有的科學(xué)研究,在其最為本質(zhì)的意義上都是對(duì)復(fù)雜的社會(huì)現(xiàn)象進(jìn)行簡(jiǎn)化和抽象。因此,在構(gòu)建模型的時(shí)候,不能本末倒置:社會(huì)現(xiàn)象本身是“本”,模型是“末”。換句話說(shuō)就是,模型只是對(duì)現(xiàn)有觀測(cè)數(shù)據(jù)的一種擬合——即使模型對(duì)數(shù)據(jù)完全擬合,也可能該模型是對(duì)現(xiàn)象本身的歪曲。

[1][美]丹尼爾·A.鮑威斯(Daniel A.Powers),謝宇[M].分類數(shù)據(jù)分析的統(tǒng)計(jì)方法,2009.

[2]郭志剛主編.社會(huì)統(tǒng)計(jì)分析方法——SPSS軟件應(yīng)用[M].北京:中國(guó)人民大學(xué)出版社,1999.

[3]王濟(jì)川,郭志剛.Logistic回歸模型:方法與應(yīng)用[M].北京:高等教育出版社,2001.

[4][美]C.R.勞.統(tǒng)計(jì)與真理——怎樣運(yùn)用偶然性[M].北京:科學(xué)出版社,2004.

[5]王靜龍,梁小筠編著.定性數(shù)據(jù)統(tǒng)計(jì)分析[M].北京:中國(guó)統(tǒng)計(jì)出版社,2008.

[6]張堯庭等編著.定性資料的統(tǒng)計(jì)分析[M].廣西師范大學(xué)出版社,1991.

[7]Darrell Huff.How to Lie with Statistic[M].New York:W.W.Noton &Compand,1993.

[8]Kutner.AppliedLinearRegressionModels(4thEdition)[M].New York:McGraw-Hill Companies,2004.

(責(zé)任編輯/浩天)

C91

A

1002-6487(2011)05-0023-03

教育部人文社會(huì)科學(xué)研究資助項(xiàng)目(09YJC850006)

儲(chǔ)慶(1981-),男,安徽岳西人,博士生,研究方向:社會(huì)學(xué)理論與方法。

羅強(qiáng)強(qiáng)(1981-),男,寧夏西吉人,博士生,研究方向:環(huán)境社會(huì)學(xué)。

猜你喜歡
分類模型研究
一半模型
FMS與YBT相關(guān)性的實(shí)證研究
遼代千人邑研究述論
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
視錯(cuò)覺(jué)在平面設(shè)計(jì)中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統(tǒng)研究
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
主站蜘蛛池模板: 人妻无码中文字幕第一区| 另类专区亚洲| 天天干伊人| 色综合久久无码网| 午夜日b视频| 成AV人片一区二区三区久久| 97国产成人无码精品久久久| 2019年国产精品自拍不卡| 2020久久国产综合精品swag| 国产亚洲欧美日韩在线观看一区二区| 婷婷亚洲天堂| 国产精品永久在线| 精品无码国产一区二区三区AV| 国产v欧美v日韩v综合精品| 久久国语对白| 亚洲经典在线中文字幕| 亚洲欧美一级一级a| 国产成人1024精品| 中日无码在线观看| 日本91视频| 日韩小视频在线观看| 重口调教一区二区视频| 国产精品久久久精品三级| 男女性色大片免费网站| 国产色偷丝袜婷婷无码麻豆制服| 亚洲精品无码抽插日韩| av天堂最新版在线| 国产精鲁鲁网在线视频| 国内精品久久久久鸭| 在线看片国产| 亚洲人成网址| 国产精品亚欧美一区二区| 欧美激情视频在线观看一区| 男人天堂伊人网| 婷婷五月在线| 国产午夜福利在线小视频| 亚洲精选高清无码| 欧美激情综合一区二区| 日韩在线永久免费播放| 中文字幕在线播放不卡| 高清精品美女在线播放| 国产一级毛片网站| 热re99久久精品国99热| 亚洲日本一本dvd高清| 日韩毛片免费视频| 色婷婷成人| 亚洲免费人成影院| 久久鸭综合久久国产| 18黑白丝水手服自慰喷水网站| 国产极品美女在线播放 | 欧美日本在线播放| 欧美伦理一区| 欧美另类第一页| 国产午夜不卡| 精品国产美女福到在线直播| 国产精品吹潮在线观看中文| 国产网站免费观看| 国产特级毛片| 亚洲大尺码专区影院| 亚洲香蕉在线| 色婷婷电影网| 91精品国产91久久久久久三级| 亚洲色图另类| 日韩高清无码免费| 国产大片黄在线观看| 国产亚洲欧美在线人成aaaa| 亚洲综合片| 欧美区国产区| 国产一区二区免费播放| 亚洲不卡影院| 伊人久久婷婷五月综合97色| 精品久久香蕉国产线看观看gif | 久久综合色视频| 国产精品极品美女自在线| 亚洲丝袜中文字幕| a在线亚洲男人的天堂试看| 亚洲一级毛片| 国产成人精品三级| 欧美翘臀一区二区三区| 国内精品视频区在线2021| 97精品久久久大香线焦| 日韩精品免费一线在线观看|