[摘 要] 本文通過兩個(gè)例子對(duì)線性回歸的運(yùn)用進(jìn)行了擴(kuò)充。
[關(guān)鍵詞] 相關(guān)分析;回歸分析
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2010 . 06 . 032
[中圖分類號(hào)]F224.31 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1673 - 0194(2010)06 - 0078 - 03
[例1]表1是1990-2006年間我國的人均家庭收入、人口數(shù)和社會(huì)商品零售總額的資料(2、3、4欄)。理論上,人均家庭收入和人口數(shù)對(duì)社會(huì)商品零售總額呈線性影響。從散點(diǎn)圖觀察,社會(huì)商品零售總額與人均家庭收入、人口數(shù)的線性關(guān)系明顯。經(jīng)計(jì)算,社會(huì)商品零售總額與人均家庭收入的(線性)相關(guān)系數(shù)是0.999,與人口數(shù)的(線性)相關(guān)系數(shù)是0.963。可見社會(huì)商品零售總額與人均家庭收入及人口數(shù)的(線性)相關(guān)程度非常高,適合構(gòu)造線性模型。用Excel完成的回歸分析結(jié)果見表2。

回歸模型是y=21 870.07+7.035 2x1-0.218 5x2,判定系數(shù)是0.998 3,經(jīng)計(jì)算回歸估計(jì)標(biāo)準(zhǔn)誤差是895.988 5萬元,占社會(huì)商品零售總額平均數(shù)35 279.59萬元的2.54%,說明回歸模型的質(zhì)量非常高。總體線性檢驗(yàn)(F=4 192.5)合格,但在單變量回歸系數(shù)的t檢驗(yàn)中,x2(人口數(shù))變量的p值為0.2,未能通過線性檢驗(yàn)。且x2參數(shù)的估計(jì)值是負(fù)數(shù),與實(shí)際情況相反(人口增加,社會(huì)商品零售總額理應(yīng)增加),可見盡管線性回歸質(zhì)量很高,但沒有實(shí)際應(yīng)用意義。
原因在哪里呢?筆者對(duì)三大基本假設(shè)作了逐一檢查。①從殘差圖(圖1)來看,隨機(jī)性較明顯,基本排除異方差的存在。②經(jīng)計(jì)算,模型的自相關(guān)系數(shù)為0.61,說明模型的自相關(guān)性不高,另從et,et-1散點(diǎn)圖(圖2)來看自相關(guān)性也不存在。③盡管人均家庭收入與人口數(shù)相關(guān)系數(shù)很大(0.967),但理論上人均家庭收入與人口數(shù)是不會(huì)有關(guān)系的,因而可以排除多重共線性的問題。可以肯定模型沒有違背基本假設(shè)。
根據(jù)以上分析,問題不出在數(shù)據(jù)本身,那肯定是出在模型上。社會(huì)商品零售總額雖然與人均家庭收入、人口數(shù)都存在線性相關(guān),但社會(huì)商品零售總額更與家庭總收入(人均家庭收入和人口數(shù)的乘積,表1的第5欄)存在線性相關(guān)。從散點(diǎn)圖觀察,兩者相關(guān)關(guān)系明顯,且相關(guān)系數(shù)達(dá)到0.999 5。因此,筆者將模型改為社會(huì)商品零售總額與家庭總收入之間的線性回歸模型。通過Excel的回歸分析功能得到以下線性回歸模型:
y=-879.53+0.496 1x
該模型的判定系數(shù)是0.999,回歸估計(jì)標(biāo)準(zhǔn)誤差是654.619 6萬元,占社會(huì)商品零售總額平均數(shù)35 279.59萬元的1.856%,回歸質(zhì)量大大提高。模型總體檢驗(yàn)與回歸系數(shù)的t檢驗(yàn)均能通過,b參數(shù)(0.496 1)現(xiàn)實(shí)意義明顯,故回歸模型擬合成功,且具實(shí)際統(tǒng)計(jì)意義。
[例2]表3是利潤額與銷售額、費(fèi)用額之間的相關(guān)資料(1、2、3欄)。定性分析可知,銷售額(x1)對(duì)利潤額(y)呈正相關(guān),費(fèi)用額(x2)對(duì)利潤額呈負(fù)相關(guān)。定量分析得到利潤額與銷售額、費(fèi)用額之間的(線性)相關(guān)系數(shù)分別為0.898、0.851。相關(guān)圖與定量分析進(jìn)一步證明了定性分析結(jié)論的存在。因此,利潤額與銷售額、費(fèi)用額之間適合構(gòu)造線性模型。用Excel完成的回歸分析結(jié)果見表4。

以上分析的回歸模型是y=-1.065+0.125x1-0.468 5x2,模型的判定系數(shù)是0.824 6,經(jīng)計(jì)算回歸估計(jì)標(biāo)準(zhǔn)誤差是0.225 6萬元,占利潤額平均數(shù)2.272 7萬元的9.93%。可見回歸模型的質(zhì)量并不高。線性總體檢驗(yàn)(F=18.8)通過,但在單變量回歸系數(shù)的t檢驗(yàn)中,x2(費(fèi)用額)變量的p值為0.39,未能通過線性檢驗(yàn)。可見以上模型不具應(yīng)用意義。
筆者首先從3個(gè)基本假設(shè)方面去考察回歸模型存在的問題。從殘差圖(圖3)和et,et-1散點(diǎn)圖(圖4)來看基本排除異方差和自相關(guān)問題的存在。定性分析認(rèn)為,銷售額與費(fèi)用額確實(shí)存在線性關(guān)系,且兩者的相關(guān)系數(shù)(0.978 3)非常高。因此,上述回歸模型的回歸質(zhì)量不高及單變量系數(shù)未能通過檢驗(yàn)的最大原因就是多重共線性的存在。
解決多重共線性問題的一種方法是增加樣本容量,經(jīng)嘗試(通過對(duì)表3數(shù)據(jù)前三列的逐列線性延伸),效果不大,因?yàn)樵龃蟮臉颖救匀怀鲎酝豢傮w。解決多重共線性的另一種方法是剔除不重要變量,但本例中,剔除任一自變量后的回歸模型(盡管理想)都不是我們要達(dá)到的目的,因?yàn)殇N售額與費(fèi)用額對(duì)利潤的影響都很重要。
經(jīng)過分析,筆者認(rèn)為利潤額與銷售額、費(fèi)用額之間存在密切的關(guān)系,剔除任一自變量,意義將大為不同。因此考慮它們之間不是普通的線性模型關(guān)系,而是特殊的線性關(guān)系。理論上利潤額應(yīng)等于毛利額減費(fèi)用額,而毛利額應(yīng)等于銷售額乘毛利率。據(jù)此分析,筆者得到以下特殊的線性模型:
y=a+bx1-x2(1)
對(duì)x2移項(xiàng)后,得y+x2=a+bx1。令y'=y+x2,得到新模型:
y'=a+bx1(2)
根據(jù)表3中(2)(3)欄數(shù)據(jù)計(jì)算y'(見第(4)欄數(shù)據(jù))。根據(jù)表中的第(1)和(4)欄數(shù)據(jù)可計(jì)算到(2)式中的參數(shù),通過Excel的回歸分析功能得到以下線性回歸模型:
y'=-0.888 3+0.183 2x1。
還原模型(1)的結(jié)果是:y=-0.888 3+0.183 2x1-x2。
該模型判定系數(shù)為0.962 8,回歸估計(jì)標(biāo)準(zhǔn)誤差占平均數(shù)(y'的平均)的比例是2.9%,比第一次回歸質(zhì)量大大提高,且模型的總體檢驗(yàn)和單變量回歸系數(shù)t檢驗(yàn)均能通過。以上模型中的a參數(shù)可理解為固定成本(當(dāng)沒有銷售、沒有可變費(fèi)用時(shí),利潤是負(fù)數(shù)),b可理解為毛利率,可見模型具有實(shí)際應(yīng)用意義。
主要參考文獻(xiàn)
[1]何曉群. 現(xiàn)代統(tǒng)計(jì)分析方法與應(yīng)用[M]. 北京:中國人民大學(xué)出版社,2007.
[2]全國統(tǒng)計(jì)專業(yè)資格考試用書編寫委員會(huì). 統(tǒng)計(jì)基礎(chǔ)理論及相關(guān)知識(shí)[M]. 北京:中國統(tǒng)計(jì)出版社,2005.
[3]梁錢德. 基礎(chǔ)統(tǒng)計(jì)[M]. 北京:高等教育出版社,2001.