張 艷,苗 剛,李盈科
(新疆農(nóng)業(yè)大學 數(shù)理學院,烏魯木齊 830052)
在實際問題中,常遇到研究一個隨機變量與多個變量之間的相關關系,如,某產(chǎn)品的銷售額不僅受到投入的廣告費用的影響,還與產(chǎn)品價格、消費者收入狀況、社會保障及其它可替代產(chǎn)品的價格等其他因素有關系。研究這種一個隨機變量同多個變量之間關系的方法主要是多元回歸分析法。
目前,我國國民收入實現(xiàn)了快速增長,民航業(yè)蓬勃發(fā)展,為了對民航業(yè)務量做出準確地評估和預測,民航客運量的變化趨勢及成因成為航空公司關心的主要問題。影響我國民航客運量的因素,不僅有經(jīng)濟因素、政治因素,還有天氣因素、季節(jié)因素,這些因素對我國民航客運量的變化影響程度各有不同,而這些因素的不同組合也會產(chǎn)生不同的效果。本文從國民收入、消費額、鐵路客運量、民航航線里程、來華旅游入境人數(shù)等幾個方面出發(fā),運用多元回歸分析法來研究其變化趨勢及成因問題。
設影響因變量y 的自變量個數(shù)為m 個,記為x1,x2,…,xm,多元線性模型是指這些自變量對y 的影響是線性的,即關系式
其中:β0,β1,β2,…,βm是m+1 個未知參數(shù),β0為常數(shù)項,β1,β2,…,βm稱為回歸系數(shù);x1,x2,…,xm是m 個可得到精確值并能夠控制的一般變量,稱為解釋變量,稱y 為對自變量x1,x2,…,xm的線性回歸函數(shù)。當m=1 時,式(1)為一元線性線性回歸模型,m≥2 時,稱為多元線性回歸模型。ε 是隨機誤差,通常認為ε ~N(0,σ2)。
在實際問題中,獲得n 組關于(xi1,xi2,…,xim,yi)(i =1,2,…,n)觀測數(shù)據(jù),則
其中i=1,2,…,n,這個模型稱為多元線性回歸模型。
令

則上述數(shù)學模型的矩陣形式為

其中ε 是n 維隨機向量,它的各個分量相互獨立同分布。
一般認為回歸模型應滿足以下幾個基本假設:
1)解釋變量x1,x2,…,xm,是隨機變量,觀測值(xi1,xi2,…,xim)為常數(shù)。
2)方差齊性及不相關的假定條件為[1]

這個稱為高斯-馬爾柯夫(Gauss-Markov)條件,簡記為G-M條件。在此條件下,可以得到關于回歸系數(shù)方程一些重要性質(zhì),比如,得到關于回歸系數(shù)的最小二乘估計是回歸系數(shù)的最小方差線性無偏估計等[7]。
3)正態(tài)分布的假定條件為

在此條件下可以得到關于回歸系數(shù)的估計及σ2估計的進一步的結(jié)果,比如,它們分別是回歸系數(shù)及σ2的最小方差無偏估計等,而且還可以作回歸的顯著性檢驗及區(qū)間估計[7]。
1.3.1 回歸系數(shù)的t 檢驗
在多元線性回歸問題中,回歸方程顯著并不能說明每個自變量對y 的影響都顯著,所以總想從回歸方程中去除一些相關度比較低的變量得到其精簡的回歸方程。這時就需要對每個自變量進行顯著性檢驗。
顯然,若某個自變量xi對y 的作用不顯著,那么在回歸模型中,它的系數(shù)βi就取值為0。因此檢驗變量xi是否顯著,等價于檢驗假設

如果接受原假設H0i,則xi不顯著;否則xi是顯著的。
可以知道[3]

記

于是有

據(jù)此構(gòu)造t 統(tǒng)計量

其中

是回歸標準差。
當原假設H0i:βi=0 成立時,式(10)構(gòu)造的ti統(tǒng)計量服從自由度為n-m-1 的t 分布。給定顯著性水平α,查出雙側(cè)檢驗的臨界值tα/2。當時拒絕原假設H0i:βi=0,認為βi顯著不為0,認為βi顯著不為0,自變量xi對因變量y的線性效果顯著;反之認為βi為0,自變量xi對因變量y 的線性效果不顯著[4,8]。
1.3.2 回歸系數(shù)的F 檢驗
對多元線性回歸方程的顯著性檢驗就是看隨機變量x1,x2,…,xm從整體上對y 是否有明顯的影響。因此提出原假設

如果原假設被接受,則表明隨機變量y 與x1,x2,…,xm之間的關系由線性回歸模型表示不合適。一般用F 檢驗來判別,為了建立對H0進行檢驗的F 統(tǒng)計量,用總離差平方和的分解式,即

簡寫為

此時用F 檢驗統(tǒng)計量

在正態(tài)性假設下,當H0:β1=β2=… =βm=0 成立時,F(xiàn)服從自由度為(m,n -m -1)的F 分布,于是可利用F 統(tǒng)計量對回歸方程的總體顯著性進行檢驗。對于給定的數(shù)據(jù),當i=1,2,...,n,計算出SSR 和SSE,進而得到對應F 的值,見一般列在下面的方差分析表中,再由給定的顯著性水平α,查F 分布表,得到臨界值Fα(m,n-m-1)。

表1 方差分析表
當F >Fα(m,n-m-1)時,拒絕H0,認為在顯著性水平α 下,y 對x1,x2,…,xm有顯著的線性關系,也即回歸方程的檢驗是顯著的,就是接受“自變量全體對y 有顯著線性影響”這一結(jié)論犯錯誤的概率不超過5%;反之,當F≤Fα(m,n-m-1)時,接受H0,則認為回歸方程不顯著[8]。

按照一元線性回歸系數(shù)區(qū)間估計的推導過程,可得βj置信水平為1 -α 的置信區(qū)間為

1.4.2 擬合優(yōu)度
擬合優(yōu)度用于檢驗回歸方程對樣本觀測值的吻合程度。在多元線性回歸中,定義樣本相關系數(shù)為

樣本決定系數(shù)R2的取值在[0,1]區(qū)間內(nèi),R2距離1 越近,表明擬合的效果越好;R2距離0 越近,表明擬合的效果越差。與F 檢驗相比,R2檢驗可以更清楚直觀的反映回歸擬合的效果,但是并不能做為嚴格的顯著性檢驗。稱為y 關于x1,x2,…,xm的樣本復相關系數(shù)[5]。

1)數(shù)據(jù)來源
以預測值y 表示民航客運量(萬人),x1表示國民收入總值(億元),x2表示消費金額(億元),x3表示鐵路承載量(萬人),x4表示民航航線距離(萬公里),x5表示境外旅客人數(shù)(萬人)。根據(jù)《2010 年統(tǒng)計摘要》獲得1995—2010 年統(tǒng)計數(shù)據(jù),見表2。
2)研究方法
建立y 與各自變量xi,1≤i≤5 的多元線性回歸模型如下
基底節(jié)及腦白質(zhì)多發(fā)腔梗還需與其它低密度病變?nèi)绺味範詈俗冃浴⒉《拘阅X炎、中毒性腦病等鑒別,這些病變往往基底節(jié)對稱發(fā)病,肝豆狀核變性為銅代謝障礙及肝硬化史,病毒性腦炎臨床中毒癥狀,中毒性腦病有毒氣吸入及藥物過度使用及體內(nèi)代謝中毒等以鑒別[4]。

3)實證分析
利用原始數(shù)據(jù)資料,用SPSS 軟件計算相關陣,輸出結(jié)果見表3,并作相關分析。
從相關矩陣可以看出,y 與x1,x2,x3,x4,x5相關系數(shù)都比較高,在0.9 以上,說明所選自變量與y 具有高度線性相關,用y 與自變量x1,x2,x3,x4,x5作多元線性回歸是可以的。y 與x3的相關系數(shù)ry3=0.226 偏小,P 值=0.398,x3是鐵路客運量,這說明鐵路客運量對民航客運量無顯著影響。
4)計算結(jié)果
本例對原始數(shù)據(jù)作回歸分析,并用SPSS 軟件計算,輸出結(jié)果見表4 ~6。
5)回歸診斷
a.回歸方程為

b.復相關系數(shù)R =0.999,決定系數(shù)R2=0.988,由相關系數(shù)來看回歸方程高度顯著。
c.方差分析表中,F(xiàn) =1 128.303,P 值=0.000 表明回歸方程高度顯著,說明x1,x2,x3,x4,x5整體上對y 有高度線性關系。
d.回歸系數(shù)的顯著性檢驗。自變量x1,x2,x3,x4,x5對y均有顯著影響,其中x3鐵路客運量的P 值=0.006 最大,可是仍然在1%的顯著性水平上對y 具有高度顯著,這充分說明在多元回歸分析中,不能僅憑相關系數(shù)的大小而決定變量的取舍。
6)回歸應用
預測值的點估計為

其精確置信區(qū)間的表達式較為復雜,也不可能用手工計算,可以仿照一元線性回歸的情況用SPSS 軟件計算。其置信水平為95%的近似置信區(qū)間為

另外,x2的回歸系數(shù)-0.561 是負的,x2是消費額,負的回歸系數(shù)顯然是不合理的,其主要原因可能是由于自變量之間存在的共線性,因而回歸方程式(2)還要在多重共線性部分作一步改進,或用其他消除共線性的方法重新建立回歸方程,就不再討論了。詳見參考文獻[5]。

表2 各主要因素統(tǒng)計數(shù)據(jù)表

表3 相關陣表

表4 常用統(tǒng)計量表

表5 方差分析表

表6 回歸系數(shù)分析
1)“國民收入”和“消費額”與民航客運量均具有正線性相關關系。這表明近年來我國國民收入的較快增長,乘飛機進行旅游和商務活動的比例就有所提高,這又進一步刺激了經(jīng)濟的發(fā)展。
2)“鐵路客運量”與民航客運量呈一種線性負相關關系。這一點是顯然的。
3)“民航航線里程”與民航客運量也呈一種線性正相關關系。這表明隨著我國民航航線的增加,民航客運量也在不斷的增加。
4)“入境旅游人數(shù)”與民航客運量呈一種線性正相關關系。這表明來華旅游入境人士生活條件基本上都很好,再加上路途遙遠,他們就選擇了飛機作為主要交通工具。
[1]何曉群,劉文卿.應用回歸分析[M].北京:中國人民大學出社版,2001:18-19.
[2]方開泰.實用多元統(tǒng)計分析[M].上海:華東師范大學出版社,1989:87.
[3]劉潤幸.利用SPSS 進行多元線性回歸分析[J].北京:中國公共衛(wèi)生,2001(8):746-748.
[4]陶勤南.回歸分析與回歸設計[J].北京農(nóng)業(yè)科學,1984(專集):1-76.
[5]何曉群,劉文卿.應用回歸分析[M].北京:中國人民大學出社版,2001:76-77.
[6]周復恭,黃運成.應用線性回歸分析[M].北京:中國人民大學出社版,1989:90.
[7]馬小光.供電系統(tǒng)背景諧波電壓辨識的研究[D].保定:華北電力大學,2007:24-27.
[8]李偉.保定地區(qū)電力市場需求預測分析研究[D].保定:華北電力大學,2003:20-30.