[摘 要] 文章介紹了多重共線性及其影響,使用逐步回歸法解決多重共線性的缺點以及程序選優法的設計思想。通過使用舉例說明程序選優法在解決多重共線性時具有快速、最優和準確的優點。
[關鍵詞] 多重共線 逐步回歸 Eviews 程序選優
一、多重共線性及其影響
1.什么是多重共線性
對于多元線性回歸模型
Yi=β0+β1X1i+β2X2i+…+βkXki+ui ,i=1,2,…,n
其古典假設之一就是解釋變量X1,X2,…,Xk是相互獨立的。如果某兩個或多個解釋變量之間出現了相關性,則稱存在多重共線性。
如果存在
c1X1i+c2X2i+…+ckXki=0, i=1,2,…,n
其中ci不全為0,既某一個解釋變量可以用其他解釋變量的線性組合表示,則稱解釋變量間存在完全共線性。
如果存在
c1X1i+c2X2i+…+ckXki+vi=0 , i=1,2,…,n
其中ci不全為0,vi為隨機干擾項,則稱解釋變量間存在近似共線性。
2.完全多重共線性下參數估計量不存在
完全多重共線性時,在Eviews軟件下用普通最小二乘法估計,屏幕出現提示“Near singular matrix”。此時參數無法確定,參數的方差無窮大。
在近似多重共線性下會有如下影響。
3.普通最小二乘法參數估計量的方差變大,容易刪掉重要的解釋變量
在多重共線性下,參數估計量的方差隨著多重共線性的“嚴重程度”,呈“膨脹性”增大。進行統計檢驗時,由于方差的變大,可能使t統計量小于臨界值,誤導作出參數為零的推斷,這樣容易刪掉重要的解釋變量,造成模型設定誤差。
4.參數估計量的經濟含義不合理
如果模型中兩個解釋變量具有線性相關性,如X1和X2,那么它們中的一個變量可以由另一個變量表征。這時,X1和X2前的參數并不反映各自與被解釋變量之間的結構關系,而是反映它們對被解釋變量的共同影響,所以各自的參數已經失去了應有的經濟含義,于是經常表現出似乎反常的現象,例如估計結果本來應該是正的,而結果是負的。
二、逐步回歸法的缺點
克服近似多重共線性的常用方法有排除引起共線性的變量、差分法、減小參數估計量的方差等三類方法。其中排除引起共線性的變量是最為有效的克服多重共線性的方法,而逐步回歸法就是這種方法,因此逐步回歸法得到了最為廣泛的應用。
逐步回歸法的基本步驟是首先把被解釋變量對每一個解釋變量分別進行回歸,從而得到所有的基本回歸方程式,并對每一個基本回歸方程進行統計檢驗,分析其估計結果,從中選擇最合適的基本回歸方程,然后再逐一增加其它的解釋變量,重新再作回歸,根據可決系數、修正的可決系數、回歸系數的t值逐步把顯著性的解釋變量選人回歸方程中,同時把非顯著性的解釋變量從回歸方程中剔除,最終建立一個滿意的回歸方程。但逐步回歸法的使用也有一些不足。
1.步驟煩瑣,容易出錯
雖然Eviews軟件在計量經濟學上的廣泛應用,使參數的估計變的十分方便,但通過反復的比較,逐步回歸的方法,步驟還是比較煩瑣,人工操作也容易出錯。如對一個五元回歸方程,第一大步,建立五元回歸模型,進行檢驗多重共線性;第二大步,要進行五個一元回歸方程的建立和比較;第三大步,在第二大步的基礎上,要進行四個二元回歸方程的建立和比較;第四大步,在第三大步的基礎上,要進行三個三元回歸方程的建立和比較;第五大步,在第四大步的基礎上,要進行二個四元回歸方程的建立和比較。通過以上十四次的建立和比較才能確定一個滿意的回歸方程。如果解釋變量增加,則步驟更多。
2.結果有可能是局部最優
逐步回歸法的應用可能遺漏最優方程,選出的回歸方程有可能只是某一個較優的回歸方程。如在上述第三大步中,進行四個二元回歸方程的比較時,可能四個二元回歸方程的t統計量都小于臨界值,而在三元方程則會通過t檢驗,因此我們在二元回歸方程的選擇可能存在隨意性,這樣的選擇最終可能遺漏最優方程。
三、程序選優法的設計思想
1.程序選優法符合“從一般到簡單”的建模思想
逐步回歸法是以“由簡單到復雜”的建模思想為指導的,而程序選優法是以“從一般到簡單”的思想為指導,即開始時建立一個一般的模型,將對被解釋變量有影響的所有變量都作為解釋變量,然后在建模的估計和檢驗中選擇,最后得到一個比較簡單的模型。這種建模方法在很大程度上消除了建模過程中的主觀性。如開始時建立一個五元模型,程序選優法通過運行事先編好的程序,會自動建立一個五元回歸方程,五個四元回歸方程,十個三元回歸方程,十個二元回歸方程,共二十六個可能的方程,同時程序會自動選擇出最優的方程。這種方法簡單快速,保證了所選方程的最優。
2.完全多重共線性的處理
正如前面所說,出現完全多重共線性時,在Eviews軟件下用普通最小二乘法估計,屏幕出現 “Near singular matrix”的提示。出現這種情況,如對一個六元模型,此時可以在命令窗口輸入:
COR y x1 x2 x3 x4 x5 x6
屏幕出現相關系數矩陣,見表1
從上表可以看出x3和x6的相關系數是1,產生了完全多重共線性,此時在x3和x6之間必須選擇去掉一個,使完全共線性變為近似共線性。事實上完全共線性并不多見,因此在一般情況下也不需要作上述處理。
3.選優標準及過程
Eviews軟件是由美國Quantitative Micro Software公司提供的數據分析、回歸及預測工具,是目前世界上最流行的計量經濟學軟件。另外,Eviews軟件也提供了編程和運行程序的功能,這為程序選優法的實現提供了方便。
程序選優法的選優標準首先要求在所有可能的回歸方程中被解釋變量系數的p值都小于顯著性水平0.05,即被解釋變量在0.05的顯著性水平下都通過t檢驗。其次,在滿足上述條件下,比較回歸方程的修正的可決系數,選出修正的可決系數最大的回歸方程就是最優方程。
選優過程首先要在程序中輸入被解釋變量的總個數,如n=5,即共有五個被解釋變量。運行程序后,程序會自動通過循環用equation 和ls命令建立回歸方程,利用函數@RBAR2可自動獲得回歸方程的修正的可決系數,利用函數@NCOEF可自動獲得被估參數的個數,利用函數@REGOBS可自動獲得樣本容量,利用函數@TSTATS可自動獲得參數的t統計量,利用函數@TDIST可自動獲得被解釋變量系數的p值。這樣程序運行后就可以建立所有可能的回歸方程,并在滿足t檢驗的方程中,通過比較回歸方程的修正的可決系數,選出最優方程。
四、使用舉例
根據理論和經驗分析,影響糧食生產的主要因素有農業化肥施用量、糧食播種面積、成災面積、農業機械總動力和農業勞動力,其中,成災面積的符號為負,其余均應為正。表2列出了中國糧食生產的相關數據,試建立中國糧食生產函數。
資料來源:《中國統計年鑒》(1995,2001)
使用時打開Eviews軟件,創建新的工作文件,將表2中的數據輸入序列對象。單擊Eviews軟件的“File”→“Open”→“Progrem...”,選擇事先編好的程序文件,單擊“打開”。在程序中將控制變量scalar n=設為scalar n=5,單擊“Run”運行程序,在“Run program”對話框中,單擊“OK”,1秒~2秒程序運行結束。此時在工作文件中自動產生了控制變量best,在best上右擊選擇“Open”,在狀態欄顯示scalar best=18,由于程序在工作文件中已自動建立了eq1、eq2、……、eq26共26個回歸方程,此時best=18,即eq18是程序自動選擇出的最優回歸方程。當然,如果沒有一個方程符合要求的情況下,此時best=0。雙擊eq18,可以看出中國糧食生產的回歸分析表達式為:
Y=-11978.18 +0.41X2-0.19X3+5.26X5
SE: (0.1220) (0.0545)(0.2686)
t:(3.35)(-3.57) (19.57)
R2=0.9796F=224.01DW=1.53
由上面使用事例可以看出,程序選優法在使用排除引起共線性變量的方法克服多重共線性時具有快速、最優和準確的優點。事實上,根據“從一般到簡單”的建模思想,不管是否有多重共線性,程序選優法都可以作為一種普遍的選優建模方法。
參考文獻:
[1]李子奈 潘文卿:計量經濟學[M].北京:高等教育出版社,2005
[2]王文博:計量經濟學[M].西安:西安交通大學育出版社,2006
[3]高鐵梅:計量經濟分析方法與建模Eviews應用及實例[M].北京:清華大學育出版社,2006