毛雪蓮

【摘 要】多重共線性問題是多元線性回歸分析中經常遇到的問題,怎么解決這一問題,沒有絕對有效的方法,需要針對具體問題具體對待。針對使用時間序列數據建立回歸模型的問題,遵循科學性原則,對數據進行可比性轉化,之后檢驗各變量的平穩性及變量間的協整關系。由于建立的協整回歸存在多重共線性問題,而采用偏最小二乘法估計模型的參數,得到了較合理的結果。
【關鍵詞】多重共線性;偏最小二乘法;R軟件;單位根;協整
中圖分類號: O212.1文獻標識碼: A文章編號: 2095-2457(2019)27-0152-002
DOI:10.19694/j.cnki.issn2095-2457.2019.27.067
【Abstract】Multicollinearity is a common problem in multivariate linear regression analysis. There is no absolutely effective method to solve this problem, which needs to be dealt with specifically. If a regression model with time series data, the comparability and the stability of variables must be considered, and the cointegration relationship between variables are tested. Then, Multicollinearity problem appears in cointegration regression, therefore, the partial least squares method is used to estimate the parameters of the model, and a more reasonable result is obtained.
【Key words】Multicollinearity; Partial Least Squares; R software; Unit Root; Cointegration
在龐皓教授《計量經濟學》第三版多重共線性一章中,選取我國1994-2011年旅游收入相關數據建立多元線性回歸模型,經檢驗各變量之間存在較為嚴重的多重共線性,最終通過對各變量取對數的形式,緩解了多重共線性問題。這里在該分析方法的基礎上探討如何得到更為科學、規范的數據,期望建立變量之間的線性回歸模型,并盡可能保留全部自變量,且各變量的系數經濟意義合理。
由于此例中所使用數據為時間序列數據,所以對數據做了以下三個方面的處理:首先,擴充樣本容量將數據完善至2017年最新可得數據(數據來源:2018年中國統計年鑒)。其次,變量中涉及到跨年度收入與消費指標,為了保證數據之間的可比性,使用消費者價格指數對各變量進行縮減。再者,對各變量進行平穩性檢驗,判斷它們之間的協整關系。如果存在協整關系,檢驗模型是否合理,如果仍然存在多重共線性,則使用偏最小二乘法估計模型的參數。
1 數據來源與處理
對于國內旅游收入Y的影響因素分析模型涉及四個指標:國內旅游人數X2、城鎮居民人均旅游花費X3、農村居民人均旅游花費X4和鐵路里程X5。為了保證數據之間的可比性,消除物價上漲等因素的影響,此處對國內旅游收入Y,城鎮居民人均旅游花費X3和農村居民人均旅游花費X4三個指標按居民消費價格指數(1994=100)進行了縮減。
2 平穩性檢驗及協整檢驗
2.1 平穩性檢驗
對于時間序列數據,直接使用傳統回歸分析建立計量模型,很可能因為不平穩性而出現偽回歸問題。因此,在建立模型之前,需要對各時間序列數據的平穩性進行判斷。
單位根檢驗是其中較為常用的方法,其判斷原則是:如果某一時間序列存在一個單位根,則說明該序列是不平穩的;如果不存在單位根,則說明該序列為平穩序列。單位根檢驗常用的方法有DF檢驗和ADF檢驗,由于DF檢驗中多數時間序列可能存在隨機擾動項自相關的問題,而不能滿足模型的假設,所以人們對DF檢驗進行了拓展,形成了擴展的DF檢驗,即ADF檢驗。故這里使用ADF單位根檢驗方法,變量Y,X2,X3,X4,X5單位根檢驗的MacKinnon(1996) one-sided p-values及檢驗類型(c,t,k)(分別表示常數項、時間趨勢和滯后階數)分別為:0.9999(c,t,0),1.0000(c,t,0),0.0966(c,t,3),0.8399(c,t,0),0.9967(c,t,0)。變量Y,X2,X3,X4,X5一階差分形式單位根檢驗的MacKinnon (1996) one-sided p-values及檢驗類型(c,t,k)分別為:0.0495(c,t,0),0.0064(c,t,0),0.0023(c,t,3),0.0199(c,t,0),0.0160(c,t,0)。可見所有變量均為一階單整序列。
2.2 協整檢驗
如果多個非平穩變量的某種線性組合是平穩的,則說明這些變量之間具有協整性,可以用這個平穩序列來描述原變量之間的均衡關系,即此時建立的回歸模型具有實際意義。
這里使用EG兩步法進行協整檢驗,首先用最小二乘法對變量進行回歸,得到殘差序列。之后檢驗殘差序列的平穩性,如果殘差序列平穩,則說明原始變量之間存在協整關系,反之,變量之間不存在協整關系。
對國內旅游收入及相關因素做線性回歸,即做Y對變量X2,X3,X4,X5的線性回歸,并將其殘差序列記為e,并檢驗e的平穩性,MacKinnon (1996) one-sided p-values及檢驗類型(c,t,k)分別為0.0154(0,0,0),可見e為平穩序列,故變量Y與變量X2,X3,X4,X5之間存在協整關系,可以建立協整回歸。
作變量Y與變量X2,X3,X4,X5的協整回歸,-2363.235+0.0427X2-5.6595X3+6.1441X4+536.6448X5,其中變量X3(城鎮居民人均旅游花費)的系數為負,與實際不符。另外,變量X2和X5對應的方差膨脹因子分別為59.2629,72.7502,均顯著大于10,表明模型中存在嚴重的多重共線性,因此,出現了X3系數為負的異常情況。
3 偏最小二乘法
3.1 偏最小二乘法原理
偏最小二乘法(Partial Least Squares,PLS)被稱為第二代回歸技術,融合了主成分分析、回歸分析和典型相關分析的方法。偏最小二乘法在提取主成分時,不但考慮與各自變量X的相關性,還考慮到與因變量Y的相關性,選擇與Y相關性較強又能方便計算出自變量的線性函數。由于僅考慮與自變量和因變量有關的線性函數而非考慮全部的線性函數,因此稱為偏最小二乘法。偏最小二乘法中提取主成分的標準多使用交叉驗證法,一般可參照以下方式選取:預測誤差均方根RMSEP總和較小,且隨著成分個數的增加,RMSEP沒有明顯減少,且各主成分對因變量的累積貢獻率較高。
3.2 偏最小二乘法實現
4 總結
針對國內旅游收入Y與其影響因素國內旅游人數X2、城鎮居民人均旅游花費X3、農村居民人均旅游花費X4和鐵路里程X5之間的模型進行分析,擴充了樣本數據資料,對變量Y、X3、X4按消費價格指數進行了縮減。使用ADF檢驗了各變量的平穩性,得到各變量均為一階單整序列。并且這些變量之間通過了協整檢驗,但在建立的協整回歸中自變量之間存在嚴重的多重共線性問題,為了得到合理的回歸系數和保留盡可能多的自變量,使用偏最小二乘法對模型參數進行估計,得到了較為合理的結果。
【參考文獻】
[1]鐵衛,王天恒.財政科技支出與經濟增長的實證分析——以陜西省為例[J].統計與信息論壇,2012(2).
[2]齊琛,方秋蓮.偏最小二乘建模在R軟件中的實現及實現分析[J].數學理論與應用,2013(6).
[3]張華東,阮陸寧.偏最小二乘回歸在R軟件中的實現及其優缺點剖析[J].科技廣場,2015(11).
[4]龐皓.計量經濟學(第三版)[M].北京:科學出版社,2014(6).
[5]何曉群.應用回歸分析(R語言版)[M].北京:電子工業出版社,2017(7).