劉 明,王仁曾
(1.蘭州商學院 統計學院,蘭州 730020;2.華南理工大學 經濟貿易學院,廣州 510006)
逐步回歸是線性回歸分析中重要的一種分析方法,主要用來解決多元線性回歸模型中解釋變量個數較多時如何選擇解釋變量,以使得在回歸方程中包含所有對被解釋變量影響顯著的解釋變量而不包含影響不顯著的解釋變量的問題。逐步回歸正是為解決這類問題而設計的一種回歸方法。它的主要思路是在所考慮的全部解釋變量中按對被解釋變量的貢獻大小逐個引入回歸方程,己被引入回歸方程的變量在引入新變量后也可能失去重要性,而需要從回歸方程中剔除出去。引入一個變量或者從回歸方程中剔除一個變量都要進行F檢驗,以保證在引入新變量前回歸方程中只含有對被解釋變量影響顯著的變量,而不顯著的變量已被剔除[1]。
在逐步回歸中每剔除和引入一個變量都需要計算F統計量的值,這需要一定的工作量。同時,逐步回歸中所用的F檢驗對于眾多初學者和應用者來說也難以理解和把握,而單個參數顯著性t檢驗是人們所熟知的。筆者通過研究發現,F統計量和t統計量存在緊密的聯系,逐步回歸中的F檢驗和參數顯著性t檢驗是等價的,因此可以轉而考慮使用t檢驗。相比較而言,t統計量的計算要比F統計量的計算簡便得多,F統計量需要計算復雜的偏回歸平方和及剩余平方和,而t統計量只需要計算回歸系數的估計值及其估計量的標準差的古計量即可?,F代常用的統計軟件一般都會計算顯示回歸模型參數的t檢驗值,而很少會給出用于逐步回歸的F檢驗值,即便使用計算機,F統計量也不易計算。本文考慮用t檢驗準則替代F檢驗準則對多元線性模型進行逐步回歸,以簡化逐步回歸的計算過程。要實現這一目標,需分析逐步回歸中的F檢驗,并完成其與t檢驗的等價性的證明。
考慮含有k個解釋變量的線性總體回歸模型式(1)和普通最小二乘法(本文均在普通最小二乘法下討論樣本回歸模型)下的樣本回歸模型式(2):

首先定義總離差平方和TSS(Total Sum of Squares)、可解釋的平方和ESS(Explained Sum of Squares)和剩余平方和RSS(Residual Sum of Squares):

其中y^i=yi-μ^i為樣本擬合值,?為樣本均值,n為樣本容量。
再定義偏回歸平方和。不含xk的樣本回歸模型(為方便分析,在每一步對解釋變量的考察中,本文均以xk為研究代表)

設式(3)的可解釋的平方和為ESS*,剩余平方和為RSS*,則xk的偏回歸平方和定義為:

按此法即可定義其他解釋變量的偏回歸平方和。不難看出,ESSPk=RSS*-RSS。
逐步回歸中引入(剔除)解釋變量的標準是偏回歸平方和最大(最?。?。在某一引入步驟中,設模型中已含有k-1個解釋變量(全部顯著),需引入第k個解釋變量,原模型和引入變量之后的樣本模型即可分別表示為式(3)和式(2)。
這樣由第k個解釋變量xk的偏回歸平方和ESSPk構造的F統計量為:

ESS和RSS分別是包含k個解釋變量xk的回歸模型的可解釋的平方和和剩余平方和,RSS*即為未引入新變量的原回歸模型的剩余平方和。接下來進行F檢驗,以判斷解釋變量xk是否該引入到回歸模型中,檢驗過程不再詳述。
在某一剔除步驟中,設模型中已含有k個解釋變量(可能存在不顯著的解釋變量),找到偏回歸平方和最小的亦即最可能被剔除這個解釋變量,不妨設為xk,原模型和剔除變量之后的樣本模型即可表示為式(2)和式(3)。不難發現,由xk的偏回歸平方和ESSPk構造的F統計量與引入解釋變量過程中的F統計量(4)相同。和引入變量過程一樣,接下來進行F檢驗,以判斷解釋變量xk是否該從回歸模型中剔除。
顯然,若能證明逐步回歸中的F檢驗與t檢驗是等價的,就可以將t檢驗引入到逐步回歸過程中?,F在討論t檢驗。
以解釋變量xk的顯著性檢驗為例,由其系數βk構造的t統計量為:

命題1普通最小二乘法下,用于檢驗某變量顯著性所構造的t統計量的平方等于逐步回歸中用于判斷是否應剔除(或引入)該變量的F檢驗所構造的F統計量,即t2=F。
證明:仍以解釋變量xk為考察對象。利用OLS法得到xk的系數βk的估計量為[2]:

其方差估計量是:


rk是根據OLS法構造的輔助回歸模型的殘差項。R2k是輔助回歸模型的樣本可決系數:

考慮在模型中將xk剔除(或在只包含前(k-1)個解釋變量情形下引入),此時構造的F統計量為:

再考慮關于xk的顯著性t檢驗。在βk=0的假設下有:

證畢。
由命題1即可得出下述命題2。
命題2 t統計量的平方服從第一自由度為1、第二自由度為n-k-1的F分布,即t2~F(1,n-k-1)。
在檢驗某一參數的顯著性時,t檢驗進行的是雙尾檢驗而F檢驗進行的是右單尾檢驗,雖然兩類檢驗的拒絕域不同,但檢驗結論一致,這由命題3表述。
命題3當t檢驗的臨界值取tα時,由命題1,F檢驗的臨界值當取,此時兩類檢驗拒絕原假設的概率是相同的,即,其中t~t(n),F~F(1,n)。
證明:自由度為n的t分布的密度函數為[4]:

第一自由度為1,第二自由度為n的F分布的密度函數為:因此可得

證畢。
綜合命題1、2、3,不難得出結論:在普通最小二乘估計下,線性回歸模型的逐步回歸中的F檢驗與顯著性t檢驗是等價的。該結論是用t檢驗替代F檢驗來完成逐步回歸的依據。
依據以上所證明的結論——逐步回歸中所用到的F檢驗和參數顯著性t檢驗是等價的,可以考慮在逐步回歸中使用更便于計算的t檢驗。使用方法非常簡單,只需將逐步回歸中作為引入、剔除變量準則的F檢驗替換為t檢驗即可。逐步回歸的參數求解方法在數學上稱為“求解求逆緊湊變化法”,其本質仍是普通最小二乘法,只是在計算過程中考慮了引入、剔除變量的過程,將參數估計的每一步都通過矩陣運算實現了。如果將原來的F檢驗替換成t檢驗,對“求解求逆緊湊變化法”計算原理和方法均無影響,模型參數估計可順利實現。在原逐步回歸中,引入或剔除變量的依據是變量的偏回歸平方和的大小,在同一引入或剔除的步驟中,偏回歸平方和的大小和F統計量的大小是一致的,即偏回歸平方和越大,F值越大,偏回歸平方和越小,F值越小。由于F統計量和t統計量存在對應關系F=t2,因此t統計量的絕對值 ||t與偏回歸平方和也具有同向變動關系: ||t越大,偏回歸平方和越大, ||t越小偏回歸平方和越小。因此可以把 ||t作為引入和剔除變量的標準。原逐步回歸過程中構造的第一個回歸模型是只引入一個解釋變量的一元回歸模型,當改用t統計量作為變量引入、剔除的準則后,為簡化計算步驟,首先構造的是一個包含所有解釋變量的線性回歸模型,在該模型中尋找被剔除的變量,其標準是未通過顯著性t檢驗統計值的絕對值 ||t大小——選擇最小的一個剔除。剔除后重新構造回歸模型,若仍有未通過t檢驗的變量,則繼續按上述標準剔除相應的解釋變量,重新構建模型——仿照原逐步回歸的思想重復引入、剔除的步驟,直到沒有變量被剔除、也沒有變量被引入為此。實踐證明,這種方法更簡便,更清晰。下面以“中國經濟增長的影響因素分析”為例,說明這一實現過程。
根據經濟理論,影響經濟增長的主要因素有投資、消費、進出口等,還有一些影響因素如價格指數、能源消耗量、匯率等。筆者收集到了1990~2009年各年度的宏觀經濟數據,它們是:國內生產總值(GDP)、居民消費支出(REC)、財政支出(GC)、固定資產投資(INV)、出口總額(TTR)以及能源消耗量(POWER)、匯率(EXC)、居民消費價格指數(CPI)等。為消除數據波動性和量綱不同的影響,將數據全部取自然底數對數,以ln(GDP)為被解釋變量構建對數回歸模型。
首先利用F檢驗下的逐步回歸法構建出模型,這一步可以利用SPSS軟件完成。逐步回歸得到的最優模型為:

模型中的s和t分別是對應參數估計量的標準差和t檢驗統計量值。
下面以t檢驗方法對模型進行逐步回歸。上述逐步回歸過程設置引入變量的F臨界值為3.84,剔除變量的F臨界值為2.71,因此以t檢驗為準則的引入和剔除變量的臨界值分別為tentry==1.96,tremoval==1.65,即當新引入的變量回歸系數的t統計量絕對值在所有新引入變量中最大且大于tentry=1.96時,則引入該變量,否則不引入;當模型中存在回歸系數的t統計量絕對值最小且小于tremoval=1.65時,則剔除該回歸系數對應的變量。首先將所有變量引入模型運用EViews5.0估計模型參數得:

表1 1990~2009年中國部分宏觀經濟數據

為節省篇幅,模型只寫出了t統計值??梢钥闯?,匯率對數ln(EXC)的t檢驗統計量-1.16為最小,其絕對值小于1.65,因此剔除該變量,重新估計回歸模型為:

顯然在這一步要剔除的變量為ln(POWER)。接下來是引入先前已被剔除的變量ln(EXC),引入后發現其t統計量絕對值仍是最小的,且小于剔除的臨界值1.65,因此不予引入。這樣構造的回歸模型為:

該模型中應該剔除的變量為ln(TTR)。再繼續引入已被剔除的模型,引入中發現,任一被剔除的變量重新被引入后仍是不顯著的、需要再次剔除的變量。經過引入、剔除等步驟后(具體模型略),最終得到無須引入也無須剔除變量的模型是:

顯然,這和F檢驗下的逐步回歸結果是一致的,說明了在實際應用中運用t檢驗準則同樣可以完成逐步回歸。這個結果和經濟理論中關于經濟增長的三駕馬車的論點是不一致的,即理論上認為影響經濟增長的三大動力是消費、投資、進出口,而上述回歸結果卻顯示中國經濟增長未受到進出口的影響。這個結論顯然有悖于現實,究其原因,是由于逐步回歸計算過程的僵化——只通過所設置的臨界值(或顯著性水平)作為引入和剔除變量的唯一標準,而忽視了現實的經濟理論。t檢驗的逐步回歸雖然也存在同樣問題,但它也具有靈活性,可以及時更改錯誤信息。本例中在進行t檢驗的逐步回歸時就發現,進出口也是一個重要影響因素,當引入進出口后,須剔除變量ln(CPI)。模型構建如下:

其中ln(TTR)回歸系數t檢驗的相伴概率僅為7.22%,相對較小。從各檢驗結果來看,該模型并無瑕疵,說明了影響GDP的主要因素有居民消費、政府消費、固定資產投資、進出口。其中居民消費的影響作用最大:居民消費每增加1個百分點,GDP平均增加0.79個百分點;進出口的影響作用最?。哼M出口每增加1個百分點,GDP平均增加0.04個百分點。從經濟理論的角度來說,此模型比逐步回歸所構造的模型更具說服力。因此,t檢驗下的逐步回歸較F檢驗下的逐步回歸更具靈活性。
F檢驗和t檢驗是經典線性回歸模型中兩種重要的統計檢驗方法,根據文中所作研究可知,對逐步回歸過程中引入或剔除變量的檢驗標準,可以使用t統計量,也可以構造F統計量進行F檢驗。論證發現這兩種檢驗方法是等價的。但相比較而言,t檢驗更直觀、便于理解,t統計量的計算較F統計量亦更簡單。由于逐步回歸中引入和剔除變量的依據是F檢驗,根據F檢驗和t檢驗的等價性,逐步回歸同樣可以使用t檢驗標準來完成,此時模型參數的求解方法仍使用“求解求逆緊湊變換法”。通??山柚谟嬎銠C來計算顯著性檢驗t值,據此即可直接判定是否引入或剔除變量。通過研究中國經濟增長的影響因素,在驗證了t檢驗下的逐步回歸可行性的同時還發現,傳統的F檢驗下的逐步回歸較為僵化,僅依據數字信息來判斷是否引入或剔除變量,忽略了經濟理論的指導作用,從而可能得出有悖于現實的結論。而基于t檢驗的逐步回歸由于在每一步都需要構造模型,因而更易發現模型可能存在的問題,能結合實際理論對模型進行必要的修改和補充,更具靈活性。
[1] 周紀薌.實用回歸分析方法[M].上海:上海科學技術出版社,1990.
[2] 伍德里奇.計量經濟學導論:現代觀點[M].北京:清華大學出版社,2007.
[3] 何曉群.應用回歸分析[M].北京:中國人民大學出版社,2007.
[4] 陳希孺,倪國熙.數理統計學教程[M].合肥:中國科學技術大學出版社,2009.