□趙玉新
近年來不少學(xué)者都在積極探索解決多元線性回歸中的多重共線性研究,對三種解決方法進行深入探討,針對每種解決方法的優(yōu)劣以及實際應(yīng)用效果進行深入分析,探討每種解決方法的實際應(yīng)用情景,從而提高多元線性回歸的統(tǒng)計分析有效性以及預(yù)測準(zhǔn)確性。三種方法的適用對象以及使用機理,本文研究的中心,其目的是為了提高實際問題中多元線性回歸的分析效果,降低多重共線性對分析結(jié)果及預(yù)測結(jié)果的影響,明確這些解決方法的實用情景以及模型預(yù)測分析是多元線性回歸應(yīng)用繼續(xù)解決的問題。
多重共線性問題是多元線性回歸中自變量由于線性關(guān)系或者是近似線性關(guān)系,導(dǎo)致變量的顯著性更加隱蔽,不利于察覺,所以增加了強參數(shù)估計的方差,導(dǎo)致模型的構(gòu)建更加復(fù)雜、不穩(wěn)定,不利于多元線性回歸分析。若是多元線性回歸中多重共線性存在于自變量系統(tǒng)之中,依舊是采用最小二乘擬合回歸系數(shù),就會降低模型的精確度以及可靠性,原因如下:一是當(dāng)自變量完全相關(guān)時,最小二乘回歸系數(shù)難以估計;二是自變量之間若是存在不完全共線線性,雖然回歸系數(shù)可以估計但是估計方差會與自變量共線性成正比例關(guān)系;三是高度相關(guān)條件下,回歸系數(shù)的估計值會與樣本數(shù)據(jù)的微小變化的波動性大,導(dǎo)致回歸系數(shù)估計值穩(wěn)定性下降;四是所示多重共線性影響較為嚴重,則回歸系數(shù)統(tǒng)計檢驗就難以順利進行;五是當(dāng)自變量高度相關(guān)下,最小二乘法得到的回歸模型中的回歸系數(shù)難以解釋物理含義,所以導(dǎo)致回歸系數(shù)的取值價值下降,嚴重會導(dǎo)致回歸系數(shù)符號與實際情況相反;六是回歸模型基于樣本,多重線性也是抽樣數(shù)據(jù)所以建立的回歸模型若是用于預(yù)測,就難以保證預(yù)測期間數(shù)據(jù)不會受到多重共線問題影響,相對的共線性問題對預(yù)測結(jié)果雖然不會造成嚴重影響,但是預(yù)測結(jié)果卻難以確定;七是多重共線一旦出現(xiàn),回歸系數(shù)就難以用一般解釋方法進行解釋。由此可見多元線性回歸中多重共線性影響嚴重,無法滿足多元線性的模型構(gòu)建以及參數(shù)估計,不利于預(yù)測以及統(tǒng)計分析,研究多重共線性的消除是提高多元線性回歸分析價值提升以及模型穩(wěn)健性的重要保障。
現(xiàn)階段學(xué)者們探索出的多重共線性解決方法主要是成分回歸、嶺回歸以及對偏最小二乘回歸三個方法,能夠有效消除多元線性回歸中多重共線性形象,針對自變量以及變量小系統(tǒng)的數(shù)據(jù)進行多樣處理。不過在解決線性回歸模型的多重共線性問題之中,這三種方法各具優(yōu)勢,但是在嶺回歸及主成分回歸之中嶺參數(shù)以及特征因子篩選問題還是備受爭議,而對偏最小二乘回歸的機理及模型作用更加明顯。
(一)主成分回歸。主成分回歸的核心思想是主成分分析,根據(jù)多元統(tǒng)計方法針對多個變量間的相關(guān)系進行分析,利用幾個互不相關(guān)的主成分構(gòu)建新的綜合指標(biāo),從而替換原有的具有一定相關(guān)性的P個指標(biāo),從而確保主成分具有更多的原始信息。具體步驟如下:一是摒除因變量Y,只考慮自變量的集合進行主成分提取,先是確定自變量集合的前m個非零特征值及向量,之后再針對主成分的性質(zhì),從均值為零和方差算子入手,前者是E(F h)=0,h=1,2,…,m,后者為var(F h)=λh h=1,2,…,m所以有var(F1)≥var(F2)≥…≥var(Fm),能夠反映出原變異信息的反應(yīng)精度;二是針對第一主成分與所有原變量的相關(guān)度進行最優(yōu)問題確定,也就是尋找一個綜合變量與原有所有自變量形成最相關(guān),換言之就是第一主成分的確定;三是對主成分進行協(xié)方差確定,也就是針對主成分之間的不相關(guān)線性進行多重相關(guān)性回歸建模,通過成分提取思路,摒除因變量Y的影響,但是主成分回歸難以解釋Y,所以其應(yīng)用范圍有限。
(二)嶺回歸。嶺回歸消除多重共線性得解決機理,主要是針對自變量中的復(fù)共線性也就是|XX'|≈0時,給XX’加上正常的數(shù)矩Kl(k>0),那么X'X+KI=0的可能性就會高于X'X,那么此時的基本思想:當(dāng)出現(xiàn)多重共線性時,X'X≈0,從而使參數(shù)的β^=(X'X+KI)-1X'Y就會高于普通最小二乘估計的β,那么得到的模型就會更加穩(wěn)定。嶺回歸應(yīng)用主要應(yīng)用于經(jīng)濟數(shù)據(jù)分析,可以針對進口總額Y以及國內(nèi)總產(chǎn)值X1、儲存量X2以及總消費量X3之間的關(guān)系進行分析,實際應(yīng)用案例有2011年的法國經(jīng)濟數(shù)據(jù)分析,通過收集得到的11組數(shù)據(jù),計算出各個自變量及變量的平均值、方差、然后通過對給定的原始數(shù)據(jù)進行標(biāo)準(zhǔn)化及中心化,可以進一步得出最小二乘回歸,進而得出所需的特征值以及回歸方程,再通過嶺估計的概念在回歸方程中通過不同K值的代入能夠得到殘差平方和是嶺跡k的單調(diào)增函數(shù),從而得到回歸的嶺跡圖,取得穩(wěn)定的K值之后就可以得到所需的嶺回歸方程,用于統(tǒng)計分析以及預(yù)測技術(shù)。
(三)對偏最小二乘回歸。對偏最小二乘回歸主要是針對多因變量的統(tǒng)計關(guān)系之中,尤其是在回歸分析中若是自變量與因變量之間的個數(shù)較多,則因變量與自變量之間都會存在嚴重的多重共線性問題,所以就不能采用一般的多元回歸方法,因此需要利用最小二乘法進行建模,提高數(shù)據(jù)統(tǒng)計分析的效果以及數(shù)據(jù)價值。
對偏最小二乘回歸的基本思想如下:第一,記t1=X0W1,則能夠?qū)⒍嘣€性回歸中多重共線性的消除轉(zhuǎn)變?yōu)閮?yōu)化問題,確定max。第二,將X0和Y確定在t1的回歸線上,也就是實現(xiàn)回歸方程的數(shù)值帶入,例如:X0=t1p1'+X1。第三,則是將殘差矩陣中的X1和y1代替X0和y,然后采取提取t1的方法,進行第二個綜合變量的t2的提取,以此類推,提取所有的綜合變量,目前比較流行采用的是交差有效性,針對Y進行成分t1,t2,…的普通多元線性回歸線防城區(qū)入定,然后針對X1,X2…進行線性組合得到PLS1回歸模型。總體而言,對偏最小二乘回歸采用的是循環(huán)式的信息分解與數(shù)據(jù)提取,所以能夠確保原始信息與變量信息的保存,自動排除對Y解釋無意義的數(shù)據(jù),能夠有效對數(shù)據(jù)進行綜合性分析及模型構(gòu)建,雖然對數(shù)據(jù)要求比較高,但是其應(yīng)用范圍是最廣的。
總而言之,比對起成分回歸以及嶺回歸而言,對偏最小二乘回歸雖然在數(shù)據(jù)方面比較嚴格,但是其研究分析方法以及模型實用性較高,嶺回歸則是能夠在均方誤差無偏估計最小原則的情況下選擇嶺參數(shù),而成分回歸則是能夠利用主成分加權(quán)殘差平臺進行篩選特征值,在實際應(yīng)用過程中各有千秋,但對偏最小二乘回歸的模型最為有效,所以在消除多重共線性中備受關(guān)注。