姜佃高,張娟娟,葛永慧
(太原理工大學(xué) 測(cè)繪科學(xué)與技術(shù)系,太原 030024)
多元線性回歸作為處理變量之間相關(guān)關(guān)系的數(shù)學(xué)方法,通常用最小二乘法(LS)求解回歸方程的回歸系數(shù)[1-3]。然而,在數(shù)據(jù)采集過(guò)程中往往混有粗差,LS易受粗差影響,使參數(shù)估值失真[4-6]。而建立在穩(wěn)健估計(jì)基礎(chǔ)上的穩(wěn)健回歸方法,具有良好的抵抗粗差干擾的能力[7,8]。王曉軍等[9]將多元穩(wěn)健線性回歸方法引入到烈度衰減橢圓模型中,統(tǒng)計(jì)計(jì)算得到了研究區(qū)的烈度衰減關(guān)系。陳曉等[10]運(yùn)用穩(wěn)健回歸方法優(yōu)化Munich鏈梯法,更準(zhǔn)確地提取了未決賠款準(zhǔn)備金。張耀平等[11]提出了巖石抗剪強(qiáng)度計(jì)算的穩(wěn)健回歸模型,提高了估計(jì)參數(shù)的可靠性。
然而,不同穩(wěn)健估計(jì)方法的穩(wěn)健性不同。那么,對(duì)于多元線性回歸哪些是相對(duì)更為有效的穩(wěn)健估計(jì)方法呢?本文采用仿真實(shí)驗(yàn)的方法,以二元至四元線性回歸為例,討論了13種常用穩(wěn)健估計(jì)方法在不同觀測(cè)值數(shù)量、粗差數(shù)量和粗差數(shù)值情況下的穩(wěn)健性,確定了多元線性回歸相對(duì)更為有效的穩(wěn)健估計(jì)方法。
(1)Huber法:
(11)IGG方案:

定義:觀測(cè)值的真誤差與觀測(cè)值的殘差之差為殘余真誤差,用 f表示。

式中,fk是殘余真誤差,Δk是觀測(cè)值Yk的真誤差,vk是通過(guò)參數(shù)估計(jì)方法得到的觀測(cè)值Yk的殘差。Δk=-Yk,vk=-Yk,其中是觀測(cè)值Yk的真值,是觀測(cè)值Yk的估值,n是觀測(cè)值的數(shù)量。
兩種參數(shù)估計(jì)方法比較的絕對(duì)指標(biāo)—?dú)堄嗾嬲`差均方誤差(MSRTE):

兩種參數(shù)估計(jì)方法比較的相對(duì)指標(biāo)—相對(duì)增益(RG):

設(shè):i=1,2,…,S;S表示仿真實(shí)驗(yàn)的次(組)數(shù)。j=1,2,…,n ;n 表示觀測(cè)值的數(shù)量。表示觀測(cè)值的真值。δij表示服從正態(tài)分布N(0,的隨機(jī)誤差,由隨機(jī)誤差模擬函數(shù)生成。g表示觀測(cè)值中包含粗差的數(shù)量。θij表示隨機(jī)誤差 δij是否被粗差 ε所取代,每一組θij(j=1,2,…,n)的值由g個(gè)1和n-g個(gè)0構(gòu)成,由隨機(jī)函數(shù)生成。對(duì)于其中的每一組隨機(jī)誤差 δij(j=1,2,…,n),當(dāng)θij=1時(shí),隨機(jī)誤差 δij用粗差 ε代替,生成S組同時(shí)包含g個(gè)粗差的隨機(jī)誤差Δij:


對(duì)于S組模擬觀測(cè)值中的每一組,用參數(shù)估計(jì)方法計(jì)算觀測(cè)值殘差vij,進(jìn)而計(jì)算殘余真誤差均方誤差。用S組殘余真誤差均方誤差的平均值作為該參數(shù)估計(jì)方法在觀測(cè)值中同時(shí)包含g個(gè)粗差ε時(shí)的殘余真誤差均方誤差。同樣的方法計(jì)算不同參數(shù)估計(jì)方法的殘余真誤差均方誤差,然后計(jì)算每一種穩(wěn)健估計(jì)方法相對(duì)于LS法的相對(duì)增益。
1.4.1 二元線性回歸
蒸發(fā)量y與溫度x1和相對(duì)濕度x2的關(guān)系滿(mǎn)足下面的二元線性回歸方程:

1.4.2 三元線性回歸
產(chǎn)值 y與氮投入x1,磷投入x2和鉀投入x3的關(guān)系滿(mǎn)足下面的三元線性回歸方程:

1.4.3 四元線性回歸
軸承整徑力參數(shù)y與變形程度x1,摩擦系數(shù)x2,變形溫度x3,套圈重量x4的關(guān)系滿(mǎn)足下面的四元線性回歸方程:

本例說(shuō)明了不同穩(wěn)健估計(jì)方法的穩(wěn)健性是不同的。在本文的仿真實(shí)驗(yàn)中,用于計(jì)算相對(duì)增益的殘余真誤差均方誤差是1000次仿真實(shí)驗(yàn)的平均值。

表1 三元線性回歸模擬觀測(cè)值和計(jì)算結(jié)果
圖1為二元線性回歸在n=6且g=1,n=7且g=1,n=8且g=1-2,n=9且g=1-2,n=10且g=1-2,n=11且g=1-2和n=12且g=1-3時(shí),13種穩(wěn)健估計(jì)方法的平均相對(duì)增益。
由圖1可知,L1法和German-McClure法比其他穩(wěn)健估計(jì)方法更能有效地消除或減弱粗差的影響。當(dāng)ε=5.0 σ0時(shí),L1法和German-McClure法的平均相對(duì)增益均為24%,而其他穩(wěn)健估計(jì)方法的平均相對(duì)增益均小于或等于16%。當(dāng)ε=10.0σ0時(shí),L1法和German-McClure法的平均相對(duì)增益分別為51%和52%,而其他穩(wěn)健估計(jì)方法的平均相對(duì)增益均小于或等于39%。

圖1 不同穩(wěn)健估計(jì)方法相對(duì)于LS法的平均相對(duì)增益(二元線性回歸)
圖2為三元線性回歸在n=9且g=1,n=10且g=1-2,n=11且g=1-2,n=12且g=1-3和n=13且g=1-3時(shí),13種穩(wěn)健估計(jì)方法的平均相對(duì)增益。
由圖2可知,L1法和German-McClure法比其他穩(wěn)健估計(jì)方法更能有效地消除或減弱粗差的影響。當(dāng)ε=5.0 σ0時(shí),L1法和German-McClure法的平均相對(duì)增益分別為20%和19%,而其他穩(wěn)健估計(jì)方法的平均相對(duì)增益均小于或等于15%。當(dāng)ε=10.0σ0時(shí),L1法和German-McClure法的平均相對(duì)增益均為47%,而其他穩(wěn)健估計(jì)方法的平均相對(duì)增益均小于或等于43%。

圖2 不同穩(wěn)健估計(jì)方法相對(duì)于LS法的平均相對(duì)增益(三元線性回歸)
圖3為四元線性回歸在n=9且g=1,n=10且g=1-2,n=11且g=1-2,n=12且g=1-3,n=13且g=1-3和n=14且g=1-3時(shí),13種穩(wěn)健估計(jì)方法的平均相對(duì)增益。
由圖3可知,L1法和German-McClure法比其他穩(wěn)健估計(jì)方法更能有效地消除或減弱粗差的影響。當(dāng)ε=5.0 σ0時(shí),L1法和German-McClure法的平均相對(duì)增益分別為18%和17%,而其他穩(wěn)健估計(jì)方法的平均相對(duì)增益均小于或等于12%。當(dāng)ε=10.0σ0時(shí),L1法和German-McClure法的平均相對(duì)增益均為47%,而其他穩(wěn)健估計(jì)方法的平均相對(duì)增益均小于或等于36%。

圖3 不同穩(wěn)健估計(jì)方法相對(duì)于LS法的平均相對(duì)增益(四元線性回歸)
本文采用仿真實(shí)驗(yàn)(1000次)的方法,以含有不同觀測(cè)值數(shù)量、粗差數(shù)量和不同粗差數(shù)值的二元至四元線性回歸為例,對(duì)13種常用穩(wěn)健估計(jì)方法的穩(wěn)健性進(jìn)行了比較。
仿真實(shí)驗(yàn)結(jié)果表明,L1法和German-McClure法是多元線性回歸相對(duì)更為有效的穩(wěn)健估計(jì)方法。它們能更有效地消除或減弱粗差對(duì)回歸系數(shù)估值的影響。
[1]茆詩(shī)松,程依明,濮曉龍.概率論與數(shù)理統(tǒng)計(jì)教程[M].北京:高等教育出版社,2011.
[2]何曉群.現(xiàn)代統(tǒng)計(jì)分析方法與應(yīng)用[M].北京:中國(guó)人民大學(xué)出版社,1999.
[3]王振友,陳莉娥.多元線性回歸統(tǒng)計(jì)預(yù)測(cè)模型的應(yīng)用[J].統(tǒng)計(jì)與決策,2008,(5).
[4]王素立,劉永.基于波動(dòng)相關(guān)性及主分量變換的多元線性回歸模型研究[J].統(tǒng)計(jì)與決策,2012,(22).
[5]高山,李孝軍.關(guān)于最小二乘法的穩(wěn)健性分析[J].統(tǒng)計(jì)與決策,2006,(8).
[6]何霞,劉衛(wèi)鋒.基于全最小一乘準(zhǔn)則的灰色GM(1,1)模型參數(shù)估計(jì)[J].統(tǒng)計(jì)與決策,2006,(8).
[7]吳健平,張立.地理數(shù)據(jù)線性回歸中的穩(wěn)健估計(jì)方法[J].干旱區(qū)地理,1994,17(1).
[8]馮守平,石澤,鄒瑾.一元線性回歸模型中參數(shù)估計(jì)的幾種方法比較[J].統(tǒng)計(jì)與決策,2008,(24).
[9]王曉軍,文毅.陜西分區(qū)烈度衰減關(guān)系研究[J].災(zāi)害學(xué),2012,27(4).
[10]陳曉,張連增.未決賠款準(zhǔn)備金估計(jì)的Munich鏈梯法及其優(yōu)化[J].統(tǒng)計(jì)與決策,2010,(2).
[11]張耀平,曹平,董隴軍.巖石抗剪強(qiáng)度計(jì)算的穩(wěn)健回歸模型及其應(yīng)用[J].科技導(dǎo)報(bào),2010,28(7).
[12]Jia N.N,Ge Y.H.Remainder Reliability and Robust Estimation:A Case Study Using Twelve Simulated Leveling Networks[C].Zhang J.Information Technology Applications in Industry.Switzerland:Trans Tech Publications,2013.