朱 寧,黃黎平
(桂林電子科技大學(xué)數(shù)學(xué)與計算科學(xué)學(xué)院,廣西桂林541004)
考慮一般線性模型:

其中Y為n×1觀測向量,X為n×p列滿秩設(shè)計陣,β為p×1未知參數(shù)向量,ε為n×1隨機(jī)誤差,I為n階單位矩陣。在一切線性模型的無偏估計中,最小二乘估計[2~7]具有最小方差但這并不代表在整個線性估計類中是最好的估計。當(dāng)設(shè)計矩陣X含有多重共線性或近似的多重共線性時,X′X接近奇異,它的某些特征根非常接近于0,于是總存在 r<p,使得 X′X的特征根有 λ1≥…≥λr≥1≥λr+1…≥λp>0此時最小二乘估計就變得很差,于是人們就提出了一系列的有偏估計(以下均作這樣的假設(shè))1984年M.R.Baye和D.F.Parker結(jié)合主成分估計[8]和嶺型估計[9],提出了嶺型主成分估計估計,文獻(xiàn)[4-6]討論了嶺型主成分估計的部分優(yōu)良性,文獻(xiàn)[1]討論了嶺型主成分估計在數(shù)據(jù)刪除模型下的影響函數(shù),本文在以上的基礎(chǔ)上首先考慮嶺型主成分估計下數(shù)據(jù)刪除模型的強(qiáng)影響問題作了進(jìn)一步的研究,證明了嶺型主成分估計下和最小二乘估計下相關(guān)統(tǒng)計量的關(guān)系并獲得了一系列的結(jié)論,其次利用W-K統(tǒng)計量的思想提出了兩種度量,并通過實(shí)例驗證了這兩種度量方法的有效性。
引理1[1]在模型(1)下提出了未知參數(shù)β的嶺型主成分估計,即在主成分的基礎(chǔ)上再進(jìn)行嶺估計叫做嶺型主成分估計,記作:

其中:

在處理實(shí)際問題時,我們主要考慮數(shù)據(jù)與模型的擬合程度,如果數(shù)據(jù)與模型擬合較好,則去掉一、二個點(diǎn)后參數(shù)的估計量不應(yīng)有太大的改變,如果有太大的改變則說明數(shù)據(jù)其中有異常點(diǎn)或強(qiáng)影響點(diǎn)。下面在嶺型主成分估計下研究數(shù)據(jù)刪除模型下的前后估計量之間的關(guān)系。
引理2[1]在刪除一組數(shù)據(jù)的模型下,由嶺型主成分估計,則有:


證明:

所以:得證。


證明 由帽子矩陣的定義知:


證明由引理2[1]可得:
推論1在嶺型主成分估計下,則:

由以上討論可知,當(dāng)統(tǒng)計量RRESS*較小時,模型在總體上擬合的比較好,因此它在回歸變量的選擇方面也有重要的作用。
推論2在嶺型主成分估計下,對于刪除一組數(shù)據(jù)(yi,xi′)的模型,則有:

證明:

對于無偏估計下的影響度量已有了廣泛的研究,例如:COOK距離,W-K統(tǒng)計量,A-P統(tǒng)計量等。當(dāng)設(shè)計矩陣是病態(tài)時,有偏估計的度量方法更加實(shí)用。
運(yùn)用W-K統(tǒng)計量思想,我們用全部n組數(shù)據(jù)在第i個數(shù)據(jù)點(diǎn)處的預(yù)測值與剔除第i組數(shù)據(jù)后其余(n-1)組數(shù)據(jù)得到的第i個數(shù)據(jù)點(diǎn)處的預(yù)測值之間的差來度量第i組數(shù)據(jù)對回歸模型的影響。
定義1

定義2

推論3基于嶺型組合主成分估計下,數(shù)據(jù)刪除模型的影響統(tǒng)計量的和分別為:

證明:由引理2[1]可直接推出:得證。

本實(shí)例的具體數(shù)據(jù)引自文[1],這組數(shù)據(jù)存在著共線性,為了避免共線性對估計量帶來的不準(zhǔn)確性,因此這里引入嶺型主成分估計是很必要的。分別取K=0.01,K= 0.03,K=0.1,K=0.3計算上述兩個影響度量結(jié)果如表1:

表1 影響統(tǒng)計量
結(jié)果分析:通過實(shí)例可以看出,第9號點(diǎn)的Wi和Mi相對于其他點(diǎn)來說都是最大的,這一結(jié)果與文[1]的結(jié)果相符合,而有推論3可知,第9號點(diǎn)在其意義下都可能是強(qiáng)影響點(diǎn)。由表1可知Wi和Mi在度量數(shù)據(jù)的影響方面總體效果相差不大,都可以用來判定強(qiáng)影響點(diǎn),所以這兩個度量方法對于診斷數(shù)據(jù)點(diǎn)是否為強(qiáng)影響點(diǎn)是有統(tǒng)計意義的。
[1]徐海霞,楊虎.基于嶺型組合主成分估計的影響函數(shù)[J].數(shù)理統(tǒng)計與管理,2005,(24).
[2]楊蓮,楊虎.橢球約束下線性模型的強(qiáng)影響分析[J].工程數(shù)學(xué)學(xué)報, 2007,(24).
[3]王松桂.線性回歸診斷[J].數(shù)理統(tǒng)計與管理,1985,(6),1986,(1).
[4]李兵,陳國華,段復(fù)建.嶺型主成分估計的優(yōu)良性質(zhì)[J].桂林電子科技大學(xué)學(xué)報,2009,(2).
[5]楊婷,楊虎.橢球約束與廣義嶺型估計[J].應(yīng)用概率統(tǒng)計,2003,(3).
[6]隋立芬.嶺型組合主成分估計及誤差影響[J].解放軍測繪學(xué)院學(xué)報, 1997,(14).
[7]韋博成.統(tǒng)計診斷引論[M].南京:東南大學(xué)出版社,1990.
[8]Bayemr,Fparker D.Combining Nidge and Principal Component Egression[J].Common Statist Theory Math,1984,13(1).
[9]Alesandro Bortuzzi,Aebarto Gandocfi Ridge Regression Versus OLS by Pitman’s Closeness under Puadratic and Fisher’s Loss[J].Com?man Statist-Theory Math,1991,20(11).