


【摘 要】 本論文將使用Ordinary Least Square(OLS)和Ridge Regression(RR) 分析“Acetylene Data”。該數(shù)據(jù)源自一組乙炔的反應(yīng)數(shù)據(jù),總共有16 個(gè)觀測(cè)值。其中,響應(yīng)變量向量是y正庚烷(n-heptane)轉(zhuǎn)化為乙炔(acetylene)的轉(zhuǎn)化百分比,自變量x1是反應(yīng)釜的溫度(攝氏),x2是氫氣-乙炔轉(zhuǎn)化百分比,x3是接觸時(shí)間(單位是秒)。通過(guò)研究自變量之間是否有線性相關(guān)關(guān)系,分別選用OLS和RR對(duì)模型進(jìn)行參數(shù)估計(jì),然后通過(guò)刪一交叉驗(yàn)證法選出最合適模型。
【關(guān)鍵詞】 Ordinary Least Square(OLS) Ridge Regress-ion(RR) 刪一交叉驗(yàn)證法 模型選擇
一、文獻(xiàn)綜述
進(jìn)行多重線性回歸分析時(shí),在進(jìn)行參數(shù)估計(jì)時(shí)常用最小二乘法。該方法在數(shù)據(jù)滿足GM(Gauss-Markov)定理時(shí),保證了在線性無(wú)偏估計(jì)類(lèi)中的方差最小性。如果進(jìn)一步假設(shè)誤差服從正態(tài)分布,那么最小二乘法還具有更多更好的性質(zhì)。但是,在實(shí)際應(yīng)用中,許多應(yīng)用實(shí)踐表明,有些情況在運(yùn)用最小二乘法時(shí)并不理想,在個(gè)別情況下可能很不好。自20世紀(jì)50年代特別是60年代以來(lái),許多統(tǒng)計(jì)學(xué)家做了很多努力,試圖改進(jìn)最小二乘估計(jì)。Stein于1955年證明了:當(dāng)維數(shù)大于2時(shí),能夠找到另外一個(gè)估計(jì),它在某種意義下一致優(yōu)于最小二乘估計(jì)。據(jù)此,在后來(lái)的發(fā)展中,統(tǒng)計(jì)學(xué)家提出了許多新的估計(jì)方法,主要有Hoerl(1962)和Hoerl&Kennard;(1970)分別提出和發(fā)展了一種改進(jìn)普通最小二乘估計(jì)的方法,也就是現(xiàn)在大家所熟知的嶺回歸(Ridge Regression),除此以外,還有Stein估計(jì)、主成分估計(jì)以及特征值估計(jì)等。這些估計(jì)的一個(gè)共同特點(diǎn)是有偏性。
嶺回歸通過(guò)對(duì)矩陣XTX的對(duì)角線上增加一組正常數(shù)(即嶺參數(shù)),降低其病態(tài)程度,使得求逆運(yùn)算相對(duì)穩(wěn)定。如果嶺參數(shù)的選擇合理,嶺回歸估計(jì)的結(jié)果會(huì)在僅犧牲較小的無(wú)偏性下極大地降低參數(shù)估計(jì)量的方差。因此,從MSE的標(biāo)準(zhǔn)來(lái)看,嶺回歸可能優(yōu)于普通最小二乘估計(jì)。在主對(duì)角線增加一常數(shù)后,得到嶺回歸估計(jì)的一般形式為,其中,k為嶺參數(shù),通常k≧0,當(dāng)k=0時(shí),嶺估計(jì)即為最小二乘估計(jì),Ip+1為單位矩陣。陳希孺(1984)對(duì)嶺回歸估計(jì)的性質(zhì)做了進(jìn)一步的討論。從計(jì)算的角度來(lái)說(shuō),該估計(jì)式并不是合適的,
其中所使用的是原始的觀測(cè)數(shù)據(jù),這使得截距項(xiàng)β0估計(jì)結(jié)果也被調(diào)整。針對(duì)這一問(wèn)題,Hastie et.al(2001)建議在做嶺回歸之前,有必要對(duì)數(shù)據(jù)做中心化變換,另外還有學(xué)者建議對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化變換,特別是自變量的觀測(cè)值,Raymond(1990)對(duì)標(biāo)準(zhǔn)化變換的必要性給出過(guò)合理的解釋?zhuān)绻蛔觯敲磶X回歸的結(jié)果將會(huì)受到自變量的量綱影響,參數(shù)的估計(jì)值在數(shù)量級(jí)上相差很大,這使得在繪制嶺跡圖時(shí)遇到障礙。
二、模型數(shù)據(jù)分析
2.1模型簡(jiǎn)介
考慮模型23-1個(gè)備選模型,其中的第s-個(gè)模型為 :
其中,腳標(biāo)集S取遍的所有可能的非空子集。
下將7個(gè)備選模型一一列出:
其中,為第j個(gè)自變量的第i個(gè)觀測(cè)。
2.2自變量的描述統(tǒng)計(jì)量
2.2.1計(jì)算各組數(shù)據(jù)的期望、方差、標(biāo)準(zhǔn)差
mean(x1) = 1212.5, mean(x2) = 12.4438, mean(x3) = 0.0403, mean(y) = 36.1063;
var(x1) = 6500, var(x2) = 32.0586, var(x3) = 0.0010, var(y) = 141.5806;
std(x1) = 80.6226, std(x2) =5.6620, std(x3) =0.0316, std(y) =11.8988.
2.2.2 數(shù)據(jù)標(biāo)準(zhǔn)化
由于各自變量的觀測(cè)值的組間差異較大,所以我們首先將數(shù)據(jù)全部標(biāo)準(zhǔn)化,現(xiàn)將Matlab輸出結(jié)果整理為如下表格:
下文中出現(xiàn)的x1,x2,x3,y均為標(biāo)準(zhǔn)化后的數(shù)據(jù)。
2.3自變量間的相關(guān)性分析
令,運(yùn)用Matlab求得各自變量間的協(xié)方差陣即相關(guān)系數(shù)矩陣(數(shù)據(jù)已經(jīng)上述2.2標(biāo)準(zhǔn)化)整理如下:
從上矩陣看出:x1與x3的相關(guān)性很大,x1與x2的相關(guān)性較小,無(wú)法判定運(yùn)用最小二乘法估計(jì)參數(shù)的效果一定不好,但可以初步猜測(cè)運(yùn)用嶺回歸的方法估計(jì)參數(shù)應(yīng)該要優(yōu)于最小二乘法。
三、模型選擇
3.1 OLS法參數(shù)估計(jì)
3.1.1參數(shù)估計(jì)及模型選擇
通過(guò)Matlab,我們同時(shí)對(duì)7個(gè)模型進(jìn)行OLS法參數(shù)估計(jì),通過(guò)刪一交叉驗(yàn)證法,初步選出此時(shí)的最優(yōu)模型。通過(guò)結(jié)果輸出,我們得出以下7個(gè)備選模型:
從上述看出,在最小二乘參數(shù)估計(jì)中,Model 1的CV最小,應(yīng)為最優(yōu)模型。
3.2 RR法參數(shù)估計(jì)
3.2.1參數(shù)估計(jì)及模型選擇
一、當(dāng)CV不參與一步時(shí):
通過(guò)Matlab,我們同時(shí)對(duì)7個(gè)模型進(jìn)行RR法參數(shù)估計(jì),通過(guò)刪一交叉驗(yàn)證法,初步選出此時(shí)的最優(yōu)模型。通過(guò)結(jié)果輸出,我們得出以下7個(gè)備選模型:
Model 1:其中:
由此,綜合OLS法參數(shù)估計(jì)所得七個(gè)標(biāo)準(zhǔn)化回歸方程,CV最小的是根據(jù)RR法參數(shù)估計(jì)所得的第四個(gè)模型和根據(jù)OLS法參數(shù)估計(jì)所得的第一個(gè)模型
二、當(dāng)CV參與一步時(shí):
通過(guò)Matlab,我們同時(shí)對(duì)7個(gè)模型進(jìn)行RR法參數(shù)估計(jì),通過(guò)刪一交叉驗(yàn)證法,初步選出此時(shí)的最優(yōu)模型。通過(guò)結(jié)果輸出,我們得出以下7個(gè)備選模型:
Model 1:其中:
四、結(jié)論
首先,綜合來(lái)看,RR法參數(shù)估計(jì)要比OLS法參數(shù)估計(jì)刻畫(huà)模型的整體效果要好。
其次,綜合OLS法參數(shù)估計(jì)所得七個(gè)標(biāo)準(zhǔn)化回歸方程,RR法參數(shù)估計(jì)中當(dāng)CV不參與一步時(shí)所得七個(gè)標(biāo)準(zhǔn)化回歸方程,RR法參數(shù)估計(jì)中當(dāng)CV參與一步時(shí)所得七個(gè)標(biāo)準(zhǔn)化回歸方程,共計(jì)21個(gè)標(biāo)準(zhǔn)化回歸方程,CV最小的依舊是根據(jù)RR法參數(shù)估計(jì)當(dāng)CV不參與一步時(shí)所得的第四個(gè)模型和根據(jù)OLS法參數(shù)估計(jì)所得的第一個(gè)模型所以:
1、若只看CV值得大小比較,模型1在三組選擇中CV均是最小的,可以選擇OLS法參數(shù)估計(jì)所得模型1。
2、而考慮到該實(shí)驗(yàn)的實(shí)際意義,數(shù)據(jù)源自一組乙炔的反應(yīng)數(shù)據(jù),其中,響應(yīng)變量向量y是正庚烷(n-heptane)轉(zhuǎn)化為乙炔(acetylene)的轉(zhuǎn)化百分比,自變量x1是反應(yīng)釜的溫度(攝氏),x2是氫氣-乙炔轉(zhuǎn)化百分比,x3是接觸時(shí)間(單位是秒),x2與x3具有強(qiáng)相關(guān)性;并且模型1和模型4的三組CV值都相差不到0.01,我們又希望能有更多自變量對(duì)因變量進(jìn)行反映,也許選擇RR法參數(shù)估計(jì)中當(dāng)CV不參與一步時(shí)模型4為宜。
【參考文獻(xiàn)】
[1] Flynn, C. J., Hurvich, C. M. & Simonoff, J. S. (2013). Efficiency for regularization parameter selection in penalized likelihood estimation of misspecified models, Journal of the American Statistical Association 108, 1031–1043.
[2] Hoerl, A.E. & Kennard, R.W. (1970). Ridge regression, biased estimation for nonorthogonal problems. Technometrics 12, 55–67.
[3] Shao, J. (1993). Linear model selection by cross-validation. Journal of the American statistical Association 88, 486-494.
[4] Shao, J. (1997). An Asymptotic Theory for Linear Model Selection, Statistica Sinica 7, 221–264.
[5] Zhang, P. (1991), "Model Selection Via Multifold Cross-Validation," Preprint.
[6] 胡良平.SAS統(tǒng)計(jì)分析教程[M].北京:電子工業(yè)出版社,2010:262-268.
作者簡(jiǎn)介:王爭(zhēng)(1993—)女,漢族,山東德州人,在讀碩士研究生,云南財(cái)經(jīng)大學(xué),合作演化與博弈。