蘇依官, 樊亞莉, 徐孝琳
(上海理工大學 理學院,上海 200093)
普通最小二乘(OLS)估計和最大似然(ML)估計是線性回歸模型[1]中常用的參數(shù)估計方法。這些方法在分布假設(shè)合理的情況下表現(xiàn)良好,但是,當實際的數(shù)據(jù)不一定滿足這些假設(shè)的情況下,這些方法所得到的估計會有較大偏差,這時需要考慮其他非參數(shù)估計方法。經(jīng)驗似然(EL)方法就是一種非參數(shù)推斷方法,它是由Owen于1988年在完全樣本下提出的一種統(tǒng)計推斷方法[2],它有類似于boot-strap方法的抽樣特性。這一方法與經(jīng)典的統(tǒng)計方法相比優(yōu)點突出,當用經(jīng)驗似然方法構(gòu)造置性區(qū)間時,它具有域保持性、變換不變性、Bartlett糾偏性等諸多優(yōu)點。同時,經(jīng)驗似然置信域的形狀只由樣本決定,無需構(gòu)造樞軸統(tǒng)計量[2-3]。正因為如此,經(jīng)驗似然統(tǒng)計方法引起了許多學者的重視,他們將這一方法應(yīng)用到各種統(tǒng)計模型及統(tǒng)計推斷問題中,如總體均值的估計、線性回歸模型的擬合、分位數(shù)的估計[4]、估計方程[5]的建立,同時它也可以在不完全的刪失數(shù)據(jù)[3]中得到很好的應(yīng)用。實際上,EL方法的本質(zhì)是帶約束的最優(yōu)化問題,在經(jīng)驗似然方法中,對每個觀測值賦于一個權(quán)重,EL估計就是最大化權(quán)重乘積,而人們感興趣的參數(shù)一般體現(xiàn)在該最大化問題的約束條件中。
眾所周知,OLS,ML估計方程對異常值較為敏感,當數(shù)據(jù)中存在異常值時,用普通的OLS和ML估計方法所得估計會有較大的偏差和方差,而穩(wěn)健的估計方法恰好可以彌補這一點,有許多學者討論了穩(wěn)健估計的重要性以及如何構(gòu)造穩(wěn)健估計量[6-10]。它可以在異常值存在的情況下,選擇適當?shù)囊种飘惓V涤绊懙募夹g(shù),使參數(shù)估值盡可能不受其影響,得出正常模式下的最優(yōu)或接近最優(yōu)的參數(shù)估值。由于EL方法目標函數(shù)的約束條件繼承了OLS估計方程的原理,而異常值的存在也可能對EL估計產(chǎn)生較大的影響,因此,如何改進EL方法約束條件中的估計方程使之能夠有效抑制異常值的影響,這是一個值得研究的問題。文獻[11]考慮將穩(wěn)健估計方程和經(jīng)驗似然方法結(jié)合起來,構(gòu)造穩(wěn)健的經(jīng)驗似然估計,但是,他們的估計方程只考慮了限制因變量中的異常值,對自變量中可能存在的異常值并沒有采取相應(yīng)的措施。
本文考慮穩(wěn)健的經(jīng)驗似然估計方法,基于經(jīng)驗似然方法,在約束條件的估計方程中用一個依賴于自變量的權(quán)重函數(shù)使得杠桿點對估計方程的影響降低,并且對殘差項使用一個有界的得分函數(shù)來限制因變量中異常點的影響,從而在數(shù)據(jù)分布來源未知的情況下有效地抑制可能的異常值對估計的影響。
考慮一般線性模型


對線性模型(1),EL估計是下面優(yōu)化問題的最優(yōu)解[4,12]。
最大化目標函數(shù)

其約束條件為

記


考慮到實際數(shù)據(jù)受各種因素的影響,會有不同程度的污染,若僅按式(2)估計,勢必會有較大的偏差。于是,在經(jīng)驗似然估計的基礎(chǔ)上進行穩(wěn)健化處理[13-14],即穩(wěn)健的經(jīng)驗似然估計。
a. 定義有界得分函數(shù)





現(xiàn)針對提出的穩(wěn)健經(jīng)驗似然估計解的存在性以及估計量、統(tǒng)計量的性質(zhì)給出一些理論證明,證明方法類似于文獻[4]。記,,定義

顯然,上式的最小值點為式(5)的解[15]。

這里

式(2)的解等價于如下目標函數(shù)的解[16]:

對于一般的帶約束的函數(shù)求極值普遍采用拉格朗日乘數(shù)法,得到下式:


式(7)的一階梯度為



那么,式(7)的Hessian矩陣可表示為


根據(jù)牛頓迭代原理,可以得到


該算法的步驟可以歸結(jié)如下:
由于穩(wěn)健方法與非穩(wěn)健方法的區(qū)別只在估計方程中,因此,算法類似,只是將和變成和。其拉格朗日函數(shù)為

新的迭代式為




為了研究穩(wěn)健經(jīng)驗似然估計方法在有限樣本下的表現(xiàn)效果,通過模擬試驗將穩(wěn)健方法與非穩(wěn)健方法以及最小二乘方法進行比較。
試驗1 對于一般的參數(shù)估計方法,誤差項往往取自標準正態(tài)分布,為了說明本文所述方法同樣適用,在試驗1中取自。
試驗2 考慮到本文的估計方法是一個非參數(shù)方法,不同于參數(shù)的方法,其對誤差項分布來源沒有太嚴格的要求,為了驗證這一點,在試驗2中取 自。
為了考察本文的穩(wěn)健方法的優(yōu)勢,對于試驗1通過幾種污染數(shù)據(jù)的方式產(chǎn)生數(shù)據(jù)中的異常值。
污染3 污染1,污染2同時進行。
在表1中,NR表示在無污染下的非穩(wěn)健方法,R表示在無污染下的穩(wěn)健方法,NR-C1表示在污染1下的非穩(wěn)健方法,R-C1表示在污染1下的穩(wěn)健方法;在表2中,OSL-t(1)表示在殘差項服從t(1)厚尾分布下的最小二乘法方法,其余符號的含義類似。記錄下3個分量在各指標下的結(jié)果,每個指標下各設(shè)置1個綜合量,利用3個結(jié)果的二范數(shù)來更直觀地比較各種估計方法的優(yōu)劣。

表 1 試驗1的模擬結(jié)果Tab.1 Simulation results of experiment 1
結(jié)論:
a. 穩(wěn)健與非穩(wěn)健方法處理無污染數(shù)據(jù)的情況。對于誤差項來自的情況,大體上穩(wěn)健方法的3個指標的綜合量略微大于非穩(wěn)健方法的,因為,穩(wěn)健方法損失了數(shù)據(jù)中的一些信息,這完全是正常的。對于誤差項來自的情況,穩(wěn)健方法的3個指標的綜合量均大幅小于非穩(wěn)健方法的,在表2中,,的偏差分別為0.777,0.061,方差分別為43.996,0.381,均方誤差分別為44.402,0.384,說明穩(wěn)健方法的優(yōu)勢尤為明顯。
c. 從方差角度觀察,污染1(僅對X污染的情況),以及誤差項來自的情況,穩(wěn)健的方法的該指標各個分量基本都小于非穩(wěn)健方法的。而對于污染2、污染3(即包含對的污染),大體上穩(wěn)健方法的該指標各個分量基本只是略微大于非穩(wěn)健方法的,說明該穩(wěn)健方法在受污染時對方差的控制也比較穩(wěn)定。

表 2 試驗2的模擬結(jié)果Tab.2 Simulation results of experiment 2
將本文提出的穩(wěn)健經(jīng)驗似然估計方法應(yīng)用到全國各地區(qū)房價預測中,這批數(shù)據(jù)共收集了35個地區(qū)在2014年的住宅商品房平均銷售價格及在崗職工平均工資、生產(chǎn)總值、住宅房屋竣工面積3個可能的影響因素數(shù)據(jù)。其數(shù)據(jù)來源于國家統(tǒng)計局及各城市的統(tǒng)計年鑒http://www.stats.gov.cn/。
將每個地區(qū)看作一次觀測,每次觀測有4個數(shù)據(jù),將觀測到的住宅商品房平均銷售價格作為因變量,將剩下的3個觀測指標作為基本自變量,在此基礎(chǔ)上添加3個自變量平方項、交叉項作為生成自變量。對于交叉項,經(jīng)實際數(shù)據(jù)的回歸分析只取在崗職工平均工資與生產(chǎn)總值乘積項。

考慮到實際數(shù)據(jù)各項指標單位不同,數(shù)值差異較大,因此,先將各項指標標準化,使其均值為0,方差為1。現(xiàn)將本文的穩(wěn)健經(jīng)驗似然估計方法與非穩(wěn)健經(jīng)驗似然方法應(yīng)用到這批數(shù)據(jù)中。為了考察本文方法的穩(wěn)健性,進一步用交叉驗證方法比較穩(wěn)健與非穩(wěn)健方法的兩種表現(xiàn),每次剔除1個地區(qū)數(shù)據(jù),用剩下34個地區(qū)數(shù)據(jù)估計式(11)中的回歸系數(shù),并用CV來衡量兩種方法在交叉驗證過程的穩(wěn)健性,定義


在表3中,NR為普通經(jīng)驗似然估計,R為穩(wěn)健經(jīng)驗似然估計,VNR為普通經(jīng)驗似然估計的方差,VR為穩(wěn)健經(jīng)驗似然估計的方差。從表3數(shù)據(jù)可以看出,穩(wěn)健經(jīng)驗似然估計在穩(wěn)定性方面優(yōu)于普通經(jīng)驗似然估計,這一點可以通過對比VNR與VR在各系數(shù)下的值來得到。

表 3 穩(wěn)健與非穩(wěn)健方法對房價數(shù)據(jù)的結(jié)果分析Tab.3 Analysis results on the price data by the robust and unsteady methods
觀察前3個比較直觀的變量,分別為在崗職工平均工資、生產(chǎn)總值、住宅房屋竣工面積。從經(jīng)濟學角度來說,供給和需求是決定商品價格的2個方面。住宅房屋竣工面積是通過供給方面來影響房價的。從經(jīng)濟意義上講,住宅房屋竣工面積越多,說明對商品房的供給越多,房價的增長速度應(yīng)該放緩,直至下降。因此,的理論值應(yīng)是負的,本文的估計結(jié)果與之相符。在崗職工平均工資、生產(chǎn)總值是通過需求方面來影響房價的。人均可支配收入決定個人消費水平的高低,隨著收入水平的提高,消費能力也會相應(yīng)提高,增加的居民可支配收入會提高房屋的銷售價格。收入的上漲可以收縮買房時間,這直接影響房地產(chǎn)的銷售量和銷售額。人均可支配收入較高的城市,其居民有相對充足的資金購房,其房價自然較高;反之,若房價相同,人均可支配收入較低城市的居民沒有足夠的資金購房,房價無疑會下降。因此,的理論值應(yīng)是正的,由于受到部分地區(qū)的異常值影響,導致經(jīng)驗似然估計結(jié)果較差,為-1.71,而本文的穩(wěn)健方法可以較大程度地減小這種影響,其估計結(jié)果為-0.89。房價是商品價格的體現(xiàn),當生產(chǎn)總值增長時,房價也會隨之增長。日本在1991年之前長時間的經(jīng)濟增長與房地產(chǎn)泡沫可以體現(xiàn)這點。美國的經(jīng)濟飛速增長,房價也隨之增長。反之,如我國東三省因為依賴的重工業(yè)發(fā)展緩慢,導致生產(chǎn)總值增長緩慢,人口外流,從而間接導致房價下降。因此,的理論值應(yīng)是正的。
CV值越小,表示該方法穩(wěn)健效果越好。計算非穩(wěn)健方法的CV值為19.97,穩(wěn)健方法的CV值為18.66,小于前者,因此,穩(wěn)健方法得到的結(jié)果比較穩(wěn)定,同時也說明了數(shù)據(jù)中存在某些異常值。實際上,杭州、北京、深圳等幾個城市的房價確實存在過高現(xiàn)象,這與本文的分析結(jié)果相符。
基于穩(wěn)健估計方程和經(jīng)驗似然方法,提出穩(wěn)健經(jīng)驗似然估計,研究了相應(yīng)的算法,并作了大量模擬研究。研究表明,當數(shù)據(jù)中不含異常值時,穩(wěn)健經(jīng)驗似然估計的效果和普通的經(jīng)驗似然估計的效果是相近的,但是,當數(shù)據(jù)中含有異常值時,穩(wěn)健經(jīng)驗似然估計的效率明顯高于普通的經(jīng)驗似然估計的效率。隨著污染力度和污染比例的增加,穩(wěn)健經(jīng)驗似然估計方法的優(yōu)勢更為明顯。同時,模擬表明,作為一種非參數(shù)估計方法,本文的穩(wěn)健經(jīng)驗似然估計適用于分析非正態(tài)的數(shù)據(jù)。因此,對于實際生活中的數(shù)據(jù)分析,建議使用穩(wěn)健經(jīng)驗似然估計。
在本文研究的基礎(chǔ)上,進一步還可以考慮將穩(wěn)健經(jīng)驗似然估計方法運用到縱向數(shù)據(jù)分析中,同時還可以考慮在穩(wěn)健估計的基礎(chǔ)上作變量選擇等,這些問題都值得進一步研究。