高佳佳,何曉霞
(武漢科技大學理學院,湖北 武漢,430065)
半參數回歸模型結合了線性回歸和非線性回歸模型,既包含參數分量又包含非參數分量。參數分量用于對確定性因素進行分析,而非參數部分能夠對隨機干擾因素進行刻畫。與線性模型相比,半參數回歸模型更具靈活性,能更好地解釋每一個變量的效應,因此,其在理論研究和實際應用中都有重要意義。
針對具體問題,通常假設數據來自于某一參數模型或非參數模型,然而許多實際問題并沒有那么簡單。例如,影響考察對象(指標Y)的因素(解釋變量)可分為兩部分,即(X1,X2,…,Xp)及T,根據經驗或歷史資料可以認為因素 (X1,X2,…,Xp) 是主要的,Y與(X1,X2,…,Xp)線性相關,而T則是某種干擾因素(或看作為協變量),它同Y的關系是完全未知的,而且沒有理由將其納入誤差項,如果用非參數回歸加以處理,則會丟失太多的信息,若采用線性回歸方法,一般擬合情況很差,這種情況下就可采用半參數回歸模型。

為了解決異常值的問題,研究人員開始考慮穩健估計方法。Zhu等[7]提出針對大維度協變量的穩健估計方法。Yao等[8]基于局部模態回歸建立了一種用于非參數模型的估計方法,能根據觀測數據自動調整參數。該估計方法不僅在數據集包含異常值或者誤差分布重尾的時候具有穩健性,還能滿足數據集沒有異常值或者誤差分布為正態分布時的漸進最小方差性。Zhao等[9]基于模態回歸研究了半參數變系數部分線性模型。本文擬運用模態回歸來研究半參數部分線性模型中參數和非參數部分的估計問題,探討估計量的大樣本性質。
半參數部分線性模型的一般形式可以表示為
(1)
式中:Yi為響應變量;Xi=(xi1,xi2,…,xip)T;β=(β1,β2,…,βp)T為待估未知參數;(Xi,Ti)是獨立同分布的隨機設計或固定非隨機設計點列;εi是獨立同分布的隨機誤差項;g(·)是定義在R上的未知光滑函數。
作為衡量指標,均值、中值和模是誤差分布的3個重要數值特征,其中,中值和模在處理異常值上具有同等的穩健性。另外,模態回歸對于大多數的數據可以提供有意義的點預測,并且對于相同長度的區間估計,當誤差分布不規則時,模態回歸相比于其他方法能預測更大的范圍,同時預測結果更有意義。
(2)

假設(Xi,Ti)i=1,…,n是模型(1)的獨立同分布樣本。由于g(·)是未知的非參數函數,在文獻[8]中采用局部多項式來近似g(·)。對于半參數模型,局部多項式估計有兩個缺點:①β是一個全局參數,為了得到它的最優相合估計,需要采用兩步估計法;②局部多項式估計的計算量非常大,尤其是在高維模型中。


(3)

(C1) 指標變量T具有有界支撐Ω,其密度函數fT(·)為正,并且有連續的二階導數。不失一般性,這里假設Ω=[0,1]。
(C2) 函數g(·)是區間[0,1]上r階連續可微的函數,其中r>2。

(C4) 令t1,…,tK為[0,1]區間的內部節點,t0=0,tK+1=1,ξi=ti-ti-1,ξ=max{ξi},存在常數C0使得
(C5)F(x,t,h)關于(x,t)連續。
(C6) 對于任意的h>0,有F(x,t,h)<0。




(4)


Ξ(β,θ)=





針對I1進行泰勒展開,有





結合條件(C4)、(C7)和‖U(ti)‖=O(K-r),可以得到


=Op(nK-r‖v‖)
(5)
因此I1=Op(nδK-(r+1)‖v‖)=Op(nδ2K-1‖v‖)。
對于I2,可以證明
I2=E[F(X,T,h)]Op(nK-1δ2‖v‖2)
(6)
因此,若選擇足夠大的常數C,則I2可通過‖v‖=C控制I1。
同樣可以證明
I3=Op(nK-1δ3‖v‖3)
(7)
當n→的時候,有δ→0,因此δ‖v‖→0,從而有I3=op(I2)。故I2通過‖v‖=C控制I3。
因為I1、I2、I3均可以通過‖v‖=C控制,并且由條件(C6)知F(x,t,h)<0,所以通過選擇足夠大的常數C,有Ξ(β,θ)<0,從而有Q(β,θ)0,式(4)成立。
因此存在一個局部最大化,使得
(8)
以上為定理1中結論(I)的證明,接下來證明結論(II)。
由于
不失一般性,基于式(3),假設誤差變量與Xi、Ti是獨立的,并且類似于文獻[12]中給出的最小二乘B樣條估計(LSB)的漸進方差,這里給出BSMR估計量的漸進方差的比率:

(9)

可通過下式來選擇h:
hopt=argminhr(h)=argminhG(h)F-2(h)
(10)
由式(10)可以知道,hopt僅由ε的條件誤差分布來決定。
需要指出的是,根據r(h)的表達式:當h>0的時候,如果誤差服從標準正態分布,infhr(h)=1;如果不考慮誤差分布,infhr(h)≤1。因此,BSMR方法要優于或至少不劣于LSB方法,尤其是當誤差分布有重尾或者大方差的時候,BSMR的性能要比LSB的性能好很多。
在實際應用中,若不知道誤差分布,則得不到G(h)和F(h)。通常用下式來估計G(h)和F(h):

(11)



步驟1(E-step)通過下式更新π(i/θ(l)):
π(i/θ(l))=
i=1,2,…,n
步驟2(M-step)更新γ:

=(WTZW)-1WTZY,
其中,W=(W1,W2,…,Wn),Z=diag(π(1/γ(l)),…,π(n/γ(l))),Y=(y1,y2,…,yn)。

由于該算法的收斂值可能會依賴于初始值,并且不能保證EM算法可以收斂到全局最優解,因此需要對不同的初始值進行計算,并從中選取局部最優解。
另外,對于以上的估計過程,需要確定最優的節點數K,本文選取最大化交叉驗證函數的解作為最優節點數,即


(12)


對于非參數部分,使用均方誤的平方根(square root of average square errors, RASE)指標來評價估計結果:
(13)

用文獻[11]中定義的廣義均方誤(generalized mean square error, GMSE)來評價參數部分的估計結果:
(14)
數值模擬結果如表1所示,為了檢驗BSMR估計量的優效性和穩健性,表中還列出最小二乘B樣條估計(LSB)[12]的結果進行對比分析。
從表1中可以看出,對于參數部分的估計,LSB和BSMR的估計誤差都很小,性能比較接近,而且隨著樣本量的增加,兩種估計的結果都會逐漸變好;對于非參數部分,當誤差服從正態分布或者t分布時,BSMR估計誤差比LSB的小很多,當誤差服從混合正態分布時,BSMR的估計結果也好于LSB,但是差距不是特別明顯。總的來看,BSMR估計要優于LSB估計。
下面通過實例來驗證BSMR估計方法的可行性。采用Nierenbrg等[16]收集的血漿中β胡蘿卜素的水平數據,該數據集有315個觀測值,本文研究血漿中β胡蘿卜素的水平與下列因素的關系:年齡,性別,吸煙狀況,克托萊指數,維生素服用情況,食物熱量(卡路里),脂肪、膳食纖維、酒精飲料和膽固醇的攝入量。
應用模型(1)進行分析,其中T為年齡,協變量吸煙狀況和維生素服用情況是分類變量,重新將它們設置為虛擬變量;將以上的虛擬變量和離散變量(性別)以及酒精飲料攝入量作為參數部分的協變量。將年齡指標T歸一化處理。

表2給出了模型的系數以及參數估計的標準差。由表2可見,BMSR的MAPE值比LSB的MAPE值小,即BSMR 的擬合效果優于LSB,再次驗證了本文方法的可行性及有效性。

表1 不同誤差分布下的模擬結果

表2 參數估計值及其MAPE