闕 燁
(淮南師范學院 金融與數學學院,安徽 淮南 232038)
混合效應模型廣泛應用于分析相關數據,如縱向數據和重復測量數據等。Pang 和Xue(2012)[1]討論了單指標混合效應模型在縱向數據下的估計方法,使用調整邊界效應的估計方程得到單指標部分的估計,同時使用局部線性光滑的方法估計聯系函數。而單指標模型首先考慮P 維協變量X 的線性組合,把所有的協變量投影到一個線性空間上,然后在這個一維線性空間上擬合一個一元函數。由于指標β0TX 合并了X 的維數,把P 維協變量降到一元指標,從而使得單指標模型避免了多元非參數回歸中出現的“維數災禍”問題。鄒清明(2008)[2]研究了單指標模型的統計推斷問題。Ma 等(2014)[3]研究了部分線性單指標模型在重復測量數據下的估計問題,并利用多項式樣條近似非參數函數,利用二次推斷函數估計線性參數部分。Wang 和Wang(2015)[4]討論了單指標預測模型中發散指標參數的樣條估計與變量選擇問題。關于參數估計和變量選擇的文獻還有很多,具體可參看文獻[5-7],而本文主要研究單指標混合效應模型的估計和變量選擇問題:

式中,β0是p×1 維指標系數向量,bi是零均值且協方差矩陣為D(這里D 是正定矩陣)的獨立q×1 隨機效應向量,g(·)是未知聯系函數,εij具有零均值和方差σε2>0 的獨立隨機向量,隨機變量Xij和Yij可以被觀測,Zij為固定設計矩陣。假設bi和εij相互獨立。
設Yi=(Yi1,…, Yim)T,Xi= (Xi1, …, Xim)T,G(Xiβ0) =εim)T。那么,通過變換可以將模型(1)表示成如下的形式:

初值β0可以模擬線性模型獲得,接下來將給出G(·),β,的估計過程。
令Ui=Xiβ0,使用B 樣條將聯系函數G(Ui)近似表示為G(Ui)=(g(Ui1),…, g(Uim))T= Bi(Ui)c,則(2)式可以表示為, …, n。這里,得到

接下來將給出參數β 的估計值。為了模型的可識別性,根據薛留根(2012)[12],假設 β =1,且它的第一個非零元素為正數,更多細節可參看Lin 和Kulasekern(2007)[13]。因此在假設 β =1 下關于β極小化目標函數:


參數和非參數部分的估計量的漸近方差依賴于方差分量,因此本節討論方差部分的估計值,所使用的估計方法類似于Pang 和Xue(2012)[1]和薛留根(2012)[12]。假設模型(1)的協方差矩陣為向量,并假設殘差的均值為0,且與g(·)具有相同的協方差陣,bi和εij服從正態分布,因此可以得到Yi~N(G(Xiβ0),V ),用β0和g(·)的最終估計結果β?和g?*(·)代替,能夠獲得的正態似然函數:

變量選擇是統計數據分析必不可少的工具。在實例應用中,真模型常常預先是未知的,一個欠擬合的模型會產出有偏差的估計和預測值,一個過擬合的模型會降低參數估計和預測的效率,因此在最終模型中一些不重要的變量應該被忽略以提高模型的擬合精度。本文采用平滑剪切絕對偏差(SCAD)規則化方法研究模型(1)的變量選擇問題。利用SCAD 懲罰,定義懲罰最小二乘目標函數Lps(β0, c)=和G(Ui)的懲罰多項式樣條估計可分別定義為β?PS=
定理1 在附錄(A1)-(A6)的條件下,有

例 考慮如下形式的模型:

其 中β0=( 3 ,1, 0.5, 0,0,0,0,0,0,0)T,Xij是10 維隨機變量且Xij~U(0, 2),bi~N(0, 1),εij~N(0, 0.16),g(u)=16(u-1)2,Yij可以從(4)式中產生。樣本的觀察數n 分別取50,100,150,且每個個體的重復測量數為5。在模擬的過程中,通過擬合線性模型得到參數的初值β0。

表 1 估計值β?與真實值β0 的內積的均值和標準差

圖 1 g(·)的實際曲線和估計曲線圖

圖 2 g?(·)的500個RMSEs的箱線圖
當n=100,圖1 給出了g(u)=16(u-1)2的實際曲線圖和估計曲線圖,可以看出估計曲線圖和實際曲線圖是幾乎吻合的,說明了上述估計方法在數據模擬方面是優良的。圖2 給出了n=100 的情況下g?(·)的500 個RMSEs 值的箱線圖,從圖形中可以看出RMSE 的值非常小。最后,通過模擬得出σb2和σε2的估計值分別是0.886 3 和0.192 2。
最后,我們通過數值模擬來研究1.4 節中提出的變量選擇方法(SCAD),類似于Li 和Liang(2008)[15],我們用GMSE(廣義均方誤差)來評價參數分量β?的估計精度,其定義為GMSE= (β?-β0)TE (ZZT)(β?-β0),并 且 利 用 平 均 平 方 誤 差 的 平 方 根(RASE)來評價非參數分量的估計精度,其定義為N 為用于計算g?(u)的格子點,取N=200。我們使用1.4 節提出的基于SCAD 的變量選擇方法進行研究,基于200 次重復實驗,關于參數分量和非參數分量的模擬結果如表2 所示。其中“C”表示把真實零系數估計成0 的平均個數,“I”表示把真實非零系數估計成0 的平均個數。
從表2 可以看出,隨著樣本容量n 的增大,基于變量選擇方法的結果越來越接近于真實模型,并且對應參數分量的GMSE 和對應非參數分量的RASE 均隨著n 的增加而減小。

表 2 基于SCAD 的變量選擇結果
下列正則條件將用于定理的證明。
(A1)協變量X, Z 是有界的。
(A2)未知聯系函數g(·)的二階導數是有界連續的。
(A3)存在常數r = max{4, s},使得E( Xiir)<∞,E( bir)<∞和E( εiir)<∞。
(A4)令γii= αi+ εii,表示第r 個個體的誤差值,且存在常數c0使得E[γ2]≤c0<∞。
(A5)對任何i,(XiT1β,…, XiTmβ )T的聯合密度存在;對任何j1≠j2,βTXij的邊際密度fj(u)和(XiTj1β, XiTj2β )的聯合密度fj1j2(u, s)分別在u0∈Uw和(u0, so∈Uw×Uw)處是連續可微的;存在某個j 使得fj(u)在u∈Uw和接近β0的β 點上一致有界的遠離0,其中Uw是w(u)的支撐集。

為了證明定理1,我們引用Mack 和Silverman(1982)[16]中的結果。
引理1設(ξ1, η1),…(ξn, ηn)是iid 隨機變量,其中ηi是一維隨機變量,進一步,假設<∞和合密度函數。設K (·)是具有有界支撐的有界正函數,并滿足Lipschitz 條件。如果對某個τ<1 - s-1,有n2τ-1h →∞,則

定理1的證明 設c 表示任意正的常數,引用引理1 可以證得:對u∈Uw和β∈Bn一致成立

定理2 的證明該證明過程由定理1 和薛留根(2012)[12]中定理9.3.2 推導可以得出,因此省略該過程。
定理3 的證明定理3 的證明方法和Pang 和Xue(2012)[1]中定理3 的方法相似,因此省略其證明過程。