靳永濤, 尹長明, 吳 迪
(廣西大學數學與信息科學學院, 廣西 南寧 530004)
似然是參數模型推斷參數時討論和應用最為重要的概念之一,如最為經典的極大似然估計[1]。經驗似然(EL)是Owen[2-3]在Thomas和Grunkemeier[4]提出的非參數似然比問題的想法下的一種非參數統計推斷方法。在分布函F未知情況下,參數β(F)的經驗似然比統計量在一定條件下收斂到卡方分布并且可以進行假設檢驗和區間估計等。此后Owen[5]和Kolaczyk等[6]將經驗似然方法拓展到線性回歸模型和廣義線性模型中,比較均值經驗似然比估計檢驗,經驗似然的適用范圍得以擴大。Qin和Lawless[7]將Owen求經驗似然比的限制條件進行修改,提出了一個包含參數信息無偏的限制條件,并給出在滿足一定條件下經驗似然比統計量的各種性質與Owen的結果一致。Bai等[8-10]對在縱向數據下經驗似然方法做了富有成果的研究。Li和Pan[11]提出在不服從獨立同分布的縱向數據下將廣義估計方程中含參數信息的模型加入求經驗似然比的限制條件中,進一步拓展了經驗似然方法的適用范圍。
上面給出經驗似然方法的應用范圍和理論支撐,但選取的模型較為簡單,同時模型的理論證明條件較強,不易驗證。本文在上述作者研究的基礎上,分析含有參數信息GEE模型下的經驗似然方法,在較易驗證的條件下給出經驗似然估計存在性、相合性和漸近正態等的理論證明,并運用R語言進行統計模擬。

Qin和Lawless[7]的EL模型是在Owen早期EL模型的推廣,EL模型如下
(1)
(2)

廣義估計方程(GEE)是Liang和Zeger[12]在廣義線性模型的基礎上建立的,它在分析數據的相關性、對重復次數數據的研究,特別是對縱向數據的研究很實用。GEE的一般形式如下:
(3)
(4)

基于經驗似然和廣義估計方程的介紹,現把求經驗似然比最小值(1)式中的g(xi,β)換為式(4)的Si(β)。需要注意這并非簡單的替換,因為在GEE中xij是不服從獨立同分布的縱向數據,在給出本文主要結果之前,先給出假設條件如下


(A3):Ri(α)≥c,即Ri(α)有正下界;


其中
定理1表明經驗似然比統計量最小值的存在性問題,即參數β的相合性問題。定理2給出參數β的漸近正態性質。在給出定理證明之前,先給出合適的引理如下:


可知要證明
只需要證明
→0 (n→∞)
由條件(A1)-(A5)可知
則引理得證。
引理2[7]在滿足(A1)-(A4)的條件下


Op(n-1/2)
證明由限制條件可知
上式經化簡可得



通過逆矩陣的除法得

命題得證。
引理4在滿足條件A1下有:
(5)
(6)
證明首先證明式(5),根據已知條件有:

其次證明式(6)如下:
由引理2和引理3可知上式


可得:
op(1)
(7)
其中由引理4可知:
將(7)式在β0處運用泰勒展開式有:

op(1)=
op(1)
上式化簡得:
2cδ+δ2]ξ∈(0,tτSi(β))=
(8)
(9)
比較(8)式和(9)式可以發現當n趨于無窮大時,兩式中的如下部分:



定理2的證明運用引理1的正態收斂性質和定理1的結論可證。首先有:
在不服從獨立同分布下運用大數定理有
A22=0

其中
d1=Q1n(β0,0)+op(δn),d2=op(δn)
運用矩陣求逆可得:


定理得證。
例1本例是AnestisTouloumis[17]提到的GEE算法模型與本文EL模型相比較的統計模擬分析,建立模型Pr(Yiτ=1|xiτ)=F(0.5xi)。其中分布F均值為0,方差為π/3。邊際分布的工作相關陣R(a)定義如下

運用R語言運行GEE和EL方法的結果見表1和表2。

表1 100樣本下GEE和EL方法的比較

表2 10000樣本下GEE和EL方法的比較
表1和表2分別是在100個體和10000個體下GEE和EL方法的運算結果。首先定義個體數量和每個個體觀察次數T=4;其次隨機產生相應個體100×4的標準正態分布;然后在邊際分布工作相關陣的基礎上產生高維縱向數據;最后用兩種方法進行分析。表中對應的GEE方法用z統計量,經驗似然方法用t統計量。當樣本量充分大時EL方法較GEE方法x的回歸系數更接近0.5,表明EL方法比GEE方法更優。
將GEE和經驗似然方法相結合,既保留了GEE方法的誤差方差最小的性質,又有經驗似然方法構造置信區間域保持性和變換不變性等優點[1-3]。同時在不服從獨立同分布和較弱的限制條件下給出經驗似然估計存在性、相合性和漸近正態性等的理論證明,有別于經典研究的獨立同分布,拓展了經驗似然方法在縱向數據下的研究領域,更為精確的給出經驗似然方法的適用范圍。將來可進一步在理論證明中對約束條件進行弱化[18-21]。此外運用R語言給出統計模擬對理論證明進行補充,對比GEE方法結果表明縱向數據下經驗似然方法更優,對于縱向數據在實際應用中有較好的參考價值。