王浩宇
?
利用隨機效應非參分布分析縱向數據
王浩宇
(北京師范大學珠海分校應用數學學院,廣東珠海 519085)
縱向數據觀測間的非獨立性往往會造成模型參數估計上的困難,而隨機效應的引入可以構造有效的條件獨立從而減少參數估計的計算量。論文以某針葉林生長數據為例,假設隨機效應服從非參分布,并介紹如何引入隨機效應對縱向數據進行分析,并提出有效的模型檢驗方法。
縱向數據;隨機效應;非參分布
縱向數據通常包含對同一個體相同或不同指標的重復觀測,這些重復觀測數據之間是存在內在聯系的,這對傳統的建模和參數估計增加了困難。例如某針葉林高度數據,表示第i個個體第j次觀測的高度,表示對第i個個體第j次觀測的時間,且假設觀測高度和時間存在線性關系,我們可以建立模型:
在假設隨機效應的非參分布之后,我們的模型轉化成為非參最大似然模型,其似然函數可以寫為
EM算法又稱最大期望算法(Expectation Maximization Algorithm)是一種迭代算法,常用于存在隱變量等數據缺失情況下的極大似然估計。通常由兩個步驟組成:
兩個步驟交替進行,直至收斂。將(4)式左右取對數展開可得
關于如何判斷收斂,有兩個條件:(1)更新前后參數估計值之差的絕對值之和小于;(2)更新前后似然函數之差的絕對值小于。其中是預先設定好的小正數。一般來說,只要兩個條件中的任意一個滿足了即可判斷收斂。最后需要指出的是,參數K無法得到有效的估計量,適當K值的確定需要在有效的模型評估手段(例如計算AIC)下經過比較獲得。
4.1 參數估計的方差
由于EM算法的迭代屬性,無法得到參數估計量的方差,這對參數估計準確性的判斷造成了困難。一個解決方法是將EM算法與全局優化(general-purpose optimization, 可通過統計軟件R中的函數optim()實現)結合起來:先進行EM算法,然后將所得結果作為起始量輸入函數optim()中,而此函數的輸出結果中包含參數估計的hessian矩陣,進而可以求得參數估計的近似方差。值得注意的是,函數optim()的輸入量不能有限制條件,這使得原參數例如(需大于0)以及(需滿足)不能直接輸入,而需要進行一定的參數轉換,例如可以設
其它參數的近似方差則需要多變量情形的增量方法來解決。
4.2 參數估計的置信區間
第一步:隨機從上述多元正態分布抽取n個樣本,n要足夠大;
第三步:依次將樣本值從小到大排列,取其2.5%和97.5%分位點分別作為置信區間的上下限。
4.3殘差
模型中隨機效應的存在使得擬合值也擁有一個非參分布,這種情況下我們可以定義擬合值的期望作為新的擬合值來計算殘差,即
針對本例,我們可以這樣理解,一方面,
兩式結合可得
以此就可以計算各觀測點的殘差了,而且殘差的分布就是正態分布,由此可以用來做殘差分析,并且構造假設檢驗(例如卡方檢驗)。
本文以某針葉林生長數據為例,介紹了如何在引入隨機效應的條件下分析縱向數據,包括如何建立模型,如何進行參數估計以及如何進行系統的模型評估。期間運用了EM算法,增量方法,以及新的擬合值與殘差的定義,具有一定的實踐意義。
[1]Heckman, J. J., and Singer, B. (1984). A method for minimizing the impact of distributional assuamptions in econometric models of duration. Econometrica, 52, 271-320.
[2]Aitkin,M.(1996).A general maximum likelihood analysis of overdispersion in generalized linear models.Statistics and Computing,6,251-262.
[3]Kiefer, J., and Wolfowiz, J. (1956). Consistency of the maximum likelihood estimator in the presence of infinitely many nuisance parameters. Annals of Mathematical Statistics, 27,887-906.
[4]Laird, N. M. (1978). Nonparametric maximum likelihood estimation of a mixing distribution.American Statistical Association,73, 805-811.
[5]Dempster,A.P.,Laird,N.M.,and Rubin,D.A.(1977).Maximum likelihood estimation from incomplete data via the EM algorithm.Journal of the Royal Statistical Society, Series B (Methodological).39(1),1-38.
[6]Aitkin,M.,Francis,B.,Hinde,J.,and Darnell,R.(2009).Statistical modelling in R.(pp.435-437).Oxford:Oxford University Press.
[7]McLachlan,G.J., and Ng,S.K.(2009).The EM Algorithm.In The Top-Ten Algorithms in Data Mining, X.Wu and V.Kumar (Eds.).Boca Raton,Florida:Chapman & Hall/CRC,pp.93-115.
[8]Rice,J.A.(2008).Mathematical statistics and data analysis.(3rd ed.,pp.74-279).Belmont,CA:Thompson.
[9]Muniz-Terrera,G.,van den Hout,A.,Rigby,R.,and Stasinopoulos,D.(2013) Analysing cognitive test data: Distributions and nonparametric random effects.Statistical Methods inMedical Research.published online 6 November 2012,DOI:10.1177/0962280212465500,1-13.
[10]Dunn,P.K.,and Smyth,G.K.(1996).Randomized quantile residuals.Journal of Computational and Graphical Statistics.5,236-244.
(責任編校:京華,俊華)
2015-09-01
王浩宇(1988-),男,北京師范大學珠海分校教師,倫敦大學學院碩士畢業,研究方向為統計學。
O29
A
1673-2219(2015)10-0001-04