Behrens-Fisher問題的參數(shù)Bootstrap檢驗

2015-02-18 04:56:28徐禮文

統(tǒng)計與決策 2015年10期

關鍵詞：方法

徐禮文，梅波

(北方工業(yè)大學理學院，北京 100144)

0 引言

當總體的方差任意且未知時，兩個正態(tài)總體均值的比較一直是統(tǒng)計學的理論和應用研究中感興趣的問題，稱為Behrens-Fisher問題[1,2]。在正態(tài)總體異方差下均值相等性檢驗的文獻中，一種流行的方法是Welch[3,4]給出的基于近似t分布的檢驗，這種方法因其具有簡單性和較好的精確性得到廣泛運用。但是這種方法是建立在隨機自由度近似t分布基礎上的，自由度不僅和樣本方差相關，還依賴樣本容量。金華,鄭圣聽和陳偉權[5]提出了一種結合極大似然思想的檢驗方法，稱作得分（Score）檢驗。在原假設下構造的U統(tǒng)計量逼近標準正態(tài)分布，從而使得檢驗的操作只依賴于標準正態(tài)分布表，操作也比較簡單，并顯示出在控制第一類錯誤標準下優(yōu)于Welch的近似t檢驗。但是這種方法運用了極限分布理論，從而對樣本量的要求相對嚴格，樣本量不能太小；且在樣本量不近似相同時，Score檢驗與Welch近似t檢驗都受到總體間方差比率的影響比較明顯。

Behrens-Fisher問題的困難之處在于冗余(討厭)參數(shù)總體的存在，使得我們一般無法構造出零分布已知的檢驗統(tǒng)計量。因此，Tsui和Weerahandi[6]通過拓展檢驗統(tǒng)計量的概念，提出了廣義檢驗變量的概念，得到了Behrens-Fisher問題的一個廣義p值(generalized p-value,GP)檢驗方法。通過提前的模擬研究發(fā)現(xiàn)在樣本容量較小且兩總體方差接近時，GP檢驗和Welch近似t檢驗的第一類錯誤都過于保守，距離給定的名義水平較遠。

本文的目的是提供Behrens-Fisher問題新的參數(shù)bootstrap(parametric bootstrap，PB)檢驗。參數(shù)bootstrap方法已經(jīng)被廣泛應用于許多傳統(tǒng)方法難以或無法給出精確檢驗的問題中[7-10]。基于文[5]構造的U統(tǒng)計量和其中涉及的T統(tǒng)計量，我們不是利用正態(tài)逼近和近似t分布的理論，而是提出了新的參數(shù)bootstrap方法來改進已有的檢驗，為消除已有檢驗方法受樣本量的影響和方差比率的影響，從而提高檢驗的有效性。值得注意的是，可以證明我們提供的兩種參數(shù)bootstrap檢驗之一和Krishnamoorthy,Lu和Mathew[7]給出方法等價。

1 均值相等性檢驗

接下來，我們分別描述Welch近似t檢驗、Score檢驗、GP檢驗和我們提供的PB檢驗。

1.1 Welch近似t檢驗

1.2 Score檢驗

1.3 GP檢驗

其中T=Z[(U1+U2)/(n1+n2-2)-1/2]服從自由度為(n1+n2-2)的 t分布，B=U1/(U1+U2)～beta((n1-1)/2，(n2-1)/2)，二者相互獨立。GP檢驗法則為：對于給定的顯著性水平α，當 p＜α值時，拒絕原假設。

1.4 PB-t檢驗

1.5 PB-S檢驗

2 模擬研究

上文已經(jīng)描述了 Behrens-Fisher問題的五種檢驗方法，下面通過Monte Carlo隨機模擬的方法，比較五種檢驗方法在控制第一類錯誤和檢驗功效方面的優(yōu)劣。使用Monte Carlo方法模擬計算PB-S檢驗的p值算法如下：

注意到，GP檢驗、PB-t檢驗、PB-S檢驗的模擬算法中涉及內(nèi)循環(huán)(計算p值)和外循環(huán)(經(jīng)驗水平)。外循環(huán)從設置參數(shù)模型中產(chǎn)生模擬樣本，計算第一類錯誤概率；內(nèi)循環(huán)從估計的模型中產(chǎn)生bootstrap樣本，用Monte Carlo方法計算 p值。而Welch近似t檢驗和Score檢驗分別利用近似t分布和近似正態(tài)分布，只需外循環(huán)計算第一類錯誤即可。相應的循環(huán)次數(shù)設定如下表1。

表1 計算第一類錯誤的模擬次數(shù)表

在模擬PB-t、PB-S檢驗時，為了節(jié)約計算時間并也能保證p值計算的準確性，適當?shù)販p少了模擬的次數(shù)，這對模擬結果的影響不是很大。

表2 第一類錯誤概率的Monte Carlo估計值

表2中的第一類錯誤結果顯示，在小樣本下樣本量相等時，Welch近似t檢驗、PB-t檢驗和PB-S檢驗控制第一類錯誤基本穩(wěn)定在名義水平0.05上，受方差比率的影響不是很明顯。值得注意的時，隨樣本量的減小，Score檢驗和GP檢驗的將變得相當?shù)谋Ｊ兀褂玫脑摍z驗時樣本量的選取須相當注意。當樣本量不等時，Welch近似t檢驗和PB-t檢驗犯第一類錯誤概率有所上升，橫向可以看出GP檢驗要想達到同樣的控制第一類錯誤的能力，所需的樣本量大一些。而PB-S檢驗犯第一類錯誤的結果相對穩(wěn)定得多，在所有樣本量和總體方差參數(shù)設置下，PB-S檢驗受樣本量和方差比率影響最小，整體檢驗效果也最優(yōu)。在樣本量不斷變大時，四種檢驗方法在控制第一類錯誤能力方面逐漸趨于相同。

表3中檢驗勢函數(shù)的結果表明，在兩組樣本量相等時，Welch-t檢驗、PB-t檢驗和PB-S檢驗具有十分相似的檢驗功效；Score檢驗與GP檢驗的勢受總體方差比率影響明顯，Score檢驗的勢隨著方差比率變大而變大，GP檢驗的勢則相反，這點與第一類錯誤概率相似。在兩組樣本量不相等時，Welch-t檢驗和PB-t檢驗的勢時而表現(xiàn)突出，但同時不可避免它們犯第一類錯誤概率也偏大；Score檢驗和GP檢驗受總體方差比率影響更加明顯，二者控制第一類錯誤都偏向保守，檢驗勢也劣與其他三種檢驗。PB-S檢驗具有穩(wěn)定且較好的勢。

綜上比較，可以發(fā)現(xiàn)PB-S檢驗可以較好控制第一類錯誤概率，具有不亞于傳統(tǒng)檢驗的勢，并且檢驗效果受總體方差差異和樣本差異影響較小，其次是PB-t檢驗。Welch近似t檢驗、Score檢驗和GP檢驗各有自己的缺陷，本文提出的PB-S檢驗對樣本量和總體方差的要求更加寬松，提高了異方差下均值檢驗的精確性，在實際應用中更有意義。

3 結論

當存在異方差性和樣本容量較小情形下，已有檢驗無法保證第一類錯誤概率的問題沒有得到足夠的重視。本文提出使用參數(shù)bootstrap方法構造Behrens-Fisher問題的有效檢驗模擬比較研究結果顯示，參數(shù)bootstrap方法在保證第一類錯誤概率和勢函數(shù)均有滿意的表現(xiàn)。參數(shù)bootstrap檢驗即使在小樣本情形下適用范圍也比較廣，這對于很多實際應用領域只存在小樣本的問題提供了幫助，如醫(yī)學、法庭科學等。也就是說，此時我們依然可以使用參數(shù)bootstrap方法提供可信賴的檢驗報告。而Welch近似t檢驗受樣本量和總體方差之間關系的影響，以及Score檢驗和廣義p值檢驗在小樣本情形下第一類錯誤概率表現(xiàn)保守的問題，應提醒我們謹慎選擇適合實際情況的檢驗方法。

表3 檢驗函數(shù)勢的Monte Carlo模擬估計值

[1]Behrens B V.Ein Beitrag zur Fehlerberechnung Bei Wenige Beobachtungen[J].Landwirtch.Jb.,1929,6.

[2]Fisher R A.The Fiducial Argument in Statistical Inference[J].Annals of Eugenics,1935,(6).

[3]Welch B L.The Specification of Rules for Rejecting Too Variable a Product,with Particular Reference to an Electric Lamp Problem[J].Supplement to the Journal of the Royal Statistical Society,1936,3.

[4]Welch B L.The Significance of the Difference Between Two Means when the Population Variances are Unequal[J].Biometrika,1938,29.

[5]金華,鄭圣聽,陳偉權.Behrens-Fisher問題的正態(tài)逼近[J].統(tǒng)計研究,2009,(26).

[6]Tsui K W,Weerahandi S.Generalized P-Values in Significance Testing of Hypotheses in the Presence of Nuisance Parameters[J].Journal of the American Statistical Association,1989,84.

[7]Krishnamoorthy K,Lu F,Mathew T.A Parametric Bootstrap Approach for ANOVA with Unequal Variances:Fixed and Random Models[J].Computational Statistics&Data Analysis,2007,51.

[8]Efron B,Tibshirani R J.An Introduction to Bootstrap[M].Chapman&Hall London,1993.

[9]Xu L W,Yang F Q,Abula A,et al.A Parametric Bootstrap Approach for Two-way ANOVA in Presence of Possible Interactions with Unequal Variances[J].Journal of Multivariate Analysis,2013,115.

[10]Tian L L,Ma C X,Vexler A.A Parametric Bootstrap Test for Comparing Heteroscedastic Regression Models[J].Comm.Statist.Simulation Comput,2009,38.