王星杰 汪玉風 潘海燕△ 丁元林 安勝利
【提 要】 目的 探究在完全隨機設計的單因素方差分析中非平衡設計與檢驗效能大小的關系。方法 通過SAS程序分別估計出兩類檢驗資料在給定參數下所需的樣本總量,然后利用蒙特卡洛模擬固定樣本總量時改變樣本比得到的檢驗效能變化,以及樣本總量不固定,改變各樣本量時檢驗效能的變化。并且推斷出在達到多大的樣本比時檢驗效能低于預警值0.8。結果 在三組樣本的單因素方差分析中,不固定樣本總量時檢驗效能隨樣本總量增加或減少呈單調遞增或遞減。固定樣本總量時檢驗效能與樣本間的比例并不是呈簡單的單調關系,而是受各樣本均值與總均值之差平方和的影響。結論 三組樣本的單因素方差分析中固定總樣本量時,檢驗效能隨樣本間比值的變化呈不規則變化。在給定理論檢驗效能值的情況下能得出一個樣本比臨界值,在大于該值時檢驗效能值會低于0.8。
假設檢驗中,接受了實際不成立的H0(即Ⅱ類錯誤)時其概率為β,檢驗效能(power)也稱把握度,其值為1-β,它的意義是當兩總體確實有差別時,按規定的檢驗水準α所能發現該差別的能力[1]。樣本量的估計是實驗設計前的重要部分,過高或者過低的樣本量都會影響實驗的可靠性。理論檢驗效能是估計樣本量的重要參數,為了使實驗推測的結果足夠可靠,我們一般在實驗前先設定理論檢驗效能,并以此來算樣本量[2]。影響檢驗效能的因素有四個,分別是:實驗設計類型及方法、檢驗水準α、效應量以及樣本量[3]。本次實驗著重考慮實驗設計方法和樣本量對檢驗效能的影響。實驗設計按樣本量相等與否分為兩類,當樣本量相等時稱為平衡設計,不相等時稱為非平衡設計。一般的觀點認為平衡設計時檢驗效能是最高的,本研究我們通過非平衡設計改變樣本量之間的比值,然后利用蒙特卡洛模擬分析計算其檢驗效能,觀察其變化,并結合公式進行解釋。
Monte Carlo法又稱隨機模擬法,它是利用不同分布隨機變量的抽樣序列模擬實際系統的概率統計模型,進而給出問題數值解的漸進估計值。具體步驟,設計一個隨機事件,使一個事件的概率與某一未知數有關,然后在軟件中重復實驗,利用這個事件出現的頻率近似得出它的概率,求出未知數的近似值。如果要計算檢驗效能,可以將其定為未知數,先用正態分布模擬出各樣本的數據,然后對其進行單因素方差分析。重復上述步驟1000次,統計出結果接受H0的頻率。因為大樣本所得的頻率可以近似估計總體的頻率,所以在已知H0不成立時得到的接受H0的頻率,可以近似看作是本次假設檢驗在當前條件下的Ⅱ類錯誤的估計值。同理,模擬不同分布就可以得到其相應的檢驗效能估計值[4]。
在臨床試驗研究中,應保證實驗達到一定的檢驗效能。當P>0.05時會產生“陰性結果”,人們往往認為此時的差別無統計學意義,實則忽視了這可能是由檢驗效能過低引起的,從而放過了本來可能有統計學意義的結果。所以一般情況下,盡管尚有爭議,一些學者建議在得到陰性結果的同時應該注明其檢驗效能,這樣可以使讀者了解到更多的統計信息。通常規定檢驗效能應該不低于0.75或者0.80,這里我們選取0.80作為檢驗效能的警戒值[5]。
當前有很多軟件都可以進行樣本量的估計,如:SAS、SPSS、nQuery A dvisor和PASS等[6],還有一些網站也提供了樣本量估計模塊,如:http://powerandsamplesize.com/等。本次研究我們利用SAS 9.3中的proc power程序進行給定參數下的樣本量估計。
1.三組樣本的單因素方差分析
單因素方差分析用到的基本公式,由Cohen提出:

2.固定樣本總量
在固定總樣本量的情況下各組樣本間不同比例所對應的檢驗效能。分別增加第一組和第二組樣本所占比例,檢驗效能都逐漸減小,且第二組樣本比例變化所引起的檢驗效能降低幅度要大于第一組。以理論檢驗效能值0.9為例,增加第三組樣本所占比例時,檢驗效能先逐漸增加,在樣本比例達到1:1:4時檢驗效能低于0.90。同時增加二、三組樣本所占比例,其檢驗效能降低。但同時增加一、三組所占比例,其檢驗效能逐漸增加,且增幅超過單獨增加第三組比例時的增幅。當一、三組所占比例達到一定程度后,如20:1:20,檢驗效能開始降低,見表1。

表1 固定樣本總量改變樣本量比所對應的檢驗效能(power)值
*:N=樣本總量


表2 固定樣本總量改變樣本量比所對應的檢驗效能(power)值
*:N=樣本總量
從表2中我們可以看出其結果與上述結論一致,在最大d值所對應的第三組樣本達到1:1:3時檢驗效能開始降低,所以應將比例維持在1:1:3以內。在最小d值所對應的第二組樣本達到1:3:1時檢驗效能小于0.8(這是理論檢驗效能在0.9時得出的結論,同理可以得出不同理論檢驗效能下的臨界比例)。唯一不同的是當一、三組所占比例增加到更高時檢驗效能才開始降低。我們可以得出當樣本總量增加時,三組樣本間需要更大的比例才會使樣本嚴重失衡,所以使樣本嚴重失衡的比例并不是固定的。
3.樣本量不固定
各樣本量同時增加或減少時,檢驗效能隨總樣本量的變化,見圖1。在各樣本量相等,同時增大或減小相同值的情況下,檢驗效能隨著樣本量的增加而增加,且增長趨勢逐漸變緩。接下來探究總樣本量不固定,單獨增加某些樣本的樣本量時檢驗效能的變化。以大樣本量1836為例。各組樣本量相等時為612,這時的理論檢驗效能為0.90,見表3。
由表3可以看出單獨增加第一組樣本量時,其檢驗效能隨樣本量的增加而增加,單獨減少第一組樣本量時其檢驗效能隨樣本量的減少而降低(第二、三組同理)。單獨增加第二組樣本量時其檢驗效能的增幅很小(出現兩個0.901可能是因為四舍五入造成的)幾乎不變。同時減少三組樣本時其檢驗效能隨之降低(增加同理)。原因同上,是受d值大小的影響。

圖1 檢驗效能隨總樣本量的變化

各組樣本量power值(620,612,612)0.902(650,612,612)0.907(700,612,612)0.915(612,620,612)0.901(612,650,612)0.901(612,700,612)0.902(600,612,612)0.898(600,600,600)0.894
當樣本總量固定,分析三組樣本時并不是各組樣本量相同其檢驗效能就最大,所以我們可以適當減少d值較小組的樣本量,增加d值較大組的樣本量,且最好是同時增加兩組d值較大的樣本量,這樣得到的檢驗效能會大于單獨增加d值最高組的樣本量。同時也要注意不可使樣本間差距過大導致樣本嚴重失衡。如:當增加d值最大組樣本量時比例應維持在1:1:3以內。當樣本總量不固定我們可以通過增加d值較大組的樣本量來增加檢驗效能。如果出于成本、時間等考慮要減少樣本量時,可以優先減少d值較小組的樣本量,使其對檢驗效能的影響降到最低。
本研究結論不同于研究者的慣性思維(即檢驗效能隨著樣本量的增加而增大),提醒我們在設計各組樣本量時,不能僅憑經驗進行判斷,而是應該建立在合理的統計推斷結論之下。此次研究只針對三樣本資料進行了論述,具有一定的局限性,目前有關這方面的研究文獻較少,多樣本資料的相關分析還有待進一步補充和完善。