摘要:樣本容量的估計是試驗設計的重要一環,然而樣本容量的估計往往需要循環計算,從而花費較長的計算時間。該文對運用EXCEL進行樣本容量的估計方法進行了介紹。結果認為運用EXCEL可以快速的進行試驗設計樣本容量的估計。
關鍵詞:試驗設計;EXCEL函數;樣本容量
中圖分類號:TP391文獻標識碼:A文章編號:1009-3044(2008)31-0987-03
Estimating the Sample Size by EXCEL Function
LI Xue-bin1, YU Xiao-ling2
(1. College of Animal Science, Henan Institute of Science and Technology, Xinxiang 453003, China; 2. College of Food Science, Henan Institute of Science and Technology, Xinxiang 453003, China)
Abstract: The calculation of sample is an important programming in the experimental design. However, it is always need to calculate the sample size circularly, which always takes longer computing time. In this paper, the estimating of sample size by EXCEL was introduced. Finally, we thinks that the sample size can be calculated by EXCEL function rapidly.
Key words: experimental design; EXCEL function; sample size
科學研究要求試驗結果要有高的準確性和精確性,這就要求有較大的樣本容量,并且越大越好。但若樣本太大,就會花費過多的人力、物力和時間。所以,在實際試驗研究中,卻要求樣本越小越好。但樣本太小必然影響試驗結果的準確性和精確性。因此,在研究試驗中需要確定適宜的樣本容量,使樣本容量在保證一定準確性和精確性的前提下盡量小,從而節約科研資金。然而樣本容量的估計需要運用統計學公式多次重復運算才能得到[1-3],有時甚至出現多次迭代計算不穩定的情況。雖然在有關資料中已有利用EXCEL進行試驗結果的統計分析方法,然而在生物統計學教材和專業的EXCEL書籍[4]中均沒有見到關于運用EXCEL進行樣本容量的估計的介紹, 本文將對幾種常見的試驗設計如何運用EXCEL進行樣本容量的估計加以介紹。
1 完全隨機設計樣本容量的估計
1.1 完全隨機設計樣本容量估計的基本原理
兩個處理的完全隨機設計在確定樣本容量時,常采用兩樣本容量相等的設計。
假設兩樣本容量均等于n,事先確定達到顯著的差值為d(即兩個總體均值的差值大于或等于d時能得到顯著結果),樣本容量估計公式在不要求檢驗功效和要求檢驗功效的估計公式分別為:
■(1)
■(2)
希望達到的檢驗功效p=1-β(通常取p=0.8或0.9),檢驗所用的顯著水平為α(在一般情況下,取α=0.05)。公式中:n——需估計的樣本容量;s——兩總體標準差估計值,可由預試驗、參考文獻或經驗獲得;d——達到顯著時的兩總體均數的最小差值,可根據參考文獻人為確定;tα——在自由度為2(n-1)時雙尾概率為α的t分布臨界值;t2β——在自由度為2(n-1)時雙尾概率為2β的t分布臨界值;
在樣本容量估計時,由于公式中的tα、t2β均與樣本容量有關,因此需首先以自由度df=∞的tα和t2β代入公式進行計算,算出n后,根據df=2(n-1)查得相應的tα和t2β,再代入公式計算n,如此迭代計算,直至連續兩次計算所得n相等為止[1,2]。
1.2 完全隨機設計樣本容量的估計的EXCEL實現
下面以實例加以說明。
例如,欲檢驗某藥物對腎功能的損害作用,以家兔為試驗對象。設立對照組和以耳靜脈注射次藥物的模型組,測定35 h后家兔的排尿量。預試驗已知正常家兔的平均排尿量為2.5ml,標準差為1.1ml。希望平均差值為d=1.8 ml內即測出差異顯著性,問每組需要多少只家兔才能滿足試驗要求?
根據已知條件,樣本標準差為s=1.1,d=1.8,α=0.05,選擇檢驗功效p=0.9。運用EXCEL可采用如下的操作步驟實現樣本容量的估計:
1)如圖1所示新建一個Excel表格,在A1 單元格輸入“循環次數”,在B2單元格輸入“樣本容量”。
2)選擇A2和 A3 單元格,分別輸入0和1。
3)按下shift鍵,選擇A2和 A3 單元格,拖動A3 單元格右下角的填充柄至A12 單元格,填好循環次數。
4)選擇B2 單元格,輸入初始假定樣本容量100。在B3單元格輸入“=ROUNDUP(2*(TINV(0.05,2*(B2-1))) ^2*1.1^2/1.8^2,0)”,回車。
5)選擇B3 單元格,拖動B3 單元格右下角的填充柄至B12 單元格。觀察樣本容量穩定性,如果穩定,即得到結果;如果穩定與兩個數據,則也得到結果。否則繼續下拖,直到樣本容量穩定見圖1。
6)本例樣本容量到4和5時已經穩定,說明樣本容量應為5,采用完全隨機試驗設計至少每組需要5只家兔才能滿足試驗要求。與手算結果一致。
如果要求檢驗效能選擇檢驗功效p=0.9。選擇B3 單元格,在B3 單元格輸入“=ROUNDUP(2*(TINV(0.05,2*(B2-1))+TINV(0.2,2*(B2-1)))^2*1.1^2/1.8^2,0)”。說明樣本容量應為9,采用完全隨機試驗設計至少每組需要9只家兔才能滿足試驗檢驗功效p=0.9的要求。如圖2。
2 配對設計與交叉設計的樣本容量的估計
2.1 配對設計與交叉設計樣本容量估計的基本原理
配對試驗設計與交叉設計是單位組設計中最簡單的一種試驗設計。類似于兩處理完全隨機設計試驗樣本容量的估計,配對試驗設計與交叉設計的樣本容量估計公式在不要求檢驗功效和要求檢驗功效的估計公式分別為:
■ (3)
■ (4)
希望達到的檢驗功效p=1-β(通常取p=0.8或0.9),檢驗所用的顯著水平為α(在一般情況下,取α=0.05)。公式中:n——需估計的樣本容量;s——兩總體標準差估計值,可由預試驗、參考文獻或經驗獲得;d——達到顯著時的兩總體均數的最小差值,可根據參考文獻人為確定;tα——在自由度為2(n-1)時雙尾概率為α的t分布臨界值;t2β——在自由度為2(n-1)時雙尾概率為2β的t分布臨界值[1,2]。
2.2 配對設計與交叉設計樣本容量的估計的EXCEL實現
配對試驗設計與交叉設計的樣本容量估計需要用循環的方法進行估計,直到樣本容量穩定為止。下面以實例加以說明。
例如,預試驗已知sd=1.1ml,希望平均差值為1.8ml內測出差異顯著性,采用配對設計方法進行試驗,至少需要的試驗家兔為多少對?運用EXCEL可采用如下的操作步驟實現:
1)新建一個Excel表格,在A1單元格輸入“循環次數”,在B2 單元格輸入“樣本容量”。
2)選擇A2和A3單元格,分別輸入0和1。
3)按下shift鍵,選擇A2和A3單元格,拖動A3 單元格右下角的填充柄至A12單元格,填好循環次數。
4)選擇B2 單元格,輸入初始假定樣本容量100。
5)在B3 單元格輸入“=ROUNDUP(POWER(TINV(0.05,B2-1))*1.1/1.8,2), 0)”,回車。
6)選擇B3 單元格,拖動B3單元格右下角的填充柄至B12單元格。觀察樣本容量穩定性,如果穩定,即得到結果;如果穩定與兩個數據,則也得到結果。
7)有時會出現不穩定的搖擺情況,這時可以改變出事值,用填充柄從搖擺的最小數開始向后填充觀察樣本容量穩定情況,見圖3。
本例樣本容量在初時值為4時樣本容量穩定在4,說明樣本容量應為4,采用配對試驗設計至少需要4對家兔才能滿足試驗要求。如果是自身配對,則至少需要4只家兔。
如果要求檢驗效能選擇檢驗功效p=0.9。選擇B3單元格,在B3單元格輸入“=ROUNDUP(POWER((TINV(0.05,B2-1)+TINV(0.2,B2-1))*1.1/1.8,2), 0)”,操作結果見圖4。說明樣本容量應為7,采用完全隨機試驗設計至少每組需要7只家兔才能滿足試驗檢驗功效的要求。
3 百分數比較試驗中樣本容量估計
3.1 百分數比較試驗中樣本容量估計的基本原理
設兩樣本容量相等:n1=n2=n,n的計算公式可由兩個樣本百分數差異顯著性檢驗u檢驗公式推得。樣本容量估計公式在不要求檢驗功效和要求檢驗功效的估計公式分別為:
■(5)
■(6)
希望達到的檢驗功效p=1-β(通常取p=0.8或0.9),檢驗所用的顯著水平為α(在一般情況下,取α=0.05)。公式中:n為每組試驗的動物頭數;p為合并百分數,由樣本百分數計算,q=1-p;δ為預期達到差異顯著的百分數差值;uα為自由度等于∞、兩尾概率為α的臨界u值:u0.05=1.96, u0.01=2.58;1-α為置信度[2,3,5]。
3.2 百分數比較試驗中樣本容量估計的EXCEL實現
百分數比較的樣本容量估計同樣需要用循環的方法進行估計,直到樣本容量穩定為止,下面以實例加以說明。
例如,兩種痢疾菌苗對雞白痢病的免疫效果,初步試驗表明,甲菌苗有效率為0.50,乙菌苗有效率為0.85,今欲以95%的置信度在樣本的百分數差值達到30%時檢驗出兩種菌苗免疫效果有顯著差異,問試驗時每組至少需接種多少只雞?
1)新建一個Excel表格,在A1 單元格輸入“循環次數”,在B2 單元格輸入“樣本容量”。
2)選擇A2和 A3 單元格,分別輸入0和1。
3)按下shift鍵,選擇A2和 A3 單元格,拖動A3 單元格右下角的填充柄至A12 單元格,填好循環次數。
4)輸入初始假定樣本容量1000。在B3 單元格輸入“=ROUNDUP(2*((0.5+0.85)/2 *(1-(0.5+0.85)/2))*(TINV(0.05,2*(B2-1)))^2/0.25^2, 0)”,回車。
5)選擇B3 單元格,拖動B3 單元格右下角的填充柄至B12 單元格。觀察樣本容量穩定性,如果穩定,即得到結果;如果穩定與兩個數據,則也得到結果。否則繼續下拖,直到樣本容量穩定,見圖5。
6)本例樣本容量到29時已經穩定,說明每組樣本容量應為29,試驗時每組至少需接種29只雞。
如果要求檢驗效能選擇檢驗功效p=0.9。選擇B3 單元格,在B3 單元格輸入“=ROUNDUP(2*((0.5+0.7)/2*(1-(0.5+0.7)/2))*((TINV(0.05,2*(D2-1)))+(TINV(0.2,2*(D2-1))))^2/0.2^2,0)”,操作結果見圖6。說明每組樣本容量應為128只雞。
4 其他試驗設計樣本容量的估計
4.1 多個處理比較試驗中完全隨機設計樣本容量的估計
當試驗處理數k≥3時,各處理重復數可按誤差自由度過dfe≥12的原則來估計。因為當dfe超過12時,F表中的F值減少的幅度已很小了。由dfe =k(n-1)≥12,得樣本容量的估算公式為:
n≥12/k+1(7)
由公式可知,若k=3,則n≥5;k=4,則n≥4;……。但當處理數k>6時,重復數仍應不少于3。
4.2 隨機單位組設計樣本容量的估計
隨機單位組設計以dfe =(k-1) (n-1)≥12,得重復數的估算公式為:
n≥12/(k-1)+1(8)
由公式(7)可知,若k=3,則n≥7;k=4,則n≥5;……。但當處理數k>7時,重復數仍應不少于3。
在拉丁方設計若要求dfe=(k-1) (k-2)≥12,則重復數(此時等于處理數)≥5。所以,為了使誤差自由度不小于12,則應進行處理數(即重復數)≥5的拉丁方試驗,即進行5×5以上的拉丁方試驗。當進行處理數為3、4的拉丁方試驗時可將3×3拉丁方試驗重復6次,4×4拉丁方試驗重復2次,以保證dfe=12。
這些樣本容量的估計實例請參閱有關統計學教材[1-3]。由于這些設計在實際應用時往往不進行復雜的循環計算,因此本文不再用EXCEL進行處理。
5 小結
1)樣本容量的估計是科學研究的重要組成部分,樣本容量可以在一定的檢驗概率和檢驗功效保證下進行估計。
2)運用EXCEL中快速的循環計算功能,可以快速的實現試驗設計中樣本容量的估計。
3)樣本容量的估計過程中出現的不收斂或不穩定性,可以通過改變樣本容量的初始值加以解決。
參考文獻:
[1] 明道緒.生物統計附試驗設計[M].3版.北京:中國農業出版社,2002:227-228.
[2] 謝莊,賈青.獸醫統計學[M].北京:高等教育出版社,2005:193-195.
[3] 宋素芳.生物統計學[M].北京:中國農業大學出版社,1999:228-231.
[4] 吳權威,呂琳琳.Excel2003函數與統計應用實務[M].北京:中國鐵道出版社,2005:109-253.
[5] 倪宗贊.醫學統計學[M].北京:高等教育出版社,2003:114-115.