曾治宇 林 娜 張明東 Peter Lam
樣本量計算是臨床研究設計階段的主要工作之一,其重要性在國內日漸受到重視,為此在2015年還發表了一個《臨床試驗中樣本量確定的統計學考慮》的專家共識[1]。
目前臨床研究中,特別是醫療器械的臨床研究中,單組目標值法(performance goal,PG)的應用越來越多。事先確定一個目標值(目標值的確定必須謹慎,依據充分,但這個不在本文的討論范圍內),將研究預計能夠達到的值與之進行比較。例如美國FDA對于射頻消融導管的建議為急性成功率、慢性成功率及主要并發癥的目標值分別為85%,80%及7%,而預計值分別為95%,90%及2.5%。國內CFDA也開始將這一方法寫入一些醫療器械臨床試驗的指導原則中。
對于計數資料的單組目標值法,從統計學角度來看其實就是單樣本率的比較。如果進行確切計算將涉及到二項分布,手工計算困難,常需借助特殊軟件。本文擬結合文獻發表的實例,介紹常規軟件excel及免費軟件G*Power進行單樣本率比較的樣本量計算。
單樣本率比較的樣本量計算常見的方法為正態近似法(公式1[2]),適合目標事件發生率不太極端且樣本量足夠大時,否則應進行平方根反正弦變化(公式2[3])。我們將這兩個公式分別輸入excel表中,其中的參數可替換為實際的單元格引用,便于重復使用。
(1)
(2)
根據二項分布進行確切計算時使用G*Power免費軟件,上文提到的專家共識[1]也有此推薦。G* Power是由德國杜塞爾多夫大學開發的軟件,包括的樣本量計算系列有Exact、Ftest、ttest、χ2test及ztest等,本文使用的版本為3.1.9.2。
某臨床試驗欲驗證一款彩色多普勒超聲系統的臨床有效性,采用標準對照設計,用圖像優良率為主要評價指標,臨床有效的標準為圖像優良率不低于85%。預期試驗機器的圖像優良率為95%,以0.05為檢驗水準,采用雙側檢驗,設定檢驗效能為80%,試估計樣本量[2]。該文獻利用nQuery計算的結果為79,SAS計算結果也是79,我們根據公式(1)利用excel正態計算的結果為78.017,如果向上取整,也是79。該例中預期的率達到95%,已經不太適合正態近似法了,但該文并未給出利用二項分布確切計算的結果。在另一篇文獻[4]對于同一實例利用SAS逐步尋值法編程得到的樣本量為75,我們利用G*Power直接計算的結果也是75,但利用post hoc根據檢驗功效決定的樣本量為84。我們在下一個例子中對G*Power軟件的計算作些具體的說明。注意如果用公式(2)利用excel反正弦計算的結果是67,差異較大,我們在下文會有討論。
為驗證某一治療肝癌的組合治療方案是否有效,擬進行臨床試驗設計。根據以往研究數據獲知,肝癌的5年生存率為50%,研究者預期新的組合治療方案能使肝癌的5年生存率提高至60%,試按照檢驗效能為80%、檢驗水準為0.05的雙側檢驗估計本試驗所需樣本量[2]。文獻對此進行了確切概率檢驗,利用nQuery軟件時,在相應的窗口內樣本量一行反復嘗試填入不同數據,直至獲得檢驗效能達到或超過80%,得到樣本量為208。SAS編程運算的結果也是208。我們根據公式(1)利用excel正態計算的結果為194,根據公式(2)利用excel反正弦計算的結果也是194。使用G*Power直接計算的結果為199,此時的檢驗功效為0.804,但α僅為0.047;使用G*Power post hoc計算樣本量為194時的檢驗功效為0.764,但α僅為0.037。這個例子中的率不極端,樣本量也較大,因此正態法、反正弦法及G×Power軟件直接計算的結果較為一致。
G*Power還可方便地給出在指定的α水平下(如α≤0.05),設定一定范圍內不同樣本量(例如此例設定樣本量的范圍為180~220)時的檢驗功效(圖1)。圖1中可以清晰地看到,橫坐標樣本量194對應的縱坐標檢驗功效只有0.764,雖然樣本量199時的檢驗功效為0.804(此時的α=0.047),但樣本量增加至200時的檢驗功效反而降至0.787(注意此時的α=0.040)。只有樣本量達到210時,檢驗效能才穩定地居于0.8之上,因此根據post hoc的結果這個例子的樣本量計算結果為210,與上面nQuery與SAS的結果基本一致。

圖1 G*Power軟件post hoc給出特定樣本量下的檢驗效能
本文寫作之際,國家食品藥品監管總局于2017年1月4日發布了《人工耳蝸植入系統臨床試驗指導原則》,關于樣本量的描述如下:根據臨床經驗,開機12個月后,產品的總體有效率需至少達到70%(目標值為70%)方可被臨床接受。假設被試驗產品的總體有效率可以達到85%,則在雙側顯著性水平0.05、把握度80%的情況下,至少需要64例患者,考慮10%的脫落率,共需要70例患者[5]。
該文件未說明具體的計算方法及應用的軟件,我們利用excel根據公式(1)正態近似法計算的結果正好是64例,而根據公式(2)平方根反正弦變化計算的結果為60例。而利用G*Power軟件精確計算的結果為70例。
在率不是過大或過小的情況下,單樣本率比較樣本量計算的正態近似法基本可行,excel輸入公式后計算簡潔明快。確切計算時,免費的G*Power軟件能方便地給出不同樣本下檢驗功效值,圖形顯示直觀清晰,甚至優于nQuery與SAS的表達,也比既往文獻[4,6]推薦的方法簡潔得多。
值得注意的是,由圖1可見,確切計算樣本量時,隨著樣本量的增加,檢驗功效不是單調增加的。大家熟知的正態分布函數是連續的,在給定α水平時,隨著樣本量的增加,檢驗功效隨著增加。而基于二項分布的計算是非連續的,也就是說在不同的樣本量下,α值和β值是跳躍變化的。為了保證滿足α≤0.05的要求,樣本量增加時,α值可能會變小,這時1-β(即檢驗功效)也可能跌至既定的值如0.8以下。檢驗功效和樣本量的關系盡管總的趨勢仍然是遞增的,但表現為鋸齒狀遞增,不是純粹的單調遞增關系。例如例2在樣本量199時的α值為0.047,檢驗功效為0.804;在樣本量增至200時,α值降至0.040,檢驗功效下降至0.787,低于0.8。這也提示在利用類似二項分布這種非連續分布模型進行樣本量計算時,要考慮到樣本量變化與檢驗功效變化的這種關系,在局部情況下,樣本量增加,檢驗功效反而是下降的。因此,對于實例1,文獻利用SAS編程得到樣本量75是值得商榷的。臨床研究設計時,特別是在樣本量較小的確證性臨床研究中,務必反復權衡,避免設計失誤。