胡純嚴 ,胡良平 ,2*
(1.軍事科學院研究生院,北京 100850;2.世界中醫藥學會聯合會臨床科研統計學專業委員會,北京 100029*通信作者:胡良平,E-mail:lphu927@163.com)
在常規的臨床研究中,研究者常關注的是藥物的療效和安全性,對兩種藥物或治療方案的效果進行比較時,通常都采用一般差異性檢驗[1-2];而在新藥(或醫療器械)的臨床試驗研究中,雖然仍關注療效和安全性,但在對療效進行評價時,常需要結合臨床實際,提出一些應當滿足的前提條件(例如對兩種藥物的有效率進行比較時,要求試驗藥的有效率不應比對照藥的有效率低10%,才允許試驗藥投入生產并進入臨床使用),以便使療效的評價更加科學、合理和實用。也就是除一般差異性檢驗之外,還可能需要采取非劣效性檢驗或等效性檢驗或優效性檢驗[3]。本文將結合臨床實際,介紹與“兩總體率比較的非劣效性檢驗”有關的內容。
非劣效性檢驗是指主要研究目的為顯示試驗藥的治療效果在臨床上不比陽性對照藥差的試驗。在試驗設計階段需要設定一個界值δL(通常取負值,代表“差或劣”),將其代入檢驗統計量中進行計算。若計算結果為P≤α(通常取α=0.05),就可以明確判定試驗藥的療效非劣效于對照藥;反之亦然[3-4]。
【例1】為評價度洛西汀腸溶膠囊(試驗藥,簡稱A藥)治療抑郁癥的效果,采用隨機、雙盲、氟西汀(對照藥,簡稱B藥)平行對照的方法進行試驗。受試者分別口服度洛西汀腸溶膠囊或氟西汀膠囊,共觀察6周。其中,試驗組111例患者,對照組117例患者。治療后,試驗組和對照組的有效率分別為87.39%(有效例數n=97)和88.89%(有效例數n=104)。根據臨床實際,設置非劣效性界限為-10%。試評價度洛西汀腸溶膠囊治療抑郁癥的效果是否非劣效于氟西汀膠囊的治療效果[5]。臨床資料見表1。

表1 兩組患者的治療效果
【對數據結構的分析】該資料的試驗因素為“藥物種類”,其兩個水平分別為“度洛西汀腸溶膠囊”與“氟西汀膠囊”,觀測指標為“有效率”,所以該資料為成組設計一元定性資料。
【統計分析方法的選擇】研究者的研究目的是評價度洛西汀腸溶膠囊治療抑郁癥的效果是否非劣效于氟西汀膠囊的治療效果,并且設定了非劣效性界值δL=-10%,這時應選用非劣效性檢驗。
1.3.1 檢驗假設
給出檢驗假設,并規定檢驗水準α的值。
H0:πT-πR≤ δL;
H1:πT-πR> δL;
α=0.05(單側)。
1.3.2 檢驗統計量
所需要的檢驗統計量如下式:
拒絕域為Z>Z1-α。
在式(1)中,檢驗統計量Z服從標準正態分布;(PT、nT)與(PR、nR)分別為試驗組(T)與對照組(R)的“樣本率、樣本含量”;δL為非劣效性界值(通常取負值)。
1.3.3 基于檢驗統計量Z的取值計算單側尾端概率
根據檢驗水準查表或借助相應的SAS函數進行計算,獲得檢驗統計量Z的臨界值(針對手工計算而言)和(或)標準正態分布尾端的概率(針對統計軟件而言)。
1.3.4 得出統計學結論和專業結論
根據拒絕還是不能拒絕H0的結果,得出統計學結論,最后結合專業知識得出專業結論。
基于SAS語言和標準正態分布函數等知識[6]并按式(1)進行編程,就可間接實現兩總體率比較非劣效性Z檢驗。
SAS程序如下:

【程序說明】變量名后面為“_t”與“_r”分別代表“試驗組”與“對照組”相應的量(包括樣本含量與有效率);有效率采用6位小數表示的目的是使計算結果盡可能精確,以助于與后面基于FREQ過程直接計算的結果具有一定的可比性;在評價指標為高優指標時(例如本例中為“有效率”,其值越大越好),非劣效性界值應采用負值來表示。
【SAS輸出結果】

【統計學結論】因Z=1.983,P=0.023696(單側概率)<0.05,所以,應拒絕H0,接受H1。
【專業結論】在非劣效界值δL=-10%的前提條件下,度洛西汀腸溶膠囊治療抑郁癥的效果非劣效于氟西汀膠囊的治療效果。
由于SAS中FREQ過程包含了幾乎絕大多數定性資料假設檢驗方法[7],故此處將采用FREQ過程來直接實現兩總體率比較非劣效性Z檢驗。
SAS程序如下:


【程序說明】各組中的數據應為“有效例數”與“無效例數”,而不適合直接采用“有效率”;程序中noninf表示進行非劣效性檢驗;MARGIN=0.10表示非劣效界值(注意:因為在SAS程序的“tables”語句中的選項“noninf”指明為“非劣效性檢驗”,故此處非劣效界值不使用負值)。
【SAS主要輸出結果及解釋】

因Z=1.9828,P=0.0237,說明度洛西汀腸溶膠囊治療抑郁癥的效果非劣效于氟西汀膠囊的治療效果;若利用置信區間來判斷,由計算結果可知:兩有效率之差的90%置信區間為[-0.0855,0.0555],因置信區間位于δL=-0.10的右側,說明非劣效性結論成立。
3.1.1 影響非劣效性檢驗結果的因素
3.1.1.1 概述
非劣效性檢驗結果不是絕對的,隨著條件的改變,最終的檢驗結果也會發生相應的改變。具體地說,影響其結果的因素有“顯著性水平α”“非劣效性界值δL”和“樣本含量”。
3.1.1.2 α的取值對非劣效性檢驗結果的影響
非劣效性檢驗結果與δL和α的取值有密切關系。例如在本文中,若保持δL=-10%,但取α=0.01,則無法得出“非劣效”的結論(因p=0.0237>0.01);文獻[8]要求,進行非劣效性檢驗時取α=0.025(單側)。事實上,這只是把犯假陽性錯誤的概率從常規的0.05降低到0.025;與此同時,犯假陰性錯誤的概率會有所增大。因為非劣效性檢驗本身就要求進行“單側檢驗”,而檢驗水準α的取值在統計學上習慣取0.05或0.01,一般來說,其取值不應隨采取“雙側檢驗”還是“單側檢驗”而改變。這一點從本文“2.2”中的SAS輸出結果中就可看出:在沒有特別設定顯著性水平[即采用SAS軟件中默認的顯著性水平α=0.10(雙側),等價于α=0.05(單側)]的前提條件下,進行非劣效性檢驗,SAS在計算出Z值和單側概率的同時,還給出了兩率之差的“90%置信區間”。這就意味著在此置信區間的左、右兩端各去掉了“5%”,也就是說,其單側尾端概率(即設定非劣效性檢驗的顯著性水平)為α=0.05。
3.1.1.3 δL的取值對非劣效性檢驗結果的影響
就本文例1而言,若取α=0.05但將δL取為“-5%”,得到的結果為Z=0.81623,P=0.20718>0.05,此時,就無法得出“非劣效”的結論了。由此可知,非劣效界值的確定是至關重要的。一般來說,其值的確定應有充分的臨床專業知識為依據。通常需要結合已有文獻提供的信息、當前臨床試驗研究預試驗的結果和多位從事所研究問題且有豐富臨床經驗的專家的共識,綜合考慮來確定δL的取值。
3.1.1.4 樣本含量對非劣效性檢驗結果的影響
在本文例1中,若保持取顯著性水平α=0.05、δL=-10%、A藥的有效率為87.27%(與表1中的87.39%接近)、B藥的有效率為88.14%(與表1中的88.89%接近),但兩組的樣本含量都減少一半,即A藥組有效例數為48例、無效例數為7例;B藥組有效例數為52例、無效例數為7例。此時,進行非劣效性檢驗,其結果為Z=1.4832,P=0.0689>0.05,結論就變成了“A藥劣效于B藥”。
而需注意的是,在擬開展非劣效性試驗研究之初期,就應當按照已知的條件[包括兩組估計的有效率、顯著性水平α的值、檢驗效能(1-β)的值和非劣效性界值δL的值],找到相應的計算公式,估計出合適的樣本含量[3]。
3.1.2 主要療效評價指標的臨床意義
在進行非劣效性檢驗時,一個常被忽視的問題是評價指標的臨床意義。具體地說,就是應明確當前的評價指標究竟屬于“高優指標(指標取值越大越好,如治愈率)”還是“低優指標(指標取值越小越好,如死亡率)”。當面對高優指標時,通常情況下,試驗組指標的取值低于對照組指標的取值時才適合考慮選用“非劣效性檢驗”;如果在較大樣本含量的預試驗中,已獲得的試驗結果是“試驗組指標的取值明顯高于對照組指標的取值”,此時,不適合選用“非劣效性檢驗”,而應當考慮選用“等效性檢驗”或“優效性檢驗”[3]。
3.1.3 δL是否總是取負值
在進行非劣效性檢驗時,統計學教科書上通常都默認把δL取為“負值”,代表試驗藥療效比對照藥療效“差”。事實上,這樣做有一個隱含的前提,即療效的評價指標為“高優指標”。而當療效的評價指標為低優指標時,若擬采用非劣效性檢驗,此時,其界值δL應取正值。
本文介紹了兩總體率比較非劣效性Z檢驗的原理、方法和SAS實現。在SAS實現方面,介紹了基于SAS語言編程間接實現兩總體率比較非劣效性Z檢驗以及基于SAS中FREQ過程直接實現與前面提及的相同計算。在后者中,還給出了兩總體率之差的置信區間。基于置信區間也可以判斷非劣效性結論是否成立。