哈爾濱醫科大學衛生統計學教研室(150086) 侯 艷 李 康
兩組計量資料非劣效檢驗的P-P曲線評價方法*
哈爾濱醫科大學衛生統計學教研室(150086) 侯 艷 李 康△
目的針對兩組計量資料的非劣效性評價問題,給出一種新的統計檢驗方法。方法根據計量資料的不同評價分界值,給出相應的試驗組和對照組的“有效率”,分別以兩組的“有效率”為橫軸和縱軸,連成P-P曲線并計算曲線下面積,然后根據這一統計量進行統計檢驗,并通過模擬實驗對檢驗效能進行研究。結果給出了P-P曲線方法的檢驗公式,使用這種方法更易于選擇非劣效界值,而且對數據的分布沒有任何限制,在偏態情況下比傳統方法有更高的檢驗效能。結論該方法適合用于Ⅱ期探索性臨床試驗研究,具有應用和研究價值。
臨床試驗非劣性試驗非劣效界值P-P曲線
在新藥臨床試驗中,經常需要比較試驗藥物是否非劣于陽性對照藥物的療效,例如新的治療方法與標準治療相比安全性方面可能更有優勢,其療效只要在允許的非劣效界值范圍內即可。兩組計量資料的非劣效性評價,一般采用兩組均數的差值進行衡量和檢驗。非劣效界值的確定是設計的關鍵,通常需要根據陽性對照的效應、具體疾病特征、臨床意義等進行確定[1-2]。傳統的檢驗方法需要假定數據服從正態分布,如果數據明顯呈偏態,分析的結果則可能不正確,而且選擇的非劣效界值也可能失去意義。本文提出P-P曲線這一新的概念和方法,闡述了它與傳統臨床試驗非劣效評價方法的關系,在此基礎上推薦了新的非劣效檢驗的界值標準,這種方法對數據的分布沒有任何限制,而且在偏態分布時同樣能夠保證其檢驗效能。
1.P-P曲線及曲線下面積
假定標準組和試驗組的療效變量Y服從任意分布,G表示分組變量,G=0表示標準組,G=1表示試驗組,各自服從方差為σ2(G)的分布,同時假定測量值越大療效越好(高優指標)。對于定量終點評價指標,試驗組和標準組的分布通常有較大的重疊,如果將其分為“有效”和“無效”兩類,選擇不同的閾值會得到不同的結果(圖1)。現用橫坐標πT(c)和πS(c)分別表示試驗組和標準組的“有效率”,不斷改變“有效率”的閾值c,獲得一條連續的曲線,對此稱之為P-P曲線,并用參數θ表示曲線下面積(0≤θ≤1)。從圖2可以看到,如果試驗組與標準組的療效完全相同,P-P曲線是由(0,0)到(1,1)的45°角的直線,直線下面積為θ=1/2;當試驗組的療效不如標準組時,曲線下面積θ<1/2;當試驗組療效優于對照組時,曲線下面積θ>1/2。記Δθ=1/2-θ表示兩組療效的平均差別,Δθ愈大說明試驗組的療效與對照組相差愈大,當Δθ<0時,說明試驗組的療效優于標準組。

圖1 試驗組與標準組療效測量結果的概率分布與確定有效率的閾值


圖2 試驗組和標準組的P-P曲線示意圖
FT(c)和FS(c)分別是試驗組和標準組的分布函數,PP曲線方程可以表示為

特殊地,當標準組和試驗組的療效分別服從N的正態分布時,容易推出P-P曲線方程:

Φ(·)為標準正態的分布函數。P-P曲線下的面積為

2.Δθ值的意義
下面我們證明兩組有效率差值與P-P曲線下面積θ之間的關系[3]。

兩總體率的最大差值max{Δπ(c)}的截斷點c*可以通過解下面方程得到,即

其中fS(c)和fT(c)分別為標準組和試驗組測量結果的密度函數。容易證明,c*恰為兩密度曲線的相交點,同時是P-P曲線上45°切線上的點。在正態分布假定下,有

c*的解由下式決定:

兩總體率的最大差值:

特殊地,在σT=σS時,c*=(μS+μT)/2,于是P-P曲線下面積的參數θ與max{Δπ(c)}之間的數量關系為

max{Δπ(c)}與Δθ的具體數量關系見表1。例如Δθ=0.05,max{Δπ}=0.0708,表示在雙正態同方差假定下,無論怎樣選擇“有效率”的閾值c,標準組與試驗組的有效率之差最大不超過7.08%。RR表示對應c值的兩組有效率的比值。實際上,在非正態情況下(如Weibull分布),只要方差相同,max{Δπ(c)}與Δθ的關系與正態分布的情況相差不大(如max{Δπ(c)}<0.08)。為便于應用,表1和表2給出了標準組在各百分位點時不同指標的對應值。例如,標準組的有效率為0.80,在選擇Δθ=0.05作為非劣效界值時,相當于取兩組有效率的最大差值max{Δπ(c)}=0.0534為界值。為便于比較,同時也給出了相應的兩組有效率的比值RR。可以看出,選擇Δθ=0.05是一個較為適當的選擇,此時max{Δπ(c)}=0.0534,在πS>0.40的情況下,能夠保證max{RR(c)}≤1.20,作為非劣效的界值基本上能夠滿足目前臨床試驗的要求。

表1 雙正態分布P-P曲線下面積θ與Δπ之間的數量關系

表1 雙正態分布P-P曲線下面積θ與Δπ之間的數量關系(續)
3.P-P曲線下面積的計算
P-P曲線計算有多種方法,這里給出最基本的方法。可以證明,P-P曲線下面積是對照組檢測值大于試驗組檢測值的概率,即

θ的估計值可以利用下式計算,即

其中

nS和nS為標準組和試驗組的檢測例數。樣本估計方差可以用Delong給出的非參數方法計算得到[4]。
4.統計檢驗方法
對于給定的P-P曲線下面積的非劣效界值δP-P,非劣效檢驗的方法為[5]

統計量z近似服從正態分布,如果z>z1-α,則可以拒絕H0,認為試驗組非劣效性成立。同樣可以使用可信區間的方法,即按照100(1-α)%的置信度,計算出單側可信區間的上限CU,若CU<δP-P則可下非劣效的結論。可信區間檢驗方法與公式(11)檢驗方法等價。
1.雙正態分布情況
在兩組方差相同的情況下,兩組均數非劣效檢驗的樣本含量計算公式為[6]

其中,δ0和Δμ分別為給定的兩組均數差值的允許界值和實際差值,p為標準組在總樣本中所占的比例。
對于給定的P-P曲線檢驗方法的非劣效界值δP-P,與兩組均數差值的非劣效檢驗的界值δ0有如下關系:

μT.0是在原假設H0:Δθ=δP-P成立時試驗組的均數。容易推出:

為便于比較,選擇P-P曲線方法檢驗,取δP-P=0.05和δP-P=0.07兩種不同的非劣效界值,兩組的樣本含量比值k=1,即p=1/2,樣本量nS=nT=200,對于不同實際差別Δθ,其檢驗效能的變化見圖3。可以看出,在兩組服從正態分布且方差相同假定下,P-P曲線方法與傳統的均數差值方法的檢驗效能曲線重合。
2.偏態分布情況
假設測量結果Y取對數lnY服從正態分布,即lnY~N(μ,σ2)。如果標準組和試驗組的測量結果分別服從則Y的數學期望為

根據設定的P-P曲線下面積非劣效界值δP-P,將其換算成用原始變量Y表示的非劣效界值δ0,具體方法為

其中E(YT.0)和μT.0分別表示在原假設成立條件下,試驗組測量值和取對數的期望值。

圖3 正態分布下采用兩種不同檢驗方法計算出的檢驗效能(傳統方法的檢驗界值δ0按照P-P曲線檢驗給出的界值δP-P換算得到)
用模擬實驗考核檢驗效能,模擬中設lnYS~N(2,1)和lnYT~N(μT.alt,1),μT.alt是備擇假設下試驗組測量值對數的期望值。模擬試驗采用傳統的均數差值法和P-P曲線兩種方法進行檢驗(α=0.05),結果見圖4。結果表明,隨著Δθ的增大,非劣效檢驗的把握度逐漸減小,在實際差別與非劣效界值相同時,檢驗效能接近檢驗水準0.05,說明能夠較好地控制檢驗的Ⅰ類誤差。同時也看出,在偏態分布情況下,P-P曲線法的結果與正態分布時的檢驗效能比較十分相近,而傳統的均數差值法的檢驗效能則降低很多,P-P曲線檢驗方法的檢驗效能明顯高于傳統檢驗方法。

圖4 在對數正態分布下采用兩種不同檢驗方法計算出的檢驗效能(傳統方法的檢驗界值按照P-P曲線檢驗給出的界值換算得到)
1.本文針對兩組計量資料的非劣效性評價問題,給出了一種新的統計檢驗方法。P-P曲線的思想源于診斷試驗評價的ROC(receiver operating characteristic)分析,這種方法的最大特點是對數據的分布沒有任何限制,而且對于不同檢測的數據使用相同的統計準則去確定非劣效性界值δP-P,并且可以將試驗組和標準組的分析結果用圖形直觀的顯示。
2.實際中,非劣效性界值的選擇需要根據統計學和臨床判斷綜合考慮,本文推薦使用δP-P=0.05,如果放寬檢驗標準,可以選擇δP-P=0.07,給出的這些標準不僅適合正態分布,同樣適合偏態分布數據。在雙正態分布時,由式(4)可以導出;δP-P=Φ(δ0/由此可見,δP-P=0.05時,σS和σT的值愈大,δ0也愈大,即這種方法能夠自動地調整δ0與數據變異之間的關系,使非劣效性評價更為簡單和具有實效。這種方法的不足:Δθ的實際意義不如Δμ直觀,因此建議在Ⅱ期探索性臨床試驗中使用。
3.模擬試驗的結果表明,無論總體是否服從正態分布,只要方差相同,檢驗效能基本不改變,而傳統方法只有在正態和方差相同條件下才能夠準確地檢驗和保證最大的檢驗效能。事實上,在方差不相同時,P-P曲線方法同樣是有效的,但在這種情況下需要考慮其專業意義。
4.關于協變量調整的問題。對計量數據的非劣效性試驗,如果有協變量影響療效,可以采用協方差分析的方法,然而如果數據呈明顯的偏態分布或是兩組方差不相等,則傳統的協方差分析的檢驗結果可能出現問題。本文給出的P-P曲線方法同樣可以對協變量進行調整分析[3,6],并且沒有線性模型對這些條件的限制,同時可以很容易地推廣到重復測量等研究設計的非劣效性分析,具有一定的研究價值和應用前景。
1.CCTS工作組,夏結來.非劣效臨床試驗的統計學考慮.中國衛生統計,2012,9(2):270-273.
2.侯艷,武振宇,李康.臨床新藥試驗中非劣效性檢驗界值的確定方法.中國衛生統計,2008,25(6):648-651.
3.Hou Y,Ding V,Li K,Zhou XH.Two new covariate adjustmentmethods for non-inferiority assessment of binary clinical trials data.Journal of Biopharmaceutical Statistics,2010,21(1):77-93.
4.DeLong ER,DeLong DM,Clarke-Pearson DL.Comparing the areas under two or more correlated receiver operating characteristic curves:A nonparametric approach.Biometrics,1988,44:837-845.
5.劉玉秀,姚晨,陳峰,等.非劣性/等效性試驗的樣本含量估計及統計推斷.中國新藥雜志,2003,12(5):371-376.
6.侯艷,李康.非劣效性臨床試驗中兩組率差值的協變量調整方法.中國衛生統計,2012,29(2):196-198,201.
(責任編輯:郭海強)
P-P Curve Evaluation M ethod for the Non-inferiority of Clinical Trials in the Quantitative Data
Hou Yan,Li Kang(Department of Medical Statistics,Harbin Medical University(150086),Harbin)
ObjectiveIn this study,we presented a new statistical method to assess the non-inferiority for two-arm quantitative outcome.MethodsEfficacy rates from the test drug and positive control group were obtained according to the thresholds formed a probability and probability(P-P)curve,where the horizontal axis is the efficacy rate from the positive control drug and the vertical axis is one from the test drug.We calculated the area under the P-P curve and performed the statistical testw ith this new-devised statistics.In addition,a series of simulation studieswere performed to test the statistical power for this method.ResultsWe presented a test formula for P-P curvemethod,which is easier to choose the non-inferiority margin.Furthermore,thismethod has no lim itation for the data distribution,especially in the case of skewed distribution,it could provide high statistical power for thismethod.ConclusionThismethod could be effective in the explorative study and it deserves practical application and further studies.
Clinical Trials;Non-inferiority Test;Non-inferiority Margin;P-P curve
*:國家自然科學基金項目(81102201),哈爾濱醫科大學伍連德青年基金(WLD-QN1105)
Δ通信作者:E-mail:likang@ems.hrbmu.edu.cn