呂晶晶 侯雅文 陳 征△
在臨床隨訪研究中,組間生存率差異的比較是重要的研究內容之一。其中,最常用的方法是對生存曲線整體間進行比較的log-rank檢驗法。然而,當數據中存在延遲療效[1]或研究者所感興趣的是某時刻點后的長期生存差異[2]時,簡單的使用部分log-rank檢驗(partial log-rank test,PLR),即截取該時刻點后的數據進行log-rank檢驗,往往會損失大量的患者生存信息,導致檢驗性能下降。當生存曲線存在交叉時,由于交叉點前后的生存率高低逆轉,導致log-rank的檢驗效能顯著降低[3-4];即使得到顯著性差異的結論,整體檢驗仍然無法準確得到哪組生存率更高的結論。除此之外,當生存曲線交叉時,除了整體差異,研究者還會關注某固定時刻或某部分時間區域上組間療效的差異[5-6],如交叉點后的療效差異。但由于固定點檢驗僅是對某個固定時刻點上組間生存率差異的檢驗,較低效,而針對某時刻點(t0)后的時間區域(t0,tmax)進行組間療效的長期差異是更好的方法。Logan[7]和陳金寶等[8]針對患者在某時刻點后的生存率差異,討論了對應的長期檢驗法,但它們卻無法直接比較多組(3組及以上)的情況[9-10]。因此,本文針對多組間長期生存率差異比較的檢驗方法及其多種構造形式進行研究。

選取截斷時間點為t0,針對K組間(K≥3)長期(t0時間點后)生存率的差異進行檢驗,得到原假設
H0:{S1(t0)=S2(t0)=…=Sk(t0)=…=SK(t0)}∩{λ1(t)=λ2(t)=…=λk(t)=…=λK(t),t>t0}。其中,Sk(t0)為第k組t0時刻的累積生存率,λk(t)為第k組在t(t>t0)時刻的風險率。則原假設H0可記為H01:S1(t0)=S2(t0)=…=Sk(t0)=…=SK(t0)和H02:λ1(t)=λ2(t)=…=λk(t)=…=λK(t),t>t0兩個子假設,進而得到備擇假設H1:兩個子假設H01和H02中至少有一個不成立。

1.基本統計量





2.長期檢驗統計量
在兩組間長期療效的比較中,Logan等[6]提出了一種線性組合的思想,即對子假設的基本統計量進行線性組合,進而構造得到最終的組合檢驗統計量。在兩組間長期療效的比較中,子假設H01和H02分別對應兩個服從標準正態分布的統計量Z01(t0)和Z02(t0),且令Z01(t0)=Y01(t0)/δ01(t0),Z02(t0)=Y02(t0)/δ02(t0)。進而得到組合檢驗統計量Z(t0)為:

(1)
轉換公式(2)[13]為
(2)

基于naive法結合轉換公式(1)得到的線性組合檢驗統計量
基于naive法結合轉換公式(2)得到的線性組合檢驗統計量
基于cloglog法結合轉換公式(1)得到的線性組合檢驗統計量
基于cloglog法結合轉換公式(2)得到的線性組合檢驗統計量
為了檢驗多組中長期檢驗法的性能,采用Monte-Carlo模擬研究各檢驗法的一類錯誤和檢驗效能,并與PLR對比。在一類錯誤方面,三組的生存時間均由參數為0.2的指數分布Exp(0.2)產生,刪失時間C由服從于U(0,a)、U(0,b)和U(0,c)的均勻分布產生。在檢驗效能方面,三組的生存時間T和刪失時間C均由不同參數的指數分布產生,記錄時間為t= min(T,C),δ=1[T≤C],通過改變刪失時間分布參數,可使得每組的平均刪失率相同且約為0、20%、40%。為保證時間截點t0前后具有足夠的事件數,選取t0=2,比較三組在時間點2后長期的生存情況。考慮樣本均衡 (n1,n2,n3均為30、60、100和150) 和不均衡(n1=30,n2=n3=60;n1=n2=30,n3=100;n1=30,n2=60,n3=100;n1=30,n2=60,n3=200) 的情形,每一種參數組合下模擬10000次,顯著水平α=0.05。


表1 長期檢驗法和部分log-rank檢驗法模擬結果
在檢驗效能方面,所有檢驗法的檢驗效能均隨刪失率的下降和樣本量的增大而增大。在所有刪失率和樣本量的組合中,PLR的檢驗效能顯著低于其余四種方法的檢驗效能,且其余四種方法間的檢驗效能均相差較小。
綜合Ⅰ類錯誤和檢驗效能,轉換公式(1)與轉換公式(2)(即Zn1與Zn2;Zc1與Zc2)的結果相比,前者所得到的統計量結果更為穩健,且以Zc1最為穩健。
一項關于探究不同種族對淋巴細胞白血病預后影響的研究。數據包含白人、黑人、美國印第安人、亞洲/太平洋島民4個種族,共500名淋巴細胞白血病患者,其中每個種族125人。研究起點為初診確認為淋巴細胞白血病,終點事件是患者發生死亡,其余為右刪失。4類種族的平均生存時間分別約為6年、5年、7年和7年,刪失率分別約為78.4%、66.4%、65.6%和71.2%。檢驗水準α=0.05。
由圖1可見,三條曲線在前中期存在明顯的重疊和交叉,而成比例假設檢驗也顯示三組間不滿足風險率成比例假設(χ2=7.6,P=0.006)。此時,log-rank檢驗結果顯示不同種族的預后情況不具有統計學差異(χ2=6.6,P=0.085)的結果并不可靠。在長期檢驗中,均發現以5年和10年為截點后的患者的長期生存差異具有統計學意義,而在15年后的長期生存差異沒有統計學意義。由圖1可見,患者在15年后的生存數據雖仍然發散,但事件數極少、刪失率很高,因此,在第15年后,未能發現組間存在差異(表2)。

圖1 不同種族下淋巴細胞白血病患者的生存曲線圖

表2 實例分析結果
*:括號內為P值對應的統計量
