區(qū)倩華 阮光峰 丁長海,3
1 中山市人民醫(yī)院重癥醫(yī)學(xué)科(中山 528403) 2 廣州市第一人民醫(yī)院臨床研究中心(廣州 510180) 3 南方醫(yī)科大學(xué)珠江醫(yī)院臨床研究中心(廣州 510280)
臨床研究中若具有多個研究終點、需要比較不同治療組間的差異、不同亞組間的差異分析以及對同一結(jié)果在不同時間的多次分析等,都需要進行多重檢驗,然而多次的假設(shè)檢驗會增加犯Ⅰ類錯誤的風(fēng)險,從而導(dǎo)致試驗結(jié)果的不準(zhǔn)確性[1]。只有部分文章在多重檢驗中進行校正以減少Ⅰ類錯誤發(fā)生的概率,且很少說明進行校正的理由[2]。一項研究評估了2012年1月—2012年12月之間發(fā)表在4種主要醫(yī)學(xué)期刊(BritishMedicalJournal、Lancet、NewEnglandJournalofMedicine和PLoSMedicine)上的多臂試驗,發(fā)現(xiàn)只有一半(49%)的多臂驗證性試驗進行了多重性校正[3]。多重檢驗是較復(fù)雜的統(tǒng)計學(xué)問題,本文嘗試簡單地解釋多重性校正的原理、條件及方法,幫助研究者更好地理解此問題。
單個假設(shè)檢驗是多重檢驗的出發(fā)點,因此先對單個假設(shè)檢驗進行回顧。在進行檢驗時,我們會先確定好顯著性水平α(通常取0.05),這是在此次檢驗中會得到假陽性結(jié)果的風(fēng)險,即Ⅰ類錯誤的發(fā)生概率。換句話來說,研究者會控制單次檢驗中可能出現(xiàn)假陽性結(jié)果的概率在5%。
與單個假設(shè)檢驗類似,若同時檢驗多個假設(shè)時,控制好Ⅰ類錯誤的概率也是主要任務(wù)。舉個例子,研究中有k個假設(shè),每個假設(shè)都是相互獨立的,顯著性水平都是α,那就意味著如果進行k次假設(shè)檢驗,那么不犯Ⅰ類錯誤的概率是(1-α)k,則至少犯一次Ⅰ類錯誤的概率是1-(1-α)k。而且當(dāng)k不斷增加時,(1-α)k趨向于0,1-(1-α)k趨向于1,見圖1,多重檢驗大大增加了Ⅰ類錯誤的發(fā)生概率[4]。

圖1 多重檢驗中Ⅰ類錯誤增加趨勢
圖1:當(dāng)α=0.05時,y=(1-0.05)k,z=1-(1-0.05)k。隨著k的增加,y和z發(fā)生變化。
在多重性檢驗的問題上,我們可以將多個單一的假設(shè)檢驗看成一個整體,然后對這個整體的每個假設(shè)同時檢驗的結(jié)果進行分類總結(jié),就可以定義度量整體錯誤標(biāo)準(zhǔn),從而提出多重校正來控制Ⅰ類錯誤的發(fā)生概率。如果同時檢驗m個假設(shè)Hi,i=1,2……,m,得到的檢驗結(jié)果見表1。

表1 多重檢驗整體錯誤數(shù)
其中V、S、U、T都是隨機變量,V和T分別表示犯第Ⅰ類錯誤和第Ⅱ類錯誤的個數(shù);R是m個檢驗中拒絕原假設(shè)的總個數(shù),m0和m1分別是實際上原假設(shè)為真和原假設(shè)為假的個數(shù)。
定義多重檢驗中錯誤率有以下四種:
(1)PFER(per-family error rate):亦稱平均總體錯誤率,定義為E(V),表示的是多重檢驗中錯誤拒絕(犯Ⅰ類錯誤)的個數(shù)的期望值,但是忽略了檢驗的總個數(shù)m的存在,反應(yīng)不出兩個不同檢驗整體的差異。
(2)PCER(per-comparison error rate):亦稱平均比較錯誤率,定義為E(V)/m,這是在PFER的基礎(chǔ)上得出的,表示的是多重檢驗中錯誤拒絕(犯Ⅰ類錯誤)的個數(shù)在m各檢驗中所占的比例。
(3)FWER(family-wise error rate):亦稱總體錯誤率,定義為Pr(V≥1),這是一個概率值,表示多重檢驗中至少犯一次Ⅰ類錯誤的概率,也可用上文提到的1-(1-α)k表示。
(4)FDR(false discovery rate):亦稱錯誤發(fā)現(xiàn)率,定義為E{V/(V+S)}=E(V/R),表示的是多重檢驗中錯誤拒絕原假設(shè)(拒絕真的原假設(shè),即犯Ⅰ類錯誤)的個數(shù)占所有被拒絕的原假設(shè)個數(shù)的比例的期望值,我們用Q表示V/(V+S),那么FDR亦可表示為E(Q)。此外,應(yīng)當(dāng)注意以下兩種情況:①當(dāng)所有的原假設(shè)為真時,即m=m0和S=0,根據(jù)Q=V/R的公式可得,當(dāng)V=R=0時,Q=0;當(dāng)V≥1時,Q=1,則此時Pr(V≥1)=E(Q),即FWER=FDR,此時FWER與FDR在衡量多重檢驗中錯誤率是等價的;②m0
目前PFER和PCER在多重檢驗中并不多用,而常用基于FWER和FDR的控制方法進行多重校正。
隨機對照試驗中通常會設(shè)置多個試驗組與對照組進行比較,意味著要在多組試驗組之間要進行多次比較,同時也要考慮不同干預(yù)之間的交互作用。最簡單的例子便是進行多個總體均數(shù)間的比較,使用完全隨機設(shè)計資料的方差分析(one-way ANOVA),在進一步兩兩比較的時候為了避免I類錯誤的增加,應(yīng)考慮多重校正。
臨床試驗中除了對不同干預(yù)手段進行分組外,還可以根據(jù)性別、年齡、是否存在合并癥或疾病嚴重程度進行分組,以確定總體試驗結(jié)果是否適用于所有符合條件的患者,或者不同亞組間的干預(yù)效果是否存在差異。如2009年發(fā)表在NewEnglandJournalofMedicine上的一篇關(guān)于替卡格雷和氯吡格雷在急性冠脈綜合征(acute coronary syndrome, ACS)患者中療效的Ⅲ期臨床試驗,結(jié)果表明使用替卡格雷的人群中主要終點事件發(fā)生率降低了16%,而亞組分析表明服用高劑量的阿司匹林(≥300 mg)的ACS患者使用替卡格雷療效不佳[6]。亞組分析會進行多次的假設(shè)檢驗,因此需要考慮多重校正。
在不同時間重復(fù)檢驗相同結(jié)果也會增加犯Ⅰ類錯誤的風(fēng)險。臨床研究中,通常在不同治療組中對受試人群按照一定的時間間隔進行重復(fù)測量,目的是觀察不同治療方式隨時間變化的趨勢[7]。對于不同治療組,研究者反復(fù)測量血壓、藥物清除率、抑郁或疼痛評分等結(jié)局時,注意多重檢驗造成Ⅰ類錯誤的增加。一項在意大利進行2年時間的隨機臨床試驗中涉及了多個時間點的測量,該研究是比較高位或低位結(jié)扎腸系膜下動脈對于直腸癌患者術(shù)后肛門功能和性功能的影響,比較的時間點分別是術(shù)前、術(shù)后1個月和術(shù)后9個月。研究涉及多個時間點的重復(fù)測量,但是作者并未對該結(jié)果進行多重檢驗。
臨床試驗通常是通過評估多種結(jié)果(或“研究終點”)來判斷試驗的效果。心血管研究中,感興趣的結(jié)果可能包括住院、中風(fēng)、心力衰竭、心肌梗塞、心臟驟停、殘疾和死亡。如果我們以5%的顯著性水平分別檢驗每個結(jié)果,那么FWER會高于5%,此時應(yīng)調(diào)整分析方案。同樣,在比較不同結(jié)扎方式對于直腸癌患者術(shù)后肛門功能和性功能影響的研究中,需要進行多重檢驗的情況也包括多個研究終點(尿流量的測量、排尿后的膀胱殘余尿量、男性前列腺功能評價等),作者也未對該結(jié)果進行多重檢驗。
在臨床研究中通常需要進行長期監(jiān)測,即在不同的時間對同一結(jié)果進行多次分析,目的是為了確定是否提前終止試驗,出現(xiàn)的原因可能是新的治療方法與對照組之間存在顯著差異或造成嚴重的不良事件。進行多次分析需要對各階段積累的數(shù)據(jù)進行反復(fù)比較,從而增加了犯Ⅰ類錯誤的風(fēng)險。這種情況類似與相同結(jié)果的重復(fù)測量。
驗證性試驗(如隨機對照試驗)是檢驗預(yù)先確定的關(guān)鍵假設(shè),需要確定合適的樣本量進行數(shù)據(jù)收集和分析,必要時需進行多重校正,為研究提供有效可信的證據(jù)。而探索性試驗(如觀察性研究、Ⅰ期或Ⅱ期臨床試驗早期)是進行新干預(yù)措施之前的早期試驗,可以說是發(fā)現(xiàn)假設(shè)的一個過程,探索性試驗的結(jié)果后期需要進行驗證性試驗進一步檢驗,因此可不要求進行多重性校正。
下面講述的例子是一項北美的3期隨機臨對照床試驗(2016年1月11日—2017年3月22日),該項試驗主要研究加那珠單抗(Galcanezumab)相比于安慰劑在治療偏頭痛上是否更有效。該研究設(shè)計了兩個劑量的加那珠單抗(120 mg和240 mg)和安慰劑組作比較,多個研究終點包括每月偏頭痛的天數(shù)、每月需要使用解熱鎮(zhèn)痛劑來緩解偏頭痛的天數(shù)、偏頭痛特異性生活質(zhì)量問卷評分、偏頭痛殘疾評估評分。多個治療組和多個研究終點的分析均需要進行多重性校正。多重性校正后,與安慰劑相比,兩種劑量的加那珠單抗均能顯著減少每月偏頭痛的天數(shù)和改善患者的生活質(zhì)量,而兩種劑量間的療效并沒有顯著差異。
多重校正有很多種方法,較基本的方法是用于控制FWER和FDR的Bonferroni和Benjamini-Hochberg(BH)校正。
Bonferroni法是最簡單、最經(jīng)典的。為了使FWER達到0.05,那么每次多重檢驗中顯著性水平都必須低于0.05,即1-(1-α)k中的α低于0.05。而Bonferroni校正就是通過調(diào)整顯著性水平來控制多重檢驗中犯I類錯誤的概率,公式為α′=α/k。在此方法中,每次檢驗的顯著性水平都是α/k,其中k是檢驗次數(shù),α指的是原先的顯著性水平,這樣可以保證這一組假設(shè)總體犯Ⅰ類錯誤的風(fēng)險在α之內(nèi)。然而,Bonferroni校正總是以犧牲檢驗效能(1-β)來保證FWER,此時若要維持Ⅱ類錯誤在合理的水平,就需要增加樣本量[8]。
BH法過程較復(fù)雜,步驟如下:(1)將原始m個P值升序排序,排序后表示為P1、P2……Pm;(2)(i / m)×q計算每個P值的BH臨界值,其中i是P值等級,m是檢驗次數(shù),q是FDR(自由取值,通常≤0.05);(3)排序后的P值與BH值進行比較,找到小于或等于臨界值的最大原始P值,此時對應(yīng)排序等級為J,記為PJ,則PJ≤(J/m)×q。(4)拒絕所有等級在PJ之前及PJ(即1≤i≤J)對應(yīng)的原假設(shè),接受這些原假設(shè)對應(yīng)的備擇假設(shè),即認為差異具有統(tǒng)計學(xué)意義[5, 9]。
2016年在NewEnglandJournalofMedicine上發(fā)表的一項關(guān)于比較新型抗凝劑貝曲沙班和目前使用廣泛的依諾肝素在預(yù)防靜脈血栓發(fā)生風(fēng)險的隨機對照臨床試驗上運用了BH法進行多重校正。該研究中,研究者根據(jù)患者年齡和體內(nèi)D-二聚體的水平分成了2個亞組,即在3個組別中分別比較了兩種抗凝劑的療效,分別是D-二聚體水平升高的患者(組別1)、D-二聚體水平升高且年齡大于75歲的患者(組別2)、所有入組的患者(組別3)。在3個組別中對比貝曲沙班和依諾肝素的作用效果,得出的P值分別是0.054、0.03、0.006,按照P≤0.05來看,兩種抗凝劑的使用在組別2和組別3是有區(qū)別的。通過BH法進行多重校正后,BH臨界值分別是0.05、0.03、0.017,則只有在組別3中兩種抗凝劑是有差異的。因此,在患有內(nèi)科急癥的住院患者中,貝曲沙班在降低靜脈血栓的發(fā)生率優(yōu)于使用依諾肝素的患者。為了確定該結(jié)果是否適用于所有患內(nèi)科急癥的住院患者,經(jīng)過多重校正的亞組分析表明,在D-二聚體水平升高或者合并年齡大于75歲的患者中,貝曲沙班的使用并沒有顯示出優(yōu)勢。
以下是關(guān)于BH法和Bonferroni法在多重校正中的區(qū)別。

表2 BH法、Bonferroni法校正后及未校正前的多重檢驗(m=10,F(xiàn)DR=q=0.05,α=0.05)
實際上,BH法是對排序后的假設(shè)重新確定了新的顯著性水平(相當(dāng)于臨界值),隨著等級i的不斷增加,重新確定的顯著性水平(臨界值)也不斷增加。相對于Bonferroni法中顯著性水平一直是α/k來說,BH法拒接原假設(shè)的標(biāo)準(zhǔn)顯得不過于保守。這樣就能從統(tǒng)計學(xué)上保證FDR不超過α,從而保證多重檢驗整體犯I類錯誤的概率低于預(yù)先設(shè)定的顯著性水平α。
雖然兩種方法都是用于多重檢驗中控制Ⅰ類錯誤的發(fā)生,但兩者之間仍有區(qū)別。Bonferroni校正方法雖簡單,但過于嚴格,靈敏度不高,難以比較出不同組別之間的差異;用于控制FDR的BH方法會基于每個P值進行校正,顯得更加靈活,且提高了檢驗效能。實際上,多重性問題會存在不同的復(fù)雜情況,如研究方案中多個治療組、多重性結(jié)果和多次中期分析并存等,那么多重性校正就更具有挑戰(zhàn)性,簡單的Bonferroni和BH方法并不能解決問題,需要更復(fù)雜的統(tǒng)計方法[10]。
為了保持統(tǒng)計結(jié)果與結(jié)論的嚴謹性和一致性以避免誤導(dǎo)讀者,研究者應(yīng)該清楚地認識多重性校正的重要性,并根據(jù)問題及時調(diào)整研究方案或分析策略,且應(yīng)在發(fā)表文章中給出明確的解釋。