第四軍醫大學口腔醫院信息科
蔡宏偉
·學術討論·
統計推斷與平均組間效應*
第四軍醫大學口腔醫院信息科
蔡宏偉
統計學的主要目的之一是借助已經發生的事件對未來事件發生的可能性做出統計推斷[1]。現代統計學理論框架的產生和發展與隨機化方法的應用推廣密不可分[2-3],隨機對照臨床試驗是公認的評價臨床干預措施的金標準,隨著信息技術在醫療領域的應用,電子數據越來越多,觀察性數據的獲取成本不斷降低,由觀察性研究數據做出統計推斷越來越受到重視[4]。觀察性研究的基本思路是盡量模擬隨機化研究的特性,通過“匹配”或“調整協變量”等統計學方法對混雜因素進行“均衡”。我們在統計推斷中使用“研究群體”的平均組間效應(average treatment effect,ATE)推斷“目標個體(或群體)”的ATE。不論是隨機對照臨床試驗還是觀察性研究,試驗人群、調整后人群與擬推斷目標人群的“同質性”都是一個需要考慮的重要問題[5]。如果沒有遵循正確的基本“原則”,就很有可能得出錯誤的結論。
假設一個個體u,有兩種治療方式可供選擇,T={1,0}。當 t=1時,個體接受治療干預;當 t=0時,個體接受對照干預。Y1(u)表示個體u接受治療干預的效應,Y0(u)表示個體u在同一時間接受對照干預的效應。則對于每一個受試個體u,治療干預相對于對照干預的治療效應差異

因為個體u不可能在同一時間既接受治療干預,又接受對照干預,這就導致個體u在某個特定時間段的治療效應與對照效應的差值(即個體治療干預與對照干預的對比)無法直接求出。這就是Rubin提到的統計推斷中的基本問題[6],幾乎所有的統計推斷工作都圍繞如何解決這一問題展開。
我們很容易想到,需要找到一個與個體u類似的人群,用U表示,也就是我們需要做出統計推斷的目標人群,用PATE來代表目標人群的平均組間效應。而我們推斷PATE時候,總是需要一個試驗樣本的,即我們只能根據一個試驗樣本求出SATE。當這個試驗樣本是從總體人群中隨機抽樣得到時,SATE=PATE。雖然實際上,我們可能永遠也無法證明這一點[1]。

表1 分兩組情況下,個體u治療組效應和對照組效應的可觀測值和反事實值
在將樣本受試者分為兩組的情況下,如表1所示,這4種效應中,只有效應A和效應D是可以觀測到的。效應B和效應C理論上存在,但是實際上觀察不到,也被稱作反事實。
樣本平均組間效應SATE,是試驗樣本中所有受試者的治療組與對照組的平均組間效應差值,如公式2所示,

于是所有統計學的推斷問題集中到兩點:
(1)如何利用實際可測的數據替換公式(2)中的反事實數據,求出τ,即SATE。
(2)由SATE推斷PATE時,試驗人群與目標人群是否具有同質性。
隨機對照臨床試驗被稱作評價治療干預措施的金標準,而隨機化原則是這一金標準的核心和基礎[3,7]。隨機化有2個特性,即不可預測和機會均等,不可預測可以避免選擇偏倚,機會均等可以使組間均衡可比。在隨機化均衡組間基線水平的基礎上,對不同的組分別實施不同的干預,就可以推斷出不同干預的效果差別。
在隨機分組的情況下,治療組與對照組的基線水平在理論上完全一致,所以可以分別用治療組的治療效應A代替總人群的治療效應(A+C),用對照組的對照效應D代替總人群的對照效應(B+D),此時,有


治療組的治療效應 E(y1(u)|t=1)和對照組的對照效應 E(y0(u)|t=0)都是可測的,所以 SATE是可以直接求出的。此時治療組與對照組的平均組間效應ATE也就是組間的邊際治療效應(marginal treatment effect,MTE)[8]。
在我們需要均衡的因素中,可以分為已知的可以觀測到的混雜因素和未知的無法觀測到的混雜因素。而實際上,我們無法評判隨機化是否對所有的已知和未知因素都均衡得很好[1]。在小樣本情況下,簡單隨機化并不能夠嚴格做到組間的“均衡可比”,比如將20個受試者分到兩組,則兩組受試例數比值差別大于12:8的可能性為0.19。當需要均衡的因素很多時,如,有6個影響因素,每個因素有3個水平,則共有36個=729個水平,如果每個水平上的病例數不是足夠多,那么即使用分層區組隨機化也無法保證在所有水平上各組間都均衡可比[9-10]。由此,我們希望首先控制好那些通過實踐已經被證明的重要的混雜因素。因此,動態隨機化方法(最著名的如最小化法)因為能在相同的情況下,均衡更多的混雜因素,所以在現代臨床試驗中得到越來越廣泛的應用[9,11-12]。
通過隨機化的結果進行統計推斷,關鍵還要看上文所指出的第2個問題,即試驗人群與目標人群的同質性。以新藥臨床試驗(要求最嚴格的臨床研究)中的隨機對照臨床研究為例,受試個體一般需要經過“納入/排除”標準的篩選。比如;排除掉懷孕婦女、兒童以及危重患者。此外,由于人種基因型、生活習俗以及自然環境等的差異,由北美或歐洲人群得出的SATE與我國人群中的SATE很可能是不一致的。因此,將“試驗人群”得到的SATE推論到“目標人群”受到限制,這也是我們國內醫院的臨床科室不能直接使用國外的臨床指南,而需要在其基礎上做出調整的根本原因。
在觀察性研究中,由于沒有“納入/排除”標準等限制,因此其人群更接近“真實世界”的目標人群。但是通過觀察性研究得到的數據可能有偏倚或混雜因素的影響,我們在分析時一般需要進行“匹配”或者“協變量調整”[13]。各種不同的調整方法,實際是通過排除掉一些“因差異較大無法匹配”的受試個體或者虛擬出“假定的標準人群”,然后進行統計推斷。
以目前比較流行的非隨機數據研究方法傾向評分匹配(propensity score matching,PSM)為例[14],在計算傾向評分的過程中,傾向評分的值會因納入模型協變量的不同而有所變化。在實際中,只能納入“已知的”并且是“被觀測到的”協變量,而未知協變量在組間的分布情況是未知的。也就是說,雖然PSM方法做了類似“事后隨機化”的處理,均衡了組間已知的混雜因素,但是對于未知的協變量對研究結果的影響仍然是無能為力的[15]。對于上文中提到的第一個關鍵問題,在觀察性研究中,利用實際可測的數據替換公式(2)中的反事實情況時,可能因未知因素的影響,得到的τ與實際的τ不同。
在某些情況下,SATE的子集SATT(sample average treatment effect for the treated)更受到關注。如患肺癌的病人根據是否使用某種較昂貴的抗癌藥物被分為2組,選擇使用該抗肺癌藥物的治療組病人與不使用該抗癌藥物的對照組病人在構成上可能不同(如經濟條件不同)。此時,我們更關注的是接受抗癌藥物治療的病人群體的平均組間效應SATT,可以用公式(4)表示。假設治療組個體數量遠小于對照組個體數量,就可以通過以治療組個體為基準,通過匹配構建用于估計“治療組病人”組間效應的試驗虛擬人群。如公式4所示,E(y1(u)|t=1)是實際可測的,E(y0(u)|t=1)是通過匹配得到的。

而且,如果在 PSM中使用“卡鉗匹配法”[16-17],則匹配后得到的“虛擬人群樣本”排除了治療組和對照組中PS值不能重疊匹配的個體,因此匹配后得到的“虛擬人群樣本”的 NSATE(new sample average treatment effect)可能與原始人群的SATE不同。使用其它的方法如分層調整、模型調整或者加權法調整等與匹配法調整的情況類似[18-19]。不論使用哪種方法,“樣本試驗人群”的構成已經發生變化。因此由觀察性研究得出的結論,在推廣到其他人群時,除了關注組間的已知的混雜因素外,還需要對試驗樣本的人群及調整后人群的基本特征做出說明,以方便讀者自己判斷試驗得出的結論對自己實踐的指導意義。
在需要做出統計推斷時,隨機化研究對比觀察性研究的優勢在于:隨機化研究可以同時均衡樣本組間的“已知混雜因素”和“未知混雜因素”,而觀察性研究最多可以通過統計模型在事后均衡“已知混雜因素”,而對“未知混雜因素”則無能為力。因此,隨機化研究可以較準確得出SATE(樣本平均組間效應);而觀察性研究因納入的混雜因素不全,使得到的SATE可能與實際的SATE有一定的差異。但這種差異會隨著在模型中納入更準確的混雜因素而逐漸減小。
在由SATE做出推斷的過程中,隨機化研究與觀察性研究都各有短板。隨機化研究因為經過納入排除標準的篩選,而與總體發病人群存在差異。而觀察性研究在調整混雜因素的同時,原有人群中的構成發生了變化。對于觀察性研究,由于需要對混雜因素進行調整,而所有的調整(包括隨機化方法中的限制性隨機化模型)都建立在模型的基礎上,如果模型正確,則混雜因素效應減少;如果模型不能反映實際情況,則混雜效應仍會存留,所得的SATE與實際的SATE存在差異。而且,試驗組和對照組的混雜因素是否全部被納入模型,我們永遠也無法確認。
人體本身很復雜,與外界環境等因素相互作用就更復雜。在臨床研究中,有我們認識到的因素,還有很多我們尚未認識到的因素。在由試驗樣本對目標人群做出推斷時,除了需要考慮有無混雜因素的影響,還需要考慮試驗樣本與目標個體或人群是否具有同質性。
[1]Holland PW.Statistics and Causal Inference.Journal of the American Statistical Association,1986,81(396):945-960.
[2]Jacquez JA,Jacquez GM.Fisher's randomization test and Darwin's data--a foot note to the history of statistics.Math Biosci,2002,180:23-28.
[3]Hall NS..Fisher and his advocacy of randomization.J Hist Biol,2007,40(2):295-325.
[4]Anglemyer A,Horvath HT,Bero L.Healthcare outcomes assessed with observational study designs compared with those assessed in randomized trials.Cochrane Database Syst Rev,2014,4:R34.
[5]Marcus SM,Stuart EA,Wang P,et al.Estimating the causal effect of randomization versus treatment preference in a doubly randomized preference trial.Psychol Methods,2012,17(2):244-254.
[6]Rubin DB.Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies.Journal of Educational Psychology,1974,66(5):688-701.
[7]Greenland S.Randomization,statistics,and causal inference.Epidemiology,1990,1(6):421-429.
[8]Austin PC.The performance of different propensity score methods for estimating marginal hazard ratios.Stat Med,2013,32(16):2837-2849.
[9]Pocock SJ,Simon R.Sequential treatment assignment with balancing for prognostic factors in the controlled clinical trial.Biometrics,1975,31(1):103-115.
[10]Lachin JM.Statistical properties of randomization in clinical trials.Control Clin Trials,1988,9(4):289-311.
[11]Cai HW,Xia JL,Gao DH,et al.Implementation and experience of a web-based allocation system with Pocock and Simon's minimization methods.Contemp Clin Trials,2010,31(6):510-513.
[12]Cai H,Xia J,Xu D,et al.A generic minimization random allocation and blinding system on web.J Biomed Inform,2006,39(6):706-719.
[13]Imai K,King G,Stuart EA.Misunderstandings between experimentalists and observationalists about causal inference.Journal of the Royal Statistical Society:Series A(Statistics in Society),2008,171(2):481-502.
[14]王永吉,蔡宏偉,夏結來,等.傾向指數第二講傾向指數常用研究方法.中華流行病學雜志,2010,31(5):584-585.
[15]王永吉,蔡宏偉,夏結來,等.傾向指數第三講應用中的關鍵問題.中華流行病學雜志,2010,31(7):823-825.
[16]Austin PC.A comparison of 12 algorithms for matching on the propensity score.Stat Med,2014,33(6):1057-1069.
[17]Wang Y,Cai H,Li C,et al.Optimal caliper width for propensity score matching of three treatment groups:a Monte Carlo study.PLoS One,2013,8(12):e81045.
[18]李智文,任愛國.傾向評分加權分析法.中國生育健康雜志,2010,21(4):251-253.
[19]李智文,任愛國.傾向評分分層和回歸分析.中國生育健康雜志,2010,21(3):186-188,封 3.
*國家自然科學基金資助(30800952)
鄧 妍)