山西醫科大學衛生統計學教研室(030001) 高 倩 王 彤
【提 要】 目的 觀察性研究中使用傾向性評分法估計因果效應依賴于不存在未測量混雜假設。隨著大數據時代的到來,越來越多的處理前協變量可被測量并納入分析中,使得這一假設更合理,但同時也導致標準的傾向性評分法不再適用,這就促使了高維情況下因果推斷方法的發展。本研究對現有的高維情況下基于傾向性評分的因果推斷方法進行概述,為實際應用提供參考依據。方法 從變量選擇和協變量組間均衡性兩個角度出發,對現有方法做歸類和總結,系統回顧各方法的基本原理、方法步驟及優缺點等。結果 基于變量選擇的方法可分為Screening、懲罰和貝葉斯三類;基于均衡性的方法有明確的機制確保協變量的組間均衡性。結論 實際應用中研究者應根據自身數據特點結合各方法的優缺點選擇合適的方法進行分析,從而得到一致有效的因果效應估計量。
因果推斷的金標準是隨機對照試驗,然而完全隨機化試驗費時費力,且在很多場景下不可行[1]。相對而言,觀察性研究容易實現且更接近現實情況,因此有必要發展統計學方法以從觀察性研究中獲得因果效應估計值。Rosenbaum和Rubin于1983年提出的傾向性評分(propensity score,PS)方法廣泛應用于觀察性研究的因果推斷[2]。常用的基于PS的方法主要包括匹配、分層、回歸校正及逆概率加權(inverse propensity weighting,IPW),其中IPW方法應用最廣,從屬于因果模型家族中的邊際結構模型[3-8]。將IPW與回歸方法結合發展出雙穩健估計方法(doubly robust,DR),這類方法的優點是只要PS模型和結局模型之一正確設定,那么所得估計量就是一致且漸近正態的[9]。
使用基于PS的方法估計因果效應值需要滿足不存在未測量混雜假設,即校正充分混雜變量集后,處理組和對照組個體是可比的。這一假設無法檢驗,一般認為分析中包含的協變量越多那么這一假設越合理,然而因果效應估計值對PS模型中納入的協變量敏感,如遺漏重要的混雜變量會導致偏倚;模型中包含僅預測處理因素的協變量或無關變量會導致因果效應估計值的方差膨脹而不能降低偏倚[10-11]。從這個意義上說,選擇一組適當的混雜因素進行控制對于可靠的因果推斷是至關重要的。另一方面,觀察性研究中因果效應估計值的偏倚主要是由協變量在處理組和對照組間不均衡引起的,從這一角度講,確保協變量實現充分的組間均衡性是獲得因果效應一致估計的另一關鍵因素[12-13]。隨著大數據時代的到來,成百上千甚至數以萬計的處理前協變量可被收集測量,在這種情況下如何使用基于PS的方法得到因果效應的一致有效估計是一個亟待解決的問題。目前已針對這一問題發展出諸多方法,本文將從變量選擇及協變量均衡性兩個方面介紹高維情況下基于PS的因果推斷方法。
遺漏重要的混雜變量會導致因果效應估計值有偏,因此,研究者們一直提倡將所有觀測到的變量均加入到PS模型中[14]。但在高維情況下這一策略不再適用甚至不可行,這是因為將大量無關的變量加入到PS模型中會導致有效性的損失,同時可能由于維度過高而無法擬合PS模型。因此,當存在大量可能的混雜因素時,需要某種類型的變量選擇以實現無偏的有效的估計。Brookhart等的模擬研究表明,校正所有的混雜變量足以去除混雜偏倚,且額外的校正僅預測結局的協變量可改善方差估計[15]。這意味著,一種有效的因果推斷變量選擇方法應同時考慮協變量與結局及處理因素之間的關系。基于此,Schneeweiss等于2009年提出高維傾向性評分方法(high-dimensional propensity score,HDPS),該方法首先根據協變量可能造成的偏倚對協變量進行排序,隨后取前k個協變量構建PS模型并估計因果效應[16]。這一方法存在兩個缺陷:一是沒有明確的標準以確定進入PS模型中的最優協變量數,為了解決這一問題,Wyss等提出將HDPS方法與超級算法(super learner)或與協作目標最大似然估計(collaborative targeted maximum likelihood estimation,C-TMLE)聯合使用[17];二是計算協變量可能造成的偏倚時依賴于協變量與結局及協變量與處理因素間的邊際相關,這可能把與結局條件獨立的協變量排在前面。在實際中,HDPS類方法常用于分析電子醫療數據。




無論是screening方法還是懲罰類的方法,最終都是利用一個統計模型估計因果效應,這一過程并沒有考慮“校正不確定性”,即模型中包含哪些協變量可恰當地校正混雜偏倚所帶來的不確定性。貝葉斯模型平均(Bayesian model averaging,BMA)類方法試圖通過對整個模型空間的效應估計進行平均來考慮這一不確定性[28]。簡單來說,這類方法將協變量是否包含在模型中轉化為一個指示變量α,并將其視為未知的冗余參數。隨后計算各模型對應估計值的加權平均作為最終估計值,權重依賴于每個模型的后驗分布概率[29-30]。傳統的BMA方法在效應估計上存在局限性。Dominici和Parmigiani指出,BMA方法對包含所有混雜變量的模型子空間和沒有包含所有混雜變量的模型子空間進行平均(兩類模型估計的效應值解釋不同),這導致了估計偏倚[31]。BAC(Bayesian adjustment for confounding)方法通過側重考慮校正了所有必要混雜變量的模型來避免這一問題[32]。這一方法的核心是定義了一個依賴先驗(dependence prior)參數ω,先驗地假定如果一個協變量對處理因素具有高度的預測性,那么相同的協變量將有很大的先驗概率被納入結局模型。這使得在計算效應估計值的加權平均時,對可能包含所有必要混雜因素的模型賦予較高的權重。Zigler和Dominici提出的貝葉斯模型平均方法借用PS回歸校正的思想,通過將PS以線性預測變量的形式加入結局模型中來控制混雜[33]。此外,還將包含在PS模型中的變量也以線性形式加入到結局模型中以解決“feedback”問題。該方法通過使用聯合貝葉斯PS估計(joint Bayesian PS estimation)將模型選擇的不確定性整合入因果效應估計的后驗分布中。無論是BAC還是Zigler和Dominici提出的貝葉斯模型平均方法都依賴于參數假設,如假設協變量以線性組合形式加入結局模型中,這導致二者對模型誤設不穩健。為解決這一問題,Cefalu等人提出了MA-DR(model averaged double robust)方法[34]。與BAC方法類似,MA-DR也定義了一個依賴先驗,將PS模型中包含的協變量強制為結局模型中包含的協變量的子集。不同之處在于MA-DR使用DR法估計因果效應值。Wilson和Reich于2014年提出Bayesian credible region方法,主要思想是在所有的可行模型中識別最簡單的模型[28]。可行模型定義為包含在PS模型和結局模型(PS模型和結局模型均為貝葉斯回歸全模型)中協變量系數的(1-α)×100%的后驗可信區域內的模型。通過懲罰不包含混雜因素的可行模型識別最簡單的模型。Bayesian credible region方法同時適用于處理因素為二分類和連續型的情況,但值得注意的是該方法是保守的,它能選出更多的協變量[11]。
基于PS的方法旨在通過均衡處理組和對照組間的協變量實現因果效應的無偏估計,然而傳統的PS估計方法,如最大似然估計,并沒有正式的機制可以保證協變量最終得到平衡[35]。針對這一問題,有學者提出使用calibrated estimation(CAL)替代最大似然估計擬合PS模型。CAL的主要思想是構建一個新的損失函數lCAL使其對應的估計方程為協變量均衡條件,即處理組或對照組子樣本協變量的加權均數等于樣本協變量均數[36]。Tan通過在lCAL上增加一個LASSO懲罰項提出RCAL(regularized calibrated estimation),將CAL推廣到高維情況[35]。顯然,CAL方法除了可以得到令人滿意的協變量組間均衡性外,對模型誤設也更加穩健。但RCAL中由于引入了懲罰項導致PS估計值不能嚴格滿足協變量組間均衡性,這可能引發估計偏倚。Zhao提出了一個分析框架(covariate balancing scoring rules,CBSR)用于統一和推廣基于協變量均衡性擬合PS的方法[13]。在實際應用中,研究者可根據感興趣的因果參數及PS模型的鏈接函數推導對應的得分方程(score function)。與RCAL及CBSR不同,高維協變量均衡傾向性評分(high-dimensional covariate balancing propensity score,hdCBPS)通過最優化協變量的均衡性對PS模型進行修正,包含四步:第一步構建初始的PS模型,該過程使用最大化懲罰廣義偽似然函數估計參數;第二步采用加權最小二乘法擬合結局模型;前兩步的權重函數至關重要,影響模型錯誤設定時hdCBPS的表現,作者給出一組權重可供使用;第三步是通過均衡結局模型的預測變量校正PS模型,這一步保證PS的估計值滿足弱的協變量均衡性;最后采用IPW估計平均處理效應[37]。與RCAL類似,hdCBPS對模型誤設也相對穩健。使用懲罰回歸方法校正高維混雜會導致大的偏倚,一方面是由于遺漏弱混雜變量引起的,另一方面是由于懲罰估計是有偏的。Athey等發現可通過實現協變量組間近似平衡去除這一偏倚,并基于此提出approximate residual balancing算法,包括兩步[12],第一步是使用彈性網或LASSO擬合結局模型;第二步是對第一步的殘差進行加權,該權重使得所有協變量在處理組與對照組間近似均衡。這一算法將回歸與加權的方法結合起來,克服單獨使用其中一種方法去除混雜偏倚的局限性。然而,盡管該算法不要求PS模型是可估計的,但其一致估計依賴于結局模型的線性稀疏假設,這一假設在高維情況下很難被滿足。

在觀察性研究中,為了估計因果效應,研究者有時需要考慮大量的處理前協變量以使得不存在未測量混雜假設合理。隨著可使用數據的增多,如電子病歷的出現等,高維情況下如何使用基于PS的方法估計因果效應成為如今研究的熱點。本研究從變量選擇和協變量均衡性兩方面對現有的方法進行了闡述。兩類方法有各自的優勢和不足。基于變量選擇的方法大多從現有的方法發展而來,易于理解且有夯實的理論基礎,但因果效應的一致估計往往依賴于混雜變量的正確識別及其進入模型的函數形式。基于均衡性的方法有明確的機制確保協變量在處理組和對照組間實現均衡,且對模型誤設相對穩健。然而,在不同高維數據結構下,這兩類方法的表現如何仍需進一步研究,這對于實際應用中如何選擇最優的方法估計因果效應值有指導意義。此外,在實際應用尤其是公共衛生研究中,我們所關注的處理因素往往不是二分類的,因此,將上述方法擴展到處理因素為連續型的情況、處理因素為隨時間變化的情況等將是未來的一個研究方向。