999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高維情況下基于傾向性評分的因果推斷方法*

2022-01-19 08:40:10山西醫科大學衛生統計學教研室030001
中國衛生統計 2021年6期
關鍵詞:效應方法模型

山西醫科大學衛生統計學教研室(030001) 高 倩 王 彤

【提 要】 目的 觀察性研究中使用傾向性評分法估計因果效應依賴于不存在未測量混雜假設。隨著大數據時代的到來,越來越多的處理前協變量可被測量并納入分析中,使得這一假設更合理,但同時也導致標準的傾向性評分法不再適用,這就促使了高維情況下因果推斷方法的發展。本研究對現有的高維情況下基于傾向性評分的因果推斷方法進行概述,為實際應用提供參考依據。方法 從變量選擇和協變量組間均衡性兩個角度出發,對現有方法做歸類和總結,系統回顧各方法的基本原理、方法步驟及優缺點等。結果 基于變量選擇的方法可分為Screening、懲罰和貝葉斯三類;基于均衡性的方法有明確的機制確保協變量的組間均衡性。結論 實際應用中研究者應根據自身數據特點結合各方法的優缺點選擇合適的方法進行分析,從而得到一致有效的因果效應估計量。

因果推斷的金標準是隨機對照試驗,然而完全隨機化試驗費時費力,且在很多場景下不可行[1]。相對而言,觀察性研究容易實現且更接近現實情況,因此有必要發展統計學方法以從觀察性研究中獲得因果效應估計值。Rosenbaum和Rubin于1983年提出的傾向性評分(propensity score,PS)方法廣泛應用于觀察性研究的因果推斷[2]。常用的基于PS的方法主要包括匹配、分層、回歸校正及逆概率加權(inverse propensity weighting,IPW),其中IPW方法應用最廣,從屬于因果模型家族中的邊際結構模型[3-8]。將IPW與回歸方法結合發展出雙穩健估計方法(doubly robust,DR),這類方法的優點是只要PS模型和結局模型之一正確設定,那么所得估計量就是一致且漸近正態的[9]。

使用基于PS的方法估計因果效應值需要滿足不存在未測量混雜假設,即校正充分混雜變量集后,處理組和對照組個體是可比的。這一假設無法檢驗,一般認為分析中包含的協變量越多那么這一假設越合理,然而因果效應估計值對PS模型中納入的協變量敏感,如遺漏重要的混雜變量會導致偏倚;模型中包含僅預測處理因素的協變量或無關變量會導致因果效應估計值的方差膨脹而不能降低偏倚[10-11]。從這個意義上說,選擇一組適當的混雜因素進行控制對于可靠的因果推斷是至關重要的。另一方面,觀察性研究中因果效應估計值的偏倚主要是由協變量在處理組和對照組間不均衡引起的,從這一角度講,確保協變量實現充分的組間均衡性是獲得因果效應一致估計的另一關鍵因素[12-13]。隨著大數據時代的到來,成百上千甚至數以萬計的處理前協變量可被收集測量,在這種情況下如何使用基于PS的方法得到因果效應的一致有效估計是一個亟待解決的問題。目前已針對這一問題發展出諸多方法,本文將從變量選擇及協變量均衡性兩個方面介紹高維情況下基于PS的因果推斷方法。

基于變量選擇的方法

遺漏重要的混雜變量會導致因果效應估計值有偏,因此,研究者們一直提倡將所有觀測到的變量均加入到PS模型中[14]。但在高維情況下這一策略不再適用甚至不可行,這是因為將大量無關的變量加入到PS模型中會導致有效性的損失,同時可能由于維度過高而無法擬合PS模型。因此,當存在大量可能的混雜因素時,需要某種類型的變量選擇以實現無偏的有效的估計。Brookhart等的模擬研究表明,校正所有的混雜變量足以去除混雜偏倚,且額外的校正僅預測結局的協變量可改善方差估計[15]。這意味著,一種有效的因果推斷變量選擇方法應同時考慮協變量與結局及處理因素之間的關系。基于此,Schneeweiss等于2009年提出高維傾向性評分方法(high-dimensional propensity score,HDPS),該方法首先根據協變量可能造成的偏倚對協變量進行排序,隨后取前k個協變量構建PS模型并估計因果效應[16]。這一方法存在兩個缺陷:一是沒有明確的標準以確定進入PS模型中的最優協變量數,為了解決這一問題,Wyss等提出將HDPS方法與超級算法(super learner)或與協作目標最大似然估計(collaborative targeted maximum likelihood estimation,C-TMLE)聯合使用[17];二是計算協變量可能造成的偏倚時依賴于協變量與結局及協變量與處理因素間的邊際相關,這可能把與結局條件獨立的協變量排在前面。在實際中,HDPS類方法常用于分析電子醫療數據。

無論是screening方法還是懲罰類的方法,最終都是利用一個統計模型估計因果效應,這一過程并沒有考慮“校正不確定性”,即模型中包含哪些協變量可恰當地校正混雜偏倚所帶來的不確定性。貝葉斯模型平均(Bayesian model averaging,BMA)類方法試圖通過對整個模型空間的效應估計進行平均來考慮這一不確定性[28]。簡單來說,這類方法將協變量是否包含在模型中轉化為一個指示變量α,并將其視為未知的冗余參數。隨后計算各模型對應估計值的加權平均作為最終估計值,權重依賴于每個模型的后驗分布概率[29-30]。傳統的BMA方法在效應估計上存在局限性。Dominici和Parmigiani指出,BMA方法對包含所有混雜變量的模型子空間和沒有包含所有混雜變量的模型子空間進行平均(兩類模型估計的效應值解釋不同),這導致了估計偏倚[31]。BAC(Bayesian adjustment for confounding)方法通過側重考慮校正了所有必要混雜變量的模型來避免這一問題[32]。這一方法的核心是定義了一個依賴先驗(dependence prior)參數ω,先驗地假定如果一個協變量對處理因素具有高度的預測性,那么相同的協變量將有很大的先驗概率被納入結局模型。這使得在計算效應估計值的加權平均時,對可能包含所有必要混雜因素的模型賦予較高的權重。Zigler和Dominici提出的貝葉斯模型平均方法借用PS回歸校正的思想,通過將PS以線性預測變量的形式加入結局模型中來控制混雜[33]。此外,還將包含在PS模型中的變量也以線性形式加入到結局模型中以解決“feedback”問題。該方法通過使用聯合貝葉斯PS估計(joint Bayesian PS estimation)將模型選擇的不確定性整合入因果效應估計的后驗分布中。無論是BAC還是Zigler和Dominici提出的貝葉斯模型平均方法都依賴于參數假設,如假設協變量以線性組合形式加入結局模型中,這導致二者對模型誤設不穩健。為解決這一問題,Cefalu等人提出了MA-DR(model averaged double robust)方法[34]。與BAC方法類似,MA-DR也定義了一個依賴先驗,將PS模型中包含的協變量強制為結局模型中包含的協變量的子集。不同之處在于MA-DR使用DR法估計因果效應值。Wilson和Reich于2014年提出Bayesian credible region方法,主要思想是在所有的可行模型中識別最簡單的模型[28]。可行模型定義為包含在PS模型和結局模型(PS模型和結局模型均為貝葉斯回歸全模型)中協變量系數的(1-α)×100%的后驗可信區域內的模型。通過懲罰不包含混雜因素的可行模型識別最簡單的模型。Bayesian credible region方法同時適用于處理因素為二分類和連續型的情況,但值得注意的是該方法是保守的,它能選出更多的協變量[11]。

基于均衡性的方法

基于PS的方法旨在通過均衡處理組和對照組間的協變量實現因果效應的無偏估計,然而傳統的PS估計方法,如最大似然估計,并沒有正式的機制可以保證協變量最終得到平衡[35]。針對這一問題,有學者提出使用calibrated estimation(CAL)替代最大似然估計擬合PS模型。CAL的主要思想是構建一個新的損失函數lCAL使其對應的估計方程為協變量均衡條件,即處理組或對照組子樣本協變量的加權均數等于樣本協變量均數[36]。Tan通過在lCAL上增加一個LASSO懲罰項提出RCAL(regularized calibrated estimation),將CAL推廣到高維情況[35]。顯然,CAL方法除了可以得到令人滿意的協變量組間均衡性外,對模型誤設也更加穩健。但RCAL中由于引入了懲罰項導致PS估計值不能嚴格滿足協變量組間均衡性,這可能引發估計偏倚。Zhao提出了一個分析框架(covariate balancing scoring rules,CBSR)用于統一和推廣基于協變量均衡性擬合PS的方法[13]。在實際應用中,研究者可根據感興趣的因果參數及PS模型的鏈接函數推導對應的得分方程(score function)。與RCAL及CBSR不同,高維協變量均衡傾向性評分(high-dimensional covariate balancing propensity score,hdCBPS)通過最優化協變量的均衡性對PS模型進行修正,包含四步:第一步構建初始的PS模型,該過程使用最大化懲罰廣義偽似然函數估計參數;第二步采用加權最小二乘法擬合結局模型;前兩步的權重函數至關重要,影響模型錯誤設定時hdCBPS的表現,作者給出一組權重可供使用;第三步是通過均衡結局模型的預測變量校正PS模型,這一步保證PS的估計值滿足弱的協變量均衡性;最后采用IPW估計平均處理效應[37]。與RCAL類似,hdCBPS對模型誤設也相對穩健。使用懲罰回歸方法校正高維混雜會導致大的偏倚,一方面是由于遺漏弱混雜變量引起的,另一方面是由于懲罰估計是有偏的。Athey等發現可通過實現協變量組間近似平衡去除這一偏倚,并基于此提出approximate residual balancing算法,包括兩步[12],第一步是使用彈性網或LASSO擬合結局模型;第二步是對第一步的殘差進行加權,該權重使得所有協變量在處理組與對照組間近似均衡。這一算法將回歸與加權的方法結合起來,克服單獨使用其中一種方法去除混雜偏倚的局限性。然而,盡管該算法不要求PS模型是可估計的,但其一致估計依賴于結局模型的線性稀疏假設,這一假設在高維情況下很難被滿足。

總 結

在觀察性研究中,為了估計因果效應,研究者有時需要考慮大量的處理前協變量以使得不存在未測量混雜假設合理。隨著可使用數據的增多,如電子病歷的出現等,高維情況下如何使用基于PS的方法估計因果效應成為如今研究的熱點。本研究從變量選擇和協變量均衡性兩方面對現有的方法進行了闡述。兩類方法有各自的優勢和不足。基于變量選擇的方法大多從現有的方法發展而來,易于理解且有夯實的理論基礎,但因果效應的一致估計往往依賴于混雜變量的正確識別及其進入模型的函數形式。基于均衡性的方法有明確的機制確保協變量在處理組和對照組間實現均衡,且對模型誤設相對穩健。然而,在不同高維數據結構下,這兩類方法的表現如何仍需進一步研究,這對于實際應用中如何選擇最優的方法估計因果效應值有指導意義。此外,在實際應用尤其是公共衛生研究中,我們所關注的處理因素往往不是二分類的,因此,將上述方法擴展到處理因素為連續型的情況、處理因素為隨時間變化的情況等將是未來的一個研究方向。

猜你喜歡
效應方法模型
一半模型
鈾對大型溞的急性毒性效應
懶馬效應
今日農業(2020年19期)2020-12-14 14:16:52
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
應變效應及其應用
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 美女内射视频WWW网站午夜| 亚欧美国产综合| 国产亚洲高清在线精品99| 毛片网站在线看| 日本久久免费| 欧美高清国产| 中文字幕久久亚洲一区| 天天综合网色| 伊伊人成亚洲综合人网7777| 亚洲—日韩aV在线| 欧美人在线一区二区三区| 露脸国产精品自产在线播| 国产欧美日韩va另类在线播放| 秋霞一区二区三区| 天堂网亚洲系列亚洲系列| 欧美日韩成人在线观看| 青青青草国产| 999在线免费视频| 玩两个丰满老熟女久久网| 91毛片网| 亚洲第一视频免费在线| 人人看人人鲁狠狠高清| 亚洲第一香蕉视频| 欧美中文字幕在线二区| 久久免费精品琪琪| 久久福利网| 手机在线国产精品| 午夜小视频在线| 久久这里只有精品66| 国产v精品成人免费视频71pao| 国产产在线精品亚洲aavv| 国产xxxxx免费视频| 欧美一区精品| 视频国产精品丝袜第一页| 亚洲色欲色欲www在线观看| 午夜啪啪福利| 久久婷婷五月综合97色| 日韩在线视频网| 欧美中文字幕在线播放| 在线无码九区| 妇女自拍偷自拍亚洲精品| 亚洲天堂精品在线观看| 免费中文字幕一级毛片| 国产乱码精品一区二区三区中文 | 狠狠色综合网| 制服丝袜无码每日更新| 欧美成人免费一区在线播放| 午夜国产小视频| 丝袜美女被出水视频一区| 色悠久久久久久久综合网伊人| 婷婷开心中文字幕| 久久久久久国产精品mv| 视频在线观看一区二区| 超薄丝袜足j国产在线视频| 国产精品免费久久久久影院无码| 亚洲日本中文综合在线| www.91在线播放| 婷婷成人综合| 免费A级毛片无码无遮挡| 国产va欧美va在线观看| 这里只有精品免费视频| 日韩成人高清无码| 国产一区二区精品高清在线观看| 高潮爽到爆的喷水女主播视频 | 99久久国产自偷自偷免费一区| 国产一区二区三区在线观看视频| 国产成人一区二区| 精品欧美一区二区三区在线| 影音先锋丝袜制服| 国产一区三区二区中文在线| 免费视频在线2021入口| 日本成人精品视频| 97视频在线精品国自产拍| 中文字幕啪啪| 白浆免费视频国产精品视频 | 欧美亚洲国产精品久久蜜芽| 2021国产在线视频| 一级香蕉视频在线观看| 久久99蜜桃精品久久久久小说| 91精品亚洲| 国产福利免费在线观看| 日韩国产亚洲一区二区在线观看|