林容基,陳 薇,黃志新,蔡瑞初
(1.廣東工業(yè)大學 計算機學院, 廣東 廣州 510006;2.廣東省第二人民醫(yī)院 神經(jīng)內(nèi)科, 廣東 廣州 510317)
在觀察性研究中,推斷某藥物對患者預后情況的因果效應是一項常見而重要的課題。然而,在實際應用中,觀察性數(shù)據(jù)中常伴隨著未觀測到的混雜變量,導致觀察到的相關性往往不僅由因果關系引起,還受其他因素的干擾。因此,未觀測到的混雜變量需要被特別考慮。當未觀測變量對實驗結果產(chǎn)生直接或間接的影響時,準確估計因果效應將變得復雜。例如,在試圖估計藥物治療效果的觀察性研究中,藥物的分配方式受多種因素影響,其中一些因素(如社會經(jīng)濟地位)難以量化,成為無法觀測的混雜因素。盡管隨機對照試驗是推斷因果關系和計算因果效應的最有效方法,但其成本昂貴,時間消耗較大,且在倫理道德方面存在限制,因此觀察性數(shù)據(jù)研究在研究變量之間的因果效應方面成為一種常見的替代方法。
目前,用于估計觀察性數(shù)據(jù)中變量之間的因果效應的方法[1]包括但不限于以下幾種:首先,基于分層[2]的方法,通過將研究群體根據(jù)混雜因素分層為不同子群,計算每個子群的平均效應;其次,基于擬群思想的方法,例如重加權方法[3]、匹配方法[4]、基于樹的方法[5]、表征學習方法[6]和多任務學習方法[7]等;第三,采用僅基于觀察性數(shù)據(jù)訓練的潛在結果估計模型,然后校正由于選擇偏差引起的估計誤差,例如元學習方法[8]。然而,這些方法通常建立在無混淆假設上,即所有的混雜因素得到充分測量和控制,這在實際應用中往往難以實現(xiàn)?!?br>