李家寧 熊睿彬 蘭艷艷 龐 亮 郭嘉豐 程學旗
1 (中國科學院網絡數據科學與技術重點實驗室(中國科學院計算技術研究所) 北京 100190)
2 (中國科學院大學 北京 100049)
3 (清華大學智能產業研究院 北京 100086)
4 (中國科學院計算技術研究所數據智能系統研究中心 北京 100190) (lijianing@ict.ac.cn)
機器學習是一門研究如何設計算法、利用數據使機器在特定任務上取得更優表現的學科,其中以深度學習[1]為代表的相關技術已成為人們研究實現人工智能方法的重要手段之一.至今機器學習研究已經取得大量令人矚目的成就:在圖像分類任務上的識別準確率超過人類水平[2];能夠生成人類無法輕易識別的逼真圖像[3]和文本[4];在圍棋項目中擊敗人類頂尖棋手[5];蛋白質結構預測結果媲美真實實驗結果[6]等.目前機器學習在計算機視覺、自然語言處理、搜索引擎與推薦系統等領域發揮著不可替代的作用,相關應用涉及互聯網、安防、醫療、交通和金融等眾多行業,對社會發展起到了有力的促進作用.
盡管機器學習研究獲得了一系列豐碩的成果,其自身的問題卻隨著應用需求的提高而日益凸顯.機器學習模型往往在給出預測結果的同時不會解釋其中的理由,以至于其行為難以被人理解[7];同時機器學習模型還十分脆弱,在輸入數據受到擾動時可能完全改變其預測結果,即使這些擾動在人看來是難以察覺的[8];機器學習模型還容易產生歧視行為,對不同性別或種族的人群給予不同的預測傾向,即使這些敏感特征不應當成為決策的原因[9].這些問題嚴重限制了機器學習在實際應用中發揮進一步的作用.
造成這一系列問題的一個關鍵原因是對因果關系的忽視.因果關系,指的是2個事物之間,改變一者將會影響另一者的關系.然而其與相關關系有所不同,即使2個事物之間存在相關關系,也未必意味著它們之間存在因果關系.例如圖像中草地與牛由于常在一起出現而存在正相關關系,然而兩者之間卻沒有必然的因果關系,單純將草地改為沙地并不會改變圖像中物體為牛的本質.機器學習的問題在于其模型的訓練過程僅僅是在建模輸入與輸出變量之間的相關關系,例如一個識別圖像中物體類別的機器學習模型容易將沙地上的牛識別為駱駝,是因為訓練數據中的牛一般出現在草地上而沙地上更常見的是駱駝.這種具備統計意義上的相關性卻不符合客觀的因果規律的情況也被稱為偽相關(spurious correlation).偽相關問題的存在對只考慮相關性的機器學習模型帶來了災難性的影響:利用偽相關特征進行推斷的過程與人的理解不相符,引發可解釋性問題;在偽相關特征發生變化時模型預測結果會隨之改變從而導致預測錯誤,引發可遷移性和魯棒性問題;如果偽相關特征恰好是性別和膚色等敏感特征,則模型決策還會受到敏感特征的影響,引發公平性問題.忽視因果關系導致的這些問題限制了機器學習在高風險領域及各類社會決策中的應用.圖靈獎得主Bengio指出,除非機器學習能夠超越模式識別并對因果有更多的認識,否則無法發揮全部的潛力,也不會帶來真正的人工智能革命.因此,因果關系的建模對機器學習是必要的,需求也是十分迫切的.
因果理論即是描述、判別和度量因果關系的理論,由統計學發展而來.長期以來,由于缺乏描述因果關系的數學語言,因果理論在統計學中的發展十分緩慢.直到20世紀末因果模型被提出后,相關研究才開始蓬勃興起,為自然科學和社會科學領域提供了重要的數據分析手段,同時也使得在機器學習中應用因果相關的技術和思想成為可能.圖靈獎得主Pearl將這一發展歷程稱為“因果革命”[10],并列舉了因果革命將為機器學習帶來的7個方面的幫助[11].本文將在機器學習中引入因果技術和思想的研究方向稱為因果機器學習(causal machine learning).目前機器學習領域正處于因果革命的起步階段,研究者們逐漸認識到了因果關系建模的必要性和緊迫性,而因果機器學習的跨領域交叉特點卻限制了其自身的前進步伐.本文希望通過對因果理論和因果機器學習前沿進展的介紹,為相關研究者掃清障礙,促進因果機器學習方向的快速發展.目前針對因果本身的研究已有相關綜述文獻[12?14],內容主要涵蓋因果發現和因果效應估計的相關方法,但很少涉及在機器學習任務上的應用.綜述文獻[15?16]詳細地介紹了因果理論對機器學習發展的指導作用,著重闡述現有機器學習方法的缺陷和因果理論將如何發揮作用,但缺少對這一方向最前沿工作進展的整理和介紹,而這正是本文重點介紹的內容.
因果理論發展至今已成為統計學中的一個重要分支,具有獨有的概念、描述語言和方法體系.對于因果關系的理解也已經不再僅停留在哲學概念的層面,而是有著明確的數學語言表述和清晰的判定準則.當前廣泛被認可和使用的因果模型有2種:潛在結果框架(potential outcome framework)和結構因果模型(structural causal model, SCM).Splawa-Neyman 等人[17]和Rubin[18]提出的潛在結果框架又被稱為魯賓因果模型(Rubin causal model, RCM),主要研究 2 個變量的平均因果效應問題;Pearl[19]提出的結構因果模型使用圖結構建模一組變量關系,除了效應估計也會關注結構發現問題.RCM與SCM對因果的理解一致,均描述為改變一個變量是否能夠影響另一個變量,這也是本文所考慮的因果范疇.兩者的主要區別在于表述方法不同,RCM更加簡潔直白,相關研究更為豐富;而SCM表達能力更強,更擅長描述復雜的問題.雖然目前依然存在對因果的其他不同理解,這些理解通常不被視為真正的因果,例如格蘭杰因果(Granger causality)[20]描述的是引入一個變量是否對另一個變量的預測有促進作用,本質上仍是一種相關關系.
本節將對因果相關概念以及RCM與SCM 的相關理論和技術進行簡要介紹.由于本文關注的主要內容是因果機器學習而不是因果本身,本節將側重于介紹機器學習中所使用的因果的概念和思想,而不會過多關注因果領域自身的前沿研究.
統計學中對于因果關系的定義符合人們直覺上的認知.在一個數據系統中,用于分析的數據通常會表述為一組變量,每個變量都對應一種已知或未知的產生機制.對于2個給定的變量,如果在保持其他機制不變的情況下,改變一個變量會使得另一個變量也發生改變,則稱前者為因,后者為果,同時稱兩者之間存在因果關系(causal relationship),因變量對果變量的影響稱為因果效應(causal effect).求解 1 對或多對變量是否存在因果關系以及因果效應強度的任務稱為因果推斷(causal inference).通常而言,如果對因果效應強度的定量研究是顯著的,則認為因果關系存在.判定因果關系的存在性將不可避免地涉及到對原始變量系統的改變,即需要改變目標變量的產生機制,這也是其區別于相關關系(correlation)的關鍵點.相對而言,判定2個變量X和Y是否存在相關關系則不需要改變系統,只需檢驗觀測變量的邊際分布與條件分布是否一致,即判定P(X|Y)=P(X)是否成立.Pearl等人[10]在闡述相關和因果之間的差異時提出了“因果之梯(ladder of causation)”的概念,自下而上將問題劃分為關聯、干預和反事實3個層次,分別對應于觀察、行動和想象3類活動.通常而言,回答因果問題需要借助反事實或者干預,若希望僅借助關聯來判定因果關系則必須處理好混雜因素,這些都是研究因果理論所需的重要概念.下面將從回答因果關系判定問題的角度出發,對反事實、干預和混雜因素3個概念進行介紹.
反事實(counterfactual)指的是在已經觀測到一組變量的情況下,假設其中部分變量具有另外的取值的操作.例如人在反思自己的行為時,往往會考慮“如果我當時沒有做某事而是做了其他某事,那么結果將會怎樣”,這是典型的基于反事實的思考,是根據結果溯源尋找原因的有效手段.如果發現某個變量改變取值后會導致結果改變,該變量即是結果的原因之一.反事實考慮的是一種實際并未發生過也難以再次觀測到的情景,因為它假定2次觀測之間除了需要研究的變量有所改變外,其他外部變量取值和作用機制需完全保持一致.盡管反事實操作的結果直接反映了變量之間的因果關系,由于通常無法針對同一個體平行地實施2種不同操作,使得在實際應用中幾乎無法用于因果判定,更多情況下只是作為一種指導性思想使用.想要判斷因果關系的存在性,人們只能訴諸群體層面上的平均觀測結果,即采用干預操作.
干預(intervention)指的是改變部分變量產生機制并維持其余機制不變的操作,是因果關系判定和度量的關鍵操作.如果對一個變量的干預改變了另一個變量的概率分布,則意味著前者是后者的因.例如,通常認為海拔高度是氣溫的因,這是因為海拔高度通過特定的物理機制對氣溫產生了影響.如果對海拔高度進行干預,即調整地理位置來改變海拔,氣溫也會隨之產生變化,因為背后的物理機制仍然能夠生效;相反,如果對氣溫進行干預,例如提供額外的熱源對空氣進行加熱,這改變了氣溫的產生機制卻保持海拔的產生機制不變,最終海拔并不會因此而改變.可見通過干預操作可以對因果關系的存在性和方向性做出清晰的判斷,事實上這也是科學研究中最常用的手段,隨機對照實驗即屬于這一思路.干預不同于反事實,不要求外部變量的取值嚴格一致,只需要滿足概率分布不變的假設即可,這在一般的應用場景中通常可以滿足,因此更常用于因果關系的判定.然而這種通過干預觀測系統的改變來判斷因果關系的做法并不能解決實際中所有的因果問題,在許多情況下干預操作的成本過高或實施風險過大,甚至可能因為違反倫理道德而無法實際實施,如研究吸煙對肺癌的影響時不能強制要求普通人群吸煙.這種情況下就需要避免對目標變量進行干預,而僅僅通過觀測原有機制產生的數據來估計干預的效果,這類研究問題也成為了因果推斷領域重點關注的問題.
混雜因素(confounder)指的是一類變量,如果不對它們的取值進行控制,通過觀測數據得到的干預結果的估計就會產生偏差.通常來說,混雜因素指的是那些能夠對所研究的一對變量同時產生影響的因素.例如對于兒童穿鞋尺碼與閱讀能力呈正相關的現象,年齡即是一個混雜因素,如果不控制年齡則會得出“兒童穿更大尺碼的鞋子能提升其閱讀能力”的錯誤結論,相反若控制年齡變量,即針對不同年齡的兒童分組考察他們鞋子尺碼與閱讀能力的關系,則會發現兩者之間不存在相關關系.理論上如果可以發現并控制所有的混雜因素,那么因果關系的判定就等價于該條件下相關性的判定.然而尋找一個充分的變量集合以囊括所有的混雜因素是十分困難的,也不可能在不做任何假設的情況下判斷已有變量集合是否充分.另外,簡單地將所有其他變量都視為混雜因素的做法也不可取,例如研究一個人才華和外貌的關系時,對其是否是名人這一變量進行控制就是錯誤的.因為一個人成名需要好的才華或者好的外貌,兩者都不好的人很難成為名人,所以如果一個名人的外貌不好那么他就更可能有好的才華.在這種受控條件下兩者呈現一種負相關,即使原本兩者是不相關的.如何鑒別和處理混雜因素始終是因果推斷領域的核心問題之一.
記待研究的變量為X和Y,其他協變量(covariate)構成的向量為Z=(Z1,Z2,···).為簡化考慮,假設X是二值{變量,即取}值只能為 0或 1.現在觀測到1組數據D=X(i),Y(i),Z(i)ni=1,需要估計X取值由 0變為 1時對Y的因果效應.由于Z中可能存在混雜因素,直接使用條件期望差值 E [Y|X=1]?E[Y|X=0]作為估計值可能導致偏差.在這種情況下想要準確進行因果效應估計,需要做出適當的假設構建模型.本節將對RCM 和SCM這2種因果模型的概念理論內容進行簡要介紹.
1.2.1 潛在結果框架(RCM)
潛在結果指的是一個個體如果接受了某種處理會怎樣,也就是指如果X(i)取某種值時對應Y(i)取值會如何.對于個體i來說,采取X=x的處理的潛在結果記作Yx(i),X(i)對Y(i)帶來的因果效應可由X(i)的不同取值對應的潛在結果差值來計算,即個體處理效應(individual treatment effect, ITE), 定 義 為ITE(i)=Y1(i)?Y0(i).由于同一個個體通常不可能既采取X=0的處理同時也采取X=1的處理,實際最多只能觀測到1個結果,另一個結果則是反事實的,這也是被稱為“潛在結果”的原因.X對Y的總體因果效應記為個體處理效應的期望,稱為平均處理效應(average treatment effect, ATE):

平均處理效應等同于對X的不同干預所得結果之差.如果這種干預是實際可行的,那么可以直接通過干預操作獲得潛在結果的平均取值,從而計算ATE.干預意味著X的取值不再由觀測決定,而是由實驗者確定,這種方式通常稱為隨機對照實驗,X=1的群體稱為處理組,X=0的群體稱為控制組.
然而如1.1節所述,干預在許多情況下是不可行的,只能使用觀測數據對ATE進行估計.基于潛在結果框架使用觀測數據研究因果效應的做法最早由Rubin[18]提出,因此該模型也稱作魯賓因果模型,即RCM.RCM對因果的描述較為簡潔,除了要研究因果效應的一對變量以外,對其他變量的相互作用機制不做假設,因此經常在進行因果效應估計的場景中使用.這種情況下需要考慮混雜因素,真實的ATE 可以由通過控制全部混雜因素獲得.對變量進行控制指的是按照該變量的不同取值分組,組內計算效應期望之后再在組間計算期望.如果Z包含了全部混雜因素,那么

在RCM中,如果滿足一定的假設,上述計算得到的ATE即是X對Y的真實因果效應.這些假設包括:
1)個體處理值穩定假設(stable unit treatment value assumption, SUTVA)[21],指的是一個個體的潛在結果不受其他個體處理的影響.例如一個人服用藥物獲得的治療效果不受其他人是否服用藥物的影響.
2)處 理 分 配 機 制 可 忽 略 性 (ignorability of treatment assignment mechanism)[22],指的是固定混雜因素后,潛在結果不受處理方式的影響.例如對于一個人是否服藥導致的潛在治療效果具有確定性,不隨實際是否服藥的行為而發生改變.
3)正值性(positivity)[22],指的是對于每個個體均有非零的可能性采取每種處理方式.
采用控制所有混雜因素的方法計算ATE在實際問題中可能會遇到困難,通常是由于混雜因素的維度很高,控制相同取值的樣本可能數量很少,導致期望估計不準確.針對這一問題,研究者們提出了多種解決方案.常見的方法有基于傾向性得分的估計方法、基于回歸的估計方法以及兩者相結合的方法.傾向性得分(propensity score)指的是給定協變量Z的情況下獲得處理X=1的概率,即P(X=1|Z),可以使用機器學習模型進行建模.文獻[22]指出,在ATE的表達式中使用傾向性得分代替協變量Z仍能夠保證估計的正確性,因此可以通過控制傾向性得分計算分組期望的方式來計算ATE.一種做法稱為傾向性得分匹配(propensity score matching)[22],為處理組中的每個個體選擇得分最接近的1個或1組對照組個體進行匹配,計算它們結果的平均差值,然后在整個處理組上取平均,即可得到ATE的估計.另一種做法稱為逆處理概率加權(inverse probability of treatment weighting,IPTW)[23],也稱為IPW或IPS,通過將每個樣本的結果除以傾向性得分后再取平均,即可得到ATE的估計值IPTW:

基于回歸的估計方法簡稱回歸估計[24],其思想是使用機器學習模型建模給定處理X和協變量Z時結果Y的期望,即 E [Y|X,Z],然后用這一回歸模型來模擬干預,即可得到ATE的估計值REG:

回歸估計方法可以和IPTW方法相結合得到雙穩健估計(doubly robust estimation, DRE)[25]:只要2種估計中的1種是可靠的,那么DRE整體即是可靠的.

除以上方法外,還有混雜平衡(confounder balancing)[26]、分層(stratification)[27]等眾多其他方法處理混雜因素的問題,可參考文獻[28]中的介紹,在此不再詳細展開.這些方法都要求混雜因素的值是可觀測的,限制了RCM在一些場景中的應用.這種情況下的部分問題可以使用SCM解決.
1.2.2 結構因果模型(SCM)
SCM由Pearl[19]提出,其思想是將所有需要考慮的變量組織成一個有向無環圖,圖的每個節點都代表1個變量,1條由節點A指 向節點B的有向連邊代表A對B有直接的因果作用.這種圖又稱為因果圖(causal graph),記作G=(V,E),其中節點集合V={X,Y,Z1,Z2,···}包含所有考慮的變量,邊集合E包含所有對變量直接因果關系的先驗假設.例如兒童穿鞋尺碼與閱讀能力關系的因果圖可如圖1(a)表示(假設穿鞋尺碼對閱讀能力的因果效應是待研究的未知量):
結構因果模型中的一個重要概念是結構方程(structural equations),其假設每個節點都對應一個未觀測到的外生變量(exogenous variable),節點的值由該外生變量及所有直接父節點變量通過一個方程來唯一確定,例如

其中PAX指的是節點X的所有父節點變量,NX是X對應的外生變量.圖1所對應的完整結構方程為

之所以稱為這些方程是“結構方程”,是因為其代表變量的生成機制,只能由等式右邊對左邊賦值,而不能隨意變換方向.外生變量描述的是對應節點變量的所有隨機因素,其自身具有確定性的概率分布,通常未被觀測也無法進行控制,而且SCM中假設所有外生變量之間相互獨立,圖1(b)展示了一個外生變量的例子.通過結構方程和外生變量,SCM能夠很清晰地定義干預和反事實操作,其中干預操作是將干預節點的結構方程替換掉,對應在因果圖中即是去掉所有指向干預節點的箭頭.這在SCM中也稱為do操作,例如將通過干預將節點X的取值置為 1記作do(X=1),X的結構方程也對應修改為X=1,意味著X不再受其父節點和外生變量的影響.反事實操作同樣由do操作給出,但同時會限制所有外生變量取值不變.

Fig.1 Example of causal graph圖1 因果圖示例
在SCM中,混雜因素識別可以直接借助因果圖結構完成,一個變量成為混雜因素當且僅當存在由該節點指向X和Y的各1條有向路徑(指向Y的路徑不能通過X).X對Y的因果效應仍然可以像RCM 中一樣在識別混雜因素后計算ATE得到,不過在SCM中可以由干預操作直接給出,即E[Y|do(X=1)]?E[Y|do(X=0)].這種方法的關鍵是計算P(Y|do(X=x)),這可以通過將因果圖視為貝葉斯網絡(Bayesian network)進行概率分解得到.然而由do操作定義直接給出的求解方法面對稍復雜的因果圖時也會變得很復雜,因此一般不會直接使用.更常用的方法稱為后門調整(backdoor adjustment):一條指向X并連接Y的路徑稱為X到Y的后門路徑,通過控制路徑上的某些節點使得所有后門路徑被關閉的方法稱為后門調整.路徑上的邊均指向自身的節點稱為對撞節點(collider).一條路徑是關閉的,當且僅當某個對撞節點沒有被控制或者某個非對撞節點被控制.RCM中控制所有混雜因素而不控制其他節點的做法恰恰是后門調整中的一個特例.例如圖2(a)中的因果圖,Z是一個混雜因素,X←W←Z→Y是一條后門路徑,W和Z均不是對撞節點,所以單獨控制Z或W,或者同時控制兩者都是可以的.

Fig.2 Example of frontdoor/backdoor adjustment圖2 前門/后門調整示例
使用SCM相對于RCM的優勢最主要體現在混雜因素無法觀測的場景.這種情形下RCM將無法使用,而SCM 可以通過一種稱為do演算(do-calculus)的方法將因果效應的計算轉化為僅在可觀測變量上的計算,從而解決部分問題.do演算包含3條規則,這些規則已被證明是完備的,即如果存在一種僅通過可觀測變量的觀測分布計算因果效應的方法,那么這種方法一定能由do演算推導得到,由于篇幅所限不在此展開詳細介紹.do演算的一個常見實例是前門調整(frontdoor adjustment)[29],如圖2(b)中的因果圖,變量T稱為前門變量,因為其不受Z的直接影響,且X對Y的效應僅僅通過T生效.通過前門變量T可以在不觀測Z的情況下計算因果效應:

在因果推斷及因果機器學習任務中,因果圖通常是未知的.一種方式是根據具體問題結合領域知識給出先驗的因果圖結構,另一種方式是從數據中學習部分因果圖信息.后者又被稱為因果發現(casual discovery)任務,目的是從一系列變量的觀測結果中推斷因果圖結構.因果發現有3類主要方法:基于約束的方法、基于評分的方法和基于結構方程的方法.基于約束的方法主要考慮數據中的條件獨立性,通過檢驗各個變量之間是否條件獨立,給出可能的因果圖的等價類,即確定部分連邊及其方向.這類方法包括 PC(Peter and Clark)[30],IC(inductive causation)[31],FCI(fast causal inference)[32]方法等.基于評分的方法思路是利用評分函數來求解得分最高的因果圖,常見的評分為貝葉斯信息準則(Bayesian information criterion, BIC)[33],即聯合考慮樣本似然和因果圖的復雜度,代表性方法是 GES(greedy equivalence search)[34].基于結構方程的方法是對結構方程的形式做一定的假設,從而可以求解完整的因果圖,但同時適用范圍也受到方程形式的限制,常見方法包括LiNGAM(linear non-Gaussian acyclic model)[35]和后非線性模型(post-nonlinear model)[36]等.因果發現在實際應用中面臨的最大問題是可識別性(identifiability),即能否從觀測數據中識別唯一確定的因果圖.
因果圖的出現還催生了中介分析[37-38]的研究方向,即在有中介變量(mediator)存在的情況下將X對Y的因果效應分解為直接效應和間接效應.如圖3所示,X對Y產生的因果效應由2條路徑共同決定,一條是經由中介變量M間接影響Y,一條是直接對Y產生影響.
假設已觀測到X=x,M=m時有Y=Yxm,這一觀測相對于參考情況X=x?下的期望Y=E[Yx?]之間的差距稱為全效應(total effect, TE),即TE=Yxm? E[Yx?].直接效應和間接效應需要依靠反事實來定義,例如直接效應可以視為在觀測樣本上缺少X=x造成的差距或者在參考情況下添加X=x造成的差距,前者稱為全直接效應(total direct effect, TDE),后者稱為自然直 接 效 應(natural direct effect, NDE), 分 別 有TDE=Yxm?Yx?m,NDE=E[Yx]?E[Yx?].同樣地,間接效應也分為 2 種,全間接效應(total indirect effect, TIE)與自然間 接 效 應(natural indirect effect, NIE), 分 別 有TIE=Yxm?E[Yx],NIE=Yx?m? E[Yx?].以上效應之間滿足關系TE=TDE+NIE=TIE+NDE.

Fig.3 Example of mediation analysis圖3 中介分析示例
近年來隨著因果理論和技術的成熟,機器學習領域開始借助因果相關技術和思想解決自身的問題,這一研究方向逐漸受到研究者越來越多的關注.至今,因果問題被認為是機器學習領域亟待解決的重要問題,已成為當下研究的前沿熱點之一.機器學習可以從因果技術和思想中獲得多個方面的益處.首先,因果理論是一種針對數據中規律的普適分析工具,借助因果圖等語言可以對研究的問題做出細致的分析,有利于對機器學習模型的目標進行形式化以及對問題假設的表述.其次,因果推斷提供了消除混雜因素以及進行中介分析的手段,對于機器學習任務中需要準確評估因果效應及區分直接與間接效應的場景有十分重要的應用價值.再者,反事實作為因果中的重要概念,也是人在思考求解問題時的常用手段,對于機器學習模型的構建和問題的分析求解有一定的指導意義.
本節將對近年來因果機器學習的相關工作進行整理介紹,涉及應用領域包括計算機視覺、自然語言處理、搜索引擎和推薦系統等.按照所解決問題的類型進行劃分,因果機器學習主要包括以下內容:可解釋性問題主要研究如何對已有機器學習模型的運作機制進行解釋;可遷移性問題主要研究如何將模型在特定訓練數據上學到的規律遷移到新的特定環境;魯棒性問題主要研究尋找普適存在的規律使模型能夠應對各種未知的環境;公平性問題主要研究公平性度量指標并設計算法避免歧視;反事實評估問題主要研究如何在存在數據缺失的場景中進行反事實學習.這些問題與因果理論的關系如圖4所示,下面針對這些問題分別展開介紹.

Fig.4 Overview of main research problems in causal machine learning圖4 因果機器學習的主要研究問題總覽
機器學習模型會根據給定輸入計算得到對應的輸出,但一般不會給出關于“為什么會得到此輸出”的解釋.然而這種解釋有助于人們理解模型的運作機制,合理的解釋能夠使結果更具有說服力.因此近年來涌現出許多致力于為現有模型提供解釋方法的工作,為模型的診斷分析提供了有效手段[39].解釋的核心在于“模型得到此輸出,是因為輸入具有什么樣的特征”,這本質上是在探討在此模型參與過程中輸入特征與輸出結果之間的因果關系,例如估計特征對輸出變量的因果效應強度.
由于機器學習模型對輸入數據的處理過程是一個獨立而完整的過程,輸入與輸出變量之間一般不會受到混雜因素的影響,因此即使不使用因果術語也可以對任務進行描述.這體現為早期的模型解釋方法并不強調因果,少數強調因果的方法也并不一定依賴因果術語.因果理論的引入為可解釋性問題領域帶來的貢獻主要有2個方面:一是在基于歸因分析的解釋方法中建模特征內部的因果關系;二是引入一類新的解釋方法即基于反事實的解釋.基于歸因分析和基于反事實的解釋構成了當前最主要的2大類模型解釋方法如表1所示,以下分別展開介紹.
2.1.1 基于歸因分析的解釋方法
基于歸因分析(attribution)的方法是機器學習模型解釋方法中最早出現也是最為成熟的方法.對于一個具有n個特征的樣本X=(X1,X2,···,Xn),模型將其映射為輸出Y=y,歸因分析指的是為每個特征分配一個 歸因 值,即構造一個歸因向量Φ =(?1,?2,···,?n), 其 中 ?i代 表 特 征Xi=xi對 結 果Y=y的 貢 獻 大 小(本節所用符號與前文無關).基于歸因分析的常見解釋 方 法 主 要 包 括 :LIME[40], Grad-CAM[41], Integrated Gradient(IG)[42],Shapley Values(SHAP)[43]等.
以SHAP方法為例,SHAP方法認為一個特征對于輸出變量的效應強度應該為:使用該特征的預測結果與不使用該特征的預測結果之差.將整個特征集合記作 F ={1,2,···,n},預測輸出結果需要選擇一個特征子集,計算特征i的效應需要對比不含i的所有子集與對應添加i的子集的差別,即fS∪{i}(XS∪{i})?fS(XS).在所有滿足條件的子集上取加權平均的結果即為特征i的Shapley值.SHAP方法將Shapley值作為特征的歸因值,其他歸因方法也會得到這樣的歸因向量.
基于歸因分析的解釋方法雖然描述的是因果關系,但一般不依賴因果術語,一些文獻采用了因果的表述,本質上仍屬于歸因解釋的框架.例如文獻[44]提出一種針對端到端文本生成模型的因果解釋框架,預測源文本中的單詞對目標文本中單詞的影響強度,相當于將源文本單詞視為特征集合,針對每個目標單詞的預測都給出1個對應的歸因向量.文獻[45]提出一種在不確定因素下圖像分類模型的因果解釋方法,其主要貢獻在于對每個特征除了計算其歸因值以外還會計算其置信度.文獻[46]提出將機器學習模型整體視為一個SCM模型,然后計算每個特征對輸出結果的平均處理效應,相當于將解釋問題重新使用因果語言進行形式化,但在做法上與其他歸因解釋方法并無本質不同.
基于歸因分析的解釋方法一般將每個特征視為獨立的變量進行考慮,而當特征之間存在相互影響時就必須借助因果理論進行刻畫和求解.文獻[47]基于SHAP方法將先驗因果知識引入,提出非對稱SHAP方法,其核心思想在于:原始Shapley值計算方法會將所有特征序列的置換平等看待,而非對稱SHAP會調整這些置換的權重,例如將不符合因果順序的置換的權重置為 0,從而將子節點的因果效應匯總歸于祖先節點的因果效應.文獻[48]同樣基于SHAP方法,從另一個角度提出了引入因果知識的方式.SHAP 方法需要計算特征子集S下模型的期望輸出v(S),為保持樣本位于數據流形之上,一般選擇計算以XS=xS為條件下的期望.該文獻認為,在給定因果圖結構的情況下應使用do操作而非取條件的操作,即do(XS=xS),由該方法得到的歸因值稱為因果Shapley值.同時,該文獻利用中介分析將總體效應v(S∪{i})?v(S)拆解為直接效應與間接效應,展示了在不同因果結構下對于相同觀測數據的解釋存在的差異.
2.1.2 基于反事實的解釋方法
基于反事實的解釋方法是近年來新興的一類模型解釋方法,其中“反事實”作為一種因果術語指的是如果樣本的部分特征發生了改變而其他特征不變將會怎樣.一般而言,反事實解釋方法會尋找一種樣本特征處理方法使樣本的預測結果發生顯著改變,例如對圖像的局部進行替換或遮擋從而改變分類類別等.與歸因分析不同,反事實解釋并不會提供每個特征的重要度,而是直接給出改變預測結果的途徑,相當于給出信息“模型對樣本X的輸出為A而 不是B,是因為X具有特征f,如果該特征變為g則其輸出會變為B”(本節所用符號與前文無關).

Table 1 Application of Causal Methods on Interpretability Problems表1 因果方法在可解釋性問題上的應用
文獻[49-50]提供了一類典型的反事實解釋方法.針對圖像分類任務,需要從給定原始圖像中選擇一塊區域使其替換為其他內容后變為目標類別.所替換內容為目標類別的1幅干擾圖像的某一塊區域.修改后的復合圖像構成了原樣本的一個反事實解釋,如圖5所示:

Fig.5 Example of counterfactual explanation [49]圖5 反事實解釋示例[49]
文獻[51]在為圖像分類模型構造反事實解釋時避開了圖像的修改合成過程,直接生成可讀的文本解釋,例如“它不是猩紅麗唐納雀,因為它沒有黑色的翅膀”.文獻[52]通過優化的方式求解圖像的掩碼,使得遮擋該區域后模型不再將其分類為原始類別.文獻[53]在視頻分類上應用反事實解釋,選取視頻中關鍵片段的關鍵矩形區域,并通過預測該區域的語言學屬性為其搭配簡單的文本解釋,如“是騎行而不是滑板運動,因為姿勢是坐著”.文獻[54]利用局部語義紋理特征作為解釋工具,稱為斷層線(fault-line),解釋原始圖像需要增減哪些語義特征才能改變為目標類別.文獻[55]在強化學習中將行動影響建模為SCM,為智能體的行為做模板式的反事實解釋,例如“智能體選擇建造供應站而不是兵營,因為可以擁有更多供應站,有利于破壞對手更多的單位和建筑”.文獻[56]提出反事實解釋需滿足可行性和多樣性,并采用優化的方式求解反事實解釋的集合.文獻[57]為貝葉斯網絡分類器構造反事實解釋,求解值改變即引起結果改變的變量集合.文獻[58]在反事實解釋的基礎上提出半事實(semi-factual)解釋的概念,與反事實解釋的區別在于其對于樣本的修改接近改變輸出但實際并未真正改變.文獻[59]為針對圖(graph)數據的分類器設計反事實解釋方法,提出一種基于搜索的方法尋找反事實圖.文獻[60]針對以往基于算法的反事實樣本構造方法過于耗時的問題,提出一種基于模型的反事實樣本生成方法.文獻[61]為集成樹(tree ensemble)模型設計了反事實解釋方法,建模為混合整數規劃問題并進行求解.
文獻[62]針對圖像生成模型研究了一種特殊的反事實解釋方法.由于圖像生成模型的輸入為無直觀意義的噪聲,一般的反事實研究不易產生有價值的解釋,因此該方法不再針對輸入特征進行反事實,而是將神經網絡模型視為白盒SCM,在其內部表達節點上進行反事實,其目的是尋找模型中的獨立生成機制,從而有助于對模型的理解.具體方法是尋找一些網絡內部節點集合,使得在2幅圖像上做數值交換后輸出差異盡可能大,這些節點即反映了圖像的關鍵生成機制.圖6展示了該文獻方法可通過2幅圖像在關鍵內部節點上的數值交換實現反事實的圖片混合效果.

Fig.6 Example of counterfactual image hybridization [62]圖6 反事實圖像混合示例[62]
基于反事實的模型解釋方法相對于歸因解釋的優勢在于其直接提供了改變當前模型預測結果的操作手段.然而一些文獻指出,反事實解釋提出的建議并不會考慮實際實施的代價,甚至可能是無法操作的.文獻[63]研究了反事實解釋偏離數據分布的問題,提出基于馬氏距離和局部異常因子的代價函數約束反事實解釋的可行度,將尋找可行反事實解釋的問題轉化為混合整數線性優化的求解問題.文獻[64]在此基礎上基于因果圖分析了在多個特征上反事實操作的順序問題,因果圖可由因果發現技術獲得.文獻[65]研究了在特征為二值情景下的反事實解釋的可行性問題,證明尋找最優反事實策略是NP難的,因此提出一種高效的隨機算法進行近似求解.文獻[66]研究了特征之間存在因果關聯時如何提供可行反事實解釋的問題,在假設因果圖結構已知的情況下,用高斯過程建模結構方程的不確定性,提出個體和亞群體級別的2類可行性反事實解釋,使用梯度優化的方式求解.
機器學習研究通常會在一個給定的訓練數據集上訓練模型,然后在同數據分布的驗證集或測試集上進行測試,這種情況下模型的表現稱為分布內泛化(in-distribution generalization).在一般的應用場景中,機器學習模型會部署在特定數據環境中,并使用該環境中產生的數據進行模型訓練,其性能表現可以用分布內泛化能力來度量.然而在一些場景中,目標環境中的標注數據難以獲取,因此更多的訓練數據只能由相似的替代環境提供.例如訓練自動駕駛的智能體時由于風險過高不能直接在真實道路上行駛收集數據,而只能以模擬系統中所獲取的數據為主進行訓練.這種場景下的機器學習任務又稱為域適應(domain adaptation),屬于遷移學習(transfer learning)的范疇,即將源域(source domain)中所學到知識遷移至目標域(target domain).這里的域(domain)和環境(environment)的含義相同,可以由產生數據的不同概率分布來描述,下文將沿用文獻中各自的習慣稱呼,不再對這2個概念進行區分.
在可遷移性問題中,因果理論的主要價值在于提供了清晰的描述語言和分析工具,使研究者能夠更準確地判斷可遷移和不可遷移的成分,有助于設計針對不同場景的解決方案.因果推斷中關注的效應估計問題本質上是在研究改變特定環境作用機制而保持其他機制不變的影響,這與遷移學習中域的改變的假設相符,即目標域和源域相比繼承了部分不變的機制可以直接遷移,而剩余部分改變的機制則需要進行適應.因此在因果理論的指導下,遷移學習中的關鍵問題就是建模并識別變與不變的機制.目前因果遷移學習一般假設輸入X與輸出Y之間有直接因果關系,重點關注無混雜因素情況下變量的因果方向和不變機制,如表2所示,以下介紹相關工作.

Table 2 Application of Causal Methods on Transferability Problems表2 因果方法在可遷移性問題上的應用
文獻[77]是早期研究因果理論對機器學習指導作用的經典工作,主要使用結構方程模型研究輸入變量X與輸出變量Y之間的因果方向對可遷移性的影響:1)如果有X→Y,那么輸入分布P(X)與條件分布P(Y|X)可視為獨立的機制,目標域數據所提供的輸入P′(X)信息對P′(Y|X)的預測不會產生直接作用,而輸出P′(Y)卻因包含了P′(Y|X)的信息而有助于預測;2)如果有Y→X,則輸入分布P(Y)與條件分布P(X|Y)可視為獨立的機制,結論將與1)情況完全相反,這種情況稱為反因果(anti-causal).正向因果情景1)中僅P(X)發生改變而P(Y|X)不變的情況常被稱為協變量偏移(covariate shift, CovS).文獻 [70]針對實際情形中更常見的反因果遷移問題進行了進一步的建模,如圖7所示:如果只有P(Y)發生了改變則稱為目標偏移(target shift, TarS);如果只有P(X|Y)發生了改變則稱為條件偏移(conditional shift, ConS);如果兩者都發生了改變則稱為廣義目標偏移(generalized target shift, GeTarS).這些工作為因果理論指導遷移學習奠定了基礎.
后續許多工作沿用正反向因果框架展開,在不同的先驗因果圖結構下求解遷移學習問題.文獻[78]探討了在有多個源域提供數據的情況下如何求解各類反因果遷移問題.文獻[67]提出協變量偏移情況下對P(Y|X)不變的假設過強,認為只需假設存在特征集合S使得P(Y|S)跨環境不變即可,并設計搜索算法尋找S.文獻[68]針對目標偏移問題已有方法無法處理高維數據、連續數據和大規模數據等問題,提出一種新的標簽變換方法求解,將源域的標簽Y變換之后再重新訓練或微調獲得P(Y|X)模型.文獻[69]研究條件偏移情況,基于變分自編碼器結構學習X的隱變量表達,并引入對抗訓練使語義表達與域表達解耦合,語義表達即可用于遷移.文獻[71]指出在廣義目標偏移的情況下使用文獻[70]中的局部尺度變換方法可能無法滿足需求,進而設計算法通過尋找條件可遷移成分(conditional transferable components)進行求解.
一些遷移學習的工作也考慮從其他角度引入因果理論和技術.文獻[72]在因果圖建模的基礎上額外建模了結構方程,基于非線性獨立成分分析構造目標域的偽樣本對訓練數據進行擴充.文獻[73]利用因果圖在一個虛擬的“密室逃生”任務上建模不同層次的因果結構,以將所學知識遷移到未見過的相似場景.文獻[74]研究了一種特殊的模仿學習遷移任務,即演示者與學習者接收不同的傳感器輸入,如自動駕駛智能體上路時無法觀測到學習時的指示燈信號,使用SCM分析可變與不變的部分以指導學習.文獻[75]針對小樣本學習(few-shot learning)這一特殊的域適應任務,認為預訓練知識是特征和標簽的混雜因素,采用后門調整消除其影響.文獻[76]將域適應問題轉化為增廣的因果圖上的推斷問題,在多個源域的數據上進行結構發現,然后使用條件生成對抗網絡建模.

Fig.7 Causal graphs of three types of anti-causal transfer problems [70]圖7 3類反因果遷移問題的因果圖[70]
遷移學習問題與因果密切相關,對于跨環境不變機制的挖掘和利用始終是其核心問題之一.由于問題場景的不同會導致因果機制可變也可不變,無法統一下定論,需要具體問題具體分析,因果機器學習在這一問題上仍有寬闊的發展空間.
遷移學習允許模型獲得目標環境的少量數據以進行適應學習,然而在一些高風險場景中,可能需要機器學習模型在完全陌生的環境中也能正常工作,如醫療、法律、金融及交通等.以自動駕駛為例,即使有大量的真實道路行駛數據,自動駕駛智能體仍會面臨各種突發情況,這些情況可能無法被預見但仍需要被正確處理.這類任務無法提供目標環境下的訓練數據,此時模型的表現稱為分布外泛化(out-ofdistribution generalization).如果模型具有良好的分布外泛化能力,則稱其具有魯棒性(robustness).
這類問題在未引入因果術語的情況下就已經展開了廣泛的研究.如分布魯棒性研究[79-81]考慮當數據分布改變在一定幅度之內時如何學習得到魯棒的模型,常見思路是對訓練樣本做加權處理;對抗魯棒性研究[8,82-83]考慮當樣本受到小幅度擾動時模型不應當改變輸出結果,常見思路是將對抗攻擊樣本加入訓練.這類研究常常忽略變量間的因果結構,面臨的主要問題是很難決定數據分布或者樣本的擾動幅度大小和度量準則,這就使得研究中所做的假設很難符合真實場景,極大地限制了在實際中的應用.因果理論的引入為建模變量間的結構提供了可能,同時其蘊含的“機制不變性”原理為魯棒性問題提供了更合理的假設,因為真實數據往往是從遵循物理規律不變的現實世界中采集獲得.例如針對輸入為X、輸出為Y的預測問題,不考慮結構的分布魯棒性方法會假設未知環境P′(X,Y)應當與真實環境P(X,Y)的差異較小,如限制聯合分布的KL散度小于一定閾值;而考慮結構的因果方法則通常會假設機制不變,例如當Y是X的因時假設P′(X|Y)=P(X|Y),在因果關系成立的情況下后者通常是更合理的.
一些從偽相關特征入手研究魯棒性問題的工作雖然未使用因果術語,實際上已經引入了因果結構的假設.這些工作針對的往往是已知的偽相關特征,如圖像分類任務中的背景、文本同義句判斷SNLI數據集中的單條文本[84]、重復問題檢測QuaraQP數據集中的樣本頻率[85]等.在實際場景中針對這些偽相關特征進行偏差去除(debias),以避免其分布發生變化時影響模型表現.這類工作隱含的假設是偽相關特征與目標預測變量沒有因果關系.一種直接的解決方法是調整訓練數據的權重,使得偽相關特征不再與預測變量相關[85].還有一類方法會單獨訓練一個僅使用偽相關特征預測的模型,然后將其與主模型融合在一起再次訓練,完成后僅保留主模型[86-87].然而由于實際應用中通常很難預先確定偽相關特征,這類工作在解決魯棒性問題上具有明顯的局限性.
因果理論的引入對于解決魯棒性問題提供了新的思路,主要的優勢在于對變量結構的建模和更合理的假設.這類方法包括反事實數據增強(counterfactual data augmentation)、因果效應校準和不變性學習.如表3所示 ,反事實數據增強考慮從數據入手消除偽相關關系,因果效應校準通過調整偏差特征的作用來減輕偏差,不變性學習通過改變建模方式學習不變的因果機制,以下分別展開介紹.
2.3.1 反事實數據增強
反事實數據增強的核心思想是針對真實的因果關系額外構造反事實數據加入訓練,以消除非因果變量與預測變量間的相關性,這里的因果關系通常是由人的先驗認知給出的.“反事實”指的是對樣本做改動,通過改變關鍵的因果特征使得預測結果改變.文獻[114]給出了這類方法的有效性分析,下面對這類方法的相關工作進行簡要介紹.
在自然語言處理領域主要關注文本分類任務中的數據增強.文獻[88]針對文本數據中的性別-職業偏差,將性別相關詞語替換成相反性別的對應詞語作為數據增強.文獻[89]同樣針對性別偏差,認為直接替換性別詞加入數據會造成統計屬性的異常,因此建議改為隨機替換原有數據,并額外提出一種姓名干預的方法將與性別相關的姓名詞一同替換.文獻[90]指出性別詞替換的方法并不適用于某些性別與語法關聯緊密的語言,如西班牙語和希伯來語,因此提出一套新的方法針對這類場景,在對性別詞進行干預后重新推斷新的詞形和句法標簽,在整條文本上進行調整.文獻[91]針對文本情感分類任務中未知的偽相關特征問題,通過人工編輯文本使得改動幅度不大且情感類別反轉,修改得到的文本作為訓練數據擴充.文獻[94]同樣針對文本情感分類任務,通過匹配含義相近但標簽相反的文本來尋找關鍵因果詞,然后在原始文本上將因果詞替換為其反義詞,同時反轉標簽構成反事實數據.

Table 3 Application of Causal Methods on Robustness Problems表3 因果方法在魯棒性問題上的應用
在計算機視覺領域主要關注視覺問答(visual question answering, VQA)和圖像分類等任務中的數據增強.文獻[92]在VQA任務中使用生成對抗網絡合成圖像進行數據增強,針對語義實體進行相關或無關物體的移除,從而去除模型中的一部分偽相關關系.文獻[95]提出2種針對VQA任務的數據增強方法,即遮擋圖像中的關鍵區域,或者遮擋問題文本中的關鍵詞,2種方法都不依賴人工標注.文獻[115]使用SCM 對VQA 任務進行建模,通過推斷外生變量的分布來構建改變圖片或者改變問題的反事實數據.文獻[116]提出在使用反事實數據時并不直接加入訓練,而是與原數據配對構造對比損失,可以取得更好的效果.文獻[117]提出在使用反事實數據增強方法時同時采用梯度監督正則項,可以進一步提高分布外泛化性能.文獻[118-119]針對視覺?語言導航(vision-and-language navigation)任務,分別使用對抗訓練尋找最難路徑以及修改圖像特征改變智能體行為的方式構造反事實樣本.文獻[120]借助因果獨立機制概念,人為將圖像生成過程分離為背景、形狀和紋理的單獨作用機制,從而構造出反事實圖片的生成模型,將生成的偽造圖片加入訓練可提升圖像分類模型魯棒性.文獻[93]在圖像物體分類任務中利用人工標注的邊界框信息,通過修改邊界框內外的圖像,分別構造類別改變和不變的2類反事實樣本.文獻[121]利用圖像生成模型習得的隱狀態特征表達,使用主成分分析方法識別關鍵因果成分,通過干預隱狀態和風格遷移的方式分別構建反事實圖像,提升了圖像分類模型的魯棒性.
反事實數據增強作為一種與模型無關的技術,除了直接應用于去除偽相關特征外,本身也是一種解決訓練數據不足的有效手段.這種情況下也可以看作是過少的訓練數據更容易帶來各種偽相關特征問題.文獻[122]針對命名實體識別任務中數據標注代價高的問題,使用替換實體的方法進行數據增強,并從SCM的角度闡述了方法的合理性.文獻[123]研究基于語言的圖片編輯任務中的數據稀缺問題,將語言指令關鍵詞隨機替換為同類別詞進行數據增強.文獻[124]關注強化學習任務中的一類局部機制可以解耦合的場景,如打臺球任務中短時間內臺球只會兩兩碰撞,提出一種局部因果模型,通過替換可解耦的局部狀態實現數據增強.
2.3.2 因果效應校準
針對機器學習的魯棒性問題,有一類工作會根據人的先驗知識,對容易帶來偏差的特征的作用進行調整,使其符合真實的因果效應,從而實現跨環境預測的穩定性.本文將這類研究統稱為因果效應校準.典型的思路是根據問題的特點提出對應的因果圖假設,然后針對混雜因素變量使用后門調整進行校準,或者針對中介變量使用中介分析進行校準等.以下對各個工作分別進行簡要介紹.
文獻[96]研究法庭意見文本生成任務,由于原告通常會在很可能被支持的情況下提起訴訟,因此主張是否受法庭支持成為了原告聲明和法庭意見之間的混雜因素,使用后門調整處理后減少了支持主張的意見文本,更符合真實判決結果.文獻[97]在視覺對話任務中根據因果圖結構提出2種校準策略(如圖8所示):1)切斷對話歷史H對于未來對話文本A的直接效應而僅保留經由問題文本Q的中介效應;2)建模未觀測混雜因素并使用后門調整消除其帶來的偽相關作用.文獻[98]在視覺常識推理等任務中,認為圖像中的物體標簽是混雜因素,使用后門調整處理后獲得更準確的圖像特征表達.文獻[99]在弱監督語義分割任務中,只利用圖像標簽作為監督信號,并認為圖像標簽是混淆因素,通過后門調整改善分割質量.文獻 [100]研究場景圖(scene graph)生成任務,由于訓練數據中缺少針對圖像中物體位置關系的精確描述,如本因該描述成“站在······上面”和“躺在······上面”,卻使用了“在······上面”這種缺乏信息的描述,提出物體標簽是圖片特征對位置描述關系的中介變量,這一中介效應應當被削弱,因此在預測描述關系時使用TDE來代替TE.文獻[101]指出分類問題中長尾分布的尾部預測不準的部分原因是在優化算法中使用了動量,而動量是輸入變量和輸出變量間的混雜因素,且動量在頭部的投影是輸入到輸出間的中介變量,因此同時采用后門調整和TDE方法進行校準.文獻[102]研究視覺問答任務中問題文本引起的語言偏差問題,使用全間接作用TIE代替原有預測,避免問題文本對回答產生直接作用,獲得更高的預測準確率.

Fig.8 Causal graph and two calibration strategies in visual dialogue tasks [97]圖8 視覺對話任務的因果圖和2種校準策略[97]
除了后門調整和中介分析以外,也有工作采用其他方法實現因果效應校準.文獻[125]在模仿學習任務中,由于專家對環境的觀測與智能體的觀測并不一致,因此定義了一種部分可觀測的SCM進行建模和求解.文獻[126]研究了一類運行時混雜(runtime confounding)的問題,即模型在訓練時可以訪問所有特征,而在測試時卻有部分特征無法獲取,采用雙穩健估計DRE算法解決該問題.文獻[127]針對圖像分類中的組合泛化問題,認為標簽和屬性相互獨立且圖像由兩者生成,采用反向因果建模求解.文獻[128]研究詞向量中性別偏差的問題,認為單純使性別無關詞向量垂直于性別定義詞向量不足以解決問題,因為性別無關詞仍可能被聚類為同一簇從而提供偏差信息,因此使用半兄弟回歸(half-sibling regression,HSR)[129]消除兩者之間的混雜因素.文獻[130]同樣針對詞向量的性別偏差問題,提出一種反事實生成的方法,將詞向量解耦成性別相關和性別無關的2部分,通過反轉性別標簽得到性別相反的詞向量,與原詞向量取平均后得到中性的詞向量.文獻[131]使用HSR 技術為詞向量降噪,使內容詞和功能詞有更準確的含義表達.文獻[132]在視覺問答任務中使用前門準則修正圖像和問題對回答的因果作用,使模型中的注意力機制更好地捕獲真實因果關系.
2.3.3 不變性學習
機器學習中的魯棒性問題與現實物理世界中的因果不變性機制有著緊密的聯系.由于實際應用考慮的往往是宏觀的物理過程,任何因果機制都難以保證一成不變,因此考慮無任何約束的魯棒性問題意義不大且沒有必要,重要的是滿足常見環境下的需求.要達到這一目標,建模常見環境中不變的因果機制就成了實現模型魯棒性的必然需求.本文將這類研究統稱為不變性學習.不同于反事實數據增強和因果效應校準等方法需要對偽相關特征有一定的認識,不變性學習可以對偽相關特征未知的情景進行處理.常見思路包括穩定學習(stable learning)、不變因果預測(invariant casual prediction, ICP)和不變風險最小化(invariant risk minimization, IRM),以下分別展開介紹.
穩定學習[103]指的是要求模型在不同的環境中具有穩定的性能表現,既要有較高的平均表現,也要有較低的方差.穩定學習假設預測目標僅由一組因果特征決定,其預測作用具有不變性,而其他特征為偽相關特征.穩定學習一般利用單個環境的數據,通過樣本加權的方式消除偽相關特征的影響,從而使因果特征被保留下來.文獻[104]提出因果正則化邏輯回歸(causally regularized logistic regression, CRLR),對每個樣本學習一個權重,在優化經驗風險的同時需使得以每個特征為處理變量(treatment variable)的協變量分布盡可能一致,所學得的關鍵特征更符合人的判斷標準.文獻[103]明確提出穩定學習的概念,并提出深度全局平衡回歸(deep global balancing regression,DGBR)算法,使用自編碼器(auto-encoder)將特征降至低維空間,然后采用與CRLR相同的思路求解,根據學到的權重檢查每個協變量條件下處理變量是否與預測結果變量獨立,不獨立的即為穩定特征.文獻[105]指出DGBR算法可能存在模型設定偏誤(misspecification)問題,提出去相關加權回歸(decorrelated weighting regression)算法,引入特征非線性變換解決這一問題.文獻[106]同樣針對設定偏誤問題,指出輸入特征之間存在的共線性特點會放大模型設定偏誤帶來的誤差,因此提出一種樣本重加權去相關算子(sample reweighted decorrelation operator)消除共線性.文獻[107]針對CRLR和DGBR只能針對線性框架的缺陷,提出基于隨機傅立葉特征的非線性特征去相關算法StableNet,可以更有效地應用于圖像等復雜數據類型.目前基于樣本加權的穩定學習方法對于數據有一個較強的假設,即對于可能存在的因果特征和偽相關特征的組合均需要存在對應的訓練樣本,這在實際場景中可能難以滿足.因此在該假設不成立時如何應對仍是有待研究的課題.
不變因果預測ICP[108]方法的思路是借助多個環境的數據來確定跨環境不變的特征.文獻[108]在線性框架下提出了ICP,基于假設檢驗的方式確定不變因果特征集合,同時還可以給出置信區間.文獻[109]將這一方法拓展至非線性框架,并且可以適用于連續環境.文獻[110]將ICP方法進一步拓展至時間序列數據上.基于ICP的方法均要求因果變量是輸入特征的子集,因此一般不適用于高維復雜數據如圖像和文本等,然而其思想對這類問題的解決提供了很好的啟發作用.
不變風險最小化IRM[111]方法延續了ICP的思想,同樣是借助多個環境的數據來學習跨環境魯棒的模型,但不再從輸入特征集合中選擇因果特征,而是使用模型抽取特征.IRM認為機器學習模型可以拆分為特征抽取器和預測器2個部分,即輸入樣本首先通過特征抽取器得到分布式表達,然后預測器將該表達映射為目標輸出結果.IRM假設因果特征應當使得預測器保持跨環境不變性,這種不變性約束被轉化為損失函數中的正則項,即在各個環境數據上損失函數對于預測器參數的梯度盡可能為零.許多后續研究沿用或者借鑒了IRM的方法.文獻[112]考慮強化學習在多環境中的泛化問題,假設下一狀態僅與當前狀態構成因果關聯并構建因果圖,使用IRM學習狀態摘要表達,然后對接下游任務.文獻[133]考慮模型隱私保護問題,證明了因果學習得到的模型相對于相關學習得到的模型的分布外泛化誤差更小,且能夠抵抗隱私攻擊,方法使用IRM實現.文獻[113]針對IRM所需要的多環境數據的構造問題,提出在沒有顯式環境類別標注時可以引入輔助的環境推斷任務,直接由單一數據集構建多環境子集.
除以上常見方法外,也有研究工作基于不變性學習探索了其他方案.文獻[134]針對反因果任務使用因果圖建模(如圖9(a)所示),提出Deep CAMA方法解決模型魯棒性問題.除輸入變量X和輸出變量Y以外還引入了其他未觀測變量,分為可干預的變量M及不可干預的變量Z.對分解的因果圖各部分使用神經網絡建模,利用原始訓練數據和干預過的數據進行證 據 下 限 優 化(evidence lower bound optimization).其中干預數據指的是對變量M的do操作,具體的干預數值可以通過推斷獲得,而原始訓練數據被視為do(M=0)操作下的觀測.文獻[135]同樣針對魯棒性問題使用因果圖建模(如圖9(b)所示),提出潛在因果不變模型(latent causal invariance model, LaCIM),認為不同的域Y決定了混雜因素C,進而生成構成輸入h的2組特征Z和S,其中S決定了 輸出結果Y,而Z與Y無因果關系.除D可變以外,其他因果機制視為不變.該方法利用變分自編碼器(variational auto-encoder)將變量X和Y編碼至隱空間,并視為由代表S和Z的2部分組成,兩者共同通過解碼器重構X,同時令S通過單獨的解碼器重構輸出變量Y.在測試階段,給定輸入X后輸出Y可以由因果圖上的推斷過程獲得.文獻[136]認為圖像數據由內容C和風格S共同決定,對于分類任務而言不論風格怎樣改變,內容對類別的作用機制是固定不變的,即P(Y|C,do(S=s))=P(Y|C,do(S=s′)).因此利用大量無監督圖像數據,通過旋轉、裁剪、灰度調整等風格干預操作構造成對圖像,使特征抽取模型所習得的特征表達在成對的圖像對實例判別(instance discrimination)任務有相似的預測作用.在無監督預訓練之后得到的特征抽取模型可用于下游任務的學習,能夠有效提升分布外泛化能力.文獻[137]認為在分類任務中相同物體的不同表現應當具有不變的特征表達,在模型優化目標中添加額外的正則項,要求同類別的隨機選取的2個樣本具有較高的匹配程度,其中匹配程度的度量方式通過對比學習(contrastive learning)習得.文獻 [138]在多實例學習任務中,認為實例集合的標簽取決于集合中的某些關鍵實例,將其稱為因果實例(causal instance),且認為利用因果實例判別標簽的過程在協變量偏移場景下具有不變性.因此采用RCM建模并利用回歸估計識別因果實例,然后通過與因果實例進行比對來確定集合判別結果.

Fig.9 Causal graph of invariance-learning methods [134-135]圖9 不變性學習方法的因果圖[134-135]
基于不變性學習解決模型魯棒性問題是一種在機器學習中引入因果的自然方式,同時也有較好的發展前景.目前已有工作只是在該領域的初步嘗試,需要針對不同任務和數據設定不同的假設,并分別設計求解方案,缺乏統一的方法論的指導,仍有待進一步研究探索.
機器學習中的公平性(fairness)指的是,對于特定的敏感特征如性別、年齡、種族等,不同的取值不應該影響某些任務中機器學習模型的預測結果,如貸款發放、法律判決、招生招聘等.公平性對于機器學習在社會決策中的應用是十分重要的考慮因素,與因果有密切的關系,直觀上體現為敏感特征不應成為預測結果的因變量.模型中存在的不公平常常由偽相關特征問題導致,因此公平性也可以視為針對敏感特征的魯棒性,但有著自己獨有的術語和研究體系.下面首先介紹一下公平性的基本概念,然后介紹因果理論在公平性問題中的應用.
公平性的定義和度量指標目前十分多樣化,并沒有完全統一確定,不同的定義所反映的問題也有所不同,甚至可能是相互不兼容的[139].為便于表述,記敏感特征為A,其他觀測特征為X,真實輸出結果為Y,模型為f,模型預測結果為=f(A,X)(本節所用符號與前文無關).早期公平性問題的相關工作并沒有考慮因果,最簡單直白的方式是在決策時避免使用敏感特征[140],即f(A,X)=f(X).然而這一方案顯然是不夠的,因為其他特征中也可能會包含敏感特征的信息.因此一般會考慮個體級別的公平性或者群體級別的公平性的度量,并設計方法實現.個體公平性(individual fairness)通常會限制相似的個體之間應該有相似的預測結果[141],難點在于相似性指標的設計.群體公平性(group fairness)會定義不同的群體并設置度量指標使得各個群體之間差異盡可能小,一種思路是人群平等(demographic parity)[142],希望在不同敏感特征取值的群體中預測結果的分布一致,即另一種思路是機會均等(equality of opportunity)[143],希望在那些本該有機會的人群所獲得的機會不受敏感特征的影響,即P還有一種思路是條件公平(conditional fairness)[144],希望在任意公平變量F條件下不同敏感特征群體的結果一致,即這些定義并不考慮特征內部的依賴關系,對模型的決策機制也沒有區分性,在更細致的公平性分析中難以滿足要求.因果理論的引入為公平性研究起到了極大的推動作用,許多概念必須借助因果的語言才能表達,如表4所示:

Table 4 Application of Causal Methods on Fairness Problems表4 因果方法在公平性問題上的應用
較早引入因果的公平性研究工作是反事實公平性(counterfactual fairness)[145].這里的反事實指的是,僅僅改變個體的敏感特征而保持其他特征不變,包括未觀測的特征.反事實公平性指的是對任何個體的反事實操作都不應當影響其預測結果,即這種定義避免了個體公平性相似性指標設計困難的問題,同時相對于群體公平性又有更高的要求.具體實現公平性的方法通常是利用數據推斷未觀測變量作為數據增強,或者避免使用敏感特征及其在因果圖上的后繼節點作為模型輸入.反事實公平性的一個重要研究內容是特定路徑(pathspecific)上的反事實公平性,即考慮在因果圖上從敏感特征到預測結果的不同路徑,造成直接影響的路徑會引發公平性,而間接影響的路徑則未必引發不公.文獻[146]針對這一問題提出“未解決的歧視”(unresolved discrimination)概念,指出任何基于觀測的標準均無法判斷模型是否表現出未解決的歧視問題,通過施加干預不變性的約束可以解決這一問題.文獻[147]同樣針對特定路徑的反事實公平性,將問題轉化為約束優化問題,使用逆概率加權IPW方法求解.文獻[148]針對前面2項工作容易丟失個性化信息的問題,提出一種基于隱變量的方法修正在不公平路徑上敏感變量的后繼節點的觀測.文獻[149]延續文獻[148]的研究內容,將個體級別的討論拓展到子群體的級別,并提出方法解決這一框架下的可識別性問題.文獻[150]研究了反事實公平性中的可識別性問題,即反事實結果是否能夠通過觀測數據獲得唯一解.該工作指出當且僅當敏感特征后繼和預測結果的祖先存在交集時不可識別,這種情況下雖無法確定唯一解,但可以計算上下界.文獻[151]研究了文本數據中國家、職業、姓名等敏感特征對情感預測的反事實公平性問題.文獻[152]在文本分類任務中提出反事實符號公平性(counterfactual token fairness)新概念,即針對敏感詞的反事實公平性,提出敏感詞替換和反事實邏輯匹配的方法解決該問題.
除了反事實公平性,一些工作也從其他角度引入了因果技術.文獻[153]研究了多模型級聯構成的決策系統的公平性問題,如果單個模型存在不公平問題則會導致整體不公平,但逐個模型進行處理的效率太低,因此將整體系統建模為SCM,視單個模型的調整為因果圖上的軟干預,從而實現全局的高效求解.文獻[154]考慮多步決策中存在數據缺失時的公平性問題,使用因果圖建模這一問題,并提出一種去中心化的方法避免公平性算法依賴那些缺失后無法恢復的信息.文獻[155]考慮從構建數據集的角度實現公平性,利用生成對抗網絡建模在敏感特征受到干預時的生成機制,通過控制干預下的樣本生成過程,消除數據中的不公平因素.文獻[156]基于RCM提出2種新的群體公平性指標:平均因果效應公平(FACE)和處理組平均因果效應公平(FACT),相當于反事實公平性在群體上的平均度量,使用傾向性得分方法IPTW進行因果效應估計.文獻[157]嘗試基于中介分析將全局變化量(total variation, TV)拆解成多個細粒度的度量,包括反事實直接效應、反事實間接效應和偽效應.文獻[158]延續文獻[157]的工作,將方法拓展到TV以外的其他度量指標,并給出了這類問題的求解方法.文獻[159]針對達到公平性需要重新訓練模型的問題,提出一種基于樣本加權的反事實分布修正方法,可以避免重新訓練的開銷.文獻[160]考慮動態系統中的公平性度量問題,將動態系統建模為SCM,則公平性度量就成了因果效應估計問題,使用雙穩健估計DRE方法進行處理.
目前針對機器學習公平性問題的研究已經與因果密切相關,包括描述語言、建模方法和求解手段都在一定程度上依賴因果研究的相關成果,預計未來因果理論在這一方向將持續起到不可替代的作用.
反事實評估(counterfactual evaluation)指的是機器學習模型的優化目標本身是反事實的,這通常出現在使用有偏差的標注數據訓練得到無偏模型的情景,例如基于點擊數據的檢索和推薦系統學習任務.由于任務本身需要反事實術語進行表述,因果理論對這類問題的建模和研究起到了關鍵性的作用,如表5所示:

Table 5 Application of Causal Methods on Counterfactual Evaluation Problems表5 因果方法在反事實評估問題上的應用
以推薦系統為例,這類任務的目的是根據用戶的意圖和喜好向用戶展示相關性更高的物品,如文檔、商品及廣告等.由于難以獲得物品真實相關性的人工標注,實際應用中通常會使用用戶的點擊(click)數據指導模型學習.然而系統每次只能向用戶展示部分物品,這就使得未展示物品無法被估計相關性,從而對系統策略的評估帶來偏差.考慮假設所有物品都被展示的情況下的點擊率即屬于反事實評估問題.由于未展示物品是由系統策略決定而非完全隨機,其點擊數據的缺失也是非隨機的,因此也被稱為非隨機缺失(missing-not-at-random, MNAR)問題.文獻 [180]在廣告推薦系統中使用因果圖建模這類問題(如圖10所示),并指出這種情況下的系統評估是反事實的.這種情況需要估計物品是否被觀測這一變量對是否被點擊這一變量的因果效應,可以用RCM建模,使用逆傾向性得分(inverse propensity scoring, IPS)方法修正偏差.這里的傾向性得分指的是物品被觀測到的概率,用得分的倒數作為權重為訓練樣本加權,即可消除偏差.記用戶特征為x,物品特征為y,向用戶展示物品的策略為h,傾向性得分為p,是否被點擊為δ(本節所用符號與前文無關),則對于展示策略效用的無偏IPS估計為

文獻[161]稱這類任務為從Bandit反饋日志中批量學習(batch learning from logged bandit feedback, BLBF),在IPS的基礎上額外采用權重裁剪和方差正則,提出一種新方法稱為反事實風險最小化(counterfactual risk minimization, CRM):

Fig.10 Causal graph in advertising recommendation systems[180]圖10 廣告推薦系統的因果圖[180]

其中,M為權重裁剪參數,λ為方差正則權重,uh為帶權重裁剪的IPS估計值.
大量工作延續IPS和CRM方法展開研究.文獻[162]指出CRM中存在傾向性過擬合問題,提出自歸一化估計方法解決.文獻[163]指出CRM中的方差估計需要遍歷整個訓練集導致計算開銷大,提出一種變分散度最小化方法解決.文獻[164]從貝葉斯視角重新分析CRM,提出一種更易實現的新正則化方法.文獻[165]針對系統行為空間極大的情況提出分布魯棒的CRM 算法.文獻[166]將IPS 推廣至更廣泛的評價指標,并針對推薦系統任務提出傾向性得分的估計方法.文獻[167]將IPS拓展至隱反饋問題,即只有點擊記錄而沒有未點擊記錄的情況.文獻[168] 額外考慮推薦系統的使用會改變未來用戶行為的問題,基于IPS提出一種因果嵌入表達方法.文獻[169]提出在IPS中使用估計的傾向性得分要比真實的傾向性得分獲得更低的方差.文獻[170]考慮推薦的集合被捆綁為一個整體同時選擇推薦或者不推薦,因此原有IPS作為針對單個物品的方法在此并不適用,提出一種變分樣本加權的方法來解決.文獻[171]指出由于展示物品只是整體的一部分,因此整體系統的展示機制不可識別,提出一種對抗學習的方案改進IPS.文獻[172]考慮BLBF問題中反饋信息存在序結構的情況,由于CRM 方法無法利用結構信息,因此提出一種基于域適應的算法進行求解.BLBF這一建模框架也被用于推薦系統以外任務,如文獻[181]在語義解析任務中引入人工反饋信號,同樣使用IPS方法進行反事實評估.
檢索系統中也會面臨類似的MNAR問題,這類應用需要對展示物品進行排序,與用戶需求相關性更高的物品應當排在更靠前的位置.這種情況下用戶選擇物品的點擊行為會受物品列表的展示位置的影響,位置越靠后則越不容易被用戶觀測到,進而使點擊率也偏低,因此這一問題也被稱為位置偏差(position bias)問題.文獻 [173]指出了位置偏差問題,并使用IPS方法進行處理,其中傾向性得分指的是物品在當前位置被觀測到的概率.一個關鍵的問題是如何估計傾向性得分,一般需要在線上系統中單獨收集數據進行估計.文獻[174]指出直接采用隨機策略估計傾向性得分會影響用戶體驗,提出一種期望最大化算法避免隨機策略;文獻[175]指出傾向性得分估計和消除位置偏差的任務互為對偶任務,提出對偶學習方法,同時學習2個模型.一些工作也考慮對IPS進行改進,文獻[176]對IPS方法進行擴展,能夠適配一般的加性排序指標和非線性模型;文獻[177]針對IPS穩定性問題,提出使用采樣代替加權的做法,使訓練更穩定;文獻[178]將IPS 由點擊模型推廣到級聯模型.文獻[179]對比了IPS和在線學習方法,指出IPS在偏差和噪聲較小的情況下優于在線學習方法.
反事實評估問題在檢索和推薦系統中的技術已經相對成熟和固化,許多文獻除了沿用IPS和CRM的概念以外未必會使用額外的因果術語進行表述,但這并不影響因果理論在其中的根基作用.未來如果出現其他需要使用反事實評估的場景,也可以繼續通過因果分析與已有技術快速建立聯系.
因果機器學習的研究工作種類十分豐富,除了在可解釋性、可遷移性、魯棒性、公平性和反事實評估這些主要問題上的研究以外,還有部分其他方面的研究.以下選擇其中值得關注的部分工作進行簡要介紹.
因果理論在一些需要建模變量間結構信息的情況下十分有效.文獻[182?184]研究多臂老虎機問題(multi-armed bandit)中變量存在因果結構的情況,稱為結構老虎機(structured bandit)問題,指出忽略因果結構可能導致次優的解,并設計各類方法求解.文獻[185]指出模仿學習中忽略因果關系會導致錯誤識別問題,即更多的學習數據反而導致性能下降.因此將變量組織成圖結構,隨機連接一些節點,依據性能表現學習背后的真實因果圖.文獻[186]研究機器學習任務在特征和輸出之間存在因果圖的情況下,可以在預測的同時進行因果發現,作為一種正則化手段可以使回歸任務更準確.文獻[187]研究特征之間存在結構關系的解耦表達任務,在模型中設計SCM層結構,借助對特征的額外標注學習特征表達,得到的解耦模型可實現干預或反事實下的生成.
因果理論中的反事實思想和技術為多個領域的問題提供了求解思路.文獻[188]在不完全信息博弈問題中,使用反事實的思想設計了反事實遺憾最小化(counterfactual regret minimization)算法,已成為求解該問題的重要方法[189-192],其中反事實指的是將當前策略替換為最優策略會帶來多大改進.文獻[193]研究強化學習中多類別分布下的SCM 可識別性問題,通過選擇風險最高的反事實軌跡,提供離線策略評估方案,為專家提供診斷建議.文獻[194]研究離線強化學習問題,將原有的在自身策略下的探索改為基于日志的反事實探索,獲得性能提升.文獻[195]研究使用Actor-Critic方法訓練場景圖生成模型,提出在Critic 模型中使用反事實結果作為基線可以提升生成效果.文獻[196]研究對話生成任務,借助已經生成的回復文本來構建反事實回復文本,獲得更好的生成質量.文獻[197]在文本分類任務的注意力監督方法中,使用反事實推理替代人工標注,得到了優于人工標注的結果.文獻[198]在弱監督視覺語言舉證(vision-language grounding)任務中提出一種反事實對比學習方法提升了舉證效果.
因果機器學習本身也提出了更高層級的問題,即干預和反事實結果預測問題,這需要機器學習和因果推斷2個領域的協作才能完成.文獻[199]和文獻[200]分別基于生成對抗網絡和變分自編碼器實現干預和反事實下的圖像生成能力.文獻[201]和文獻[202]分別在文本生成領域提出和求解反事實故事重寫問題.文獻[203]在文本生成任務中根據不同的屬性要求針對已有文本生成不同的反事實文本.文獻[204]嘗試解決多智能體任務中針對環境改變的反事實提問.文獻[205]在3D物理引擎世界中預測改變初態后的反事實未來發展.
本文介紹了因果相關的概念、模型和方法,并著重對因果機器學習在各類問題上的前沿研究工作展開詳細介紹,包括可解釋性問題、可遷移性問題、魯棒性問題、公平性問題和反事實評估問題等.從現有的應用方式來看,因果理論對于機器學習的幫助在不同的問題上具有不同的表現,包括建模數據內部結構、表達不變性假設、引入反事實概念和提供效應估計手段等,這在缺少因果術語和方法的時代是難以實現的.有了因果理論的幫助,機器學習甚至可以探討過去無法討論的問題,如干預和反事實操作下的預測問題.
對于可解釋性、公平性和反事實評估問題,因果理論和方法已成為描述和求解問題所不可缺少的一部分,且應用方式也漸趨成熟.這是由于對特征的重要程度的估計、對模型公平性的度量和對反事實策略效用的評估均屬于因果效應估計的范疇,問題本身需要使用因果的術語才能得到清晰且完整的表達,因果推斷的相關方法自然也可以用于問題的求解.可以預見,未來這些問題將繼續作為因果理論和方法的重要應用場景,伴隨因果推斷技術的發展,向著更加準確和高效的目標前進.
對于可遷移性和魯棒性問題,目前所采用的因果相關方法大多還處于較淺的層次,有待深入挖掘探索.在這些問題上,因果推斷的相關技術不易直接得到應用,這是由于這類問題的目標不再是單純估計因果效應或者發現因果結構,而是需要識別跨環境不變的機制.這對于因果而言是一項全新的任務,需要研究新的方法來求解.在機器學習尤其是深度學習中,這項任務的主要難點在于數據的高維復雜性.對于圖像和文本等數據而言,其顯式特征高度耦合,難以從中提取出有效的因果變量,阻礙了效應估計和結構發現等后續分析手段.目前所采用的反因果遷移、反事實數據增強和因果效應校準等手段大多只能針對可觀測的已知變量進行處理,適用范圍受到很大限制.相對地,不變性學習有能力處理未知的偽相關特征并識別因果特征,具有良好的發展前景.然而目前的不變性學習方法也存在局限性,主要在于對數據做了較強的因果結構假設,一方面數據可能無法滿足假設而又缺少驗證假設的手段,另一方面需要為滿足不同假設的數據設計不同的方法而缺乏通用性.因此,未來在這些方向上都值得開展研究.一種思路是繼續針對具體任務做出不同的因果結構假設,并設計對應的學習算法,這就需要構建成體系的解決方案并配備驗證假設的手段;另一種思路是從數據本身出發,推斷和發現潛在的因果結構,這就需要研究全新的方法來突破由數據的高維復雜性帶來的障礙.
從因果機器學習的研究進展來看,機器學習領域的因果革命將大有可為.不可否認,當前正處于因果革命的起步階段,由于現實問題存在極高的復雜性,這一革命的歷程也將曲折而艱辛,需要更多的研究和支持.希望更多的研究者能夠加入到因果機器學習的研究中來,共同創造和見證因果革命的新時代.
作者貢獻聲明:李家寧和熊睿彬合作完成文獻調研、內容整理和文章寫作,對本文具有同等貢獻;蘭艷艷對本文選題、組織結構和文章寫作提供了關鍵性的指導意見;龐亮對本文組織結構和部分內容提供了重要的指導意見;郭嘉豐和程學旗對本文的選題提供了重要的指導意見.