















摘要:研究和發掘事物之間的因果關系是數據科學的核心問題之一。針對因果發現面臨著搜索空間超指數量級增長、評價指標低、收斂速度慢且效果差等問題,本文提出一種基于異步策略的強化因果發現方法。首先采用自注意力機制的編碼器和單層解碼器模型探索數據之間的因果關系;其次,改進強化學習模型中的結構約束,并基于異步優勢算法更新網絡模型參數;最后,搜索、輸出最大獎勵的有向無環圖。通過實驗對比驗證了該方法的良好性能。
關鍵詞:因果關系;有向無環圖;強化因果發現;結構約束;異步優勢算法
中圖分類號: TP391文獻標識碼: ADOI:10.3969/j.issn.1007-791X.2024.04.0080引言
大量研究和應用表明,目前蓬勃發展的深度學習模型主要是在訓練數據和測試數據滿足獨立同分布條件基礎上基于統計相關關系建立起來的,這使得它很難依據算法流程對輸出結果給出系統全面的可靠理論解釋,不僅制約了其應用效果和范圍,而且有可能造成不可預見的嚴重錯誤。當面對越來越復雜的實際應用問題時,深度學習逐漸從性能驅動轉向風險敏感。在這種情況下,需要引入因果學習[1-2],通過觀察和實驗從數據中推斷出事件或行為之間的內在因果關系,旨在確定特定因素對于某個結果的影響程度,以便在未來的決策中更好地預測和控制結果。與統計相關不同,因果關系意味著規律般的必然性,而概率意味著例外性、懷疑和缺乏規律性[3]。因果學習的這種優勢在強化學習、遷移學習、分類、聚類以及非穩態數據的預測等學習任務中得到了很好的體現。因此,通過因果學習彌補現有深度學習存在的理論缺陷,構建兩者相互融合的更強人工智能方案已經成為當前智能技術發展的必經道路[4]。
發現和理解自然現象背后的因果機制對許多學科都非常重要,因為因果發現可以從一堆紛繁復雜的數據中挖掘出不同變量之間內在的因果影響網絡結構,合理解釋變量之間的因果關系,這種方法已經在生物醫學、經濟管理和社會科學中得到了廣泛應用[5-6]。傳統的因果關系發現方法通常是基于隨機控制實驗進行的,但由于實驗技術本身限制和代價高昂等原因,實際可行性不強,因此,常用的方法為通過觀察數據推斷變量之間的因果關系。伴隨深度學習在數據分析方面的成功應用,利用其中的強化學習[7]優勢進行因果發現,可以保證因果發現模型逐漸朝好的方向發展,進而獲得更精準的因果關系表示。由此可知,基于強化學習的因果發現方法研究無論在理論技術本身,還是實際應用方面均具有重要價值和意義。
探索事物之間的因果關系,根據觀察數據特征的不同可分為基于時序觀察數據和基于非時序觀察數據的兩大類因果發現方法[8]。盡管被觀測到的時序數據在時間維度上蘊含由“因”到“果”的方向信息,但是時序數據的獲取需要嚴格的時間控制,即“果”必須發生在“因”之后,這對觀察方法提出了較高的要求。與此相對,基于非時序觀察數據的因果發現方法也可應用于時序數據,在從被觀察數據中發現變量之間的因果關系的同時,其適用性更強。這類方法在過去幾十年獲得眾多研究者的關注,已經成為發現變量之間因果關系的重要途徑之一。另外,Jamie Robins,Donald Rubin和J. Neyman等人在隱變量建模、因果推斷和觀測數據處理方面做出了重要貢獻。Jamie Robins提出的隱變量建模中的條件隨機場方法在處理觀測數據中的潛在因果效應時效果顯著。他還提出雙重傾向匹配方法,用于處理觀測數據中的選擇性偏倚問題[9]。Donald Rubin提出潛在結果模型(Potential Outcome Model, POM)方法和多重插補方法用于處理觀測數據中的非隨機缺失及缺失數據的問題[10-11]。J. Neyman提出的無偏估計和最大似然估計理論為觀測數據處理提供了堅實的統計基礎[12]。他還提出隨機試驗設計和配對設計方法,用于處理觀測數據中的隨機性和混雜性問題[13-14]。在基于觀察數據的因果推斷研究領域的代表性進展有Pearl Jude等人提出的基于約束的方法、Bernhard Schlkopf等人提出的基于因果函數模型的方法以及基于混合型的方法。
基于約束的方法主要包括Spirtes等的PC(Peter-Clark)算法[15]和Verma等的IC(Inductive Causation)算法[16]。它們的核心原理是基于獨立性和條件獨立性判斷變量之間的獨立性而建立相應的連接圖,并利用定向規則和V-結構對變量之間的無向邊進行定向。以上兩種基于約束的方法主要解決了因果關系方向推斷的難題。為了降低高維數據上的錯誤, Tsamardinos等提出一種最大-最小爬山方法(Max-Min Hill Climbing, MMHC)[17],該方法首先通過最大最小父親孩子(Max-Min Parents and Children, MMPC)算法[18]局部結構學習因果無向圖,然后再采用貪婪貝葉斯評分爬山搜索的方法對無向圖進行定向。Linusson等[19]通過觀察貪婪等價搜索、貪婪介入等價搜索和最大最小爬坡均有沿特征集多面體(Characteristic Imset Polytope, CIMp)的貪婪邊行走的幾何實現,進一步對CIMp的邊緣進行了識別,并嚴格概括這些算法的走法。利用這種泛化,引入了一種稱為貪心特征集CIM算法,以及一種混合變體骨架貪心CIM,進行因果關系發現。在現實場景中經常出現隱變量未觀察到的情況,針對隱變量問題, 蔡瑞初等人提出一種基于混淆因子隱壓縮表示模型的因果推斷方法[20]。該方法根據混淆因子隱壓縮表示(Confounder Hidden Compact Representation, CHCR)模型先構造出中間隱變量的備選模型,然后使用貝葉斯信息準則(Bayesian Information Criterion, BIC)計算備選模型的評分,并篩選出得分最高的模型,最后根據得分最高模型中的壓縮情況對變量之間的因果關系進行判斷。當存在潛在混雜因素和選擇偏差的情況下,Rohekar 等人[21]提出了一種迭代因果發現 (Iterative Causal Discovery, ICD) 算法,該算法依賴于因果馬爾可夫和可靠性假設,發現潛在的因果圖等價類,從一個完整的圖開始,由單個迭代階段組成,通過識別連接節點之間的條件獨立,并逐步完善整個圖。
通常,基于約束的因果發現算法都是基于馬爾可夫假設的,當出現馬爾可夫等價類時,算法只能推斷出部分可能的因果關系而無法進行精準推斷。基于因果函數模型的方法以結構函數模型(Structural Equation Model,SEM)[1]為基礎,從數據產生的機制出發,利用因果函數模型識別變量之間的因果方向,主要以線性非高斯無環模型(Linear Non-Gaussian Acyclic Model, LiNGAM)[22]、非線性條件下的加性噪聲模型(Additive Noise Model, ANM)[23]和后非線性模型(Post-NonLinear, PNL)[24]等為代表。從觀測數據中識別因果結構是NP-hard問題,主要原因在于組合無循環約束難以有效實施。針對這一問題,大多數現有的因果發現方法主要依賴于局部啟發式算法加強非循環性,如貪婪等價搜索算法(Greedy Equivalence Search,GES)[25]在迭代地添加每一條邊時都會顯式地檢查是否滿足有向無環圖(Directed Acyclic Graph, DAG)約束條件。Zheng等人[26]針對上述無環約束條件,在線性數據模型上提出等價可微分函數,將該問題轉化為一個帶權值的鄰接矩陣連續優化問題,再運用神經網絡結構對因果關系建模。上述NOTEARS(Non-combinatorial Optimization via Trace Exponential and Augmented lagRangian for Structure learning)方法,盡管在可擴展性方面取得了一定的成功,但當變量在真實數據中攜帶異構噪聲時,優化目標與學習因果圖的正確性并不總是完全一致。為了解決這一問題,He等人[27]提出一種新的可微方法DARING(Differentiable Adversarial Residual INdependence for causal Graphs),即以對抗性方式施加顯式的殘差獨立性約束。通過仿真和真實數據的大量實驗,結果表明該方法對外部噪聲的異質性不敏感,可以顯著提高因果發現性能。這些研究使得從觀測數據中對DAG進行有效的最大似然點估計成為可能。然而,在實際應用場景中,真實的DAG不可識別或觀測數據集有限會導致點估計不能準確地捕捉、推斷底層圖的不確定性。Cundy等人[28]提出貝葉斯因果發現網(Bayesian Causal Discovery Nets),用于估計描述線性-高斯SEM的DAG上的數據分布。此外,Kalainathan等人[29]提出一種因果圖對抗學習的結構未知模型(Structural Agnostic Model, SAM),該方法對每個變量應用單獨的生成模型,并采用鑒別器進行區分真實樣本和生成樣本的聯合分布。截止目前,上述該類方法或者需要通過約束優化加強因果圖的無環性,或者缺乏收斂保證。為此,Lippe等人提出一種有效的結構學習方法ENCO(Efficient Neural Causal Optimization)[30],它將圖搜索定義為一種獨立邊緣可能性的優化,邊緣方向建模為一個單獨的參數,并且不需要對評分函數進行無環性約束。經實驗驗證,該方法能夠有效地恢復具有數百個節點的因果圖,同時能夠處理確定性變量和潛在的混雜因素。因果關系發現算法通常都是完全基于觀察數據的,并不適用于存在隱變量的情況,針對觀察數據中存在隱變量的的情況,Tashiro等人在LiNGAM模型的基礎上通過引入隱變量,提出了稀疏線性非高斯無環模型ParceLiNGAM[31]算法,該算法主要通過檢驗估計回歸殘差與外生變量的獨立性,找到未被隱變量所影響的變量子集進而發現隱變量。這些模型研究的是存在隱變量的情況下發現可觀察變量的因果結構,并不能發現隱變量的因果結構。Kivva等人[32]研究如何恢復隱變量的因果結構,允許變量之間存在一般的、潛在的非線性依賴關系,并在給出可識別性的前提條件下,潛在的表征和潛在的因果模型都可以通過一個混合預言(Mixture Oracle)進行被識別。針對目前基于神經網絡的因果關系檢測方法對高維生物數據的可解釋性差,Dong等[33]提出時空數據的Granger特征選擇,通過一個神經網絡識別高維時空數據的稀疏Granger因果關系機制。
隨著因果函數模型研究的不斷深入,研究者將現有方法與因果函數模型相結合,產生了一種混合的因果關系發現方法,有效地改進了因果函數模型存在的不足,克服了高維數據誤發現率難以控制的問題。該類算法主要有SADA框架(Scalable Ausation Discovery Algorithm)[34]、SMRP(Sophisticated Merging over Random Partitions)[35]和SELF框架(Structural Equational Likelihood Framework)[36]。
強化學習(Reinforcement Learning,RL)[37]和因果推斷是當今人工智能研究領域不可缺少的部分,發揮著至關重要的作用。強化學習的輸出結果通常是關聯關系,即給定一個狀態,選擇一個最優的動作。這在決策場景中與因果推斷有些相似,因為強化學習也關注于行為和結果之間的因果關系,即某個動作導致了某個結果。然而,在一些其他領域,如效應估計和因果發現,強化學習并不能像深度學習模型一樣接近因果推斷的效果。強化學習和因果結合方式主要分為兩類:一是在強化學習中解和因果發現,例如,智能體可以學習環境的因果模型;二是學習使用因果模型進行規劃和行動[38]。近年來,強化學習在從觀察數據中發現因果關系方面取得了很好的成果。Madumal等人[39]提出了一種通過強化學習學習結構因果模型的方法,該方法能夠表示變量之間的因果關系,并且可以根據因果模型的反事實分析生成對智能體行為的解釋。該方法在實際問題中表現較好,但缺點在于因果模型需事先給定。Wang等人[40]提出一種變量序和強化學習相結合的因果發現方法,該方法將排序搜索問題定義為一個多步馬爾可夫決策過程,利用編碼器-解碼器架構實現排序生成過程,針對每個排序設計的獎勵機制基于RL進行模型優化,并使用變量選擇處理生成的排序,以獲得最終的因果圖。Zhu等人[41]提出了基于RL的因果發現方法,使用強化學習作為搜索策略搜索得分最高的DAG。但是該方法在準確率和性能上存在一定問題:從觀察數據中估計DAG結構是一個具有挑戰性的問題,因為DAG的搜索空間是組合的,并且隨著節點數量超指數擴展;另一方面,它使用強化學習Aactor-Ccritic算法,但因其本身存在難收斂的缺陷,進而導致Zhu等人提出的基于強化學習的因果發現算法存在收斂速度慢、收斂效果差的問題。
針對上述算法存在的問題,這里提出一種異步策略的強化因果發現方法,主要研究工作如下:
1)針對從聯合分布的樣本中學習可靠有向無環圖這一具有挑戰性的組合問題,在將結構學習問題描述為一個實矩陣連續優化問題的基礎上,改進結構約束,在避免矩陣指數計算的同時,可以保證學習到的因果結構圖更加可靠;
2)針對基于策略梯度強化因果發現方法存在評價指標不好、收斂速度慢和效果差等問題,使用異步優勢Actor-Critic(Asynchronous Advantage Actor-Critic)算法A3C[42],通過計算N個worker網絡的梯度分別去更新全局神經網絡模型參數,保證其不斷朝好的方向發展,無限趨近真實的因果關系圖;
3)通過合成數據集與真實數據集Sachs上的實驗研究,驗證了改進后的結構約束能夠確保學習的因果圖為有向無環,異步策略強化學習算法可以有效解決策略梯度強化因果發現算法中存在的問題,提高了強化因果發現算法的性能。
1強化因果發現方法
強化因果發現方法A3C算法作為搜索策略應用到因果發現算法中,異步策略的強化因果發現框圖如圖1所示。
由圖1可知,該框架分為兩個部分:全局網絡和n個worker線程。全局網絡是一個全局的神經網絡模型,主要包括Actor、Reward和Critic三部分,其中,Actor自注意力機制的編碼器模型和單層解碼器模型探索數據之間的因果關系,輸出圖的鄰接矩陣,并利用Critic計算的最優價值迭代更新策略參數,用于生成獎勵更高的DAG;Reward由評分函數和結構約束兩部分構成,用于計算Actor輸出圖的獎勵;Critic計算Actor的最優價值,且根據得到的反饋Reward和新的狀態后更新自身網絡參數。最后輸出的DAG是獲得獎勵最大的因果圖;n個worker線程內的網絡結構與全局網絡一致,每個worker線程都與環境進行交互,且各個線程之間相互獨立運行。當線程與環境進行交互得到一定量的經驗數據后,會計算各自線程里的神經網絡模型損失函數的梯度,該計算結果并不是用來更新自己線程里的神經網絡模型,而是用于更新全局網絡里的神經網絡模型。每次更新完全局網絡后,都把worker網絡與全局網絡進行同步,則在下次worker返回梯度時,比較的是全局網絡與環境互動的梯度,從而保障了全局網絡不斷朝好的方向發展。
2模型定義
正文內容假設數據生成模型如下:給定一個有向無環圖,每個節點i對應一個隨機變量xi,變量觀測值為圖中父變量的函數fi加上一個獨立噪聲ni,且噪聲是聯合獨立的,即
xi:=fi(Xpa(i))+ni,i=1,2,…,d,(1)
其中, Xpa(i)表示父變量Xj的集合,使得有向無環圖中存在Xj到Xi的邊。在不進一步假設函數和噪聲的情況下,上述模型只能在馬爾可夫性和忠實性假設下被識別為馬爾科夫等價類。如果函數fi均為線性,噪聲ni均為高斯分布時,則上述模型為高斯噪聲的線性模型。如果函數fi均為線性,但噪聲ni為非高斯分布時,則模型為非高斯噪聲的線性模型,在一定條件下可以識別出真實的DAG。
5結構約束改進
當事件或現象存在循環的因果關系、缺乏信息和復雜的因果鏈情況時,會造成因果圖存在環結構,從而導致事件之間的因果關系不清晰,也無法唯一確定一個因果順序。因此,通過因果結構約束保證學習的因果圖是DAG,便于因果推斷和推理,避免混淆和偏差,利于模型簡化和解釋。為此,這里將結構學習問題描述為一個在實矩陣上的連續優化問題,對無環條件等價于可微分函數進行改進,并將結構無環約束加入到評分函數中,顯式強制其無環性。
無論是最大化證據下界,還是最小化最小二乘損失,都無法保證鄰接矩陣A是無環的。針對此問題,NOTEARS算法將損失函數與等式約束配對,這種處理措施保證了因果圖的非循環性,結構約束表達式如下:
h(A)=trace(eA)-d=0,(7)
其中,eA是A的矩陣指數。
在該算法的基礎上,針對高斯噪聲的非線性模型以及因果發現準確性不高的問題,進行以下改進,詳情見定理1和定理2。對于非負鄰接矩陣A的第K次冪的(i,j)元素,若為正數則表明節點i和j之間存在一條長度為K的路徑。據此,AK對角線為正數時,則表明存在循環結構。利用矩陣指數可以泰勒級數展開的方法,矩陣指數可以表示為矩陣所有非負整數冪的加權和。矩陣零次冪的系數是1,因此對于DAG相應的非負鄰接矩陣A的指數軌跡必須等于d,才能確保因果圖是無環的。同時,為了滿足非負性,令A=AA。
定理1設A∈Rd×d表示有向圖的(可能是負的)加權鄰接矩陣。對任何αgt;0,當且僅當滿足h(A)=tr[(I+αAA)d]-d=0,(8)時,得到的是有向無環圖。
從觀測數據中識別因果結構是NP-hard問題,主要是因為組合無循環約束難以有效實施。可以將該問題轉化為一個帶權值的鄰接矩陣連續優化問題,使用式(8)作為無環條件的等式約束,保證因果圖無環。當矩陣A的特征值較大時,(I+αA)d和exp(A)的計算都會遇到數值上的困難,基于式(8)無環條件的等式約束,可以通過合理選擇系數α,使得該無環約束計算比未改進的更容易。
定理2設常數c,α=c/dgt;0,則對于任何復數λ,滿足以下計算公式:
(1+α|λ|)d≤ec|λ|。(9)
在實際應用中,α可以視為一個超參數,其設置依賴于A的最大特征值的估計。這個值是A的譜半徑r(A),具有非負性,根據Perron-Frobenius定理,它受A每一行元素之和的最大值限制。在實驗中,設置α=1/d,實驗結果表明,該方法不僅提高了搜索能力,而且在非循環約束下提高了因果發現的準確率和評價指標。
盡管NOTEARS算法的非循環約束的表述在數學上是優雅的,但并不是所有的深度學習平臺都支持矩陣指數,本文使用的結構約束能夠簡化編碼。
6網絡參數優化
設π(·|s)和ψ分別表示圖生成的策略參數和神經網絡參數,預期獎勵表達式為
J(|ψ|s)=EA~π(·|s)·
{-[S(G)+λ1I(GDAGs)+λ2h(A)]},(10)
這里采用策略梯度和隨機優化方法對模型ψ參數進行優化。其中,梯度ψJψs可以由蒙特卡洛策略梯度算法得到。設置B樣本s1,s2,…,sB作為批處理估計梯度,然后通過Adam等[43]隨機優化方法訓練神經網絡。模型中的Critic是一個簡單的兩層前饋神經網絡,帶有ReLU單元,輸入為編碼器輸出ecdidi=1。A3C強化學習算法可以采用異步多線程并發地訓練強化因果學習網絡,其中任意一個線程的算法流程如下。
算法1異步策略的強化因果發現算法
輸入:設置最大迭代次數:Tmax;得分函數參數:S1, SU和S0;權重參數:λ1、Δ1、λ2、Δ2,Λ2;參數更新的迭代數:t0;線程個數:N,全局部分的A3C神經網絡參數φ,ω。
輸出:全局網絡A3C算法的神經網絡參數ω。
1重新設置Actor網絡和Critic網絡的梯度更新量:dφ←0,dω←0
2將全局網絡部分的神經網絡參數同步到本線程的神經網絡
3for t = 1,2,…,Tmax
4執行Actor-Critic算法,
5計算h(A)h(A)、S(G)、Reward
6評分更新:S0(S-SL)/(SU-SL)→S
7if t ( mod ) t0 then
8if最大reward有對應評分Smin的DAG then
9更新min (SU,Smin)SU
10end if
11更新minλ1+Δ1,SU→λ1、minλ2Δ2,Λ2 →λ2
12根據更新的λ1、λ2更新Reward
13end if
14計算Actor網絡和Critic網絡的本地梯度更新
15更新全局神經網絡模型的參數
16end for
在上述算法中,Δ1和Δ2分別表示與λ1和λ2相關的更新參數,t0表示更新頻率。權值λ2的更新方式與NOTEARS使用的拉格朗日乘數的更新規則類似,且令Λ2為λ2的上界。該算法使用BIC作為評分函數,評分函數下限SL由一個完全有向圖得到,而其上限SU由一個空圖得到。由于帶有空圖的SU對于大型圖可能非常高,可以通過跟蹤訓練中生成的DAG取得的最低分數進行更新,其他參數設置與Zhu等提出的因果發現算法一致。
與此同時,因果圖可能包含實際不存在的虛假因果關系,需要對此進行刪減處理,通常可以根據回歸性能或評分函數對因果圖的邊采用貪心策略進行修剪。在因果推斷的關系中,刪除一個父變量,計算相應的結果圖性能,同時保持其他因果關系不變。如果此時性能沒有下降或在預定義的容忍范圍內,則接受該連邊的修剪;基于這種操作,在修剪后的因果關系中重復該過程,直至迭代次數結束。而對于線性模型,修剪可以根據閾值估計系數直接完成。
7實驗研究
為了檢驗異步策略的強化因果發現方法的有效性,分別在高斯噪聲的線性模型、非高斯噪聲的線性模型和高斯噪聲的非線性模型的合成數據集和真實數據集上進行應用實驗與結果分析。
7.1實驗環境
本文方法在Intel Xeon Gold 5222 3.80GHz CPU、16GB內存、Ubuntu 18.04.5(64-bit)的操作系統、TensorFlow 1.13.1以及Python 3.6.15的編程環境下進行實驗研究。
7.2實驗設置與結果分析
在實驗中,改進結構約束后根據高斯加性噪聲方差是否相等分為兩類,即噪聲方差不等RL-DAG和噪聲方差相等RL-DAG1;在改進結構約束的基礎上利用異步優勢的Actor-Critic算法更新神經網絡參數,根據高斯加性噪聲方差是否相等,分別記為A3C-CD(噪聲方差不等)、A3C-CD1(噪聲方差相等),且在基于高斯噪聲的線性模型、非高斯噪聲的線性模型和高斯噪聲的非線性模型的合成數據集上進行實驗驗證時將線程個數設置為6,在真實數據集Sachs進行實驗驗證時將線程個數設置為12,其他參數設置不變。
基于結構約束改進的強化因果發現方法與傳統方法PC、GES、ICA-LiNGAM 和 CAM[44]以及近期基于梯度的方法NOTEARS、DAG-GNN[45]和 GraN-DAG[46]在常用的數據集上進行了實驗對比。這里采用三個指標評估學習到的圖結構:錯誤發現率(False Discovery Rate, FDR)、真陽性率(True Positive Rate, TPR)和結構漢明距離(Structural Hamming Distance, SHD)。關于模型修剪,對ICA-LiNGAM、NOTEARS和DAG-GNN使用相同的閾值方法;而在CAM和GraN-DAG中采用基于廣義可加模型的協變量顯著性檢驗方法,當報告的p值小于或等于0.001時聲明顯著性。已有研究表明,后一種方法應用效果更好,因此這里采用與CAM和GraN-DAG相同的修剪方法。
1)高斯噪聲的線性模型和非高斯噪聲的線性模型合成數據集
給定變量數量d,生成一個d×d的上三角矩陣作為圖二進制鄰接矩陣,該鄰接矩陣上三角形部分的元素獨立地從Bern(0.5)進行采樣,并通過獨立的均勻分布 ([-2,-0.5]∪[0.5,2])分配邊的權值,得到一個權值矩陣W∈Rd×d。然后,分別從高斯和非高斯噪聲的線性模型中采樣x=WTx+n∈Rd。其中,高斯噪聲與ICA-LiNGAM所使用的噪聲相同,從高斯分布中產生樣本,而非高斯噪聲則通過冪非線性操作獲得。在這兩個模型中選取單位噪聲方差,并生成m=5 000個樣本作為數據集,并對變量進行隨機排列。這種數據生成過程類似于NOTEARS和DAG-GNN過程,兩種情況下的真實因果圖都是已知可識別的。首先,考慮d=12個節點的圖,使用n=64構建輸入樣本,并將最大迭代次數設置為20 000次;然后,使用基于該數據模型的NOTEARS和DAG-GNN相同的閾值修剪估計的邊。
表1表示在高斯噪聲的線性模型數據集上的實驗結果。在表1中,基于PC和GES方法的實驗結果表現很差,原因是在數據生成過程中考慮的圖比較密集,而CAM結果不好是因為它假設非線性因果關系,致使其無法準確學習線性數據因果關系。當噪聲方差相等時,在高斯噪聲的線性模型中,RL-DAG1、A3C-CD1仍然能夠達到與RL-BIC2相同的實驗效果,即真陽性率為100%,錯誤發現率和結構漢明距離為0,這說明它能夠準確地學習高斯噪聲的線性模型數據中存在的因果關系;改進結構約束能夠確保學習的因果圖為有向無環,更趨近于真實的因果圖,當噪聲方差不等時,RL-DAG的真陽性率比ICA-LiNGAM高5%,結構漢明距離低28.8;RL-DAG與RL-BIC相比,其真陽性率高12%,結構漢明距離降低4.8。使用A3C算法后,A3C-CD明顯比RL-BIC、RL-DAG達到更好的實驗效果,與RL-DAG相比,其真陽性率從78%提升至82%,結構漢明距離從17.4降至16.6,錯誤發現率降低4%。因此,根據上述模型的實驗結果,驗證了本文方法比Zhu等人的方法無論是在準確率還是在評價指標上都有明顯的提高,可以證明除NOTEARS、DAG-GNN方法外,在高斯噪聲的線性模型數據上本文方法的優越性能。
圖2、圖3分別展示了將異步優勢Actor-Critic強化學習算法作為搜索策略,彌補基于結構約束改進的強化因果發現方法中Actor-Critic本身存在難收斂的缺陷,據此給出A3C-CD、A3C-CD1方法在高斯噪聲的線性模型數據集上的的學習過程對比結果。在圖2、圖3中,(a)分別表示在噪聲方差不等和噪聲方差相等情況下,A3C-CD、A3C-CD1與RL-DAG、RL-DAG1在運行過程中所獲得的最大獎勵對比結果。據此可知,當迭代次數設置一致時,A3C-CD、A3C-CD1圖矩陣獲得的最大獎勵依次比RL-DAG、RL-DAG1更大,并且在學習過程中,從整體上看使用A3C后的方法比原方法的收斂速度更快、收斂效果更好,解決了基于結構約束改進的因果發現方法中存在的收斂問題,完全展現出了A3C強化學習算法的優勢。在圖2、圖3中,(b)和(c)分別表示A3C-CD、A3C-CD1在獎勵計算過程中,獎勵參數的更新過程對比結果,從(b)可以看出,使用A3C算法的因果發現方法在計算獎勵時,獎勵參數的收斂速度更快。從高斯噪聲的線性模型數據上看,異步策略的強化因果發現方法在準確率、評價指標以及在學習過程中的收斂速度和收斂效果都有很大提升,與其他方法相比具有明顯的競爭力。
在非高斯噪聲的線性模型數據集上的實驗結果如表2所示。從表1、表2可以看出,ICA-LiNGAM在高斯噪聲的線性模型數據上表現較差,這是因為ICA-LiNGAM適用于非高斯噪聲,因此不能為高斯噪聲的線性模型數據集提供可靠的技術保證。NOTEARS和DAG-GNN的因果發現結果準確率比較高,但GraN-DAG的結果很差,這是因為GraN-DAG使用兩層前饋神經網絡建模因果關系,在本實驗中可能無法學習到良好的線性關系。對于Zhu等人提出的方法,可以觀察到RL-BIC2在實驗中能恢復兩個數據模型的所有真實因果圖,但是RL-BIC的性能較差。Zhu等人已經證明,當進行隨機采樣噪聲時,RL-BIC2仍然在很大程度上優于RL-BIC,明確了RL-BIC2在上述兩個模型數據中之所以表現很好并不是因為使用的噪聲方差相等。
表2中的實驗結果表明,當噪聲方差相等時,A3C-CD1與RL-DAG、RL-BIC2實驗效果相同;改進結構約束后,RL-DAG的真陽性率比RL-BIC高10%,結構漢明距離減少2.9。A3C-CD與RL-DAG相比,真陽性率從81%提升至85%,而結構漢明距離從14.5降至13.4。上述實驗結果表明,在非高斯噪聲的線性模型數據上,本文方法與其他方法相比仍具有很大的競爭力。
圖4、圖5分別展示了A3C-CD、A3C-CD1在非高斯噪聲的線性模型數據上的學習效果。上述兩圖中(a)分別表示在噪聲方差不等和噪聲方差相等情況下,A3C-CD、A3C-CD1與RL-DAG、RL-DAG1在運行過程中獲得的最大獎勵的對比結果,(b)和(c)分別表示A3C-CD、A3C-CD1在學習過程中獎勵參數的更新過程。圖4中(a)表明A3C-CD比RL-DAG在學習過程中獲得的最大獎勵更大,且收斂速度和收斂效果更好。由實驗結果可知,異步策略的強化因果發現方法在收斂速度和收斂效果上均具有明顯的提升,而且能保證學習到更大獎勵的因果圖。
2)高斯噪聲的非線性模型合成數據集
給定一個隨機生成的因果圖,其中每個因果關系fi是一個采樣自高斯過程的函數,徑向基函數核帶寬為1。加性噪聲ni服從正態分布,其方差從均勻分布中進行抽樣。據Peters等人[47]的研究可知,該設置可識別,Lachapelle等人[46]也考慮過同樣的設置方法,但具體參數不完全相同:10節點和40邊圖,1 000個生成樣本。
高斯噪聲的非線性模型的實驗結果如表3所示。ICA-LiNGAM、NOTEARS和DAG-GNN在這個數據模型上表現很差,原因是它們無法建立因果關系模型。NOTEARS將從觀察數據中估計DAG結構問題表述為具有結構約束的連續優化問題,確保無環性,雖然在統計上得到了很好的證明,但對非線性生成的樣本學習有限。因此,采用改進后的結構約束后,當噪聲方差相等時,RL-DAG1的真陽性率提升了4%,結構漢明距離降低3.8,A3C-CD的真陽性率從84%提升至87%,結構漢明距離減少0.2,錯誤發現率降低4%;當噪聲方差不等時,A3C-CD1真陽性率從87%提升至91%,結構漢明距離減少0.3。該實驗結果表明,除RL-BIC外,異步策略的強化因果發現方法在這種模型數據上表現出色,優于傳統的因果發現方法和目前主流的基于強化學習的因果發現方法。
在高斯噪聲的非線性模型數據集上A3C-CD、A3C-CD1與 RL-DAG、RL-DAG1的實驗對比結果如圖6和圖7所示。從下述兩圖可以看出,A3C-CD、A3C-CD1的收斂效果比RL-DAG、RL-DAG1更顯著,且收斂速度更快。
3)真實數據集
為了評估RL-DAG、RL-DAG1、A3C-DAG和A3C-DAG1在實際應用中的表現,考慮一個真實的數據集,基于蛋白質和磷脂表達水平的蛋白質信號網絡,該數據集提供了對人類免疫系統中多種磷酸化蛋白和磷脂成分的表達水平的連續測量。這個來自生物學界的數據集是圖形模型中的一個常見基準,包含觀察性和介入性數據。Sachs等人[48]給出的真實因果圖有11個節點和17條邊,本文只考慮n = 853樣本的觀測數據。在這個基準數據集中,與NOTEARS、NOTEARS-MLP、DAG-GNN、GraN-DAG、RL-BIC、RL-BIC2和GOLEM方法,ICA-LiNGAM和組合方法CAM,以及最近提出的DARING方法進行實驗對比。因為真正的因果圖非常稀疏,空圖可以在 SHD 中低至 17,實驗結果報告了關于估計圖的更詳細的信息:總邊數、正確邊數和SHD。
改進結構約束后,實驗結果如表4所示,當噪聲方差不等時, RL-DAG與RL-BIC學習到的DAG總邊數均為10,但學習的正確邊增加1條,且結構漢明距離從12降至11;當噪聲方差相等時,RL-DAG1比RL-BIC2學習到的總邊數少1,正確邊數一致,且結構漢明距離降低1。
從圖8中可以看出,A3C-CD與RL-DAG相比運行過程中最大獎勵的收斂速度和收斂效果有了很大提升;并且表4中的實驗結果說明,在Sachs數據集中,A3C與RL-BIC、RL-DAG發現的總邊數均為10,但發現的正確變數增加1,SHD減小1。圖9顯示A3C-CD1比RL-DAG1收斂速度更快、收斂效果更好,從實驗結果表4中可以看出, A3C-CD1和RL-DAG1發現的總邊數均為9,比RL-BIC2發現的總邊數少1,但是A3C-CD1發現的邊全是正確邊,說明其真陽性率為100%,且SHD最小。通過在真實數據中的實驗研究,結果證明了A3C-CD、A3C-CD1方法的有效性。而且,與其他方法相比,它們具有相當大的競爭力。
8結語
本文提出的異步策略的強化因果發現方法在合成與真實數據集上的實驗及其算法對比均取得了良好效果。展望下一步研究工作,異步策略的強化因果發現方法還可以在如下方面進行深入改進與完善:首先,該因果發現算法局限于小規模問題,這是因為有向圖的搜索空間對大規模問題來說是非常大的,很難有效地進行完全搜索;其次,實驗中使用的總迭代次數往往超過了訓練需要的實際次數,因此需要進一步研究當模型訓練在達到一定收斂程度時,如何能夠讓其自動終止。
參考文獻
[1]GLYMOUR M, PEARL J, JEWELL N P. Causal inference in statistics: a primer[M]. Hoboken, USA: John Wiley amp; Sons, Inc., 2016: 1-29.
[2]PEARL J, MACKENZIE D. The book of why: the new science of cause and effect[M]. New York: Basic Books, 2018: 1-38.
[3]趙鐵軍, 孫玲玲, 牛益國, 等. 基于改進非參數核密度估計的光伏出力概率分布建模方法[J]. 燕山大學學報, 2021, 45(5):430-437.
ZHAO T J, SUN L L, NIU Y G, et al. Photovoltaic output modeling based on improved non-parametric kernel density estimation[J]. Journal of Yanshan University, 2021, 45(5):430-437.
[4]CUI P, SUSAN A. Stable learning establishes some common ground between causal inference and machine learning[J]. Nature Machine Intelligence, 2022, 4: 110-115.
[5]FERRARI E, GARGANI L, BARBIERI G, et al. A causal learning framework for the analysis and interpretation of COVID-19 clinical data[J]. PLoS ONE, 2022, 17(5): 1-21.
[6]NOGUEIRA A R, PUGNANA A, RUGGIERI S, et al. Methods and tools for causal discovery and causal inference[J]. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2022, 12(2): 1-39.
[7]LI R, PENG H, LI R, et al. Overview on algorithms and applications for reinforcement learning[J]. Computer Systems and Applications, 2020, 29(12): 13-25.
[8]蔡瑞初,陳薇,張坤,等. 基于非時序觀察數據的因果關系發現綜述[J]. 計算機學報, 2017, 40(6): 1470-1490.
CAI R C, CHEN W, ZHANG K, et al. A survey on non-temporal series observational data based causal discovery[J]. Chinses Journal of Computers, 2017, 40(6): 1470-1490.
[9] HERNAN M A, ROBINS J M. Causal inference: what if[M]. Boca Raton: Chapman amp; Hall/CRC, 2020:102.
[10]RUBIN D B. Estimating causal effects of treatments in randomized and nonrandomized studies[J]. Journal of Educational Psychology, 1974, 66(5): 688.
[11]LITTLE R J A, DONALD B R. Statistical analysis with missing data[M]. Hoboken, USA: John Wiley amp; Sons, Inc., 2019.
[12]NEYMAN J. Outline of a theory of statistical estimation based on the classical theory of probability[J]. Philosophical Transactions of the Royal Society of London Series A:Mathematical and Physical Sciences, 1937, 236(767): 333-380.
[13]NEYMAN J, PEARSON E S. On the use and interpretation of certain test criteria for purposes of statistical inference: Part I[J]. Biometrika, 1928, 20(1/2): 175-240.
[14]NEYMAN J, PEARSON E S. On the problem of the most efficient tests of statistical hypotheses[J]. Philosophical Transactions of the Royal Society of London Series A:Mathematical and Physical Sciences, 1933, 231: 289-337.
[15]SPIRTES P, GLYMOUR C N, SCHEINES R. Causation, prediction, and search[M]. 2nd ed. Cambridge: MIT Press, 2000: 73-123.
[16]VERMA T, PEARL J. Equivalence and synthesis of causal models[C]//Proceedings of the 6th Conference on Uncertainty in Artificial Intelligence, New York,USA,1990: 220-227.
[17]TSAMARDINOS I, BROWN L E, ALIFERIS C F. The max-min hill-climbing Bayesian network structure learning algorithm[J]. Machine Learning, 2006, 65(1): 31-78.
[18]TSAMARDINOS I, ALIFERIS C F, STATNIKOV A. Time and sample efficient discovery of Markov blankets and direct causal relations[C]// Proceedings of the Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York,USA,2003: 673-678.
[19]LINUSSON S, REATADH P, SOLUS L. Greedy causal discovery is geometric[J]. SIAM Journal on Discrete Mathematics, 2023, 37(1): 233-252.
[20]蔡瑞初, 白一鳴, 喬杰,等. 基于混淆因子隱壓縮表示模型的因果推斷方法[J]. 計算機應用, 2021, 41(10): 2793-2798.
CAI R C, BAI Y M, QIAO J, et al. Causal inference method based on confounder hidden compact representation model[J]. Journal of Computer Applications, 2021, 41(10): 2793-2798.
[21]ROHEKAR R Y, NISIMOV S, GURWICZ Y, et al. Iterative causal discovery in the possible presence of latent confounders and selection bias[J]. Advances in Neural Information Processing Systems, 2021, 34: 2454-2465.
[22]HOYER P, JANZING D, MOOIJ J M, et al. Nonlinear causal discovery with additive noise models[J]. Advances in Neural Information Processing Systems, 2008, 21: 689-696.
[23]PETERS J, JANZING D, SCHLKOPF B. Causal inference on discrete data using additive noise models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(12): 2436-2450.
[24]ZHANG K, HYVRINEN A. On the identifiability of the post-nonlinear causal model[C]//Proceedings of the 25th Conference on Uncertainty in Artificial Intelligence, Virginia,USA, 2009: 647-655.
[25]CHICKERING D M. Optimal structure identification with greedy search[J]. Journal of Machine Learning Research, 2002, 3: 507-554.
[26]ZHENG X, ARAGAM B, RAVIKUMAR P, et al. DAGs with NO TEARS: continuous optimization for structure learning[J]. Journal of Machine Learning Research, 2018, 20(126): 1-51.
[27]HE Y, CUI P, SHEN Z, et al. DARING: differentiable causal discovery with residual independence[C]//The 27th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, New York,USA,2021: 596-605.
[28]CUNDY C, GROVER A, ERMON S. BCD Nets: scalable variational approaches for Bayesian causal discovery[J]. Advances in Neural Information Processing Systems, 2021, 34: 7095-7110.
[29]KALAINATHAN D, GOUDET O, GUYON I, et al. SAM: structural agnostic model, causal discovery and penalized adversarial learning[EB/OL]. (2018-03-13)[2023-06-27]. https://arxiv.org/abs/1803.04929.
[30] LIPPE P, COHEN T, GAVVES E. Efficient neural causal discovery without acyclicity constraints[EB/OL]. (2021-07-22)[2023-06-27]. https://arxiv.org/abs/2107.10483.
[31]TASHIRO T, SHIMIZU S, HYVRINEN A, et al. ParceLiNGAM: a causal ordering method robust against latent confounders[J]. Neural Computation, 2014, 26(1): 57-83.
[32]KIVVA B, RAJENDRAN G, RAVIKUMAR P, et al. Learning latent causal graphs via mixture oracles[J]. Advances in Neural Information Processing Systems, 2021, 34: 18087-18101.
[33]DONG M, KLUGER Y. GEASS: Neural causal feature selection for high-dimensional biological data[C]// Proceedings of the Eleventh International Conference on Learning Representations. Kigali: ICRL Press, 2023: 1-19.
[34]CAI R, ZHANG Z, HAO Z. SADA: a general framework to support robust causation discovery with theoretical guarantee[EB/OL]. (2017-07-05)[2023-06-27]. https://arxiv.org/abs/1707.01283.
[35]CAI R, ZHANG Z, HAO Z, et al. Sophisticated merging over random partitions: a scalable and robust causal discovery approach[J]. IEEE Transactions on Neural Networks and Learning Systems, 2017, 29(8): 3623-3635.
[36]CAI R, QIAO J, ZHANG Z, et al. SELF: structural equational likelihood framework for causal discovery[C]// Proceedings of the AAAI Conference on Artificial Intelligence,New Orleans,USA,2018: 1787-1794.
[37] SUTTON R S, BARTO A G. Introduction to reinforcement learning[M]. Cambridge: MIT Press, 1998: 223-260.
[38]SCHLKOPF B, LOCATELLO F, BAUER S, et al. Towards causal representation learning[J]. Proceedings of the IEEE, 2021,109(5): 612-63.
[39]MADUMAL P, MILLER T, SONENBERG L, et al. Explainable reinforcement learning through a causal lens[C]//Proceedings of the AAAI Conference on Artificial Intelligence, New York, USA, 2020,2493-2500.
[40]WANG X, DU Y, ZHU S, et al. Ordering-based causal discovery with reinforcement learning[C]//Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence, Montreal, Canada, 2021: 3566-3573.
[41]ZHU S, NG I, CHEN Z. Causal discovery with reinforcement learning[EB/OL]. (2019-06-11)[2023-06-27]. https://arxiv.org/abs/1906.04477.
[42]MNIH V, BADIA A P, MIRZA M, et al. Asynchronous methods for deep reinforcement learning[C]//Proceedings of the 33rd International Conference on Machine Learning, New York,USA, 2016: 1928-1937.
[43]KINGMA D, BA J. Adam: a method for stochastic optimization[EB/OL]. (2014-12-22)[2023-06-27]. https://arxiv.org/abs/1412.6980.
[44] BHLMANN P,PETERS J, ERNEST J. CAM: causal additive models, high-dimensional order search and penalized regression[J]. The Annals of Statistics, 2014,42(6): 2526-2556.
[45]YU Y, CHEN J, GAO T, et al. DAG-GNN: DAG structure learning with graph neural networks[C]// International Conference on Machine Learning, Long Beach,USA, 2019: 7154-7163.
[46]LACHAPELLE S, BROUILLARD P, DELEU T, et al. Gradient-based neural DAG learning[EB/OL]. (2019-06-05)[2023-06-27]. https://arxiv.org/abs/1906.02226.
[47]PETERS J, MOOIJ J, JANZING D, et al. Causal discovery with continuous additive noise models[J]. The Journal of Machine Learning Research, 2014, 15(1): 2009-2053.
[48]SACHS K, PEREZ O, et al. Causal protein-signaling networks derived from multiparameter single-cell data[J]. Science, 2005, 308(5721): 523-529.
A reinforcement causal discovery approach for asynchronous strategy
ZHANG Ying, GUO Hui
(College of Information Engineering, Ningxia University, Yinchuan, Ningxia 750021, China)
Abstract: The research and discovery of causality between things is one of the core issues in data science. Causal discovery usually faces problems such as super exponential growth of the search space, low evaluation index, slow rate of convergence and poor effect. To solve them, a reinforcement causal discovery method is proposed for asynchronous strategy. Firstly, a self-attentional encoder and a single-layer decoder model are used to explore the causal relationship between the data. Secondly, the structural constraints in the reinforcement learning model are improved, and the parameters of the network model are updated based on the asynchronous dominance algorithm. Finally, the directed acyclic graph with the maximum reward is given by searching. The good performance of this method has been verified through experimental comparison.
Keywords: causal relationship; directed acyclic graph; reinforcement causal discovery; structural constraint; asynchronous dominance algorithm