999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向知識圖譜和大語言模型的因果關系推斷綜述

2023-10-29 04:20:38馬新宇楊國利趙會群
計算機與生活 2023年10期
關鍵詞:文本方法模型

李 源,馬新宇,楊國利,趙會群,宋 威

1.北方工業大學 信息學院,北京 100144

2.北京大數據先進技術研究院,北京 100195

“因果關系”[1]是指存在于事件之間的一種關系,即“原因”與“結果”之間的對應關系,是一種重要的關系類型。一般來講,一個事件是很多原因綜合產生的結果,且原因都發生在較早時間點,而該事件又可成為其他事件的原因。與描述性或預測性任務不同,因果關系推斷旨在理解干預一個變量如何影響另一個變量[2]。

因果關系推斷作為一項重要的研究課題,在許多領域中有極高的應用價值。一旦做到真正理解因果關系背后的邏輯,即可在計算機上進行模擬,進而創造出一個“因果關系推斷專家系統”。這個系統將可能為解釋或發現未知的現象或規律,解決久而未解的科學問題,開發和設計新的實驗,并不斷地從環境中獲取更多的因果知識,進而為社會和民眾帶來福祉。例如:在數據庫領域,從文本數據中提取出事件的因果信息可以填充事件數據庫,為事件數據庫提供有價值的事件數據[3];在事件預測領域,因果關系推斷可應用于重大事件或突發事件的預測,有助于政府迅速做出反應和決策[4];在生物制藥領域,因果關系推斷可以用來識別藥物分子之間的相互作用或藥物分子對某疾病的治療效果及作用,以了解其性質和疾病的發病機制[5]。現如今,隨著越來越多的深度學習模型的誕生,模型的可解釋性也成為研究人員越來越關注的問題,因此研究模型輸入與輸出之間的因果關系可以增強模型的可解釋性[6]。總之,許多領域在未來都可以從因果關系推斷技術或系統中獲益。

傳統的因果關系推斷方法分為兩種:一是面向樣本數據的因果關系推斷。以隨機對照實驗為例,為了研究發現藥物的療效,患者將被隨機地分為治療組和對照組,通過比較兩組患者的平均結果來衡量藥物對某疾病的康復效果的影響[7]。二是面向文本語義分析進行因果關系發現。具體過程是首先通過自然語言處理技術,將文本數據轉換成可計算的形式,例如提取文本中的實體、關系等信息;然后利用機器學習、深度學習等技術對獲得的信息進行建模,得到變量之間的因果關系。

知識圖譜是一種用于表示實體關系的圖形結構,其中蘊含豐富的實體間的關系信息(例如因果關系信息)。大語言模型擁有海量參數,可以從上下文信息和對語義理解進行因果推斷。但在目前眾多有關因果關系推斷的文獻中[8],尚未涌現對知識圖譜和大模型因果關系推斷的總結性文獻。鑒于此,經過深入的調查研究(見表1),本文對面向知識圖譜和大模型的相關因果關系推斷方法進行總結,將傳統因果關系推斷方法進行了分類詳述,并對未來因果關系推斷的發展趨勢(如圖1)進行了詳細總結和對比。

表1 因果關系推斷相關文獻Table 1 Related literature on causality inference

本文對因果關系推斷的方法和模型進行了深入的分類討論。從多個關鍵方面出發,包括面向樣本數據、文本語料、知識圖譜以及大模型等,從而更加準確和詳盡地對因果關系推斷方法進行討論。(1)傳統的因果關系推斷方法:這一類方法主要分為面向樣本觀測數據和文本語料兩類。面向樣本數據的方法基于統計學原理,挖掘數據變量之間的因果關系;而面向文本語料的因果關系發現方法通過分析文本中的邏輯關系、因果信號和主題詞等,可以從大規模文本語料中挖掘出潛在的因果關系。(2)面向知識圖譜的因果關系推斷方法:知識圖譜是一種用于表示實體關系的圖狀結構,其中蘊含豐富的因果關系信息。基于知識圖譜的方法可以通過對圖譜中的實體和關系進行推理,揭示出潛在的因果聯系。這類方法有助于將外部領域知識融入因果關系推斷過程。(3)面向大語言模型的因果關系推斷方法:大模型可以從多源數據中學習因果關系的模式,利用上下文信息和語義理解進行推斷,從而提高因果關系的準確性和普適性。(4)知識圖譜與大模型相結合的因果關系推斷方法:旨在利用知識圖譜的結構信息和大型語言模型的文本理解能力來深入理解和推斷因果關系。

通過從以上幾個方面進行分類,能夠更全面地理解不同因果關系推斷方法的優勢和局限性。本文旨在為讀者提供一個系統性的視角,幫助研究此方向的學者以及對此方向感興趣的讀者能夠更好地把握因果關系推斷領域的發展趨勢和前沿動態。通過綜合考慮統計學、文本語料、知識圖譜和大語言模型等多個方面,本文希望能夠為因果關系推斷方法的討論提供更加深入和全面的內容,促進該領域的研究和發展。

1 因果關系推斷概述

早期因果關系推斷是在沒有實驗設計或者隨機分配的情況下,通過觀察變量之間的關系來推斷因果關系的方法。這種方法可以追溯到18世紀的哲學家大衛·休謀,他提出了“常見的連續性”(常見的聯系)的概念,即通常只能通過經驗觀察到兩個事件的關系,而無法知道其中一個事件是因果于另一個事件。

隨著統計學等學科的發展,一些早期的因果關系推斷方法逐漸得到了發展和完善,例如卡方檢驗[9]、Pearson相關系數[10]、多元回歸分析[11]等方法。這些方法都可以用于檢驗兩個或多個變量之間的關系(因果效應),并推斷其中的因果關系。但是,由于沒有實驗設計,這些方法并不能完全消除混淆變量的影響。因此,現代的因果推斷方法則更加嚴格,例如隨機化對照實驗、自然實驗和文本數據統計分析等。通過這些方法通常更能保證因果關系推斷的準確性。

本文從多個關鍵方面出發,包括面向樣本數據文本語料、知識圖譜以及大模型等,從而更加準確和詳盡地對因果關系推斷方法展開討論。

2 傳統因果關系推斷方法

傳統的因果關系推斷方法根據其面向的對象可以分為兩大類:面向樣本觀測數據和面向文本語料的方法。面向樣本觀測數據的因果關系推斷方法主要依賴于統計學相關技術來推斷因果關系[12]。這些方法建立在統計學的基礎上,基于假設,即如果兩個變量之間存在因果關系,那么它們之間必定存在一定的統計聯系。因此,通過分析這兩個變量之間的統計關系,可以得出它們之間可能存在因果關系的結論。而面向文本數據的因果關系推斷方法則側重于從文本中提取因果關系,通常需要進行一系列文本處理步驟,如分詞、詞性標注、實體識別等。接著,借助自然語言處理技術來分析文本中的語義信息,以發現其中隱藏的因果關系。這類方法通常需要倚賴領域知識和語言模型的支持,以更準確地提取和理解文本中的因果關系信息。

2.1 面向樣本觀測數據的因果關系推斷方法

在統計學領域,許多優秀學者為因果關系推斷的研究與發展做出了卓越貢獻,Fisher[13]及Neyman等[14]各自從統計學家的立場出發,分別提出了從潛在結果和隨機的視角來討論因果關系。Fisher提出了“隨機對照實驗”的概念,而Neyman 提出“潛在結果”并將其應用于隨機對照實驗。Rubin在文獻[15]中進一步結合了“潛在結果”和“隨機對照實驗”這兩個概念,系統性地提出了潛在結果模型的理論假設、核心內容和推理方法。Neyman 利用數學語言描述了潛在結果框架下的因果效應,Rubin將這一數學定義推廣到觀察性研究中。

隨機對照實驗是推斷因果關系的最高效的方式,將對象隨機分成兩組,并且控制兩組只有待驗證的變量不同,其他變量相同,觀察結果。在科學研究中,使用隨機分配機制將子對象分配給不同的治療組的隨機對照實驗作為建立因果關系的黃金標準有著悠久的歷史。然而,在許多情況下,隨機實驗在實踐中既不可行,也不符合倫理,因此研究人員需要依靠觀察數據來推斷因果關系,進而將隨機對照實驗方法進行了推廣。

推廣隨機對照實驗的一種常見方法是通過傾向評分。Rosenbaum 和Rubin 在文獻[16]中表明,如果治療分配沒有根據隨機變量的情況確定,那么它同樣沒有根據傾向評分確定,這表明根據傾向評分進行調整可以消除觀察性研究中的混淆。一旦估計了傾向得分,即可進一步應用匹配、分層和逆概率加權等方法進行因果關系推斷。

但是觀察性研究僅針對觀測數據進行觀察,以推斷變量間的因果效應,但這種方法不能由研究者決定是否針對某些研究對象采取干預或對照操作,并且如果忽略了協變量的作用,僅使用隨機對照實驗進行因果關系推斷就會產生偏差,這種偏差又稱為“混淆因素”。文獻[17]在相關關系的基礎上定義混淆因素為:假如兩個變量之間的相關關系受到第三個變量的影響,則稱第三個變量為混淆因素。文獻[2]則從潛在結果的角度出發對混淆因素進行了定義:p(Y1|X=1)=p(Y1|X=0)且p(Y0|X=1)=p(Y0|X=0),即若潛在結果Y0和Y1的分布情況與對照總體的潛在結果分布情況相同,則說明干預組與對照組之間無混淆因素干擾。因此觀察性研究不再滿足隨機對照實驗的條件。為了表述因果關系,Rubin 在文獻[18]中提出了一種潛在結果框架,其中一個重要概念為“因果效應”。因果效應是指在給定一些特定的干預措施(例如藥物或教育方案)下,響應變量(例如治愈率或考試成績)發生的變化。為了衡量這種效應,Rubin提出了一個符號體系來表述潛在結果框架:

其中,τ表示因果效應,E表示期望值,Y(i),i=0,1 表示潛在結果下的響應變量。

在實際應用中,由于無法同時觀察到Y(0) 和Y(1),需要利用統計學的方法來估計因果效應,從而進行因果關系推斷。然而潛在結果框架只能觀察和實現其中一個潛在結果,因此存在缺失數據的問題。并且當涉及到識別因果路徑或可視化因果網絡時,潛在結果框架具有自身的局限性。

因此,Munch等在文獻[19]中提出了一種交互式方法,從已知邊圖表示的任何給定相關領域建立概率關系模型。結合本體論和專家知識,定義了一組轉化為關系模式的約束。通過此關系模式可以學習概率關系模型,并可以應用因果關系推斷。此方法的主要思想是在給定因果約束下的學習概率模型,從學習到的模型中,提取因果知識。Yuan等在文獻[20]提出結構方程模型(structural equation model,SEM),研究可觀測變量與潛在變量,以及潛在變量之間關系。SEM是一種能夠把樣本數據間復雜的因果聯系用相應的模型方程表現出來并加以測量、進行分析的模型方法。結構方程模型針對一些數據本身不能直接詢問或測量得到,即所謂以潛在變量的形式,對數據模型進行估計的分析方法。結構方程模型包括兩個基本模型,分別為測量模型和結構模型,測量模型由潛在變量、觀測變量以及測量誤差項組成,主要分析潛在變量對觀測變量的影響效果。Awang等在文獻[21]中引入了非參數結構方程模型(non-parametric structural equation model,NPSEM),對結構方程模型和松弛的線性假設進行了調整。對于NPSEM,它允許研究人員更自由地探索變量之間的關系,而不受事先設定的參數假設的束縛。這有助于發現潛在的非線性關系、交互作用和因果關系,從而提供更準確和全面的分析結果。

面向圖模型的結構因果模型(structure causal model,SCM)是傳統因果推斷中最常用的模型之一。在文獻[22]中,Pearl詳細闡述了潛在結果模型與結構因果模型之間的等價性。相比之下,潛在結果模型更加精確地代表觀察數據,從而有助于推斷因果關系模型,而結構因果模型更加直觀。Pearl 在貝葉斯網絡領域提出了外部干預的概念,并為面向外部干預提供了一種形式化表達方法,這一概念開創了一種從數據中挖掘因果關系和理解數據生成機制的方法。因此,本節總結了因果圖模型方法以及面向知識圖譜的因果關系推斷相關的概念和方法。這些方法為人們更深入地理解因果關系提供了強大工具。

圖論是一種廣泛被應用的數學語言,它能夠直觀地描述事物之間的相互影響關系,并且可以通過簡單的計算解決因果問題。在數學中,有向圖[23]中節點X和Y之間的路徑是指從X開始到Y結束的一系列由邊連接的節點。路徑上的第一個節點稱為該路徑上所有節點的祖先節點,而其他節點則是祖先節點的后代節點[24]。如果路徑沿著箭頭方向追蹤,那么這條路徑就稱為有向路徑。當圖中存在一個節點存在回到自身的有向路徑時,這個圖被稱為有環圖,而沒有環的有向圖則稱為有向無環圖(directed acyclic graph,DAG)[25]。

結構因果模型是一種圖形表示的因果關系模型,可以描述一個或者多個變量之間的因果關系的圖形表示。形式上,SCM 可以表示為一個四元組,其中V 表示內生變量的集合,U 表示外生變量的集合,P(U)表示外生變量的分布,而F表示映射函數的集合。具體而言,對于?i∈F,模型χi:=F:=?i(Pa(χi),ui),i=1,2,…,d表示將值χi分配給其結構父變量Pa(χi)和外生變量ui的函數。對于每個SCM,可以通過為每個χi添加一個頂點,并從Pa(χi)(即因)指向χi(即果)的父變量添加有向邊,得到一個因果圖G 。

面向有向無環圖的結構因果模型[26]因果關系的推斷依賴于有向無環圖的三種基本路徑結構,即因果鏈條、共同原因和共同結果三種結構。因果鏈條結構可以表示為X→Y→Z,表示信息盡可以單向傳遞;共同原因結構X←Y→Z表示信息可以從中間節點傳遞給兩端節點;共同結果結構X→Y←Z表示中間節點同時接收兩端節點的消息。通過這三種結構(如圖2)可以將結構因果模型中任意路徑進行拆分,以至于考慮到結構因果模型中全部的因果路徑,從而可以準確推斷出因果關系。

Richardson和Robins等在文獻[27]中引入單一世界干預圖,該圖統一了圖形理論和潛在結果框架。具體來說,對于在系統中設置的XA=xA的任何干預,表示為G[X(XA=xA)]的單一世界干預圖可以從DAG中構造而來,從而進行因果關系推斷。該模型利用DAG表示隨機變量之間的因果關系,并引入干預變量的概念來描述針對某些變量進行的干預操作。SWIG(single world intervention graph)模型通過對DAG 上的治療節點進行“分裂”操作,形成新的圖形,該圖形上的節點對應于對治療變量進行干預后的反事實變量,即對于干預前原始的變量取值的替代值。Pearl[22]通過將結構方程和有向圖結合進行因果結構建模,并以此推斷因果關系。

傳統的面向圖模型的因果關系推斷方法可以分為兩類:第一類方法是面向條件獨立性關系,其代表性算法為(Peter Clark,PC)算法[28]、FCI(fast causal inference)算法[28]和GES(greedy equivalence search)算法[29]。這類方法通過判斷變量之間的條件獨立性來構建無向圖,然后通過一系列的步驟來判斷圖中邊的方向。第二類方法是面向結構方程模型的方法,其代表性模型為非時序線性非高斯(linear non-Gaussian acyclic model,LINGAM)模型、非線性加性噪聲(additive noise model,ANM)模型和后非線性因果模型(post-nonlinear causal model,PNL)。

PC算法的核心思想是面向條件獨立性關系來推斷DAG 的結構,并通過刪邊和方向傳播等操作來確定DAG 中邊的方向。PC 算法詳細步驟如下所示:(1)PC 算法從一個完整的無向圖G開始。(2)對于每一對變量i和j,算法逐個檢查當n=0,1,…,d-2 時,是否存在一些其他n個變量的條件使得i和j之間獨立。如果滿足條件,移除i和j之間的無向邊,并更新條件變量到分離集。算法繼續執行,得到修建后的骨架。(3)算法確定V-結構,從而獲得CPDAG(completed partially directed acyclic graph),并根據其他規則確定剩余的無向邊。PC算法在提取非時間數據中的因果關系時具有高效、可擴展性強等優點。同時在處理大規模數據時也能夠得到比較準確的結果。

同時,FCI算法是PC算法的一種改進,可以處理存在未知混淆變量的情況,能夠更加準確地推斷DAG 結構。FCI 算法的開始步驟類似于PC 算法,構建包含無向邊的完整圖,然后進行迭代條件獨立性測試來移除邊緣。FCI 算法利用Prossible-Dsep 和Sepsets 進行條件化時,首先移除獨立的邊緣。對剩下的邊應用10 個方向規則進行遞歸定向,構建適當的有向無環圖。詳細的步驟可以在文獻[30]中找到,此文的作者詳細闡述了此算法的正確性和完備性。GES(optimal structure identification with greedy search)算法首先從一個完全無向圖出發,采用貪心的方式不斷地向模型中添加邊(依賴關系),從而得到打分函數局部最大的結構圖。其次利用貪心算法逐步刪除有向邊,直到得分函數不再變化,得到最后的因果結構圖。GES 算法結合了PC 算法的優點,在準確性和計算效率之間取得了良好的平衡,尤其適用于中等規模的數據集。PC算法與FCI算法均基于一種稱為D-分離(D-Separation)[31]的方法。D-分離是圖形模型中的一個基本概念,用于確定在DAG中,給定一個第三個節點集合Z,兩個節點集合X和Y是否在條件下相互獨立,其中這三個集合是不相交的。如果X和Y之間的所有路徑都被條件集合Z所阻斷,那么稱X和Y在Z的條件下是通過D-分離的。

非時序線性非高斯(LINGAM)模型[32]也是一種用于因果關系推斷的方法,基于LINGAM 的因果關系推斷需要滿足3個假設:(1)因果順序假設,觀測變量按照一定的因果順序進行排序。在這個排序中,原因變量必須位于結果變量之前,換言之,各種觀測變量的因果圖模型必須是有向無環圖。這是應用此方法進行因果發現最基本的假設,它指示了變量之間的因果關系的方向。(2)因果充分性假設,在模型中,變量集合中的任意兩個變量的直接原因都存在于已觀測的變量集合中。(3)數據生成方式假設,數據生成的過程是線性的,原因變量和結果變量之間的函數關系服從線性關系(式(2))。

其中,ei為噪聲項,ci為偏置常數項。噪聲項ei之間相互獨立。噪聲項ei服從高斯分布。

傳統的面向得分的因果推斷方法[33]依賴于各種局部啟發式方法,根據預定義的得分函數搜索DAG。雖然這些方法在樣本無限且符合某些模型假設時可能具有顯著的效果,但在實驗過程中由于數據有限且可能存在假設違規的情況,其表現是不令人滿意的。因此,Zhu 等在文獻[34]中提出使用強化學習(reinforcement learning,RL)來搜索得分最高的DAG。其將編碼器-解碼器模型以可觀測數據作為輸入,并生成用于計算獎勵的圖鄰接矩陣。獎勵預先定義的得分函數和強制保持無環性而引入的兩個懲罰項。與典型的RL 應用不同,其目標是學習一種策略,并將RL用作搜索策略,最終得到的輸出是在訓練過程中生成的所有圖中獲得最佳獎勵的圖。其在合成數據集和真實數據集進行了實驗,結果顯示所提出的方法不僅具有改進的搜索能力,而且在滿足無環性約束的情況下可以使用更靈活的得分函數。

面向統計學的方法利用數據分析,它試圖從觀察到的數據中推斷出兩個變量之間的相關性。然而相關性并不意味著因果關系。因此,這種方法假設通過對數據進行統計分析,可以確定變量之間的因果關系。Heckerman在文獻[35]中引入了一種面向約束的貝葉斯網絡的因果關系推斷方法。該方法通過建立節點之間的概率依賴關系從而推斷因果關系。由于面向約束的方法容易受到數據集中可能出現的錯誤分類決策的影響,在之后的研究中Heckerman在文獻[36]中引入了面向貝葉斯的方法用于因果關系推斷。將先驗分布和似然函數結合起來計算后驗分布,從而得到模型參數的估計值,通過參數的估計值進行因果關系推斷。完全依賴于統計學的方法通常會帶來誤導性、偏見性和泛化性差的結果,在解決特性領域的問題時可能需要更廣泛的領域知識。

2.2 面向文本語料的因果關系抽取

Morgan 在文獻[37]中介紹了使用傳統(非文本)數據集進行有效因果推斷的技術,但將這些技術應用于自然語言數據會帶來新的挑戰。面向文本語料的因果關系抽取主要分為兩種方法,一種是基于模式匹配的方法,一種是基于自然語言處理(natural language processing,NLP)技術和機器學習算法來從文本數據中抽取出因果關系。

2.2.1 基于模式匹配的方法

文獻[38]分析了法語中具有因果含義的動詞,并實現了一個名為COATIS的系統,用于抽取帶有標記的顯示因果關系的句子,其中句子具有“CauseVerb Effect”的結構。這意味著COATIS 系統可以識別并標記出表達因果關系的句子,其中動詞在句子中起到因果關系的作用。但COATIS 系統只考慮動詞作為因果連接詞。因此,文獻[39]在考慮動詞的基礎上,同時考慮一些介詞(如“for”和“from”等)、狀語連接詞(如“so”“hence”和“therefore”等)以及子句(如“that's why”和“the result is”等)也可以表達因果關系。為了抽取帶標記的因果關系,采用了模式匹配的方法,并從人工標注的華爾街日報的語料中提取帶有標記的因果關系。

2.2.2 基于機器學習的方法

當今基于機器學習或深度學習模型對因果關系抽取主要從三方面進行研究。

(1)對文本進行分類。根據句子是否包含因果關系進行分類。通過文獻[40]的提出,有兩種方法可供選擇:一種是面向知識特征的分類模型;另一種是面向深度學習的方法,通過卷積神經網絡(convolutional neural network,CNN)對句子中的因果關系進行分類。這個模型能夠識別明顯的因果關系和隱含的因果關系,并確定因果關系的方向。而根據文獻[41]的研究,通過使用平行的維基百科語料庫,可以識別新的標記,這些標記是已知因果短語的變體。通過遠程監督創建訓練集,并利用開放類標記的特征和上下文信息的語義特征來訓練因果關系分類器。

(2)對文本中包含的關系進行抽取。根據文獻[42]的研究,他們將SemEval 數據集中的單詞擴展為短語,并將一對一的因果關系擴展為多對多的因果關系。他們提出了一種新的約束隱藏樸素貝葉斯模型,用于提取文本中的顯式因果關系。但此模型需要事先知道先驗概率,因此增加了特征工程的繁瑣度。而根據文獻[43]的研究,他們利用生成式對抗網絡(generative adversarial networks,GANs)的對抗學習特性,將帶有注意力機制的雙向門控循環單元網絡(bidirectional gated recurrent unit,BiGRU)與對抗學習相融合,提出了一種融合對抗學習的因果關系抽取方法,從而避免了繁瑣的特征工程。另外,根據文獻[44]的研究,他們采用多列卷積神經網絡來抽取因果關系,利用從網絡文本中提取的背景知識以及從原始句子中提取的因果關系候選信息,但需要進行大量的自然語言處理(NLP)預處理工作。

(3)進行序列標注。根據文獻[45]的研究,他們采用層疊條件隨機場來抽取事件間的因果關系,并將因果關系擴展到跨句、跨段、多因多果等多種類型。在這個過程中,進行了大量的特征工程構建。而根據文獻[46]的研究,他們利用單詞級別的詞向量和語義特征,通過雙向長短期記憶網絡(bi-directional long-short term memory,BiLSTM)標注句子中的原因、結果和因果連接詞,并將標記擴展到短語,包括虛詞“of”等。另外,根據文獻[47]的研究,他們利用因果關系的時間特性,重新定義因果抽取為一種特殊的時間提取方法,并通過引入多層條件隨機場模型將任務轉化為序列標注的過程。此外,王朱君等在文獻[3]中引入了面向流水線的因果關系發現方法:在流水線方式的因果關系抽取中,關系分類任務利用事件檢測階段標注出的語料。這一任務是對已標記事件的語料進行因果關系的判別。因果關系抽取是目前研究較少的領域之一。雖然因果關系分類是特殊的關系分類任務,但其主要目標是抽取出語料中實體對之間存在的關系。因此,它與抽取事件間的關系的任務類似。

此外,Blei 等在文獻[48]中提出了潛在狄利克雷分配(latent Dirichlet allocation,LDA)模型,該模型是一種面向概率圖的主題模型。它假設每個文檔包含多個主題,每個主題又由一組詞項構成。LDA 通過對文檔中的詞項分布和主題分布進行推斷,從而得到文本的主題結構。LDA具有更好的靈活性和可解釋性,能夠更準確地捕捉到文本中的主題關系。Devlin等在文獻[49]中提出了從文本上下文嵌入,為從文本中提取出有效信息以估計因果效應提供了有效的方法,以估計因果效應。Veitch 等在文獻[50]中使用文本嵌入的方式進行因果關系推斷。由于文本的維度非常高,作者在這篇文章中提出了一種對文本的因果嵌入的方式。這種方式結合了兩個思路:第一是在有監督的前提下對文本進行降維;第二是進行高效的語言建模,將語言上不相關(這些信息因果上也不相關)的文本剔除,有效提高了利用文本嵌入方式進行因果推斷的準確度。

在面向文本語料的因果關系發現中,存在一些混淆的因素,這些混淆因素會對因果發現的結果產生影響,因此需要在因果關系發現中加以考慮。一些學者應用面向自然語言處理(NLP)的方法發現混淆因素:一組方法應用無監督的降維方法,將高維文本數據降維為低維變量集。這些方法包括潛在變量模型,如主題模型、嵌入方法和自動編碼器。Roberts等[51]以及Sridhar 和Getoor[52]應用主題模型從文本數據中提取混淆因素。Mozer 等[53]在單詞袋表示上使用距離度量來匹配文本。

3 面向知識圖譜的因果關系推斷

知識圖譜(knowledge graphs,KGs)是一種用于表示現實世界知識的圖形化結構,在2012年,由谷歌正式提出[54]。其將結構化數據存儲為三元組KG={(ο,γ,τ)?E ×R×E },其中E和R 分別代表實體和關系。目前,知識圖譜可以分為四類(如圖3)[55]:(1)百科全書式知識圖譜;(2)常識性知識圖譜;(3)領域特定知識圖譜;(4)多模態知識圖譜。KGs通過將實體、關系和屬性等元素組織成圖譜的形式,提供了對知識的豐富而精準的表達和查詢[56]。而因果關系推斷則是在對知識圖譜中的實體和關系進行分析和推理的基礎上,通過識別和分析不同實體之間的因果關系,進一步深化了對知識圖譜所代表的現實世界的理解和認識。因此,知識圖譜與因果關系推斷密切相關,相互促進,為因果關系推斷領域的發展提供了重要的支持和應用基礎。

因果關系推斷是針對知識圖譜中已有的事實或關系的不完備性,是在現存知識的基礎上推斷出未知的或者新知識的過程[57],是對頭尾實體之間關系的推斷[58]。現有的KGs從文本中提取因果關系,面向名詞短語的語言模式來表示原因和結果,例如ConceptNet[59]和WordNet[60]。KGs 表示因果關系為“原因”和“效應”實體之間的“有因果關系”“歸因于”和“中介”關系。KGs 應該面向實體而不僅僅是名詞短語來對因果關系進行建模,例如Wikidata 和DBpedia。面向實體的表示模型通過將因果實體與KGs中相關的效果實體或概念進行關聯,從而擴大搜索空間。因果關系是一種復雜的關系,不能像現有的KGs 中表示的那樣用單個鏈接來表示原因和效果之間的關系。現有KGs中因果關系的表示方法使得支持反事實推理變得具有挑戰性。因此,需要在面向KGs 的方法中更豐富地表示和建模因果關系。

Jaimini 等在文獻[61]中提出了一種因果知識圖框架(CausalKG,如圖4),該框架首先創建一個因果貝葉斯網絡和特定領域的觀測數據集,之后創建一個因果本體并用因果關系豐富領域本體,并在給定上下文中估計治療、中介和結果變量的因果效應。其目的是將因果知識集成到知識圖譜中,以改善某領域的可解釋性,促進干預、反事實推理和因果推斷在下游任務中的應用。其提供了對知識圖譜進行因果關系推斷的可能性,但是并未考慮到元數據類包含和重疊以及完整性約束等問題。因此,Huang在文獻[62]中引入了CareKG 方法。CareKG 是一種新的形式化方法,用于在知識圖譜中表達概念(類和關系)之間的因果關系,以及使用元數據語義實現知識圖譜中的因果查詢。其主要原理是通過將因果結構嵌入到元數據語義中,擴展了現有的知識表示方法,使得知識圖譜中的實體和關系能夠表示因果關系,并允許進行因果推斷。

圖4 CausalKG框架Fig.4 Framework of CausalKG

Munch 等在文獻[63]中引入了一種利用本體論和專家知識將數據轉換為關系模式的方法,利用貝葉斯網絡模型學習概率關系模型。然后,提出了變量之間的聯合概率分布,但這并不一定表明是因果關系。因此,Simonne 等在文獻[64]中引入了一種差異因果規則的挖掘方法。差異因果規則挖掘在知識圖譜中使用控制變量的概念來檢查可能的因果關系,旨在比較目標類別的相似實例,研究治療效果對目標類別及其子類的影響。并使用比值比的質量度量方法來評估因果關系的強度。此方法與實體或類別密切相關。一些方法挖掘類別中可以用于描述或分類實例的對比模式[65]。然而,這種方法不適用于計算兩個特定實例之間的差異。其他方法側重于發現在KGs中兩個實例共享的屬性集[66],或旨在生成實例之間差異最大的屬性集[67]。這些方法不允許描述一組實例對的相似性和差異性并且缺乏可解釋性。

Du 等在文獻[68]中提出了一個事件圖譜知識增強的可解釋因果關系推斷算法ExCAR。該算法首先從大規模因果事件圖中獲取額外的證據信息作為因果推斷的邏輯規則;其次應用條件馬爾可夫神經邏輯網絡(conditional Markov neural logic network,CMNLN)學習邏輯規則的條件概率,并且以端到端可微的方式結合了邏輯規則的表示學習和結構學習。實驗結果表明,ExCAR 的性能優于以往的基線方法并擁有良好的可解釋性。

本章對面向知識圖譜的因果關系推斷方法和框架進行了總結。這些方法主要通過利用知識圖譜中的結構信息和屬性信息來進行因果關系推斷。其中,一些方法采用了基于圖的推理和因果推斷工具,通過分析知識圖譜中的實體之間的關系,識別因果路徑和推斷因果效應。另一些方法則將因果關系建模為圖神經網絡模型[69],將知識圖譜作為輸入,通過學習實體之間的表示來捕捉因果關系。同時,研究者們也提出了一些特定領域的因果關系推斷框架,如基于知識圖譜的因果推薦系統[70]。這些框架結合了知識圖譜中的屬性信息和用戶行為數據,通過因果推斷來解決推薦系統中的偏差和用戶偏好建模的問題。

總體而言,面向知識圖譜的因果關系推斷方法和框架提供了一種利用知識圖譜來理解和推斷變量之間因果關系的途徑[71]。這些方法和框架有助于揭示知識圖譜中的因果機制,提供更深入的理解和洞察,并為相關領域的研究和應用提供了新的工具和方法。

4 面向大語言模型的因果關系推斷

近來,隨著GPT-4和ChatGPT進入公共大眾的視野,對于大語言模型(large language models,LLMs)在因果關系推斷方法的探討也隨之增多[72]。對于面向大模型的因果關系推斷方法,其因果關系推斷具有如下幾方面的優勢:(1)數據驅動的學習,大模型通過在大量文本數據上進行訓練,可以學習到更多復雜的語言和語境表達方式。這使得它們能夠從各種來源中自動提取因果關系的線索,而不僅僅依賴于預先構建的知識圖譜。(2)上下文理解,大模型在文本中可以理解上下文,并將先前提到的信息融合到后續推理中。這對于因果關系的推斷尤其有用,因為往往需要考慮事件之間的時間順序和因果鏈條。(3)概念聯想,大模型可以將不同領域的信息進行關聯,從而找到不同領域中的因果關系。這種概念聯想能力使得模型能夠挖掘出傳統知識圖譜中可能不存在的因果關系。(4)適應多樣性,大型模型在處理多種語言和領域的數據時表現良好。它們可以通過學習不同語言和文化中的因果表達方式,從而更全面地理解因果關系。

Jin 等在文獻[73]中引入了一項新的任務(數據集)CORR2CAUSE,此任務可以從相關性中推斷因果關系,從而評測大模型的因果推斷的能力。此任務首先是在原始數據的基礎上構造一個因果圖,再由D-分離原理將其轉化為自然語言。Jin等收集了40萬樣本的大規模數據集,并在6個常用的基于BERT的NLI 模型以及GPT-3.5(即CharGPT)和最新的GPT-4等模型上進行了實驗(實驗數據引自文獻[73],如表2)。從實驗結果上看,普遍認為的版本更高的或者推理能力更好的大模型在因果關系推斷任務中并沒有表現出正相關的結果。因為大模型在因果關系推斷任務中的性能表現是隨機的。

表2 大語言模型因果關系推斷實驗數據Table 2 Experimental data on causal inference using large language models 單位:%

5 知識圖譜與大語言模型結合的因果關系推斷

知識圖譜與大語言模型(LLMs)結合在因果關系推斷方面具有巨大的潛力。知識圖譜提供了大量的結構化知識,包括實體、關系和屬性,這些知識可以用于驗證、補充和增強LLMs的因果推斷能力。首先,知識圖譜可以用于驗證和補充LLMs的推理過程中的假設。LLMs 在推斷中可能會產生與事實不符的錯誤,而知識圖譜中的信息可以用來驗證這些錯誤并提供更準確的因果關系。其次,知識圖譜可以用于建模實體之間的因果關系。LLMs 可以通過學習知識圖譜中的關系來理解實體之間的因果聯系,并在推斷中應用這些關系,從而提高因果推斷的準確性。此外,知識圖譜為LLMs 提供了上下文信息,幫助它們更好地理解文本中的信息。通過將文本中的實體和關系與知識圖譜中的實體和關系關聯起來,LLMs 可以更準確地理解文本中的因果關系,特別是在存在歧義或隱含信息的情況下。知識圖譜還具有高度的可解釋性,因為它們是結構化的且具有明確的語義。因此,與知識圖譜結合,LLMs 可以生成更具可解釋性的因果推斷結果,增強了結果的可理解性和可信度。最后,知識圖譜通常跨足多個領域和主題,因此結合LLMs可以擴展因果推斷的應用范圍,使其在各種領域中發揮更大的作用。綜合而言,知識圖譜與LLMs結合可以為因果關系推斷提供強大的支持,促進了在知識表示和推理領域的進一步發展。

5.1 知識圖譜增強大模型

大模型(LLMs)在很多自然語言處理的任務中取得了讓人滿意的結果。然而,LLMs在推理的過程中產生與事實不符的錯誤,以及在推理后得到的結果缺乏可解釋性等方面并不令人滿意。知識圖譜可以為解決這些問題提供有力的支持。知識圖譜是一種結構化的數據表示方式,其中包含了實體、關系和屬性的信息。通過將LLMs與知識圖譜相結合,從而可以利用圖譜中的豐富信息來指導推理過程,進而提高推理的準確性和可解釋性。

本節首先介紹了知識圖譜增強LLMs 推理的方法。其次介紹了KGs增強LLMs的可解釋性,目的是提高LLMs的可解釋性。KGs增強LLMs的典型方法總結在表3中。

表3 知識圖譜增強大模型Table 3 Large model enhanced with knowledge graph

5.1.1 知識圖譜增強大模型的推理

在利用大模型進行推理的過程中,由于LLMs可能無法很好地推廣到未見過的知識,很多方法致力于研究在推理過程中注入知識[74]。這些方法主要關注問答任務,因為問答任務要求模型捕捉文本含義和最新的現實世界的知識。

(1)知識動態融合。當處理文本輸入和相關KGs輸入時,有幾種不同的方法,每種方法在文本和知識之間的交互方式上存在一些特點。一個直接的方法是雙塔架構方法:這種方法使用兩個獨立的模塊,一個處理文本輸入,另一個處理知識圖譜輸入[75]。然而,這種方法缺乏文本和知識之間的交互。在之后的研究過程中Lin 等在文獻[76]中引入了KagNet 框架,KagNet首先對輸入的知識圖譜進行編碼,然后增強輸入的文本表示。這種方法強調在文本和知識之間建立關聯。Feng 等在文獻[77]中引入MHGRN(multi-hop graph relation network)方法,MHGRN 則是使用輸入文本的最終LLMs 的輸出來指導對知識圖譜的推理過程。然而,這些方法通常只考慮文本到知識的單向交互。因此,為了解決此問題,Yasunaga 等在文獻[78]中引入了QA-GNN(question answering graph neural network)方法。QA-GNN 使用基于GNN 的模型,通過消息傳遞共同推理輸入上下文和知識圖譜信息。它將文本信息表示為特殊節點,并將其與知識圖譜中的實體相連。然而,這些方法在信息融合方面可能受限,因為文本輸入只被匯集成一個密集向量。Sun 等在文獻[79]中提出JointLK(joint reasoning with language models and knowledge graphs)方法。JointLK 提出了一個具有細粒度交互的框架,通過LM到KGs和KGs到LM的雙向注意機制,在文本輸入的標記和知識圖譜實體之間進行交互。該方法通過計算成對的點積分數來實現交互,同時動態修剪知識圖譜以便后續層可以關注更重要的子圖結構。

(2)檢索增強知識融合。不同于上述將所有知識存儲在參數中的方法,RAG(retrieval augmentation)[80]提出了結合非參數和參數模塊來處理外部知識。給定輸入文本,RAG 首先在非參數模塊中通過MIPS(maximum inner product search)搜索相關的知識圖譜,以獲取多個文檔。然后,RAG將這些文檔視為隱藏變量z,并將它們作為額外的上下文信息饋送到由Seq2SeqLLMs 強化的輸出生成器中。研究表明,在不同的生成步驟中使用不同的檢索文檔作為條件比僅使用單個文檔來指導整個生成過程效果更好。實驗結果顯示,在開放域問答中,RAG要優于僅使用參數的基線模型和僅使用非參數的基線模型。RAG還可以生成比其他僅參數基線更具體、多樣和真實的文本。Story-fragments[81]進一步通過添加額外的模塊來確定顯著的知識實體,并將它們融入生成器中,以提高生成的長篇故事的質量。MAT(external memoryaugmented transformers)[82]進一步通過將外部知識編碼成鍵值內存,并利用快速的最大內積搜索來進行內存查詢,提高了這種系統的效率。REALM(retrievalaugmented language model pre-training)[83]提出了一種新穎的知識檢索器,幫助模型在預訓練階段從大型語料庫中檢索和關注文檔,并成功提高了開放域問答的性能。KGLM(knowledge graphs for fact-aware language modeling)[84]使用當前上下文從知識圖譜中選擇事實,以生成事實性句子。在外部知識圖譜的幫助下,KGLM 可以使用領域外的詞語或短語描述事實。

5.1.2 知識圖譜增強大模型可解釋性

雖然LLMs 在自然語言處理的許多任務中獲得了顯著的成功,但是其仍然面臨缺乏可解釋性的困難或不足。LLMs的可解釋性指的是對模型內部的運轉以及推理過程的解釋或理解[85]。解決這項不足將提高LLMs 的信任度。為此,研究人員對增強LLMs的可解釋性進行了相關研究。研究的大致方向可分為:(1)知識圖譜增強LLMs 探測;(2)知識圖譜增強LLMs分析。

(1)知識圖譜增強LLMs探測:LLMs探測目的是理解已經存儲在LLMs 中的知識。經過規模龐大的語料庫鎖訓練好的LLMs 通常會被認為包含大量知識。但是LLMs是采用一種隱藏的方式存儲知識,這使得研究人員難以弄清楚或理解LLMs 中存儲的知識。此外,LLMs存在幻視問題[86],幻視問題即生成的與事實真理相矛盾的陳述。這個問題會嚴重影響LLMs 的可靠性。因此,探測和驗證LLMs 中存儲的知識的可靠性與真實性是十分必要的。

Patroni 等在文獻[87]中提出了LAMA(language model analysis)框架,其是第一個使用知識圖譜來探測LLMs 中知識的工作。LAMA 首先通過預定義的提示模板將知識圖譜中的事實轉換為填空陳述,然后使用LLMs 來預測缺失的實體。預測結果用于評估LLMs 中存儲的知識。例如,嘗試探測LLMs 是否知道事實(馬禮,職業,院長)。首先將事實三元組轉換成一個帶有對象掩碼的填空問題“馬禮的職業是什么?”,然后測試LLMs 是否能夠正確預測出對象“院長”。然而,LAMA忽視了提示不恰當的事實。例如,提示“Mali worked as a”可能比“Mali is a by profession”更有利于語言模型預測空白部分。因此,Jiang 等在文獻[88]中提出了LPAQA(language model prompt augmentation for question answering),這是一種基于挖掘和改寫的方法,LPAQA 可以自動生成高質量且內容豐富的提示,從而可以更準確地評估LLMs中所包含的知識。此外,Adolphs 等在文獻[89]中嘗試使用示例來讓LLMs理解查詢,并在T-REx數據集上取得了對BERT-large 的實質性改進。相比手動定義提示模板不同,AutoPrompt[90]是一種自動化方法,此方法基于梯度引導的搜索來創建提示。與使用百科和常識知識圖譜探測一般知識不同,在BioLAMA[91]和MedLAMA[92]中通過應用醫學知識圖譜來探測LLMs中的醫學知識。Mallen等在文獻[93]中對LLMs保留相對缺乏流行性的事實知識的能力進行了相關研究。他們從維基數據知識圖譜中選擇具有低頻率點擊實體的低流行性事實。然后將這些事實用于評估,結果表明LLMs 在處理這種知識時存在困難,并且擴展未能明顯改善LLMs對尾部事實知識的記憶。

(2)知識圖譜增強LLMs 的分析:知識圖譜對于LLMs 的分析目的在回答諸如“LLMs 怎樣生成結果?”或者“LLMs中的功能和架構是如何工作的?”等問題。因此,為了分析LLMs的推理過程,如Lin等在文獻[94]中引入了KagNet,Yasunaga 等在文獻[78]中引入了QA-GNN。通過KGs 將LLMs 生成的每個推理步驟的結果進行了實質性的支持。通過這種方式,可以通過從KGs中提取圖結構來解釋LLMs的推理過程。Li 等[95]研究了LLMs 如何正確生成結果。他們采用了從知識圖譜中提取的事實的因果關系分析。該分析定量地衡量了LLMs 生成結果所依賴的詞語模式。結果顯示,LLMs生成缺失的事實更多地依賴于位置封閉的詞語,而不是依賴于知識相關的詞語。因此,他們聲稱LLMs由于不準確的依賴關系而不能很好地記憶事實知識。為了解釋LLMs 的訓練過程,Swamy等[96]采用了在預訓練期間生成知識圖譜的語言模型。LLMs 在訓練過程中獲得的知識可以通過KGs中的事實來揭示。為了探索隱含知識如何存儲在LLMs 的參數中,Dai 等在文獻[97]提出了“知識神經元”的概念。具體而言,已識別的知識神經元的激活與知識表達高度相關。因此,他們通過抑制和放大知識神經元來探索每個神經元所表示的知識和事實。

5.2 大模型增強知識圖譜

ChatGPT 是OpenAI 開發的一種高級LLMs,主要用于進行類似人類的對話。在最終調整過程中,ChatGPT利用文獻[98],從而增強其與人類偏好和價值觀的一致性。作為OpenAI開發的一種尖端的大型語言模型,GPT-4是在GPT-3和ChatGPT等前輩的成功基礎上構建的。這一發展是通過利用大規模的計算和數據規模進行訓練的結果,它在不同領域表現出非凡的泛化、參考和解決問題的能力。這種進步為未來LLMs的發展提供了新的見解,同時也為構建KGs提供了新的方法和機會,以及提供了通過問答類LLMs幫助因果關系推斷的新思路。

此外,GPT-4 作為一個大規模的多模態模型,具備處理圖像和文本輸入的能力,進一步擴展了其應用領域。這一多模態特性使其在處理復雜信息時更加全面。與此同時,ChatGPT也在信息提取[99]和推理[100]的能力方面引起了研究者的關注,為在自然語言處理領域的知識推斷提供了新的機會。這些發展彼此之間存在因果關系,共同推動了LLMs 技術的前進,為在大語言模型領域的創新和探索因果關系推斷開辟了新的道路。

在涉及到KGs 構造和推理的實驗中[101],通常可以觀察到大型語言模型(LLMs)在推理能力方面表現優于它們在KGs構造任務上的性能。對于KGs構造任務,LLMs在零樣本和一次性方式上都未能超越當前最先進的模型。這一發現與之前在信息提取任務上的實驗[102]結果一致,表明LLMs通常不是有效的信息提取器,尤其是對于少數鏡頭的信息提取任務。相反地,在KGs 推理任務中,所有LLMs 在一次性設置中表現出卓越的性能,而GPT-4甚至在零樣本設置中也達到了最先進水平。這些觀察結果為后續研究提供了有意義的見解,強調了大型語言模型在知識圖譜領域內的適應性和性能提升的重要性。這一現象[101]可以解釋如下:首先,KGs構建任務涉及到實體、關系、事件等復雜元素的識別和提取,使得任務更加復雜和困難。相比之下,KGs 推理任務,尤其是以鏈接預測為代表的推理任務,主要依賴于已有的實體和關系進行推理,因此任務相對較簡單。其次,LLMs在推理任務中的卓越表現可能歸因于它們在預訓練階段暴露于廣泛的知識,這有助于更好地理解和處理與知識圖譜相關的信息,從而提高了推理性能。這些發現強調了大型語言模型在增強知識圖譜中的因果關系推斷方面的潛力,尤其是在KGs推理任務中。

實體和關系在知識圖譜中以結構化的方式進行表示,因此在面向知識圖譜的因果關系推斷和圖譜推理等許多下游任務中得到了廣泛的應用,但是傳統的知識圖譜通常是不完整的,且對文本信息的利用并不完全。因此,考慮通過大語言模型來增強知識圖譜。LLMs對KGs進行增強是一種新穎的方法,其能夠補全知識圖譜的不足并提供更準確、更全面的知識因果推理,LLMs可以通過增強知識圖譜的嵌入、知識圖譜的完整性、知識圖譜的結構等方面對KGs進行增強(如表4)。

表4 大語言模型增強知識圖譜的方法Table 4 Methods for enhancing knowledge graphs using large language models

5.2.1 大模型增強知識圖譜嵌入

知識圖譜嵌入(knowledge graph embedding,KGE)的主要目標是將每個實體和關系映射到低維向量空間中,以捕捉知識圖譜的語義和結構信息,從而可以應用于多種任務,包括因果關系推斷、知識圖譜推理[103]和推薦等領域。傳統的知識圖譜嵌入方法主要依賴于知識圖譜的結構信息,通過優化定義的得分函數(例如DisMult)來實現。然而,由于結構連接性的限制,這些方法通常難以有效地表示未見實體和長尾關系。為了解決這一問題,近期的研究采用了大型語言模型(LLMs)來增強知識圖譜的表示能力,通過編碼實體和關系的文本描述來提高表征的質量。例如,Nayyeri等在文獻[104]中使用LLMs生成全球級、句子級和文檔級的表示,然后將這些表示與圖結構融合為四維超復數的Dihedron 和Quaternion 表示。Huang等在文獻[105]中將LLMs與其他視覺和圖形編碼器相結合,以學習多模態知識圖嵌入,從而提高了下游任務的性能。CoDEx[106]提出了一種新型的、由LLMs強化的損失函數,通過考慮文本信息來指導KGE模型測量三元組的可能性。這種損失函數對于模型結構是不可知的,因此可以與任何知識圖譜嵌入模型相結合使用。除了考慮圖結構外,另一類方法則直接利用LLMs 將圖數據和文本信息融合到嵌入空間中。例如,KNN-KGE[107]將實體和關系視為LLMs中的特殊標記,然后將每個三元組(h,r,t)及相應的文本描述轉化為一個句子。訓練結束后,LLMs中對應的標記表示被用作實體和關系的嵌入。LambdaKG[108]采用對比學習的方法,同時為了更好地捕捉圖結構,對1跳鄰居實體進行采樣,然后將它們的標記與三元組拼接為一個句子,最后輸入到LLMs中進行訓練。

總的來說,這些研究展示了大型語言模型在增強知識圖譜嵌入中的潛力,尤其在將文本信息與圖結構相結合以更好地進行因果關系推斷方面。通過利用LLMs,可以更全面地理解和分析知識圖譜,為因果關系推斷提供了更強大的工具和方法。

5.2.2 大模型增強知識圖譜完整性

知識圖譜補全(knowledge graph completion,KGC)是指在給定知識圖譜中推斷缺失的事實,增強知識圖譜的完整性,將有利于因果關系推斷。與知識圖譜嵌入(KGE)相似,傳統的知識圖譜補全方法主要考慮和關注圖結構,但并未考慮更廣泛的文本信息。近來,LLMs的整合使得知識圖譜補全方法能夠對文本進行編碼或生成事實,從而可以獲得更好的知識圖譜補全性能。LASS(language and structure-sensitive embeddings)[109]認為語言語義與圖結構對于KGC 同等重要。因此LASS 提出了聯合學習兩種類型的嵌入:語義嵌入和結構嵌入。在此方法中,三元組的完整文本信息被傳入到LLMs中,并分別計算h、r和t對應的LLMs 輸出的平均池化。最后將得到的嵌入傳入給基于圖的方法,從而重建出知識圖譜結構。之后,許多方法引入了掩碼語言模型(MLM)的概念對知識圖譜文本進行編碼。MEM-KGC(meta-embedding models for knowledge graph completion)使用掩碼實體模型分類機制來預測三元組中的掩碼實體。Open-World KGC[110]對MEM-KGC模型進行了擴展,從而解決OpenWorld KGC的挑戰,其采用一個流水線框架,其中定義了兩個基于MLM的順序模塊:實體描述預測(entity description prediction,EDP)和不完整三元組預測(incomplete triple prediction,ITP)。EDP首先對三元組進行編碼,并生成最終的隱藏狀態,然后將其作為頭實體的嵌入,傳遞給ITP 以預測目標實體。LPBERT(language-pretrained BERT)[111]是一種混合式的知識圖譜補全方法,結合了MLM編碼和分離編碼。該方法由預訓練和微調兩個階段組合而成,在預訓練階段利用MLM 機制對KGC 數據進行預訓練。在微調階段,LLMs 對兩個部分進行編碼,并采用對比學習方法進行優化。AutoKG[112]采用提示工程方法設計定制的提示語,這些提示語包含任務描述、少樣本示例和測試輸入,指導LLMs預測知識圖譜補全中的尾部實體。這些方法結合了文本信息和圖結構,使知識圖譜補全更加強大和精確。同時,它們也為因果關系推斷提供了有用的框架,可以用于分析知識圖譜中的因果關系。

5.2.3 大模型增強知識圖譜構建

知識圖譜構建是指對特定領域內創建的知識進行結構化表示[113]。傳統知識圖譜構建主要包含實體發現、共指消解和關系提取。近來的方法探索了端到端的知識圖譜構建,即可以在一步中構建完整的知識圖譜,或直接從LLMs 中提取知識圖譜。LRN(label-relational reasoning network)[114]考慮了標簽之間的內在和外在的依賴關系。它使用BERT 對上下文和實體進行編碼,并利用這些輸出嵌入進行演繹和歸納推理。CrossCR[115]利用端到端模型進行跨文檔共指消解,該模型在黃金提及跨度上進行了提及得分器的預訓練,并使用成對得分器來比較所有文檔中的所有提及及跨度之間的關系。PiVE(prompt with iterative verification for KGs enhancement)[116]提出了一個迭代驗證的提示框架,利用像T5 這樣較小的LLMs來糾正較大的LLMs(例如ChatGPT等)生成的知識圖譜中的錯誤。West等在文獻[117]中提出一個符號知識提取框架,從LLMs 中提取符號知識,從而增強知識圖譜的結構。

近來,LLMs和KGs的協同作用引來了越來越多的關注。因此,大語言模型與知識圖譜的結合可以成為因果關系推斷強大的工具。知識圖譜提供了結構化的知識表示,而大語言模型則能夠理解和推理文本信息。通過結合兩者,可以彌補知識圖譜的不足,例如自動補全和擴展知識圖譜、理解上下文和隱含知識、整合多模態數據等。大語言模型通過語義理解和推理能力,提供更全面和準確的因果關系推斷。它可以從大規模的文本數據中學習,并通過在線學習和增量更新,不斷提升因果關系推斷的準確性和可靠性。這種結合為在理解和應用因果關系方面提供了一種強大的方法。

6 未來研究方向

(1)跨模態知識圖譜構建的方向

跨模態知識圖譜自動構建[101]是一個充滿前景的研究方向,如何在跨模態知識圖譜上進行因果關系推斷涉及到將來自不同模態(如文本、圖像、語音等)的信息融合到一個統一的知識圖譜中。因此,在未來的研究方向中可以對跨模態知識圖譜的表示學習進行探索:①探索如何將來自不同模態的數據轉化為統一的表示,以便在知識圖譜中進行一致性建模。研究關注如何捕捉不同模態之間的關聯,提高跨模態表示的語義一致性。②探索多模態數據之間的融合與對齊,開發融合和對齊技術,將不同模態的數據融合到一個綜合的知識圖譜中。這需要解決模態差異、異構性和不完整性等問題,以實現模態之間的有效對應。③探索基于大模型的問答及推理能力,從而發現已有知識圖譜上尚未關聯的具有潛在關系的圖節點,將信息反饋給知識圖譜,進而幫助知識圖譜自動更新。

(2)多元因果關系推斷的方向

目前面向知識圖譜的因果關系推斷主要是面對兩個節點建立的,即一因一果關系,但對于一對多、多對一的多元因果關系的推斷效果并不理想,因此,現如今對于多元的因果關系推斷還亟需進一步的研究。引入圖神經網絡可以解決部分的問題,但是多因果關系的推斷、標注和評價體系,都需要進一步的完善和發展[118]。現實生活場景中,氣壓低是降水的原因,而降水又是城市交通擁堵的原因,這就是一個典型的多元關系結構[119-120]。

(3)動態知識圖譜更新的方向

在面向知識圖譜的因果關系推斷中,動態更新知識圖譜亦是一個十分重要的研究方向,動態更新知識圖譜以發現圖中的新的具有因果關系的節點。未來可以考慮如何根據事件觸發來自動更新知識圖譜。例如,從新聞、社交媒體等信息源中識別事件并將其反映到知識圖譜中。其次可以考慮從時間角度對知識圖譜建模,在知識圖譜中引入時間維度,以更好地建模實體和關系的演化。時間感知的建模有助于揭示知識圖譜中的動態模式和趨勢。

(4)面向大模型的因果關系推斷的可解釋性方向

解釋大模型的復雜因果推斷結果對于應用和領域專家至關重要,因為這有助于確保結果的可理解性、可信度和有效應用。然而,將這些復雜的結果以可解釋的方式呈現給非專業人士是一個具有挑戰性的問題,因為這涉及到如何將高度技術性的概念和分析轉化為易于理解和可操作的信息。未來可以考慮應用可視化工具提高大模型因果關系推斷結果的可解釋性。利用可視化工具來呈現因果推斷結果,將抽象的概念轉化為圖表、圖像等可視化形式。這有助于非專業人士更直觀地理解因果關系和結果。

7 總結

“因果關系”推斷作為近幾年熱門的研究方向,得到了越來越多的研究人員和學者關注研究。隨著知識圖譜的興起,面向知識圖譜的因果關系推斷逐漸成為了研究熱門。因此,通過閱讀近年來大部分有關因果關系推斷的方法和應用的文獻,本文對因果關系推斷進行了較為系統的綜述。本文在介紹傳統因果關系推斷方法的同時,重點分析討論了現如今流行的面向知識圖譜和大模型的因果關系推斷方法。本文對面向知識圖譜和大模型的因果關系推斷方法研究現狀進行了深入的綜述和討論,并對這兩類方法的未來研究趨勢進行了展望和總結。

猜你喜歡
文本方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 91无码网站| av尤物免费在线观看| 天天爽免费视频| 麻豆精选在线| 亚洲欧美日韩色图| 国产精品女同一区三区五区 | 日本不卡在线视频| 91成人在线免费观看| 国产后式a一视频| 久久天天躁狠狠躁夜夜躁| 色久综合在线| 亚洲黄色成人| 91av成人日本不卡三区| 亚洲中文精品人人永久免费| 亚洲国产精品VA在线看黑人| 国产精品所毛片视频| 久久婷婷人人澡人人爱91| 99热免费在线| 黄色片中文字幕| 成人亚洲天堂| 国产91蝌蚪窝| 久久性妇女精品免费| 毛片网站在线看| 国产一区二区三区视频| 国产精品无码影视久久久久久久 | 国产精品成| 伊大人香蕉久久网欧美| 午夜啪啪福利| 国产自视频| 亚洲天堂成人在线观看| 国产喷水视频| 在线无码av一区二区三区| 美女被狂躁www在线观看| 热这里只有精品国产热门精品| 中文成人无码国产亚洲| 又大又硬又爽免费视频| 亚洲成人在线网| 亚洲香蕉久久| lhav亚洲精品| 日本精品中文字幕在线不卡| 极品性荡少妇一区二区色欲| 亚洲网综合| 国内精品一区二区在线观看| 免费无码网站| 91国语视频| 久久免费观看视频| 国产精品永久在线| 久久综合国产乱子免费| 亚洲成av人无码综合在线观看| 伊人91视频| 国产精品hd在线播放| 天天激情综合| 最新国产午夜精品视频成人| 小说区 亚洲 自拍 另类| 日韩欧美国产三级| 欧美区在线播放| 亚洲天堂久久| 在线观看国产网址你懂的| 国产精品无码久久久久久| 日本亚洲欧美在线| 国产毛片不卡| 久久永久精品免费视频| 国产99精品久久| 免费毛片a| 久久综合九色综合97婷婷| 任我操在线视频| 国产靠逼视频| 中文字幕久久波多野结衣| 国产JIZzJIzz视频全部免费| 亚洲国产日韩在线观看| 欧美一区二区自偷自拍视频| 在线观看精品自拍视频| 18禁高潮出水呻吟娇喘蜜芽| 精品无码专区亚洲| 久久国产热| 伊人成人在线视频| 成人精品视频一区二区在线| 亚洲天堂视频网| 国产在线一区二区视频| 亚洲精品爱草草视频在线| 一本久道久综合久久鬼色| 99九九成人免费视频精品|