












摘要:在金融領域的事件關系識別任務中,篇章級事件因果關系的識別是一項具有挑戰性的任務。而事件因果關系關聯于中心事件及其所在的句子,一方面,多個事件中的中心事件會影響事件間的因果關系,另一方面,事件所在的句子也會具有強化事件因果關系的作用,為此,本文提出了基于中心事件和句子感知的事件因果識別模型。該模型使用中心感知的高階事件推理網絡(Centrality-aware High-order Event Reasoning Network,CHEER),建立了中心事件的表示,并基于圖注意力網絡構建了事件關系圖,建立了事件及其事件對的表示,以自適應模擬事件間的因果傳遞,從而識別中心事件及其因果相關事件。通過引入情感中心嵌入和關聯詞中心嵌入,句子的情感和結構對事件因果關系的表達得以增強,從而提高了金融文本中因果關系識別的準確性。本文在標注了中心事件的公開數據集EventStoryLine 與自建數據集上進行實驗,結果顯示在EventStoryLine 數據集上模型的句間準確率提高了1.1%,在自建數據集中整體提高1.8%,驗證了中心事件對事件因果關系識別的準確性有較好提升。
關鍵詞:事件因果關系;事件關系圖;篇章級文本;金融領域;圖注意力網絡
中圖分類號:TP391 文獻標志碼:A 文章編號:0253-2395(2025)01-0020-09
0 引言
事件因果關系識別(Event Causality Identifi?cation,ECI)是一個基本的自然語言處理(Natu?ral Language Processing, NLP)任務,旨在識別文本中事件之間的因果關系。而因果關系的發現不僅有助于深入理解事件本身,也有助于影響和指導事件的發展。在金融領域中,金融文本蘊含著大量的信息,包括股票漲跌、市場波動、政治事件等,這些信息涵蓋了各種事件和事件之間的關系。通過對這些文本中事件的因果關系識別,可為金融決策、風險管理、市場預測等方面的應用提供技術支持。對于篇章內事件之間的因果關系,有可能存在于同一個句子(Sentence Event Causality Identification,SECI)中,也可能跨越整個文檔(Discourse Event Cau?sality Identification, DECI)中的多個句子。DE?CI 任務比SECI 任務更復雜和更難實現。
目前有關DECI 的研究,通常采用構建跨句推理的事件關系圖[1]。其中,事件關系圖以每個事件對作為節點,事件對之間的關系作為邊,在關系圖上利用圖神經網絡(Graph Neural Network,GNN)實現高階因果傳遞性,例如事件對(A,B)導致事件對(B,C)? 事件對(A,C)。在事件關系的研究中,發現并非所有事件都同等重要,通常有一個或兩個“中心”事件在整個篇章中占主導地位[2],其余事件為相關事件,這些事件可能作為原因解釋,或作為后果解釋。
中心感知的高階事件推理網絡(CentralityawareHigh-order Event Reasoning Network,CHEER)[3]在識別中心事件時,根據事件本身的特點構建了度中心編碼與位置中心編碼,然而,CHEER 框架在進行中心事件識別任務中忽視了事件所在句子的上下文對事件的影響,例如,句子中的情感以及句子中的關聯詞。在金融領域、金融機構或者金融媒體經常使用帶有強烈情感的話語來煽動廣大投資者進行交易。受文獻[4]對情緒原因識別相關研究的結論啟發,由于97% 以上的情感關鍵詞只有一個原因,并且95% 以上的原因與情感關鍵詞相近,因此,本文借助該結論,從情感關鍵詞的上下文中提取候選詞對事件進行中心嵌入。此外,句子中的關聯詞可分為顯式因果和隱式因果,可以借用關聯詞前后兩個事件建立因果聯系。
本文的主要任務是在金融文本中識別中心事件與其具有因果關系的其他事件。除了考慮事件本身在識別中心事件中的作用外,還探討了另一個維度:句子粒度上下文在中心事件識別中的作用。本文從事件粒度與句子粒度提出了兩種處理方法:(1)對于事件粒度,沿用了CHEER 框架中事件中心嵌入和度中心嵌入識別中心事件。通過采用基于圖注意力網絡(Graph Attention Network,GAT)的事件關系圖,將事件對視為節點,事件對關系作為邊,以自適應方式對不同事件間的重要性進行建模,從而有效實現了事件間因果傳遞的高階推理。(2)在句子粒度方面,首先對句子進行情感中心嵌入和關聯詞中心嵌入。句子常含多個事件,而事件亦可跨越多句,通過均方誤差損失實現事件與事件對的動態表示,并引入加權因子以平衡兩個維度的訓練。
本文的貢獻可歸納為以下兩個方面:
(1)對事件因果關系識別,利用中心事件在事件關系中的特殊地位,一方面對事件本身進行度中心編碼和位置中心編碼,另一方面對句子粒度進行情感編碼和關聯詞編碼,用于完善對中心事件的多維度表示。
(2)利用均方誤差損失對事件與事件對進行動態表示,并在該損失函數中引入加權因子以平衡兩個維度的訓練,從而識別中心事件及其因果相關的其他事件。
1 相關工作
近年來,ECI 引起了人們的廣泛關注。就事件承載文本粒度,主要有句子級事件因果關系識別(SECI)和篇章級事件因果關系識別(DECI)。
1.1 句子級事件因果關系識別
句子級事件因果識別關注于單個句子內事件的因果關系。這種級別的識別任務比較直接,因為需要分析的文本較短并且因果關系通常在句子中比較明確。
早期基于特征的方法探索因果表達的不同形式,如詞匯和句法模式[5]、因果線索標記[6-7]、時間模式[8]、統計信息[9]和弱監督數據[10]。最近,一些方法已經利用預訓練語言模型(Pre-trained Language Model,PLM)用于ECI任務[11],為了處理隱含的因果關系[12],從外部因果中學習特定于上下文的因果模式。
1.2 篇章級事件因果關系識別
篇章級事件因果識別則更加復雜,它涉及跨越多個句子甚至多個段落進行因果關系識別。在這個級別上,因果關系可能不是直接在文本中表示出來,而是通過一系列事件和陳述隱含的展示。DECI 需要更復雜的推理和分析能力。
隨著句子級自然語言理解取得成功,許多任務被擴展到整個文檔,如關系抽取[13]和事件論元抽取[14]。DECI 對跨句推理缺乏明確的因果表示提出了新的挑戰。Gao 等[2]提出了一種基于特征的方法,使用整數線性規劃來建模全局因果結構。方向敏感圖卷積網絡(DirectionsensitiveGraph Convolutional Network,DSGCN)使用圖推理機制來捕捉事件之間的交互[15]。多文檔結構的圖卷積網絡(Rich Document-levelStructures Graph Convolutional Networks,Rich?GCN)構建了一個事件圖,在邊的構建過程中可能會引入噪音,并且忽略了事件對之間的相互依賴[16]。文檔級事件關聯圖傳遞(Event Rela?tional Graph Transformer for Document-level,ER?GO)構建了一個關系圖,并建模了事件對之間的相互作用[1]。CHEER 在事件推理過程中,提出了一種共指關系即中心事件識別[3]。在以上模型的基礎上,本研究考慮了兩個維度對中心事件的表示,完善了對中心事件的多維度理解。
2 事件因果關系識別模型
對于篇章的處理,主要利用預訓練語言模型作為基本編碼器獲得上下文的嵌入。給一篇文章D = [ xt ]Lt = 1,其中xt 表示第t 個句子,L 表示長度。D 的開頭和結尾添加特殊標記“[CLS]”和“[SEP]”,為了標記篇章中的事件,在所有事件的開始和結束時使用“lt;tgt;”和“ lt;/tgt; ”標記事件位置。使用預訓練模型(Bi?directional Encoder Representations from Transform?ers,BERT)[17]獲取每個句子進行嵌入表示,得到整個篇章的嵌入表示H,如公式(1)所示:
H =[h1,h2,…,hL ]=Encoder( [ x1,x2,…,xL ] ), (1)
其中 hi 表示句子xi 的嵌入。
考慮到BERT 處理文本的長度不能超過512 個字符,因此,在處理篇章級文檔,利用動態窗口對整個文檔進行編碼。具體來說,根據特定的步長將文本D 分成幾個跨度,并將它們分別輸入BERT。找到不同跨度的標記“[CLS]”或“lt;tgt;”的所有嵌入,對于在不同跨度中的相同事件,計算lt;tgt;標記所有嵌入的平均值,以獲得事件ei 的最終事件表示hei。
2.2 基于GAT的事件關系圖的事件因果關系識別
2.2.1 中心嵌入
考慮到中心事件在事件推理過程中扮演較為重要的角色。因此,本文沿用CHEER[3]的中心感知機制。獲得由文檔編碼器輸出的上下文事件嵌入hei 后,執行以下操作:
位置中心編碼:中心事件通常位于文章或段落的開頭或結尾,以突出其核心要旨。為每個位置隨機初始化一個向量,依據事件在文檔中的具體位置,為每個事件分配一個位置嵌入向量cpos。
度中心編碼:中心事件在整個文章中被多次提及。依據每個事件在事件關系圖中的節點度,為每個事件分配一個度中心嵌入向量cdeg。
中心感知事件嵌入表示:鑒于中心性編碼適用于每個事件,故直接將其融合進事件的上下文嵌入中。形式上,對于事件ei 及其對應的嵌入hei,通過以下方式獲得中心感知事件嵌入:
cei = hei||cpos( ei )||cdeg( ei ), (2)
其中cpos,cdeg 分別通過事件ei 的位置中心和度中心編碼獲得。
2.2.2 事件關系圖構建
給定文檔D 的所有事件,構造事件關系圖G={V,E},其中V 是節點集,E 是邊集。對于V中的每個節點,引用D 中不同的事件對,而不是單個事件。目的是了解事件之間的關系,即因果傳遞性這一高階推理。因果傳遞性主要是指,事件A 導致事件B,事件B 導致事件C,就可以得到事件A 導致事件C。對于邊E,將任何兩個節點之間的所有邊添加到E 中,不需要事件之間的任何先驗關系,因此,G 被初始化為完全圖。
2.2.3 基于GAT的事件關系圖
GAT[18]結合了圖卷積與注意力機制的網絡結構,在待處理圖的輸入上計算注意力。在每個節點更新其隱藏層輸出時,對相鄰節點進行注意力計算,以便為每個相鄰節點分配不同的權重,進而關注更重要的節點并忽略作用較小的節點。
為了預測事件ei 和ej 之間是否存在因果關系,將文檔中事件和事件對進行嵌入。首先使用事件對節點嵌入初始化節點特征向量。形式上,對于事件對(e1,e2)和對應的上下文嵌入(he1,he2),對其進行中心嵌入得到(ce1,ce2),事件對節點嵌入表示見公式(3)。
其中||表示拼接,0 表示神經層的初始狀態。
事件對節點的嵌入揭示了兩個事件之間的隱式關系信息,從而可以集成到事件對的表示學習中。另外,結構化推理通過全面考慮所有事件對,不僅進一步提升了節點特征的區分能力,也增強了因果關系的傳遞性。
利用GAT 網絡,對事件對節點進行嵌入表示,其中自注意機制用于度量事件對vi 與事件對vj 關聯關系的程度,其度量見公式(4)。
其中Wq,Wk 是權重關系矩陣, 根號下dk 是縮放因子。對于因果不相關節點將分配較低的注意力權重。
使用softmax 函數,對事件對vi 與事件對vj所有的鄰居節點關聯關系的程度進行歸一化,見公式(5)。
其中Ni 是節點i 的所有一階鄰居。
為了從鄰域信息中聚集事件對的關系知識,計算嵌入的加權線性組合:
其中Wv 是權重參數矩陣。
進一步,使用多頭注意力機制對事件vi 的節點進行如下表示:
其中||表示拼接,C 表示頭數,Wo 表示權重參數矩陣。
通過同時計算所有事件對節點的嵌入v(l),通過多層堆疊實現高階連接,從而捕獲復雜的相互作用。通過事件狀態的表征,可以建立單個事件與事件對之間的關系,用于中心事件的識別。
2.3 基于句子的中心嵌入的事件因果關系識別
語句的情感和因果關聯詞在一定程度上影響了該句中所包含的事件。對于中心事件的識別,從另一個維度即句子粒度出發,對句子進行中心感知,對事件和事件對進行表示
2.3.1 基于情感詞和關聯詞的中心嵌入
情感中心嵌入:事件的發生會使所在句子具有情感,而句子的情感色彩對句子中包含的事件會產生影響。比如在金融領域,金融機構或者金融媒體經常會用帶有強烈情感的話語煽動廣大投資者進行交易,產生的交易又會引發整體板塊的變化。
識別文本中的情感詞和否定詞,并將其輸入模型,以生成預測標簽(正面、負面或中性),為每個句子分配嵌入向量cemo。
金融情感詞典[19]主要包括停用詞、積極情感詞和消極情感詞。該詞典總計包含9 228 個詞語,其中包括5 890 個消極詞語和3 338 個積極詞語,以及“那么”“怎么”等連接詞和標點符號的停用詞。詞典包含的數據越多,情感預測的也就越準確。
關聯詞中心嵌入:在因果關系識別中,句子根據是否包含因果連接詞被分為顯式因果和隱式因果。1)顯式因果包括顯式連接詞,如“cause”“result”等具有明顯因果含義的動詞;模糊連接詞:無明顯的因果含義;可以通過結果性和工具性的動詞模式來實現因果含義的連接詞,如“decrease”“trigger”等;使因果代理與產生情況不可分割的連接詞,如“generate”等;非動詞模式,如“from”等。2)隱式因果無因果連接詞。
在關聯詞嵌入過程中,依據連接詞詞典[20]為句子中的因果連接詞打標簽,并為每個含關鍵詞的句子分配嵌入向量ckey。
2.3.2 基于句子粒度對于事件影響
基于句子粒度的特征,情感和關聯詞被嵌入到文本的初始句子中。由于中心性編碼被應用于每個句子,它們直接被添加到事件的上下文嵌入中。嵌入后的句子表示為:
csen = h[ CLS ]||cemo||ckey, (8)
其中cemo, ckey 分別通過情感中心和關鍵詞中心編碼獲得。
在訓練過程中,利用以下方式對事件ei 進行表示:
其中W 是事件對于句子的標記矩陣,N 是句子的個數。
根據句子對事件ei 表示后,每個事件兩兩組成事件對ei,j 。事件對節點嵌入表示見公式(10)。
ν′i =[cei||cej ]。(10)
通過事件狀態的表征,可以建立單個事件與事件對之間的關系,用于中心事件的識別。
2.4 事件表示的融合
結合事件關系圖和句子本身對事件因果關系的分析,我們得到了事件與事件對之間的表示。由公式(7)和公式(10)將這兩種事件對v 的表示進行疊加,并對結果的疊加狀態進行判別。
vj = vi + v′i, (11)
pei,j = softmax( vj ), (12)
其中pei,j 是事件ei 和ej 是否存在因果關系的預測概率。判別的最終目的是篩選出中心事件相關的事件對。
2.5 模型的損失函數
根據ERGO[1]采用焦點損失以減輕假陰性問題(即,在訓練期間負樣本的數量遠遠超過正樣本的數量)。采用權重因子β ∈[0,1]用于平衡焦點損失變量。損失函數L1 可以寫成:
其中τ 是聚焦超參數,β 是加權超參數,其值與正樣本和負樣本的比率有關。
我們對中心事件進行預測的損失函數如下:
鑒于單個句子可能包含多個事件,并且一個事件可能跨越多個句子,為了更有效地表示事件,在模型優化過程中引入了以下損失函數項:
L3 = |EST - W|2F, (15)
其中E 是事件矩陣,其每一行由cei 構成。S 是句子中心嵌入矩陣,W 是事件對于句子的標記矩陣。
EST 計算了每個事件與每個句子的內積,通過最小化EST 與W 的均方誤差,使得能夠在模型優化過程中被動態調整。最終的損失函數如下:
L = L1 + L2 + λL3, (16)
其中λ 是一個超參數,用來調控L。
3 實驗
3.1 數據集
本文研究的數據主要為自建數據集和公開數據集EventStoryLine[21]。
表1 自建數據集:本文研究的金融事件數據主要通過經典主題聚類算法(Latent DirichletAllocation,LDA)進行聚類處理,數據來源包括《人民日報》金融板塊、《每日財經》《每日政經新聞》《東方財富網》等2022—2023 年的金融新聞。數據源的新聞文本經過詞頻與逆文檔詞頻(TermFrequency-Inverse Document Frequency,TF-IDF)統計方法和Jieba 分詞工具處理后,低頻詞被統計出并用于篩選關鍵詞和觸發詞。經過人工校對和清洗,包括中心事件的標注以及剔除與事件抽取無關的組織和數據等,進一步保證了數據質量,事件識別任務的精確性得到提升。
數據集EventStoryLine:該數據包含22 個主題,不包含金融主題,但部分主題中含有少量與金融領域有關的篇章。其中,數據集中包括258 個文檔,5 334 個事件,7 805 個句內事件對和62 774 個句間事件對(其中1 770 個和3 885個分別用因果關系注釋)。
在對篇章中心事件進行標注時,考慮到以下幾個原則[2]:(1)中心事件必須是篇章的焦點;(2)篇章中描述的所有事件都必須與之相關;(3)中心事件的共指也將被視為中心事件;(4)在正確完整表達主要內容的前提下,中心事件的數量應盡可能少,一般為1 到2 個。
在對篇章中心事件進行標注時,考慮到以下幾個原則[2]:(1)中心事件必須是篇章的焦點;(2)篇章中描述的所有事件都必須與之相關;(3)中心事件的共指也將被視為中心事件;(4)在正確完整表達主要內容的前提下,中心事件的數量應盡可能少,一般為1 到2 個。確保數據標注的準確性,標注者之間的平均一致率為85%。
3.2 實驗設置
基于Pytorch 實現本文的模型。使用未封裝的BERT[17]作為文檔編碼器。基于BERT 的文檔編碼器,將動態窗口大小設置為256,并將文檔劃分為幾個步長為32 的重疊窗口。基于Huggingface Transformer 的Pytorch 版本實現方法[22]。使用AdamW[23]優化模型,使用0.000 02的學習率。應用dropout[24]將模型參數的梯度裁剪為最大范數1.0。根據開發集的性能通過網格搜索執行早期停止并調整超參數:關系圖Transformer 模型的頭C ∈{ 1,2,4,8 },丟棄率∈{ 0.1,0.2,0.3 },聚焦參數γ ∈ { 0,1,2,3 },權重因子β ∈{ 0.25,0.50,0.75 },λ ∈{ 0.2,0.4,0.6,0.8 }。其中黑體參數為模型最后使用的超參數。
采用精確度(P)、召回率(R)及F1 分數(F1)作為評估指標。
3.3 基線方法
DECI 基線(1)文本呈現順序(Order of Pre?sentation,OP)[21]是一個為事件對分配因果關系的虛擬模型。(2)邏輯回歸(Logistic Regres?sion,LR)和整數線性規劃(Integer Linear Pro?gramming,ILP)[2]基于特征的方法,構建文檔級結構并使用各種類型的資源。(3)BERT(文中實現)是一個利用動態窗口和事件標記技術的基線方法。(4)RichGCN[16]構建了文檔級交互,使用GCN 關聯事件。(5)ERGO[1]構建了一個關系圖,并對事件對之間的交互進行建模。(6)CHEER[3]未公開代碼,在自建數據集上難以實驗,故不做對比實驗,只在公開數據集對比。
4 分析與討論
4.1 實驗結果分析
為了驗證本文方法的有效性,與第4.3 節的基線方法在自建的數據集上進行對比實驗,實驗結果見表2。
從表2 中,我們可以觀察到:(1)我們的模型在自建數據集中表現都優于其他基線,與數據集上的最佳模型(State of The Arts,SOTA)方法相比,我們的模型在F1 分數提高了1.8%。證明了方法的有效性。(2)與基于特征的方法OP、LR+和LIP 相比,使用PLM 的模型的性能得到了很大的提高,這驗證了BERT 可以為ECI 任務提取有用的文本特征。
為了進一步說明本文方法有較好的泛化性,選取了公開數據集EventStoryLine 進行驗證。在實驗中,針對句間(Inter)因果關系的識別結果和句內(Inter+Intra)因果關系的識別結果分別進行實驗以說明對于篇章級文本的效果。實驗結果見表3 所示。
從表3 中,我們可以觀察到:(1)在公開數據集EventStoryLine 中,我們的模型在句間(In?ter)因果關系的識別結果優于所有基線,在句內(Inter+Intra)因果關系的識別結果低于CHEER。原因是CHEER 研究事件本身,對于句內事件關系更容易識別,情感嵌入和關聯詞嵌入是在句子粒度上,使得跨句推理時識別效果更好。(2)句子間(Inter)設置的總體F1 分數遠低于句子內(Inter+Intra)設置的F1 分數,這表明篇章級ECI 仍具有改進空間。(3)BERT 基線在句內表現很好,但在句子間的性能不及句內,這表明篇章級文本使用圖結構有助于捕獲因果關系預測的全局交互。(4)我們注意到OP在EventStoryLine 上實現了最高的召回,這可能是由于通過模仿文本順序簡單的分配因果關系,這導致許多假陽性,從而導致低精度。
4.2 消融實驗
為了分析我們的模型提出的每個主要組件的效果,在自建數據集上進行消融實驗。具體實驗結果見表4 所示。
由表4 可以看出:
(1)事件中心性效應(無事件中心性),將使用的方法替換成GNN 網絡,其性能下降證明了GAT 網絡可以捕捉事件之間的因果關系,對于該任務要強于GNN 網絡。(2)去除損失L3 后性能下降,因為L3 主要是對表示的優化,其本質是一個優化過程,其證明了優化的有效性。(3)去掉句子情感嵌入后性能下降,原因是情感影響中心事件與相關事件的關系。(4)去掉關聯詞嵌入后性能下降,原因是在篇章文本里,關聯詞常常直接連接句子前后兩個因果事件。
5 結論
本文提出了一種新型因果識別模型,旨在面向金融篇章文本中探討事件間的關系。本模型以中心事件為核心,通過分析事件本身及其所在句子來推斷中心事件,并進一步匹配該中心事件對應的事件對。該模型通過精心設計的特性和多任務學習方法評估事件的中心性。大量實驗數據顯示,該模型在特定領域顯著提升了事件因果識別(ECI)的性能。進一步分析驗證了模型各主要組件的有效性。
參考文獻:
[1] CHEN M Q, CAO Y X, DENG K Q, et al. Ergo: EventRelational Graph Transformer for Document-level EventCausality Identification[C]//Proceedings of the 29th InternationalConference on Computational Linguistics.Stroudsburg, PA, USA: International Committee on ComputationalLinguistics, 2022: 2118-2128. DOI: 10.48550/arXiv.2204.07434.
[2] GAO L, CHOUBEY P K, HUANG R H. ModelingDocument-level Causal Structures for Event Causal RelationIdentification[C]//Proceedings of the 2019 Conferenceof the North. Stroudsburg, PA, USA: Associationfor Computational Linguistics, 2019: 1808-1817. DOI:10.18653/v1/n19-1179.
[3] CHEN M Q, CAO Y X, ZHANG Y, et al. CHEER:Centrality-aware High-order Event Reasoning Networkfor Document-level Event Causality Identification[C]//Proceedings of the 61st Annual Meeting of the Associationfor Computational Linguistics (Volume 1: Long Papers).Stroudsburg, PA, USA: Association for ComputationalLinguistics, 2023: 10804-10816. DOI: 10.18653/v1/2023.acl-long.604.
[4] GUI L, WU D Y, XU R F, et al. Event-driven EmotionCause Extraction with Corpus Construction[C]//Proceedingsof the 2016 Conference on Empirical Methods inNatural Language Processing. Stroudsburg, PA, USA:Association for Computational Linguistics, 2016: 1639-1649. DOI: 10.18653/v1/d16-1170.
[5] RIAZ M, GIRJU R. Toward a Better Understanding ofCausality between Verbal Events: Extraction and Analysisof the Causal Power of Verb-verb Associations[C]//Proceedings of the SIGDIAL 2013 Conference. Stroudsburg,PA, USA: Association for Computational Linguistics,2013: 21-30.
[6] DO Q, YEE S C, ROTH D. Minimally Supervised EventCausality Identification[C]//Proceedings of the 49st AnnualMeeting of the Association for Computational Linguistics.Stroudsburg, PA, USA: Association for ComputationalLinguistics, 2011: 294-303.
[7] HIDEY C, MCKEOWN K. Identifying Causal RelationsUsing Parallel Wikipedia Articles[C]//Proceedings of the54th Annual Meeting of the Association for ComputationalLinguistics (Volume 1: Long Papers). Stroudsburg,PA, USA: Association for Computational Linguistics,2016: 1424-1433. DOI: 10.18653/v1/p16-1135.
[8] NING Q, FENG Z L, WU H, et al. Joint Reasoning forTemporal and Causal Relations[C]//Proceedings of the56th Annual Meeting of the Association for ComputationalLinguistics (Volume 1: Long Papers). Stroudsburg,PA, USA: Association for Computational Linguistics,2018: 2278-2288. DOI: 10.18653/v1/p18-1212.
[9] HU Z C, RAHIMTOROGHI E, WALKER M. Inferenceof Fine-grained Event Causality from Blogs and Films[C]//Proceedings of the Events and Stories in the NewsWorkshop. Stroudsburg, PA, USA: Association for ComputationalLinguistics, 2017: 52-58. DOI: 10.18653/v1/w17-2708.
[10] ZUO X Y, CAO P F, CHEN Y B, et al. LearnDA:Learnable Knowledge-guided Data Augmentation forEvent Causality Identification[C]//Proceedings of the59th Annual Meeting of the Association for ComputationalLinguistics and the 11th International Joint Conferenceon Natural Language Processing (Volume 1:Long Papers). Stroudsburg, PA, USA: Association forComputational Linguistics, 2021: 3558-357. DOI:10.18653/v1/2021.acl-long.276.
[11] LIU J, CHEN Y B, ZHAO J. Knowledge EnhancedEvent Causality Identification with Mention MaskingGeneralizations[C]//Proceedings of the Twenty-NinthInternational Joint Conference on Artificial Intelligence.California: International Joint Conferences on ArtificialIntelligence Organization, 2020: 3608-3614. DOI:10.24963/ijcai.2020/499.
[12] ZUO X Y, CAO P F, CHEN Y B, et al. ImprovingEvent Causality Identification via Self-supervised RepresentationLearning on External Causal Statement[C]//Findings of the Association for Computational Linguistics:ACL-IJCNLP 2021. Stroudsburg, PA, USA: Associationfor Computational Linguistics, 2021: 2162-2172. DOI: 10.18653/v1/2021.findings-acl.190.
[13] YAO Y, YE D M, LI P, et al. DocRED: a Large-scaleDocument-level Relation Extraction Dataset[C]//Proceedingsof the 57th Annual Meeting of the Associationfor Computational Linguistics. Stroudsburg, PA, USA:Association for Computational Linguistics, 2019: 764-777. DOI: 10.18653/v1/p19-1074.
[14] MA Y B, WANG Z H, CAO Y X, et al. Prompt for Extraction?PAIE: Prompting Argument Interaction forEvent Argument Extraction[C]//Proceedings of the 60thAnnual Meeting of the Association for ComputationalLinguistics (Volume 1: Long Papers). Stroudsburg, PA,USA: Association for Computational Linguistics, 2022:6759-6774. DOI: 10.18653/v1/2022.acl-long.466.
[15] ZHAO K, JI D H, HE F Z, et al. Document-level EventCausality Identification via Graph Inference Mechanism[J]. Inf Sci, 2021, 561: 115-129. DOI: 10.1016/j.ins.2021.01.078.
[16] TRAN PHU M, NGUYEN T H. Graph ConvolutionalNetworks for Event Causality Identification with RichDocument-level Structures[C]//Proceedings of the 2021Conference of the North American Chapter of the Associationfor Computational Linguistics: Human LanguageTechnologies. Stroudsburg, PA, USA: Associationfor Computational Linguistics, 2021: 3480-3490.DOI: 10.18653/v1/2021.naacl-main.273.
[17] DEVLIN J, CHANG M W, LEE K, et al. BERT: Pretrainingof Deep Bidirectional Transformers for LanguageUnderstanding[EB/OL]. (2019-5-24) [2024-5-10]. https://doi.org/10.48550/arXiv.1810.04805.
[18] VELI?KOVI? P, CUCURULL G, CASANOVA A, et al.Graph Attention Networks[EB/OL]. (2018-2-4)[2024-5-10]. https://doi.org/10.48550/arXiv.1710.10903.
[19] 姜富偉, 孟令超, 唐國豪. 媒體文本情緒與股票回報預測[J]. 經濟學( 季刊), 2021, 21(4): 1323-1344. DOI:10.13821/J.cnki.ceq.2021.04.10.
JIANG F W, MENG L C, TANG G H. Media TextualSentiment and Chinese Stock Return Predictability[J].China Econ Q, 2021, 21(4): 1323-1344. DOI:10.13821/J.cnki.ceq.2021.04.10.
[20] 楊紀星, 楊波, 朱劍林, 等. 金融領域事件因果關系發現及事理圖譜構建與應用[J]. 中文信息學報, 2023, 37(7):131-142. DOI: 10.3969/j.issn.1003-0077.2023.07.016.
YANG J X, YANG B, ZHU J L, et al. Event CausalityExtraction, Eventic Graph Construction and Application inFinancial Domain[J]. J Chin Inf Process, 2023, 37(7): 131-142. DOI: 10.3969/j.issn.1003-0077.2023.07.016.
[21] CASELLI T, VOSSEN P. The Event StoryLine Corpus:a New Benchmark for Causal and Temporal RelationExtraction[C]//Proceedings of the Events and Stories inthe News Workshop. Stroudsburg, PA, USA: Associationfor Computational Linguistics, 2017: 77-86. DOI:10.18653/v1/w17-2711.
[22] WOLF T, DEBUT L, SANH V, et al. Transformers:State-of-the-art Natural Language Processing[C]//Proceedingsof the 2020 Conference on Empirical Methodsin Natural Language Processing: System Demonstrations.Stroudsburg: Association for Computational Linguistics,2020: 38-45. DOI: 10.18653/v1/2020. emnlpdemos.
[23] LOSHCHILOV I, HUTTER F. Decoupled Weight DecayRegularization[EB/OL]. (2019-01-04) [2024-05-10].https://doi.org/10.48550/arXiv.1711.05101.
[24] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al.Dropout: a Simple Way to Prevent Neural Networks fromOverfitting[J]. J Mach Learn Res, 2014, 15: 1929-1958.
基金項目:國家自然科學基金(62106130;62072294;62376143);山西省青年科學研究項目(20210302124084);山西省高等學校科技創新項目(2021L284)