李岳澤 左祥麟 左萬利 梁世寧 張一嘉 朱媛



摘要: 針對(duì)自然語言處理中傳統(tǒng)因果關(guān)系抽取主要用基于模式匹配的方法或機(jī)器學(xué)習(xí)算法進(jìn)行抽取,結(jié)果準(zhǔn)確率較低,且只能抽取帶有因果提示詞的顯性因果關(guān)系問題,提出一種使用大規(guī)模的預(yù)訓(xùn)練模型結(jié)合圖卷積神經(jīng)網(wǎng)絡(luò)的算法BERT-GCN. 首先,使用BERT(bidirectional encoder representation from transformers)對(duì)語料進(jìn)行編碼,生成詞向量; 然后,將生成的詞向量放入圖卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練; 最后,放入Softmax層中完成對(duì)因果關(guān)系的抽取. 實(shí)驗(yàn)結(jié)果表明,該模型在數(shù)據(jù)集SEDR-CE上獲得了較好的結(jié)果,且針對(duì)隱式的因果關(guān)系效果也較好.
關(guān)鍵詞: 自然語言處理; 因果關(guān)系抽取; 圖卷積神經(jīng)網(wǎng)絡(luò); BERT模型
中圖分類號(hào): TP391? 文獻(xiàn)標(biāo)志碼: A? 文章編號(hào): 1671-5489(2023)02-0325-06
Causality Extraction Based on BERT-GCN
LI Yueze1,ZUO Xianglin1,ZUO Wanli1,2,LIANG Shining1,ZHANG Yijia3,ZHU Yuan3
(1. College of Computer Science and Technology,Jilin University,Changchun 130012,China;
2. Key Laboratory of Symbol Computation and Knowledge Engineering of Ministry of Education,Jilin University,Changchun 130012,China;
3. College of Software,Jilin University,Changchun 130012,China)
Abstract: Aiming at the problem that the traditional causality extraction in natural language processing was mainly based? on? pattern matching methods
or machine learning algorithms,and accuracy of the results was low,and only explicit causality with causal cue words could be extracted,we proposed an algorithm BERT-GCN using large-scale pre
training model combined with graph convolutional neural network. Firstly, we used BERT (bidirectional encoder representation from transformers)
to encode the corpus and generate word vectors. Secondly, we put the generated word vectors into the graph convolutional neural network for training. Finally,we put them into the Softmax
layer to complete the extraction of causality. The experimental results show that? the model obtains good results on the SEDR-CE dataset,and the effect of implicit causality is also good.
Keywords: natural language processing; causality extraction; graph convolutional neural network (GCN); bidirectional encoder representation from transformers model
收稿日期: 2022-01-07.
第一作者簡介:
李岳澤(1997—),男,漢族,碩士研究生,從事自然語言處理和因果關(guān)系的研究,E-mail: yzli19@mails.jlu.edu.cn.
通信作者簡介: 左萬利(1957—),男,漢族,博士,教授,博士生導(dǎo)師,從事Web挖掘、 自然語言處理、 機(jī)器學(xué)習(xí)、 深度學(xué)習(xí)和網(wǎng)絡(luò)搜索引擎的研究,E-mail: zuowl@mails.jlu.edu.cn.
基金項(xiàng)目: 國家自然科學(xué)基金(批準(zhǔn)號(hào): 61976103)、 吉林省技術(shù)攻關(guān)項(xiàng)目(批準(zhǔn)號(hào): 20190302
029GX)和吉林省自然科學(xué)基金(批準(zhǔn)號(hào): 20180101330JC; 20180520022JH).
因果關(guān)系抽取是目前自然語言處理領(lǐng)域中的主要難題,已引起研究者們的廣泛關(guān)注. 因果關(guān)系表示客觀事件之間的一種普遍聯(lián)系,由兩個(gè)事件組成,即原因事件和結(jié)果事件. 因果關(guān)系抽取目標(biāo)任務(wù)主要分為兩類: 顯式因果,即含有明顯因果關(guān)系提示詞(如因?yàn)椋缘龋?隱式因果,即沒有明顯的因果關(guān)系提示詞,只能通過語義以及上下文進(jìn)行推理得到.
傳統(tǒng)的因果關(guān)系抽取主要使用基于模式匹配、 機(jī)器學(xué)習(xí)、 或者將兩者結(jié)合的方法. 基于模式匹配的方法使用符號(hào)特征以及語義特征抽取出文本中的因果關(guān)系. 文獻(xiàn)[1]使用模式匹配及語言信息從《華爾街日?qǐng)?bào)》中提取了因果關(guān)系知識(shí); 文獻(xiàn)[2]使用句法模型抽取因果關(guān)系,然后使用語義約束判斷候選事件實(shí)體對(duì)是否含有因果關(guān)系; 文獻(xiàn)[3]使用一種依賴語法關(guān)系及顯性因果提示詞構(gòu)建模板進(jìn)行因果對(duì)提取的方法. 完全依賴于模式匹配的方法通常只能提取出顯性因果關(guān)系,且不具有可遷移性,對(duì)于特定的文本可能效果較好,如果更換文本類型可能會(huì)導(dǎo)致結(jié)果較差. 基于模式匹配和機(jī)器學(xué)習(xí)相結(jié)合的方法主要使用Pipeline方法解決因果關(guān)系抽取任務(wù). Pipeline方法將因果關(guān)系抽取分為兩個(gè)子任務(wù): 提取候選因果對(duì)和關(guān)系分類. 先使用模板或者因果提示詞提取出可能含有因果關(guān)系的事件實(shí)體,然后結(jié)合語義特征建模,用機(jī)器學(xué)習(xí)方法對(duì)候選事件實(shí)體進(jìn)行分類,最終得到因果事件實(shí)體對(duì). 但基于Pipeline的方法存在幾個(gè)不足: 1) 誤差累積,第一階段實(shí)體識(shí)別產(chǎn)生的錯(cuò)誤不能在下一階段得到糾正,會(huì)產(chǎn)生錯(cuò)誤傳播,影響因果關(guān)系抽取; 2) 交互缺失,忽略了前后兩個(gè)任務(wù)之間的內(nèi)在聯(lián)系和依賴關(guān)系; 3) 實(shí)體冗余,由于先對(duì)抽取的因果關(guān)系實(shí)體進(jìn)行兩兩配對(duì),然后再進(jìn)行分類,沒有關(guān)系的候選實(shí)體對(duì)所帶來的冗余信息會(huì)提升錯(cuò)誤率,增加計(jì)算復(fù)雜度. 文獻(xiàn)[4]使用因果提示詞提取英文文本中的因果關(guān)系; 文獻(xiàn)[5]從網(wǎng)絡(luò)爬取的大規(guī)模文本語料庫中提取因果關(guān)系事件實(shí)體,然后使用點(diǎn)互信息的統(tǒng)計(jì)方法衡量網(wǎng)絡(luò)因果關(guān)系實(shí)體之間的因果強(qiáng)度. 隨著計(jì)算機(jī)技術(shù)的發(fā)展,使得深度學(xué)習(xí)模型的訓(xùn)練成為可能,深度學(xué)習(xí)的主要優(yōu)勢(shì)在于其有強(qiáng)大的表征學(xué)習(xí)能力,能有效捕捉隱性因果關(guān)系,因此使用深度學(xué)習(xí)的方法已成為該領(lǐng)域發(fā)展的趨勢(shì). 文獻(xiàn)[6]使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)文本的因果關(guān)系進(jìn)行了分類; 文獻(xiàn)[7]使用卷積神經(jīng)網(wǎng)絡(luò)從含有干擾信息的文本中提取背景知識(shí)分類常識(shí)性的因果關(guān)系; 文獻(xiàn)[8]使用面向知識(shí)的卷積神經(jīng)網(wǎng)絡(luò),使用詞匯庫等先驗(yàn)知識(shí)輔助因果關(guān)系分類; 文獻(xiàn)[9]使用長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)模型,根據(jù)模型提取的文本深層次特征抽取因果關(guān)系.
目前在因果關(guān)系抽取領(lǐng)域缺乏公開的數(shù)據(jù)集,并且不同的數(shù)據(jù)集使用不同的標(biāo)注方法. 針對(duì)該問題,本文從系列數(shù)據(jù)集SemEval以及數(shù)據(jù)集DocRED中抽取數(shù)據(jù),制定規(guī)則重新標(biāo)注. 并將BERT(bidirectional encoder representation from transformers)以及圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)[10]應(yīng)用到因果關(guān)系抽取領(lǐng)域. 本文采用BERT-GCN模型進(jìn)行因果關(guān)系抽取,先使用BERT將文本信息轉(zhuǎn)換為詞向量,再以詞向量為節(jié)點(diǎn),構(gòu)建因果關(guān)系權(quán)重圖,使用圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),抽取事件之間的因果關(guān)系. 在因果關(guān)系文本數(shù)據(jù)樣本信息較少、 因果關(guān)系本身的語義特點(diǎn)隱晦并且較難抽取的情況下,使用BERT和圖卷積神經(jīng)網(wǎng)絡(luò)能取得較好的結(jié)果.
1 BERT-GCN的模型結(jié)構(gòu)
1.1 BERT
BERT是基于Transformers的預(yù)訓(xùn)練模型[9],Transformers是一個(gè)包含多層堆疊的編碼器和解碼器結(jié)構(gòu)的模型. 多頭的注意力網(wǎng)絡(luò)和全連接的前饋神經(jīng)網(wǎng)絡(luò)是該模型的兩個(gè)核心組成部分.
1.1.1 詞表示層
由于計(jì)算機(jī)并不能像人一樣可以直觀理解文字的含義,只能識(shí)別數(shù)字0和1組成的字符串向量,因此需要將文字轉(zhuǎn)化為計(jì)算機(jī)可以理解的向量形式,這種轉(zhuǎn)化方式稱為詞向量. 傳統(tǒng)的詞向量主要有word2vec和glove. 但這些詞向量的表示無法解決多義詞的現(xiàn)象. 一個(gè)詞在不同的語境中有不同的含義,但使用這些詞向量的表示,一個(gè)詞只有一個(gè)詞向量,無法解決一詞多義問題. 例如“這張書桌是一個(gè)老古董”和“這個(gè)人簡直是一個(gè)不可理喻的老古董”中的“老古董”含義是不相同的,前者形容書桌年代久遠(yuǎn),有收藏價(jià)值,是褒義詞; 后者形容人思想老舊頑固,是貶義詞. 使用BERT生成詞向量即可解決該問題,在BERT中一個(gè)詞可根據(jù)上下文語義從多個(gè)詞向量中進(jìn)行選取,提高了模型準(zhǔn)確率.
BERT詞向量由三部分組成,即Token Embedding,Segment Embedding和Position Embedding. Token Embedding包含當(dāng)前單詞的上下文信息; Segment Embedding主要用來區(qū)分文本中句子的順序; Position Embedding主要是表示當(dāng)前單詞的位置屬性,可區(qū)分不同位置的相同單詞. BERT模型的Embdding表示如圖1所示.
2 實(shí) 驗(yàn)
2.1 數(shù)據(jù)來源
本文實(shí)驗(yàn)數(shù)據(jù)集為SemEval 2010 Task8,SemEval 2020 Task5和DocRED,選取SemEval 2010 Task8中的1 368個(gè)句子,SemEval 2020中的2 485個(gè)句子,并從DocRED中摘取了500篇文檔,進(jìn)行重新標(biāo)注,最終得到8 205個(gè)包含因果關(guān)系實(shí)體的句子,并加入8 000條不含因果的句子作為負(fù)樣本,實(shí)現(xiàn)正負(fù)樣本均衡. 本文將最終得到的數(shù)據(jù)集命名為SEDR-CE,并按7∶2∶1將數(shù)據(jù)分為訓(xùn)練集、 驗(yàn)證集和測試集.
2.2 數(shù)據(jù)標(biāo)注規(guī)則
使用BIO(B-begin,I-inside,O-outside)標(biāo)注規(guī)則,對(duì)因果實(shí)體短語進(jìn)行標(biāo)注,將每個(gè)因果實(shí)體對(duì)標(biāo)注為“B-X”、 “I-X”或者“O”. 其中: “B-C”表示該因果實(shí)體對(duì)所在的片段屬于原因類型,并且該元素在該片段的開頭; “I-C”表示該元素所在的片段屬于原因類型,并且該元素在該片段的中間位置; “B-E”表示該因果實(shí)體對(duì)所在的片段屬于結(jié)果類型,并且該元素在該片段的開頭; “I-E”表示該元素所在的片段屬于結(jié)果類型,并且該元素在該片段的中間位置; “O”表示不屬于任何類型. 具體標(biāo)注方法列于表1.
2.3 模型評(píng)估
本文主要使用抽取3種標(biāo)簽的“原因”(C)、 “結(jié)果”(E)和“其他”(O)的準(zhǔn)確率(P),召回率(R)以及F1值作為評(píng)價(jià)指標(biāo). 由于文章中大部分的單詞被標(biāo)注為“其他”(O),并且“其他”(O)不是本文實(shí)驗(yàn)的關(guān)注重點(diǎn),因此本文主要根據(jù)抽取的標(biāo)簽“原因”(C)和“結(jié)果”(E)的3個(gè)指標(biāo)判定模型性能.
2.4 對(duì)比模型
為驗(yàn)證本文BERT-GCN模型抽取因果關(guān)系實(shí)體的性能,本文選取6個(gè)模型做對(duì)比實(shí)驗(yàn),其中包含3個(gè)基準(zhǔn)模型: GCN,BERT,BERT+LSTM; 以及3個(gè)主流模型: TextGCN[14],BiLSTM+CRF[15],BiLSTM+self-ATT[16]. 本文將上述模型中的語義角色標(biāo)簽修改為本文標(biāo)注格式進(jìn)行因果關(guān)系抽取.
2.5 實(shí)驗(yàn)結(jié)果與分析
本文主要考慮因果關(guān)系的抽取,因此主要關(guān)注“原因”(C)和“結(jié)果”(E)的各項(xiàng)粗粒度指標(biāo),實(shí)驗(yàn)結(jié)果列于表2. 由表2可見,本文提出的BERT-GCN模型優(yōu)于其他模型,在本文所構(gòu)建的數(shù)據(jù)集上有較好的識(shí)別效果,“原因”(C)的準(zhǔn)確率達(dá)87.75%,召回率達(dá)87.30%,F(xiàn)1值達(dá)87.52%,“結(jié)果”(E)的準(zhǔn)確率達(dá)88.29%,召回率達(dá)88.91%,F(xiàn)1值達(dá)88.60%. 在本文構(gòu)建的數(shù)據(jù)集上,對(duì)比實(shí)驗(yàn)效果最好的是BERT+LSTM和BERT-GCN,這主要是因?yàn)锽ERT模型有大量的預(yù)訓(xùn)練語料,使構(gòu)建的詞向量表征能力更強(qiáng),更好地學(xué)習(xí)到了文本中的因果關(guān)系,證明使用大規(guī)模的預(yù)訓(xùn)練模型對(duì)因果關(guān)系抽取任務(wù)有顯著提升. 實(shí)驗(yàn)結(jié)果表明,GCN模型相比LSTM在因果關(guān)系抽取任務(wù)上的性能更好,這主要是因?yàn)閳D卷積神經(jīng)網(wǎng)絡(luò)中的卷積操作相比LSTM中的單向按語序?qū)W習(xí)到更多的上下文信息,有助于因果關(guān)系的抽取,使用Softmax對(duì)卷積結(jié)果進(jìn)行分類篩選對(duì)模型的性能也有提升.
綜上所述,針對(duì)自然語言處理中傳統(tǒng)因果關(guān)系抽取主要用基于模式匹配的方法或機(jī)器學(xué)習(xí)算法進(jìn)行抽取,結(jié)果準(zhǔn)確率較低,且只能抽取帶有因果提示詞的顯性因果關(guān)系問題, 本文提出了一個(gè)基于大規(guī)模預(yù)訓(xùn)練和圖神經(jīng)網(wǎng)絡(luò)的模型,通過在因果關(guān)系抽取任務(wù)中引入圖卷積神經(jīng)網(wǎng)絡(luò),結(jié)合大規(guī)模預(yù)訓(xùn)練模型,不僅能提取出每個(gè)單詞更豐富的序列特征,而且使模型能更好地提取單詞的局部信息. 使用圖卷積神經(jīng)網(wǎng)絡(luò)不僅能考慮到所有事件實(shí)體對(duì)之間的隱含關(guān)系,而且能較好地解決關(guān)系重疊的問題. 在本文數(shù)據(jù)集上評(píng)估該方法的實(shí)驗(yàn)結(jié)果表明,該方法性能較優(yōu).
參考文獻(xiàn)
[1] KHOO C S G,KORNFILT J,ODDY R N,et al. Automatic Extraction of Cause-Effect Info
rmation from Newspaper Text without Knowledge-Based Inferencing [J]. Literary and Linguistic Computing,1998,13(4): 177-186.
[2] GIRJU R,MOLDOVAN D. Text Mining for Causal Relations [C]//Proceedings of the 15th International Florida Artificial Intelligence Res
earch Society Conference. Palo Alto,CA: AAAI Press,2002: 360-364.
[3] ITTOO A,BOUMA G. Extracting Explicit and Implicit Causal Relations from Sparse,Domain-Specific Texts [C]//Proceedings of 16th In
ternational Conference on Applications of Natural Language to Information Systems. Berlin: Springer,2011: 52-63.
[4] GIRJU R. Automatic Detection of Causal Relations for Question Answering [C]//Proceedings of the ACL 2003 Workshop on Multilingual S
ummarization and Question Answering. Stroudsburg,PA: Association for Computational Linguistics,2003: 76-83.
[5] LUO Z Y,SHA Y C,ZHU K Q,et al. Commonsense Causal Reasoni
ng between Short Texts [C]//Proceedings of the 15th International Conference on Principles of Knowledge Representation and Reasoning. Palo Alto,CA: AAAI Press,2016: 421-430.
[6] DE SILVA T N,XIAO Z B,ZHAO R,et al. Causal Relation Identification Using Convolutional Neural Networks and Knowledge Based Features [J]
. World Academy of Science,Engineering and Technology: International Journal of Mechanical and Mechatronics Engineering,2017,11(6): 703-708.
[7] KRUENGKRAI C,TORISAWA K,HASHIMOTO C,et al. Improving Event Causality Recognition with Multiple Background Knowledge Sources Using M
ulti-column Convolutional Neural Networks [C]//Proceedings of the 31st AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press,2017: 3466-3473.
[8] LI P F,MAO K Z. Knowledge-Oriented Convolutional Neural Ne
twork for Causal Relation Extraction from Natural Language Texts [J]. Expert Systems with Applications,2019,115: 512-523.
[9] DASGUPTA T,SAHA R,DEY L,et al. Automatic Extraction of Causal Relations from Text Using Linguistically Informed Deep Neural Networks
[C]//Proceedings of the 19th Annual SIGdial Meeting on Discourse and Dialogue. Stroudsburg,PA: Association for Computational Linguistics,2018: 306-316.
[10] KIPF T N,WELLING M. Semi-supervised Classification with Graph Convolutional Networks [EB/OL].
(2016-09-09)[2022-03-01]. https://arxiv.org/abs/1609.02907.
[11] VASWANI A,SHAZEER N,PARMAR N,et al. Attention Is All
You Need [C]//Advances in Neural Information Processing Systems. New York: ACM,2017: 5998-6008.
[12] 付劍鋒,劉宗田,劉煒,等. 基于層疊條件隨機(jī)場的事件因果關(guān)系抽取 [J]. 模式識(shí)別與人工智能,2011,24(4): 567-573. (FU J F,LIU Z T,
LIU W,et al. Event Causal Relation Extraction Based on Cascaded Conditional Random Fields [J]. Pattern Recognition and Artificial Intelligence,2011,24(4): 567-573.)
[13] 許晶航,左萬利,梁世寧,等. 基于圖注意力網(wǎng)絡(luò)的因果關(guān)系抽取 [J]. 計(jì)算機(jī)研究與發(fā)展,2020,57(1): 159-174. (XU J H,ZUO W L,LIANG
S N,et al. Causal Relation Extraction Based on Graph Attention Networks [J]. Journal of Computer Research and Development,2020,57(1): 159-174.)
[14] YAO L,MAO C S,LUO Y.? Graph Convolutional Networ
ks for Text Classification [C]//Proceedings of the AAAI Conference on Artificial Intel-Ligence. Palo Alto,CA: AAAI Press,2019: 7370-7377.
[15] HUANG Z H,XU W,YU K. Bidirectional LSTM-CRF Mode
ls for Sequence Tagging [EB/OL]. (2015-08-09)[2021-11-11]. https://arxiv.org/abs/1508.01991.
[16] TAN Z X,WANG M X,XIE J,et al. Deep Semantic Role Labelin
g with Self-attention [C]//Thirty-Second AAAI Conf on Artificial Intelligence. Palo Alto,CA: AAAI Press,2018: 1-8.
(責(zé)任編輯: 韓 嘯)
吉林大學(xué)學(xué)報(bào)(理學(xué)版)2023年2期