
















摘 要: "從非結(jié)構(gòu)化文本中聯(lián)合提取實(shí)體和關(guān)系是信息抽取中的一項(xiàng)重要任務(wù)。現(xiàn)有方法取得了可觀的性能,但仍受到一些固有的限制,如錯(cuò)誤傳播、預(yù)測存在冗余性、無法解決關(guān)系重疊問題等。為此,提出一種基于圖神經(jīng)網(wǎng)絡(luò)的聯(lián)合實(shí)體關(guān)系抽取模型BSGB(BiLSTM+SDA-GAT+BiGCN)。BSGB分為兩個(gè)階段:第一階段將語義依存分析擴(kuò)展到語義依存圖,提出融合語義依存圖的圖注意力網(wǎng)絡(luò)(SDA-GAT),通過堆疊BiLSTM和SDA-GAT提取句子序列和局部依賴特征,并進(jìn)行實(shí)體跨度檢測和初步的關(guān)系預(yù)測;第二階段構(gòu)建關(guān)系加權(quán)GCN,進(jìn)一步建模實(shí)體和關(guān)系的交互,完成最終的實(shí)體關(guān)系三元組抽取。在NYT數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該模型 F 1 值達(dá)到了67.1%,對比在該數(shù)據(jù)集的基線模型提高了5.2%,對重疊關(guān)系的預(yù)測也有大幅改善。
關(guān)鍵詞: "聯(lián)合實(shí)體關(guān)系抽取; 圖注意力網(wǎng)絡(luò); 語義依存圖
中圖分類號: "TP391 """文獻(xiàn)標(biāo)志碼: A
文章編號: "1001-3695(2022)02-017-0424-08
doi:10.19734/j.issn.1001-3695.2021.07.0318
Joint entity relation extraction based on graph neural network
Miao Lin, Zhang Yingjun, Xie Binhong, Li Yu
(College of Computer Science amp; Technology, Taiyuan University of Science amp; Technology, Taiyuan 030024, China)
Abstract: "Joint extraction of entities and relations from unstructured text is an important task in information extraction.The existing methods have achieved considerable performance,but are still subject to some inherent limitations,such as error propagation,redundancy of relation prediction,inability to solve the problem of relations overlap,etc.For this reason,this paper proposed a joint entity relationship extraction model BSGB(BiLSTM+SDA-GAT+BiGCN) based on graph neural network.BSGB was a two-stage predicting process.The first stage of this model extended the semantic dependency analysis to the semantic dependency graph,and proposed a graph attention network to integrate the semantic dependency graph(SDA-GAT).By stacking BiLSTM and SDA-GAT,it extracted sentence sequence and local dependent features,and performed entity span detection and preliminary relationship prediction.In the second stage,it constructed the relation-weighted GCN,which further modeled the interaction between entities and relations,and completed the final extraction of entity-relationship triples.The experimental results on the NYT dataset show that the "F 1 "value of this model reaches 67.1%,which is 5.2% higher than the baseline model in this dataset,and the prediction of the overlap relation is also significantly improved.
Key words: "joint entity relation extraction; graph attention network(GAT); semantic dependency graph
0 引言
從非結(jié)構(gòu)化文本中提取實(shí)體及其語義關(guān)系是構(gòu)建知識圖譜的一項(xiàng)基本任務(wù)。該任務(wù)根據(jù)給定文本的語義信息提取實(shí)體并推測實(shí)體間的關(guān)系,最終以(頭實(shí)體,關(guān)系,尾實(shí)體)或( h,r,t )關(guān)系三元組輸出結(jié)果。例如,根據(jù)句子“George was born in Washington”,可以得到“George”與“Washington”兩個(gè)實(shí)體,同時(shí)可以通過語義得到“born_in”的關(guān)系,并最終抽取出(George,born_in,Washington)的知識三元組。
現(xiàn)有的實(shí)體關(guān)系抽取方法主要包括流水線方法和聯(lián)合提取方法。流水線方法將抽取任務(wù)分解為實(shí)體識別和關(guān)系抽取兩個(gè)獨(dú)立的子任務(wù),并將實(shí)體識別產(chǎn)生的結(jié)果送到關(guān)系分類器中進(jìn)行分類。該方法簡單靈活,但是存在三個(gè)不足:a)誤差積累,第一階段實(shí)體識別產(chǎn)生的錯(cuò)誤不能在下一階段糾正,產(chǎn)生錯(cuò)誤傳播,進(jìn)而可能導(dǎo)致關(guān)系分類的不準(zhǔn)確甚至失敗[1];b)實(shí)體冗余,實(shí)體識別出來后,為進(jìn)行后續(xù)關(guān)系抽取,需要對實(shí)體進(jìn)行配對處理,但是抽取出的大量實(shí)體中并非所有實(shí)體都存在合理關(guān)系,這種冗余信息增加了計(jì)算復(fù)雜度,也進(jìn)一步導(dǎo)致錯(cuò)誤率提升[1];c)交互缺失,命名實(shí)體識別和關(guān)系抽取兩個(gè)子任務(wù)互相依賴,有著內(nèi)在的聯(lián)系,流水線方法忽視了子任務(wù)之間的潛在交互,因此性能不佳。
為了解決流水線方法存在的問題,隨后的工作提出了聯(lián)合提取方法。該方法在單個(gè)模型中實(shí)現(xiàn)實(shí)體識別和關(guān)系提取,兩者在聯(lián)合執(zhí)行過程中相輔相成,避免了傳統(tǒng)方法中存在的誤差積累、子任務(wù)聯(lián)系不緊密等問題,加強(qiáng)了兩個(gè)子任務(wù)之間的交互,密切地考慮到了兩個(gè)任務(wù)之間的依賴關(guān)系,提高了整體任務(wù)的準(zhǔn)確率。然而,當(dāng)一個(gè)文本包含多個(gè)共享相同實(shí)體的關(guān)系三元組時(shí),任務(wù)會(huì)變得更具挑戰(zhàn)性,如表1所示,其中,normal型表示文本中只存在一種實(shí)體關(guān)系,即文本中實(shí)體關(guān)系三元組只存在一種。而句子“Jackie Chan played a role in his movie “Plan A””這句話中包含兩個(gè)關(guān)系三元組(Jackie Chan,act_in,Plan A)和(Jackie Chan,direct_movie,Plan A),并且兩者共享同一實(shí)體對(Jackie Chan,Plan A),即一個(gè)實(shí)體對之間存在著多種關(guān)系,稱之為實(shí)體對重疊問題(entity pair overlap,EPO)。此外,句子“Li Ping was born in Beijing,the capital of China”為單一實(shí)體重疊問題(single entity overlap,SEO),即句子中一個(gè)實(shí)體與其他不同實(shí)體之間存在著多種關(guān)系。EPO和SEO都屬于關(guān)系重疊問題,大多數(shù)現(xiàn)有的方法不能有效地處理句子包含多個(gè)相互重疊的關(guān)系三元組的問題。
考慮到自然語言更傾向于樹的結(jié)構(gòu),使用圖神經(jīng)網(wǎng)絡(luò)對其進(jìn)行處理有著更為顯著的優(yōu)勢。為了更好地處理關(guān)系重疊問題,受文獻(xiàn)[2]的啟發(fā),本文提出了一種基于圖神經(jīng)網(wǎng)絡(luò)的聯(lián)合實(shí)體關(guān)系抽取模型BSGB(BiLSTM+SDA-GAT+BiGCN)。BSGB分為兩個(gè)階段:第一階段將BiLSTM和GAT相結(jié)合,不僅提取每個(gè)單詞的順序特征,還提取每個(gè)單詞的局部依賴特征,同時(shí)通過對句子進(jìn)行語義依存分析,充分提取句子的深層語義信息,基于提取到的特征,進(jìn)行第一階段的實(shí)體和關(guān)系預(yù)測;第二階段引入關(guān)系加權(quán)GCN,利用上一階段的關(guān)系預(yù)測結(jié)果為每個(gè)關(guān)系構(gòu)建關(guān)系加權(quán)圖,考慮實(shí)體與關(guān)系之間的相互聯(lián)系,加強(qiáng)實(shí)體和關(guān)系間的交互,使最終的實(shí)體關(guān)系抽取具有更好的準(zhǔn)確性和魯棒性。
本文將語義依存樹拓展到語義依存圖,充分利用句子的語義結(jié)構(gòu)信息,并結(jié)合圖注意力網(wǎng)絡(luò),為不同的單詞節(jié)點(diǎn)分配不同的重要性,提出一種新的端到端實(shí)體關(guān)系聯(lián)合抽取模型(BSGB)。
1 相關(guān)工作
早期的流水線方法將實(shí)體關(guān)系抽取建模為兩個(gè)獨(dú)立的任務(wù),先進(jìn)行實(shí)體識別,而后對實(shí)體對之間的關(guān)系進(jìn)行分類。為了建立這兩項(xiàng)任務(wù)之間的相關(guān)性,聯(lián)合模型引起了廣泛關(guān)注。實(shí)體關(guān)系聯(lián)合抽取方法主要有基于共享參數(shù)方法、基于序列標(biāo)注方法和基于圖結(jié)構(gòu)方法三種。
基于共享參數(shù)的方法將命名實(shí)體識別和關(guān)系抽取兩個(gè)子任務(wù)通過共享參數(shù)的編碼層在訓(xùn)練過程中產(chǎn)生的共享參數(shù)相互依賴,最終訓(xùn)練得到最佳的全局參數(shù),從而得到最優(yōu)的模型性能。Zheng等人[3]通過共享BiLSTM編碼層的參數(shù)實(shí)現(xiàn)兩個(gè)子任務(wù)之間的依賴關(guān)系。Li等人[4]通過建立依賴樹并從中提取特征,將模型應(yīng)用于生物醫(yī)學(xué)文本提取。Miwa等人[5]提出基于詞序信息和依存樹結(jié)構(gòu)的LSTM抽取實(shí)體及其關(guān)系。孫長志[6]提出了基于風(fēng)險(xiǎn)最小化訓(xùn)練方法的聯(lián)合實(shí)體關(guān)系抽取模型,將實(shí)體識別視為序列標(biāo)記任務(wù),將關(guān)系檢測視為分類任務(wù),分別利用BiLSTM和CNN,進(jìn)行共享參數(shù)的聯(lián)合訓(xùn)練。總體而言該方法易產(chǎn)生信息冗余,存在誤差積累問題,關(guān)系識別子任務(wù)還是會(huì)受到實(shí)體識別結(jié)果的影響。
基于序列標(biāo)注方法的提出是為了解決共享參數(shù)方法易產(chǎn)生信息冗余的問題,通常采取相應(yīng)的標(biāo)注策略,進(jìn)一步加強(qiáng)模型間的內(nèi)部聯(lián)系。Zheng等人[7]將關(guān)系提取定義為一個(gè)序列標(biāo)注問題。在BiLSTM編碼器之上通過LSTM解碼器對關(guān)系提取進(jìn)行建模,減少了無效實(shí)體對模型的影響。 但該模型的優(yōu)勢在于處理孤立的關(guān)系,完全放棄了在數(shù)據(jù)集上相對罕見的重疊關(guān)系。Bekoulis等人[8]的模型將命名實(shí)體識別和關(guān)系抽取建模為多頭選擇問題,充分地表示了實(shí)體之間的多種關(guān)系。在之后的研究中,Bekoulis等人[9]將對抗訓(xùn)練應(yīng)用到聯(lián)合實(shí)驗(yàn)中,取得了跨語言、多數(shù)據(jù)集的先進(jìn)結(jié)果。基于序列標(biāo)注的方法一定程度上解決了信息冗余的問題,但是仍未解決重疊關(guān)系問題。
基于圖結(jié)構(gòu)的方法利用圖的顯著優(yōu)勢,旨在解決前兩種方法無法解決的關(guān)系重疊問題進(jìn)行研究。Wang等人[10]提出一種新的基于圖結(jié)構(gòu)的聯(lián)合學(xué)習(xí)模型,該方法不僅能有效解決關(guān)系重疊問題,而且使用偏執(zhí)權(quán)重的損失函數(shù)增強(qiáng)相關(guān)實(shí)體間的關(guān)聯(lián)性,并在準(zhǔn)確率、召回率及 F 1 值均有較大提升。文獻(xiàn)[2]利用圖卷積網(wǎng)絡(luò)聯(lián)合學(xué)習(xí)命名實(shí)體和關(guān)系,通過構(gòu)建關(guān)系圖有效地挖掘?qū)嶓w對之間的潛在特征,一定程度上解決了關(guān)系重疊的問題,在NYT和WebNLG數(shù)據(jù)集上的評估也取得了較為突出的結(jié)果。在生物醫(yī)學(xué)領(lǐng)域,劉蘇文等人[11]基于多任務(wù)思想,針對生物醫(yī)學(xué)領(lǐng)域的因果關(guān)系抽取,利用LSTM和門控機(jī)制學(xué)習(xí)兩個(gè)任務(wù)的關(guān)聯(lián)性提出聯(lián)合模型,在2015 BC-V測試集上取得了45.3%的 F 1 值。Lai等人[12]構(gòu)建KECI模型,在初始跨度圖的基礎(chǔ)上引入背景知識圖,用于解決生物醫(yī)學(xué)文檔中因包含許多高度專業(yè)化術(shù)語、首字母縮略詞和縮寫詞,而導(dǎo)致提取實(shí)體類型不對、關(guān)系類型判斷錯(cuò)誤的問題。
值得討論的是:a)在實(shí)體提取方面,KECI采用設(shè)置滑動(dòng)窗口的方式利用前饋神經(jīng)網(wǎng)絡(luò)尋找span,進(jìn)而提取實(shí)體。雖然KECI設(shè)置了滑動(dòng)窗口值為非實(shí)體的最低概率分?jǐn)?shù),但是這種方式效率較低,仍然存在“無用實(shí)體”,排列組合的方式較多,易導(dǎo)致冗余;BSGB模型采用BiLSTM識別實(shí)體,采用BILOU標(biāo)簽方案,相比之下,識別結(jié)果更準(zhǔn)確;b)在關(guān)系提取方面,KECI使用前饋神經(jīng)網(wǎng)絡(luò),并對應(yīng)背景知識圖;BSGB使用語義依存分析和圖注意力網(wǎng)絡(luò)相結(jié)合的方式,利用鄰接矩陣中的詞間依賴,更細(xì)致地計(jì)算詞間注意力,得到詞間關(guān)系概率。
雖然已有工作推動(dòng)了實(shí)體關(guān)系聯(lián)合抽取的發(fā)展,但是仍存在兩個(gè)子任務(wù)聯(lián)系不夠緊密、各類關(guān)系重疊尚未得到妥善解決的問題。受文獻(xiàn)[2]啟發(fā),本文基于圖神經(jīng)網(wǎng)絡(luò)提出一種新的實(shí)體關(guān)系聯(lián)合抽取模型(BSGB),通過堆疊雙向LSTM和GAT來考慮句子的線性和依賴結(jié)構(gòu),同時(shí)構(gòu)建關(guān)系加權(quán)GCN來進(jìn)一步建模實(shí)體和關(guān)系之間的交互,從而提高重疊關(guān)系復(fù)雜場景下的關(guān)系三元組抽取性能。
2 BiLSTM+SDA-GAT+BiGCN模型
BSGB模型將預(yù)測過程分為兩個(gè)階段,其總體結(jié)構(gòu)如圖1所示。在第一階段,首先利用句子的線性和依賴結(jié)構(gòu),采用BiLSTM和融合語義依存圖的GAT提取句子序列特征和單詞的局部依賴特征;然后,基于提取的單詞特征,預(yù)測句子中的實(shí)體范圍和每個(gè)單詞對之間的關(guān)系。在第二階段,為了深入全面地提取詞間關(guān)系特征,并充分考慮實(shí)體和關(guān)系之間的交互,根據(jù)第一階段的關(guān)系預(yù)測結(jié)果,為每個(gè)關(guān)系構(gòu)建關(guān)系加權(quán)圖,在每個(gè)關(guān)系加權(quán)圖上應(yīng)用雙向的GCN進(jìn)一步整合每個(gè)關(guān)系的信息,完成最終的實(shí)體關(guān)系預(yù)測。
2.1 第一階段預(yù)測
2.1.1 詞表示層
為了獲得計(jì)算機(jī)可理解的表達(dá)語言,詞表示層將文本數(shù)據(jù)轉(zhuǎn)換成向量形式,然后輸入到神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取。對于輸入句子中的每個(gè)單詞使用GloVe[13]模型進(jìn)行預(yù)訓(xùn)練,獲取每個(gè)單詞的嵌入表示。同時(shí)為了豐富詞表示信息,引入單詞的詞性特征,詞性嵌入被隨機(jī)初始化,并在訓(xùn)練過程中動(dòng)態(tài)調(diào)整。具體來說,對于句子 S={w 1,w 2,…,w n}中的單詞w i ,經(jīng)過詞表示層預(yù)處理之后,得到單詞嵌入和詞性嵌入,進(jìn)行拼接得到其完整的嵌入表示:
e i= word (w i) +POS (w i) ""(1)
其中: e i 表示單詞 w i 的初始特征;word( w i) 和POS (w i)分別是單詞w i 的詞嵌入和詞性嵌入。
2.1.2 BiLSTM層
在獲取上下文特征的任務(wù)中,BiLSTM表現(xiàn)優(yōu)異,為了充分利用句子的上下文信息,有效捕獲每個(gè)單詞的語義信息和詞間依賴關(guān)系,本文使用BiLSTM作為第一個(gè)特征提取網(wǎng)絡(luò)對句子的上下文進(jìn)行建模。給定一個(gè)輸入句子 S,經(jīng)過預(yù)處理獲得其單詞嵌入表示e i 輸入到BiLSTM中,得到句子中每個(gè)單詞基于上下文的特征向量 h "i 。
h "i =BiLSTM (e i;θ) ""(2)
其中: h "i 是BiLSTM的隱層狀態(tài)向量; θ 是網(wǎng)絡(luò)參數(shù)。
同時(shí)為了獲取句子中每一個(gè)未分類實(shí)體的邊界,利用從BiLSTM提取到的單詞特征,采用BILOU標(biāo)簽方案進(jìn)行第一階段的實(shí)體邊界檢測,并使用softmax函數(shù)預(yù)測單詞 w i 對應(yīng)的標(biāo)簽 ""。其中B、I、L和O分別表示實(shí)體的開始、中間、結(jié)尾和外部,U 表示單個(gè)詞實(shí)體。例如對于地點(diǎn)實(shí)體(LOC):“New York”,將 B 分配給“New”,將 L 分配給“York”。
P( |s)= softmax (W spanh i) ""(3)
其中: W span 是模型參數(shù)。給定句子 s和真實(shí)的標(biāo)簽序列t=t 1,…,t |s|, "i為預(yù)測標(biāo)簽,P( "i=t i|s) 表示對于當(dāng)前給定的句子,預(yù)測的標(biāo)簽等于真實(shí)標(biāo)簽的概率,因此實(shí)體邊界檢測的目標(biāo)是最小化以下交叉熵?fù)p失函數(shù):
eloss 1p=- 1 |s| ∑ |s| i=1 "log "P( "i=t i|s) ""(4)
2.1.3 基于語義依存圖的圖注意力網(wǎng)絡(luò)(SDA-GAT)
1)圖注意力網(wǎng)絡(luò)(GAT) GAT[14]將注意力機(jī)制與圖卷積網(wǎng)絡(luò)結(jié)合起來,是一種基于空間的圖卷積網(wǎng)絡(luò)。GAT解決了圖卷積網(wǎng)絡(luò)無法處理有向圖、無法為不同節(jié)點(diǎn)分配不同重要性的問題。在圖結(jié)構(gòu)數(shù)據(jù)上計(jì)算注意力,可以隱式地為同一節(jié)點(diǎn)的鄰接節(jié)點(diǎn)分配不同的權(quán)重,從而實(shí)現(xiàn)關(guān)注影響較大的節(jié)點(diǎn),忽略影響較小的節(jié)點(diǎn)。注意力系數(shù)僅與節(jié)點(diǎn)特征相關(guān),與圖結(jié)構(gòu)無關(guān)。其具有計(jì)算簡潔、允許不同權(quán)重的鄰接節(jié)點(diǎn)、不依賴于整個(gè)圖結(jié)構(gòu)等優(yōu)勢。
BSGB在第一階段將GAT與語義依存圖相結(jié)合,利用語義依存圖所對應(yīng)的鄰接矩陣中存儲(chǔ)的語義依存關(guān)系,考慮句子中不同單詞的重要程度,同時(shí)采用多頭注意力機(jī)制來穩(wěn)定注意力的學(xué)習(xí)過程,增強(qiáng)模型的魯棒性,進(jìn)而獲取更全面的特征信息。
2)語義依存圖 語義依存分析(semantic dependence ana-lysis,SDA)是自然語言處理中的關(guān)鍵技術(shù)之一,是指分析文本句子中各語言單位之間的語義關(guān)聯(lián),并將語義關(guān)聯(lián)表示為依存結(jié)構(gòu)。語義依存無須抽象詞語本身,而是通過所承載的語義框架對詞語進(jìn)行描述,跨越句子表層句法結(jié)構(gòu)的束縛,直接獲取深層的語義信息。本文使用語義依存來刻畫句子語義,將其擴(kuò)展到圖,提出語義依存圖的概念,通過分析句子語義結(jié)構(gòu),得到語義依存圖,其中頂點(diǎn)與句子中的單詞相對應(yīng),單詞間的依存弧為圖的邊,忽略根節(jié)點(diǎn)指向自己的弧,其他的弧表示為語義依存圖的邊。例如對句子“Linda makes and repairs the car.”進(jìn)行語義依存分析,得到語義依存樹如圖2所示,其中根節(jié)點(diǎn)(root)為單詞“makes”,“makes”分別是“Linda”和“car”的父節(jié)點(diǎn),F(xiàn)EAT表示“makes”修飾的角色是“Linda”,同樣地,“repairs”修飾“car”,eCOO表示事件關(guān)聯(lián),即“makes”和“repairs”是并列關(guān)系,mRELA表示關(guān)系標(biāo)記,mDEPD表示依附標(biāo)記。
本文以鄰接矩陣的方式存儲(chǔ)語義依存圖,其形式為有向無環(huán)圖。如圖3所示,頂點(diǎn)與句子中的單詞相對應(yīng),單詞間的依賴弧為圖的邊。有向無環(huán)圖方向由矩陣的行指向列,有依賴邊的對應(yīng)矩陣元素為1,沒有依賴邊的矩陣元素為0。
3)SDA-GAT層 將語義依存圖與圖注意力網(wǎng)絡(luò)相結(jié)合,提出基于語義依存圖的圖注意力網(wǎng)絡(luò)(SDA-GAT),解決句子中因?yàn)閷Y(jié)構(gòu)分析得不夠清晰導(dǎo)致對關(guān)系類型提取不全面的問題。具體而言,語義層次結(jié)構(gòu)反映了句子各個(gè)層次的語義成分組成方式,能夠準(zhǔn)確地把握句子的各層次語義和真實(shí)意圖。通過引入語義依存圖表示詞之間的關(guān)聯(lián)信息,在模型中提取形式為詞、依存關(guān)系、詞的最小依存單元特征信息,從而在語義相同但表述不同的句子中提取到相同或類似的特征信息。基于語義依存圖的圖注意力網(wǎng)絡(luò)將詞作為節(jié)點(diǎn),語義依存圖的詞間依存信息作為節(jié)點(diǎn)與節(jié)點(diǎn)的邊信息。同時(shí)通過注意力分配權(quán)重,每個(gè)單詞在計(jì)算注意力時(shí),可以實(shí)現(xiàn)為其所有相鄰的單詞分配不同的權(quán)重,進(jìn)而關(guān)注作用較大的單詞,忽略作用較小的單詞,使注意力更集中在要抽取的單詞之間,進(jìn)一步強(qiáng)化語義特征,并逐句將整個(gè)事實(shí)信息融入更新到圖網(wǎng)絡(luò)中。與句子級別的關(guān)系推理相比,可以細(xì)粒度地反映關(guān)系推理中實(shí)體間的關(guān)系,從而更全面地提取出實(shí)體關(guān)系。
在SDA-GAT層,首先使用語義分析工具對句子的語義信息進(jìn)行解析,得到存儲(chǔ)句子語義信息的鄰接矩陣,然后與從BiLSTM獲取到的特征一同輸入到GAT進(jìn)行進(jìn)一步的特征提取。SDA-GAT中圖的節(jié)點(diǎn)對應(yīng)句子中的每個(gè)單詞,節(jié)點(diǎn)特征為BiLSTM層提取到的單詞特征,圖中的邊對應(yīng)語義依存圖的邊,即鄰接矩陣中對應(yīng)的語義關(guān)系。通過式(5)(6)計(jì)算注意力系數(shù),式(7)得到注意力特征,同時(shí)為了使得模型魯棒性更強(qiáng),使用多頭注意力機(jī)制,根據(jù)式(8)對 K 個(gè)獨(dú)立的注意力進(jìn)行拼接,通過式(9)取平均值得到本層的輸出結(jié)果。
具體來說,從BiLSTM層獲得句子的特征向量后,使用一個(gè)可學(xué)習(xí)的線性變換作用到隱藏層輸出以獲得層次更高、表達(dá)能力更強(qiáng)的特征。如圖4所示,經(jīng)過BiLSTM層特征提取之后,獲得句子特征向量 h =(h 1,h 2,h 3,…,h i),h i∈RF,其中h為句子對應(yīng)的特征向量集,i為單詞的個(gè)數(shù),F(xiàn) 為BiLSTM隱藏層輸出的節(jié)點(diǎn)特征維度,通過權(quán)重矩陣 W ∈RF×F′ ,得到強(qiáng)化后的特征 h′ 。
然后,對強(qiáng)化后的單詞特征進(jìn)行自注意力計(jì)算(共享注意力機(jī)制 a:RF×RF′→R ),如圖5所示。
如式(5)所示,將強(qiáng)化后的特征向量進(jìn)行連接,輸入到單層前饋神經(jīng)網(wǎng)絡(luò) a 中,通過非線性激活函數(shù)得到 e ij 。其中 e ij表示詞j對i 的重要程度,“‖”表示連接,將 W a∈R2F′ 作用到強(qiáng)化后的特征上。
e ij=a( W h′ i, W h′ j)= LeakyReLU( W T "a[ W h′ i‖ W h′ j]) ""(5)
通過語義依存分析產(chǎn)生的鄰接矩陣,可以發(fā)現(xiàn)詞與詞之間的依賴關(guān)系。根據(jù)該依賴關(guān)系,進(jìn)行圖注意力的計(jì)算。式(6)用來計(jì)算歸一化的注意力系數(shù) α ij,設(shè)詞i 在語義依存圖中與之相鄰的節(jié)點(diǎn)集合為 D i ,引入softmax函數(shù)對所有與 i相鄰的節(jié)點(diǎn)j 進(jìn)行歸一化,最后得到 α ij 。
α ij= softmax "j(e ij)= "exp (e ij) ∑ k∈D i "exp (e ik) =
exp(Leaky ReLU( W T "a[ W h′ i‖ W h′ j])) ∑ k∈D i "exp(Leaky ReLU( W T "a[ W h′ i‖ W h′ K])) """(6)
對詞 i在語義依存圖中所有相鄰詞j 的強(qiáng)化特征與對應(yīng)的權(quán)重系數(shù) α ij 進(jìn)行加權(quán)求和,通過非線性層得到注意力特征 h″ i 。
h″ i=σ(∑ j∈D i α ij W h′ j) ""(7)
為了提高模型的魯棒性,采用多頭注意力機(jī)制(multi-head attention mechanism)[15]學(xué)習(xí)更多信息,聚合特征。
h″ i=‖K k=1σ(∑ j∈D i αk ij W Kh′ j) ""(8)
其中: K為注意力頭的個(gè)數(shù); W K為權(quán)重矩陣;αk ij是計(jì)算第k 個(gè)注意力的權(quán)重系數(shù)。 K 個(gè)相互獨(dú)立的注意力機(jī)制按照如式(8)所示的方法進(jìn)行變換,連接其特征得到輸出 h″ i 。
圖6是 K =3時(shí)圖注意力計(jì)算的示意圖,三種箭頭分別代表了三種相互獨(dú)立的注意力計(jì)算,用連接或者取平均值的方法輸出得到相應(yīng)結(jié)果,本文選擇取平均值的方法。
至此,SDA-GAT層通過對多個(gè)頭提取到的注意力特征進(jìn)行平均,獲得第一階段的特征輸出。
h′ i=σ( 1 K ∑ K k=1 ""∑ j∈D i αk ijWKh′ j) ""(9)
4)sigmoid層 第一階段的關(guān)系預(yù)測,使用sigmoid函數(shù)對句子中每兩個(gè)單詞之間的關(guān)系進(jìn)行預(yù)測,避免softmax函數(shù)的輸出值相關(guān)聯(lián),所得概率總和為1,從而增大了某一類別的概率,而忽略了其他類別的問題。此時(shí)的關(guān)系預(yù)測被轉(zhuǎn)換為多個(gè)二分類任務(wù),對于一個(gè)句子中同一單詞對具有多個(gè)關(guān)系時(shí),所有可能的關(guān)系都會(huì)被賦予較大的預(yù)測概率,進(jìn)而緩解了關(guān)系重疊問題。
對于每一個(gè)關(guān)系,學(xué)習(xí)權(quán)重矩陣 W 1 r、 W 2 r、 W 3 r ,并如式(10)所示計(jì)算句子中每兩個(gè)單詞之間屬于該關(guān)系 r 的傾向分?jǐn)?shù)。
score (w 1,r,w 2)= W 3 r "ReLU ( W 1 rh w 1⊕ W 2 rh w 2) ""(10)
其中:score (w 1,r,w 2)表示關(guān)系r下(w 1,w 2)的關(guān)系傾向得分,(w 1,w 2)表示詞對。詞對間考慮順序,因此S(w 1,r,w 2)和S(w 2,r,w 1)不同。對于單詞對(w 1,w 2) ,計(jì)算該詞對屬于所有關(guān)系的傾向分?jǐn)?shù),包括沒有關(guān)系的情況,沒有關(guān)系的情況表示為score (w 1, 1 ,w 2) 。
將sigmoid函數(shù)應(yīng)用于score (w 1,r,w 2) ,得 P r(w 1,w 2) ,計(jì)算方式如式(11)所示。
P r(w 1,w 2) =sigmoid (score) = 1 1+e -score """(11)
其中: P r(w 1,w 2)表示詞對(w 1,w 2)屬于關(guān)系r 的概率。
第一階段的關(guān)系預(yù)測損失 rloss 1p ,其計(jì)算方式為
rloss 1p=-∑ N r=1 y(r)× log (P r(w 1,w 2)) ""(12)
其中: N表示關(guān)系類別的數(shù)量;y(r) 表示真實(shí)標(biāo)簽。
2.2 第二階段預(yù)測
由于第一階段提取的實(shí)體和關(guān)系沒有深入考慮彼此之間的聯(lián)系,為了使兩者充分交互,更好地提取實(shí)體間的關(guān)系,第二階段將根據(jù)第一階段每個(gè)單詞對之間的關(guān)系預(yù)測結(jié)果,為每個(gè)關(guān)系構(gòu)建關(guān)系加權(quán)圖,并使用雙向GCN進(jìn)一步提取句子中所有單詞對之間的隱含特征。
2.2.1 BiGCN
1)圖卷積網(wǎng)絡(luò)(GCN) GCN[16]通過對鄰近節(jié)點(diǎn)的特征進(jìn)行卷積,將節(jié)點(diǎn)的信息傳播到其周圍的鄰居節(jié)點(diǎn)。如圖7所示,通過疊加GCN層,GCN可以提取每個(gè)節(jié)點(diǎn)的區(qū)域特征。具體而言, 首先每一個(gè)節(jié)點(diǎn)將自身的特征信息經(jīng)過變換后發(fā)送給鄰居節(jié)點(diǎn),對節(jié)點(diǎn)的特征信息進(jìn)行抽取變換。然后每個(gè)節(jié)點(diǎn)將鄰居節(jié)點(diǎn)的特征信息聚集起來,對節(jié)點(diǎn)的局部結(jié)構(gòu)信息進(jìn)行融合。最后將之前的信息聚集之后作非線性變換,增加模型的表達(dá)能力。
GCN層通過相鄰節(jié)點(diǎn)的特征來聚合新的節(jié)點(diǎn)特征,其公式為
hl+1 u= ReLU (∑ v∈D(u) (Wlhl v+bl)) ""(13)
其中: u為目標(biāo)節(jié)點(diǎn);D(u)為u的鄰域,包括u本身;hl v為l層節(jié)點(diǎn)v的隱藏特征;W與b 是可學(xué)習(xí)權(quán)值,將節(jié)點(diǎn)的特征映射到圖中的相鄰節(jié)點(diǎn); h∈RF,W∈Rf×f,b∈Rf,f 是特征大小。
2)BiGCN層 在第一階段預(yù)測之后,根據(jù)關(guān)系預(yù)測結(jié)果,為每個(gè)關(guān)系建立關(guān)系加權(quán)圖。圖中的節(jié)點(diǎn)為句子中的單詞,對于單詞 w 1、w 2,假定其關(guān)系為r,圖中的邊為單詞間屬于關(guān)系r的概率P r(w 1,w 2) 。如圖8所示,圖中連線的粗細(xì)對應(yīng)著兩個(gè)詞對之間屬于該關(guān)系可能性的大小。
第二階段在每個(gè)關(guān)系圖上采用雙向GCN,可以充分考慮詞間不同關(guān)系的不同影響程度,將其聚合作為綜合的詞特征 hl+1 u ,如式(14)所示。
hl+1 u= ReLU (∑ v∈V ""∑ r∈R P r(u,v)×(Wl rhl v+bl r))+hl u ""(14)
其中: P r(u,v)代表邊的概率(關(guān)系r下單詞u到v的概率);W r和b r是指在關(guān)系r下的權(quán)重和偏置;V包括所有實(shí)體的集合;R 包含所有關(guān)系的集合。
2.2.2 softmax層
基于從BiGCN網(wǎng)絡(luò)中提取出的詞特征,再次預(yù)測實(shí)體并提取每個(gè)詞對的關(guān)系,從而獲得最終的更穩(wěn)健準(zhǔn)確的命名實(shí)體和關(guān)系分類結(jié)果。第二階段的實(shí)體損失和關(guān)系損失與第一階段一樣,同樣使用交叉熵分類損失函數(shù),在此定義為 eloss 2p和rloss 2p 。
2.3 損失與訓(xùn)練
整體模型中使用了實(shí)體損失和關(guān)系損失兩種損失,它們都屬于分類損失。實(shí)體損失使用傳統(tǒng)的BILOU標(biāo)簽作為基本事實(shí)標(biāo)簽,每個(gè)單詞均屬于五個(gè)類別中的一個(gè)。 eloss 1p 和 eloss 2p 的真實(shí)標(biāo)簽相同,在訓(xùn)練過程中使用交叉熵作為分類損失函數(shù)。
關(guān)系損失通過基于單詞對的方式預(yù)測得到,使用一個(gè)one-hot向量作為每個(gè)詞對 (w 1,w 2) 的真實(shí)關(guān)系標(biāo)簽,同時(shí)基本事實(shí)同樣基于詞對。例如,如圖9所示,單詞state、united與單詞Joe和Biden都有一種特殊的關(guān)系。這種基于詞對的關(guān)系表示為模型提供了學(xué)習(xí)提取關(guān)系所需的信息。 rloss 1p 和 rloss 2p 的基本關(guān)系向量是相同的。同時(shí)增加了一個(gè)額外的雙重權(quán)重 α ,用來調(diào)整兩個(gè)階段的損失比重。 rloss 1p、rloss 2p 在訓(xùn)練中使用交叉熵作為分類損失函數(shù)。總損失計(jì)算為所有實(shí)體損失和關(guān)系損失的總和:
loss all=(eloss 1p+rloss 1p)+α(eloss 2p+rloss 2p) ""(15)
3 數(shù)據(jù)與實(shí)驗(yàn)
3.1 實(shí)驗(yàn)數(shù)據(jù)
1)數(shù)據(jù)集 本文使用NYT[17]數(shù)據(jù)集對BSGB的性能進(jìn)行評估。NYT數(shù)據(jù)集通過遠(yuǎn)程監(jiān)督的方式獲得,它由118萬個(gè)句子和24個(gè)預(yù)定義的關(guān)系類型組成。該數(shù)據(jù)集中的句子通常包含多個(gè)關(guān)系三元組,因此NYT數(shù)據(jù)集非常適合作為提取重疊關(guān)系三元組評價(jià)模型的測試平臺(tái)。本文在NYT數(shù)據(jù)集中過濾掉100個(gè)單詞以上的句子,最后得到66 195條句子實(shí)例,其中56 195條句子用于訓(xùn)練,5 000句用于驗(yàn)證,5 000句用于測試。
此外,為了評估BSGB在不同關(guān)系重疊場景下的有效性,根據(jù)關(guān)系三元組的不同重疊類型,將數(shù)據(jù)集中的句子分為正常類(normal)、實(shí)體對重疊類(EPO)和單個(gè)實(shí)體重疊類(SEO)三類。表2描述了各類句子的劃分情況。
2)評估指標(biāo) 遵循文獻(xiàn)[2],只有當(dāng)詞對的關(guān)系和相應(yīng)單詞都正確時(shí),提取的關(guān)系三元組才被認(rèn)為是正確的。為了進(jìn)行公平的比較,本文使用與基線方法一致的準(zhǔn)確率、召回率和 F 1 值作為評估指標(biāo)。
3.2 參數(shù)設(shè)置
實(shí)驗(yàn)中選擇預(yù)先訓(xùn)練的GloVe(300d)作為固定詞嵌入,然后將單詞嵌入與可訓(xùn)練的POS嵌入(15d)連接起來,作為每個(gè)單詞的最終輸入嵌入。每個(gè)單詞的POS標(biāo)簽和整個(gè)句子的依賴樹是從SpaCy[18]中檢索的。
在第一階段,BiLSTM的層數(shù)為1,使用Stanford CoreNLP[19]進(jìn)行語義依存分析。第二階段,BiGCN特征尺寸為300。在訓(xùn)練期間,使用Adam優(yōu)化器,具體參數(shù)設(shè)置及說明如表3所示。
3.3 實(shí)驗(yàn)結(jié)果與分析
本文選取NovelTagging[5]、MultiDecoder[20]和GraphRel模型[2]作為對比模型,三個(gè)基線的實(shí)驗(yàn)結(jié)果來自原始論文。具體而言:
a)NovelTagging提出了新穎的標(biāo)注方案,將聯(lián)合提取任務(wù)轉(zhuǎn)換為標(biāo)注問題。標(biāo)簽由實(shí)體中的單詞位置(使用“BIES”:begin,inside,end,single;O表示other)、關(guān)系類型(一組預(yù)定義關(guān)系)和關(guān)系角色(由數(shù)字1、2表示)三部分組成。模型采用Bi-LSTM對輸入句子編碼,使用具有偏置損失的基于LSTM的解碼層進(jìn)行解碼。通過模型來預(yù)測每個(gè)句子單詞的實(shí)體和關(guān)系類。
b)MultiDecoder提出具有復(fù)制機(jī)制的seq-seq模型,采用了一個(gè)統(tǒng)一的解碼器OneDecoder和 多個(gè)獨(dú)立的解碼器MultiDecoder兩種不同的解碼策略,并使用動(dòng)態(tài)解碼器來提取關(guān)系三元組。
c)GraphRel模型將整體的聯(lián)合實(shí)體關(guān)系抽取分為了兩個(gè)階段,兩個(gè)階段均采用雙向圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取并預(yù)測,最終實(shí)現(xiàn)對實(shí)體—關(guān)系三元組的聯(lián)合抽取。
3.3.1 定量分析
表4給出了在NYT數(shù)據(jù)集上基線模型以及本文模型得到的準(zhǔn)確率、召回率和 F "1分?jǐn)?shù)。OneDecoder表示在多解碼器[20]的原始論文中提出的一個(gè)解碼器方法,即只使用一個(gè)解碼器來提取關(guān)系三元組;GraphRel是文獻(xiàn)[2]第二階段整體模型結(jié)果;BSGB*是本文模型。
根據(jù)表4的實(shí)驗(yàn)結(jié)果可以看到,BSGB比NovelTagging模型 F "1值提升了25.1%、比OneDecoder模型提升了11.1%、比MultiDecoder模型提升了8.4%。由于BSGB第一階段通過語義依存圖結(jié)合圖注意力網(wǎng)絡(luò),獲得了較好的序列特征和區(qū)域依賴特征,使得模型在準(zhǔn)確率和召回率方面都表現(xiàn)更好,同時(shí)在第二階段,進(jìn)一步考慮了實(shí)體與關(guān)系之間的交互,從而獲得了更高的 F "1分?jǐn)?shù)。與同樣基于圖神經(jīng)網(wǎng)絡(luò)的GraphRel相比,BSGB在 F "1值上提升了5.2%,這表明通過語義依存分析獲取文本的語義依存結(jié)構(gòu),可以幫助模型挖掘到更豐富的深層語義信息,從而更好地提取句子中的實(shí)體及其關(guān)系,同時(shí)結(jié)合GAT網(wǎng)絡(luò)可以充分考慮到句子中不同詞的重要程度,因此實(shí)現(xiàn)了更好的性能。
此外,本文還進(jìn)行了消融實(shí)驗(yàn),以詳細(xì)考察BSGB中各個(gè)模塊組件對整體性能的貢獻(xiàn)。消融實(shí)驗(yàn)結(jié)果如表5所示,BSGB w/o SDA表示不使用語義依存分析句子中詞間的依賴,只將BiLSTM處理后的特征向量輸入圖注意力網(wǎng)絡(luò)中;BSGB w/o SDA-GAT表示不使用SDA-GAT層,即在不使用語義分析的基礎(chǔ)上,也不進(jìn)行圖注意力的計(jì)算,直接將BiLSTM處理后的特征進(jìn)行第一階段的關(guān)系預(yù)測,然后進(jìn)行第二階段的圖卷積運(yùn)算;BSGB w/o 2nd-phase表示不使用BSGB的第二階段,即第一階段的實(shí)體關(guān)系預(yù)測結(jié)果。通過分析可以得出結(jié)論,所有關(guān)鍵組件都對BSGB性能的提高作出了積極的貢獻(xiàn)。除去SDA-GAT層模型性能下降了6.5%,對模型的影響最大,這說明借助語義依存分析進(jìn)行圖注意力的計(jì)算,可以有效關(guān)注到句子中重要的單詞信息,而忽視其他冗余信息,從而使關(guān)系預(yù)測更準(zhǔn)確。同樣地,不使用語義依存分析,或者僅使用第一階段進(jìn)行預(yù)測都對BSGB造成了不同程度的性能下降。
3.3.2 不同類型句子結(jié)果分析
為了進(jìn)一步研究BSGB模型提取重疊關(guān)系三元組的能力,本文對不同類型的句子進(jìn)行了實(shí)驗(yàn),并與基線模型的工作性能進(jìn)行了比較。圖10給出了三種不同句子類型的詳細(xì)實(shí)驗(yàn)結(jié)果。可以看出,所有模型在normal、EPO、SEO三種不同的句子分類上的性能依次呈現(xiàn)下降趨勢,這也反映出隨著句子復(fù)雜度的提高,從這三種重疊模式的句子中提取關(guān)系三元組的難度也不斷增加。也就是說,在三種重疊的情況中,normal class是最容易提取的句子形式,而EPO class和SEO class是相對較難提取的情況。
相比之下,BSGB模型在三種類型句子的提取中都獲得了較好的性能。在進(jìn)行關(guān)系預(yù)測的時(shí)候,BSGB預(yù)測句子中所有單詞對之間的關(guān)系,所有單詞都可以與其他單詞有關(guān)系,因此實(shí)體重疊不是問題。在第一階段使用sigmod函數(shù)預(yù)測句子中每兩個(gè)單詞之間的關(guān)系,為其之間所有可能的關(guān)系賦予較大的關(guān)系概率;在第二階段,BSGB為每個(gè)關(guān)系構(gòu)建加權(quán)圖,進(jìn)一步學(xué)習(xí)預(yù)測句子中實(shí)體與關(guān)系的隱含聯(lián)系,因此即使在EPO和SEO這樣的復(fù)雜場景下,BSGB也可以達(dá)到最佳的性能表現(xiàn)。
3.3.3 不同三元組個(gè)數(shù)提取結(jié)果分析
本文還驗(yàn)證了BSGB模型從具有不同三元組個(gè)數(shù)的句子中提取關(guān)系三元組的能力。按照句子中含不同三元組個(gè)數(shù)的多少將數(shù)據(jù)集中的句子分為五類,并用 N 來表示句子中三元組個(gè)數(shù)。表6展示了不同三元組個(gè)數(shù)下各個(gè)模型的結(jié)果。
可以明顯看出,基線模型的性能均隨著句子包含關(guān)系三元組個(gè)數(shù)的增加而下降。BSGB雖然也呈現(xiàn)下降趨勢,但是其在所有五個(gè)類中都取得了較為優(yōu)異的性能。與以往致力于解決關(guān)系三元組提取中重疊問題的工作相比,本文模型因?yàn)檩斎刖渥拥膹?fù)雜性增加而受到的影響最小,也證明了BSGB模型在GraphRel[2]方法上獲得了相當(dāng)大的改進(jìn)。同時(shí),BSGB模型在NYT數(shù)據(jù)集中的最大改進(jìn)都來自最困難的情況( N ≥5),相比GraphRel方法提升了8%,由此也可以說明本文模型相比基線模型更適合復(fù)雜的場景。
3.3.4 閾值敏感度分析
為了進(jìn)一步考察實(shí)驗(yàn)效果、豐富實(shí)驗(yàn)內(nèi)容、完善實(shí)驗(yàn)對比的公平性,本文使用了文獻(xiàn)[2]的閾值預(yù)測方法,閾值預(yù)測的結(jié)果可以充分說明模型的靈活性及準(zhǔn)確性。具體而言,例如文本:“The United States President Trump has a meet with Tim Cook,the CEO of Apple Inc.”。句子中實(shí)體—關(guān)系分布應(yīng)該有 (United States,Country_president ,Trump)、(Tim Cook,Company_CEO,Apple Inc.) 。抽取時(shí),若實(shí)體—關(guān)系分布中具有Country_president,并將其作為最可能的類別,則僅當(dāng)1/2 = 50%gt; θ 時(shí)才提取三元組(United States,Country_president ,Trump)。根據(jù)圖11給出的結(jié)果可以看到,通過將閾值從 θ = 0.8降低到 θ = 0,召回率顯著提高了1.9%,只有0.7%的準(zhǔn)確率損失,這說明BSGB在盡可能抽取出句子中所有關(guān)系三元組的同時(shí),也可以保證較高的抽取準(zhǔn)確率,通過調(diào)整閾值可以有效地平衡準(zhǔn)確率和召回率之間的偏差。在本文實(shí)驗(yàn)中使用 θ = 0的閾值推斷,以便能提取出更多的關(guān)系。圖11展示了不同閾值下BSGB模型的結(jié)果。
3.3.5 案例分析
為了更直觀地展示BSGB抽取實(shí)體關(guān)系三元組的能力,本文提供了幾個(gè)簡單的案例來展示不同測試方法下的三元組抽取結(jié)果。如表7所示,其中S1是normal class句子,其三元組數(shù)量為1;S2、S3均為SEO class句子,其三元組數(shù)量分別為2和3;S4、S5分別為EPO class句子,其三元組數(shù)量分別為4、5。在關(guān)系圖中,圓形節(jié)點(diǎn)為實(shí)體,實(shí)體之間的邊表示兩者有依賴關(guān)系,連接邊的粗細(xì)對應(yīng)著關(guān)系概率的大小。可以看出,BSGB模型在不同的測試方法下,即涉及三種不同類型的句子和較多三元組數(shù)目的句子時(shí),均可以正確提取出相應(yīng)的關(guān)系三元組,對于句子中的重疊關(guān)系,BSGB也能全部抽取出來,這直觀地證明了BSGB具有較強(qiáng)的抽取能力。
此外,本文還對BSGB提取出的關(guān)系三元組情況與NYT數(shù)據(jù)集的真實(shí)標(biāo)注進(jìn)行了對比。 如表8所示,句子1在NYT數(shù)據(jù)集中的標(biāo)注僅有一個(gè)三元組,BSGB提取出兩個(gè)三元組;句子2是SEO class,數(shù)據(jù)集中僅標(biāo)注出了contains的關(guān)系,BSGB在此基礎(chǔ)上找到了另外的兩對實(shí)體—關(guān)系;句子3是EPO class,數(shù)據(jù)集中只標(biāo)注出了(Gianni Agnelli,nationality,Italy),BSGB提取出了四對關(guān)系。可以發(fā)現(xiàn),NYT數(shù)據(jù)集的標(biāo)注不夠完善,相比之下BSGB模型可以提取出更多的關(guān)系三元組,而數(shù)據(jù)集標(biāo)注的不全面將在量化BSGB模型的性能時(shí)一定程度地影響精確度和召回率。因此,在NYT數(shù)據(jù)集上的性能可能僅部分反映本文模型的潛在價(jià)值,低估了模型的實(shí)際價(jià)值, 這也再次表明了所提BSGB模型在復(fù)雜句子中提取關(guān)系三元組的有效性。
4 結(jié)束語
本文提出了一種基于圖神經(jīng)網(wǎng)絡(luò)的實(shí)體關(guān)系聯(lián)合提取方案BSGB,著重于命名實(shí)體和關(guān)系之間的相互作用,結(jié)合圖注意力網(wǎng)絡(luò)和語義依存分析,不僅提取每個(gè)單詞的序列特征,而且提取每個(gè)單詞的局部依賴特征。采用圖卷積網(wǎng)絡(luò)考慮了文本中所有詞對之間的隱含特征,預(yù)測每個(gè)詞對的關(guān)系,對基線模型進(jìn)行改進(jìn),解決關(guān)系重疊問題。在NYT數(shù)據(jù)集上評估了本文方法。實(shí)驗(yàn)結(jié)果表明,本文方法的性能比基線模型方法提高了5.2%,為聯(lián)合實(shí)體關(guān)系抽取提供了一種新的方法。
由于實(shí)驗(yàn)中對數(shù)據(jù)處理的形式包括數(shù)據(jù)存儲(chǔ)的圖的形式,數(shù)據(jù)集中不完善的注釋等都會(huì)對實(shí)驗(yàn)結(jié)果產(chǎn)生影響。本文模型仍存在一些不足和尚可改進(jìn)的地方。除了本文采用方法外,還可以構(gòu)建其他形式的圖結(jié)構(gòu)或者采用其他類型的圖神經(jīng)網(wǎng)絡(luò)深入研究。針對圖卷積網(wǎng)絡(luò)可以通過剪枝等方式優(yōu)化其檢索樹的方式,進(jìn)一步提升模型的能力,如提升模型效率、準(zhǔn)確率等。同時(shí)本文模型也可以嘗試添加應(yīng)用背景,與現(xiàn)實(shí)領(lǐng)域相結(jié)合,這些都是意欲改進(jìn)和深入研究的問題。
參考文獻(xiàn):
[1] "李冬梅,張揚(yáng),李東遠(yuǎn),等.實(shí)體關(guān)系抽取方法研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2020, 57 (7):1424-1448. (Li Dongmei,Zhang Yang,Li Dongyuan, et al .Review of entity relation extraction methods[J]. Journal of Computer Research and Development ,2020, 57 (7):1424-1448.)
[2] Fu J T,Li P H,Ma W Y.GraphRel:modeling text as relational graphs for joint entity and relation extraction[C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2019:1409-1418.
[3] Zheng Suncong,Hao Yuexing,Lu Dongyuan, et al .Joint entity and relation extraction based on a hybrid neural network[J]. Neurocomputing, 2017, 257 (12):59-66.
[4] Li Fei,Zhang Meishan,F(xiàn)u Guohong, et al .A neural joint model for entity and relation extraction from biomedical text[J]. BMC Bioinformatics ,2017, 18 (1):198-208.
[5] Miwa M,Bansal M.End-to-end relation extraction using LSTMs on sequences and tree structures[C]//Proc of the 54th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2016:1105-1116.
[6] 孫長志.基于深度學(xué)習(xí)的聯(lián)合實(shí)體關(guān)系抽取[D].上海:華東師范大學(xué),2020. (Sun Changzhi.Joint entity relation extraction with deep learning[D].Shanghai:East China Normal University,2020.)
[7] Zheng Suncong,Wang Feng,Bao Hongyun, et al .Joint extraction of entities and relations based on a novel tagging scheme[EB/OL].(2017-06-07).https://arxiv.org/abs/1706.05075.
[8] Bekoulis G,Deleu J,Demeester T, et al .Joint entity recognition and relation extraction as a multi-head selection problem[J]. Expert Systems with Application, 2018, 114 :34-45.
[9] Bekoulis G,Deleu J,Demeester T, et al .Adversarial training for multi-context joint entity and relation extraction[EB/OL].(2019-01-14).https://arxiv.org/abs/1808.06876.
[10] Wang Shaolei,Zhang Yue,Che Wanxiang, et al .Joint extraction of entities and relations based on a novel graph scheme[C]//Proc of the 27th International Joint Conference on Artificial Intelligence.2018:4461-4467.
[11] 劉蘇文,邵一帆,錢龍華.基于聯(lián)合學(xué)習(xí)的生物醫(yī)學(xué)因果關(guān)系抽取[J].中文信息學(xué)報(bào),2020, 34 (4):60-68. (Liu Suwen,Shao Yifan,Qian Longhua.Biomedical causality relation extraction based on joint learning[J]. Journal of Chinese Information Processing, 2020, 34 (4):60-68.)
[12] Lai Tuan,Ji Heng,Zhai Chengxiang, et al. Joint biomedical entity and relation extraction with knowledge-enhanced collective inference[EB/OL].(2021-06-01).https://arxiv.org/abs/2105.13456.
[13] Pennington J,Socher R,Manning C.GloVe:global vectors for word representation[C]//Proc of Conference on Empirical Methods in Na-tural Language Processing.2014:1532-1543.
[14] Velikovi P,Cucurull G,Casanova A, et al .Graph attention networks[EB/OL].(2017-10-23).https://arxiv.org/abs/1710.10903.
[15] Vaswani A,Shazeer N,Parmar N, et al .Attention is all you need[EB/OL].(2017-12-06).https://arxiv.org/abs/1706.03762.
[16] Kipf T N,Welling M.Semi-supervised classification with graph convolutional networks[EB/OL].(2017-02-22).https://arxiv.org/abs/ 1609.02907.
[17] Riedel S,Yao Limin,McCallum A.Modeling relations and their mentions without labeled text[C]//Proc of Joint European Conference on Machine Learning and Knowledge Discovery in Databases.Berlin:Springer,2010:148-163.
[18] Honnibal M,Johnson M.An improved non-monotonic transition system for dependency parsing[C]//Proc of Conference on Empirical Me-thods in Natural Language Processing.2015:1373-1378.
[19] Manning C,Surdeanu M,Bauer J, et al .The Stanford core NLP natural language processing toolkit[C]//Proc of the 52nd Annual Meeting of Association for Computational Linguistics:System Demonstrations.2014:55-60.
[20] Zeng Xiangrong,Zeng Daojian,He Shizhu, et al .Extracting relational facts by an end-to-end neural model with copy mechanism[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.2018:506-514.