999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

旅游領域實體和關系聯合抽取方法研究

2022-09-21 05:38:26古麗拉阿東別克馬雅靜
計算機工程與應用 2022年18期
關鍵詞:實驗信息模型

陳 赟,古麗拉·阿東別克,馬雅靜

1.新疆大學 信息科學與工程學院,烏魯木齊830017

2.新疆多語種信息技術實驗室,烏魯木齊830017

知識圖譜(knowledge graph)是以圖的形式表現客觀世界中的實體(概念、人、事物)及其之間關系的知識庫[1]。知識圖譜于2012 年5 月17 日被Google 正式提出[2],其目的是優化搜索引擎性能,提升用戶的搜索質量以及搜索體驗。國內垂直領域的知識圖譜進展較快的多為金融領域和醫療領域的項目,旅游領域涉及較少。通過構建旅游領域的知識圖譜并結合智能問答、個性化推薦等上層應用,可以促進旅游行業智能信息服務技術的快速發展,從而帶來更高的經濟效益。

知識圖譜中的數據通常以“實體-關系-實體”或“實體-屬性-屬性值”的關系三元組存儲,形成一個圖狀知識庫,因此從非結構化文本信息中抽取關系三元組是構建知識圖譜的關鍵任務。而旅游領域的文本信息中存在著大量的實體嵌套和關系重疊現象,例如表1文本中包含的以(subject,predicate,object)形式的關系三元組有[(杭州西湖風景區,所在城市,杭州),(杭州西湖風景區,著名景點,蘇堤春曉),(蘇堤春曉,所屬景區,杭州西湖風景區),(蘇堤春曉,所在城市,杭州)]。

表1 旅游領域關系重疊樣例Table 1 Sample relation overlapping in tourism domain

在實體抽取過程中,其中作為景點名稱的實體“杭州西湖風景區”中嵌套作為城市名稱的“杭州”,Luo 等人[3]提出基于注意力機制的Att-BiLSTM-CRF模型進行化學領域命名實體識別,使用B/I/O 標簽加實體類型來區分實體的開頭、中間和結尾或者判斷是否為實體。這種命名實體識別的方法無法將實體“杭州西湖風景區”中的“杭”同時標注為景點名稱的開頭和城市名稱的開頭,因而無法解決實體嵌套問題。

在關系抽取的過程中,表1 中文本包含EPO(entity pair overlap)和SEO(single entity overlap)兩種關系重疊形式。其中,EPO 是指句子中至少有兩個關系三元組,并且至少有兩個關系三元組以相同或者相反的順序共享一對實體;SEO 是指句子中有多個關系三元組,并且至少有兩個關系三元組共享一個相同的實體。由于管道抽取模型存在誤差積累和實體冗余會造成模型性能大幅下降,不能夠有效處理關系重疊問題。Zheng等人[4]提出的聯合抽取模型將問題轉化為序列標注問題,生成標注序列后將關系標簽合并為實體三元組時采用就近組合的方法,雖然能夠從句子中抽取出多種關系,但并不能處理實體出現重疊的關系抽取問題。

由于目前聯合抽取的方法并不能有效地處理信息抽取任務中實體嵌套和關系重疊的問題,本文提出了BAMRel 模型(joint extraction model based on biaffine attention mechanism)。模型的主要特點是通過共享參數使用Biaffine 模型分別構建邊界注意力矩陣和關系注意力矩陣來解決實體嵌套和關系重疊問題,同時將實體標簽作為特征融入關系抽取部分,在構建的旅游領域關系抽取數據集TFRED(tourism field relation extraction dataset)上和公開數據集上均取得了較好的實驗結果。

綜上所述,本文的貢獻主要有以下三點:

(1)基于遠程監督的思想,利用結構化三元組進行數據回標,構建了包含近2萬個關系三元組的旅游領域關系抽取數據集TFRED。構建流程和部分數據開源在:https://github.com/chenyun-lh/TFRED,后續將持續對數據量進行擴充。

(2)提出BAMRel 模型,共享BERT 編碼參數的同時,實體抽取和關系抽取部分共用Biaffine 模型來分別解決實體嵌套和關系重疊問題,降低了聯合抽取模型的復雜度,提供了一種不僅限于旅游領域的簡潔高效的模型方案。

(3)進行實驗嚴格論證了實體標簽作為特征對關系抽取結果的影響,并量化了影響程度。

1 相關工作

目前關系三元組的抽取方法主要分為管道抽取方法和聯合抽取方法。管道抽取方法是將關系三元組的抽取作為實體識別和關系抽取兩個獨立的子任務進行,本章將介紹管道抽取方法的兩個子任務和聯合抽取方法的相關工作。

1.1 命名實體識別方法

早期命名實體識別(named entity recognition,NER)方法主要是基于規則的方法。基于規則的系統依賴于手工制定的規則,無法轉移到其他領域。后來產生了基于機器學習的命名實體識別方法,NER任務被轉換為一個分類問題或序列標注問題,這類方法降低了人工成本,但依賴于特征工程。近年來,基于深度學習的NER模型占據了主導地位,與基于機器學習的方法相比,深度學習有利于自動發現隱藏的特征無需人工構建特征。Dong 等人[5]提出使用BiLSTM-CRF 來進行中文命名實體識別,在NER 任務中有很好的表現。2018 年谷歌提出BERT 預訓練模型[6],通過微調的方法可以靈活應用到各項NLP任務中,所以在實體識別任務中將BERT作為編碼層的模型會成為性能很強的基線模型[7-9]。

但是在中文NER 任務中,基于序列標注框架并不能解決實體嵌套問題。針對實體嵌套的問題,Jia等人[10]提出通過動態地堆疊基于序列標注的實體識別層來識別嵌套實體,每一層的模型參數及其輸入是完全獨立的,因而嵌套實體識別過程不會受到其他層的干擾。Fu等人[11]提出部分觀察樹TreeCRF方法,將嵌套實體識別過程視為部分觀察樹的選區分析,用統一的方式對觀察樹中觀察實體和潛在實體聯合建模。Shen 等人[12]針對包含嵌套實體的長實體識別提出兩階段識別方法,首先對生成的可能實體邊界進行過濾和邊界回歸,然后對邊界調整后的實體邊界標注相應的類別。指針網絡(PointerNet)最早應用于機器閱讀理解(machine reading comprehension,MRC)中,Li 等人[13]基于該思想構建問題指代所要抽取的實體類型,引入了先驗語義知識,使用單層指針網絡來解決實體嵌套的問題。多標簽指針網絡由單層指針網絡衍生而來,如圖1所示多標簽指針網絡使用n個(n為實體類型數量)二元指針網絡進行嵌套實體識別。Yu 等人[14]使用雙仿射變換構建三維矩陣,把實體抽取任務看成為識別實體開始與結束位置索引的問題,同時對這個開始與結束位置形成的實體邊界(span)賦予類型。

圖1 多標簽指針網絡嵌套實體識別Fig.1 Multi-label pointer network nested entity recognition

1.2 關系抽取方法

在管道抽取方法中,早期的關系抽取方法主要是基于模板匹配的方法,此類方法適用于小規模特定領域,召回率低、可移植性差。后來出現了半監督學習的關系抽取方法,主要有bootstrapping和遠程監督方法。遠程監督方法基于一個很強的假設,如果一個實體對滿足某種給定關系,包含該實體對的句子都在闡述該關系。但很多包含該實體對的句子并不代表此種關系,會引入大量噪聲。為了緩解這一問題,研究者采取了多示例學習[15-18]、強化學習[19]和預訓練機制[20]等改進策略。

目前主流監督學習的關系抽取方法是基于深度學習的方法,Soares 等人[20]基于BERT 模型采用多種不同結構來進行實體對的特征提取進行關系分類,但該方法會對同一個句子進行重復編碼,耗費計算資源。為了解決該問題Wang等人[21]將多次關系抽取轉化為同時抽取問題,將句子一次輸入進行多個關系分類。Kong等人[22]針對在管道抽取方法中的歧義實體和詞典信息融入到字符信息丟失的問題提出一種在嵌入層自適應地包含詞信息的方法,利用詞典將所有匹配每個字符的詞合并到一個基于字符輸入的模型中,以此來提高實體準確率減少誤差傳播。Wang等人[23]提出了一種基于圖卷積神經網絡的關系抽取模型,該模型將上下文感知模型與以依賴樹為特征的加權圖卷積網絡模型相結合,融合了上下文和相關的結構信息,并將剪枝策略應用于輸入樹刪除冗余信息。

1.3 聯合抽取方法

為了解決實體識別的誤差傳遞問題,研究者提出聯合抽取的方法。早期出現了基于特征的聯合抽取方法[24-27],這種方法需要人工設計特征,因此需要大量工作對數據進行預處理。Miwa等人[28]首次將神經網絡模型用于解決實體關系聯合抽取任務,通過共享參數的方法將兩個任務整合到同一個模型當中,但兩個任務仍然是分離的過程,產生大量的冗余信息。為了解決該問題,Zheng 等人[4]設計了一種新穎的標注方法,這種方法對實體和關系同時抽取,將抽取問題轉化成為了標注任務,通過使用神經網絡來建模,避免了復雜的特征工程。目前,如何解決關系抽取任務中的關系重疊問題成為了研究熱點,主要的方法有基于圖神經網絡方法和注意力機制的方法。在基于圖神經網絡的方法中,Fu等人[29]提出了一種基于圖卷積網絡(GCN)的端到端聯合抽取模型GraphRel,該模型利用圖卷積網絡聯合學習命名實體和關系。Fei等人[30]將復雜的重疊情抽取任務視為一個多重預測問題,使用圖注意模型對實體之間的關系圖進行建模。Zhao 等人[31]提出了一種基于異構圖神經網絡的表示迭代融合關系抽取方法,將關系和詞建模為圖上的節點,并通過消息傳遞機制來得到更適合關系抽取任務的節點表示。在基于注意力機制的方法中,Liu等人[32]提出了一種基于注意力的聯合關系抽取模型,該模型設計了一種有監督的多頭自注意機制作為關系檢測模塊,分別學習每種關系類型之間的關聯來識別重疊關系和關系類型。Lai等人[33]提出了一種基于序列標注的聯合抽取模型,該模型在句子編碼信息之后添加多頭注意力層以獲得句子和關系的表征,并對句子表示進行序列標注來獲得實體對。Geng 等人[34]采用卷積運算得到字級和詞級的嵌入,并傳遞給多頭注意機制。然后使用多頭注意機制對上下文語義和嵌入進行編碼,得到最終的標簽序列。Nguyen等人[35]使用BiLSTM對句子進行編碼,在關系抽取部分使用雙仿射注意力機制來解決關系重疊問題,在CoNLL04 數據集上驗證了雙仿射分類器比線性分類器的顯著優勢,但該模型的標注框架無法解決中文領域嵌套實體的關系抽取問題。

2 模型介紹

BAMRel 模型主要思路是共享BERT 編碼層,將編碼層信息共用于實體抽取和關系抽取部分。在實體抽取部分利用BERT 最后兩層編碼信息進行全連接層降維來分別表示實體的頭部信息和尾部信息,然后使用雙仿射注意力機制進行分類,形成對實體邊界span及標簽類型type 的界定;在關系抽取部分,實體類型作為較強特征,對實體抽取部分得到的實體標簽類型進行嵌入,與BERT 最后兩層降維后的編碼信息進行拼接分別表示分別關系三元組中主體subject和客體object信息,然后將編碼信息引入biaffine 模型構建關系矩陣,最后利用實體邊界信息解碼形成對關系三元組(subject,predicate,object)的抽取。

本文提出的BAMRel 模型整體結構圖如圖2 所示,模型從功能上可以分為句子編碼層、實體抽取層和關系抽取層三個部分。接下來將對這三個部分進行介紹。

圖2 BAMRel模型的整體框架Fig.2 Overall framework of BAMRel model

2.1 句子編碼層

BERT(bidirectional encoder representation from transformers)[6]是一種自然語言處理預訓練語言表征模型,通過預訓練和微調可以解決多種NLP的任務,推動了自然語言處理的發展。BERT 的結構是來自于Transformers模型的Encoder 部分,內部結構由Self-Attention Layer和Layer Normalization 堆疊而產生。針對傳統預訓練模型無法并行處理句子編碼、一詞多義和預訓練向量一成不變等問題,BERT 模型加入了位置編碼(positional encoding)和多頭自注意力機制(self-attention)來解決上述問題,使得預訓練模型性能得到了極大的提升,并在多個任務中廣泛應用。

如圖3 所示,BERT 模型輸入包括三個部分,分別為字或詞嵌入(token embedding)、片段嵌入(segment embedding)和位置編碼嵌入(position embedding)。由于片段嵌入是為了在需要判斷兩個句子之間關系的任務中區分兩個句子信息,故在關系抽取任務中不適用片段嵌入。將句子x通過分詞器得到分詞后的序列X,X=(x1,x2,…,xn),然后將X編碼成一個字嵌入矩陣We和位置嵌入矩陣Wp,將兩個向量相加得到輸入的向量E=(E1,E2,…,EN),如式(1)所示,然后將向量E通過第一層和第N層的Transformer網絡得到文本的向量表示H1和HN,分別如式(2)和式(3)所示:

圖3 BERT模型結構圖Fig.3 Structural diagram of BERT model

其中,HN為句子經過第N層Transformer 網絡進行編碼后的輸出。本文將包含有不同語義信息的BERT 最后兩層編碼層作為共享編碼層,即HN-1和HN層。

2.2 實體抽取層

實體抽取層完成命名實體識別(NER)任務,最常見的標注方式是序列標注,但在信息抽取任務中已經無法解決實體嵌套、類型混淆等復雜抽取問題。旅游領域信息抽取實體嵌套標注樣例如表2所示。

表2 旅游領域實體嵌套標注樣例Table 2 Sample nested annotation of entities in travel domain

首先將BERT最后兩層編碼信息HN-1和HN進行拼接得到包含有不同特征的句子表示x,然后使用兩個單獨的全連接神經網絡對特征降維,分別創建span不同表示的起點hs和終點he。

其中,si和ei分別是實體i的span開始和結束的位置索引。與直接使用BERT模型的輸出相比,這樣處理得到的實體的開始和結束的上下文是不同的,為雙仿射變換提供了更準確的信息。最后,在句子上使用雙仿射模型創建維度l×l×c評分函數rm,其中l為句子長度,c為實體類型種類數+1(一種非實體類型),如式(7)所示:

其中,Um對hs(i)為頭he(i)為尾的實體類別后驗概率建模,維度為d×c×d;Wm對hs(i)為頭或he(i)為尾的實體類別后驗概率分別建模,維度為2d×c;bm為偏置,對類別為c的先驗概率建模。

通過計算rm就可以得到在滿足si≤ei條件的所有實體所有可能的標簽類型分數,并對任意實體span賦予分類標簽y:

然后類別分數rm對所有可能的span進行降序排列。最后設定閾值,對第i種實體類別標簽分數y(i)大于閾值的位置進行解碼。

此任務是一個多分類問題,在softmax 激活函數之后使用交叉熵損失函數對模型進行優化,實體抽取部分損失函數Lner如下:

2.3 關系抽取層

首先將共享編碼層x經過兩個前饋神經網絡分別得到主體(subject)和客體(object)的特征表示s(i) 和o(j),目的是將高維度包含豐富信息的編碼層通過全連接神經網絡降為只包含關系依賴信息的低維度的特征,這樣可以加速訓練,同時防止過擬合。第i個主體和第j個客體向量表示為:

其中,si和oj分別是主體和客體位置索引。同時實體抽取部分得到的實體標簽進行標簽嵌入轉化為特征向量ce,分別與s(i)和o(j)進行concat連接,然后得到了包含關系依賴信息和實體標簽信息的主體token 序列S(i)和客體token序列O(j)。實體標簽融合后第i個主體和第j個客體向量表示為:

其中,ei和ej分別是實體和客體實體類型標簽的位置索引。目標是為主體S(i)每個tokenSi(i)識別出和每個客體Oj(j)的組合最可能對應的關系標簽rk,最后S(i)和O(j)的token序列進行雙仿射變換后構建出維度為l×l×r的Attention 矩陣,其中l為句子長度,r為關系類型數。計算給定關系標簽rk的tokenSi(i)和Oj(j)之間分數的公式如式(15):

其中,Uk對Si(i)為主體Oj(j)為客體關系類別后驗概率建模,維度為d×r×d;Wk對Si(i)為主體或Oj(j)為客體的關系類別后驗概率建模,維度為2d×r;bk為偏置,對類別關系為r的先驗概率建模。

使用sigmoid 激活函數對主體Si(i)選擇Oj(j)作為它們之間具有關系標簽rk的客體的概率進行計算,計算如公式(16):

然后設置閾值,對于在某種關系類型下概率值超出閾值的組合標記為1,其他標記為0。最后對標記為1的位置進行解碼。

使用交叉熵損失函數對關系抽取損失進行計算,關系抽取部分損失函數Lrel如式(17):

對于聯合實體和關系的抽取任務,最終的損失函數定義為:

2.4 解碼方式

實體抽取部分,設置閾值的為0.5。由2.2 節可知,圖2 中輸入文本使用雙仿射模型創建維度l×l×c評分函數rm,第一個維度l表示實體的開始位置,第二個維度l表示實體的結束位置,第三個維度c表示實體類型編號。經過實體抽取層計算則有:在實體類型為“景點名稱”的標簽上經過降序排列后有rm(0,6,1)>0.5,rm(9,12,1)>0.5,即實體類型為“景點名稱”的實體有“杭州西湖風景區”和“蘇堤春曉”;在實體類型為“城市名稱”的標簽上經過降序排列后有rm(0,1,2)>0.5,即實體類型為“城市名稱”的實體有“杭州”。通過解碼可得到實體列表[“杭州”“杭州西湖風景區”“蘇堤春曉”]。圖4 為嵌套實體“杭州西湖風景區”使用Biaffine機制構造的Span矩陣。

圖4 Biaffine機制構造的Span矩陣Fig.4 Span matrix constructed by Biaffine mechanism

關系抽取部分,設置閾值為0.5。由2.3節可知,圖2中輸入文本經過實體抽取層將實體類型信息融入到共享的句子編碼信息中,然后使用雙仿射模型創建維度l×l×r評分函數rk,第一個維度l表示主體(subject)最后一個字符的位置,第二個維度l表示客體(object)最后一個字符的位置,第三個維度r表示關系類型編號。經過關系抽取層計算則有:σ(rk(6,1,1))>0.5,σ(rk(6,12,2))>0.5,σ(rk(12,1,1))>0.5,σ(rk(12,6,3))>0.5,如圖2關系抽取部分所示,這些位置在對應關系位置上均被標注為1。

最后,結合實體列表和關系編號列表即可完成對含有嵌套實體的關系三元組[(杭州西湖風景區,所在城市,杭州),(杭州西湖風景區,著名景點,蘇堤春曉),(蘇堤春曉,所在城市,杭州),(蘇堤春曉,所屬景區,杭州西湖風景區)]的抽取。

3 實驗與分析

3.1 實驗數據集介紹

由于旅游領域暫無公開的實體和關系抽取聯合任務的數據集,本文綜合考慮結構化關系三元組中景點信息缺失程度和旅游領域文本信息中出現頻次,定義了實體類型和關系類型。結構化三元組和文本信息主要爬取自百度百科和去哪兒、攜程、馬蜂窩等垂直旅游網站,然后基于遠程監督的思想,利用結構化三元組對文本信息進行回標,輔助構建數據集,最終構建了旅游領域關系抽取數據集TFRED(tourism field relation extraction dataset),句子條數共計10 604 條,包含嵌套實體句子1 166 條,約占數據集11%。每條句子包含一種或多種關系,句子中的關系三元組共計18 480 個。訓練集、驗證集、測試集按照8∶1∶1 比例分割,數據集詳細統計信息如表3所示。

表3 TFRED數據集詳細統計Table 3 Detailed statistics of TFRED dataset

為了驗證模型改進策略的有效性和BAMRel 模型的魯棒性,在公開的中文關系抽取數據集DuIE[36]上進行驗證。DuIE數據集包含45萬個實例、49種常用關系類型、32 種實體類型、34 萬個關系三元組、21 萬條句子。該數據集包含大量重疊關系,因此基于該數據集可以對模型重疊關系抽取能力進行評估。

3.2 實驗環境及參數設置

本文模型使用的GPU 為GeForce RTX 2080Ti,編程語言為Python3.7,深度學習框架為tensorflow2.0。本文使用模型對句子長度進行了限制,最大句子長度為128,訓練過程中batch_size 大小為16,使用初始學習率為1E-5的Adam優化器在訓練集上學習100輪,在驗證集上獲得最佳F1 值模型,并在測試集上得到實驗結果。模型實體抽取部分和關系抽取部分共享編碼層后連接的前饋神經網絡維度均為128,使用的激活函數均為relu。在關系抽取部分嵌入的實體標簽維度為16,使用Dropout 大小為0.2 來加快訓練速度和防止過擬合。實體抽取部分使用softmax 多分類交叉熵損失函數,關系抽取部分使用sigmoid 二分類交叉熵損失函數,兩部分閾值設置為0.5,該閾值通過實驗進行搜索得到。

3.3 對比模型介紹

為了驗證BAMRel模型的有效性和魯棒性,本文選取了以下主流的聯合抽取模型和相關改進模型進行對比實驗。

(1)Multi-head[37]:使用BiLSTM作為共享編碼器,在實體識別部分使用條件隨機場解碼,將實體類型信息融合到關系抽取過程中,并把關系抽取轉化為一個多頭選擇的問題。

(2)BERT+Multi-head:將Multi-head 中的BiLSTM替換為BERT編碼器。

(3)Multi-head(Ptr-Net):將Multi-head中的BiLSTM替換為BERT 編碼器,同時為了解決實體嵌套問題,將基于條件隨機場的解碼方式替換為多標簽指針網絡。

(4)CasRel[38]:提出一種用于解決關系重疊問題的級聯式二元標注框架,使用BERT 作為句子編碼器,將關系建模為將句子中的主語映射到賓語的函數,使用多層關系標簽的指針網絡進行解碼。此方案中對于每組文本數據,分別抽取其所有不同的S(Subject)以及其相關的PO組成多組數據進行訓練。

(5)CasRel*:將CasRel模型訓練方式更改為每組文本數據僅隨機抽取一個S(Subject)以及其相關的PO構建成一組數據的方式進行訓練。

(6)CopyMTL[39]:一種基于復制機制編碼器-解碼器結構的聯合關系抽取模型,Encoder 部分使用BiLSTM建模句子上下文信息,Decoder 部分則結合復制機制生成多對三元組。

(7)WDec[40]:一個主要解決關系重疊問題提出的編碼器-解碼器結構的聯合關系抽取模型,在實體識別的過程中使用掩碼機制,然后根據實體識別結果進行字解碼。

(8)Seq2UMTree[41]:為了解決序列到序列模型在解碼過程中曝光偏差問題提出一種新的序列到無序多樹的聯合抽取模型,解碼器部分使用一個簡單的樹形結構來生成三元組。

(9)FETI[42]:一種新的融合頭尾實體類型信息的聯合抽取模型,在解碼階段增加了頭尾實體類別的預測,并通過輔助損失函數進行約束。

(10)Biaffine(NER):將Multi-head(Ptr-Net)實體抽取部分的多標簽指針網絡替換為雙仿射分類器進行嵌套實體識別,關系抽取部分使用多頭選擇機制進行重疊關系抽取。

(11)Biaffine(RE):將Multi-head(Ptr-Net)關系抽取部分的多頭選擇機制替換為雙仿射分類器進行重疊關系抽取,實體抽取部分使用多標簽指針網絡進行嵌套實體識別。

3.4 評價指標

實體抽取部分和關系抽取部分評價指標都使用準確率(P),召回率(R)和F1 值,公式參數定義如下:TP為正確識別的個數,FP 是識別出的不相關的個數,FN是數據集中存在且未被識別出來的個數。

通常精確率和召回率的數值越高,代表實驗的效果好,然而有時精確率越高,召回率越低。所以需要綜合考量加權調和平均值,也就是F1值,F1值定義如下:

在本實驗中,采用嚴格的評價指標,即如果實體的邊界和類型都是正確的,則認為該實體識別是正確的;當關系的類別和頭尾實體都正確時,則認為抽取的關系是正確的。

3.5 實驗分析

3.5.1 非嵌套實體聯合抽取對比實驗

由于主流的聯合抽取模型無法解決包含嵌套實體的重疊關系抽取問題,故將TFRED 數據集篩選出不包含嵌套實體的句子進行對比實驗。為了驗證模型的有效性魯棒性,同時也在不包含嵌套實體的百度DuIE 數據集上進行了對比實驗,實驗結果如表4所示。

表4 非嵌套實體聯合抽取實驗結果Table 4 Results of non-nested entity joint extraction experiments

實驗結果顯示,BAMRel模型在自行構建的TFRED數據集和公開數據集DuIE 數據集上的表現均優于主流的聯合抽取模型,體現了模型在更加復雜場景中的魯棒性和有效性。其中基線模型CopyMTL、WDec、Seq2UMTree 實驗結果均來自于文獻[41]中的結果,FETI 選擇F1 值最高的解碼順序。從TFRED 數據集上的實驗結果來看,Multi-head 的多頭選擇機制在使用BERT 作為編碼器后關系抽取結果提升了0.053,而BAMRel 模型比BERT+Multi-head 模型實驗結果高出0.012。這是由于使用雙仿射注意力機制構建的分類矩陣擁有更多的參數,且乘性方法相比于Multi-head的多頭選擇機制能捕捉到Subject 和Object 特征之間的交叉關系,而Multi-head 則是通過簡單的線性變化進行組合。CasRel 模型由于設計原因對于每組文本數據每次只能傳入一個S(Subject)和其相關的PO 進行訓練,而存在重疊關系的復雜句子中可能主語不同,因此對每條文本遍歷所有不同主語(S)的標注樣本構建訓練集比隨機選擇S更能增加模型的魯棒性,因此CasRel比CasRel*的實驗結果高了0.012。

從DuIE數據集上的實驗結果來看,CopyMTL、WDec、Multi-head 等模型的準確率要高于召回率0.01~0.015,這是由于模型對句子包含多種關系三元組時抽取能力不足造成的,這類模型不適用于更加復雜的關系抽取場景。而Multi-head 改進后的Multi-head(Ptr-Net)在緩解了高準確率低召回率的情況下模型性能提升了近0.01,體現了預訓練模型對模型性能提升產生的巨大影響。Seq2UMTree 和FETI 模型都是基于編碼器-解碼器的模型,但FETI在解碼過程中融合了實體類型信息,F1值比Seq2UMTree提升了0.015,說明了實體類型信息對關系抽取結果提升具有促進作用,側面說明了BAMRel模型融合實體類型信息進行關系抽取的合理性和有效性。CasRel 模型使用多層標簽指針網絡巧妙地將關系的預測隱性的放在了尾實體的抽取過程中,結合預訓練模型BERT 在兩個數據集上取得了較高的F1 值。忽略模型本身設計方面的差異,解碼時CasRel的多個二元指針網絡使用的是簡單的線性分類器,而本文BAMRel模型在實體抽取部分和關系抽取部分都使用雙仿射分類器。雙仿射分類器構建的注意力矩陣能夠使實體識別過程中開始位置token和結束位置token產生信息交互,同時能夠捕捉到關系抽取時頭尾實體特征之間的交叉關系而提升實驗結果,因而BAMRel 模型F1 值在TRFED數據集和DuIE 數據集上比CasRel 模型分別高出0.006和0.004。

3.5.2 嵌套實體聯合抽取對比實驗

本文首先將Multi-head[37]聯合抽取模型應用于中文關系抽取,并針對其無法對句子中包含嵌套實體的關系進行抽取和抽取性能欠佳進行了改進,表5為一系列改進策略在包含嵌套實體的TRFED數據集上進行的對比實驗。在進行實體標簽類型嵌入時存在兩種方案。第一種方案是頭尾實體的所有token信息都與實體類型信息進行拼接,第二種方案是只對頭尾實體最后一個字符的token信息與實體類型信息進行拼接,其余的token實體類型都編碼為0,這兩種改進方案分別對應表5 第一組對比實驗標簽全部嵌入(All)和標簽部分嵌入(Part)。從此實驗結果來看,在實體識別結果差異不大的情況下,頭尾實體部分標簽嵌入比全部標簽嵌入F1 值高了0.007,顯然第二種方案更適合關系抽取方式,只對頭尾實體的最后一個字符傳入實體類型信息在不會造成信息丟失的情況下增加了實體內token 信息的區分度,有利于頭尾實體之間關系的判斷。

表5 嵌套實體聯合抽取實驗結果Table 5 Results of nested entity joint extraction experiments

Biaffine(NER)與Multi-head(Ptr-Net)相比,實體識別F1 值提升了0.009,同時關系抽取F1 值提升了0.005。Biaffine(RE)與Multi-head(Ptr-Net)相比,實體識別F1 值與Multi-head(Ptr-Net)模型保持不變的情況下,關系抽取F1 值提升了0.011。原因是雙仿射分類器比線性分類器擁有更多的參數,且能捕捉到特征之間的交叉關系,從而提升實驗結果。可以將表5中的第二組實驗看作BAMRel模型對雙仿射注意力的消融實驗,在Multi-head(Ptr-Net)模型上驗證了使用雙仿射注意力機制構建分類矩陣的優越性。BAMRel 模型在實體抽取部分和關系抽取部分共用Biaffine模型,最終在TFRED數據集上F1 值達到了91.8%,關系抽取F1 值比基礎模型提升了0.017。

3.5.3 BAMRel模型實體和關系抽取能力評估

為了進一步驗證BAMRel 模型從包含不同三元組數量的句子中對實體識別和關系抽取的能力,將TFRED數據集分成了5 類,表6 顯示了從不同三元組數量的句子中識別實體和關系抽取的能力。

表6 BAMRel模型實體和關系抽取能力評估結果Table 6 Evaluation results of BAMRel model entity and relation extraction capabilities

從表6中實體識別結果可以發現,在包含不同關系數量的句子上實驗結果表現出較大差異性。分析其原因是由于每個句子中都可能存在沒有預定義關系的實體,但在進行實體識別時都將其識別了出來因而產生誤差。聯合抽取模型在數據標注時只標注了有預定義關系的頭尾實體,而句子中不同程度存在無關系實體,例如標注樣例:{"text":"青島海軍博物館,東鄰魯迅公園、西接小島公園與棧橋隔水相望、南瀕一望無際的大海、北面是著名景點信號山公園,占地4 萬多平方米。","spo_list":[{"predicate":"所在城市","object":"青島","subject":"青島海軍博物館","object_type":"城市","subject_type":"景點"},{"predicate":"占地面積","object":"4萬多平方米","subject":"青島海軍博物館","object_type":"Number","sub-ject_type":"景點"}]}

在此樣例中標注的實體只有“青島海軍博物館”“青島”“4萬多平方米”,其中城市“青島”為嵌套實體,而在句子中還存在未被標注的“魯迅公園”“小島公園”“棧橋”和“信號山公園”無關系實體會被識別出來,因而會造成實體識別結果出現低準確率高召回率的情況。每個測試句子中包含無關系實體不同的數量造成了實體識別結果的差異性。表6 中包含實體嵌套的命名實體識別F1 值均值為0.968,與表4 中不包含嵌套實體的F1值0.967 相差不大,說明BAMRel 較好地解決了實體嵌套的問題。

從表中關系抽取結果可以發現,隨著句子中所包含的三元組的數量增加,模型的性能逐步降低。排除關系抽取難度最小(N=1)的情況,句子中關系數量從2增加到5 以上對關系抽取的F1 值僅降低了0.031,意味著模型受到輸入句子復雜性增加的影響較小,適合用于從復雜句子中抽取多個有重疊關系的三元組。

3.5.4 實體類型對關系抽取影響評估

本文提出的BAMRel模型和Multi-head[37]模型都將實體類型信息與共享的編碼信息融合進行關系抽取。但是實體識別部分設計存在兩種方案,第一種是實體識別僅確定實體邊界,來減少誤差傳播。第二種方案是實體識別同時確定實體邊界和實體類型,更多的實體標簽數量會增加識別難度傳播更多的誤差,但實體類型標簽可作為特征融合到關系抽取過程中得到更好的實驗結果。此時無法判斷兩種方案的優劣和第二種方案中融合實體類型信息對關系抽取結果的影響程度。因此設計了表7 四組對比實驗來評估兩種方案優劣和實體類型對關系抽取部分的影響。

由于Multi-head 模型使用序列標注方式,無法對嵌套實體進行識別,故將TFRED 數據集篩選出不包含實體嵌套的句子進行對比實驗。表7 中對不同模型關系抽取過程中是否融合實體邊界信息(Span)和實體類型信息(Type)進行了對比實驗。從第一組實驗結果中可以看出,實體識別任務同時確定實體邊界和實體類型信息的F1 值比只確定邊界信息的F1 值降低了0.12,但是在關系抽取的過程中融合實體類型信息的F1值比不融合實體類型信息的F1值高了0.018。圖5記錄了表7中第一組實驗50 個epoch 實驗結果(Ner_f1 和Re_f1 分別代表實驗中未融合實體類型的實體識別F1值和關系抽取F1 值,Ner_t_f1 和Re_t_f1 分別代表實驗中融合實體類型的實體識別F1值和關系抽取F1值),Ner_t_f1在50個epoch 的測試集上的表現一直低于Ner_f1,而趨于穩定的Re_t_f1 卻比Re_f1 平均高0.02 左右,因此可以得到以下三點結論:

圖5 第一組對比實驗結果Fig.5 Results of first set of comparative experiment

(1)在模型評估階段,實體識別任務在同時確定實體邊界和實體類型產生的誤差對關系抽取結果的不利影響遠小于將實體類型信息將其融合到關系抽取部分對關系抽取結果的有利影響,因此值得犧牲實體識別部分性能確定實體類型信息將其融合到關系抽取部分。

(2)實體識別部分功能設計的兩種方案中,融合實體類型信息方案優于另外一種。

(3)Multi-head模型使用BiLSTM作為編碼器,在關系抽取部分融合實體類型信息比不融合實體類型信息F1值提升了約0.02。

從表7中的第二組對比實驗的結果可以看到,在使用預訓練模型的情況下,實體識別任務同時確定實體邊界和實體類型信息的F1值比只確定邊界信息的F1值只降低了0.005,縮小了兩種識別方案的差距,但是在關系抽取的過程中融合實體類型信息的F1值比不融合實體類型信息的F1 值還是高了0.01 左右,同樣縮小了關系抽取結果的差距。結合圖6第二組對比實驗50個epoch在測試集上的表現,依舊滿足第一組實驗的結論,實體類型信息對關系抽取的影響不可忽視,但是預訓練模型弱化了實體類型對關系抽取結果的影響,Re_t_f1 比Re_f1平均高0.01左右。

圖6 第二組對比實驗結果Fig.6 Results of second comparative experiment

表7 實體類型標簽對關系抽取影響評估結果Table 7 Evaluation results of impact of entity type labels on relation extraction

第三組實驗是對融合實體邊界信息和實體類型信息Multi-head和BERT+Multi-head進行的消融實驗。從實驗結果來看,在關系抽取過程中不融合實體邊界和實體類型信息得到的實驗結果與只融合實體邊界信息得到的實驗結果相差不大。圖7和圖8分別是兩個模型在50個epoch的測試集上的表現(Re_t_f1表示融合了實體邊界信息和實體類型信息的關系抽取F1值,Re_u_f1表示未融合實體邊界信息和實體類型信息的關系抽取F1值),由圖7 圖8 可知Multi-head 模型Re_t_f1 比Re_u_f1平均高0.02左右,Bert+Multi-head模型Re_t_f1比Re_u_f1平均高0.01 左右,可以得到結論,實體類型對關系抽取F1 值的影響范圍大致在0.01~0.02。最后,設置第四組實驗,在BAMRel 模型上驗證該結論。從實驗結果可知,BAMRel模型融合實體邊界和實體類型信息的關系抽取F1 值比高0.008,對模型性能的提升接近這個范圍,該結論成立。

圖7 Multi-head消融實驗Fig.7 Multi-head ablation experiment

圖8 BERT Multi-head消融實驗Fig.8 BERT Multi-head ablation experiment

綜上所述,在聯合抽取模型中,實體類型可作為關系抽取模型的重要特征輸入,對關系抽取模型F1 值的提升大致在0.01~0.02 的范圍內。本文提出的BAMRel模型融合實體類型信息進行關系抽取是合理有效的。

4 總結

本文提出一種基于雙仿射注意力機制的實體關系聯合抽取模型BAMRel,模型在自行構建的TFRED 數據集和公開的DuIE 數據集上都達到了最佳的實驗結果,證明了BAMRel模型可以有效解決實體嵌套和關系重疊的三元組抽取問題。同時實體抽取和關系抽取部分共用Biaffine 模型構造分類矩陣,降低了聯合抽取模型的復雜度,使得模型具有良好的性能。

在實驗過程中,BAMRel模型在訓練階段使用實體真實標簽,而在評估階段使用預測標簽,訓練階段過于依賴真實標簽而產生曝光偏差,會導致誤差傳播,如何解決曝光偏差問題是接下來值得研究的問題。另外,基于雙仿射注意力機制構建的分類矩陣存在標簽不平衡問題,解決標簽不平衡問題也是接下來模型改進的方向。

猜你喜歡
實驗信息模型
一半模型
記一次有趣的實驗
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 成年人福利视频| 亚洲一区二区三区香蕉| 在线观看无码av免费不卡网站| 日本午夜精品一本在线观看 | 国产99热| 2021国产在线视频| 日韩区欧美国产区在线观看| 国产又粗又爽视频| 久久女人网| 国产精品视频3p| 国产微拍一区二区三区四区| 国产爽爽视频| 欧美亚洲第一页| 99资源在线| 亚洲日韩图片专区第1页| 精品视频福利| 欧美精品亚洲精品日韩专| 色男人的天堂久久综合| 亚洲成人精品在线| 97影院午夜在线观看视频| 日韩精品无码免费专网站| 精品无码人妻一区二区| 欧美成人第一页| 亚洲国语自产一区第二页| 日本日韩欧美| 亚洲人精品亚洲人成在线| 扒开粉嫩的小缝隙喷白浆视频| 国产又大又粗又猛又爽的视频| 国产欧美日韩资源在线观看| 国产高清在线精品一区二区三区 | 色综合五月婷婷| 青草国产在线视频| 国产精品hd在线播放| 免费看av在线网站网址| 国产永久免费视频m3u8| 久久精品66| 美女毛片在线| 99热亚洲精品6码| 亚洲国产综合精品一区| 91精品综合| 国产精品观看视频免费完整版| 色欲不卡无码一区二区| 久久精品电影| 国产丝袜丝视频在线观看| 中文字幕丝袜一区二区| 小蝌蚪亚洲精品国产| 99久久精品免费观看国产| 日韩在线视频网站| 日韩精品成人网页视频在线 | 午夜三级在线| 伊人久久精品亚洲午夜| 欧洲欧美人成免费全部视频 | 亚洲二区视频| 成人福利在线看| 黄色在线网| 老司机精品99在线播放| 99久久无色码中文字幕| 丰满人妻中出白浆| 在线播放国产99re| 91在线中文| 色婷婷在线播放| 国产永久免费视频m3u8| 日本黄网在线观看| 99久久免费精品特色大片| 91丝袜乱伦| 亚洲AV免费一区二区三区| 综合天天色| 亚洲第一区在线| 无码丝袜人妻| 亚洲成年人网| 国产网站免费观看| 亚洲欧美在线综合图区| 国产h视频在线观看视频| 亚洲国产日韩在线成人蜜芽| 色综合久久88| 一级做a爰片久久毛片毛片| 亚洲第一极品精品无码| 青青青国产视频| 亚洲AV成人一区国产精品| 亚洲AV人人澡人人双人| 国产日韩丝袜一二三区| 国产三区二区|