999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

圖神經網絡在命名實體識別中的應用研究

2023-10-10 10:38:16束文豪奚雪峰崔志明顧晨凱
計算機工程與應用 2023年19期
關鍵詞:文本信息方法

束文豪,奚雪峰,3,崔志明,3,顧晨凱

1.蘇州科技大學 電子與信息工程學院,江蘇 蘇州 215000

2.蘇州市虛擬現實智能交互及應用技術重點實驗室,江蘇 蘇州 215000

3.蘇州智慧城市研究院,江蘇 蘇州 215000

命名實體識別(named entity recognition,NER)[1]是信息抽取任務之一,在自然語言處理(natural language processing,NLP)任務中得到了廣泛的應用,如自動問答、機器翻譯和自動文本摘要等。NER的主要目的是從非結構化文本中提取預先指定的“專有名詞”,如人名、地名、機構名,和日期[2]。但隨著研究的不斷深入,學者們對名詞類型做了更加細粒度的劃分。例如,地名可以細分為國家、省、州和城市[3]等,人名可以細分為政治家、演員和其他角色[4]等。隨著神經網絡的快速發展以及中文NER研究的進一步開展,近幾年,越來越多的學者對中文NER 進行了深入的研究。與英文NER 相比,中文NER中的實體因缺少明確的邊界,以及復雜的詞序構造和嵌套實體關系的定義,而更加難以識別。對于解決中文NER 中存在的實體邊界問題,本文整理了行之有效的解決方法,并研究了在特定領域以及低資源領域的NER。同時,本文還分析了NER中實體消歧、實體鏈接和嵌套NER等相關任務的最新研究進展。

早期NER 技術通常依賴于人工構建規則和模板。例如,20 世紀90 年代初,Rau 等人[5]手動構建了大量規則和模板,并使用啟發式算法成功地從財經新聞中識別出公司的企業身份。該方法遠超人工提取的效率,并且評估指標超過90%。但是這種方法需要領域專家自定義規則,耗費時間和精力,不能應用于其他領域,泛化能力和可移植性較差。

隨著將機器學習應用于NER 任務之后,領域專家不再需要手動構建規則和模板,而是借助于帶注釋的語料庫來訓練模型。其中,隱馬爾科夫模型(hidden Markov model,HMM)和條件隨機域模型(conditional random field,CRF)就是具有代表性的模型。例如,2015年,韓春燕等人[6]使用CRF 提取特征級別、句子級別和詞匯級別的特征,并將它們與詞典特征一起輸入到另一個CRF 中,用于微博等網絡社交領域的實體識別。隨后,Feng 等人[7]結合了HMM 和詞匯特征以及橋梁領域的專有規則來識別橋梁實體。但由于這兩種方法都是基于機器學習的,需要提取特征,因此在訓練過程中模型中會出現誤差傳播。鑒于此,學者們逐漸開始將研究重點轉向深度學習。

深度學習已經成為一種直接從數據中學習特征表示的強有力的方法。與傳統淺層機器學習相比,基于深度學習的實體識別可以在原始數據中自動學習特征,在一定程度上降低了對領域專家的依賴,解決了模型訓練中的誤差傳播問題。因此,在NER中,基于深度學習方法的準確率已經超越基于傳統淺層機器學習的方法。NER 任務中主要用到的深度學習方法包括各類神經網絡,下文將逐一介紹。

在2011年,Collobert等人[8]首次在NER任務中應用卷積神經網絡(convolutional neural network,CNN)。2019 年,Cao 等人[9]在CNN 的基礎上增加了CRF,并提出了CNN-CRF 模型,用于中文電子病例的實體提取。使用該模型后,精度和速度都有所提高。由于傳統的CNN模型不能解決長距離信息丟失的問題,在2021年,Kong 等人[10]提出了一種增加注意力機制的CNN 模型,該模型中不同卷積核和殘差結構的CNN融合提高了從不同維度捕獲長文本上下文信息的能力,以此來處理長距離信息的丟失。

循環神經網絡(recurrent neural network,RNN)在NER 任務中也得到了廣泛的應用。Huang 等人[11]提出將長短期記憶網絡(long short term memory,LSTM)應用于NER任務,并提出了基于LSTM的多個變體模型,其中雙向長短期記憶網絡(bi-directional long short term memory,BiLSTM)最具代表性。利用BiLSTM 模型可以得到文本在過去和未來兩個方向上的特征。在此基礎上,Yang等人[12]使用BiLSTM模型從電子病例數據中提取了22 種實體類型、如疾病、癥狀、身體部位和其他成分,實驗F1 值達到80.52%。2019 年,Ji 等人[13]在BiLSTM 模型的基礎上引入了注意力機制來計算文本中關鍵特征的權重,提高了文本特征的提取能力。2020 年,Liu 等人[14]提出了一種新的網絡結構,即結合CNN和LSTM 端到端的模型結構,CNN和CRF都被用于獲得基于詞的表示。

近年來,除了CNN 和RNN 之外,利用Transformer模型進行NER 也成為學者們研究的熱點。Transformer主要由注意力機制實現,這不僅提高了識別精度,還縮短了訓練時間。在NER 中使用Transformer 的代表有Yan 等人[15]提出的TENER 模型和Li 等人[16]提出的Transformer-CRF 模型,該模型在提取文本特征的基礎上,引入CRF 對實體進行分類和識別。Shen 等人[17]在2022 年提出了BERT-BiLSTM-CRF 模型。該模型將RNN與注意力機制結合,通過神經網絡提取句子特征,利用注意力機制解決長距離依賴問題,有效地提高了模型的整體識別能力。因此,注意力機制在NER 任務中的應用拓展了NER的研究方向。

隨著研究發現,在編碼層中,CNN和RNN都存在梯度消失、梯度爆炸和數據空間限制等問題,這嚴重影響了模型的準確性和擴展性。但是,研究人員發現圖神經網絡[18]在NER上也能取得很好的效果,并且該模型打破了神經網絡的序列化處理結構,充分發揮了圖的優勢,實現了從歐幾里德空間向非歐幾里德空間的突破,能有效地解決上述問題。本文接下來將著重介紹圖神經網絡及其應用,最后進行本文總結和展望。

1 圖神經網絡的基本概念

1.1 圖神經網絡

圖神經網絡(graph neural network,GNN)是深度學習在圖結構上的一個分支,除了能夠學習結構化數據之外,還能學習到非結構數據,比如文本和圖像信息等,并能夠在提取出的圖結構中進行推理。早期的GNN存在許多問題,之后衍生了諸多變體,本文將在1.2節、1.3節、1.4節中詳細介紹。下面給出GNN的說明和定義。

GNN的目標是學習得到一個狀態嵌入向量hv∈Rs。這個向量包含每個節點的鄰居節點信息,其中,hv表示節點v的狀態向量,這個向量可以用于產生輸出ov,比如輸出可以是節點的標簽;設f是帶有參數的函數,叫作局部轉化函數,這個函數在所有節點中共享,并根據鄰居節點的輸入來更新節點狀態;設g為局部輸出函數,這個函數用于描述輸出的產生方式。那么hv和ov按照如下式子產生:

其中,xv、xco[v]、hNv和xNv分別表示節點的特征向量、節點v邊的特征向量、節點v鄰居節點的狀態向量和節點v鄰居節點特征向量。

假設將所有的狀態向量,所有的輸出向量,所有的特征向量疊加起來分別使用矩陣H、O、X和XN來表示,那么可以得到更加緊湊的公式:

其中,F表示全局轉化函數,G表示全局輸出函數,分別是所有節點f和g的疊加形式,H是方程(3)的不動點,并且在F為收縮映射的假設下H被唯一地定義。根據Banach 的不動點定理,GNN 使用如下的傳統迭代方法來計算狀態參量:

其中,Ht+1表示H的第t個迭代周期的張量,方程(5)迭代的系統按指數級收斂,收斂到最終的不動點。

但早期的GNN對不動點使用迭代的方法來更新節點的隱藏狀態效率并不高,并且GNN 在迭代中使用相同的參數,而其他比較著名的模型在不同的網絡層采用不同的參數來進行分層特征提取,使得模型能夠學習到更深的特征表達。

同時圖中的一些邊上可能會存在某些信息特征不能被有效地考慮進去。此外,如何學習邊的隱藏狀態也是一個重要問題。

1.2 圖循環神經網絡

圖循環神經網絡(graph recurrent network,GRN)是在傳播步驟中使用門循環單元(GRU)[19]或LSTM[20]這樣的RNN 的門機制,以減少早期GNN 模型的表達結果,并提高圖中信息長期傳播的有效性。

Li 等人[21]提出了在支撐步驟中使用GRU的門控圖形神經網絡(gated graph neural network,GGNN)算法。它對固定數目的T步驟展開RNN,并通過時間反向傳播計算梯度。具體傳播模型的基本遞歸如下公式:

節點v首先聚合來自其鄰居節點的信息,其中Av是鄰接矩陣A的子矩陣,表示節點v與其鄰居節點的連接。類似于GRU-like的更新函數使用每個節點的鄰居節點上的信息和上一個時間步驟的信息來更新節點的隱藏狀態。向量a收集節點v、z和r的鄰域信息,同時這三個節點也是更新和重置門,⊙是Hardamard 乘積運算。

GGNN 模型是針對圖上需要輸出序列的問題而設計的,而現有模型只能生成單一的輸出,如節點級或圖級分類。

Li等人[22]進一步提出了門控圖序列神經網絡(gated graph sequence neural network,GGS-NN),它使用多個GGNN產生一個輸出序列o(1),o(2),…,o(K)。如圖1所示,對于k-th輸出步驟,節點注釋的矩陣表示為X(k)。該體系結構使用了兩個GGNN:F(k)o預測從X(k)到o(k)的過程和F(k)x預測從X(k)到X(k+1)的過程。本文用H(k,t)來表示k-th輸出步驟的t-th傳播步長。

圖1 門控圖序列神經網絡的架構Fig.1 Architecture of gated graph sequence neural network

每個步驟k的H(k,1)的值由X(k)初始化。每個步驟t的H(t,1)的值初始化為X(t)。F(k)o和F(k)x可以是不同的模型,也可以共享相同的參數。

1.3 圖卷積神經網絡

對于一個給定節點vi,圖卷積神經網絡(graph convolutional network,GCN)[23]使用卷積函數在hit-1的基礎上計算hit。假定用于信息交換的上下文與GRN例子情況相同。分別采取式(11)和式(12)來為無向圖和有向圖計算mti和xit:

GCN和GRN之間的主要區別在于更新節點隱含狀態的方式不同:GRN 采用LSTM 來更新節點狀態,而GCN則使用卷積函數進行這一操作,如式(13)所示:

式(13)可以被視作一個標準卷積濾波器操作,其中,Wm、Wx和bx是模型參數。

一種GCN的變體使用不同的權重收集來自不同類型邊的信息(即具有不同標簽的邊)。即將連接節點vi和vk的邊標簽表示為l(i,k),將vi和vk的邊的方向表示為dir(i,k)。可以通過將式(13)替換為式(14)、(15)來定義GCN。

其中,是用于替換式(13)中Wm的|L|×2 組模型參數;L是邊標簽的集合。同樣地,類似的方法可以用于擴展Wx和bx。

為了控制從hk傳遞到hi的信息量,可以在式(14)、(15)的基礎上添加控制門,形成另一種GCN 的變體。具體來說,控制門gi,k t的值如式(16)所示:

使用控制門后,可以將式(14)拓展為式(17)的形式:

1.4 圖注意力神經網絡

圖注意力神經網絡(graph attention network,GAT)[24]可以被視為一種通過對鄰居節點進行操作來表示每個節點的自注意力神經網絡(self-attention network,SAN)[25]。具體而言,為了計算在時間步t時刻的vi節點的隱含狀態hit,使用其相鄰節點的先前狀態的加權和,如式(18)所示:

式中的權重αik是由先前的隱含狀態hit-1和htk-1計算得到的,如式(19)和式(20)所示:

其中,W是模型參數。相較于早期GNN來說,GAT采用的注意力機制能夠為不同的鄰居節點分配不同的權重。

2 圖神經網絡在命名實體識別中的應用

隨著NER 技術的不斷成熟,目前GNN 已應用到多個NER任務中,并取得了不錯效果。GNN在NER中主要應用于實體邊界檢測、實體鏈接、實體消歧、(特定)低資源NER、關系抽取以及嵌套NER 等相關任務。本章詳細介紹研究人員對上述任務做的相關工作及成果。

2.1 實體邊界檢測

NER 的目標是檢測文本中實體的邊界和實體的類型,表1 展示了邊界檢測的相關數據集。相較于英文NER,中文命名實體識別(CNER)研究難度更大。在英文文本中,單詞作為閱讀的基本單位是以空格作為劃分。而在中文文本中,語句由漢字緊密排列組成,并且沒有明確的分界符號。漢字是中文閱讀的基本單位,人在閱讀過程中會主動對語句進行分詞。相較于英文的詞粒度嵌入向量,中文的詞粒度向量需要進行分詞任務,然而分詞產生的錯誤會導致實體識別錯誤,甚至會改變文本語義表達。

表1 邊界檢測的實體數據集Table 1 Entity datasets for boundary detection

為了解決上述問題,Chen等人[26]提出了一種邊界增強的方法。首先,利用Star-Transformer[27]構建了一個輕量級baseline 系統。由于Star-Transformer 具有獨特的星形拓撲結構,因此在表示長距離序列方面具有更大的優勢,從而使得模型的baseline 性能達到了與SOTA 相當的水平。該方法從兩個角度增強了邊界信息。一方面,添加了一個附加的GAT 層來捕獲短語的內部依賴關系。通過這種方式,可以隱含地區分界限,同時增強短語中的語義信息;另一方面,增加了一個輔助任務來預測實體的頭部和尾部。最后,利用多任務學習框架學習邊界信息。

Sui 等人[28]提出了一種基于字符的協同圖網絡(CGN),具體來說,在圖層中有三個字符交互圖。第一個是C圖,它是為整合自匹配詞匯而設計的,模擬了字符和自匹配詞匯之間的聯系。第二個是T圖,它建立了字符和最近的上下文匹配詞之間的直接聯系,有助于直接整合最近的上下文單詞。第三個是L圖。L圖通過多跳隱含地捕獲自匹配詞匯和最近的上下文詞匯的信息。這些圖是在沒有外部NLP工具的情況下構建的,可以避免錯誤傳播的問題。此外,該模型第一次將GAT和自動構建語義圖引入NER任務。

上述方法使用了詞典信息和圖網絡來識別實體,但由于詞之間的依賴關系有助于確定實體邊界,利用與句法依賴關系相關的信息來提高NER性能至關重要。因此,Zhu 等人[29]提出了一種新穎的基于GGNN 的句法依賴圖信息學習模型,并將學習到的信息融合到經典的BiLSTM-CRF 模型中,此外,他們還從多個中文分詞(CWS)和詞性標注任務(POS)中提取了各種任務特定的隱藏信息,進一步改進了NER模型。最后,利用多個自注意力組件來整合多種提取的信息用于NER。在CNER中,實體邊界還存在重疊字詞的情況,因此Zhong等人[30]提出一種基于GGNN的CNER模型。首先,利用BERT 生成字符的預訓練編碼向量,引入全局節點獲取全局信息,然后構造一個GGNN 來表示相應的字符和詞。通過圖形結構中字符、匹配詞和整個句子全局節點信息的多重交互對中文實體進行識別。

雖然通過引入多圖注意力網絡,使CGN 模型獲得了較強的知識整合能力以及高效的處理速度。但該模型在嵌入層中沒有充分利用詞邊界的信息,而且采用傳統靜態的GAT 影響了圖注意力的表達能力。因此,宋旭暉等人[31]在對該模型中的GAT進行改進的基礎上,提出了一種融入分詞信息的CNER 方法。該方法首先在嵌入層融入詞語的分詞信息以生成包含詞邊界信息的字向量,從而更好地利用詞的邊界信息。其次在編碼層使用BiLSTM模型初步獲取文本的上下文信息,并利用改進后的GAT 對文本特征進行提取,優化傳統GAT 中相關系數的計算方式以增強模型的特征提取能力。最后利用CRF進行解碼從而實現對實體的標注。

在中文NER醫療領域,Lee等人[32]提出了ME-MGNN模型,該模型結合從部首、字符到單詞級別的不同粒度的多個嵌入,以擴展字符表示,并將其輸入到多個GGS-NN中,以識別命名實體并對其類型進行分類。

中文電子病歷的NER 旨在識別和分類臨床術語,目前大多數基于深度學習的方法存在許多薄弱環節,如特征提取不足、低資源實體識別不力、邊界劃分不準確等。針對邊界劃分不準確的問題,Zong等人[33]提出了一個新方法,該方法使用具有多向圖結構的GGNN來捕獲醫學詞典提供的特征。使用CNN來獲取詞之間的邊界特征。這兩個特征被連接成一個特征向量,并輸入到Bi-Mogrifier-LSTM-Attention模塊中。該模型將字典特征集成到深度神經網絡中,以更好地處理罕見的臨床命名實體。多頭注意力模塊強調當前信息與上下文信息在許多方面的相關性和依賴性,這削弱了醫學和臨床治療無關的語義特征的權重。

因此為了以統一的方式利用多源知識,將詞匯或知識圖譜(knowledge graph,KG)概念與中文臨床NER的邊界很好地結合起來。Xiong等人[34]提出了一種新的基于關系圖卷積神經網絡,稱為MKRGCN。多元知識增強中文臨床NER模型。通過關系圖卷積神經網絡對外部詞典單詞和KG 概念進行整合,建立了詞典單詞或KG概念與其邊界統一匹配的模型。

Sui 等人[28]提出的模型不區分字詞的邊界,因此可能會混淆字符和詞之間的信息流。Zhao 等人[35]將邊界劃分為10 類,利用可訓練的嵌入方法表示字與詞之間的關系,通過詞頻計數和無監督的新詞提取來整合數據集中的統計信息。提出了一個基于關系和統計水平的中文NER 多通道GAT(MCGAT)模型,該網絡具有3個詞修正GAT,用于整合詞匯信息。該模型還可以進一步提高像BERT 這樣的預訓練模型作為下游網絡的性能。

Wang等人[36]提出了一種多態GAT(PGAT)模型,旨在從多個維度捕捉字符與匹配詞之間的動態相關性,以提高字符的表示能力。通過從詞典中獲取字符的匹配詞,將字符映射到四個位置:B(開始)、M(中間)、E(結束)和S(單個詞)。提出的基于GAT的語義融合單元可以動態地調節B、M、E 和S 這4 個維度中匹配詞和字符的注意力,從而可以顯式地捕獲每個維度中字符和匹配詞之間的細粒度相關性。實驗結果表明,該方法具有良好的注意捕獲和融合能力。

Zhang 等人[37]提出了一個在Cetoli 等人[38]研究的基礎上,將GAT 應用于NER 的模型。使用GAT 對句子成分中意識范疇進行情感分析,并利用GAT 生成選擇分析樹中節點的表示。將GAT 應用于中文社交媒體的NER,充分利用句子的語法信息,并且使用自注意力機制來發現序列本身的特征,而不需要使用外部字典。該模型在輸入方面也得到了改進,為了解決分詞錯誤和OOV(out of vocabulary)問題,采用了字符向量和詞向量的組合作為輸入,并將詞性信息融入其中。這樣不僅可以利用分詞信息,而且可以在一定程度上減少分詞造成的誤差。

表2對比總結了實體邊界檢測的模型性能,據表中數據F1 的值可知,在Weibo 和OntoNotes 數據集中,加入BERT 或Transformer 與GAT 構建的模型會比單純基于GAT的模型性能顯著提升,為此在接下來關于CNER的研究中可以利用BERT+Transformer+GAT構建模型,以此獲得優秀的中文邊界檢測的效果。

表2 實體邊界檢測模型性能對比Table 2 Performance comparison of entity boundary detection models

2.2 命名實體鏈接

實體鏈接(entity link,EL)旨在將文本中的實體提及與知識庫(knowledge base,KB)聯系起來,神經網絡模型在這方面已經取得了成功,表3展示了實體鏈接的相關數據集。然而,現有的方法大多依賴于局部上下文來獨立地解決實體問題,由于局部信息的數據稀疏性,這種方法往往會失敗。為了解決這個問題,Cao 等人[39]提出了一種新的集體實體連接神經網絡模型(NCEL)。NCEL 應用GCN 集成地方上下文特征和實體連接的全局一致性信息。為了提高計算效率,Cao 等人[39]近似地對相鄰實體提及的子圖進行圖卷積,而不是對整個文本進行圖卷積。為了提高NCEL 對數據噪聲的魯棒性,該模型進一步引入了注意力機制,并在Wikipedia 超鏈接上對其進行訓練,以避免過擬合和域偏差。在實驗中,Cao 等人[39]評估了5 個公開數據集上的NCEL,以驗證鏈接性能和泛化能力,對時間復雜度、關鍵模塊的影響以及定性結果進行了分析,證明了模型的有效性和效率。

表3 實體鏈接主要數據集Table 3 Entity link primary datasets

Jia等人[40]提出了一種將共注意力機制與GCN相結合的模型,用于KG 與實體之間的聯系,從上下文中自動提取提及和實體的特征。具體而言,在給出實體提及上下文及其候選實體上下文的情況下,引入共注意力機制來研究實體提及上下文與候選實體上下文之間的關系,并在考慮這種關系的基礎上構建提及表征。此外,Jia 等人[40]還提出了一種基于上下文感知的實體表示GCN,該網絡同時考慮了候選實體的圖結構以及與實體提及上下文的關聯性。

在生物醫學領域中,疾病名稱不僅需要確定,而且還需要標準化或與描述MeSH 等疾病的臨床稅收學相關聯。因此,Pujary 等人[41]研究了一種疾病正常化的替代方法,通過利用MeSH 的圖結構來表示疾病名稱,以及使用圖嵌入分類法中可用的詞匯信息,結合神經NER模型和Pujary等人[41]的基于圖的實體連接方法,通過多任務學習提高了在NCBⅠ語料庫疾病識別效果。

通過GCN對實體相關性進行建模可以顯著提高實體鏈接的效率。然而,現有的實體鏈接模型未能考慮到一組實體的結構圖不僅取決于給定文件的上下文信息,還取決于模型不同聚合層的自適應變化,從而導致在捕獲實體之間的結構信息方面存在不足。由此,Wu 等人[42]提出了一個動態的GCN結構,在訓練過程中,研究人員對模型中的圖結構進行動態計算和修改。通過動態鏈接節點的知識聚合,GCN 模型能夠共同識別文本與KG之間的實體映射,有效地捕獲整個文本中提到的各個實體之間的主題一致性。

而Chen等人[43]提出了一種新的基于異構圖的全局實體連接器(HEGEL),它為每個文本建立了一個信息豐富的異構圖,以收集各種鏈接線索。然后,HEGEL利用一種新的異構GNN 對不同類型的流形信息進行集成,并對它們之間的相互作用進行建模。

在保證提及關系和實體關系一致性的約束下,集體實體將文本中實體的提及映射連接到知識庫(KB)中的相應詞目。Zhang 等人[44]的目標是通過GNN 處理集體實體鏈接。該方法將同一文本中的提及解析為提及圖,并從整個KB中提取包含其候選實體的子圖。然后,在提及圖和實體圖上,分別用兩個GAT 以迭代的方式更新節點表示和匹配得分。這樣,匹配得分和節點表示可以相互不斷改進,從而得到更好的映射。

對于在KG 上進行復雜會話問題回答的任務中,Kacupaj等人[45]提出了LASAGNE,該模型是第一種采用GAT 擴展的transformer 結構進行多任務神經語義分析的模型。LASAGNE 使用Transformer 模型來生成基本的邏輯表單,而GAT 則用于利用實體類型和謂詞之間的相關性來生成節點表示。LASAGNE 模型還包括一個新穎的實體識別模塊,可以檢測、鏈接和排序問題上下文中的所有相關實體。

近幾年,基于神經網絡的生物醫學實體連接得到了顯著的效果。然而,現有大多數的研究沒有充分利用其模型中的主題一致性。而且大多數集合模型使用基于序列的方法,這可能會傳播錯誤。最重要的是,這些模型忽略了單個文本中提及內容之間的關系,這對于鏈接實體非常有用。因此,Bo等人[46]提出了一種有效的基于GAT 的模型,它可以動態捕獲實體提及之間的關系,并學習連貫的表示。此外,與一般領域中的基于圖的模型不同,該模型不需要大量額外的資源來學習表示。

表4 對比總結了命名實體鏈接的方法性能,從表中數據可以看出,在ACE2004 和AQUAⅠNT 兩個數據集上,動態的GCN 模型(DGN)取得了遠超其他模型的效果。

表4 實體鏈接模型性能對比Table 4 Performance comparison of entity link models

2.3 命名實體消歧

知識圖譜實體消歧的目的是將模糊實體與KG 中的相應實體進行匹配,這與實體鏈接的目的一致,表5展示了實體消歧的相關數據集。現有的實體消歧方法通常是利用實體及其屬性的上下文信息來獲取實體提及嵌入向量,并與候選實體嵌入向量進行相似性比較,通過相似性進行實體匹配。這種方法的缺點是忽略了實體所在KG 的結構特征,即實體與實體之間的聯系,因此無法獲得實體的全局語義特征。為了改善實體消歧問題的準確率和召回率,Ma 等人[47]提出了基于實體和圖嵌入的實體消歧模型(EDEGE),它利用了實體關系的語義嵌入向量和子圖結構特征的嵌入向量。EDEGE 首先訓練實體關系的語義向量,然后訓練實體所在子圖的圖結構向量,并通過實體相似度函數平衡這兩個向量的權重。最后,將平衡向量輸入到GNN中,輸出實體之間的匹配,實現實體的消歧。

表5 實體消歧主要數據集Table 5 Entity disambiguation primary datasets

Shaw等人[48]提出了一種基于擴展Transformer自注意力機制的GNN 體系結構,以利用輸入元素之間的關系。Shaw等人[48]展示了這種GNN架構在語義解析中的應用,以給定自然語言語句和潛在相關實體的圖形表示為條件。該方法能夠與自然語言語句一起處理模糊和潛在沖突的實體候選者,從而在解析之前完全消除一組相關實體的歧義。這個模擬圖還使我們能夠在可用的情況下合并關于實體之間關系的知識。結合解碼時的復制機制,該模型還提供了一種概念上簡單的方法,用于生成帶有接地實體的邏輯表單。

Gui等人[49]介紹了一種基于詞典的圖形神經網絡模型(LGN),它實現了中文NER 作為一個節點的分類任務。該模型打破了神經網絡的序列化處理結構,通過細致的連接,可以獲得更好的字詞交互效果。詞典知識通過連接相關字符來捕捉局部成分。同時,設計了一個全局中繼節點來捕獲遠程依賴和高級特征。LGN遵循鄰域聚合方案,其中節點表示通過遞歸聚合其傳入邊和全局中繼節點來計算。由于聚合的多次迭代,該模型可以利用全局上下文信息反復比較歧義詞,以便更好地進行預測。

地名詞典被證明是NER的有用資源[50],現有將地名錄納入基于機器學習的NER系統的許多方法依賴于手動定義的選擇策略或手工制作的模板,這并不能得到最佳效果,尤其是在涉及多個地名錄時。對于中文NER的任務尤其如此,其中單詞沒有自然標記,會導致歧義。為了自動學習將多個地名詞典整合到NER 中,Ding等人[51]提出了一種基于GGNN的新方法,該方法具有多圖結構,可捕獲地名詞典提供的信息。對各種數據集的實驗表明,該模型能夠有效地結合豐富的地名詞典信息進行NER,同時解決實體歧義問題。

由于醫學知識庫中的實體和源文本片段之間的詞語差異,現有的醫療實體消歧方法是不夠的。因此,Vretinaris等人[52]介紹了基于3種典型GNN(GraphSAGE、R-GCN 和MAGNN)的ED-GNN 在醫學實體消歧中的應用。該方法開發了兩種優化技術來微調和改進EDGNN。首先,引入一種新的策略,將文本片段中提到的實體表示為查詢圖。然后,設計了一種有效的負采樣策略來識別硬負樣本,以提高模型的消歧能力。

隨著出版物規模的迅速擴大,名稱歧義問題受到了越來越多的挑戰。現有的工作主要集中在利用內容信息來區分不同的名稱實體。Zhang等人[53]利用聯合內容信息和關系信息來消除同一實體名稱的歧義。首先,基于合作者、機構和場所等出版物的元信息構建異構學術網絡。然后,將網絡轉換成單獨的齊次圖。在此基礎上,提出了通過優化嵌入向量來聯合學習內容和關系信息的GAT。最后,提出了一種聚類算法來收集最有可能代表同一個人的作者姓名。

表6 對比總結了命名實體消歧的方法性能。表中數據可以看出,在通用領域里該任務處理的效果很好,但是在中文的特定領域中,比如在微博地名領域中消除歧義的效果就不是很出色。

表6 實體消歧模型性能對比Table 6 Performance comparison of disambiguation models

2.4 低資源領域命名實體識別

NER在一般領域得到了很好的研究,現有的系統在識別常見實體類型方面已經取得了人類水平的性能。然而,對于特定領域來說,NER性能仍然是適中的,這些領域往往具有復雜的上下文和行話實體類型,表7給出了與其相關的部分數據集。為了應對這些挑戰,Chen等人[54]提出了基于全局共參照關系和局部依賴關系的明確連接實體提及,以構建更好的實體表示。在實驗中,該模型利用GAT結合了實體提及關系,結果表明該方法在不同領域的兩個數據集上顯著地提高了NER性能。進一步實驗表明,提出的輕量級系統可以有效地提高NER 性能到一個更高的水平,即使只有少量領域特定的標記數據可用。

表7 低資源NER的主要數據集Table 7 Primary datasets for low resource NER

缺乏人工注釋一直是低資源領域中NER的主要障礙之一。為了解決這個問題,學者們已經做了很多工作,根據特定領域的詞典自動生成銀色注釋。然而,領域詞典的信息是有限的,并且生成的注釋可能是嘈雜的,這對學習有效的模型提出了重大挑戰。因此,Luo等人[55]通過引入詞典引導的GAT 模型來解決這些問題。首先,利用領域特定詞典,通過圖匹配算法提取領域實體的候選詞,從而捕獲領域實體的詞匯模式。此外,利用詞提及交互圖將實體的語義和邊界信息集成到它們的上下文中。

傳統的NER 對于結構簡單的傳統數據集是有效的,但是對于體育領域的文本來說就不那么有效了。對此,Seti 等人[56]提出了一種應用于中文體育領域的CNER 模型,該模型基于字符級圖卷積神經網絡(Char GCN)和自注意力機制。該方法將體育文本中的每個漢字視為一個節點。節點之間的邊緣使用相似的字符位置和體育文本中命名實體的字符特征來構造。該實體的內部結構信息是使用字符映射CNN提取的。自注意力機制捕捉體育文本的等級語義信息,以加強命名實體之間的關系,并捕捉字符之間的相關性和依賴性。CRF分類函數能夠準確識別中文體育文本中的命名實體。

對于在特殊語種領域的NER 任務,Haisa 等人[57]通過引入一種混合神經網絡模型,利用具有多維特征和注意力機制的詞語語義對哈薩克語命名實體進行識別。該任務有兩個挑戰:第一,哈薩克語是一種具有粘性和形態學豐富性的語言,由于數據稀少,對NER提出了挑戰;第二,是哈薩克語命名實體邊界不清、一詞多義、嵌套現象嚴重。處理文本數據稀疏的一個常用策略是應用字詞分割。因此,該方法從哈薩克語詞法分析系統出發,將詞和詞干的語義結合起來。此外,該模型構造了一個實體的圖結構,以詞、實體和實體類別作為節點,以包含關系作為邊,并使用帶注意力機制的GGNN更新節點。最后,通過CRF,提取最終的結果。表8 總結了低資源領域命名實體識別的模型性能對比,由此可以看出,在小語種和特定領域的NER資源匱乏,但模型取得的效果顯著,尤其是字符GCN(Char GCN)模型。

表8 低資源命名實體識別模型性能對比Table 8 Performance comparison of low resource named entity recognition models

2.5 實體關系抽取

聯合NER 和關系提取是NLP 中的一項重要任務,其目的是以端到端的方式識別實體并提取相應的關系,表9 展示了關系抽取任務的相關數據集。Hong 等人[58]將聯合提取分為兩個子任務,首先檢測實體跨度和同時識別實體關系類型。為了考慮實體和關系之間的完整交互,Hong 等人[58]提出了一種新的關系感知注意力機制來獲得兩個實體跨度之間的關系表示。因此,基于所有提取的實體跨度構造一個完整的圖,其中節點是實體跨度,邊是關系表示。

表9 關系抽取相關實體數據集Table 9 Relationship extraction of relevant entity datasets

此外,該方法改進了原始GCN,以便在編碼節點特征時同時利用相鄰節點特征和邊緣信息。目前,與NER任務相比,關系抽取任務對復雜文本的識別效果較差。為了解決這一問題,Lai 等人[59]提出了一種新的聯合模型,即通過改進的GAT(ERⅠGAT)提取實體和關系,增強了關系提取任務的能力。該模型引入了GAT,通過構造對稱關系來提取圖嵌入后的實體和關系。為了解決GCN過于平滑的問題,受到矩陣分解的啟發,Lai等人[59]通過設計一種新的多頭注意力機制和共享注意力參數來改進GAT。

Fu等人[60]提出了一種基于GCN的端到端關系抽取模型(GraphRel),該模型利用GCN 聯合學習命名實體和關系。與以往的Baseline模型相比,該方法考慮了命名實體和關系之間的相互作用,通過關系加權的GCN,以更好地提取關系。該方法利用線性結構和依賴結構提取文本的連續特征和區域特征,進一步利用完全詞圖提取文本中所有詞對之間的隱含特征。

使用行政文件交流和業務信息記錄需要能夠以穩健有效的方式自動從此類文件中提取和理解內容。此外,這些報告的半結構化性質特別適合使用基于圖形的表示,這些表示足夠靈活,可以適應來自不同文檔模板的變體。此外,GNN 提供了適當的方法來學習這些文檔中數據元素之間的關系。在這項工作中,Carbonell等人[61]研究了利用GNN解決半結構化文本中的實體識別和關系抽取問題。

從電子病歷中挖掘大規模醫學實體和實體關系,對于構建醫學KG、醫學智能輔助診斷等應用具有重要意義。現有的方法大多將醫學實體識別和實體關系分類作為獨立的子任務,采用流水線模型來解決這兩個子任務之間存在的錯誤傳播和不能實現子任務之間交互的問題。Pang等人[62]提出了一種利用GCN進行中文醫學實體及其關系提取的聯合模型。

Kambar 等人[63]對生物醫學文本關系提取(RⅠFRE)的GNN模型(Bio-RⅠFRE)進行了改進,提出了一種從生物醫學文本中聯合提取化學基因命名實體及其相互作用的RⅠFRE模型。該模型利用異構圖GNN模型強化生物醫學文本的表示和關系抽取。結果表明,Bio-RⅠFRE在CHEMPROT 數據集上比其他聯合實體關系提取模型的F1 得分提高了3%。此外,在實體重疊情況下,當句子中的關系數增加時,該模型具有較強的魯棒性,能夠獲得較好的F1值。

軍事實體與描述性實體之間關系的提取是軍事KG自動化構建的關鍵任務。這類文本非結構化存在諸如實體長度不固定、實體之間的間隔可能過長,以及代詞過多等問題。傳統的單一神經網絡模型缺乏提取長區間實體關系信息的能力,無法很好地解決上述問題。為了解決這些問題,Li等人[64]提出了一種新的命名實體關系提取模型DTGCN,結合了依賴樹和GCN。由表10中的數據可知,GCN 對實體關系抽取任務的作用很突出。未來的研究可以多進行些利用GCN處理實體關系抽取工作。

表10 實體關系模型性能對比Table 10 Performance comparison of entity-relationship models

2.6 嵌套命名實體識別

嵌套NER旨在識別復雜層次句子中命名實體的邊界和類別。針對嵌套NER問題,Luo等人[65]提出了一種新的二部平面圖網絡(BiFlaG),該模型包含兩個子圖模塊:最外層實體的flat-NER模塊和內層所有實體的圖模塊。采用BiLSTM和GCN聯合學習平面實體及其內部依賴關系。以往的模型只考慮信息從最內層到外層(或從外到內)的單向傳遞,但是,該模型卻有效地捕獲了信息之間的雙向交互。該方法首先是利用平面NER模塊所識別的實體構造一個實體圖,并將實體圖提供給下一個實體圖模塊。從圖模塊中學到的更豐富的表示包含了內部實體的依賴性,可以用來改進最外層實體的預測。

KG中的嵌套NER旨在獲取所有有意義的實體,包括長文本區域中句子的嵌套實體。對此,Zhou等人[66]提出了一個POS 感知的嵌套NER 模型(PANNER),以解決上述問題。具體來說,該方法首先通過引入詞性信息來構造一個異構圖;其次,設計了一個基于語法路徑的擴張隨機游走(DRW)算法,為每個節點抽取固定大小的鄰居節點;然后,通過注意力機制聚合來自不同類型鄰居節點的信息;最后,使用雙向譯碼模塊對所有基于節點分層嵌入的平面實體和嵌套實體進行識別和分類。

有些嵌套NER 是使用基于字符級、詞級或詞典級的模型完成的。然而,這些研究忽視了補充注釋的作用。Sui 等人[67]提出了一種基于觸發器的GNN 模型(Trigger-GNN)來處理嵌套NER。它通過實體觸發編碼和語義匹配獲得補充的注釋嵌入,并利用一種高效的圖信息傳遞體系結構——聚合-更新模式來處理嵌套實體。Sui等人[67]假設使用實體觸發器作為外部標注可以在整個句子上添加互補的監督信號。它有助于模型更有效地學習和推廣,并具有成本效益。

Tran等人[68]引入了一種句法信息詞表示法(SⅠWR),它可以在不改變其結構的情況下將句法信息整合到神經模型中。該模型由依賴樹上的兩層GCN層以及自身和順序信息組成。GCN用于將句法信息包含到基本單詞表示中,SⅠWR聯合預測POS和句法依賴。由表11中可以看出,在ACE2005 和GENⅠA 數據集中PANNER 模型的性能顯著,但是該模型在精度上沒有得到最好的結果,這是值得思考和解決的問題。

表11 嵌套命名實體識別模型性能對比Table 11 Performance comparison of nested named entity recognition models

2.7 其他任務

在2.1節實體邊界檢測任務中提到過,Cetoli等人[38]利用一組GCN研究了依賴樹在命名實體識別器中的作用。通過對不同的NER 結構進行比較,他們發現句子的語法對結果有積極的影響。在OntoNotes5.0 數據集上進行的實驗表明,其性能得到了改進,而不需要大量的特征工程或者額外的語言特定知識。

Jin 等人[69]討論了從KB 中推斷實體細粒度類型的問題。他們將該問題轉化為基于圖的半監督分類任務,提出了分層多圖卷積神經網絡(HMGCN)。該方法構造了三種連通矩陣來捕獲實體之間不同類型的語義關聯,并提出了一種遞歸正則化方法來建模給定類型層次結構中類型之間的sub-class-of關系。

由于直接疊加GCN和LSTM在建立依賴樹和上下文信息之間的交互模型方面存在困難。Xu等人[70]提出了synergiized-LSTM(Syn-LSTM)模型,這是一種新的RNN 體系結構,它使用額外的圖編碼表示更新內存和隱藏狀態,每個單詞的圖編碼表示可以通過GCN 獲得。Syn-LSTM允許cell接收來自圖編碼表示的結構化信息,并利用門控機制,使該模型能夠分別對從詞表示和圖編碼表示中檢索到的信息量進行獨立的評估。這種機制能夠更好地收集上下文信息和結構化信息。

如何在復雜句子中使用遠距離詞語交流和保證命名實體的完整性仍然是一個未解決的問題,因此Sun等人[71]提出利用語法和語義依賴特征進行NER。該模型基于BiLSTM-CRF 和GCN,通過處理語法和語義依賴來獲得句子中單詞的遠距離交流。

Zaratiana 等人[72]提出了GNNer 框架(GCN 和GAT)模型,該框架使用GNN 來豐富跨度表示,以減少NER預測過程中重疊跨度的數量。與Baseline方法相比,該方法減少了重疊跨度的數量,同時保證了較強的性能。

3 結束語

綜上所述,本文總結了眾多利用GNN 進行NER 任務的研究,從各個角度分析了NER 任務的解決策略。就現階段本文提到研究工作中取得的成果和存在的問題而言,未來重要的研究可能還有如下多個方向。

(1)低資源特定領域的NER:由于在低資源和特定領域對NER 的研究頗少,所以該方向是一個值得研究的方向。但該領域的數據極不規范且復雜,如交通、軍事、體育和一些小眾語種等領域,在提取命名實體時經常識別不出名詞實體,因此需要結合特定領域專業知識來提高NER的性能,同時可以利用GNN 進一步提高實體識別的準確性。

(2)多模態融合NER:隨著深度學習在語音、文本和圖像上單模態的深度研究,逐漸地將多個領域信息聯合起來形成新的網絡,稱為多模態融合技術。同樣地,通過將文本信息和視覺信息聯合進行多模態NER,可以依賴上下文語境和實體關聯圖像并利用GNN 關聯圖像,消除多義詞表達時的歧義,能夠更有效地提取文本中的命名實體。額外的圖像信息可以引導更多的文本內容,指正歧義實體。因此,將GNN結合多模態融合成新的網絡模型進行NER研究也可以是未來的一個探索方向。

(3)NER與交叉應用領域:將NER應用在更多的學科領域,例如智能家具、智慧城市、智能交通等建筑領域是一個值得探索的研究方向。通過GNN 進行NER 是眾多NLP任務的上游任務,為此,可以利用NER的結果以及結合KG進行更深層的研究,文獻[40]和文獻[49]的實驗證實該方法的可行性,未來可以利用此方法在城市交通的安全風險識別分析上進行研究與突破,這也是今后的研究方向,希望能夠利用該方法實現在更多領域的擴展。

猜你喜歡
文本信息方法
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 四虎在线观看视频高清无码| 精品三级在线| 国产欧美日韩专区发布| 国产精品毛片一区视频播| 久久动漫精品| 国产精品漂亮美女在线观看| 国产区在线看| 精品国产福利在线| 99在线免费播放| 国产在线精彩视频二区| 在线观看免费AV网| 丰满的少妇人妻无码区| 蜜桃视频一区| 国产成人免费手机在线观看视频| 亚洲国产中文精品va在线播放 | 波多野结衣无码视频在线观看| 97国产成人无码精品久久久| 内射人妻无码色AV天堂| 99久久精彩视频| 毛片网站观看| 中文字幕在线免费看| 国内精品视频| 美女无遮挡被啪啪到高潮免费| 欧美在线一二区| 亚洲精品在线观看91| 国产人人乐人人爱| 99re视频在线| 国产福利在线观看精品| 亚洲色图欧美| 成年看免费观看视频拍拍| 午夜福利视频一区| 亚洲综合二区| 一本大道视频精品人妻 | 国产美女主播一级成人毛片| 在线精品欧美日韩| 日韩av无码精品专区| 99精品影院| 欧美色综合网站| 亚洲一区二区三区中文字幕5566| 国产人人干| 国产精品久久久精品三级| 国产精品自拍露脸视频| 日韩第一页在线| 国产理论精品| 日韩欧美高清视频| 国产三级成人| 自慰高潮喷白浆在线观看| 精品国产成人a在线观看| 91亚瑟视频| 久久国产热| 成人免费午间影院在线观看| 丁香婷婷激情综合激情| 国产一区二区影院| 国产成人精品综合| 91精品在线视频观看| 免费AV在线播放观看18禁强制| 国产精品视频猛进猛出| 色综合手机在线| 免费看a级毛片| 久久精品这里只有精99品| 99re免费视频| 午夜精品福利影院| 丝袜亚洲综合| 国产玖玖玖精品视频| 操美女免费网站| 国产亚洲精品在天天在线麻豆| 亚洲天天更新| 热re99久久精品国99热| 亚洲激情99| 四虎精品免费久久| 国产不卡一级毛片视频| 久久国语对白| 国产亚洲视频播放9000| 日韩a在线观看免费观看| 3D动漫精品啪啪一区二区下载| 日韩区欧美国产区在线观看| 毛片最新网址| 亚洲欧洲日产国码无码av喷潮| 国产成人h在线观看网站站| 国产免费福利网站| 2020最新国产精品视频| 成人午夜天|