999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度學習實體關系抽取研究綜述*

2019-07-08 08:55:14鄂海紅張文靜肖思琪胡鶯夕周筱松牛佩晴
軟件學報 2019年6期
關鍵詞:深度監督特征

鄂海紅, 張文靜, 肖思琪, 程 瑞, 胡鶯夕, 周筱松, 牛佩晴

1(北京郵電大學 計算機學院 數據科學與服務中心,北京 100876)

2(教育部信息網絡工程研究中心(北京郵電大學),北京 100876)

隨著互聯網技術的發展,人們需要處理的數據量激增,領域交叉現象突出.如何快速高效地從開放領域的文本中抽取出有效信息,成為擺在人們面前的重要問題.實體關系抽取作為文本挖掘和信息抽取[1]的核心任務,其主要通過對文本信息建模,自動抽取出實體對之間的語義關系,提取出有效的語義知識.其研究成果主要應用在文本摘要、自動問答[2]、機器翻譯[3]、語義網標注、知識圖譜[4]等.隨著近年來對信息抽取的興起,實體關系抽取問題進一步得到廣泛關注和深入研究,一些研究成果及時出現在近幾年人工智能、自然語言處理等相關領域的國際會議上,如 ACL[5-13]、EMNLP[14-22]、ICLR[23,24]、AAAI[25]、KDD[26]、NAACL[27]、 ECML-PKDD[28]等.

經典的實體關系抽取方法主要分為有監督、半監督、弱監督和無監督這4類.有監督的實體關系抽取主要分為基于特征和基于核函數的方法.Zhou[29]和郭喜躍[6]等人利用SVM作為分類器,分別研究詞匯、句法和語義特征對實體語義關系抽取的影響.有監督方法需要手工標注大量的訓練數據,浪費時間精力,因此,人們[30]繼而提出了基于半監督[31]、弱監督和無監督的關系抽取方法來解決人工標注語料問題,其中:Brin[32]利用Bootstrapping方法對命名實體之間的關系進行抽取;Craven等人[33]在研究從文本中抽取結構化數據、建立生物學知識庫的過程中,首次提出了弱監督機器學習思想;Hasegawa等人[34]在 ACL會議上首次提出了一種無監督的命名實體之間關系抽取方法.

經典方法存在特征提取誤差傳播問題,極大影響實體關系抽取效果.隨著近些年深度學習的崛起,學者們逐漸將深度學習應用到實體關系抽取任務中[7].基于數據集標注量級的差異,深度學習的實體關系抽取任務分為有監督和遠程監督兩類.基于深度學習的有監督實體關系抽取方法是近年來關系抽取的研究熱點,該方法能避免經典方法中人工特征選擇等步驟,減少并改善特征抽取過程中的誤差積累問題.根據實體識別及關系分類兩個子任務完成的先后順序不同,基于深度學習的有監督實體關系抽取方法可以分為流水線(pipeline)方法和聯合學習(joint learning)方法.Zeng等人[20]在2014年首次提出使用CNN進行關系分類,Katiyar等人[13]在2017年首次將注意力機制Attention與遞歸神經網絡Bi-LSTM一起用于聯合提取實體和分類關系,神經網絡模型在有監督領域的拓展皆取得不錯效果.同時,基于深度學習的遠程監督實體關系抽取方法因具有緩解經典方法中錯誤標簽和特征抽取誤差傳播問題的能力而成為研究熱點,主要基礎方法包括 CNN,RNN,LSTM 等網絡結構[35,36].近年來,學者們在基礎方法之上提出了多種改進,如PCNN與多示例學習的融合方法[37]、PCNN與注意力機制的融合方法[10]等.Ji等人[38]提出在PCNN和Attention的基礎上添加實體的描述信息來輔助學習實體的表示,Ren等人[39]提出的COTYPE模型、Huang[40]提出的殘差網絡皆增強了關系提取效果.

為了能夠系統綜述相關研究成果,我們查閱了近年來的綜述論文[30,35,41-43],從中可看出,基于深度學習的實體關系抽取方法與經典抽取方法相比,其主要優勢在于深度學習的神經網絡模型可以自動學習句子特征,無需復雜的特征工程.所以,本文重點圍繞深度學習來深入探討實體關系抽取方法.

本文首先在第1節給出實體關系抽取的問題定義和解決框架.著重在第2節、第3節介紹基于深度學習的有監督和遠程監督領域的實體關系抽取研究進展.之后,在第 4節介紹基于深度學習的實體關系抽取新模型與新思路.并在第5節介紹基于深度學習的實體關系抽取在領域知識圖譜構建中的研究進展.最后,在第6節、第7節給出數據集、評測效果以及對未來研究方向的展望.

1 深度學習實體關系抽取的問題定義和解決框架

1.1 問題定義

實體關系抽取作為信息抽取的重要任務,是指在實體識別的基礎上,從非結構化文本中抽取出預先定義的實體關系.實體對的關系可被形式化描述為關系三元組〈e1,r,e2〉,其中,e1和e2是實體,r屬于目標關系集R{r1,r2,r3,...,ri}.關系抽取的任務是從自然語言文本中抽取出關系三元組〈e1,r,e2〉,從而提取文本信息.

基于深度學習實體關系抽取主要分為有監督和遠程監督兩類.在有監督中,解決實體關系抽取的方法可以分為流水線學習和聯合學習兩種:流水線學習方法是指在實體識別已經完成的基礎上直接進行實體之間關系的抽取;聯合學習方法主要是基于神經網絡的端到端模型,同時完成實體的識別和實體間關系的抽取.與有監督實體關系抽取相比,遠程監督方法缺少人工標注數據集,因此,遠程監督方法比有監督多一步遠程對齊知識庫給無標簽數據打標的過程.而構建關系抽取模型的部分,與有監督領域的流水線方法差別不大.

基于深度學習的實體關系抽取、實體關系識別、實體關系分類是3個任務相近、彼此有關聯的概念.具體而言,關系抽取[7]在其流水線處理場景中與關系分類處理著相同的任務,此時,關系抽取具體是指在句子中的命名實體對已經被識別的情況下,直接進行實體對的關系分類;而關系抽取在聯合學習場景中是將關系分類作為自己的一個子任務,此時,關系抽取具體是指:將實體關系抽取任務分為命名實體識別和關系分類兩個子任務,用聯合學習模型同時解決這兩個子任務.而實體關系識別任務與關系抽取任務相同,在實際處理時也是發現和識別實體間的語義關系[44,45],因此在部分中外綜述文獻里,實體關系抽取有時也被稱為實體關系識別.

1.2 解決問題框架

針對實體關系抽取任務,基于深度學習的抽取框架如圖1所示.

(1) 獲取有標簽數據:有監督方法通過人工標記獲取有標簽數據集,遠程監督方法通過自動對齊遠程知識庫獲取有標簽數據集;

(2) 構建詞語向量表示:將有標簽句子分詞,將每個詞語編碼成計算機可以接受的詞向量,并求出每個詞語與句子中實體對的相對位置,作為這個詞語的位置向量,將詞向量與位置向量組合作為這個詞語的最終向量表示;

(3) 進行特征提取:將句子中每一個詞語的向量表示輸入神經網絡中,利用神經網絡模型提取句子特征,進而訓練一個特征提取器;

(4) 關系分類:測試時根據預先定義好的關系種類,將特征提取出的向量放入非線性層進行分類,提取最終的實體對關系;

(5) 評估分類性能:最后,對關系分類結果進行評估,評測指標和相關數據集詳見第6節.

2 基于深度學習的有監督實體關系抽取方法

2.1 有監督實體關系抽取框架演化流程

基于深度學習方法中的有監督方法進行關系抽取,是近年來關系抽取的研究熱點,其能解決經典方法中存在的人工特征選擇、特征提取誤差傳播兩大主要問題,將低層特征進行組合,形成更加抽象的高層特征,用來尋找數據的分布式特征表示.從基于監督學習的神經網絡模型來看,研究主要集中在融合多種自然語言特征來提高識別精確度.有監督的實體關系抽取框架的演化流程如圖2所示.

基于深度學習的有監督實體關系抽取可以分為:1) 流水線方法;2) 聯合學習方法.這兩種方法都基于CNN,RNN,LSTM這3種框架進行擴展優化.

· 流水線方法中,基于 RNN模型的擴展包括在RNN基礎之上增加依存分析樹信息、詞依存矩陣信息;基于CNN模型的擴展包括在CNN基礎之上增加類別排名信息、依存分析樹、注意力機制;基于LSTM模型的擴展包括在LSTM基礎之上增加最短依存路徑(SDP)或將LSTM與CNN結合.流水線方法存在錯誤累積傳播、忽視子任務間關系依賴、產生冗余實體等問題,因此,聯合模型逐漸開始受到重視;

· 聯合學習方法根據其建模對象不同,可分為參數共享和序列標注兩類子方法:參數共享方法的編碼層均使用 Bi-LSTM,解碼層則基于 Bi-LSTM、依賴樹和注意力機制等方法紛紛進行優化擴展;序列標注方法則用一種新標注策略的端到端模型解決流水線模型中冗余實體的問題.

下面依照流水線方法(基于 RNN模型的實體關系抽取方法、基于CNN模型的實體關系抽取方法、基于LSTM 模型的實體關系抽取方法)、聯合學習方法(基于參數共享的實體關系抽取方法、基于序列標注的實體關系抽取方法)的順序來介紹有監督領域實體關系抽取方法.

2.2 流水線方法

2.2.1 主要流程

基于流水線的方法進行關系抽取的主要流程可以描述為:針對已經標注好目標實體對的句子進行關系抽取,最后把存在實體關系的三元組作為預測結果輸出.一些基于流水線方法的關系抽取模型被陸續提出,其中,采用基于RNN,CNN,LSTM及其改進模型的網絡結構,因其高精度獲得了學術界的大量關注.

2.2.2 主流方法介紹

(1) 基于RNN模型的實體關系抽取方法

RNN在處理單元之間既有內部的反饋連接又有前饋連接,可以利用其內部的記憶來處理任意時序的序列信息,具有學習任意長度的各種短語和句子的組合向量表示的能力,已成功應用在多種NLP任務中.

基于RNN模型進行關系抽取的方法由Socher等人[46]于2012年首次提出,此方法為分析樹中的每個節點分配一個向量和一個矩陣,其中,向量捕獲組成部分的固有含義,而矩陣捕捉它如何改變相鄰單詞或短語的含義.這種矩陣向量 RNN可以在命題邏輯和自然語言中學習操作符的含義,解決了單詞向量空間模型(singleword vector space models)無法捕捉到長短語的構成意義,阻礙了它們更深入地理解語言的問題.

Hashimoto等人[19]在 2013年提出了基于句法樹的遞歸神經網絡(RNN)模型,與 Socher等人提出的模型不同的是,Hashimoto沒有使用需要昂貴計算成本的詞依存矩陣,而是使用了詞性(POS)標簽、短語類別和句法頭等附加特征,并向RNN模型中引入平均參數,為目標任務的重要短語增加權重,Hashimoto的模型證明了增加特征及引入平均參數的有效性.

RNN相比于前饋網絡更適合處理序列化輸入,但RNN也存在著以下兩個缺點:(1) 在網絡訓練時,RNN容易出現梯度消失、梯度爆炸的問題,因此,傳統 RNN在實際中很難處理長期依賴,這一點在 LSTM 網絡中有所改進;(2) 由于RNN的內部結構復雜,網絡訓練周期較長,而CNN結構相對簡單,主要包括前置的卷積層和后置的全連接層,訓練更快速.

(2) 基于CNN模型的實體關系抽取方法

CNN的基本結構包括兩層:其一為特征提取層,每個神經元的輸入與前一層的局部接受域相連,并提取該局部的特征;其二是特征映射層,網絡的每個計算層由多個特征映射組成,每個特征映射是一個平面,平面上所有神經元的權值相等,減少了網絡中自由參數的個數.由于同一特征映射面上的神經元權值相同,所以 CNN 網絡可以并行學習.

Zeng等人[20]在2014年首次提出了使用CNN進行關系抽取,利用卷積深度神經網絡(CDNN)來提取詞匯和句子層次的特征,將所有的單詞標記作為輸入,而無需復雜的預處理,解決了從預處理系統中提取的特征可能會導致錯誤傳播并阻礙系統性能的問題.圖 3描述了該論文用于關系分類的神經網絡的體系結構.網絡對輸入句子提取多個級別的特征向量,它主要包括以下3個組件:詞向量表示、特征提取和輸出.圖3右部分顯示了句子級特征向量構建過程:每個詞語向量由詞特征(WF)和位置特征(PF)共同組成,將詞語向量放入卷積層提取句子級特征.圖 3左上部分為提取詞匯級和句子級特征的過程,然后直接連接以形成最終的句子特征向量.最后如圖3左下部分,通過隱藏層和Softmax層得到最終的分類結果.

Xu等人[47]于2015年在Zeng等人工作的基礎上提出了基于依存分析樹的卷積神經網絡的實體關系抽取模型,該模型與Zeng等人的CNN模型不同的是將輸入文本經過了依存分析樹,同時提出了一種負采樣策略:首先,利用依存路徑來學習關系的方向性;然后,使用負采樣方法來學習主體和對象的位置分配,采用從對象到主體的最短依存路徑作為負樣本,并將負樣本送到模型中學習,以解決實體對距離較遠時,依存分析樹引入的無關信息問題.同時,顯著提高了關系抽取的性能.

Santos等人[21]在2015年提出了CR-CNN模型,與Zeng等人的模型相比,CR-CNN將最后的Softmax輸出層替換為利用排名進行分類輸出:對于給定的輸入文本段,網絡使用卷積層產生文本的分布向量表示,并將其與文本表示進行比較,以便為每個類生成分數;同時提出了一種新的排名損失函數,能夠給予正確的預測類更高的評分、錯誤的預測類更低的評分.與Xu等人的模型相比,本文僅將詞向量作為輸入特征,而不需要依存分析樹等附加特征,因此可以降低NLP工具中提取到錯誤特征的影響,并提升模型的效果.

Vu等人[48]在 2016年提出了一種新的基于 CNN網絡的上下文表示(擴展的中間上下文),與作為 Baseline的Zeng等人的標準CNN網絡不同的是,Vu提出的CNN模型沒有額外的全連接隱藏層;其次,Vu也嘗試使用雙向 RNN進行關系抽取,并為其優化引入 Santos[21]提出的排名損失,改善關系抽取結果.基于兩個實體位置可以將上下文分成 3個不相交的區域:左上下文、中間上下文和右上下文.由于在大多數情況下中間上下文包含關系的最相關信息,因此該文提出了使用兩個上下文:(1) 左上下文、左實體和中間上下文的組合;(2) 中間上下文、右實體和右上下文的組合.通過重復中間上下文,迫使網絡特別關注它.最后,使用簡單的投票機制結合CNN和RNN網絡,并達到了當時的最新技術.

Zeng等人雖然使用了位置向量來表示指定詞與目標實體間的相對距離,但是位置編碼不足以完全捕獲指定詞與目標實體的關系以及它們可能對目標關系的影響.由此,Wang等人[49]于2016年提出的CNN架構依賴于一種新穎的多層次注意力機制來捕獲對指定實體的注意力(首先是輸入層級對于目標實體的注意力)和指定關系的池化注意力(其次是針對目標關系的注意力).這使得模型能夠檢測更細微的線索,盡管輸入的句子異構,但是模型還是能夠自動了解句子中的哪些部分與給定的關系類別相關.其次,模型在利用注意力機制來自動識別與關系分類相關的輸入句子的部分之后,提出了一種Attention-based Pooling的混合方法,認為利用這樣的方法會抽取出部分有意義的N-gram短語,實驗證明了在混合層上,能夠抽出對關系分類最為顯著的Trigram字段.最后,論文還引入了一種新的成對的基于邊緣的目標函數,并證明其優于標準損失函數.

(3) 基于LSTM模型的實體關系抽取方法

由于梯度消失、梯度爆炸的問題,傳統的RNN在實際中很難處理長期依賴,后面時間的節點對于前面時間的節點感知力下降.而LSTM網絡通過3個門控操作及細胞狀態解決了這些問題,能夠從語料中學習到長期依賴關系.

Yan等人[11]在2015年提出了基于LSTM的融合句法依存分析樹的最短路徑以及詞向量特征、詞性特征、WordNet特征、句法類型特征來進行關系抽取,該論文的模型圖如圖4所示.首先,如圖4左下部分,利用斯坦福解析器將句子解析為依賴樹,并提取最短依賴路徑(SDP)作為網絡的輸入,沿著 SDP,使用 4種不同類型的信息(稱為通道),包括單詞、詞性標簽、語法關系和WordNet上位詞;在每個通道中(圖4右部分是每個通道的細節圖),詞語被映射成向量,捕獲輸入的基本含義,兩個遞歸神經網絡分別沿著 SDP的左右子路徑獲取信息,網絡中的 LSTM 單元用于有效信息的傳播;之后,如圖 4左上部分,最大池化層從每個路徑中的 LSTM 節點收集信息,來自不同通道的池化層連接在一起,然后輸入到隱藏層;最后,使用Softmax輸出層用于關系分類.

Thien等人[22]基于已有工作經驗,利用傳統特征工程并結合CNN,RNN網絡的優勢,在2015年提出一種融合傳統特征工程和神經網絡的方法,首次系統地檢測了RNN架構以及RNN與CNN和傳統的基于特征的關系抽取方法相結合的工作.本文采用LSTM網絡的一種變體GRU(gated recurrent unit)展開實驗,同時,首次提出了融合CNN和RNN網絡的3種不同的方式:Ensembling(集成)、Stacking(堆疊)、Voting(投票),提高了關系抽取的精確度.

為避免 Yan等人提出的模型需要從 NLP預處理工具中提取附加特征帶來的錯誤傳播問題,Li等人[50]于2016年提出一種基于低成本序列特征的Bi-LSTM-RNN模型,利用實體對并將它們周圍的上下文分段表示來獲取更豐富的語義信息,無需詞性標注、依存句法樹等額外特征.將文本經過 LSTM 網絡獲得隱藏向量表示后依照兩個實體分成五段式的方式輸入池化層獲得向量表示,再輸入分類器進行關系分類,解決了基于句法或依賴性特征等高成本結構特征問題,并證明當不使用依賴解析時,兩個目標實體之間的上下文可以用作最短依賴路徑的近似替換.

基于Yan等人的工作,Cai等人[51]于2016年提出了一種基于最短依賴路徑(SDP)的深度學習關系抽取模型:雙向遞歸卷積神經網絡模型(BRCNN),通過將卷積神經網絡和基于 LSTM單元的雙通道遞歸神經網絡相結合,進一步探索如何充分利用SDP中的依賴關系信息.BRCNN模型結合了Yan等人的多通道LSTM以及Zeng等人的卷積關系抽取的特點,利用基于雙向 LSTM 的遞歸神經網絡對最短依存路徑中的全局模式進行編碼,并利用卷積層捕獲依存關系鏈接的兩個相鄰詞的局部特征,增強了實體對之間關系方向分類的能力.

2.2.3 流水線方法中存在的共性問題

然而,流水線方法存在著以下幾個缺點.

1) 錯誤傳播:實體識別模塊的錯誤會影響到接下來的關系分類性能;

2) 忽視了兩個子任務之間存在的關系:丟失信息,影響抽取效果;

3) 產生冗余信息:由于對識別出來的實體進行兩兩配對,然后再進行關系分類,那些沒有關系的實體對就會帶來多余信息,提升錯誤率.

2.3 聯合學習方法

相比于流水線方法,聯合學習[52]方法能夠利用實體和關系間緊密的交互信息,同時抽取實體并分類實體對的關系,很好地解決了流水線方法所存在的問題.

2.3.1 主要流程

聯合學習方法通過實體識別和關系分類聯合模型,直接得到存在關系的實體三元組.因在聯合學習方法中建模的對象不同,聯合學習方法又可以分為參數共享方法和序列標注方法:參數共享方法分別對實體和關系進行建模,而序列標注方法則是直接對實體-關系三元組進行建模.下面分別對這兩種方法進行說明.

2.3.2 主流方法介紹

(1) 基于參數共享的實體關系抽取方法

針對流水線方法中存在的錯誤累積傳播問題和忽視兩個子任務間關系依賴的問題,基于參數共享的實體關系抽取方法被提出.在此方法中,實體識別子任務和關系抽取子任務通過共享聯合模型的編碼層來進行聯合學習,通過共享編碼層,在訓練時,兩個子任務都會通過后向傳播算法更新編碼層的共享參數,以此來實現兩個子任務之間的相互依賴,最終找到全局任務的最佳參數,實現性能更佳的實體關系抽取系統.在聯合學習模型中,輸入的句子在通過共享的編碼層后,在解碼層會首先進行實體識別子任務,再利用實體識別的結果,并對存在關系的實體對進行關系分類,最終輸出實體-關系三元組.

Miwa等人[12]在2016年首次將神經網絡的方法用于聯合表示實體和關系,其模型圖如圖5所示.在該模型中,實體識別子任務和關系分類子任務共享編碼層的 LSTM單元序列表示(編碼層包括 LSTM 單元和隱藏層).該方法將實體識別任務當作序列標注任務,使用雙向序列LSTM輸出具有依賴關系的實體標簽;之后,通過在雙向序列LSTM單元上堆疊雙向樹結構LSTM的方法,使關系分類子任務和實體識別子任務共享編碼層的LSTM單元序列表示,同時,在關系分類子任務中捕獲詞性標簽等依賴特征和實體識別子任務中輸出的實體序列,形成依存樹,最終根據依存樹中目標實體間的最短路徑對文本進行關系抽取.但該模型中的關系分類子任務和實體識別子任務僅共享了編碼層的雙向序列 LSTM 表示,從嚴格意義上來說不是真正的聯合模型.但是該模型的提出,為之后真正意義上聯合學習模型的提出奠定了基礎,是基于深度學習方法做聯合學習模型的啟發者.

Li等人[53]在 2017年將該模型用于提取細菌和細菌位置之間存在的“Live-In”關系,并基于實際應用對Miwa模型做出了兩點改進:1) 為改善從實體識別子任務到關系分類子任務可能會產生的錯誤累積傳播問題,在關系分類子任務中引入一種新的關系“Invalid_Entity”,對實體識別子任務中產生的實體進行驗證,以區分有效實體和無效實體,之后對有效實體再進行“Lives_In”和“not Lives_In”關系的分類;2) 在實體識別子任務中,因貪婪的從左到右逐步預測實體標簽的方式可能會在這些標簽之間帶來錯誤傳播,即先前預測中的錯誤可能會在隨后的預測中引起新的錯誤,故將模型中原來的貪婪搜索解碼換為波束搜索,因波束搜索中的每一步都可以有多個候選預測,在最佳預測不正確的情況下,可以根據全局分數排序來選擇候選預測,并在波束搜索中用早期更新技術來訓練模型,以緩解實體標簽間的錯誤傳播問題.

Katiyar等人[54]在2016年首次將深度雙向LSTM序列標注的方法用于聯合提取觀點實體和IS-FROM,ISABOUT關系,同時還提出了在輸出層上添加句子級別的限制和關系級別的優化來提高模型的精確度.但這種方法只能識別觀點實體和IS-FROM,IS-ABOUT關系,無法提取實體間的關系類型,模型也不能擴展用于抽取其他關系類型.之后,為改進模型無法擴展應用的問題,Katiyar等人[13]在自己2016年模型的基礎上,于2017年首次將注意力機制與雙向LSTM一起用于聯合提取實體和分類關系.該方法的模型圖如圖5所示,實體識別子任務和關系分類子任務共享編碼層表示(編碼層包括LSTM單元和隱藏層).該模型在實體識別子任務中和Miwa等人[12]的模型一致,將實體識別子任務當作序列標注任務,使用多層雙向LSTM網絡來進行實體檢測;在關系分類子任務上,該方法改善了Miwa等人[12]依賴于詞性標簽、依賴樹等特征的缺點,基于實體識別子任務輸出的實體序列表示和共享的編碼層表示,使用注意力模型進行關系分類;同時,該模型還可以擴展提取各種定義好的關系類型,是真正意義上的第一個神經網絡聯合抽取模型.

其中,Miwa等人[12]和 Katiyar等人[13]的模型圖如圖 5所示.二者在實體識別子任務上的模型圖基本相同,如圖左下部分所示,均使用Bi-LSTM來進行實體識別子任務(其中,紅色箭頭部分僅為Katiyar等人[13]的模型圖所有).圖左上部分為 Katiyar等人[13]的關系分類子任務示意圖,基于注意力機制來進行關系分類;圖右上部分為Miwa等人[12]的關系分類子任務示意圖,基于Bi-TreeLSTM來進行關系分類.

(2) 基于序列標注的實體關系抽取方法

基于參數共享的實體關系抽取方法,改善了傳統流水線方法中存在的錯誤累積傳播問題和忽視兩個子任務間關系依賴的問題.但因其在訓練時還是需要先進行命名實體識別子任務,再根據實體預測信息對實體進行兩兩匹配,最后進行關系分類子任務,因其在模型實現過程中分開完成了命名實體識別和關系分類這兩個子任務,仍然會產生沒有關系的實體這種冗余信息.為了解決這個問題,基于新序列標注方法的實體、關系聯合抽取方法被提出.

Zheng等人[55]在 2017年提出了基于新的標注策略的實體關系抽取方法,把原來涉及到命名實體識別和關系分類兩個子任務的聯合學習模型完全變成了一個序列標注問題.在該方法中,共包含 3種標注信息:(1) 實體中詞的位置信息{B,I,E,S,O},分別表示{實體開始,實體內部,實體結束,單個實體,無關詞};(2) 實體關系類型信息,需根據實際需要自定義關系類型并編碼,如{CF,CP,…};(3) 實體角色信息{1,2},分別表示{實體 1,實體2}.該方法能使用序列標注的方法同時識別出實體和關系,避免了復雜的特征工程,通過一個端到端的神經網絡模型直接得到實體-關系三元組,解決了基于參數共享的實體關系抽取方法可能會帶來的實體冗余的問題.新序列標注方法的模型圖如圖6所示.在該端到端的神經網絡模型中,對輸入的句子,首先,編碼層使用Bi-LSTM來進行編碼;之后,解碼層再使用LSTM進行解碼;最終,輸出模型標注好的實體-關系三元組.另外,Zheng等人[55]在這篇論文中還對該端到端模型增加了偏置損失函數,該函數增強了相關實體對之間的聯系,削弱了無效實體標簽的影響力,提高了關系分類的準確率;并基于這種新的標注方法,該論文中還學習用不同的端到端模型來解決關系抽取問題.

2.3.3 聯合學習方法中存在的共性問題

聯合學習方法包括基于參數共享的實體關系抽取方法和基于新序列標注的實體關系抽取方法:前者很好地改善了流水線方法中存在的錯誤累積傳播問題和忽視兩個子任務間關系依賴的問題;而后者不僅解決了這兩個問題,還解決了流水線方法中存在的冗余實體的問題.但這兩種方法對于現今有監督領域存在的重疊實體關系識別問題,并未能給出相關的解決方案.

2.4 基于深度學習的有監督領域關系抽取方法與經典方法的對比

基于有監督學習的經典方法嚴重依賴于詞性標注、句法解析等自然語言處理標注工具中提供的分類特征,而自然語言處理標注工具中往往存在大量錯誤,這些錯誤會在關系抽取系統中不斷傳播放大,最終影響關系抽取的效果.而基于深度學習的有監督方法可以在神經網絡模型中自動學習特征,將低層特征進行組合,形成更加抽象的高層特征,用來尋找數據的分布式特征表示,能夠避免人工特征選擇等步驟,減少并改善特征抽取過程中的誤差積累問題.

2.5 有監督領域實體關系抽取核心公式

流水線和聯合方法是有監督實體關系抽取領域主流的兩個派系,這兩個派系的實體關系抽取現今衍生出多種不同的抽取方法,其抽取方法的核心公式見表1.

Table 1 Supervised entity relationship extraction core formula表1 有監督實體關系抽取核心公式

3 基于深度學習的遠程監督實體關系抽取方法

3.1 遠程監督實體關系抽取框架演化流程

面臨大量無標簽數據時,有監督的關系抽取消耗大量人力,顯得力不從心.因此,遠程監督實體關系抽取應運而生.Mintz[14]于 2009年首次提出將遠程監督應用到關系抽取任務中,其通過數據自動對齊遠程知識庫來解決開放域中大量無標簽數據自動標注的問題.遠程監督標注數據時主要有兩個問題:噪聲和特征提取誤差傳播.噪聲問題是由于遠程監督的強假設條件,導致大量數據的關系被錯誤標記,使得訓練數據存在大量噪聲;而特征提取中的誤差傳播問題是由于傳統的特征提取主要是利用 NLP工具進行數據集的特征提取,因此會引入大量的傳播誤差.針對錯誤標簽問題,Surdeanu[8]于2010年提出的多示例多標簽學習方法、Lin[10]于2016年提出的Attention機制,都有效減弱了遠程監督錯誤標簽對抽取性能的影響.而自從深度學習的崛起和其在有監督領域取得良好的關系抽取效果后,用深度學習提取特征的思路來替代特征工程是一個非常自然的想法:用詞向量、位置向量來表示句子中的實體和其他詞語;用深度模型對句子建模,構建句子向量;最后進行關系分類.深度學習模型及其特點有:CNN的擴展模型 PCNN+MIL[37]、PCNN+ATT[10](Attention機制作為多示例機制的一種泛化)弱化錯誤標簽問題;LSTM[57]獲取實體對方向性信息;COTYPE[39]聯合抽取實體和關系信息;深度殘差網絡[40]防止錯誤標簽噪聲的逐層累積.基于遠程監督實體關系抽取框架的演化流程如圖 7所示.下面按照 PCNN及其擴展模型、LSTM、COTYPE、深度殘差網絡的順序來進行遠程監督領域實體關系抽取的主流方法介紹.

3.2 基于深度學習的遠程監督領域實體關系抽取主流方法介紹

3.2.1 基于PCNN及其擴展模型的實體關系抽取

經典的實體關系抽取在提取特征時使用NLP工具,會導致誤差逐層傳播,影響關系抽取效果.深度學習中的PCNN方法有效解決了特征提取誤差傳播的問題.而對于遠程監督中錯誤標簽引入噪聲的問題,本模塊采用多示例和注意力兩種機制來緩解噪聲問題.以下是基于PCNN及其擴展模型的實體關系抽取過程.

(1) 基于PCNN和多示例(MIL)的實體關系抽取

Zeng[20]提出了PCNN結合多示例的方法進行遠程監督實體關系抽取,與CNN不同的是,PCNN根據實體所在位置將句子切分成 3段進行池化,從而得到更多和實體相關的上下文信息.而多示例學習是將實體對看成包,基于At-least-one假設,在包含實體對的所有句子中,選擇使得關系概率最大的示例語句作為實體對的表示.關系抽取的具體流程為:

a) 示例語句編碼:詞向量、位置向量共同組成詞語表示向量;

b) 卷積層:卷積部分是采用了常見的針對文本的卷積核設計,單向滑動;

c) 三段池化與最終關系分類:在池化層,是按照分段進行Max Pooling的,而PCNN的P是Piecewise,將句子按照兩個實體進行分割,分割得到3段,將這3段分別進行Max Pooling.最后,使用一個Softmax分類器進行類別判斷.

PCNN結合多實例的方法雖然優化了傳統遠程監督的效果,但多實例實際上是給包打標簽而不是給語句打標簽,即從包含實體對的所有語句中只選擇了一個語句,這必然導致丟失大量有用的句子信息.

(2) 基于PCNN和注意力機制(ATT)的實體關系抽取

Zeng的多示例方法只用了包中一條語句信息,這就在一定程度上丟失了很多信息.針對此問題,Lin[10]在Zeng的基礎上采用 Attention機制,充分利用包內的信息,進一步減弱錯誤打標的示例語句產生的噪聲.最終,標簽正確分類的示例語句貢獻較大,分配權重較高;標簽錯誤分類的示例語句貢獻較小,分配權重較低.從而提高分類的準確率.具體流程主要分為:

a) 包中示例分類:將實體對作為包,含實體對的句子作為包中示例;

b) 示例語句編碼(句子特征提取):句子分詞,將句子詞語和實體轉化為稠密實數向量,然后利用卷積、池

化和非線性轉換等操作構建起對應的句向量.句向量編碼過程如圖8所示;

c) 給句子加入注意力機制:給不同的句子賦予不同的權重α1,α2,α3,…,αn,隱式地摒棄一些噪音語料,以此提升分類器的性能.這樣使得網絡的輸出數目和關系數目相等,方便后續Softmax層進行分類.圖9為原始句子包生成句子包向量的過程,原始句子通過 CNN提取句子特征,構建句子向量,給包中不同句子添加不同的權重,構建出一個句子包向量.

Attention機制雖與多示例方法都是減弱錯誤標簽帶來的噪聲問題,但多示例只用了包中一條語句信息,而Attention機制綜合利用了包中所有示例語句信息,更好地提升了遠程監督中關系抽取的效果.

(3) 基于PCNN、注意力機制和實體表示信息的實體關系抽取

目前的遠程監督關系抽取都集中在探索句子的語義信息層次上,忽略了實體本身的描述信息對關系抽取效果的影響.對此,Ji在文獻[38]中提出加入實體表示信息的深度學習實體關系抽取模型.此模型是在 PCNN和Attention的基礎上添加了實體的描述信息來輔助學習實體的表示,從而提高準確率.其提取關系流程主要為:

a) PCNN模塊:用PCNN提取句子特征,每個實體對對應一個包,用句子級別注意力機制給包中每個句子分配一個權重,綜合利用包中所有句子的信息;

b) 提取實體信息:從 Freebase和 Wikipedia頁面中提取實體描述以補充實體關系提取的背景知識,用一個傳統的 CNN模型(一個卷積層和一個最大池化層)從實體描述中提取特征.背景知識不僅為預測關系提供了更多信息,而且為注意力機制模塊帶來了更好的實體表示;

c) 特征融合:用交叉熵最小化目標函數,目標函數由句子級別注意力機制和實體信息共同決定.

本文實際檢測到:當前遠程監督關系抽取模型如果在沒有實體背景信息的情況下,其在抽取某些實體對關系時效果不佳.針對此問題,作者提出使用實體表示信息豐富其背景知識,以便更好地預測關系.實驗表明在前人模型的基礎上加入此創新點,均明顯地提升了當前模型的效果.

3.2.2 基于LSTM的實體關系抽取方法

傳統的遠程監督方法在提取特征時采用NLP工具包,加重了錯誤傳播、錯誤積累的問題,所以He等人[57]提出一種SE-LSTM結合多示例學習的方法來解決遠程監督中錯誤傳播、錯誤積累問題,其模型如圖10所示.

a) LSTM網絡抽取實體對方向性信息(圖10左上部分):HE等人首先將句子的最短依存路徑(SDP)分割成兩個子路徑作為LSTM結構的輸入,自動地抽取特征,以此來抽取實體對的方向性信息;

b) CNN網絡提取句子整體信息(圖10右部分):盡管SDP對關系抽取非常有效,但是這并不能捕捉到句子的全部特征.針對此問題,作者將全部句子放進 CNN 網絡,進而抽取句子的全部信息(sentence embedding);

c) 特征融合(圖10左下部分):最后,將LSTM隱藏層單元以及CNN的非線性單元相融合,通過Softmax層來標注實體對對應的關系.

本文提出的 SE-LSTM 網絡結合多示例的方法,其可以在不需要任何 NLP工具包的幫助下自動地抽取特征,并且通過兩個LSTM提取實體對的方向性信息.實驗表明,該方法大大地提升了關系抽取的準確率.

3.2.3 基于COTYPE聯合抽取模型的實體關系抽取方法

現有的遠程監督關系抽取模型通常只能在某一特定領域進行關系抽取工作,并且將實體抽取和關系抽取兩項工作分開進行,分開進行的方式會導致錯誤的累積傳播,不易優化擴展模型.針對此問題,Ren在文獻[39]中提出了聯合抽取模型COTYPE,此模型的提出,主要解決在遠程監督關系抽取過程中面臨的3大挑戰:1) 事先訓練好的命名實體識別器限制了領域之間的擴展;2) 將實體抽取和關系抽取分開導致錯誤的累積傳播;3) 在遠程監督中標簽噪聲問題.COTYPE的框架主要分為3個部分.

a) 數據預處理:在訓練語料上運行文本分割算法,得到候選實體;給同一句話的兩個候選實體構建關系,用三元組表示;最后分析文本,抽取文本特征;

b) 聯合訓練實體和關系向量空間:將候選實體、候選關系、文本特征等嵌入到關系空間以及實體空間,并對兩者進行聯合建模;

c) 對實體類型和關系類型進行推理預測.

COTYPE模型與 PCNN等單模型相比不僅可以擴展到不同領域,而且通過把實體抽取和關系抽取兩個任務結合,較好地減弱了錯誤的累積傳播.實驗結果表示,其明顯提升了當時State-of-the-art的效果.

3.2.4 基于深度殘差網絡的實體關系抽取方法

一般來說,深層神經網絡能抽取更深的語義特征,所以Huang[40]實驗了9層CNN的實體關系抽取模型.但事實發現,9層CNN抽取效果不如單層.Huang猜測可能是由于遠程監督的數據里有太多錯誤標簽的數據,錯誤標簽帶來的噪聲隨著神經網絡層次的加深逐漸被放大,導致 9層效果比單層的差.因此,提出一種深度殘差網絡模型來解決深層網絡增大噪聲的問題,其采用殘差網絡設法使淺層網絡的特征跳躍傳遞至深層網絡,讓網絡可以選擇較不被噪聲影響的那層網絡特征來進行關系分類.在性能上,9層的殘差網絡可達到 State-of-the-art(PCNN+ATT)模型相似的效果.

3.3 基于深度學習的遠程監督關系抽取方法與經典方法的對比

經典的遠程監督方法是在解決遠程監督中強假設條件造成大量錯誤標簽的問題,而深度學習方法主要是是在解決特征提取中誤差傳播問題.

遠程監督的提出,是因為在開放域中存在大量無規則非結構化數據,人工標注雖能使標注的準確率較高,但是時間和人力消耗巨大,在面對大量數據集時顯得不切實際.因此,遠程監督實現一種數據集自動對齊遠程知識庫進行關系提取的方法,可進行自動標注數據.但由于其強假設條件造成大量錯誤標簽問題,之后,經典的遠程監督的改進都是在改進處理錯誤標簽的算法.

深度學習的提出,是因數據特征構造過程依賴于 NER等 NLP工具,中間過程出錯會造成錯誤傳播問題.且現今基于深度學習的遠程監督實體關系抽取框架已包含經典方法中對錯誤標簽的探討解決,因此可以認為現今的遠程監督關系抽取框架是基于傳統方法的擴展優化.

3.4 基于深度學習的遠程監督關系抽取方法與有監督方法的對比

有監督的實體關系抽取依靠人工標注的方法得到數據集,數據集準確率、純度較高,訓練出的關系抽取模型效果較好,具有很好的實驗價值.但其人工標注數據集的方法耗費大量人力成本,且標注數據的數量有限、擴展性差、領域性強,導致構造的關系抽取模型對人工標注的數據具有依賴性,不利于模型的跨領域泛化能力,領域遷移性較差.

遠程監督在面對大量無標簽數據時,相較于有監督實體關系抽取具有明顯優勢.人力標注大量無標簽數據顯得不切實際,因此遠程監督采用對齊遠程知識庫的方式自動標注數據,極大地減少了人力的損耗且領域遷移性較強.但遠程監督自動標注得到的數據準確度較低,因此在訓練模型時,錯誤標簽的誤差會逐層傳播,最終影響整個模型的效果.因此,現今的遠程監督實體關系抽取模型的效果普遍比有監督模型抽取效果效果差.基于深度學習的有監督和遠程監督實體關系抽取效果對比可見表2.

Table 2 Comparison of supervised and remotely supervised entity relationships based on deep learning表2 基于深度學習的有監督和遠程監督實體關系抽取對比

3.5 遠程監督領域實體關系抽取方法核心公式

現今,基于深度學習的遠程監督實體關系抽取研究點主要集中在遠程監督的噪聲問題和特征提取的誤差傳播兩方面,遠程監督部分實體關系抽取核心公式為表3.

Table 3 Distant-supervised entity relationship extraction core formula表3 遠程監督實體關系抽取核心公式

4 基于深度學習的實體關系抽取新模型與新思路

4.1 融合深度增強學習的實體關系抽取

近期,隨著增強學習方法的興起,給予實體關系抽取又一種新的思路.有學者試圖將增強學習[59]的方法與深度學習的方法融合起來,進行實體和關系的聯合抽取.Feng等人[60]在 2017年提出了基于增強學習和深度學習的聯合學習方法抽取實體和關系的模型.該模型中,增強學習將任務建模為兩步決策過程,如圖 11所示:第 1個決策根據實體抽取的初步結果,判斷包含目標實體對的句子是否是一個關系;第 2個決策將關系進行分類.通過設計每步的獎勵函數,可以將實體提取的信息傳遞給關系提取并獲得反饋,以便同時提取實體和關系.深度學習用于自動捕獲非結構化文本中最重要的信息,這些信息代表決策過程中的狀態,首先使用Bi-LSTM來模擬上下文信息,將實體抽取任務視為序列標注任務,實現初步的實體提取;在提取結果的基礎上,基于注意力機制的方法可以表示包括目標實體對的句子,以在決策過程中生成初始狀態;接著使用Tree-LSTM來表示關系,在決策過程中生成過渡狀態;最后采用Q-Learning算法,在兩步決策過程中得到控制策略π.該方法解決了在增強學習與深度學習的聯合模型中,如何將實體信息傳遞給關系抽取,使實體和關系信息能夠交互并獲得反饋的問題.在ACE2005數據集上的實驗結果,比現有技術的方法獲得更好的性能,并且召回率評分提高了2.4%.

Qin[61]于2018年ACL會議上提出一種深度增強學習的遠程監督實體關系抽取方法,認為多示例和注意力機制并非最理想的降噪方法,那些被錯誤打標的數據依舊作為模型的訓練數據,影響著關系抽取的效果.因此,Qin用深度增強學習方法訓練一個正例、負例數據識別器.不同于之前研究中將負例移除的方式,Qin是將不存在目標關系的示例語句放入負例集中,將正例數據和負例數據正確分類,并充分利用了正例數據和負例數據的信息.

4.2 融合生成對抗網絡的實體關系抽取

生成對抗網絡是實體關系提取中的新興方法,其通過在詞向量表示階段引入對抗性噪聲并給出新的損失函數來增加模型的準確率.其主要思路是:生成器和判別器為博弈對方,生成器擬合數據的產生過程生成模型樣本,判別器通過增加噪聲樣本增強模型準確率和魯棒性,優化目標是達到納什均衡.

生成對抗網絡是由GoodFellow等人[62]在2014年提出的一種生成模型,在圖像和視覺領域取得廣泛的研究和應用.從2016年開始,Miyato[23,63]逐漸將對抗訓練引入文本分類任務中.Wu[24]于2017年將生成對抗網絡引入弱監督實體關系抽取中,證明詞向量加入對抗性噪聲之后,其進入CNN或RNN等深度模型中的提取效果比直接進入深度模型提取關系的準確率高.Qin在文獻[17]將對抗的思路加入模型中來對隱含話語的關系進行分類,通過隱式網絡和競爭特征鑒別器之間的競爭來實現自適應模仿方案,在 PDTB基準測試中實現了最先進的性能.Qin[64]于2018年將生成對抗網絡引入到遠程監督關系抽取中,用于篩選錯誤標簽,最終達到降噪的效果.實驗結果表明,此模型優于現今效果最好的遠程監督實體關系抽取模型.

生成對抗網絡篩選錯誤標簽數據的流程如圖12所示.

a) 預訓練:對生成器和鑒別器進行預訓練,得到生成器和鑒別器的參數θG和θD.由于在良好初始化參數的情況下對抗訓練很容易趨于收斂,因此預訓練具有很好的優化效果.本文生成器和鑒別器都用簡單的卷積神經網絡,相比于循環神經網絡,卷積神經網絡具有更少的參數;

b) 數據劃分:一次迭代(epoch)掃描遠程監督訓練集中所有正例集P={s1,s2,…,sj,…},將其劃分為N個包:B={Bag1,Bag2,…,Bagk,…},一次處理一個包中的全部數據;

c) 生成器訓練:生成器計算包中正樣本的概率分布,其產生的高置信樣本被認為是真實的正例樣本,然后根據這個概率分布進行抽樣;

d) 對抗器訓練:對抗器接收這些高置信度樣本,但將其視為負樣本;相反,低置信度的樣本仍被視為正樣本.在這個過程中,模型會以預訓練的參數進行初始化;

e) 交替訓練:對于生成的樣本,生成器使真正的概率最大;相反,對抗器使這個概率最小.兩個網絡交替進行訓練,更新θG和θD.

對比實驗結果表明,PCNN+ATT+DSGAN模型較PCNN+ATT而言,AUC和p-values均有明顯的改善.用生成對抗網絡進行訓練集噪聲數據篩選,會提高遠程監督領域實體關系抽取效果.

5 基于深度學習的實體關系抽取在生物醫藥領域中的最新應用進展

實體關系抽取是信息抽取的核心任務[65,66],其主要通過對文本信息建模,自動抽取出實體對之間的語義關系,提取出有效的語義知識.目前,基于深度學習的實體關系抽取已逐漸應用到垂直領域并取得了不錯的效果,其中,實體關系抽取在生物醫藥領域的應用尤為廣泛.深度學習實體關系抽取可以發掘生物醫學中藥品實體與疾病間深層次的特征,在毒理學研究、藥物發現和藥物安全監測方面有著廣泛的應用.下面依次從CNN, LSTM模型的角度簡要介紹深度學習實體關系抽取在醫藥領域的最新應用.表 4為深度學習模型在生物醫藥領域中的應用.

Table 4 Deep learning entity relationship extraction usedin biomedicine field表4 深度學習實體關系抽取在生物醫藥領域中的應用

從文本中提取生物醫學實體及其關系,對生物醫學研究具有重要的應用價值.以前的工作主要是利用基于特征的流水線模型來處理這個任務,當采用基于特征的模型時,需要進行大量特征工程工作,耗費時間且抽取效果參差不齊.因此,學者們試圖將深度學習的方法引入生物醫藥領域的關系抽取中來提升效果.

從生物醫療領域的科研文章、醫療報告、電子醫療記錄抽取相關信息,已經成為了當前生物醫藥領域的研究熱點.2016年6月,Sahu等人[67]首次提出基于卷積神經網絡(CNN)的臨床文本關系提取新框架,臨床文本相較于科研文章而言,內容更具碎片化和不完整性,因此關系抽取的過程更具挑戰性.Sahu將每個句子用詞級向量、位置向量、詞性特征、詞干特征、實體類型信息來共同表示,豐富句子表示信息;并且用CNN網絡進行關系抽取,減少了對專家特征知識定義質量的依賴,模型在i2b2-2010臨床關系提取挑戰數據集超過了當前state-of-theart的效果.

2017年1月,Gu等人[68]的論文用最大熵改進了Sahu的CNN模型,對化學藥物與疾病之間的關系進行抽取.通過 CNN網絡抽取了文本句子的上下文特征以及依存特征,獲得了更加精確、有效的句子信息.模型在BioCreative-V CDR語料庫(包括1 500篇美國國立醫學圖書館生物醫學數據庫論文(MEDLINE),所有論文都被手工標注了化學與疾病)上達到了當前State-of-the-art的效果.

Peng等人在2018年BioCreative VI Workshop上發表的文獻[70]結合了SVM,CNN和RNN模型,聯合挖掘生物醫學文獻中化學品和蛋白質之間的關系,從而證明了生物醫學文獻自動關系提取方法的有效性.Peng將句子向量、位置向量、詞干特征、句子的依存特征作為SVM,CNN以及RNN模型的輸入,最終將3種模型預測的結果進行投票,獲得最終的關系預測.結果表明,在BioCreative VI的CHEMPROT系統精確度為0.726 6,召回率為0.573 5,F值為0.641 0.此模型在2017年挑戰期間取得了最高效果.

Li[53]在2017年BMC Bioinformatics會議上提出將CNN和Bi-LSTM-RNN應用于生物醫藥領域的關系抽取任務中,在藥物與疾病實體之間的關系抽取、細菌與位置實體之間的關系抽取這兩個任務中分別比最新技術提高了8.0%和9.2%.本文所用模型對應上文的有監督領域的聯合模型,同時進行命名實體識別與實體間關系抽取兩個任務.使用CNN提取字符級信息,用Bi-LSTM識別生物醫學實體,再結合Bi-LSTM-RNN沿著兩個目標實體的最短依存路徑(SDP)方向學習實體間關系表示.這些表示用于確定實體間最后的關系類別.此模型在實際應用中取得了杰出的效果,這也表明了深度學習實體關系抽取在生物醫學文本挖掘中研究的重要性.

藥物引起的不良反應是一個潛在的危險問題,可能導致患者死亡和發病.提取藥物不良事件以及挖掘藥物與疾病間關系,是生物醫學研究中的重要問題.2018年1月,Ramamoorthy等人[69]采用Bi-LSTM結合注意力機制的序列模型進行實體識別和不良藥物事件提取,利用臨床文本中的當地語言實現序列內相互作用,以便對藥物和疾病實體間關系進行共同學習,從而抽取到最合適的關系.模型證明,用此種方式進行事件和關系抽取的性能優于先前工作中使用的基于最短依存路徑(SDP)方法.

Chikka等人[26]在2018KDD上提出一種結合深度學習和規則的關系抽取模型,解決如何抽取疾病與治療藥品間關系的問題.文中利用深度學習的詞級和句子級表示信息來提取治療方案與醫療問題之間的關系,使用基于規則的方法處理數據集中可用的樣本數量較少的關系,最終通過 Bi-LSTM 和基于規則的模型聯合得出最終關系.最終結果在I2b2 2010關系提取任務的關系類上取得了良好的性能.結合深度學習和基于規則的模型可以深入挖掘疾病與藥品之間關系,在決策支持系統、安全監視和新的藥品發現中有著廣泛應用.

Nguyen[71]在2018年BioNLP上提出通過CNN+CNNchar和CNN+LSTMchar模型來抽取生物醫學文本中化學藥品與疾病之間的關系.不同于之前模型中只用CNN提取詞語與字符級信息,Nguyen提出CNN和LSTM共同訓練字符級別的詞向量,解決生物醫藥領域專有名詞沒有特定的詞向量這一問題,將字符集別詞向量和詞級別詞向量拼接作為CNN關系抽取網絡的輸入.將模型應用于BioCreative-V CDR語料庫中的任務數據,其結果表明:利用基于CNN和LSTM的字符級單詞表示模型改進了不使用此信息模型的關系抽取效果,更好地抽取化學藥品與疾病之間的關系.

6 基于深度學習的實體關系抽取的數據集及其評測方法

6.1 數據集介紹

近年來,用作深度學習關系抽取實驗評估的標準數據集主要有SemEval-2010 Task 8公開數據集、ACE2004實驗語料、NYT-FB數據集等.

(一) 有監督領域

有監督領域的實體關系抽取主要采用MUC關系抽取任務數據集、ACE04、ACE05、SemEval-2010 Task 8公開數據集,部分論文采用MPQA 2.0語料庫和BioNLP-ST 2016的BB任務數據集.有監督方面評測標準主要以F1值來統計.

· MUC關系抽取任務數據集:MUC-7包含五大評測任務:命名實體識別、指代消解、模版元素填充、模版關系確定和場景模版填充.其中,關系抽取首次作為一個獨立的評測任務被提出來.MUC-7的數據語料主要是取自新聞語料,主要是飛機失事事件報道和航天器發射事件報道.MUC會議停開以后, ACE會議也將關系抽取任務作為會議的一個子任務;

· ACE關系抽取任務數據集:ACE會議從2002年~2007年一直將關系抽取任務作為一個子任務,其中獲得廣泛認可的是ACE04/ACE05.其中,ACE04語料庫來源于語言數據聯盟(linguistic data consortium,簡稱LDC),分成廣播新聞(BNEWS)和新聞專線(NWIRE)兩個部分,總共包含451個文檔和5 702個關系實例.ACE04提供了豐富的標注信息,從而為信息抽取中的實體識別、指代消解和關系抽取凳子任務提供基準(benchmark)的訓練和測試語料庫.而ACE05作為ACE04的擴充,對ACE04數據集進行了適當的修改與完善;

· SemEval-2010 Task 8數據集:SemEval是由Senseval演變而來的語義評測.Senseval是由ACL-SIGLEX組織的國際權威的詞義消歧評測,但由于 Senseval中除詞義消歧外有關語義分析的任務越來越多,之后,Senseval委員會決定把評測名稱改為國際語義評測(SemEval).SemEval-2010 Task 8數據集是2010年SemEval語義評測的子任務,構建于2009年,此任務用于名詞間多種語義關系的分類.數據集根據預設定的9種互不相容關系從各大數據源收集而來,數據源包括WordNet,Wikipedia data,Googlen-grams等.數據集共包含10 717條數據,其中,訓練集有8 000條,測試集有2 717條.數據集中9種關系,分別為:Cause-Effect(因果關系),Instrument-Agency(操作、使用關系),Product-Producer(產品-生產者關系),Content-Container(空間包含關系),Entity-Origin(起源關系),Entity-Destination(導向關系),Component-Whole(組件-整體關系),Member-Collection(成員-集合關系),Message-Topic(主題關系).每條數據是一個包含實體對的句子,類別標簽為實體對在該句中表現出的關系;

· MPQA 2.0語料庫:包含來自各種新聞源的新聞文章和社論,數據集中共有482個文檔,包含9 471個帶有短語級別注釋的句子.數據集中包含觀點實體的黃金標準注釋,如觀點表達、觀點目標和觀點持有者;還包含觀點關系的注釋,如觀點持有者和觀點表達之間的IS-FROM關系、觀點目標和觀點表達之間的IS-ABOUT關系;

· BioNLP-ST 2016的BB任務:此任務是針對細菌/位置實體抽取和兩者間Lives_In關系抽取而設立的一個標準競賽,數據集由來自 PubMed的161個科學論文摘要組成,數據集中包含 3種類型的實體:細菌、棲息地和地理位置;包含一種關系:Lives_In,指由細菌-棲息地構成的Lives_In關系或由細菌-地理位置構成的Lives_In關系.

(二) 遠程監督領域

遠程監督領域的實體關系抽取主要采用NYT-FB數據集.這個數據集是由Freebase知識庫對其紐約時報的文本獲得的數據集.訓練數據為知識庫對其2005年、2006年文本獲得的,測試庫數據為知識庫對其2007年文本獲得的.NYT-FB數據集中共有53種關系,共計695 059條數據(其中訓練集包含522 611條訓練語句,訓練數據中有近80%的句子的標簽為NA,測試集包含172 448條測試語句),通過結合FreeBase對NYT語料做實體鏈接、關系對齊等操作進行標注,最終得到一個被廣泛使用的關系抽取數據集.

6.2 評測方法介紹

關系抽取領域有3項基本評價指標:準確率(precision)、召回率(recall)和F值(Fmeasure).

(一) 準確率

準確率是從查準率的角度對實體關系抽取效果進行評估,其計算公式為

(二) 召回率

召回率是從查全率的角度對抽取效果進行評估,其計算公式為

(三)F值

對與關系抽取來說,準確率和召回率是相互影響的,二者存在互補關系,因此,F值綜合了準確率和召回率的信息,其計算公式為β是一個調節準確率與召回率比重的參數,實際測試中,一般認為準確率與召回率同等重要,因此,β值一般設置成1.因此,上式可以表示為

6.3 深度學習實體關系抽取典型論文的數據集與評測標準

不同模型的數據集及其評測標準見表5.

Table 5 Different models of data sets and their evaluation criteria表5 不同模型的數據集及其評測標準

表5中,序號1~序號15是有監督領域實體關系抽取的典型模型與其相關信息介紹,序號16~序號25是遠程監督領域實體關系抽取的典型模型與其相關信息介紹.其中,1~10是有監督領域中流水線類別的模型,序號11~序號15是有監督領域的聯合學習類別的模型.

參考常耀成[77]在《軟件學報》中的數據集整理的方式,本文數據集描述與下載鏈接見表6.

Table 6 Dataset description and download link表6 數據集描述與下載鏈接

7 未來研究方向和總結

目前,基于深度學習的實體關系抽取已經取得了極大成功,但依舊值得學者們不斷探索.通過對現有實體關系抽取研究工作進行總結,未來可從以下幾個方面展開相關研究.

(1) 重疊實體關系識別

目前,就重疊實體關系識別這一問題,已有的實體關系識別模型還沒有給出相應的解決方法.盡管 Zheng[55]提出的新標注策略解決了參數共享方法存在冗余實體的問題,真正做到了將兩個子任務合并成一個序列標注問題,但該方法仍然沒有解決重疊實體關系問題.故未來重疊實體關系仍會是學者研究和攻克的一大難題.此外,因 Zheng[55]新標注策略的提出,未來在這套標注策略上也可以進行更多的改進和發展,來進一步完善端到端的關系抽取任務.

(2) 跨句子級別關系抽取

現今,關系抽取任務集中在對一句話內識別出的實體對進行關系分類,而按照自然語言的習慣,實體對分別位于不同句子中的情況也十分常見.現有的指代消解任務可以通過指代對象識別和指代對象中心詞抽取有效影響多種自然語言處理任務系統的性能,但其存在依賴人工特征強、精確度不夠高的問題.因此,融合并改進指代消解和關系抽取模型,是未來解決跨句子級別關系抽取任務中可以研究探討的一種方案.

此外,Peng等人[78]于2017年提出了基于圖的LSTM網絡(graph LSTM)的一般關系提取框架,可以很容易地擴展到跨句子N元關系提取.圖公式提供了一種探索不同LSTM方法的統一方法,它能結合各種句內和句間的依賴關系,如順序、句法和語篇關系等;能學習實體的上下文表示,以用作關系分類器的輸入,簡化與任意元關系的處理,并且能夠利用相關關系進行多任務學習.通過在兩個重要的精確醫學環境中評估該框架,證明了其在傳統監督學習和遠程監督方面的有效性.因此,基于圖結構進行實體關系抽取也可作為解決跨句子級別關系抽取問題的一種方案.

(3) 關系類型OOV問題

現今,完成關系抽取任務的主流方法中,均沒有有效地解決關系類型OOV(out of vocabulary)問題.對于沒出現在訓練集中的關系類型,已有的模型框架無法準確地預測出實體對所屬的正確關系類型.在SemEval-2010的評測任務8中,因考慮到句子實例中實體對的先后順序問題,引入了Other類對不屬于已有關系類型的實例進行描述,然而這只是減少了存在關系的實體對的損失,提升了模型判斷關系提及的能力,對 Other類中實體對的關系卻難以定義,關系模糊,需要人工干預和判斷.因此,關系類型OOV問題也是未來亟待解決的問題之一.

(4) 解決遠程監督的錯誤標簽問題

遠程監督中的假設過于肯定,難免引入大量的噪聲數據.為緩解錯誤標注的問題,目前主流的方式是:(a) 利用多示例學習方法對測試包打標簽;(b) 采用 Attention機制對不同置信度的句子賦予不同的權值.但這兩種方法都不可避免地會將一些不具有某個關系的句子作為這個關系的訓練語句:在多示例學習方法的情況下,若一個包中全是負例(包中沒有一個句子的關系是實體對對齊知識庫得到的關系),即使取出概率最大的語句作為這個包的訓練語句,其仍是噪聲語句;而在 Attention機制下,雖將并不代表實體對關系的語句給予較小的權重,但本質上仍是將其作為正例放入訓練集中,仍是會引入噪聲.Qin[61]將深度增強學習引入遠程監督領域,將不存在目標關系的示例語句放入負例集中,是遠程監督領域解決噪聲問題的一個新興方法.但解決噪聲的方法遠不止這3種,如何采用有效的方式來解決遠程監督的錯誤標簽問題,是實體關系提取發展過程中研究的重要問題.

(5) 遠程監督領域錯誤傳播問題

現今,實體關系抽取的典型模型是PCNN+ATT,但其主要利用的是句子的語義信息.雖已有論文利用句子的語法信息[79]將依存句法樹用于實體關系抽取,但效果并不驚人.因此,如何將語義與語法信息有效融合來抽取實體關系,也是今后優化深度模型的主要方向之一.

猜你喜歡
深度監督特征
深度理解一元一次方程
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
主站蜘蛛池模板: 国产成人毛片| 亚洲人成人伊人成综合网无码| 19国产精品麻豆免费观看| 亚洲欧洲国产成人综合不卡| 国产xxxxx免费视频| 亚洲天堂日韩av电影| 在线精品视频成人网| 亚洲黄色高清| 欧美激情视频二区| 在线国产91| 国产福利一区二区在线观看| 无码精油按摩潮喷在线播放| 亚洲日韩精品伊甸| 久久久久青草大香线综合精品| 最新国产在线| v天堂中文在线| 综合社区亚洲熟妇p| 久久香蕉国产线看精品| 欧美在线国产| 99这里只有精品免费视频| 国产国产人免费视频成18| 亚洲男女天堂| 免费在线国产一区二区三区精品| 国产天天射| 无码av免费不卡在线观看| 毛片在线播放网址| 久久精品国产亚洲麻豆| 国产乱人免费视频| 永久毛片在线播| 一区二区三区国产精品视频| 在线a网站| 国产精品99r8在线观看| 黑色丝袜高跟国产在线91| 欧美色伊人| 黄色三级毛片网站| 久久国产av麻豆| 99久久国产综合精品2023 | 国产精品无码作爱| 国产日韩欧美视频| 四虎永久在线精品影院| 欧美区一区| 日韩在线成年视频人网站观看| 色噜噜综合网| 国产成人免费高清AⅤ| 国产伦片中文免费观看| 一级片免费网站| 日韩成人午夜| 久久精品中文字幕少妇| 国产亚洲欧美在线视频| 国产成人精品一区二区三区| 在线毛片网站| 国产午夜一级淫片| 日韩精品高清自在线| 欧美在线中文字幕| 国产jizz| 国产精品美女自慰喷水| 国产美女精品一区二区| 亚洲AV色香蕉一区二区| 亚洲自偷自拍另类小说| 九九热这里只有国产精品| 亚洲美女久久| 色成人综合| 黄色国产在线| 欧美中文字幕无线码视频| 在线观看精品国产入口| 福利在线不卡| 99ri精品视频在线观看播放| 日韩中文无码av超清| 中文字幕无码av专区久久| 欧美日韩v| 日韩欧美高清视频| 国产精品欧美日本韩免费一区二区三区不卡| 动漫精品中文字幕无码| 国产男人天堂| 激情综合五月网| 亚洲综合18p| 日韩国产精品无码一区二区三区| 亚洲中文久久精品无玛| 99久久国产综合精品女同| 人人爱天天做夜夜爽| 三上悠亚一区二区| 欧美激情视频二区|