基于BiLSTM_Att的軍事領域實體關系抽取研究

2019-09-12 10:41:42朱珊珊唐慧豐

智能計算機與應用 2019年4期

朱珊珊唐慧豐

摘要：軍事領域中實體關系的抽取是該領域相關體系知識圖譜建設的重要步驟。本文設計了基于BiLSTM和注意力模型（Attention）的實體抽取模型，該模型分為詞向量表示、句子上下文特征提取以及關系分類三個階段。在詞向量表示階段，模型創(chuàng)新性地加入詞性特征。在對相關語料進行實驗驗證的基礎上，結果顯示該模型對軍事類實體關系抽取有較好的F值。

關鍵詞：關系抽取; BiLSTM_Att; 向量表示; 詞性特征

文章編號：2095-2163（2019）04-0096-04 中圖分類號：TP391 文獻標志碼：A

0 引言

作為國家政治集體的軍事武裝力量，軍隊有著嚴格的組織關系，且具有分工明確、又可以聯(lián)合聯(lián)動的關系特性。對于軍事類實體進行關系抽取是豐富軍隊軍事結構資料庫，構成完整明晰關系網(wǎng)的重要組成部分。

近年來，F(xiàn)reeBase、DBpedia、百度百科等知識庫的建設為諸多互聯(lián)網(wǎng)應用提供了可靠的數(shù)據(jù)來源。知識圖譜作為一種智能、高效的信息組織形式，能夠將實體本身以及實體的各類關系以網(wǎng)狀連接的圖譜形式完整地描述出來，并進行可視化的展示，是一種清晰明了的數(shù)據(jù)內容及其內部關系展示形式。

知識圖譜的發(fā)展經(jīng)歷了3個時代。知識圖譜早期被稱為本體時代。2001 年隨著Wikipedia出現(xiàn)，知識圖譜進入語義網(wǎng)時代。前期2個階段的知識圖譜構建方式包括人工編輯和自動抽取，但自動抽取方法主要是基于在線百科中結構化信息而忽略了非結構化文本，而互聯(lián)網(wǎng)中大部分的信息恰恰是以非結構化的自由文本形式呈現(xiàn)。與鏈接數(shù)據(jù)發(fā)展的同期，許多知識獲取的方法被提出，這些方法大多基于信息抽取技術，用以構建基于自由文本的開放域知識圖譜。隨著信息抽取技術的不斷進步，2012年Google Knowledge graph上線，自此進入了知識圖譜時代。

早期的實體和關系抽取，包括實體關系的特征設計、語料的標注等，基本都是由人工完成的。但是由于自然語言處理的標注工具使用因人而異，并且人工選擇的特征會直接影響到關系抽取和分類的效果，因此即使耗費巨大的人力物力，關系抽取的效果也并非十分理想。而基于深度學習的神經(jīng)網(wǎng)絡模型則可以通過多層次網(wǎng)絡分析對大規(guī)模文本語料自動挖掘特征信息[1]。例如，循環(huán)神經(jīng)網(wǎng)絡在捕捉句子的上下文信息方面有著良好表現(xiàn)，可以反映一個句子中多實體間的關系。但循環(huán)神經(jīng)網(wǎng)絡對長距離依賴不夠，因此本文使用雙向長短時記憶網(wǎng)絡（BiLSTM）捕獲句子更多的上下文信息。同時，在對單詞進行向量表示時，除了加入位置信息外，還加入詞性特征，并使用注意力機制提取語句層面的特征，根據(jù)最后輸出向量進行分類，完成實體關系抽取任務。

1 相關研究

在知識圖譜的發(fā)展需求推動下，關系抽取的方法從上世紀后半葉的基于人工編寫規(guī)則的方法，逐漸發(fā)展到基于統(tǒng)計的方法，直至近十年來基于機器學習神經(jīng)網(wǎng)絡方法的陸續(xù)涌現(xiàn)[2]。

早期基于規(guī)則的方法雖然促進了關系抽取研究的長足進步，但其自身的局限性也很明顯，如：人工編寫規(guī)則的過程較復雜、規(guī)則產(chǎn)生的效率較低、系統(tǒng)針對性好、通用性差等，所以后來的研究逐漸又轉向基于統(tǒng)計的方法。隨著網(wǎng)絡開放程度增加，以及電子元器件計算速度、存儲能力的提升，文本數(shù)據(jù)體量和規(guī)模迅速增長。基于統(tǒng)計的方法開始快速發(fā)展并獲得廣泛應用，主要包括監(jiān)督學習、Bootstrap方法、遠程監(jiān)督學習、無監(jiān)督學習等。

基于統(tǒng)計的學習方法，首先需要大量完整已進行實體標注和實體間關系標注的語料庫，然后根據(jù)定義的關系類型和定義的實體類型，通過提取文本特征，將詞特征、位置特征等通過不同的分類算法訓練模型，在測試時根據(jù)訓練的模型抽取訓練語料的實體對，并判斷其關系類型。由于在特征提取的過程中需要依賴自然語言處理的自動分詞、詞性標注等工具，就使得在對語料處理時工具操作中所造成正確率損失，會對最終的分類性能產(chǎn)生影響。除此之外，文本特征提取過程還需要參照專家經(jīng)驗，因此特征的設計和驗證需要耗費大量人力物力。但統(tǒng)計方法不僅可以在無標注文本中抽取出實體對及其關系，也在一定程度上脫離了對領域知識的依賴。

近十年來，深度學習成為實體關系抽取中頗受業(yè)界矚目的研究新方法，深度學習是一種特殊的機器學習方法，具有靈活性好、性能高等特點。相比于基于統(tǒng)計的方法，深度學習的神經(jīng)網(wǎng)絡模型可以自動獲取文本特征，并不需要對文本特征進行復雜的設計和驗證。基于深度學習神經(jīng)網(wǎng)絡模型的關系抽取方法和基于統(tǒng)計的監(jiān)督方法相比主要有2個優(yōu)勢，可闡釋分述如下。

（1）在字、詞、短語等結構上統(tǒng)一使用低維、連續(xù)的向量表示，具體根據(jù)不同模型需要的不同顆粒度進行調整。

（2）在更大單元，即句子、篇章等向量表示上，使用不同的神經(jīng)網(wǎng)絡模型組合各類較小語言單元的特征向量。

研究中選用深度學習框架下的神經(jīng)網(wǎng)絡模型，對特征進行抽取和選擇是自動完成的，因此其在效率和正確率上也超過了傳統(tǒng)的基于統(tǒng)計的機器學習方法。

2 BiLSTM_Att模型

為了表示更豐富的上下文信息，模型選取雙向LSTM，即BiLSTM對提取的詞向量進行特征表示，隨后加入注意力模型（Attention）對神經(jīng)網(wǎng)絡的輸出進行加權，在此基礎上輸出關系分類的結果。因此BiLSTM_Att模型分為3個階段，即：首先，進行詞的向量表示;然后，是BiLSTM融合上下文信息;最后，是注意力模型對LSTM的輸出訓練權重矩陣。該模型的框架設計如圖1所示。這里，擬對此展開研究論述如下。

2.1 加入詞性的詞向量表示

對詞進行向量表示主要包括2個部分。一是詞語本身的詞向量訓練，在訓練過程中加入了詞性信息。二是詞的位置特征，指的是一個詞距離該句子中2個實體詞的位置關系。

在詞向量訓練前，根據(jù)詞性標注結果，輸入的詞由“詞-詞性”表示，例如句子“Evo Morales has put Bolivia on the map.”經(jīng)過預處理并加入詞性信息后輸入為“/Evo Morales_n /has_v /put_v /Bolivia_n /on_p /the_rzt /map_n”。由于word2ver是對word embedding的優(yōu)化，因此本文的詞向量訓練使用word2ver工具中的CBOW模型。CBOW模型的輸入是一個詞對應的上下文詞的詞向量，而輸出是該詞的詞向量。例如一個句子片段“…distributed representations which encode the relevant grammatical relations…”上下文大小為6，輸出詞是“encode”，那么輸出的是“encode”的前3個詞和后3個詞的詞向量。需要說明的是，這6個詞是沒有先后順序的，使用了詞袋模型。該模型的訓練過程中，研究定義了詞向量的維度大小M，以及CBOW的上下文大小2c，這樣對于訓練樣本中的每一個詞，其前面的c個詞和后面的c個詞作為CBOW模型的輸入，所有詞匯詞向量w作為輸出。

除此之外，由于word2ver訓練詞向量使用的是詞袋模型，沒有包含詞的位置信息，因此文本加入了詞的位置向量以描述位置信息。例如在句子“Evo Morales has put Bolivia on the map.”中，單詞“has”距離“Evo Morales”和“Bolivia”兩個實體分別為1和-2。將單詞相對“head entity”和“tail entity”的距離映射成2個距離向量，組合詞向量成為這個單詞的向量表示。

該階段對句子中詞向量訓練結束后，得到的是一個實數(shù)矩陣并傳遞給下一層，矩陣中包括了一個句子所有詞的特征信息。

2.2 BiLSTM

LSTM最早由Hochreiter和Schmidhuber[3]提出，為了解決循環(huán)神經(jīng)網(wǎng)絡中的梯度消失問題。主要思想是引入門機制，從而能夠控制每一個LSTM單元保留的歷史信息的程度以及記憶當前輸入的信息，保留重要特征，丟棄不重要的特征。為了將上文信息和下文信息都進行表征，本文采用雙向LSTM，將上一個細胞狀態(tài)同時引入到輸入門、遺忘門以及新信息的計算當中。該LSTM模型也同樣包含4個部分，如圖2所示。由圖2研究可知，其功能設計過程可解析概述如下。

輸出門包含了當前輸入、上一個隱狀態(tài)、上一個細胞狀態(tài)，組成權重矩陣，以決定加入多少新信息。對應的數(shù)學公式為：

遺忘門則決定丟棄多少舊的信息。對應的數(shù)學公式為：

細胞狀態(tài)包含了上一個細胞狀態(tài)以及基于當前輸入和上個隱狀態(tài)層信息生成的新信息。對應的數(shù)學公式為：

輸出門則包含了當前輸入、上一個隱狀態(tài)、當前細胞狀態(tài)，組成權重矩陣，以決定哪些信息被輸出。對應的數(shù)學公式為：

最終，輸出的當前隱狀態(tài)可由當前細胞狀態(tài)乘以輸出門的權重矩陣得到。對應的數(shù)學公式為：

2.3 Attention機制

注意力模型是從心理學上的注意力模型中引入的。人腦的注意力模型指的是，當一個人看到了整幅畫面時，在特定的時刻t，人的意識和注意力的焦點是集中在畫面中的某一個部分上，其它部分雖然還在人的眼中，但是分配給這些部分的注意力資源是很少的。深度學習中的注意力機制從本質上看和人類觀察事物的選擇性視覺注意力機制類似，就是從視覺所觀察范圍內的眾多信息中選擇核心觀察點，也就是對完成當前任務最重要的一部分信息。

3 實驗驗證及結果分析

相比于無領域關系抽取，軍事類實體關系抽取要在更大程度上受制于軍隊組織機構隸屬關系、人員隸屬關系以及武器裝備系統(tǒng)的分隊等。因此，針對軍事領域實體關系抽取，本文選取了3 000條相關語料進行標注，其中涉及到的實體關系共有7種，詳見表1。

對3 000條標注語料進行篩選，補全核對標注信息，并進行預處理后，將其中的2 500條作為訓練語料，500條作為測試語料。各個類別測試結果見表2。

測試結果顯示，“校友”關系和“歸屬”關系的整體識別率較高，但是“上下級”關系的識別效果不理想，并且該關系類型也是召回率最低的。

4 結束語

文本使用BiLSTM_Att模型完成了對軍事類中文語料的關系抽取任務。該模型由加入詞性和位置信息的詞向量訓練、雙向LSTM上下文特征抓取以及注意力模型的權重分配三個階段組成。在對語料進行實驗后發(fā)現(xiàn)，該模型整體效果較好，但是對于“上下級”、“平行”關系類型的識別召回率還是略有遜色。因此，在接下來的實驗中，應更關注于實體關系抽取召回率的提升。除此之外，對軍事領域關系抽取的語料建設也應有所關注。

參考文獻

[1] 莊成龍，錢龍華，周國棟. 基于樹核函數(shù)的實體語義關系抽取方法研究[J]. 中文信息學報， 2009， 23（1）：3-8，34.

[2]車萬翔，劉挺，李生. 實體關系自動抽取[J]. 中文信息學報， 2005， 19（2）：1-6.

[3] HOCHREITER S， SCHMIDHUBER J. Long short-term memory[J]. Neural Computation， 1997， 9（8）：1735-1780.

[4] RINK B， HARABAGIU S. Utd：Classifying semantic relations by combining lexical and semantic resources[C]//Proceedings of the 5th International Workshop on Semantic Evaluation. Uppsala， Sweden：Association for Computational Linguistics， 2010：256-259.

[5] KAMBHATLA N. Combining lexical， syntactic， and semantic features with maximum entropy models for extracting relations[C]//Proceedings of the ACL 2004 on Interactive poster and demonstration sessions. Barcelona，Spain：Association for Computational Linguistics， 2004：1-5.

[6] 杜嘉，劉思含，李文浩，等. 基于深度學習的煤礦領域實體關系抽取研究[J]. 智能計算機與應用，2019，9（1）：114-118.

[7] 萬靜，李浩銘，嚴歡春，等. 基于循環(huán)卷積神經(jīng)網(wǎng)絡的實體關系抽取方法研究[J/OL]. 計算機應用研究：1-6[2018-12-26]. http：//kns.cnki.net/kcms/detail/51.1196.TP.20181225.1615.003.html.

智能計算機與應用2019年4期

智能計算機與應用的其它文章: 高級打地鼠游戲的設計與實現(xiàn); 嬰幼兒體溫監(jiān)測器設計; 基于背景感知相關濾波的無人機目標跟蹤算法; 基于BP神經(jīng)網(wǎng)絡的水果識別研究; 社交網(wǎng)絡公眾意見分析研究; 基于臉部特征分析的無人機跟拍系統(tǒng)