齊玉東,丁海強,吳晉豫,司維超
(1.海軍航空大學,山東 煙臺 264001; 2. 92199部隊, 山東 青島 266000)
隨著軍隊信息化水平的迅速提高,軍事業務數據呈現爆炸式增長,“技術密集型”、“數據驅動型”特點日益突出。在軍事數據中,大量信息以文本形式存在與使用,文本類型數據具有數量大、蘊含信息豐富、難以直接利用等特征,研究如何有效處理軍事文本數據成為亟待解決的問題。命名實體識別(Named Entities Recognition,NER)[1]是文本信息抽取的基礎性工作,用于取文本中具有基本語義的實體單元。在軍事領域,可以將命名實體分為軍事人員、軍事保障機構、軍事保障設備、軍事保障設施、軍事裝備名稱5種類型。
目前,在軍事實體識別研究方面,使用深度學習[2]方法成為主流趨勢。例如,朱佳暉[3]等人提出雙向LSTM和CRF的實體識別框架,實現軍事語料文本中的作戰相關命名實體的識別和鏈接,較其他前沿方法在F值上獲得了更加優秀的結果。李建龍[4]等人采用雙向LSTM模型解決軍事領域命名實體識別問題,并增加注意力機制進行模型優化,在軍事測試語料集上的測試F值達到了87.38%。王學鋒[5]等人結合BiLSTM、字向量以及CRF,構建了character-BiLSTM-CRF實體識別模型,通過實驗證明該方法比傳統方法的識別準確率、召回率、F值均有大幅度提升。以上軍事實體識別方法雖然減輕了人工提取特征的繁瑣過程,實體識別準確率也達到了一定的高度,但沒有考慮到領域知識對軍事實體識別的影響。相較于傳統領域的命名實體識別,軍事命名實體種類多,且命名實體之間的辨析難度更大,增加領域知識對提高軍事實體的識別效果具有重要作用。
綜合上述分析,本文提出融合本體特征的BiLSTM-CRF軍事命名實體識別方法,將本體特征作為軍事命名實體識別的領域知識特征,融入到文本向量特征中,有效解決命名實體種類多、命名實體間辨析難度大難題。同時,模型中加入字向量描述詞語的內部形態學特征,解決分詞準確率低、未登錄詞對軍事命名實體識別的影響,最后采用BiLSTM-CRF方法完成軍事實體識別過程。
本體(Ontology)源于拉丁文Ontologaia,意思是事物的本質。在計算機學科中,被廣泛應用在知識表示、信息系統、領域分析、人工智能等領域[6]。根據軍事領域本體提取文本相應的本體特征,并將其融合到命名實體識別方面,可以有效提高軍事實體識別的準確率。本節通過構建軍事領域本體,將軍事領域知識進行體系化組織,方便領域知識的檢索與獲取,并進一步將本體特征融入到文本向量中,構建融合本體特征的文本向量表示。
軍事領域本體以軍事保障本體[7]為上層本體參考,遵循“七步法”本體建模方法,使用Protégé本體開發工具進行構建,構建流程如圖1所示。

圖1 軍事領域本體構建流程框圖
軍事領域本體構建流程具體如下:
1) 明確軍事領域本體涉及軍事裝備以及部分軍事裝備保障方面的概念。構建軍事領域本體目的是建立具有邏輯檢測與可擴展的本體庫,為軍事命名實體識別提供領域知識指導;
2) 參考《軍語》、《軍械勤務》、《軍事主題詞簡明詞典》等專業詞典,查閱大量軍事裝備相關報告與學術論文,匯總整理得到軍事保障設備(64個術語)、軍事保障設施(61個術語)、軍事保障機構(40個術語)、軍事人員(21個術語)、軍事裝備及主要組成部件(218個術語)總計404個術語;
3) 定義等價、屬種、相關、非交4種關系將眾多軍事概念聯系起來;
4) 對軍事領域概念的屬性進行定義,參考《可靠性維修性保障性術語》(GJB/Z 139—2004)對概念的數據屬性信息進行描述,構建軍事裝備領域概念的屬性集合;
5) 選擇概念,通過查詢《軍事保障數據庫》,為所建本體添加概念實例;
6) 本體模型校驗,利用Racer推理機進行邏輯檢測,對本體概念進行一致性和包含性檢測,對實例進行沖突檢測,以發現本體中概念定義矛盾、實例屬性關系關聯有誤的情況,確保本體庫邏輯上的正確性;
7) 軍事領域本體模型文檔化,利用Protégé的文檔生成工具進行規范化文檔的生成工作。
神經網絡模型只能接受數值向量作為輸入[8-9]。因此,本節將本體特征、分詞、字三者分別處理為相應的向量,共同構成文本向量表示。
1.2.1本體特征向量
根據領域本體,可以方便地推理出某個詞語所蘊含的深層語義關系。通過分析軍事裝備領域本體,得到指導命名實體識別的語義關系包括:(1)子類關系,體現普遍性與特殊性的關系;(2)屬性關系,體現本體的對象與對應屬性的關系;(3)實例關系,體現抽象與具體的關系。將上述三種語義關系作為軍事詞語的本體特征表示,具體軍事本體特征類別如表1所示。
表1 軍事本體特征類別

實體本體特征符號表示軍事人員子類P_sub軍事人員屬性P_att軍事人員實例P_ins軍事保障機構子類O_sub軍事保障機構屬性O_att軍事保障機構實例O_ins軍事保障設備子類E_sub軍事保障設備屬性E_att軍事保障設備實例E_ins軍事保障設施子類F_sub軍事保障設施屬性F_att軍事保障設施實例F_ins軍事裝備子類W_sub軍事裝備屬性W_att軍事裝備實例W_ins
根據表1中的軍事本體特征類別,使用One-Hot Encoding表示不同的本體特征標注。定義本體特征標注集為O,定義單位矩陣E∈R|O|×|O|,其中單位矩陣E的每一個行向量表示一個本體特征標注。則第i個詞語wi的本體特征向量表示為O(wi)。
1.2.2詞向量和字向量
使用結巴分詞庫對輸入文本進行分詞處理,并采用word2vec[10-13]工具生成詞向量字典W。假設輸入文本為s,分詞處理得到n個詞語,根據詞向量字典W將可以得到每個分詞的向量化表示,從而拼接成整個輸入文本的向量,記做s=(w1,w2,…,wn)。
考慮到軍事文本中專有名詞數量較多,分詞準確率較低,且由于詞向量字典不夠完備,未登錄詞現象普遍,對命名實體識別也會造成影響。本文加入字向量以提供詞語的內部形態學信息,以緩解分詞不準確以及未登錄詞對命名實體識別的影響。本文同樣使用word2vec工具,以單字為粒度進行字向量訓練,生成字向量字典C。根據字向量字典,確定第i個分詞wi的字向量組成為wi=(c1,c2,…,cl)。
在實踐過程中發現,中文分詞的長度不固定,有1個字長度的分詞,也存在6~7字甚至更長的分詞。將原始字向量輸入神經網絡,則會造成長分詞向量對模型的影響大,短分詞向量對模型的影響小,影響命名實體識別的效果。因此,本文使用雙向循環神經網絡(Bidirectional Recurrent Neural Network,BiRNN)[14]對字向量進行編碼處理,得到同等長度的字向量。使用前向循環神經網絡進行字編碼操作記做RNNf(c1∶l),使用后向循環神經網絡進行字編碼操作記做RNNb(c1∶l),其中c1∶l=[c1,c1,…,cl]。
綜合上述分析,本文采用本體特征向量、詞向量、字向量三者結合的方式,作為文本向量表示。定義模型的第i個輸入文本向量為xi,則:
xi=[O(wi);wi;RNNf(c1∶l);RNNb(c1∶l)]
(1)
式(1)中:O(wi)為本體特征向量;wi為詞向量;c1∶l為詞wi的字向量組成;RNNf(c1∶l);RNNb(c1∶l)為字向量編碼。
將文本處理為融合本體特征的向量后,輸入到Bi-LSTM-CRF模型中,識別出其中的命名實體。包括Bi-LSTM編碼模塊、標注預測模塊、線性CRF模塊三部分。
Hochreiter and Schmidhuber于1997年提出長短期記憶網絡(Long Short-Term Memory,LSTM),通過設計特殊的門結構使得模型可以選擇性的保存上下文信息。LSTM模型將狀態向量si分解為記憶單元cj與隱藏狀態單元hj兩部分,其結構定義如下:
sj=RLSTM(sj-1,xj)=[cj;hj]
yj=OLSTM(sj)=hj
cj=f⊙cj-1+i⊙z
hj=o⊙tanh(cj)
i=σ(xjWxi+hj-1Whi)
f=σ(xjWxf+hj-1Whf)
o=σ(xjWxo+hj-1Who)
z=tanh(xjWxz+hj-1Whz)
sj∈R1×2·dh;xj∈R1×dx;cj,hj,i,f,o,z∈R1×dh;
Wxo,Wxi,Wxf,Wxz∈Rdx×dh;
Who,Whi,Whf,Whz∈Rdh×dh
(2)
式(2)中:xj表示j時刻的輸入向量;sj表示j時刻的狀態向量;yj表示j時刻的輸出向量;cj表示記憶單元部分;hj表示隱藏單元部分;i、f、o表示輸入門、遺忘門、輸出門;z表示更新狀態;⊙表示對應元素相乘操作;σ表示激活函數sigmoid操作。
為了更有效地利用上下文信息,識別文本序列間的順序關系,本文采用Bi-LSTM進行軍事命名實體識別工作,分別從正向(從第一個詞到最后一個詞)和反向(從最后一個詞到第一個詞)對輸入向量進行編碼操作,最后將兩部分輸出向量進行拼接處理。
命名實體識別通常被建模為序列標注任務,通過對文本進行標簽標注從而進行對應命名實體的提取。本文使用BIO標注模型進行文本序列標注。
模型輸入向量x1∶n=[x1,x2,…,xi,…,xn]經過Bi-LSTM編碼模塊進行編碼處理后得到輸出向量,然后將每個輸出向量送入一個多層感知器(Multi-Layer Perception,MLP)網絡中,并通過softmax函數進行歸一化處理,得到此分詞被標注為各類軍事命名實體標簽的概率值,從而完成標注預測過程。其中,第i個分詞標預測標注為標簽的概率表示為:
p(ti=j|w1,w2,…,wn) =
softmax (MLP (biLSTM (x1∶n,i)))[k]
(3)
式(3)中:biLSTM (x1∶n,i)表示輸入為x1∶n的雙向長短期記憶網絡的第i個輸出;softmax (x)[k]表示向量x歸一化處理后的第k維表示。
使用上述方法對每一個分詞進行標簽預測,得到向量ti,ti[k]表示ti的第k維度,表示第i個分詞被標注為j標簽的概率,即ti[k]=p(ti=j|w1,w2,…,wn)。同時,本文引入標簽對(tag-tag)因子,對相鄰標簽之間的兼容性進行評分,將標簽之間的影響反映到序列評分中。定義評分矩陣Α∈RK×K表示相鄰標簽之間的兼容性得分,其中K表示標簽類別數目,在本模型中K=11。

(4)
式(4)中,規定位置0和n+1的標簽是*START*、*END*。
經過標注預測模塊,得到輸入文本s的多個可能標注序列y=y1,y2,…,yn以及每個標注序列的評分score(s,y)。根據標注序列評分score(s,y)以及線性CRF(Conditional Random Field)[14]可以進一步為每一個標注序列賦予概率值,從而篩選概率最大的標注序列。參考Lample等[12]使用的概率CRF目標函數,為所有可能標注序列y=y1,y2,…,yn賦予概率,即:
(5)
式(5)中,y(s)表示文本s的所有可能標注序列集合。
模型的損失函數可以定義為標記序列的負對數似然函數,即:
(6)
通過線性CRF模塊,輸出概率最大的一組標注序列為:
(7)
并根據標注序列提取文本中的軍事實體。
整個實驗過程包括文本向量化、Bi-LSTM編碼、標注序列預測、軍事實體提取四個階段。以文本“結合導彈技術單位上報,擬申請通用拖車4輛”為例。在文本向量化階段,使用jieba分詞工具進行原始文本分詞,并根據軍事本體、詞向量字典W、字典C獲取本體特征向量、詞向量、字向量,并拼接成整個文本向量;在Bi-LSTM編碼階段,將文本向量輸入到Bi-LSTM模型中進一步提取文本向量特征;在標注序列預測階段,根據文本向量特征為每個分詞預測標簽,得到可能的標注預測如下(預測標簽位于每個詞后):
標注預測1:結合(O)導彈(B_ORG)技術單位(I_ORG)上報(O),擬(O)申請(O)通用(B_EQU)拖車(I_EQU)4輛(O)。
標注預測2:結合(O)導彈(B_EQU)技術單位(I_ORG)上報(O),擬(O)申請(O)通用(O)拖車(B_EQU)4輛(O)。
標注預測3:結合(O)導彈(B_EQU)技術單位(B_ORG)上報(O),擬(O)申請(O)通用(B_OUT)拖車(I_OUT)4輛(O)。
根據概率CRF目標函數,得到正確概率最大的標注序列為第1組。在軍事實體提取階段,根據標注序列提取其中的軍事實體,其中“導彈技術單位”為軍事保障機構實體,“通用拖車”為軍事保障設備實體。
本實驗使用的軍事文本語料來源于軍事裝備全生命周期運轉過程中產生的真實文本,通過機器標注與人工校驗結合的方式構建,包含戰斗文書、執勤文書、軍用文書分詞總計 218 941個。其中標記實體包括軍械人員、軍械保障機構、軍械保障設備、軍械保障設施、軍械裝備5類,標記方式采用BIO方式,并在語料中加入本體特征標記。實驗隨機抽取80%作為訓練語料,其余20%作為測試語料。
為驗證本體特征向量在軍事實體識別方面的作用,實驗1、實驗2、實驗3分別采用詞向量、字詞向量、字詞向量+本體特征三種向量輸入方式進行測試。實驗指標采用準確率P、召回率R、F1值F三項。
在本實驗中,Bi-RNN模型隱藏層數目設置為1,隱藏層神經元數目設置為100;Bi-LSTM模型隱藏層數目設置為3,隱藏層神經元數目分別設置為100、200、200。詞向量維度設置為100維,模型單次輸入序列長度設置為20。神經網絡模型訓練采用小批量隨機梯度下降算法,批量樣本數為20,樣本總迭代輪次設置為100,訓練過程采用Adam優化器,dropout設置為0.5,學習率設置為0.001。
對詞向量、字詞向量、字詞向量+本體特征3組實驗進行準確率、召回率、F1值統計,結果如表3所示。

表3 軍事命名實體識別實驗結果
實驗1僅僅采用詞向量作為模型輸入,在軍事命名實體識別方面準確率、召回率、F1值僅為81.95%、81.83%、81.89%,效果較差,達不到命名實體識別的一般效果,說明傳統的命名實體識別方法僅采用詞向量作為輸入,不能有效解決軍事領域的命名實體識別問題。
實驗2采用字詞向量結合的方式,在軍事命名實體識別方面準確率、召回率、F1值分別為85.93%、84.28%、85.10%。相比于實驗1,實驗2中加入字向量的輸入,準確率、召回率、F1值分別提高了3.98%、2.45%、3.21%,說明字向量的輸入,有利于模型對分詞內部形態學特征的獲取,在一定程度上解決了軍事領域分詞不準確以及未登錄詞對命名實體識別的影響,提高了識別的性能。
實驗3采用字詞向量+本體特征的方式,在軍事命名實體識別方面準確率、召回率、F1值分別為91.08%、90.64%、90.85%,能夠達到與通用領域命名實體識別相當的水平。相比實驗2,實驗3中加入本體特征作為領域知識指導軍事命名實體識別,準確率、召回率、F1值分別提高了5.15%、6.36%、5.75%,說明本體特征的加入,在模型中引入了軍事領域知識,能夠大幅提高對命名實體的識別能力。
為了進一步說明本體特征對軍事命名實體識別的影響,分別統計3組實驗下的軍事人員、軍事保障機構、軍事保障設備、軍事保障設施、軍事裝備5類命名實體的F1值,結果如圖2所示曲線。
根據圖2可以直觀得出,與實驗1、實驗2相比,實驗3中加入本體特征,使得5類軍事命名實體的F1值均有所提升。尤其是軍事保障設備、軍事保障設施、軍事裝備3類易混淆命名實體識別的F1值提高幅度最為明顯,分別達到91.13%、89.74%、91.46%,相比實驗2分別提高了8.37%、7.21%、8.17%,相比實驗1分別提高了10.70%、9.12%、9.97%。說明加入本體特征作為領域知識,有利于提高軍事實體識別的準確率,從而進一步說明了本體特征對軍事命名實體識別的提高具有重要作用。

圖2 各類軍事實體的F1值曲線
1) 融合本體特征的Bi-LSTM-CRF軍事實體識別模型,將本體特征作為領域知識融入到文本向量中,補足了傳統的命名實體識別方法領域知識不足的缺陷,并在向量輸入模塊中用字向量描述詞語的內部形態學特征。
2) 字向量的加入,能夠解決分詞不準確以及未登錄詞問題,提高軍事命名實體識別的性能。
3) 加入本體特征,能夠顯著提高軍事實體,尤其是保障設備、軍事保障設施、軍事裝備3類易混淆命名實體識別的效果,使軍事命名實體識別效果達到通用領域水平。