金浩哲,董寶良,楊誠
(華北計算技術研究所系統四部,北京 100083)
軍事命名實體識別是軍事信息抽取的一個基礎而重要的環節,用于從軍事文本中檢測相關軍事實體,并將其分類為預先定義的類別,如人物、武器、地點、任務和組織等,從而可以從原始數據中提取有價值的信息。
目前,軍事命名實體識別在知識圖的構建、智能問答系統、信息檢索等方面有著廣泛的應用[1-2]。在軍事命名實體識別的過程中,主要有三個難點:1)軍事領域實體存在大量的嵌套、組合、縮寫等形式。并且由于軍事文本沒有固定的表達模式,軍方也未對全部內容進行統一規范,難以構建全面合理的實體特征;2)現有的分詞模型主要適用于通用領域,軍事領域的分詞準確率不高,也缺少專業軍事術語的相關數據。即使加入軍隊語言詞典也難以囊括所有軍事實體;3)目前還沒有公開權威的軍事文本語料庫,而自構建的語料庫數據數量、分布及準確性也有待提高。文中以軍事領域文本為研究主體,通過BERT(Bidirectional Encoder Representations from Transformers)模型進行詞向量的構建,并結合BiLSTM(Bidirectional Long Short-Term Memory)與CRF(Conditional Random Fields)模型和注意力機制(Attention,ATT),構建BERT-BiLSTM-ATT-CRF 模型,完成軍事命名實體識別的任務。
命名實體識別(Name Entity Recognition,NER)的概念最早是在Message Understanding Conference-6上提出的,對NER 的相關研究工作至今已經進行了20 多年。由于漢語命名實體識別研究起步較晚且漢語固有的特殊性及其結構的復雜性,難度大于英語命名實體識別。目前,NER 的方法主要包括基于規則、基于機器學習[3]和基于神經網絡[4-5]的方法。
NER 研究的初期主要是基于規則的方法,該方法由語言專家人工構建規則,并為每條規則分配權重,然后根據實體和規則的符合性來確定類型。然而這種方法依賴于大量手工設定的識別規則,很難對語料進行全面覆蓋。因此,后續的研究重心逐漸轉移到基于統計機器學習的方法上。目前常用的統計模型包括支持向量機[6]、隱馬爾可夫[7]和CRF[8]等。單赫源[9]等提出了一種小粒度策略下基于條件隨機場的軍事命名實體識別方法。運用小粒度策略,結合手工構建的軍事命名實體標注語料進行建模,采用CRF 模型識別出不可再分的小粒度,再通過對小粒度的組合得到完整的軍事實體。
隨著深度學習的發展,研究人員逐漸將深度學習方法應用到NER 的任務中,從而避免了繁瑣的特征工程,基于深度學習的方法也逐漸成為了NER 任務的主流方法。高學攀[10]等提出一種基于BiLSTMCRF 的實體識別方法,使用詞嵌入方法自動學習中文字符的分布式表示作為模型輸入,旨在識別軍事文本中的人名、軍用地名、軍事機構名、武器裝備、設施目標、部隊番號等軍事命名實體。李麗雙[11]等提出了一種基于CNN-BiLSTM-CRF 的作戰文書命名實體識別方法,分析命名實體在不同分類標注情況下,對模型性能所產生的影響,取得了較好的準確率與召回率。此外,還有部分研究將LSTM 神經網絡替換為Gate Recurrent Unit 網絡[12],或者使用注意力機制[13-14],均在一定程度提升了模型識別的準確率。
為了增強深度學習在特征提取方面的能力,Devlin[15]等基于Transformer提出了BERT模型,它是一個預訓練的語言表征模型,采用新的MLM(Masked Language Model),以生成深度的雙向語言表征,該模型發表時在11 個自然語言處理領域獲得SOTA(Satte-Of-The-Art)的結果。BERT 模型極大地緩解了傳統深度學習依賴數據集的不足,對于小規模訓練語料和序列標注任務有良好的適應性和處理能力。屈倩倩[16]等提出了一種基于BERT-BiLSTMCRF 的中醫文本命名實體識別,通過BERT 模型進行詞向量的構建,并結合BiLSTM 與CRF 模型完成生物醫學命名實體識別的任務。
近年來,將傳統的命名實體識別問題轉化為序列標注任務是漢語NER 深度學習模型的基本思想。BERT-BiLSTM-ATT-CRF 模型結構如圖1 所示,模型整體由4 個模塊組成,分別是BERT 預訓練模型、BiLSTM 模塊、注意力機制以及CRF 層。首先,通過BERT 層用基于上下文信息的詞向量表示標注語料庫,然后將詞向量輸入BiLSTM 層進一步進行訓練,并通過注意力機制獲得句子中的重要語義特征。最后,對輸出結果進行CRF 解碼,得到最優句子級別的標簽序列,然后對序列中的每個實體進行提取分類,完成軍事文本實體識別任務。

圖1 BERT-BiLSTM-ATT-CRF 模型結構
在自然語言處理領域中,采用詞嵌入方法將詞映射到低維空間中,有效地解決了文本特征稀疏的問題,使語義空間中的相似詞的距離更近。傳統的詞向量生成方法,如one hot、word2vec、Elmo[17]等預訓練的語言模型大多不依賴于詞的上下文信息,難以準確表示詞的多義性。而BERT 模型可以根據單詞的上下文信息以無監督的方式表示單詞,可以有效地解決一詞多義的表示問題。
BERT 模型以雙向Transformer 神經網絡作為編碼器,并利用大規模文本數據的自監督性質構建了兩個預訓練任務,分別是MLM 和NSP(Next Sentence Prediction)。MLM 是BERT 能夠不受單向語言模型限制的原因。簡單來說就是隨機將句子中15%的詞語進行遮蓋,結合上下文的語句預測出遮蓋處的原有詞語,很好地解決了一詞多義的問題。NSP 通過將成對的句子作為輸入來預測兩個句子是否連在一起,從而理解句子間的前后關系。
BERT 模型將文本中各個字的詞向量作為模型的輸入,一般利用word2vec 算法將文字轉換為字向量作為初始值;模型輸出則是輸入各字對應的融合全文語義信息后的向量。
如圖2 所示,BERT 模型同時將字向量、句子向量和位置向量進行加和作為模型輸入。句子向量的取值在模型訓練過程中自動生成,用于刻畫句子的全局語義信息,并與單字的語義信息相融合;位置向量用于區分不同位置的字所攜帶語義信息的差異。

圖2 BERT 詞向量
LSTM 是一種特殊的循環神經網絡,其網絡結構如圖3 所示。

圖3 LSTM網絡結構
與循環神經網絡不同的是,LSTM 通過遺忘門、輸入門、輸出門來遺忘句子中需要拋棄的信息并加入新信息,從而更好地提取文本中上下文之間的關系。LSTM 層的主要結構的計算公式如下表示:


式中,σ是sigmoid 激活函數,xt為輸入向量,ht為輸出向量,ft、it、ct和ot分別代表遺忘門、輸入門、記憶單元和輸出門,w是參數矩陣,b是偏置向量。
但LSTM 模型忽略了當前信息的下文信息,為了充分地利用文本中的上文信息,提出了BiLSTM 模型。BiLSTM 模型由一個前向LSTM 和一個后向LSTM 模型組成。前向LSTM 處理正向的序列數據,后向LSTM 處理反向的序列數據。對于每個時刻,來自前向LSTM 的隱藏狀態向量和來自后向LSTM 的隱藏狀態向量被組合,以形成最終輸出。
注意力機制借鑒人類的視覺注意力機制,通過快速掃描獲得需要重點關注的目標區域。近年來,注意機制被廣泛應用于圖像識別、自然語言理解等領域,以打破傳統編碼器-解碼器結構的局限性,從而從輸入序列中提取盡可能多的特征信息。為了提取到句子中重要的特征信息,該模型將BiLSTM 與注意力機制結合,深入捕捉詞匯中的語義信息。在NER 任務中,句子中每個漢字的語義對該任務的影響并不相同,該機制通過為每個字分配不同的權重,從而可以自動聚焦于在實體識別中起到決定性作用的文字。通過捕獲輸入序列中的重要語義信息,提高模型的整體效果。
文本信息中的標注序列存在依賴關系。以BIO標注為例,一個合法的實體的標識可能會是“B-W,I-W,I-W”。如果標識過程不受控制,可能會出現“B-P,I-W”的非法標識,然而BiLSTM 層主要關注輸入序列的上下文信息和句子特征,無法學習這些注釋規則。
CRF 層在預測標簽時將標簽之間的依賴信息轉化為約束,以保證預測的準確性。對于給定的輸入x,輸出預測結果y的得分計算表示如下:

式中,Zi,yi表示字符i是標簽yi的概率,Ayi,yi+1表示標簽從yi轉移到yi+1的概率。然后使用softmax計算歸一化概率:

在最終解碼階段,使用Viterbi 算法獲得所有序列中得分最高的標記序列,并將全局最優序列作為軍事命名實體識別的最終結果,完成模型訓練。
由于目前沒有統一的軍事數據集,故使用Scrapy框架從互聯網爬取公開軍事文本數據,來源包括環球軍事網、新浪軍事、中國軍網等。獲得文本語料后,軍事領域相關人員通過人工對良莠不齊的數據進行篩選,去除不符合主題或相關性不大的語句,最終獲得共計3 628 條語句。依托以上語料將實體類別分為五大類,分別為軍事人物、軍事地點、組織機構、武器裝備、軍事事件。
使用YEDDA 對實體進行人工標注。對于以上數據采用BIO 標注法,即“B-實體類別”表示實體的第一個字,“I-實體類別”表示實體的后續內容,“O”表示非實體。以上五類數據經過BIO 標注后共分為11 類:B-PER,I-PER,B-LOC,I-LOC,B-ORG,I-ORG,B-WPN,I-WPN,B-EVT,I-EVT,O。具體標注方案如表1 所示。

表1 軍事實體標注方案
實驗采用準確率(P)、召回率(R)和F1 值(Fscore)來對實驗結果進行評價,其中F1 值能夠體現整體測試效果。
該實體識別模型實驗基于Python3.6 環境以及Tensorflow1.15 版本下進行的。其中最大句子長度設置為128,batchsize 為128,學習率為0.001,epoch 為60,dropout 為0.2,BERT 模型為谷歌發布的Bert-Base-Chinese 版本,未對其參數進行修改。
為了驗證實驗的有效性,在實驗中加入CRF,BiLSTM-CRF,CNN-BiLSTM-CRF 三種模型進行對比實驗,三組模型使用word2vec 進行詞向量構建。實驗的最終結果如表2 所示。

表2 不同模型最終結果對比
實驗結果表明,相較于CRF 模型,BiLSTM 結構可以更好地提取出文本中的特征信息,F1 值提高了11.54%;在BiLSTM 結構前加上CNN 模型使得模型的識別效果在三個維度上均略有提升。BERT-BiLSTMATT-CRF 通過BERT 預訓練模型構建的詞向量更有效地保證了軍事實體的特征提取,相比于BiLSTMCRF 與CNN-BiLSTM-CRF 模型的F1 值分別提升了4.83%與4.23%。實驗結果表明,BERT-BiLSTM-ATTCRF 模型在軍事領域實體識別中準確度較高,可以運用到相關領域之中?;贐ERT-BiLSTM-ATTCRF 模型對各類別實體識別效果如表3 所示。

表3 各類別實體識別效果
針對傳統方法不能充分表達軍事文本語義特征信息的問題,文中提出了一種基于BE-RT-BiLSTMATT-CRF 模型的軍事命名實體識別方法。該方法使用BERT 模型根據文本的特征表達構建出詞向量,并通過BiLSTM-ATT-CRF 來提取文本中的特征信息生成全局最優序列,最終完成軍事命名實體識別任務。實驗結果表明,該模型在軍事領域命名實體識別任務中能夠取得較好的效果,準確率和召回率都高于基準方法。未來,將擴展軍事命名實體語料庫,整合更多文本數據資源,增加更多實體類型,進一步提高軍事命名實體識別的效率。