基于BERT的安全事件命名實體識別研究

2021-03-11 06:04:08竇宇宸

信息安全研究 2021年3期

竇宇宸胡勇

(四川大學網絡空間安全學院成都 610065)

(douyuchen_jl@163.com)

隨著網絡技術的迅速發展，我國的互聯網規模迅速增長，“上網沖浪”已經成為我們日常生活中獲取信息的重要方式，但其中海量數據也帶來了不少“信息重復”及“信息冗雜”等問題，抽取句子中的重要信息并準確定位公眾關注的事件信息則尤為重要.在我們日常接觸到的新聞、網頁、微博、公眾號及常見新聞等獲取渠道中，每一篇文章甚至每一個句子都可能包含巨大的信息量，由于中文語義的復雜性及句子用詞的隨意性，使用人工方法區分關鍵信息工作量巨大.命名實體識別(name entity recognition，NER)正是解決這個問題的有效自動化方法之一.NER指從1段自然語言文本中找出特定類型的實體(如人名、組織名稱、地點、時間及行為等)，并標注其位置，是信息檢索及關系抽取等工作的基礎.前期研究人員經常使用的統計模型有隱馬爾科夫模型(HMM)、支持向量機(SVM)、最大熵模型(ME)及條件隨機場(CRF)等，這類方法通常是將實體識別任務轉換為從文本輸入到特定目標結構的預測，使用如上的統計模型來構造輸入與輸出的關聯，并使用機器學習方法來學習模型的參數.但是這些方法均需要人工提取特征，不僅會導致研究人員在標注文本時承受龐大的工作量，也會使得提取的特征易丟失文本本身的情感信息，實體識別的效果欠佳.與傳統的機器學習識別方法相比，針對文本信息中語義不明確且上下文關聯不明晰的情況，命名實體識別的方案逐漸從需要大量人工提取特征的統計概率模型逐步轉向深度學習領域，深度神經網絡可以自動地從數據中提取有用的特征，將其應用于非結構化、模式多變的數據中具有顯著優勢，并可以更好地解決文本特征稀疏等問題.

在中文命名實體識別領域，2005年，向曉雯等人[1]采用隱馬爾科夫模型進行詞性標注，還對上下文相關的命名實體識別作了初步嘗試.2011年，龔凌暉[2]針對現代漢語文本的特點，以人名、地名及組織名為核心內容的中文命名實體識別問題，基于LSA(潛在語義分析)實現對命名實體的歧義消解，實現了一個基于CRF的中文命名識別系統，驗證了用算法建立一個有效實體庫的可行性.2016年，朱丹浩等人[3]針對中文機構名結構復雜、罕見詞多及識別難度大問題，采用RNN重新定義了機構名標注的輸入與輸出，在識別機構名實體的F1值上有一定的提升.2018年，李麗雙等人[4]采用CNN-BiLSTM-CRF的模型，利用CNN訓練單詞形態特征的字向量，再組合語義向量輸入至BiLSTM層，該模型應用在生物醫學語料上取得了較好的結果.2019年，黃煒等人[5]使用BiLSTM網絡完成語句的上下文關聯語義分析后，接入CRF層添加約束的方法應用在涉恐信息實體識別領域，有效獲取涉恐人員恐怖主義機構及暴恐實施地點等重要信息.2021年，范曉霞等人[6]設計了一個針對暗網市場文本的命名實體識別系統，使用卷積神經網絡(CNN)進行字符向量化以學習單詞形態特征，將雙向長短時記憶神經網絡應用于暗網市場文本的命名實體識別，并采用CRF模型實現序列標簽之間的約束性，目前該系統在暗網市場文本命名實體識別領域內效果較佳，準確率達到98.59%.

上述方法中字向量為使用已經被大量語料訓練完成的詞嵌入(word embedding).詞嵌入是自然語言處理領域早期的預訓練技術，Bengio等人[7]提出了神經網絡語言模型.Mikolov等人[8]對神經網絡語言模型優化，提出Word2Vec，并提出2種語言模型——連續詞袋模型(CBOW)和Skip-gram模型.Word2Vec能捕捉詞語之間的相似性，可根據上下文預測中間的詞匯，但沒有考慮單詞的詞序問題.Pennington等人[9]提出Glove詞向量，可獲取全局信息，更容易并行化，與Word2Vec相比，在數據集較大時，Glove可更快地進行訓練.

上述詞向量可以在一定程度上提高模型準確率，但不同語境下的詞向量相同，無法解決一詞多義問題[10].同一個字或詞語在1個句子中的語義不同，例如句子“你這著真絕,讓他干著急,又無法著手應付,心里老是懸著.”4個“著”字在客觀上表達的是不同的詞意，但在Word2Vec，Glove等字向量表示方法中，4個“著”的字向量表示完全一致，這與我們正常理解這句話的含義不同.所以準確地描述當前詞在上下文中的含義對于文本中提取字或詞的向量十分重要.由于BERT預訓練模型采用雙向Transformer 編碼器對上下文信息都進行了提取，融合左右2側的語境，得到一個深度雙向Transformer. BERT對單詞及上下文關系作了充分描述，能有效實現多義詞的消歧.所以本文選擇使用BERT預訓練模型替代傳統的詞嵌入方法，接入BiLSTM以解決一詞多義的問題.楊飄等人[11]針對字多義性，使用BERT-BiGRU-CRF融合模型在MSRA語料中作的命名實體識別的效果好于目前最優的Lattice-LSTM模型.

為解決公共安全事件的命名實體識別問題，本文使用已被大規模中文語料訓練完成的BERT模型作為雙向長短時記憶網絡的輸入，獲取漢字的語義向量表示，確保在識別標注的任務中的字向量具有多義性.在雙向長短時記憶網絡后接入CRF層，從而實現了對公共安全事件命名實體的自動識別.實驗表明，該方法能夠取得較好的效果，可以在一定程度上解決公共安全事件領域命名實體識別問題.

1 模型結構

本文將公共安全事件的文本輸入至BERT預訓練語言模型，獲取每個字的向量表示.將字向量序列輸入BiLSTM層用以提取特征，最后通過CRF層選擇概率最大的標注輸出為各字的標簽，即將BiLSTM層原本的Softmax層替換為CRF層.本文中使用的BERT-BiLSTM-CRF模型整體結構如圖1所示，模型包含以下4個部分：預訓練層、BiLSTM網絡層、特征提取層及CRF層.

圖1 BERT-BiLSTM-CRF模型結構圖

1.1 預訓練層模型

在NER研究中的模型大多采用已預訓練好的Word2Vec，Glove等獲取文本的詞嵌入向量表示，未使用預訓練模型，在其研究上也能夠達到不差的效果.用稀疏向量表示文本，即所謂的詞袋模型在NLP有著悠久的歷史.正如上文中介紹的，早在 2001年就開始使用密集向量表示詞或詞嵌入.Mikolov等人[8]在2013年提出的創新技術是通過去除隱藏層，逼近目標，進而使這些單詞嵌入的訓練更加高效.雖然這些技術更新本質上很簡單，但它們與高效的Word2Vec配合使用，才能使大規模的詞嵌入訓練成為可能.但是使用這些詞向量忽略了詞的上下文關系，在不同場景下詞的向量表示是相同的，缺乏消歧能力.本文使用基于BERT預訓練模型，采用BERT官方的大規模中文語料訓練模型，可包含大多數的詞匯與場景，竭力解決一詞多義問題.

從BERT的結構層面來看，它和GPT，ELMo一樣都采用Transformer的結構，相對于GPT來說，BERT是具有雙向Transformer的模型結構，BERT的模型結構如圖2所示.BERT在預訓練過程中提出了掩碼語言模型與下一條句子預測，作用分別是作上下文預測與學習語料中數據的相關性.

圖2 BERT模型結構圖

在掩碼語言模型任務中，BERT會隨機選擇1個句子中15%的詞，用它們的上下文來作預測用以訓練，而不是像CBOW一樣將每個詞都預測1遍，最終的loss只計算被[MASK]的15%的詞.在隨機[MASK]時將10%的單詞替換為其他單詞，10%的單詞不作替換，剩余80%被替換為[MASK].

在下一條句子預測任務的目的是讓模型理解2個句子之間的聯系，例如句子A與句子B，B有一半的概率是A的下一句，輸入這2個句子來預測B是不是A的下一句.

BERT模型的輸入為3個向量，分別為詞向量、分段向量及位置向量.詞向量指當前詞的詞向量表示，第1個單詞是[CLS]標識；分段向量是表示當前詞所在句子的位置向量.位置向量是表示當前詞屬于哪個句子.樣例如圖3所示.在BERT模型中的輸入可以為單一的句子或是句子對，實際輸入是這些向量之和.將以上向量之和輸入到12層的雙向Transformer網絡中，最后一層Transformer結構得到的即為BERT層輸出.

圖3 BERT輸入向量表示

1.2 BiLSTM層模型

自RNN(循環神經網絡)提出以來，被大量運用于NER等領域，具有記憶的能力，但由于RNN存在梯度消失或梯度爆炸的問題，在處理長序列的數據方面很困難，研究人員對RNN作出了一些改進，得到了RNN的另一種形態，它可以捕捉長期依賴關系，即LSTM. LSTM神經網絡結構如圖4所示，由于它長時間的記憶能力，在自然語言處理和語音識別等領域應用廣泛.

圖4 LSTM神經元結構圖

LSTM模型的計算過程如下：

ft=σ(Wfhht-1+Wfxxt+bf),

(1)

it=σ(Wihht-1+Wixxt+bi),

(2)

ot=σ(Wohht-1+Woxxt+bo),

(3)

ct=ittanh(Wchht-1+Wcxxt+bc)+ftct-1,

(4)

ht=ottanh(ct),

(5)

其中，對于時刻t，ht-1，xt分別表示隱層狀態及輸入詞；W表示LSTM的權重矩陣；b表示偏置；ft，it，ot分別表示LSTM的遺忘門、輸入門、輸出門，σ表示激勵函數Sigmoid，tanh表示雙曲正切函數.

單向LSTM由于按文本序列輸入，無法編碼從后到前的信息，只能處理上文的信息而忽略了下文信息.繼而研究人員又提出了BiLSTM模型(如圖5所示)，也就是雙向LSTM結構，對每一個訓練序列分別訓練一個向前LSTM和向后的LSTM網絡.這種網絡的結構可以將前后LSTM的輸出拼接成一個完整的序列，從而提供每一個序列點完整的上下文信息.

圖5 BiLSTM模型結構圖

1.3 CRF層模型

CRF是給定1組輸入隨機變量條件下另一組輸出隨機變量的條件概率分布模型，其特點是假設輸出隨機變量構成馬爾科夫隨機場.廣義CRF的定義是：滿足P(Yv|X,Yω,ω≠v)=P(Yv|X,Yω,ω～v).線性鏈條件隨機場(其結構如圖6所示)可以用于標注問題.此時在條件概率模型P(Y|X)中，Y是輸出變量，表示標記序列，也可稱為狀態序列；X是輸入變量，表示需要標注的觀測序列.在模型學習時，對訓練數據集進行正則化的極大似然估計得到條件概率模型；在預測時，對給定的輸入地址序列，求出條件概率最大的地址標注序列[12].

圖6 CRF鏈式結構圖

2 實驗

2.1 實驗環境

本文采用Tensorflow作為深度學習框架，數據集預處理使用Java實現.實驗運行環境為Windows終端，在Windows 10 教育版64 b的操作系統下完成該實驗，內存大小為16 GB，處理器型號為Intel Core i7，GPU顯卡是GTX 1060，顯存為5 GB.

2.2 數據集描述

本文采用的數據集是中文突發事件語料庫[13](Chinese emergency corpus, CEC)由上海大學(語義智能實驗室)所構建，他們從互聯網上收集了5類突發事件的新聞報道作為生語料，然后再對生語料進行文本預處理、文本分析、事件標注以及一致性檢查等處理，最后將標注結果保存到語料庫中，CEC合計332篇.CEC 采用了XML語言作為標注格式，其中包含了6個重要的標記：Event，Denoter，Time，Location，Participant，Object，CEC語料庫的規模雖然偏小，但是對事件和事件要素的標注卻最為全面.

本文使用該數據集標記的Denoter，Time，Location，Participant作為本文的主要標記，記為ACT，TIME，LOC，PER，分別表示行為、時間、地點及參與者.數據的統計信息及標記的數量等如表1所示.數據標注示例如表2所示.

表1 數據集分布

表2 數據標注示例

2.3 實驗設計

本實驗分為4個部分，分別為數據預處理、數據預訓練、輸入BiLSTM層和輸入CRF層，一共332篇文章，本文將數據集按7∶2∶1的比例隨機劃分，分別為訓練集、測試集和驗證集.

2.3.1 數據預處理

本文的數據集采用BIO序列標注法，即將每個元素標注為“B-XXX”，“I-XXX”，“O”，其中，“B-XXX”表示此元素所在的標注序列中屬于XXX類型并且是這個標注序列的開頭，“I-XXX”則表示此元素所在的標注序列中屬于XXX類型并且在這個序列標注的中間部分.由于CEC語料庫使用XML語言進行標記，獲取其 Denoter，Time，Location，Participant標簽作為序列標注的特征，分別提取為ACT，TIME，LOC，PER.由于該語料庫已經被預處理過1次，不需要再進行停用詞去除等操作.

2.3.2 數據預訓練

本文使用Google大規模中文語料訓練好的模型[14]，調整運行batch_size并設置為16，將該模型載入BERT，再將BERT作為入口，輸入作為預處理的訓練集、測試集及驗證集.

2.3.3 BiLSTM層

將預訓練層輸出的每個字的字向量輸入BiLSTM層，提取文本特征.

2.3.4 CRF層

將BiLSTM層提取的特征的輸出放入CRF層，經過序列標注后得到最終結果.實驗具體參數見表3所示:

表3 超參數設置

2.4 實驗分析

2.4.1 評價標準

本文采用常用的NER評價指標[15]來衡量實驗結果：精確率P(precision)、召回率R(recall)和F1(F-measure)值.

(6)

(7)

(8)

2.4.2 實驗結果及分析

為了證明本文方法的有效性，實驗首先要證明BERT預訓練模型是否能夠消歧并解決一詞多義的問題，本文使用BERT與其他2種常用的詞嵌入模型作對比實驗.目前常用Glove與Word2Vec獲取預訓練詞向量，故分別使用Word2Vec和Glove與本模型對比，以獲取詞向量.將通過上述3種方法獲取的詞向量再輸入到BiLSTM-CRF中進行實驗，測試集實驗結果如表4所示:

表4 不同預訓練模型性能

從表4看出，常用的Word2Vec與Glove模型分別得到了0.691，0.703的F1值，不難看出這2種模型由于欠缺語義上下文的相關性分析，對于任務作業沒有明顯的提升.而本文使用的BERT模型在作業中的F1值達到了0.859，證明了具有消歧作用的BERT模型在該任務上具有更好的性能，克服了傳統的一詞多義問題.

其次，為了證明本文使用融合模型的性能，對CRF，BiLSTM，BiLSTM-CRF，BERT-BiLSTM-CRF這4種方法的總體精確率、召回率及F1值作對比，如表5所示：

表5 模型整體序列標注性能

從表5可知，上述4種方法得到的F1值分別為0.659，0.703，0.763，0.859.其中，本文使用的BERT-BiLSTM-CRF模型的3個指標均最高，其次為常用的BiLSTM-CRF方法，各方面性能與本文方法相差10%，說明了預訓練模型BERT消歧的有效性.CRF與BiLSTM方法相差5%左右，說明BiLSTM在處理文本關系上的性能優于CRF模型.最終，可以得出結論：本文使用的BERT-BiLSTM-CRF模型在對公共安全事件命名實體識別整體性能優于其他3種方法.

最后選取本文模型與其中表現較好的BiLSTM-CRF模型對公共安全事件各個序列標注的F1值作細化對比，結果如表6所示：

表6 BERT-BiLSTM-CRF與BiLSTM-CRF模型LOC標簽F1值對比

從表6可看出，2種模型都對LOC(位置)標簽的序列標注的誤差相對其他標簽較大，本文也通過多次實驗得出每次訓練得到的LOC標簽的F1值均高于75%，本文模型在LOC識別的方面遠高于另一模型.在PER(參與者)的標注序列中，顯然本文使用的模型優于另一模型，高于其13%左右，歸因于BiLSTM-CRF所使用的詞嵌入模型缺少上下文分析，未能解決一詞多義的問題.在ACT(行為)和TIME(時間)標簽的序列標注中，上述模型均表現較好，F1值均達到80%以上.

基于上述對比實驗可知，本文使用的BERT-BiLSTM-CRF模型可獲得更優的效果.在BiLSTM-CRF模型標注的基礎之上，使用BERT預訓練模型提取特征向量，對多義詞進行消歧，解決相同字詞在安全事件領域的歧義問題，效果優于其他神經網絡模型及機器學習方法.

3 結論

本文對公共安全事件文本中的命名實體進行研究，針對公安全事件文本冗雜的特性及中文字詞的多義性，在原有研究的基礎上進行改進.在經過BiLSTM-CRF模型標注的基礎上，加入BERT預訓練模型，提高了實體識別的效果.使用BERT預訓練模型獲取詞向量，解決了一詞多義的問題，使用BiLSTM模型解決了特定領域嚴重依賴人工特征的問題.經過對比實驗表明，本文模型具有較好的準確性，與其他模型相比有提升，F1值達到85%以上.由于實驗的數據集規模較小，接下來將在增加語料的基礎上對方法繼續優化，進一步找出安全事件領域中命名實體之間的關系，并創建能被輿情分析或應急響應系統使用的安全事件序列標注的數據集是下一步要研究的重點.