王佳雯,王 劍,線巖團(tuán),余正濤
(昆明理工大學(xué),云南 昆明 650500)
涉案新聞要素實(shí)體識(shí)別對(duì)涉案新聞追蹤具有很好的輔助作用,是涉案新聞?shì)浨榉治龅闹匾蝿?wù)。
通用領(lǐng)域的命名實(shí)體識(shí)別任務(wù)是識(shí)別實(shí)體的類(lèi)別,如“人名”“地名”“組織機(jī)構(gòu)名”等[1]。而細(xì)粒度的要素實(shí)體識(shí)別不僅要正確識(shí)別句中所含實(shí)體,還要識(shí)別各實(shí)體所對(duì)應(yīng)的屬性,如“人名”在涉案新聞句中可對(duì)應(yīng)的具體屬性有“被害人”“犯罪嫌疑人”和“非要素實(shí)體”。因此,與通用領(lǐng)域命名實(shí)體識(shí)別任務(wù)相比,涉案新聞要素實(shí)體識(shí)別任務(wù)更依賴(lài)上下文語(yǔ)義信息。涉案新聞文本上下文語(yǔ)義聯(lián)系緊密,如新聞句中普遍存在使用代詞指代上一句提到的內(nèi)容的情況,導(dǎo)致在單個(gè)句子的語(yǔ)義理解上會(huì)出現(xiàn)語(yǔ)義模糊的狀況。當(dāng)一句話中同時(shí)出現(xiàn)多個(gè)“人名”“地名”“組織機(jī)構(gòu)名”時(shí),僅靠句子中的模糊語(yǔ)義不足以區(qū)分要素實(shí)體。因此,本文通過(guò)融入新聞中心句,對(duì)新聞?wù)木渲械恼Z(yǔ)義進(jìn)行補(bǔ)充增強(qiáng),以改善要素實(shí)體識(shí)別的性能。
涉案新聞?lì)I(lǐng)域的要素實(shí)體識(shí)別可以看作是特定領(lǐng)域的細(xì)粒度命名實(shí)體識(shí)別任務(wù)。
最早期的命名實(shí)體識(shí)別方法是基于規(guī)則和詞典的方法[2-3]。這種方法不僅依賴(lài)于具體語(yǔ)言、領(lǐng)域和文本風(fēng)格,而且有編制過(guò)程耗時(shí)、特別容易產(chǎn)生錯(cuò)誤、系統(tǒng)可移植性不佳以及對(duì)不同的系統(tǒng)需要語(yǔ)言學(xué)專(zhuān)家重新編寫(xiě)規(guī)則[4]等缺點(diǎn)。
相比基于規(guī)則和詞典的方法,基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法不需要專(zhuān)家知識(shí)編寫(xiě)規(guī)則。常用的基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別方法有隱馬爾可夫方法[5]、最大熵[6]、支持向量機(jī)[7]以及條件隨機(jī)場(chǎng)[8]等。這類(lèi)方法對(duì)特征選取的要求較高,需要從文本中選擇對(duì)該項(xiàng)任務(wù)有影響的各種特征,并將這些特征加入到特征向量中,且對(duì)語(yǔ)料庫(kù)的依賴(lài)較大[9]。
目前,深度學(xué)習(xí)由于不需要書(shū)寫(xiě)規(guī)則和人工提取特征,成為命名實(shí)體識(shí)別領(lǐng)域的主流方法[10]。深度學(xué)習(xí)在命名實(shí)體識(shí)別任務(wù)中的運(yùn)用多以循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)加CRF的序列標(biāo)注方法[11]為基礎(chǔ)進(jìn)行改進(jìn),并在不同領(lǐng)域的命名實(shí)體識(shí)別任務(wù)中取得了很好的效果。Huang等人[12]提出Bi-LSTM和CRF相結(jié)合的序列標(biāo)注模型,捕捉上下文語(yǔ)義信息。Zhang等人[13]依據(jù)中文需要分詞的特性提出Lattice-LSTM方法,將詞信息融入到方法中以解決字符方法無(wú)法利用句子中的單詞信息的問(wèn)題。成于思等人[14]考慮到中文人名具有多樣性和內(nèi)部成詞的特性,提出融合人名詞典特征的Bi-LSTM加加權(quán)條件隨機(jī)場(chǎng)(Weighted Conditional Random Fields,WCRF)方法。唐國(guó)強(qiáng)等人[15]提出利用語(yǔ)言方法特征和多頭注意力捕獲病例文本自身的特征。上述方法依賴(lài)句子的上下文信息抽取實(shí)體,且融入外部特征大都是為了解決實(shí)體多樣性帶來(lái)的未登錄詞問(wèn)題。而在涉案新聞?lì)I(lǐng)域,主要問(wèn)題是部分句子成分指代引起語(yǔ)義模糊導(dǎo)致要素實(shí)體識(shí)別率低,因此只關(guān)注句子內(nèi)的信息往往不夠。本文提出將涵蓋篇章語(yǔ)義信息的新聞中心句融入到新聞?wù)木渲校瑢?duì)語(yǔ)義模糊的新聞中心句進(jìn)行語(yǔ)義增強(qiáng),從而有效提升要素實(shí)體識(shí)別率。
融入新聞中心句的要素實(shí)體識(shí)別方法由4個(gè)部分組成,如圖1所示。第1部分是詞嵌入層,使用Skip-gram[16]方法將新聞中心句和新聞?wù)木滢D(zhuǎn)換成字符向量;第2部分是融入新聞中心句的加權(quán)多頭注意力(Weighted Multi-Head Attention,WMATT)層,利用多頭注意力將新聞中心句與新聞?wù)木湎嗳诤希?duì)融合了新聞中心句的多維度語(yǔ)義信息進(jìn)行加權(quán)求和;第3部分是Bi-LSTM層,用Bi-LSTM獲取融入新聞中心句后的上下文信息;第4部分是CRF層,用CRF識(shí)別要素實(shí)體。下面將詳細(xì)介紹方法的各部分內(nèi)容。
本方法的輸入分為兩個(gè)部分:一是涉案新聞的正文句,二是與每一條正文句所對(duì)應(yīng)的新聞中心句。使用Skip-gram方法[16]將中文字符轉(zhuǎn)換成字符向量。正文句表示為Z=z1,z2,…,zm,其中zj表示正文句中第j個(gè)字。新聞中心句表示為C=c1,c2,…,cn,其中ci表示中心句中第i個(gè)字。通過(guò)查找字向量表,將正文句和中心句中的每個(gè)字zj和cj轉(zhuǎn)化為字向量序列。

式中,ec表示字嵌入的查詢(xún)表。
此層有兩個(gè)輸入,一個(gè)是新聞?wù)木銵=(l1,…,lj,…,lm),L∈Rm×de,另一個(gè)是新聞中心句X=(x1,…,xi,…,xn),X∈Rm×de。其中,m和n分別是正文句長(zhǎng)度和中心句長(zhǎng)度,de是字向量維度。將新聞中心句融入到新聞?wù)木渲械挠?jì)算可以分為3個(gè)部分。
首先,將新聞?wù)木鋁作為key-value,將新聞中心句X作為query,分別通過(guò)如式(3)、式(4)和式(5)所示的線性變換進(jìn)行切分,以映射到不同的維度。

圖1 融入新聞中心句的要素實(shí)體識(shí)別模型
其次,在第i個(gè)維度內(nèi)進(jìn)行放縮點(diǎn)積注意力,將新聞中心句融入新聞?wù)木渲校纾?/p>
通過(guò)Qi和Ki點(diǎn)乘計(jì)算獲得新聞中心句到新聞?wù)木涞年P(guān)聯(lián)度得分,經(jīng)softmax將得分壓縮到0-1之間,再將映射得分與新聞中心句相乘,得出在第i個(gè)表示子空間內(nèi)融合了新聞中心句的新聞?wù)木涮卣鰽TTi。
最后,將h個(gè)不同維度得到的特征結(jié)果加權(quán)求和,得到融合篇章語(yǔ)義的多層次語(yǔ)義特征E:

式中,Wi給不同維度上融合了新聞中心句的語(yǔ)義信息分別分配權(quán)重,權(quán)重矩陣Wi∈Rdmodel×dk。
傳統(tǒng)的Multi-Head Attention是句子與自己本身做注意力,映射到不同維度的是同一個(gè)語(yǔ)義的不同著重部分;WM-ATT是對(duì)中心句與正文句兩個(gè)不同的句子做注意力,映射到不同維度的是不同的語(yǔ)義部分。因此,在將中心句和正文句做注意力時(shí),不同維度得到的語(yǔ)義信息對(duì)輔助要素實(shí)體識(shí)別的重要性不同。給不同維度上得到的語(yǔ)義信息分配權(quán)重,可以減緩無(wú)效信息對(duì)要素實(shí)體識(shí)別的負(fù)影響,再進(jìn)行求和,從而實(shí)現(xiàn)多維度的語(yǔ)義融合。
在融入了新聞中心句特征后,需要采用Bi-LSTM提取融入新聞中心句后的上下文語(yǔ)義特征。

式中,it、ft、ot、ct分別是輸入門(mén)、遺忘門(mén)、輸出門(mén)、細(xì)胞狀態(tài);Wi、Wf、Wo、W~c是t-1時(shí)刻隱藏狀態(tài)的權(quán)重矩陣;Ui、Uf、Uo、U~c是融合了新聞中心句特征E的權(quán)重矩陣;bi、bf、bo、bc~是輸入門(mén)、遺忘門(mén)、輸出門(mén)、細(xì)胞狀態(tài)的偏置項(xiàng)。反向的LSTM與正向的LSTM的定義相同,但是按照逆序排列。將正反向的LSTM隱藏狀態(tài)級(jí)聯(lián)形成ct的上下文相關(guān)表示,其中分別是時(shí)刻t的正向輸出和反向輸出,⊕表示向量拼接。此時(shí),ct的上下文相關(guān)表示中包含了多層次全局語(yǔ)義特征。
本文使用CRF對(duì)融入新聞中心句的上下文信息進(jìn)行約束性解碼。CRF對(duì)L=(l1,…,lj,…,lm)的輸入序列和其對(duì)應(yīng)的標(biāo)簽序列Y=y1,y2,…,ym的評(píng)估分?jǐn)?shù)為:

式中,M為狀態(tài)轉(zhuǎn)移矩陣,Myi,yi+1表示從yi變化到y(tǒng)i+1的概率,pi,yi表示第i個(gè)字符對(duì)應(yīng)的yi標(biāo)簽的分?jǐn)?shù)。
要素實(shí)體類(lèi)別分別是犯罪嫌疑人、被害人、案發(fā)地、查案警方、審理法院和其他非要素實(shí)體。通過(guò)爬取中國(guó)新聞網(wǎng)大案要案模塊獲取涉案新聞?wù)Z料,整個(gè)語(yǔ)料包括97個(gè)案件共2 000條句子。按照7:3的比例劃分訓(xùn)練集和測(cè)試集,語(yǔ)料中句子和各類(lèi)要素實(shí)體的分布如表1所示。

表1 涉案新聞?wù)Z料統(tǒng)計(jì)
本文實(shí)驗(yàn)采用TensorFlow1.13.2框架,且中心句和正文句的句子長(zhǎng)度設(shè)置一致,均為120個(gè)字。訓(xùn)練過(guò)程中,本文使用Adam優(yōu)化算法,學(xué)習(xí)率為0.004;批次為16,字嵌入維度為120,單向的LSTM的神經(jīng)單元為128。
由圖2可知,當(dāng)多頭數(shù)被設(shè)置為1~4時(shí),融入新聞中心句的要素實(shí)體識(shí)別方法的識(shí)別效果隨著多頭數(shù)的增加而提高。當(dāng)多頭數(shù)設(shè)置為4時(shí),整體效果達(dá)到最優(yōu),而后逐漸變小趨于平穩(wěn)。因此,本文將多頭數(shù)設(shè)置為4。

圖2 多頭數(shù)對(duì)模型性能的影響
本文采用準(zhǔn)確率P、召回率R和F1值作為要素實(shí)體識(shí)別結(jié)果的評(píng)價(jià)指標(biāo),計(jì)算過(guò)程如下:


式中,TP為被正確劃分為正例的個(gè)數(shù),F(xiàn)P為被錯(cuò)誤劃分為正例的個(gè)數(shù),F(xiàn)N為被錯(cuò)誤劃分為負(fù)例的個(gè)數(shù)。
3.3.1 對(duì)比實(shí)驗(yàn)結(jié)果分析
為了驗(yàn)證融入新聞中心句的要素實(shí)體識(shí)別方法的性能,將其與下列方法進(jìn)行對(duì)比。
(1)Bi-LSTM-CRF。本文通過(guò)Bi-LSTM網(wǎng)絡(luò)獲取新聞句的上下文信息,再采用CRF預(yù)測(cè)新聞?wù)木涞臉?biāo)簽信息。
(2)Bi-LSTM-Self-Attention-CRF。Lin等人提出一種Self-Attention機(jī)制[17],本文用Bi-LSTM獲取新聞?wù)木涞纳舷挛恼Z(yǔ)義后,再經(jīng)Self-Attention獲取全局語(yǔ)義,最后用CRF解碼。
(3)Multi-Head Attention-Bi-LSTM-CRF。Vaswani等人提出Multi-Head Attention機(jī)制[18],本文采用4個(gè)多頭從新聞?wù)木浍@得多角度語(yǔ)義信息,再采用Bi-LSTM獲取上下文語(yǔ)義信息,最后用CRF識(shí)別要素實(shí)體。
在對(duì)比實(shí)驗(yàn)中,各方法實(shí)驗(yàn)環(huán)境相同,實(shí)驗(yàn)結(jié)果如表2所示。

表2 涉案新聞要素實(shí)體識(shí)別方法比較
從實(shí)驗(yàn)結(jié)果可以看出,與效果最佳的Multi-Head Attention-Bi-LSTM-CRF方法相比,本文提出方法的3個(gè)指標(biāo)值分別提高了0.66%、5.17%、3.4%。結(jié)果說(shuō)明,本文提出的融入新聞中心句的要素實(shí)體識(shí)別方法能夠有效提升要素實(shí)體識(shí)別的性能。
3.3.2 消融實(shí)驗(yàn)結(jié)果分析
為了進(jìn)一步驗(yàn)證提出方法的有效性,分別將各個(gè)部分刪除后進(jìn)行比較,從而分析各個(gè)部分是否對(duì)要素實(shí)體識(shí)別有效。
從表3可以看出,融入新聞中心句后Multi-Head Attention-Bi-LSTM-CRF的F1值提升了2.87%;利用WM-ATT的融合方法和利用Multi-Head Attention的融合方法相比,準(zhǔn)確率、召回率、F1值分別提高了0.41%、0.62%、0.53%。

表3 消融實(shí)驗(yàn)結(jié)果
3.3.3 對(duì)比實(shí)驗(yàn)各類(lèi)別結(jié)果分析
本文使用的是涉案新聞?wù)Z料,共有5個(gè)案件要素類(lèi)別。各個(gè)類(lèi)別在不同方法中的實(shí)驗(yàn)結(jié)果如圖3所示。
由圖3可知,4個(gè)方法識(shí)別結(jié)果最好的類(lèi)別是“犯罪嫌疑人”,結(jié)果最差的類(lèi)別是“案發(fā)地”。本文提出的要素實(shí)體識(shí)別方法在“案發(fā)地”“查案警方”和“審理法院”這3個(gè)類(lèi)別的識(shí)別效果上與其他方法相比有很大的提升。
3.3.4 樣例測(cè)試分析
本小節(jié)將使用原始語(yǔ)料中未出現(xiàn)的涉案新聞案例作為測(cè)試樣本,以測(cè)試本文提出方法在新數(shù)據(jù)上的識(shí)別效果,具體如下。
新聞中心句:寧波市公安局寧海分局(以下簡(jiǎn)稱(chēng)“寧海公安”)成功偵破城關(guān)鎮(zhèn)楊家村殺人命案,抓獲潛逃21年之久的命案犯罪嫌疑人王某金,將于23日,轉(zhuǎn)交寧波市中級(jí)人民法院開(kāi)庭審理。
新聞?wù)木?:寧海公安接到報(bào)警稱(chēng):城關(guān)鎮(zhèn)(現(xiàn)為桃源街道)竹口楊家村楊某在自家小店內(nèi)被人捅傷,送醫(yī)途中死亡。
新聞?wù)木?:當(dāng)天19時(shí)許,專(zhuān)案組成功在余姚梨洲一暫住房?jī)?nèi)找到王某金。
新聞?wù)木?:1999年11月2日凌晨,王某金帶著刀和手電筒在小店周?chē)赛c(diǎn)。
新聞?wù)木?:他看到受害人楊某要關(guān)店門(mén),便一把推開(kāi)門(mén)進(jìn)去,楊某發(fā)現(xiàn)王某金后,王某金用手抱住楊某。
新聞?wù)木?:一審將于23日,在寧波市中級(jí)人民法院開(kāi)庭審理。
測(cè)試結(jié)果顯示,“犯罪嫌疑人”“被害人”“查案警方”“審理法院”這4類(lèi)要素實(shí)體都能被有效識(shí)別,并且在由于成分指代導(dǎo)致語(yǔ)義模糊的新聞?wù)木?中,“犯罪嫌疑人-王某金”也被識(shí)別出。只有不曾在新聞中心句中出現(xiàn)的“案發(fā)地-小店”未被識(shí)別出。

圖3 各類(lèi)別的實(shí)驗(yàn)結(jié)果對(duì)比
針對(duì)涉案新聞句中由于成分指代引起語(yǔ)義模糊導(dǎo)致要素實(shí)體識(shí)別率低的問(wèn)題,本文提出利用WM-ATT將新聞中心句融入新聞?wù)木渲校源诉M(jìn)行語(yǔ)義增強(qiáng)并減緩無(wú)效信息對(duì)要素實(shí)體識(shí)別造成的負(fù)面影響。盡管本文通過(guò)融入新聞中心句增強(qiáng)新聞?wù)木湔Z(yǔ)義使得識(shí)別性能略有提升,但是方法的識(shí)別效果依賴(lài)于新聞中心句的詳盡程度。因此,在未來(lái)研究中將會(huì)更多關(guān)注聯(lián)合抽取新聞中心句和要素實(shí)體的方法,從而提升方法性能。