融入中心句的涉案新聞要素實(shí)體識(shí)別方法*

2021-05-08 06:10:12王佳雯線巖團(tuán)余正濤

通信技術(shù) 2021年4期

王佳雯，王劍，線巖團(tuán)，余正濤

（昆明理工大學(xué)，云南昆明 650500）

0 引言

涉案新聞要素實(shí)體識(shí)別對(duì)涉案新聞追蹤具有很好的輔助作用，是涉案新聞?shì)浨榉治龅闹匾蝿?wù)。

通用領(lǐng)域的命名實(shí)體識(shí)別任務(wù)是識(shí)別實(shí)體的類(lèi)別，如“人名”“地名”“組織機(jī)構(gòu)名”等[1]。而細(xì)粒度的要素實(shí)體識(shí)別不僅要正確識(shí)別句中所含實(shí)體，還要識(shí)別各實(shí)體所對(duì)應(yīng)的屬性，如“人名”在涉案新聞句中可對(duì)應(yīng)的具體屬性有“被害人”“犯罪嫌疑人”和“非要素實(shí)體”。因此，與通用領(lǐng)域命名實(shí)體識(shí)別任務(wù)相比，涉案新聞要素實(shí)體識(shí)別任務(wù)更依賴(lài)上下文語(yǔ)義信息。涉案新聞文本上下文語(yǔ)義聯(lián)系緊密，如新聞句中普遍存在使用代詞指代上一句提到的內(nèi)容的情況，導(dǎo)致在單個(gè)句子的語(yǔ)義理解上會(huì)出現(xiàn)語(yǔ)義模糊的狀況。當(dāng)一句話中同時(shí)出現(xiàn)多個(gè)“人名”“地名”“組織機(jī)構(gòu)名”時(shí)，僅靠句子中的模糊語(yǔ)義不足以區(qū)分要素實(shí)體。因此，本文通過(guò)融入新聞中心句，對(duì)新聞?wù)木渲械恼Z(yǔ)義進(jìn)行補(bǔ)充增強(qiáng)，以改善要素實(shí)體識(shí)別的性能。

1 相關(guān)工作

涉案新聞?lì)I(lǐng)域的要素實(shí)體識(shí)別可以看作是特定領(lǐng)域的細(xì)粒度命名實(shí)體識(shí)別任務(wù)。

最早期的命名實(shí)體識(shí)別方法是基于規(guī)則和詞典的方法[2-3]。這種方法不僅依賴(lài)于具體語(yǔ)言、領(lǐng)域和文本風(fēng)格，而且有編制過(guò)程耗時(shí)、特別容易產(chǎn)生錯(cuò)誤、系統(tǒng)可移植性不佳以及對(duì)不同的系統(tǒng)需要語(yǔ)言學(xué)專(zhuān)家重新編寫(xiě)規(guī)則[4]等缺點(diǎn)。

相比基于規(guī)則和詞典的方法，基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法不需要專(zhuān)家知識(shí)編寫(xiě)規(guī)則。常用的基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別方法有隱馬爾可夫方法[5]、最大熵[6]、支持向量機(jī)[7]以及條件隨機(jī)場(chǎng)[8]等。這類(lèi)方法對(duì)特征選取的要求較高，需要從文本中選擇對(duì)該項(xiàng)任務(wù)有影響的各種特征，并將這些特征加入到特征向量中，且對(duì)語(yǔ)料庫(kù)的依賴(lài)較大[9]。

目前，深度學(xué)習(xí)由于不需要書(shū)寫(xiě)規(guī)則和人工提取特征，成為命名實(shí)體識(shí)別領(lǐng)域的主流方法[10]。深度學(xué)習(xí)在命名實(shí)體識(shí)別任務(wù)中的運(yùn)用多以循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）加CRF的序列標(biāo)注方法[11]為基礎(chǔ)進(jìn)行改進(jìn)，并在不同領(lǐng)域的命名實(shí)體識(shí)別任務(wù)中取得了很好的效果。Huang等人[12]提出Bi-LSTM和CRF相結(jié)合的序列標(biāo)注模型，捕捉上下文語(yǔ)義信息。Zhang等人[13]依據(jù)中文需要分詞的特性提出Lattice-LSTM方法，將詞信息融入到方法中以解決字符方法無(wú)法利用句子中的單詞信息的問(wèn)題。成于思等人[14]考慮到中文人名具有多樣性和內(nèi)部成詞的特性，提出融合人名詞典特征的Bi-LSTM加加權(quán)條件隨機(jī)場(chǎng)（Weighted Conditional Random Fields，WCRF）方法。唐國(guó)強(qiáng)等人[15]提出利用語(yǔ)言方法特征和多頭注意力捕獲病例文本自身的特征。上述方法依賴(lài)句子的上下文信息抽取實(shí)體，且融入外部特征大都是為了解決實(shí)體多樣性帶來(lái)的未登錄詞問(wèn)題。而在涉案新聞?lì)I(lǐng)域，主要問(wèn)題是部分句子成分指代引起語(yǔ)義模糊導(dǎo)致要素實(shí)體識(shí)別率低，因此只關(guān)注句子內(nèi)的信息往往不夠。本文提出將涵蓋篇章語(yǔ)義信息的新聞中心句融入到新聞?wù)木渲校瑢?duì)語(yǔ)義模糊的新聞中心句進(jìn)行語(yǔ)義增強(qiáng)，從而有效提升要素實(shí)體識(shí)別率。

2 融入新聞中心句的要素實(shí)體識(shí)別方法

融入新聞中心句的要素實(shí)體識(shí)別方法由4個(gè)部分組成，如圖1所示。第1部分是詞嵌入層，使用Skip-gram[16]方法將新聞中心句和新聞?wù)木滢D(zhuǎn)換成字符向量；第2部分是融入新聞中心句的加權(quán)多頭注意力（Weighted Multi-Head Attention，WMATT）層，利用多頭注意力將新聞中心句與新聞?wù)木湎嗳诤希?duì)融合了新聞中心句的多維度語(yǔ)義信息進(jìn)行加權(quán)求和；第3部分是Bi-LSTM層，用Bi-LSTM獲取融入新聞中心句后的上下文信息；第4部分是CRF層，用CRF識(shí)別要素實(shí)體。下面將詳細(xì)介紹方法的各部分內(nèi)容。

2.1 輸入層

本方法的輸入分為兩個(gè)部分：一是涉案新聞的正文句，二是與每一條正文句所對(duì)應(yīng)的新聞中心句。使用Skip-gram方法[16]將中文字符轉(zhuǎn)換成字符向量。正文句表示為Z=z1,z2,…,zm，其中zj表示正文句中第j個(gè)字。新聞中心句表示為C=c1,c2,…,cn，其中ci表示中心句中第i個(gè)字。通過(guò)查找字向量表，將正文句和中心句中的每個(gè)字zj和cj轉(zhuǎn)化為字向量序列。

式中，ec表示字嵌入的查詢(xún)表。

2.2 融入新聞中心句的WM-ATT層

此層有兩個(gè)輸入，一個(gè)是新聞?wù)木銵=(l1,…,lj,…,lm)，L∈Rm×de，另一個(gè)是新聞中心句X=(x1,…,xi,…,xn)，X∈Rm×de。其中，m和n分別是正文句長(zhǎng)度和中心句長(zhǎng)度，de是字向量維度。將新聞中心句融入到新聞?wù)木渲械挠?jì)算可以分為3個(gè)部分。

首先，將新聞?wù)木鋁作為key-value，將新聞中心句X作為query，分別通過(guò)如式（3）、式（4）和式（5）所示的線性變換進(jìn)行切分，以映射到不同的維度。

圖1 融入新聞中心句的要素實(shí)體識(shí)別模型

其次，在第i個(gè)維度內(nèi)進(jìn)行放縮點(diǎn)積注意力，將新聞中心句融入新聞?wù)木渲校纾?/p>

通過(guò)Qi和Ki點(diǎn)乘計(jì)算獲得新聞中心句到新聞?wù)木涞年P(guān)聯(lián)度得分，經(jīng)softmax將得分壓縮到0-1之間，再將映射得分與新聞中心句相乘，得出在第i個(gè)表示子空間內(nèi)融合了新聞中心句的新聞?wù)木涮卣鰽TTi。

最后，將h個(gè)不同維度得到的特征結(jié)果加權(quán)求和，得到融合篇章語(yǔ)義的多層次語(yǔ)義特征E：

式中，Wi給不同維度上融合了新聞中心句的語(yǔ)義信息分別分配權(quán)重，權(quán)重矩陣Wi∈Rdmodel×dk。

傳統(tǒng)的Multi-Head Attention是句子與自己本身做注意力，映射到不同維度的是同一個(gè)語(yǔ)義的不同著重部分；WM-ATT是對(duì)中心句與正文句兩個(gè)不同的句子做注意力，映射到不同維度的是不同的語(yǔ)義部分。因此，在將中心句和正文句做注意力時(shí)，不同維度得到的語(yǔ)義信息對(duì)輔助要素實(shí)體識(shí)別的重要性不同。給不同維度上得到的語(yǔ)義信息分配權(quán)重，可以減緩無(wú)效信息對(duì)要素實(shí)體識(shí)別的負(fù)影響，再進(jìn)行求和，從而實(shí)現(xiàn)多維度的語(yǔ)義融合。

2.3 Bi-LSTM層

在融入了新聞中心句特征后，需要采用Bi-LSTM提取融入新聞中心句后的上下文語(yǔ)義特征。

式中，it、ft、ot、ct分別是輸入門(mén)、遺忘門(mén)、輸出門(mén)、細(xì)胞狀態(tài)；Wi、Wf、Wo、W～c是t-1時(shí)刻隱藏狀態(tài)的權(quán)重矩陣；Ui、Uf、Uo、U～c是融合了新聞中心句特征E的權(quán)重矩陣；bi、bf、bo、bc～是輸入門(mén)、遺忘門(mén)、輸出門(mén)、細(xì)胞狀態(tài)的偏置項(xiàng)。反向的LSTM與正向的LSTM的定義相同，但是按照逆序排列。將正反向的LSTM隱藏狀態(tài)級(jí)聯(lián)形成ct的上下文相關(guān)表示，其中分別是時(shí)刻t的正向輸出和反向輸出，⊕表示向量拼接。此時(shí)，ct的上下文相關(guān)表示中包含了多層次全局語(yǔ)義特征。

2.4 CRF層

本文使用CRF對(duì)融入新聞中心句的上下文信息進(jìn)行約束性解碼。CRF對(duì)L=(l1,…,lj,…,lm)的輸入序列和其對(duì)應(yīng)的標(biāo)簽序列Y=y1,y2,…,ym的評(píng)估分?jǐn)?shù)為：

式中，M為狀態(tài)轉(zhuǎn)移矩陣，Myi,yi+1表示從yi變化到y(tǒng)i+1的概率，pi,yi表示第i個(gè)字符對(duì)應(yīng)的yi標(biāo)簽的分?jǐn)?shù)。

3 實(shí)驗(yàn)設(shè)置與結(jié)果分析

3.1 數(shù)據(jù)集

要素實(shí)體類(lèi)別分別是犯罪嫌疑人、被害人、案發(fā)地、查案警方、審理法院和其他非要素實(shí)體。通過(guò)爬取中國(guó)新聞網(wǎng)大案要案模塊獲取涉案新聞?wù)Z料，整個(gè)語(yǔ)料包括97個(gè)案件共2 000條句子。按照7:3的比例劃分訓(xùn)練集和測(cè)試集，語(yǔ)料中句子和各類(lèi)要素實(shí)體的分布如表1所示。

表1 涉案新聞?wù)Z料統(tǒng)計(jì)

3.2 實(shí)驗(yàn)參數(shù)設(shè)置

本文實(shí)驗(yàn)采用TensorFlow1.13.2框架，且中心句和正文句的句子長(zhǎng)度設(shè)置一致，均為120個(gè)字。訓(xùn)練過(guò)程中，本文使用Adam優(yōu)化算法，學(xué)習(xí)率為0.004；批次為16，字嵌入維度為120，單向的LSTM的神經(jīng)單元為128。

由圖2可知，當(dāng)多頭數(shù)被設(shè)置為1～4時(shí)，融入新聞中心句的要素實(shí)體識(shí)別方法的識(shí)別效果隨著多頭數(shù)的增加而提高。當(dāng)多頭數(shù)設(shè)置為4時(shí)，整體效果達(dá)到最優(yōu)，而后逐漸變小趨于平穩(wěn)。因此，本文將多頭數(shù)設(shè)置為4。

圖2 多頭數(shù)對(duì)模型性能的影響

本文采用準(zhǔn)確率P、召回率R和F1值作為要素實(shí)體識(shí)別結(jié)果的評(píng)價(jià)指標(biāo)，計(jì)算過(guò)程如下：

式中，TP為被正確劃分為正例的個(gè)數(shù)，F(xiàn)P為被錯(cuò)誤劃分為正例的個(gè)數(shù)，F(xiàn)N為被錯(cuò)誤劃分為負(fù)例的個(gè)數(shù)。

3.3 實(shí)驗(yàn)結(jié)果分析

3.3.1 對(duì)比實(shí)驗(yàn)結(jié)果分析

為了驗(yàn)證融入新聞中心句的要素實(shí)體識(shí)別方法的性能，將其與下列方法進(jìn)行對(duì)比。

（1）Bi-LSTM-CRF。本文通過(guò)Bi-LSTM網(wǎng)絡(luò)獲取新聞句的上下文信息，再采用CRF預(yù)測(cè)新聞?wù)木涞臉?biāo)簽信息。

（2）Bi-LSTM-Self-Attention-CRF。Lin等人提出一種Self-Attention機(jī)制[17]，本文用Bi-LSTM獲取新聞?wù)木涞纳舷挛恼Z(yǔ)義后，再經(jīng)Self-Attention獲取全局語(yǔ)義，最后用CRF解碼。

（3）Multi-Head Attention-Bi-LSTM-CRF。Vaswani等人提出Multi-Head Attention機(jī)制[18]，本文采用4個(gè)多頭從新聞?wù)木浍@得多角度語(yǔ)義信息，再采用Bi-LSTM獲取上下文語(yǔ)義信息，最后用CRF識(shí)別要素實(shí)體。

在對(duì)比實(shí)驗(yàn)中，各方法實(shí)驗(yàn)環(huán)境相同，實(shí)驗(yàn)結(jié)果如表2所示。

表2 涉案新聞要素實(shí)體識(shí)別方法比較

從實(shí)驗(yàn)結(jié)果可以看出，與效果最佳的Multi-Head Attention-Bi-LSTM-CRF方法相比，本文提出方法的3個(gè)指標(biāo)值分別提高了0.66%、5.17%、3.4%。結(jié)果說(shuō)明，本文提出的融入新聞中心句的要素實(shí)體識(shí)別方法能夠有效提升要素實(shí)體識(shí)別的性能。

3.3.2 消融實(shí)驗(yàn)結(jié)果分析

為了進(jìn)一步驗(yàn)證提出方法的有效性，分別將各個(gè)部分刪除后進(jìn)行比較，從而分析各個(gè)部分是否對(duì)要素實(shí)體識(shí)別有效。

從表3可以看出，融入新聞中心句后Multi-Head Attention-Bi-LSTM-CRF的F1值提升了2.87%；利用WM-ATT的融合方法和利用Multi-Head Attention的融合方法相比，準(zhǔn)確率、召回率、F1值分別提高了0.41%、0.62%、0.53%。

表3 消融實(shí)驗(yàn)結(jié)果

3.3.3 對(duì)比實(shí)驗(yàn)各類(lèi)別結(jié)果分析

本文使用的是涉案新聞?wù)Z料，共有5個(gè)案件要素類(lèi)別。各個(gè)類(lèi)別在不同方法中的實(shí)驗(yàn)結(jié)果如圖3所示。

由圖3可知，4個(gè)方法識(shí)別結(jié)果最好的類(lèi)別是“犯罪嫌疑人”，結(jié)果最差的類(lèi)別是“案發(fā)地”。本文提出的要素實(shí)體識(shí)別方法在“案發(fā)地”“查案警方”和“審理法院”這3個(gè)類(lèi)別的識(shí)別效果上與其他方法相比有很大的提升。

3.3.4 樣例測(cè)試分析

本小節(jié)將使用原始語(yǔ)料中未出現(xiàn)的涉案新聞案例作為測(cè)試樣本，以測(cè)試本文提出方法在新數(shù)據(jù)上的識(shí)別效果，具體如下。

新聞中心句：寧波市公安局寧海分局（以下簡(jiǎn)稱(chēng)“寧海公安”）成功偵破城關(guān)鎮(zhèn)楊家村殺人命案，抓獲潛逃21年之久的命案犯罪嫌疑人王某金，將于23日，轉(zhuǎn)交寧波市中級(jí)人民法院開(kāi)庭審理。

新聞?wù)木?：寧海公安接到報(bào)警稱(chēng)：城關(guān)鎮(zhèn)（現(xiàn)為桃源街道）竹口楊家村楊某在自家小店內(nèi)被人捅傷，送醫(yī)途中死亡。

新聞?wù)木?：當(dāng)天19時(shí)許，專(zhuān)案組成功在余姚梨洲一暫住房?jī)?nèi)找到王某金。

新聞?wù)木?：1999年11月2日凌晨，王某金帶著刀和手電筒在小店周?chē)赛c(diǎn)。

新聞?wù)木?：他看到受害人楊某要關(guān)店門(mén)，便一把推開(kāi)門(mén)進(jìn)去，楊某發(fā)現(xiàn)王某金后，王某金用手抱住楊某。

新聞?wù)木?：一審將于23日，在寧波市中級(jí)人民法院開(kāi)庭審理。

測(cè)試結(jié)果顯示，“犯罪嫌疑人”“被害人”“查案警方”“審理法院”這4類(lèi)要素實(shí)體都能被有效識(shí)別，并且在由于成分指代導(dǎo)致語(yǔ)義模糊的新聞?wù)木?中，“犯罪嫌疑人-王某金”也被識(shí)別出。只有不曾在新聞中心句中出現(xiàn)的“案發(fā)地-小店”未被識(shí)別出。

圖3 各類(lèi)別的實(shí)驗(yàn)結(jié)果對(duì)比

4 結(jié)語(yǔ)

針對(duì)涉案新聞句中由于成分指代引起語(yǔ)義模糊導(dǎo)致要素實(shí)體識(shí)別率低的問(wèn)題，本文提出利用WM-ATT將新聞中心句融入新聞?wù)木渲校源诉M(jìn)行語(yǔ)義增強(qiáng)并減緩無(wú)效信息對(duì)要素實(shí)體識(shí)別造成的負(fù)面影響。盡管本文通過(guò)融入新聞中心句增強(qiáng)新聞?wù)木湔Z(yǔ)義使得識(shí)別性能略有提升，但是方法的識(shí)別效果依賴(lài)于新聞中心句的詳盡程度。因此，在未來(lái)研究中將會(huì)更多關(guān)注聯(lián)合抽取新聞中心句和要素實(shí)體的方法，從而提升方法性能。