999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融入中心句的涉案新聞要素實(shí)體識(shí)別方法*

2021-05-08 06:10:12王佳雯線巖團(tuán)余正濤
通信技術(shù) 2021年4期
關(guān)鍵詞:語(yǔ)義信息方法

王佳雯,王 劍,線巖團(tuán),余正濤

(昆明理工大學(xué),云南 昆明 650500)

0 引言

涉案新聞要素實(shí)體識(shí)別對(duì)涉案新聞追蹤具有很好的輔助作用,是涉案新聞?shì)浨榉治龅闹匾蝿?wù)。

通用領(lǐng)域的命名實(shí)體識(shí)別任務(wù)是識(shí)別實(shí)體的類(lèi)別,如“人名”“地名”“組織機(jī)構(gòu)名”等[1]。而細(xì)粒度的要素實(shí)體識(shí)別不僅要正確識(shí)別句中所含實(shí)體,還要識(shí)別各實(shí)體所對(duì)應(yīng)的屬性,如“人名”在涉案新聞句中可對(duì)應(yīng)的具體屬性有“被害人”“犯罪嫌疑人”和“非要素實(shí)體”。因此,與通用領(lǐng)域命名實(shí)體識(shí)別任務(wù)相比,涉案新聞要素實(shí)體識(shí)別任務(wù)更依賴(lài)上下文語(yǔ)義信息。涉案新聞文本上下文語(yǔ)義聯(lián)系緊密,如新聞句中普遍存在使用代詞指代上一句提到的內(nèi)容的情況,導(dǎo)致在單個(gè)句子的語(yǔ)義理解上會(huì)出現(xiàn)語(yǔ)義模糊的狀況。當(dāng)一句話中同時(shí)出現(xiàn)多個(gè)“人名”“地名”“組織機(jī)構(gòu)名”時(shí),僅靠句子中的模糊語(yǔ)義不足以區(qū)分要素實(shí)體。因此,本文通過(guò)融入新聞中心句,對(duì)新聞?wù)木渲械恼Z(yǔ)義進(jìn)行補(bǔ)充增強(qiáng),以改善要素實(shí)體識(shí)別的性能。

1 相關(guān)工作

涉案新聞?lì)I(lǐng)域的要素實(shí)體識(shí)別可以看作是特定領(lǐng)域的細(xì)粒度命名實(shí)體識(shí)別任務(wù)。

最早期的命名實(shí)體識(shí)別方法是基于規(guī)則和詞典的方法[2-3]。這種方法不僅依賴(lài)于具體語(yǔ)言、領(lǐng)域和文本風(fēng)格,而且有編制過(guò)程耗時(shí)、特別容易產(chǎn)生錯(cuò)誤、系統(tǒng)可移植性不佳以及對(duì)不同的系統(tǒng)需要語(yǔ)言學(xué)專(zhuān)家重新編寫(xiě)規(guī)則[4]等缺點(diǎn)。

相比基于規(guī)則和詞典的方法,基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法不需要專(zhuān)家知識(shí)編寫(xiě)規(guī)則。常用的基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別方法有隱馬爾可夫方法[5]、最大熵[6]、支持向量機(jī)[7]以及條件隨機(jī)場(chǎng)[8]等。這類(lèi)方法對(duì)特征選取的要求較高,需要從文本中選擇對(duì)該項(xiàng)任務(wù)有影響的各種特征,并將這些特征加入到特征向量中,且對(duì)語(yǔ)料庫(kù)的依賴(lài)較大[9]。

目前,深度學(xué)習(xí)由于不需要書(shū)寫(xiě)規(guī)則和人工提取特征,成為命名實(shí)體識(shí)別領(lǐng)域的主流方法[10]。深度學(xué)習(xí)在命名實(shí)體識(shí)別任務(wù)中的運(yùn)用多以循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)加CRF的序列標(biāo)注方法[11]為基礎(chǔ)進(jìn)行改進(jìn),并在不同領(lǐng)域的命名實(shí)體識(shí)別任務(wù)中取得了很好的效果。Huang等人[12]提出Bi-LSTM和CRF相結(jié)合的序列標(biāo)注模型,捕捉上下文語(yǔ)義信息。Zhang等人[13]依據(jù)中文需要分詞的特性提出Lattice-LSTM方法,將詞信息融入到方法中以解決字符方法無(wú)法利用句子中的單詞信息的問(wèn)題。成于思等人[14]考慮到中文人名具有多樣性和內(nèi)部成詞的特性,提出融合人名詞典特征的Bi-LSTM加加權(quán)條件隨機(jī)場(chǎng)(Weighted Conditional Random Fields,WCRF)方法。唐國(guó)強(qiáng)等人[15]提出利用語(yǔ)言方法特征和多頭注意力捕獲病例文本自身的特征。上述方法依賴(lài)句子的上下文信息抽取實(shí)體,且融入外部特征大都是為了解決實(shí)體多樣性帶來(lái)的未登錄詞問(wèn)題。而在涉案新聞?lì)I(lǐng)域,主要問(wèn)題是部分句子成分指代引起語(yǔ)義模糊導(dǎo)致要素實(shí)體識(shí)別率低,因此只關(guān)注句子內(nèi)的信息往往不夠。本文提出將涵蓋篇章語(yǔ)義信息的新聞中心句融入到新聞?wù)木渲校瑢?duì)語(yǔ)義模糊的新聞中心句進(jìn)行語(yǔ)義增強(qiáng),從而有效提升要素實(shí)體識(shí)別率。

2 融入新聞中心句的要素實(shí)體識(shí)別方法

融入新聞中心句的要素實(shí)體識(shí)別方法由4個(gè)部分組成,如圖1所示。第1部分是詞嵌入層,使用Skip-gram[16]方法將新聞中心句和新聞?wù)木滢D(zhuǎn)換成字符向量;第2部分是融入新聞中心句的加權(quán)多頭注意力(Weighted Multi-Head Attention,WMATT)層,利用多頭注意力將新聞中心句與新聞?wù)木湎嗳诤希?duì)融合了新聞中心句的多維度語(yǔ)義信息進(jìn)行加權(quán)求和;第3部分是Bi-LSTM層,用Bi-LSTM獲取融入新聞中心句后的上下文信息;第4部分是CRF層,用CRF識(shí)別要素實(shí)體。下面將詳細(xì)介紹方法的各部分內(nèi)容。

2.1 輸入層

本方法的輸入分為兩個(gè)部分:一是涉案新聞的正文句,二是與每一條正文句所對(duì)應(yīng)的新聞中心句。使用Skip-gram方法[16]將中文字符轉(zhuǎn)換成字符向量。正文句表示為Z=z1,z2,…,zm,其中zj表示正文句中第j個(gè)字。新聞中心句表示為C=c1,c2,…,cn,其中ci表示中心句中第i個(gè)字。通過(guò)查找字向量表,將正文句和中心句中的每個(gè)字zj和cj轉(zhuǎn)化為字向量序列。

式中,ec表示字嵌入的查詢(xún)表。

2.2 融入新聞中心句的WM-ATT層

此層有兩個(gè)輸入,一個(gè)是新聞?wù)木銵=(l1,…,lj,…,lm),L∈Rm×de,另一個(gè)是新聞中心句X=(x1,…,xi,…,xn),X∈Rm×de。其中,m和n分別是正文句長(zhǎng)度和中心句長(zhǎng)度,de是字向量維度。將新聞中心句融入到新聞?wù)木渲械挠?jì)算可以分為3個(gè)部分。

首先,將新聞?wù)木鋁作為key-value,將新聞中心句X作為query,分別通過(guò)如式(3)、式(4)和式(5)所示的線性變換進(jìn)行切分,以映射到不同的維度。

圖1 融入新聞中心句的要素實(shí)體識(shí)別模型

其次,在第i個(gè)維度內(nèi)進(jìn)行放縮點(diǎn)積注意力,將新聞中心句融入新聞?wù)木渲校纾?/p>

通過(guò)Qi和Ki點(diǎn)乘計(jì)算獲得新聞中心句到新聞?wù)木涞年P(guān)聯(lián)度得分,經(jīng)softmax將得分壓縮到0-1之間,再將映射得分與新聞中心句相乘,得出在第i個(gè)表示子空間內(nèi)融合了新聞中心句的新聞?wù)木涮卣鰽TTi。

最后,將h個(gè)不同維度得到的特征結(jié)果加權(quán)求和,得到融合篇章語(yǔ)義的多層次語(yǔ)義特征E:

式中,Wi給不同維度上融合了新聞中心句的語(yǔ)義信息分別分配權(quán)重,權(quán)重矩陣Wi∈Rdmodel×dk。

傳統(tǒng)的Multi-Head Attention是句子與自己本身做注意力,映射到不同維度的是同一個(gè)語(yǔ)義的不同著重部分;WM-ATT是對(duì)中心句與正文句兩個(gè)不同的句子做注意力,映射到不同維度的是不同的語(yǔ)義部分。因此,在將中心句和正文句做注意力時(shí),不同維度得到的語(yǔ)義信息對(duì)輔助要素實(shí)體識(shí)別的重要性不同。給不同維度上得到的語(yǔ)義信息分配權(quán)重,可以減緩無(wú)效信息對(duì)要素實(shí)體識(shí)別的負(fù)影響,再進(jìn)行求和,從而實(shí)現(xiàn)多維度的語(yǔ)義融合。

2.3 Bi-LSTM層

在融入了新聞中心句特征后,需要采用Bi-LSTM提取融入新聞中心句后的上下文語(yǔ)義特征。

式中,it、ft、ot、ct分別是輸入門(mén)、遺忘門(mén)、輸出門(mén)、細(xì)胞狀態(tài);Wi、Wf、Wo、W~c是t-1時(shí)刻隱藏狀態(tài)的權(quán)重矩陣;Ui、Uf、Uo、U~c是融合了新聞中心句特征E的權(quán)重矩陣;bi、bf、bo、bc~是輸入門(mén)、遺忘門(mén)、輸出門(mén)、細(xì)胞狀態(tài)的偏置項(xiàng)。反向的LSTM與正向的LSTM的定義相同,但是按照逆序排列。將正反向的LSTM隱藏狀態(tài)級(jí)聯(lián)形成ct的上下文相關(guān)表示,其中分別是時(shí)刻t的正向輸出和反向輸出,⊕表示向量拼接。此時(shí),ct的上下文相關(guān)表示中包含了多層次全局語(yǔ)義特征。

2.4 CRF層

本文使用CRF對(duì)融入新聞中心句的上下文信息進(jìn)行約束性解碼。CRF對(duì)L=(l1,…,lj,…,lm)的輸入序列和其對(duì)應(yīng)的標(biāo)簽序列Y=y1,y2,…,ym的評(píng)估分?jǐn)?shù)為:

式中,M為狀態(tài)轉(zhuǎn)移矩陣,Myi,yi+1表示從yi變化到y(tǒng)i+1的概率,pi,yi表示第i個(gè)字符對(duì)應(yīng)的yi標(biāo)簽的分?jǐn)?shù)。

3 實(shí)驗(yàn)設(shè)置與結(jié)果分析

3.1 數(shù)據(jù)集

要素實(shí)體類(lèi)別分別是犯罪嫌疑人、被害人、案發(fā)地、查案警方、審理法院和其他非要素實(shí)體。通過(guò)爬取中國(guó)新聞網(wǎng)大案要案模塊獲取涉案新聞?wù)Z料,整個(gè)語(yǔ)料包括97個(gè)案件共2 000條句子。按照7:3的比例劃分訓(xùn)練集和測(cè)試集,語(yǔ)料中句子和各類(lèi)要素實(shí)體的分布如表1所示。

表1 涉案新聞?wù)Z料統(tǒng)計(jì)

3.2 實(shí)驗(yàn)參數(shù)設(shè)置

本文實(shí)驗(yàn)采用TensorFlow1.13.2框架,且中心句和正文句的句子長(zhǎng)度設(shè)置一致,均為120個(gè)字。訓(xùn)練過(guò)程中,本文使用Adam優(yōu)化算法,學(xué)習(xí)率為0.004;批次為16,字嵌入維度為120,單向的LSTM的神經(jīng)單元為128。

由圖2可知,當(dāng)多頭數(shù)被設(shè)置為1~4時(shí),融入新聞中心句的要素實(shí)體識(shí)別方法的識(shí)別效果隨著多頭數(shù)的增加而提高。當(dāng)多頭數(shù)設(shè)置為4時(shí),整體效果達(dá)到最優(yōu),而后逐漸變小趨于平穩(wěn)。因此,本文將多頭數(shù)設(shè)置為4。

圖2 多頭數(shù)對(duì)模型性能的影響

本文采用準(zhǔn)確率P、召回率R和F1值作為要素實(shí)體識(shí)別結(jié)果的評(píng)價(jià)指標(biāo),計(jì)算過(guò)程如下:

式中,TP為被正確劃分為正例的個(gè)數(shù),F(xiàn)P為被錯(cuò)誤劃分為正例的個(gè)數(shù),F(xiàn)N為被錯(cuò)誤劃分為負(fù)例的個(gè)數(shù)。

3.3 實(shí)驗(yàn)結(jié)果分析

3.3.1 對(duì)比實(shí)驗(yàn)結(jié)果分析

為了驗(yàn)證融入新聞中心句的要素實(shí)體識(shí)別方法的性能,將其與下列方法進(jìn)行對(duì)比。

(1)Bi-LSTM-CRF。本文通過(guò)Bi-LSTM網(wǎng)絡(luò)獲取新聞句的上下文信息,再采用CRF預(yù)測(cè)新聞?wù)木涞臉?biāo)簽信息。

(2)Bi-LSTM-Self-Attention-CRF。Lin等人提出一種Self-Attention機(jī)制[17],本文用Bi-LSTM獲取新聞?wù)木涞纳舷挛恼Z(yǔ)義后,再經(jīng)Self-Attention獲取全局語(yǔ)義,最后用CRF解碼。

(3)Multi-Head Attention-Bi-LSTM-CRF。Vaswani等人提出Multi-Head Attention機(jī)制[18],本文采用4個(gè)多頭從新聞?wù)木浍@得多角度語(yǔ)義信息,再采用Bi-LSTM獲取上下文語(yǔ)義信息,最后用CRF識(shí)別要素實(shí)體。

在對(duì)比實(shí)驗(yàn)中,各方法實(shí)驗(yàn)環(huán)境相同,實(shí)驗(yàn)結(jié)果如表2所示。

表2 涉案新聞要素實(shí)體識(shí)別方法比較

從實(shí)驗(yàn)結(jié)果可以看出,與效果最佳的Multi-Head Attention-Bi-LSTM-CRF方法相比,本文提出方法的3個(gè)指標(biāo)值分別提高了0.66%、5.17%、3.4%。結(jié)果說(shuō)明,本文提出的融入新聞中心句的要素實(shí)體識(shí)別方法能夠有效提升要素實(shí)體識(shí)別的性能。

3.3.2 消融實(shí)驗(yàn)結(jié)果分析

為了進(jìn)一步驗(yàn)證提出方法的有效性,分別將各個(gè)部分刪除后進(jìn)行比較,從而分析各個(gè)部分是否對(duì)要素實(shí)體識(shí)別有效。

從表3可以看出,融入新聞中心句后Multi-Head Attention-Bi-LSTM-CRF的F1值提升了2.87%;利用WM-ATT的融合方法和利用Multi-Head Attention的融合方法相比,準(zhǔn)確率、召回率、F1值分別提高了0.41%、0.62%、0.53%。

表3 消融實(shí)驗(yàn)結(jié)果

3.3.3 對(duì)比實(shí)驗(yàn)各類(lèi)別結(jié)果分析

本文使用的是涉案新聞?wù)Z料,共有5個(gè)案件要素類(lèi)別。各個(gè)類(lèi)別在不同方法中的實(shí)驗(yàn)結(jié)果如圖3所示。

由圖3可知,4個(gè)方法識(shí)別結(jié)果最好的類(lèi)別是“犯罪嫌疑人”,結(jié)果最差的類(lèi)別是“案發(fā)地”。本文提出的要素實(shí)體識(shí)別方法在“案發(fā)地”“查案警方”和“審理法院”這3個(gè)類(lèi)別的識(shí)別效果上與其他方法相比有很大的提升。

3.3.4 樣例測(cè)試分析

本小節(jié)將使用原始語(yǔ)料中未出現(xiàn)的涉案新聞案例作為測(cè)試樣本,以測(cè)試本文提出方法在新數(shù)據(jù)上的識(shí)別效果,具體如下。

新聞中心句:寧波市公安局寧海分局(以下簡(jiǎn)稱(chēng)“寧海公安”)成功偵破城關(guān)鎮(zhèn)楊家村殺人命案,抓獲潛逃21年之久的命案犯罪嫌疑人王某金,將于23日,轉(zhuǎn)交寧波市中級(jí)人民法院開(kāi)庭審理。

新聞?wù)木?:寧海公安接到報(bào)警稱(chēng):城關(guān)鎮(zhèn)(現(xiàn)為桃源街道)竹口楊家村楊某在自家小店內(nèi)被人捅傷,送醫(yī)途中死亡。

新聞?wù)木?:當(dāng)天19時(shí)許,專(zhuān)案組成功在余姚梨洲一暫住房?jī)?nèi)找到王某金。

新聞?wù)木?:1999年11月2日凌晨,王某金帶著刀和手電筒在小店周?chē)赛c(diǎn)。

新聞?wù)木?:他看到受害人楊某要關(guān)店門(mén),便一把推開(kāi)門(mén)進(jìn)去,楊某發(fā)現(xiàn)王某金后,王某金用手抱住楊某。

新聞?wù)木?:一審將于23日,在寧波市中級(jí)人民法院開(kāi)庭審理。

測(cè)試結(jié)果顯示,“犯罪嫌疑人”“被害人”“查案警方”“審理法院”這4類(lèi)要素實(shí)體都能被有效識(shí)別,并且在由于成分指代導(dǎo)致語(yǔ)義模糊的新聞?wù)木?中,“犯罪嫌疑人-王某金”也被識(shí)別出。只有不曾在新聞中心句中出現(xiàn)的“案發(fā)地-小店”未被識(shí)別出。

圖3 各類(lèi)別的實(shí)驗(yàn)結(jié)果對(duì)比

4 結(jié)語(yǔ)

針對(duì)涉案新聞句中由于成分指代引起語(yǔ)義模糊導(dǎo)致要素實(shí)體識(shí)別率低的問(wèn)題,本文提出利用WM-ATT將新聞中心句融入新聞?wù)木渲校源诉M(jìn)行語(yǔ)義增強(qiáng)并減緩無(wú)效信息對(duì)要素實(shí)體識(shí)別造成的負(fù)面影響。盡管本文通過(guò)融入新聞中心句增強(qiáng)新聞?wù)木湔Z(yǔ)義使得識(shí)別性能略有提升,但是方法的識(shí)別效果依賴(lài)于新聞中心句的詳盡程度。因此,在未來(lái)研究中將會(huì)更多關(guān)注聯(lián)合抽取新聞中心句和要素實(shí)體的方法,從而提升方法性能。

猜你喜歡
語(yǔ)義信息方法
語(yǔ)言與語(yǔ)義
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚(yú)
認(rèn)知范疇模糊與語(yǔ)義模糊
展會(huì)信息
語(yǔ)義分析與漢俄副名組合
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产网站免费看| h视频在线观看网站| 999国产精品| 亚洲最大福利视频网| 丁香婷婷在线视频| 亚洲综合色婷婷中文字幕| 欧美性精品| 99r在线精品视频在线播放 | 一级爱做片免费观看久久| 国内精品久久人妻无码大片高| 亚洲美女一级毛片| 国产午夜一级毛片| 中文字幕在线日韩91| av免费在线观看美女叉开腿| 国产亚洲欧美在线专区| 久久中文字幕av不卡一区二区| 亚洲欧洲日产国产无码AV| 国产在线视频欧美亚综合| 少妇露出福利视频| 操国产美女| 久久久黄色片| 亚洲成a人片在线观看88| 久久黄色小视频| 国产玖玖视频| 亚洲国产精品VA在线看黑人| 凹凸精品免费精品视频| 久久这里只有精品23| 欧美日本在线观看| 欧亚日韩Av| 精品一區二區久久久久久久網站| 熟妇人妻无乱码中文字幕真矢织江| 青青草原国产精品啪啪视频| 久久久久人妻精品一区三寸蜜桃| 少妇精品久久久一区二区三区| 成人亚洲国产| 日韩精品亚洲人旧成在线| 一区二区三区国产精品视频| 美女无遮挡免费网站| 国产免费精彩视频| 国产乱人乱偷精品视频a人人澡| 91精品国产麻豆国产自产在线| 亚洲AV成人一区国产精品| 欧美成人看片一区二区三区 | 亚洲永久色| 无码精油按摩潮喷在线播放 | 亚洲欧美另类日本| 国产真实乱子伦精品视手机观看| 全部免费特黄特色大片视频| 美女无遮挡拍拍拍免费视频| 免费中文字幕一级毛片| 久久精品丝袜| 精品视频一区二区观看| 国产精品手机视频| 欧美成人a∨视频免费观看| 国产一区二区三区免费观看| 亚洲黄色成人| www精品久久| 亚洲开心婷婷中文字幕| 精品91视频| 综合天天色| 日韩欧美中文字幕一本| 999精品在线视频| 欧美成人精品欧美一级乱黄| 欧美不卡在线视频| 一本视频精品中文字幕| 国内精品久久久久久久久久影视| 国产美女91视频| 欧美日韩va| 日本在线视频免费| 激情国产精品一区| 九色综合视频网| 欧美色综合网站| 98精品全国免费观看视频| 婷婷激情亚洲| 五月天久久婷婷| 在线观看欧美国产| 丁香六月激情婷婷| 在线观看免费人成视频色快速| 欧美 国产 人人视频| 国产精品污视频| 国产成人艳妇AA视频在线| 亚洲一本大道在线|