黨雪云,王 劍*
(1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;2.云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)
隨著現(xiàn)代互聯(lián)網(wǎng)信息技術(shù)的飛快發(fā)展,網(wǎng)絡(luò)上涌現(xiàn)越來(lái)越多的新聞文本信息。這類信息通常以非結(jié)構(gòu)化、錯(cuò)綜復(fù)雜的文本形式出現(xiàn),使得人們理解新聞文本信息的難度越來(lái)越大。新聞要素信息是指新聞文本中的人名、地名、新聞?lì)I(lǐng)域要素等內(nèi)容。對(duì)這些要素信息的抽取,可以幫助人們更便捷地理解海量的新聞信息。本文以涉案新聞文本要素信息抽取為例,提出一種基于門控圖神經(jīng)網(wǎng)絡(luò)模型的要素信息抽取方法,通過(guò)構(gòu)建字粒度字詞關(guān)系組合圖的方式對(duì)新聞文本和領(lǐng)域詞匯進(jìn)行建模,提高新聞文本要素信息抽取的性能。
涉案新聞要素信息抽取技術(shù)能夠幫助人們更便捷地分析新聞文本中出現(xiàn)的主體之間的關(guān)系,通過(guò)對(duì)涉案新聞文本進(jìn)行分析,歸納出這些數(shù)據(jù)存在的一些特點(diǎn)。如圖1 所示,一是存在要素信息的簡(jiǎn)稱識(shí)別不全問(wèn)題;二是存在組合要素識(shí)別不全的問(wèn)題;三是歧義詞干擾的問(wèn)題,在這個(gè)示例中“人品”就是一個(gè)歧義詞。這些特點(diǎn)的存在導(dǎo)致了識(shí)別新聞文本要素信息時(shí)效果不佳。觀察到這些內(nèi)容和涉案新聞案件領(lǐng)域詞相關(guān)性很大,因此本文提出一種融合案件相關(guān)詞典的方法,通過(guò)圖神經(jīng)網(wǎng)絡(luò)將案件相關(guān)詞匯知識(shí)融入到涉案新聞文本內(nèi)容中,通過(guò)挖掘其潛在的語(yǔ)義特征提高涉案新聞文本要素信息抽取方法的性能。

圖1 涉案新聞文本要素信息抽取問(wèn)題分析
新聞要素信息抽取任務(wù)可以看作面向特定領(lǐng)域的命名實(shí)體識(shí)別(Named Entity Recognition,NER)任務(wù)。當(dāng)前,NER 方法主要分為基于規(guī)則的NER 方法、基于機(jī)器學(xué)習(xí)的NER 方法以及基于深度學(xué)習(xí)的NER 方法三大類。
基于規(guī)則的NER 方法主要是針對(duì)不同領(lǐng)域?qū)嶓w的特點(diǎn),通過(guò)人工制定實(shí)體識(shí)別規(guī)則模板,比如基于特定領(lǐng)域的詞典、句法模式、詞法模式等實(shí)現(xiàn)命名實(shí)體識(shí)別。ZHANG 等人[1]設(shè)計(jì)了一個(gè)提取生物醫(yī)學(xué)文本中的命名實(shí)體的框架,該框架包括一個(gè)種子詞提取器、一個(gè)名詞詞組分塊器、一個(gè)IDF 過(guò)濾器以及一個(gè)基于分布語(yǔ)義的分類器,此方法可以應(yīng)用于不同的設(shè)置和應(yīng)用程序;QUIMBAYA 等人[2]提出了一種用于電子健康病歷領(lǐng)域的命名實(shí)體識(shí)別方法,該方法結(jié)合了模糊匹配原則和詞干匹配原則,在公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)表明命名實(shí)體的召回率獲得明顯的提升;沈等人[3]通過(guò)分析中文組織機(jī)構(gòu)名的全稱特征,設(shè)計(jì)并構(gòu)建了中文組織機(jī)構(gòu)詞庫(kù)、規(guī)則集,最后利用規(guī)則匹配與決策、相似機(jī)構(gòu)名稱合并的方式識(shí)別出中文組織機(jī)構(gòu)名的全稱,之后又通過(guò)類似的分析過(guò)程對(duì)中文組織機(jī)構(gòu)名簡(jiǎn)稱進(jìn)行識(shí)別。雖然利用基于規(guī)則的方法可以取得不錯(cuò)的性能,但針對(duì)涉案新聞文本,其文本雜亂無(wú)章、表達(dá)方式不規(guī)范,想要構(gòu)建完備的實(shí)體識(shí)別規(guī)則庫(kù)較為困難。
基于機(jī)器學(xué)習(xí)的NER 方法主要是利用大規(guī)模標(biāo)注語(yǔ)料庫(kù)自動(dòng)學(xué)習(xí)文本的詞、詞性及上下文特征,自動(dòng)構(gòu)建特征模板,利用特征模板和支持向量機(jī)(Support Vector Machine,SVM)等統(tǒng)計(jì)機(jī)器模型,預(yù)測(cè)文本中每個(gè)字的實(shí)體標(biāo)簽。JI 等人[4]提出一種聯(lián)合模型來(lái)對(duì)twitter 文本中的不規(guī)則的地點(diǎn)信息進(jìn)行識(shí)別,并將識(shí)別到的地點(diǎn)和定義規(guī)范的地點(diǎn)文本進(jìn)行鏈接,該聯(lián)合模型允許使用全局特征,緩解了傳統(tǒng)結(jié)構(gòu)存在的錯(cuò)誤傳播的問(wèn)題。LIU 等人[5]提出了一種處理特定領(lǐng)域的遠(yuǎn)程監(jiān)督NER 的方法,該方法利用了基于標(biāo)題擴(kuò)展詞典的思想和動(dòng)態(tài)規(guī)劃推理的方式,取得了優(yōu)于之前相關(guān)算法的性能。AGERRI 等人[6]展示了如何在最少的人工干預(yù)情況下開(kāi)發(fā)跨語(yǔ)言和數(shù)據(jù)集的命名實(shí)體識(shí)別系統(tǒng),充分結(jié)合了單詞淺層的、局部的特征表示,通過(guò)實(shí)驗(yàn)證明了如何更有效地根據(jù)可用原始數(shù)據(jù)組合各類型單詞的表示特征。
近年來(lái),深度學(xué)習(xí)方法在自然語(yǔ)言處理方向的研究取得了較好的性能。神經(jīng)網(wǎng)絡(luò)不僅具備強(qiáng)大的向量表達(dá)能力、捕獲上下文依賴信息的能力,而且可以通過(guò)端到端訓(xùn)練自動(dòng)學(xué)習(xí)文本中潛在的高維語(yǔ)義信息。ZHANG 等人[7]提出一個(gè)晶格結(jié)構(gòu)的LSTM 模型,該模型編碼字符粒度的源文本和通過(guò)字典匹配來(lái)的潛在詞,得到詞與詞之間的序列信息表征,其中門控循環(huán)單元使得模型選擇出與文本最相關(guān)的字符、單詞,獲得了更好的NER 效果;LI 等人[8]提出了一個(gè)可以同時(shí)解決普通NER和嵌套NER 的框架,該框架將NER 任務(wù)轉(zhuǎn)換為機(jī)器閱讀理解問(wèn)題,將每個(gè)實(shí)體的類型當(dāng)作問(wèn)題,然后利用問(wèn)題去文中匹配識(shí)別對(duì)應(yīng)的實(shí)體;王等人[9]利用雙向編碼器表征量(Bidirectional Encoder Representations from Transformers,BERT)模型作為特征表示層,提取文本中的全局特征、局部特征,最后利用Bi-LSTM 提取上下文特征,用常見(jiàn)的條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF)模型進(jìn)行解碼得到實(shí)體識(shí)別結(jié)果。雖然機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法都能取得不錯(cuò)的效果,但它們都依賴于大規(guī)模的標(biāo)注數(shù)據(jù),而針對(duì)涉案輿情這一垂直領(lǐng)域要素識(shí)別數(shù)據(jù)集規(guī)模很小且標(biāo)注不易,一時(shí)很難獲得大規(guī)模的標(biāo)注數(shù)據(jù)。
合案件相關(guān)詞典的涉案新聞要素信息抽取方法,模型的整體架構(gòu)如圖2 所示。模型共包括3 個(gè)部分:首先,融合案件相關(guān)詞典的字詞關(guān)系組合圖構(gòu)建是模型的輸入部分,它顯式地建模了涉案新聞文本和案件相關(guān)詞典的交互信息;其次,使用門控圖神經(jīng)網(wǎng) 絡(luò)(Gated Graph Neural Network,GGNN)[10]模型對(duì)組合圖的信息進(jìn)行編碼得到特征空間;最后,使用常見(jiàn)的Bi-LSTM-CRF 模型進(jìn)行解碼,預(yù)測(cè)出最終的要素實(shí)體標(biāo)簽。接下來(lái)對(duì)以上內(nèi)容進(jìn)行詳細(xì)介紹。

圖2 融合法律領(lǐng)域詞典的圖神經(jīng)網(wǎng)絡(luò)模型
本文以涉案領(lǐng)域的新聞文本為例,提出一種融
本文構(gòu)建的組合圖的定義為G=(V,E),其中V代表結(jié)點(diǎn)集合,E代表邊的集合。結(jié)點(diǎn)集合V={xc,vs,ve},其中xc代表輸入新聞文本按字符切分的集合,vs和ve用于標(biāo)記新聞文本在詞典中匹配到的要素信息的位置標(biāo)記,vs代表匹配到的要素的起始位置,ve代表匹配到的要素的結(jié)束位置;邊集合E={ec,ev},其中ec是輸入的新聞文本字符vc之間的邊集合,ev指新聞文本匹配到詞典中的詞時(shí)產(chǎn)生的邊集合。
如圖2 所示,輸入層包括一個(gè)案件相關(guān)詞典和一段涉案新聞文本“近日,浙江省中院審結(jié)了一起放火盜竊罪案件,被告人品某良被依法判處有期徒刑兩年。”。此文本共包含39 個(gè)字符,文本和詞典共匹配到3 組要素信息,分別是機(jī)構(gòu)名“浙江省中院”、罪名“防火盜竊罪”和人名“品某良”,所以圖中共包含45 個(gè)結(jié)點(diǎn),其中x1,x2,…,x39是指輸入的新聞文本按字符粒度切分后共39 個(gè)結(jié)點(diǎn),vs和ve分別是從詞典中匹配到要素時(shí)的起始位置標(biāo)記、結(jié)束位置標(biāo)記,共6 個(gè)結(jié)點(diǎn)。其次,共包含44 條有向邊,其中38 條是新聞文本字符xc之間的邊,也就是按照句子的自然語(yǔ)序依次在相鄰字符間添加從左向右的邊,它建模了輸入文本的語(yǔ)序信息;6 條是含有vs、ve的邊,它建模了輸入文本和詞典之間的交互信息。以上過(guò)程完成了融合案件相關(guān)詞典的組合圖的構(gòu)建過(guò)程。該圖不僅編碼了新聞文本中字符間的順序信息,同時(shí)也編碼了文本和詞典的交互信息。
門控圖神經(jīng)網(wǎng)絡(luò)(Gated Graph Sequence Neural Networks,GGNN)[10]是一種基于門控循環(huán)單元的模型,其優(yōu)點(diǎn)在于其能夠選擇性記憶鄰居結(jié)點(diǎn)的隱藏信息,還可以記憶結(jié)點(diǎn)迭代過(guò)程中的隱藏信息。首先對(duì)結(jié)點(diǎn)v的初始狀態(tài)進(jìn)行初始化,即hv(0)=[char_vec,bichar_vec],其中char_vec代表字向量,即one-hot向量,bichar_vec代表雙字符向量,即采用2-gram語(yǔ)言模型的向量。圖的結(jié)構(gòu)化信息存儲(chǔ)于鄰接矩陣A中,其中A∈RD|V|×2D,|V|是圖中結(jié)點(diǎn)的個(gè)數(shù)。鄰接矩陣A決定了圖中結(jié)點(diǎn)之間傳遞信息的方式,矩陣的系數(shù)結(jié)構(gòu)對(duì)應(yīng)圖中的邊,每個(gè)子矩陣中的參數(shù)由圖中邊的方向確定。鄰接矩陣A還用于在每一個(gè)時(shí)間步檢索其鄰居結(jié)點(diǎn)的狀態(tài)信息,Av:∈RD|V|×2D表示結(jié)點(diǎn)v對(duì)應(yīng)的入射邊和出射邊的集合。隱藏層的狀態(tài)信息通過(guò)GRU 進(jìn)行更新,它的推導(dǎo)公式如下:式中:hv(t)是結(jié)點(diǎn)v在時(shí)間步t時(shí)的隱藏狀態(tài),Av是結(jié)點(diǎn)v在鄰接矩陣中對(duì)應(yīng)的行向量;W和U是需要學(xué)習(xí)的參數(shù)。式(1)創(chuàng)建了時(shí)間步(t-1)時(shí)的狀態(tài)矩陣H;式(4)表示要通過(guò)相鄰節(jié)點(diǎn)傳播信息的方法;剩余的步驟結(jié)合鄰居節(jié)點(diǎn)的信息和時(shí)間步(t-1)的隱藏狀態(tài),計(jì)算出時(shí)間步t時(shí)的隱藏狀態(tài)hv

(t),最終經(jīng)過(guò)T個(gè)時(shí)間步,得到結(jié)點(diǎn)的最終狀態(tài)
本模型的解碼層選擇最常用的Bi-LSTMCRF 模型[11],它主要是雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bidirectional Long-short Term,Bi-LSTM)模型和條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF)模型兩者組合而成,其中Bi-LSTM 用于提取上下文語(yǔ)義特征,CRF 用于對(duì)上下文信息進(jìn)行約束性的解碼,將上一步通過(guò)圖神經(jīng)網(wǎng)絡(luò)得到的特征表示{hv|T||v∈T},按照輸入文本的自然語(yǔ)序?qū)⒚總€(gè)字符的特征表示輸入到標(biāo)準(zhǔn)的Bi-LSTM-CRF 模型,最終生成預(yù)測(cè)的要素標(biāo)簽序列。
本文使用的涉案新聞要素信息語(yǔ)料集一共有8 500 條包含要素信息的句子,即真實(shí)涉案新聞文本進(jìn)行數(shù)據(jù)清洗后通過(guò)人工篩選并標(biāo)注的帶有要素的句子。使用時(shí)訓(xùn)練集、驗(yàn)證集、測(cè)試集的比例是7 ∶2 ∶1。涉案新聞要素信息語(yǔ)料統(tǒng)計(jì)情況如表1 所示。

表1 涉案新聞要素信息語(yǔ)料統(tǒng)計(jì)表
本文構(gòu)建了一個(gè)規(guī)模為1 200 詞的詞典,包括人名、法院名及罪名共3 種類型的詞,其中法院名和罪名分別包含其全稱和簡(jiǎn)稱。主要方法是使用正則匹配的方法從法律文書(shū)這類專業(yè)數(shù)據(jù)中匹配得到人名、罪名、法院名,部分罪名詞來(lái)自于搜狗輸入法詞庫(kù)的法律罪名專用詞庫(kù)。
為了更好地評(píng)估模型的效果,需要進(jìn)行對(duì)比試驗(yàn)。目前常用到準(zhǔn)確率(Precision,P)、召回率(Recall,R)、和F1值(F1-Measure)作為評(píng)價(jià)指標(biāo)。準(zhǔn)確率P、召回率R和F1值的計(jì)算公式如下所示:

式中:TP表示把正例預(yù)測(cè)成正的概率,F(xiàn)P表示把負(fù)例預(yù)測(cè)成正的概率,F(xiàn)N表示把正例預(yù)測(cè)成負(fù)的概率。
實(shí)驗(yàn)使用one-hot向量和2-gram雙字符向量拼接的方式對(duì)輸入數(shù)據(jù)進(jìn)行初始化,得到其向量化表示,維度均為200 維。訓(xùn)練時(shí),Dropout設(shè)置為0.5,學(xué)習(xí)率lr設(shè)置為0.01,訓(xùn)練輪次epoch 設(shè)置為100,batch_size設(shè)置為10,優(yōu)化器使用SGD。
本文選擇了6 個(gè)基準(zhǔn)模型,分別在標(biāo)注好的涉案新聞要素信息語(yǔ)料集上進(jìn)行實(shí)驗(yàn)。基準(zhǔn)模型包 括Bi-LSTM-CRF,CAN,Lattice LSTM,LGN,LR-CNN,MG-GNN。 其 中,Bi-LSTM-CRF[11]包括Bi-LSTM 層和CRF 層,是常用的序列標(biāo)注模型;CAN[12]融合本地注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò),利用這種方式挖掘相鄰字符和上下文中的信息;Lattice LSTM[7]設(shè)計(jì)了一種晶格LSTM 模型,同時(shí)編碼輸入文本和字典匹配而得的潛在詞,充分挖掘文本中的語(yǔ)義特征;LGN[13]研究引入圖神經(jīng)網(wǎng)絡(luò)的方式利用全局語(yǔ)義特征,該網(wǎng)絡(luò)使用詞匯知識(shí)連接字符來(lái)捕獲局部信息,且全局中繼節(jié)點(diǎn)可以捕獲全局句子語(yǔ)義和長(zhǎng)期依賴關(guān)系,基于字符、潛在詞和全句語(yǔ)義之間的多種圖的交互作用可以有效地處理詞語(yǔ)歧義問(wèn)題。LR-CNN[14]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的方法,利用反思的方式來(lái)整合詞匯信息。該方法可以并行建模與句子匹配的所有字符和潛在詞匯信息,反思機(jī)制還可以通過(guò)反饋高層次特征來(lái)解決詞匯沖突的問(wèn)題,從而細(xì)化網(wǎng)絡(luò)。MG-GNN[15]提出了一種基于多向圖結(jié)構(gòu)的圖神經(jīng)網(wǎng)絡(luò)方法,自動(dòng)學(xué)習(xí)如何將多個(gè)不同類型的詞典結(jié)合到NER 系統(tǒng)中,顯式地建模字符與詞典的相互作用,將來(lái)自不同詞典的信息加權(quán)組合,基于上下文信息解決了匹配沖突問(wèn)題。

表2 不同模型對(duì)比
在采用F1值的評(píng)價(jià)方法中,本文模型與其他模型相比,F(xiàn)1值有2.12%~5.34%的提升。對(duì)比Bi-LSTM-CRF、CAN 和本文模型,說(shuō)明了在圖神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上融入詞典的優(yōu)越性。對(duì)比Lattice LSTM、LGN、LR-CNN 和本文模型,同樣都是融入了詞匯信息,但是融入特定領(lǐng)域相關(guān)的詞匯知識(shí)產(chǎn)生了顯著的效果,說(shuō)明融入領(lǐng)域詞典的方法在新聞文本要素信息識(shí)別任務(wù)上的優(yōu)越性。對(duì)比MGGNN 和本文模型,同樣都是基于圖的方法,但是本文具有更顯著的效果,說(shuō)明在圖的基礎(chǔ)上融入案件相關(guān)詞典信息是有作用的。
為了驗(yàn)證詞典對(duì)實(shí)驗(yàn)結(jié)果的影響,本文針對(duì)不同詞典規(guī)模進(jìn)行了對(duì)比實(shí)驗(yàn),具體實(shí)驗(yàn)結(jié)果如表3 所示,這里采用隨機(jī)采樣的方式分別構(gòu)建規(guī)模為300 詞、500 詞及800 詞的詞典作為對(duì)比。分析表3 可知:不采用詞典(0 詞)與采用1 200 詞的詞典相比,在準(zhǔn)確率上有3.48%的提升,在召回率上有1.98%的提升,在F1值上有2.44%的提升;采用300 詞的詞典與采用1 200 詞的詞典相比,在準(zhǔn)確率上有1.96%的提升,在召回率上有0.27%的提升,在F1值上有1.89%的提升;采用500 詞的詞典與采用1 200 詞的詞典相比,在準(zhǔn)確率上有0.65%的提升,在召回率上有0.23%的提升,在F1值上有0.76%的提升;采用800 詞的詞典與采用1 200 詞的詞典相比,在準(zhǔn)確率上有0.14%的提升,在召回率上有0.08%的提升,在F1值上有0.06%的提升。從整體來(lái)看,詞典的規(guī)模越大,模型的效果越好,剛開(kāi)始隨著詞典規(guī)模增大,效果提升顯著,隨著詞典規(guī)模越來(lái)越大,模型效果的提升逐漸趨于緩和。

表3 采用不同規(guī)模的詞典時(shí)本文模型的效果對(duì)比
本文針對(duì)新聞文本要素信息識(shí)別任務(wù),以涉案新聞文本為例對(duì)要素信息抽取方法進(jìn)行研究,提出了融合案件相關(guān)詞典的要素信息抽取方法,利用圖神經(jīng)網(wǎng)絡(luò)挖掘新聞文本和詞典組合后的潛在語(yǔ)義特征。結(jié)果表明,要素信息抽取的性能得到了有效提升。