999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聯(lián)合神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的中文電力計量命名實體識別

2021-06-03 07:09:08肖勇鄭楷洪王鑫錢斌孫凌云
關(guān)鍵詞:模型

肖勇,鄭楷洪,王鑫,錢斌,孫凌云

(1.南方電網(wǎng)科學(xué)研究院有限責(zé)任公司,廣東廣州 510663;2.浙江大學(xué)計算機學(xué)院,浙江杭州 310058)

0 引言

隨著新一代人工智能技術(shù)的發(fā)展,從自然語言中提取實體、屬性、關(guān)系等高層次結(jié)構(gòu)化語義信息以解決各行業(yè)的實際問題是當(dāng)下的研究熱點[1-2]。智能電網(wǎng)對電力大數(shù)據(jù)所蘊含有效信息的關(guān)聯(lián)分析與處理的要求也不斷提高。其中,電力企業(yè)計量信息的離散化問題隨數(shù)據(jù)的暴增愈加顯著。電力計量信息孤立存在于各個層級單位的子系統(tǒng)內(nèi),互不聯(lián)通,使得決策人員難以從這些離散信息中獲取有效的支持[3]。如何將龐大而零散的電力計量大數(shù)據(jù)化零為整,為電力企業(yè)的決策和發(fā)展提供更為全面有效的指導(dǎo),構(gòu)建知識圖譜是一種很好的方法。

電力知識圖譜是將電力業(yè)務(wù)對象不同種類的業(yè)務(wù)信息按照此業(yè)務(wù)對象的業(yè)務(wù)架構(gòu)關(guān)聯(lián)組合而成的巨大信息網(wǎng)絡(luò)[4]。使用者可通過電力知識圖譜獲取電力業(yè)務(wù)對象的相關(guān)業(yè)務(wù)信息、技術(shù)知識、行業(yè)標(biāo)準(zhǔn)、內(nèi)在聯(lián)系等綜合信息,能有效提升檢索信息的效率,以獲得更具深度和廣度的搜索結(jié)果,并將其作為全面的決策依據(jù)。

命名實體識別(named entity recognition,NER)是知識圖譜構(gòu)建中的一個關(guān)鍵性基礎(chǔ)步驟,其經(jīng)歷了基于詞典與規(guī)則的方法、基于統(tǒng)計模型的方法和基于深度學(xué)習(xí)的方法3 個階段[5]。通用領(lǐng)域的主流方法是基于深度學(xué)習(xí)的方法,通過神經(jīng)網(wǎng)絡(luò)實現(xiàn)端到端的NER[6],不再依賴于人工定義的特征。然而,一方面,考慮中文電力計量文本的特點:(1)中文NER 比英文NER 更復(fù)雜,比如中文的詞與詞之間沒有空格做分隔符,無類似于英文的實體單詞首字母大寫的指示信息,中文實體字詞的隨意性更強;(2)存在大量電力計量領(lǐng)域的專業(yè)術(shù)語和中英文縮寫;另一方面,受聯(lián)合學(xué)習(xí)思想的啟發(fā)[7],本文設(shè)計了一種基于聯(lián)合神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的中文電力計量NER 技術(shù)。聯(lián)合學(xué)習(xí)認(rèn)為,相比以往將NER 單獨作為一項計算任務(wù)而言,聯(lián)合多個計算任務(wù)(實體消歧,中文分詞)可更加充分地共享信息,提高性能。

本文的貢獻主要體現(xiàn)在以下兩個方面:

(1)將CNN-BLSTM-CRF 模型與整合電力計量詞典知識的中文分詞模型進行聯(lián)合學(xué)習(xí),基于多任務(wù)學(xué)習(xí)技術(shù),構(gòu)建了統(tǒng)一NER 模型;

(2)結(jié)合電力計量領(lǐng)域?qū)<业臉I(yè)務(wù)知識,建立了電力計量領(lǐng)域命名實體分類規(guī)則,并構(gòu)建了基于百科數(shù)據(jù)等多數(shù)據(jù)來源的電力計量領(lǐng)域語料集。

實驗結(jié)果表明,在不需要人工構(gòu)建特征的情況下,本文方法在正確率、召回率、F值等方面均顯著優(yōu)于以往方法。

1 相關(guān)工作

基于詞典與規(guī)劃的命名實體識別方法雖然在實際工業(yè)應(yīng)用中使用較多,并顯現(xiàn)出不錯的效果,但由于存在無法識別未記錄在詞典內(nèi)詞語的問題,而且構(gòu)建和維護詞典需要付出不小的代價,因此無法作為實體識別的核心方法,通常用于補充和對照。

基于統(tǒng)計模型的方法大多利用線性統(tǒng)計模型對完全標(biāo)注或部分標(biāo)注的語料進行模型訓(xùn)練。典型的有隱馬爾可夫模型(hidden Markov model,HMM)[8]和條件隨機場(conditional random field,CRF)[9],均嚴(yán)重依賴手工設(shè)計的特征和特定任務(wù)的訓(xùn)練數(shù)據(jù),這種特定任務(wù)的統(tǒng)計方法開發(fā)成本高昂,使得實體識別模型難以適應(yīng)新任務(wù)或新領(lǐng)域。

近年來,出現(xiàn)了各類將深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)成功應(yīng)用于NER 的新方法。其中代表性工作主要有:LAMPLE 等[10]提出利用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(bidirectional long short-term memory neural network,Bi-LSTM NN)與CRF 相結(jié)合,利 用BLSTM-CRF 結(jié)構(gòu)進行標(biāo)簽預(yù)測。該模型在英文測試數(shù)據(jù)集上獲得的結(jié)果與統(tǒng)計方法最好結(jié)果相近,且不需要人工定義特征。CHIU 等[11]將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)用于抽取字符級特征,并有效提升了實體識別性能。MA等[12]將CNN 訓(xùn)練的字符級Embedding 加入BLSTM-CRF 模型中。該模型是一個端到端模型,不依賴特定任務(wù)的資源、功能工程或數(shù)據(jù)預(yù)處理。在CoNLL2003 語料集上,命名實體識別的F值達91.21%。

上述研究主要針對通用領(lǐng)域,并且測試數(shù)據(jù)集主要為英文文本。國內(nèi)學(xué)者基于類似的多神經(jīng)網(wǎng)絡(luò)協(xié)作思想,提出了一些針對中文或特定領(lǐng)域的NER方法。其中包括面向中文語言特點[13-16]中文社交媒體領(lǐng)域[17-19]、醫(yī)學(xué)生物領(lǐng)域[20-22]、國防軍事領(lǐng)域[23-24]等。在電力領(lǐng)域,代表性工作主要有:樊華等[4]通過分句、分詞、詞性標(biāo)注等語義標(biāo)注信息作為預(yù)處理手段實現(xiàn)電網(wǎng)全業(yè)務(wù)域命名實體識別;ZHAO 等[25]用BLSTM-CRF 模型對2 類電力實體類別數(shù)據(jù)開展了實驗分析。

上述國內(nèi)學(xué)者的各項工作在各自領(lǐng)域均取得了不錯的實驗結(jié)果,但均將NER 任務(wù)作為單獨步驟進行計算。聯(lián)合學(xué)習(xí)的思想認(rèn)為,不應(yīng)該將命名實體識別任務(wù)與分詞任務(wù)、命名實體消歧任務(wù)、關(guān)系提取任務(wù)等分開計算,而應(yīng)統(tǒng)一進行聯(lián)合計算,因為人腦在理解文本信息時就是如此[7]。聯(lián)合學(xué)習(xí)或許是未來NER 等自然語言處理技術(shù)的發(fā)展方向,受聯(lián)合學(xué)習(xí)技術(shù)等研究工作[26-28]的啟發(fā),本文提出了基于聯(lián)合神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的中文電力計量命名實體識別技術(shù),具有一定的創(chuàng)新性。

2 電力計量語料集構(gòu)建

2.1 電力計量數(shù)據(jù)來源

通用領(lǐng)域的實體類別一般為人物、地點、組織機構(gòu)等名稱,命名格式相對規(guī)范統(tǒng)一,而且網(wǎng)上有大量的公開語料集可供模型訓(xùn)練。但在電力計量領(lǐng)域,目前并未有公開的數(shù)據(jù)集可直接用于訓(xùn)練,各類電力計量知識語料零散分布于網(wǎng)絡(luò)的各個信息資源點。為解決此問題,本文自主構(gòu)建了面向電力計量領(lǐng)域的文本語料庫。

文本語料庫的數(shù)據(jù)來源包含中國電力百科網(wǎng)(https://www.ceppedu.com/)上各類電力計量領(lǐng)域的期刊文獻、百度百科(https://baike.baidu.com/)中半結(jié)構(gòu)化的相關(guān)電力計量知識、百度文庫(https://wenku.baidu.com/)中文檔類和表格類的相關(guān)電力計量知識。其中,百度百科和百度文庫中的電力計量知識大多為非結(jié)構(gòu)化文本形式,包含各類基本概念的說明及相關(guān)原理、技術(shù)、應(yīng)用的介紹等。另外,南方電網(wǎng)相關(guān)合作企業(yè)提供了一部分與計量相關(guān)的業(yè)務(wù)報告、計量統(tǒng)計數(shù)據(jù)等語料信息。

本文對獲取的數(shù)據(jù)進行了清洗操作,剔除了無關(guān)信息,并以各類標(biāo)點符號為標(biāo)志劃分語料集的句子結(jié)構(gòu),然后對語料進行實體劃分。

2.2 電力計量實體分類與標(biāo)注

電力計量領(lǐng)域的實體分類較通用領(lǐng)域更為復(fù)雜,且常存在命名實體邊界模糊、難以界定的問題。如“電流失流”可以認(rèn)為是電力現(xiàn)象實體,也可以認(rèn)為“電流”是電力對象實體,“失流”是電力現(xiàn)象實體;“電量差動異常”可以認(rèn)為是電力現(xiàn)象實體,也可以認(rèn)為“電量”是電力指標(biāo)實體,“差動異常”是電力現(xiàn)象實體。

針對這種邊界模糊的情況,結(jié)合電力領(lǐng)域?qū)<抑R和相關(guān)書籍資料,除通用的人名、地名、時間等實體外,本文還定義了電力指標(biāo)(index,I)、電力對象(object,O)、電力現(xiàn)象(phenomenon,P)、計量行為(meter,M)4 種類別的實體術(shù)語分類。具體如下:將與統(tǒng)計相關(guān)的電力數(shù)據(jù)標(biāo)注為電力指標(biāo)實體,如“用電量”“抄表率”等;將與電力計量相關(guān)的物體、人員、地區(qū)、機構(gòu)單位等標(biāo)注為電力對象實體,如“電能表”“廣州供電局”等;將具體主語在電力計量過程中產(chǎn)生的現(xiàn)象標(biāo)注為電力現(xiàn)象實體,如“電能表停走”“電流不平衡”等;將指代具體行動的某項電力計量操作標(biāo)注為計量行為實體,如“抄表”“異常修復(fù)”等。此外,還注意到,不同的分類具有一定的語言學(xué)特征,尤其在詞性特征上區(qū)別明確。如電力指標(biāo)、電力對象等大多為名詞,電力現(xiàn)象大多為名詞+動詞的組合詞組,計量行為大多為動詞,詞性特征的不同有助于標(biāo)注和訓(xùn)練。

結(jié)合明確的實體分類機制,在電網(wǎng)領(lǐng)域?qū)<业闹笇?dǎo)下,本文對包含電力指標(biāo)、電力對象、電力現(xiàn)象、計量行為等4 大類別的語料數(shù)據(jù)集采用BIO 方式進行標(biāo)注,在標(biāo)注過程中使用了中文實體標(biāo)注工具YEDDA,利用可視化界面,通過選取待識別實體部分的文字和快捷標(biāo)注按鍵,對大量語料進行高效標(biāo)注,其內(nèi)置的實體推薦功能可顯著降低人工誤差。對標(biāo)注完的整段語料利用編寫好的程序進行格式重構(gòu)、字符切分和單句空行,使之符合基本語料集格式。同時,考慮批次切分是以句子為單位進行劃分的,因此需對其中過長的句子進行拆分,如對整段成句或以分號間隔的大段表述等內(nèi)容進行拆分。最終總計構(gòu)建16 454 個句子,包含21 627 個4 種類別的電力計量實體術(shù)語,并將這些語料數(shù)據(jù)集按照8∶1的比例劃分為訓(xùn)練集和測試集。各類實體術(shù)語的數(shù)量見表1。

表1 語料庫實體數(shù)量統(tǒng)計Table 1 Statistics of corpus entity count

3 電力計量領(lǐng)域?qū)嶓w識別模型

3.1 模型概述

針對上述電網(wǎng)數(shù)據(jù)的特征,構(gòu)建了基于聯(lián)合學(xué)習(xí)的中文電力計量命名實體識別模型框架。結(jié)合CNN-BLSTM-CRF 模型和整合詞典知識的分詞模型構(gòu)建聯(lián)合學(xué)習(xí)NER 模型,具體結(jié)構(gòu)如圖1 所示。該模型利用CNN、Bi-LSTM 等神經(jīng)網(wǎng)絡(luò)和條件隨機場CRF,能有效識別此類包含復(fù)雜關(guān)系的海量數(shù)據(jù),且無須進行大量人工處理和依賴專家經(jīng)驗就可以自主學(xué)習(xí)。

圖1 神經(jīng)網(wǎng)絡(luò)的主要架構(gòu)Fig.1 Main structure of neural network

該模型自底向上分別為Embedding 層、CNN層、Bi-LSTM 層和CRF 層。下面詳細(xì)介紹各層模型的架構(gòu)與原理。

3.2 Embedding 層

Embedding 層用于生成字符向量。字符向量模型通過將電力計量詞語信息轉(zhuǎn)化為低維度的稠密向量,使孤立的字、詞在數(shù)值層面產(chǎn)生聯(lián)系,便于進行深度學(xué)習(xí)計算。本文使用谷歌發(fā)布的word2vec 工具,對已整理的電力計量知識語料進行訓(xùn)練,為句子中的每個字生成字符Embedding。word2vec 模型可將每個詞語轉(zhuǎn)化為對應(yīng)的向量,其中包含CBOW 和Skip-Gram 2 類模型,本文主要利用Skip-Gram 模型。該模型的算法思想見圖2,通過學(xué)習(xí)各層間的權(quán)重矩陣,獲取字、詞表中各個位置字符的概率分布。可將輸入的句子表示為s=[w1,w2,…,wn],其中,n表示句子中字符的數(shù)量,wi為第i個字符的one-hot 向量;Embedding 層的字符向量序列[x1,x2,…,xn],其中,xi為句子中第i個字符對應(yīng)的字符向量。

圖2 Skip-Gram 模型Fig.2 Skip-Gram model

3.3 CNN 層

CNN 層常用于計算機圖像處理,可有效提取局部信息。在本文模型中,則可用于提取句子的局部語境信息,這在中文命名實體識別中起十分重要的作用。如電力計量領(lǐng)域中的“換表”一詞,其在“換表處理”中表示業(yè)務(wù)變更,而在“分庫換表”中則表示計量大數(shù)據(jù)分布式架構(gòu)的一種策略。考慮電力計量領(lǐng)域此類情況較多,因此,利用CNN 捕獲局部上下文信息。

在CNN 中,W∈RKD表示濾波器,其中,K為窗口大小,D為預(yù)訓(xùn)練的詞向量維度。由此,濾波器學(xué)習(xí)的第i個字符的上下文表示為

圖3 提取字符上下文特征的CNN 架構(gòu)Fig.3 CNN architecture of extracting character context features

3.4 Bi-LSTM 層

循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)具有一種重復(fù)神經(jīng)網(wǎng)絡(luò)模塊的鏈?zhǔn)叫问剑赏ㄟ^周期計算捕獲時間動態(tài)。但傳統(tǒng)的RNN 無法有效解決序列數(shù)據(jù)的“長距離依賴”問題,因此,在實際應(yīng)用中會出現(xiàn)梯度消失或梯度爆炸現(xiàn)象[29]。

LSTM 是一種特殊的RNN,彌補了傳統(tǒng)RNN的不足,可捕獲長距離序列信息,因此很適用于電力計量命名實體識別。通常,一個LSTM 單元包含遺忘門、輸入門和輸出門,這些門控制信息遺忘和傳遞給下一時間步驟的信息比例。圖4 給出了LSTM 單元的基本結(jié)構(gòu)。

圖4 LSTM 網(wǎng)絡(luò)結(jié)構(gòu)單元Fig.4 LSTM network structure unit

RNN 和LSTM 的輸出預(yù)測是單向的,但在電力計量實體識別中需要同時根據(jù)之前與之后的狀態(tài)信息進行判斷,只有這樣才能同時兼顧上下文信息。Bi-LSTM 層通過正向LSTM 和反向LSTM 分別計算考慮左側(cè)詞和右側(cè)詞時每個詞對應(yīng)的向量,然后連接2 個向量,形成詞的向量輸出。也就是說由這2 個LSTM 的狀態(tài)共同決定最終輸出。

3.5 CRF 層

實體識別作為一種序列標(biāo)注問題,考慮相鄰標(biāo)簽之間的相關(guān)性,CRF 聯(lián)合建模標(biāo)簽序列是一種很有效的方法。

給定訓(xùn)練數(shù)據(jù)集,CRF 模型通過極大似然估計得到條件概率模型。假設(shè)X={x1,x2,…,xn}為輸入序列向量的完全展開式,xn為經(jīng)過前一模塊處理后序列中第n個漢字的向量表示。Y={y1,y2,…,yn}為對應(yīng)的標(biāo)簽序列,yn為第n個漢字xn對應(yīng)的標(biāo)簽。那么,在給定變量x的情況下,可將CRF 概率模型看作通過對應(yīng)的標(biāo)簽y計算概率P,即

其中,x為隱藏表示,y為句子的標(biāo)注序列,通過極大似然估計可得到式(2)的最優(yōu)解。最后,通過解碼得到與最優(yōu)解相對應(yīng)的標(biāo)簽序列y*。

3.6 整合詞典知識的分詞聯(lián)合訓(xùn)練

NER 任務(wù)可看作2 個子任務(wù)的組合:從文本中提取實體名稱與根據(jù)其類型進行分類。由于中文文本無明確的詞分隔符,因此識別中文實體名稱的邊界十分具有挑戰(zhàn)性。

在中文自然語言處理領(lǐng)域,中文分詞(Chinese word segmentation,CWS)的目的是劃分中文語句的單詞邊界,因此通常將CWS 作為中文命名實體識別(Chinese named entity recognition,CNER)的前序步驟,以提升CNER 預(yù)測實體邊界的準(zhǔn)確性。而CWS 本質(zhì)上也屬于一類字符級序列標(biāo)注問題,與CNER 的計算過程類似,經(jīng)常用CRF 方法處理。為此,提出通過聯(lián)合訓(xùn)練CNER 和CWS 模型提高CNER 模型識別實體邊界的能力。

但是面向通用領(lǐng)域的CWS 模型在處理電力計量語料時存在一定問題,如語句“臨江公寓部分用戶存在電量波動異常情況”,若“電量波動異常”這一電力現(xiàn)象實體詞匯沒有出現(xiàn)在標(biāo)注的數(shù)據(jù)中或僅出現(xiàn)了幾次,則很有可能將此句子分割為“臨江公寓/部分/用戶/存在/電量/波動/異常/情況”,因為“電量”“波動”“異常”3 個均為常用詞,可能經(jīng)常出現(xiàn)在標(biāo)簽中。這就給領(lǐng)域分詞帶來了較大的困難。為解決此問題,考慮電力領(lǐng)域的專業(yè)詞典中包含了許多電力計量的專業(yè)術(shù)語,若將上述CNER 模型與專業(yè)詞典中的知識結(jié)合,使CNER 模型能夠像行業(yè)專家一樣全面學(xué)習(xí)電力計量專業(yè)術(shù)語,則可更好地為此類句子分詞,并進行命名實體識別。

為此,本文設(shè)計了多任務(wù)學(xué)習(xí),并在聯(lián)合訓(xùn)練模型中增添了單詞分類這一額外任務(wù)。可根據(jù)其是否屬于電力計量實體詞匯對一串漢字序列進行分類。例如,字符序列“電量波動異常”將被分類為true,而字符序列“電置工動異常”將被分類為false。true 樣本從專業(yè)詞典中選取詞匯,而false 樣本則從詞典中隨機抽取1 個詞匯,然后將該詞匯中的每個字以概率p隨機替換為另一個隨機選擇的字。重復(fù)此步驟直至獲得預(yù)定義的樣本數(shù)。

本文將神經(jīng)網(wǎng)絡(luò)應(yīng)用于單詞分類任務(wù),其結(jié)構(gòu)與CWS 的CNN-CRF 體系結(jié)構(gòu)類似,不同之處在于CRF 層被最大池化層和sigmoid 函數(shù)層替代,從而進行了二分分類。單詞分類任務(wù)的損失函數(shù)為

其中,Nw為用于單詞分類的訓(xùn)練樣本數(shù)量,si為第i個樣本的預(yù)測分?jǐn)?shù),而yi為1 或0 的單詞分類標(biāo)簽(1表示true,0 代表false)。

基于多任務(wù)學(xué)習(xí)思想,本文設(shè)計的聯(lián)合模型可用于共同訓(xùn)練電力計量領(lǐng)域的單詞分類模型、CWS模型和CNER 模型。如圖1 所示,框架中的單詞分類模型、CWS 模型和CNER 模型共享相同的字符嵌入和CNN 網(wǎng)絡(luò)。其中,CNER 模型中,B,I,O 為BIO 標(biāo)注方式;CWS 模型中,B,I 為2-tag 標(biāo)注方式,B 表示詞首,I 表示詞的其他位置。通過此方式,可對分詞中的有用信息進行編碼,以學(xué)習(xí)有助于單詞邊界區(qū)分的上下文字符表示形式,這對預(yù)測實體邊界具有很好的效果。CWS 模型的損失函數(shù)為

其中,yCWS為用于句子分詞的標(biāo)注序列,θCWS為模型中的參數(shù)集,c為從CNN 層中輸出的句子隱藏字符表示。

聯(lián)合模型的最終目標(biāo)函數(shù)為CNER 損失、CWS損失和WC 損失的組合,即

其中,λ1為控制CWS 損失在總損失中相對重要性的系數(shù),λ2為控制單詞分類損失在CWS 損失中相對重要性的系數(shù)。

4 實 驗

4.1 實驗設(shè)置

所構(gòu)建的語料庫包含了328 篇電力計量相關(guān)的文本文獻,共計16 454 個句子,包含21 627 個4 種實體類別的電力計量技術(shù)術(shù)語。將語料數(shù)據(jù)集按8∶1的比例選擇292 篇作為訓(xùn)練集,36 篇作為測試集。在實驗中采用正確率、召回率、F值3 個通用指標(biāo)衡量電力計量命名實體識別的性能。

本實驗框架基于PyTorch,運行環(huán)境為python3.6.4,CRF 運行版本為CRF++0.58,操作系統(tǒng)為Windows10,CPU 為第4 代酷睿i5-4210H@2.90 GHz,內(nèi)存為16 GB。

字符嵌入的預(yù)訓(xùn)練工具為word2vec,字符嵌入維度為100。CNN 網(wǎng)絡(luò)中的濾波器數(shù)量設(shè)置為300,LSTM 的隱藏狀態(tài)層數(shù)量為200,使用隨機梯度下降算法訓(xùn)練模型。此外,在多任務(wù)學(xué)習(xí)的整合詞典知識部分選用由中國電力出版社出版的《新英漢·漢英電力工程技術(shù)詞典》[30],從中選取1 200 多條與電力計量領(lǐng)域相關(guān)的專業(yè)術(shù)語作為true 樣本。

4.2 實驗結(jié)果與對比

設(shè)計3 組實驗,分別用于檢驗?zāi)P偷膶嶒炐Ч⒄业侥P妥顑?yōu)狀態(tài)下的相關(guān)參數(shù)、檢驗系數(shù)λ1和λ2的影響。

實驗1檢驗并對比基于CRF,基于BLSTMCRF、基于 CNN-BLSTM-CRF、基于 CNNBLSTM-CRF 與CWS 聯(lián)合、基于CNN-BLSTMCRF 與整合詞典知識的CWS 聯(lián)合5 種模型的電力計量實體識別效果,每組實驗進行5 次,取平均值,實驗結(jié)果見表2,其中加粗值為最優(yōu)結(jié)果。

表2 各模型的實驗結(jié)果Table 2 Experimental results of each model

由表2 可知,本文提出的基于CNN-BLSTM-CRF 與整合詞典知識的CWS 聯(lián)合模型在正確率、召回率和F值3 個指標(biāo)上均較其他4 種模型有明顯提高。另外,還可發(fā)現(xiàn):

(1)相較于CRF 模型,CNN-BLSTM-CRF 與整合詞典知識的CWS 聯(lián)合模型的F值提升了8.43%,表現(xiàn)出深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)應(yīng)用在電力計量實體識別中有很好的效果,顯著優(yōu)于傳統(tǒng)機器學(xué)習(xí)方法。

(2)CNN-BLSTM-CRF 模型較 BLSTMCRF 模型的F值提升了1.18%,顯示CNN 有助于學(xué)習(xí)局部上下文特征。

(3)相較于CNN-BLSTM-CRF 模型,CNNBLSTM-CRF 與CWS 聯(lián)合模型的F值提升了2.91%,表明CWS 識別單詞邊界的能力有助于CNER 模型識別實體邊界。統(tǒng)一框架發(fā)揮了兩者內(nèi)在聯(lián)系的作用,使得CNER 的識別效果得以提升。

(4)相較于CNN-BLSTM-CRF+CWS 模型,CNN-BLSTM-CRF 整合詞典知識的CWS 聯(lián)合模型的F值提升了2.08%。說明結(jié)合詞典知識有助于提升通用領(lǐng)域的分詞模型識別電力計量術(shù)語詞匯的準(zhǔn)確性,能使模型單獨分割專業(yè)術(shù)語,輔助NER 模型更好地識別相關(guān)實體。

表3 列出了本文模型在各實體類別上的識別性能。通過比較4 類實體識別數(shù)據(jù),可發(fā)現(xiàn)電力指標(biāo)和電力對象2 類實體的識別效果相對較好,電力現(xiàn)象和計量行為2 類實體的識別效果欠理想。究其原因,一方面,電力現(xiàn)象和計量行為的實體數(shù)量在訓(xùn)練集中占比較少,使得訓(xùn)練效果較其他兩類差。另一方面,電力指標(biāo)和電力對象的實體名稱格式相對統(tǒng)一,重復(fù)出現(xiàn)率較高,而電力現(xiàn)象和計量行為在實體詞匯的結(jié)構(gòu)上更為復(fù)雜,詞語的平均長度更長,導(dǎo)致分詞更困難,稀有度太高影響訓(xùn)練效果。

表3 各實體類別識別性能Table 3 Identification performance of each entity type

實驗2調(diào)整神經(jīng)網(wǎng)絡(luò)模型參數(shù)獲得最佳識別效果。利用預(yù)訓(xùn)練得到100 維字符向量。實驗過程中改變神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的各項參數(shù)。

如表4 所示,設(shè)定幾組batch-size 和學(xué)習(xí)率,在每個訓(xùn)練階段將學(xué)習(xí)率更新為?t=?0/(1+ρt),衰減率ρ=0.05,t為完成的迭代周期。整體模型訓(xùn)練用GTX1060 進行加速。由于dropout 是緩解過擬合的有效方法,因此,模型在CNN 的輸入、BLSTM 的輸入和輸出向量上應(yīng)用dropout,以提升模型的泛化能力。通過所有的實驗,最后設(shè)定所有dropout 層的dropout 率為0.5,在該數(shù)值下模型性能得到顯著提升。

對初始嵌入進行微調(diào),在神經(jīng)網(wǎng)絡(luò)模型的梯度更新過程中,通過反向傳播梯度對其進行修改(此方法的有效性已在序列和結(jié)構(gòu)化預(yù)測問題中得到驗證[31])。通過改變學(xué)習(xí)率和batch-size 2 類參數(shù)尋找最優(yōu)參數(shù)狀態(tài)。

由表4 可知,當(dāng)batch-size 為32 時,F(xiàn)值最高,繼續(xù)增加batch-size,識別效果有所降低。

表4 深度學(xué)習(xí)調(diào)整參數(shù)對應(yīng)的F 值Table 4 F value corresponding to deep learning adjustment parameter 單位:%

實驗3檢驗系數(shù)λ1、λ2的影響。控制最終損失的有2 個重要參數(shù):λ1控制中文分詞任務(wù)的相對重要性,λ2控制詞典知識分類的相對重要性。λ1和λ2對本文方法的性能影響分別見圖5 和圖6。

本文采取控制變量法,固定其中一個λ值為0.2,通過另一個λ值的變化獲得變化趨勢。從圖5和圖6 中可以看出,隨著λ1,λ2逐漸增大,F(xiàn)值均不斷增大,當(dāng)λ1和λ2的值大于0.5 后,F(xiàn)值均呈下降趨勢。當(dāng)λ1,λ2的值過小時,因中文分詞與詞典知識所起的作用受到限制,無法充分發(fā)揮其中有用信息的作用,初始識別效果不佳;而當(dāng)λ1,λ2的值過大時,中文分詞與詞典知識部分被過分強調(diào),本末倒置,使性能下降。總體上說,當(dāng)λ1,λ2為0.3~0.5 時,性能相對較優(yōu)。

圖5 λ1 的影響Fig.5 The influence of λ1

圖6 λ2 的影響Fig.6 The influence of λ2

本文構(gòu)建了一個實體識別系統(tǒng),可以對輸入文本進行識別測試,圖7 顯示的為從測試集中摘取部分文字的測試結(jié)果。經(jīng)分詞處理后,詞與詞之間用空格隔開,同時對電力計量領(lǐng)域的專業(yè)技術(shù)詞匯對應(yīng)的實體標(biāo)簽(如meter,index)和彩色背景進行了標(biāo)示,對應(yīng)關(guān)系見圖7 左側(cè)方框。

圖7 實體識別結(jié)果展示Fig.7 Entity recognition results

5 結(jié)論

為充分挖掘電力計量領(lǐng)域中海量數(shù)據(jù)的價值,更為全面準(zhǔn)確地構(gòu)建電力知識圖譜,將基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)算法模型應(yīng)用于電力計量領(lǐng)域,以提升命名實體識別效果。本文創(chuàng)新性地提出基于聯(lián)合神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的中文電力計量命名實體識別方法。該方法聯(lián)合了CWS 模型,使用電力計量詞典知識,對大規(guī)模電力百科知識文本與電力計量數(shù)據(jù)進行中文分詞并生成字符向量,將該向量序列經(jīng)過CNN 訓(xùn)練獲得的字符進行上下文特征表示,通過Bi-LSTM 層和CRF 層的訓(xùn)練獲得NER 結(jié)果。將本文模型與以往主流模型在電力計量實體識別實驗中進行了對比分析。此外,本文還創(chuàng)新性地提出了電力計量實體分類方法,并將其用于實驗分析。

實驗結(jié)果表明,本文方法有效結(jié)合了CNER、CWS 與領(lǐng)域?qū)I(yè)術(shù)語知識,對含有中英文縮寫、各類長短詞組的電力信息及稀有的電力專業(yè)術(shù)語的識別更為有效,實際應(yīng)用價值較高。

本文模型仍存在待提升之處。如(1)如何在模型中加入具有中文特點的特征(中文偏旁部首級別的特征等),中文詞性分析、中文句法分析等;(2)如何將更多的自然語言處理任務(wù)引入本模型;(3)當(dāng)某種類型訓(xùn)練數(shù)據(jù)輸入偏少時,會影響該類型的識別精確度,如何解決此問題,進一步提升模型的泛化能力。這些均為未來的研究方向。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 在线观看国产精品第一区免费| 国产丝袜第一页| 欧美中文字幕在线视频| 国产白丝av| 日本中文字幕久久网站| 精品伊人久久久久7777人| 国产精品无码AV中文| 国产尤物在线播放| 成人欧美日韩| 国产成人综合日韩精品无码首页 | 日韩少妇激情一区二区| 青青草原国产一区二区| 中文字幕在线看视频一区二区三区| 欧美伦理一区| 亚洲国产成人久久精品软件 | 91精品国产自产在线老师啪l| 无码久看视频| 国产无遮挡猛进猛出免费软件| 精品成人一区二区三区电影| 国产人碰人摸人爱免费视频| 亚洲视频色图| 国产国产人在线成免费视频狼人色| 国产日本欧美在线观看| 青青草一区| 国产资源站| 亚洲福利一区二区三区| 精品国产www| 91精品啪在线观看国产91九色| 久久狠狠色噜噜狠狠狠狠97视色| 精品视频一区二区观看| 亚洲第一成年人网站| 国产精品第5页| 亚洲精品日产AⅤ| 成人免费黄色小视频| 欧美成人免费| 性欧美在线| 国产人成乱码视频免费观看| 國產尤物AV尤物在線觀看| 99热免费在线| AV色爱天堂网| 天天色天天操综合网| 毛片视频网| 狠狠色综合久久狠狠色综合| 国产欧美精品专区一区二区| 成人毛片免费在线观看| 91丨九色丨首页在线播放| 欧美在线导航| 日韩精品欧美国产在线| 成人福利免费在线观看| 国产精品永久免费嫩草研究院| 97久久精品人人做人人爽| 国产69精品久久| 婷婷亚洲视频| 国产69精品久久| 午夜三级在线| 国产精品无码一二三视频| www.91中文字幕| 亚洲成人免费在线| 亚洲丝袜中文字幕| 久久人人97超碰人人澡爱香蕉| 色成人亚洲| 婷婷综合缴情亚洲五月伊| 成人午夜免费观看| 日韩精品专区免费无码aⅴ| 久久久久久久久18禁秘| 中文字幕日韩欧美| 国产你懂得| 国产成人久久777777| 国产成人精品男人的天堂下载| 欧美综合一区二区三区| 中文字幕资源站| 亚洲中文精品久久久久久不卡| 免费无遮挡AV| 国产午夜精品一区二区三| 青青青视频蜜桃一区二区| 亚洲成人一区二区| 色综合色国产热无码一| 国产一区二区三区日韩精品| 久久久久久尹人网香蕉| 日韩精品无码一级毛片免费| 日韩第九页| 欧美专区日韩专区|