黃曉輝,喬立升,余文濤,李 京,薛 寒
(1.中國科學(xué)技術(shù)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,安徽 合肥 230026;2.戰(zhàn)略支援部隊信息工程大學(xué)洛陽校區(qū),河南 洛陽 471003)
命名實體識別也稱專名識別,旨在識別出文本中表示命名實體的成分,是篇章理解、信息檢索、知識圖譜、機器翻譯等自然語言處理高層應(yīng)用的基礎(chǔ)[1]。解決命名實體識別的主流方法是將其作為序列標(biāo)注問題,即為輸入文本序列中的每個字(詞)預(yù)測一個標(biāo)簽,該標(biāo)簽包含了實體的邊界信息和類別信息。目前,主要有基于統(tǒng)計的序列標(biāo)注模型和基于神經(jīng)網(wǎng)絡(luò)的序列標(biāo)注模型兩大類。基于統(tǒng)計的序列標(biāo)注模型從概率的角度來建模輸入序列與標(biāo)簽序列之間的關(guān)系,如隱馬爾可夫模型(Hidden Markov Model,HMM)、條件隨機場模型(Conditional Random Field,CRF)等[2]。例如,文獻[3]設(shè)計了基于層疊HMM的中文命名實體識別模型,文獻[4]則基于CRF構(gòu)建面向生物醫(yī)學(xué)文本的命名實體識別模型,有效提升了領(lǐng)域?qū)嶓w的識別性能。
近年來,得益于強大的特征提取能力和非線性擬合能力,基于神經(jīng)網(wǎng)絡(luò)的序列標(biāo)注模型逐漸嶄露頭角。與統(tǒng)計模型相比,神經(jīng)網(wǎng)絡(luò)模型對特征選取的依賴程度大大降低[5],在命名實體識別領(lǐng)域獲得了顯著的性能提升,如文獻[6]采用前饋神經(jīng)網(wǎng)絡(luò),結(jié)合字詞特征在中文新聞?wù)Z料上取得了非常好的效果。文獻[7-8]則分別基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的兩種變體——雙向長短時記憶(Bi-directional Long Short-Term Memory,Bi-LSTM)網(wǎng)絡(luò)[9]和網(wǎng)格長短時記憶網(wǎng)絡(luò)來設(shè)計序列標(biāo)注模型,并成功應(yīng)用于中文命名實體識別。此外,業(yè)界還提出通過組合模型來實現(xiàn)命名實體識別,如文獻[10]將Bi-LSTM與CRF相結(jié)合,以LSTM來提取序列特征,以CRF建模標(biāo)簽的時序依賴,在英文命名實體識別上取得了顯著的性能提升。文獻[11]則利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN) 來強化模型的特征提取能力,構(gòu)建了基于CNN、LSTM以及CRF的序列標(biāo)注模型,并將其應(yīng)用于生物醫(yī)學(xué)領(lǐng)域的命名實體識別。文獻[12]則使用LSTM-CNNs-CRF的組合架構(gòu)進行序列標(biāo)注,同樣在命名實體識別上獲得了顯著進步。總體上,組合結(jié)構(gòu)模型旨在利用不同組件實現(xiàn)不同特征的提取。現(xiàn)有組合模型中各組件通常在結(jié)構(gòu)上相互獨立,在數(shù)據(jù)處理過程上又順序依賴,模型整體復(fù)雜度增加,不僅給模型訓(xùn)練帶來諸多問題,也給局部空間特征和時序依賴特征的聯(lián)合提取帶來了較大的不確定性。
同時,由于中文的最小語義單位是漢字,因此可基于字標(biāo)注方法實現(xiàn)命名實體識別。但在實際應(yīng)用中,由于字的語義信息太過簡略,因此通常會采用先分詞、再基于詞序列標(biāo)注的流水線處理模式。這種模式下,分詞誤差不可避免地會影響后續(xù)實體識別的效果。
基于以上現(xiàn)狀,本文從三方面開展研究工作:一是針對中文字序列局部空間特征和時序依賴特征的聯(lián)合提取問題,研究構(gòu)建融合卷積結(jié)構(gòu)和循環(huán)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)特征提取器,以實現(xiàn)序列數(shù)據(jù)局部空間特征和長距離時序依賴特征的聯(lián)合建模;二是針對標(biāo)簽序列上下文特征的提取問題,研究構(gòu)建基于改進RNN的標(biāo)簽解碼網(wǎng)絡(luò),使模型在預(yù)測標(biāo)簽時能夠充分利用標(biāo)簽序列的上下文關(guān)聯(lián)特征;三是針對傳統(tǒng)流水線模式帶來的誤差傳播問題,研究設(shè)計融合詞邊界信息和實體信息的字序列標(biāo)注模式,將中文分詞與實體識別納入統(tǒng)一的聯(lián)合學(xué)習(xí)框架,在有效利用分詞信息輔助命名實體識別的同時,避免分詞誤差的傳播問題。與現(xiàn)有主流命名實體識別方法相比,本文提出的模型具有三個顯著特點:一是基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建特征編碼器,充分發(fā)揮兩者的優(yōu)勢來實現(xiàn)序列數(shù)據(jù)局部空間特征和時序依賴特征的有效提取;二是基于改進RNN的標(biāo)簽解碼網(wǎng)絡(luò),充分利用RNN對時序特征的建模能力,將標(biāo)簽序列的上下文信息納入學(xué)習(xí)過程;三是統(tǒng)一的分詞與實體識別序列標(biāo)注模式較傳統(tǒng)標(biāo)注模式納入了更多的信息,借助于模型強大的學(xué)習(xí)能力,實現(xiàn)中文分詞與實體識別的聯(lián)合學(xué)習(xí)。最終實驗結(jié)果證明,該聯(lián)合學(xué)習(xí)模型對中文命名實體有更好的識別能力,尤其是在識別字數(shù)較多的命名實體時,其效果要明顯優(yōu)于其他方法,這也是本文最突出的貢獻點。
本文提出的基于融合結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)的中文分詞與實體識別聯(lián)合學(xué)習(xí)模型總體架構(gòu)如圖1所示。

圖1 基于融合結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)的中文分詞與實體識別聯(lián)合學(xué)習(xí)模型Fig.1 Joint learning model of Chinese word segmentation and entity recognition based on fused neural network
該模型主要由四部分構(gòu)成:一是由中文字向量構(gòu)成的輸入層,以實數(shù)向量編碼的方式實現(xiàn)漢字之間語義關(guān)系的初步建模,稱為字嵌入層。二是融合卷積和循環(huán)結(jié)構(gòu)的特征編碼網(wǎng)絡(luò),稱為Bi-CRNN編碼層。該層借助于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)強大的特征提取能力,實現(xiàn)輸入序列局部空間特征和長距離時序依賴特征的聯(lián)合編碼。三是基于改進的循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建的標(biāo)簽解碼層,稱為GRU解碼層。該層以特征編碼層輸出向量為前饋輸入,經(jīng)隱層變換形成隱狀態(tài)向量,再將前一時刻輸出的標(biāo)簽概率向量與特征編碼向量整合,從而綜合利用特征編碼信息和標(biāo)簽上下文信息解碼出標(biāo)簽序列。四是Softmax分類層,所表示的標(biāo)簽結(jié)構(gòu)將字在詞中的位置信息、字在實體中的位置信息以及實體的類型信息進行統(tǒng)一編碼,作為分詞與實體識別聯(lián)合學(xué)習(xí)的依據(jù)。最終,結(jié)合特定的目標(biāo)函數(shù)和訓(xùn)練算法對模型進行訓(xùn)練,即可實現(xiàn)中文分詞與實體識別的聯(lián)合學(xué)習(xí)。
為實現(xiàn)序列數(shù)據(jù)局部空間特征和時序依賴特征的聯(lián)合建模,本文將CNN的局部連接、權(quán)值共享結(jié)構(gòu)引入RNN的前饋連接中,同時對神經(jīng)元的工作模式進行相應(yīng)改進,在保留時序特征提取能力的同時,改善其對局部空間特征的提取效果。經(jīng)過改進的神經(jīng)網(wǎng)絡(luò)稱之為卷積循環(huán)神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)中每個神經(jīng)元都是一個具有時序自連接的特征filter,通過在輸入序列上做二維卷積來提取局部空間特征,再做一維的時序迭代來提取上下文時序特征。卷積循環(huán)層中單個神經(jīng)元的數(shù)據(jù)處理過程如圖2所示。

圖2 單個卷積循環(huán)神經(jīng)元的特征提取過程Fig.2 Feature extraction process of a single convolutional recurrent neuron

由于特征編碼層存在多個卷積循環(huán)神經(jīng)元,因此每個神經(jīng)元在某一時刻都會產(chǎn)生瞬時的局部特征map,多個神經(jīng)元就會產(chǎn)生多個特征map,進而在時序迭代時需要對前一時刻的多個特征map進行處理,因此本文對神經(jīng)元的時序迭代過程進行了改進,以兩個卷積循環(huán)神經(jīng)元的數(shù)據(jù)處理流程為例,其過程如圖3所示。

圖3 兩個卷積循環(huán)神經(jīng)元的特征提取過程Fig.3 Feature extraction process of two convolutional recurrent neurons
(1)
式中,xt表示輸入序列在t時刻的向量,mt,n表示在t時刻由第n個神經(jīng)元Cn在向量xt的上下文環(huán)境中經(jīng)過1維卷積生成的瞬時特征map,yt+1,n表示在t+1時刻第n個循環(huán)卷積神經(jīng)元生成的特征編碼值,其以t+1時刻的瞬時卷積特征map作為前饋輸入,以t時刻所有神經(jīng)元生成的特征map經(jīng)過Pooling并拼接(公式中中括號即表示拼接)后形成的向量作為循環(huán)輸入,最終由RNN cell生成一個特征編碼值。最后,t+1時刻所有神經(jīng)元的特征編碼值經(jīng)過拼接形成t+1時刻的特征編碼向量yt+1。
借鑒循環(huán)神經(jīng)網(wǎng)絡(luò)中的門控機制[13]和雙向時序迭代機制[14],本文基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建了特征編碼層,其對數(shù)據(jù)的處理流程如圖4所示。

圖4 特征編碼層的數(shù)據(jù)處理過程示意Fig.4 Data processing process of the feature encoding layer
圖4中,編碼層的雙向迭代機制的CGRU網(wǎng)絡(luò)(Bi-directional Convolutional Gated Recurrent Unit,Bi-CGRU),即設(shè)置兩個卷積循環(huán)神經(jīng)層,分別從輸入序列的兩個方向進行局部空間特征和時序依賴特征的提取。CGRU則表示基于GRU cell門控機制的卷積循環(huán)神經(jīng)網(wǎng)絡(luò),即采用GRU門控機制來對卷積操作生成的特征map進行處理,其過程可如圖5所示。

圖5 CGRU Cell的數(shù)據(jù)處理過程示意Fig.5 Data processing process of the CGRU Cell
最終,所有神經(jīng)元在同一時刻生成的多個map在縱向形成特征編碼向量,在橫向經(jīng)Pooling以及拼接后,形成時序迭代的狀態(tài)向量,進入下一時刻的神經(jīng)元中。由于就某一時刻輸入字向量而言,編碼網(wǎng)絡(luò)中兩個方向的卷積循環(huán)層會生成兩個編碼向量序列,因此將同一時刻兩個方向的特征編碼向量進行拼接,形成一個對該時刻輸入向量的總體特征描述。
為了建模標(biāo)簽序列的長距離時序依賴關(guān)系,本文在特征編碼層之上通過改進RNN構(gòu)建了標(biāo)簽解碼層,其運行過程如圖6所示。

圖6 標(biāo)簽解碼層的運行過程示意Fig.6 Operation process of the tag decoding layer
該解碼層是對傳統(tǒng)RNN的改進,其門控機制仍然采用GRU cell,在保留隱含層時序自連接的同時,還將前一時刻Softmax分類網(wǎng)絡(luò)的輸出值引入當(dāng)前的隱含層狀態(tài)中,不僅利用隱含層循環(huán)連接來建模特征編碼的時序依賴,還利用前一時刻輸出標(biāo)簽的信息來輔助當(dāng)前時刻標(biāo)簽的預(yù)測。基于改進RNN的標(biāo)簽解碼層內(nèi)部結(jié)構(gòu)及數(shù)據(jù)處理流程如圖7所示。

圖7 GRU解碼網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)及數(shù)據(jù)處理流程Fig.7 Internal structure and data processing flow of the GRU decoding network
從圖7可以看出,該標(biāo)簽解碼層的門控單元與傳統(tǒng)的GRU網(wǎng)絡(luò)是一致的,只是在數(shù)據(jù)進入GRU cell時加入了一個額外的處理步驟,即將前一時刻Softmax分類層的輸出值與特征編碼層的編碼向量進行了拼接,之后一起作為GRU的前饋輸入,來實現(xiàn)當(dāng)前時刻的標(biāo)簽預(yù)測。其計算過程如式(2)所示:
(2)
式中,et表示特征編碼層在t時刻輸入的編碼向量,ht表示解碼網(wǎng)絡(luò)隱含層狀態(tài)向量,St表示解碼網(wǎng)絡(luò)在t時刻輸出的標(biāo)簽類別概率向量。可以看出,在t時刻,編碼層的特征向量與前一時刻的標(biāo)簽類別概率向量進行拼接后,進入GRU cell進行運算處理后形成隱狀態(tài)向量,其中一路進入分類層輸出t時刻的標(biāo)簽概率,另一路進入下一時刻的GRU cell進行時序迭代。
為實現(xiàn)聯(lián)合學(xué)習(xí),本文設(shè)計了融合詞邊界信息、實體邊界信息和實體類別信息的標(biāo)簽結(jié)構(gòu)。該標(biāo)簽結(jié)構(gòu)共由三個子部分構(gòu)成:第一部分為分詞標(biāo)記,表示字在詞中的位置;第二部分為實體的類別標(biāo)記,表示該字所屬實體的類別(本文采用人名、地名和組織機構(gòu)名三個類別作為示例);第三部分為實體邊界標(biāo)記,表示該字在實體中的位置。標(biāo)簽結(jié)構(gòu)以及所代表的含義如表1所示。

表1 分詞與實體識別聯(lián)合學(xué)習(xí)標(biāo)簽結(jié)構(gòu)Tab.1 Tag structure for the joint learning of word segmentation and entity recognition
本文設(shè)計的標(biāo)簽?zāi)J綄⒆衷谠~中的位置、字在實體中的位置以及字所屬實體的類型進行了整合,形成統(tǒng)一的中文分詞與實體識別序列標(biāo)注模式。理論上講,所有標(biāo)簽類別應(yīng)有4×4×4=64種,但實際上并沒有這么多。從語法規(guī)則來講,有些組合是不存在的(例如,位于詞中間的字不可能是一個實體的開始或結(jié)尾)。最終,結(jié)合語法規(guī)則以及對語料庫中標(biāo)簽的篩選,在去除不合理、不存在的標(biāo)簽組合后,共得到如表2所示的標(biāo)簽集合。

表2 分詞與實體識別聯(lián)合學(xué)習(xí)標(biāo)簽集Tab.2 Label set for the joint learning of word segmentation and entity recognition
由于各標(biāo)簽之間互斥存在,因此本文采用one-hot向量形式對標(biāo)簽進行編碼,共設(shè)置31維標(biāo)簽編碼向量(表示31個標(biāo)簽類別,每一維代表一個類別),標(biāo)簽編碼向量中只有一個維度的值為1,其他維度的值則為0。
為驗證所設(shè)計框架的有效性,本文分別以人民日報標(biāo)注語料(PFR)和微軟標(biāo)注語料(MicroSoft Research Asia,MSRA)為基礎(chǔ)數(shù)據(jù)進行試驗驗證,兩個語料庫的具體情況如下。
98版人民日報標(biāo)注語料:來自1998年1—6月的人民日報新聞?wù)Z料,其中新聞文本進行了分詞和詞性標(biāo)注。語料中每個句子由換行符隔開,句子中詞與詞之間由空格隔開,每個詞后面會跟一個詞性標(biāo)記。命名實體信息包含于詞性信息中,其中標(biāo)記nr,nt,nz分別代表人名、地名和組織機構(gòu)名。據(jù)統(tǒng)計,語料庫中命名實體的信息如表3所示。

表3 PFR標(biāo)注語料的統(tǒng)計信息Tab.3 Statistics of the PFR
微軟亞洲研究院命名實體標(biāo)注語料庫:由微軟亞洲研究院提供,也是Sighan2006 backoff 3 使用的中文語料庫。該語料庫根據(jù)用途劃分為分詞版本和命名實體標(biāo)注版本。兩個版本的語料內(nèi)容是一致的,只是標(biāo)記不同。該語料庫的實體統(tǒng)計信息如表4所示。

表4 MSRA標(biāo)注語料的統(tǒng)計信息Tab.4 Statistics of the MSRA
在進行實驗之前,對這兩個語料庫中的句子和標(biāo)記進行了預(yù)處理。對于PFR語料庫,將分詞和實體標(biāo)記轉(zhuǎn)換為基于字的聯(lián)合標(biāo)記,隨機選取80%的句子作為訓(xùn)練集和 5%的句子作為驗證集以及15%的數(shù)據(jù)作為測試集。對于MSRA語料庫,依據(jù)分詞版本和實體標(biāo)注版本中語料的對齊關(guān)系,將分詞標(biāo)記和實體標(biāo)記轉(zhuǎn)換為聯(lián)合標(biāo)記,同時由于該語料庫已經(jīng)預(yù)先劃分了訓(xùn)練集和測試集,因此本文從訓(xùn)練集中隨機劃分出10%的語料作為驗證集。
依據(jù)圖2所示的聯(lián)合學(xué)習(xí)框架,采用python 3.5+Tensorflow 1.4來構(gòu)建序列標(biāo)注模型。其中,輸入層設(shè)置100個節(jié)點,表示100維的特征向量,本文采用word2vec框架在PFR和MSRA語料上一起訓(xùn)練得到100維的中文字向量作為輸入;特征編碼層和標(biāo)簽解碼層的參數(shù)在實驗過程中根據(jù)模型的訓(xùn)練和測試效果來確定;Softmax分類層則設(shè)置31個節(jié)點,代表31維的標(biāo)簽向量輸出。模型訓(xùn)練采用的目標(biāo)函數(shù)為樣本集的Log似然,以最大化該似然函數(shù)作為訓(xùn)練目標(biāo),其定義如式(3)所示:
(3)

(4)
模型訓(xùn)練時,本文首先根據(jù)句子的長度對所有句子進行升序排序,之后再根據(jù)句子長度所在的區(qū)間進行了統(tǒng)一的長度Padding,即設(shè)置[0,15]、[16,25]、[26,35]三個區(qū)間,長度落在相應(yīng)區(qū)間內(nèi)的句子統(tǒng)一Padding到所在區(qū)間的右邊界值(補0)。在訓(xùn)練過程中,隨機選取長度在某個區(qū)間的所有句子作為一個大的樣本集合,之后在該集合內(nèi)再采用基于Minibatch的隨機梯度下降算法及其變體來訓(xùn)練模型。其中,Minibatch的值設(shè)置為32;模型優(yōu)化算法選擇Adam算法[15],采用Tensorflow默認的參數(shù)配置(learning_rate=0.001,beta1=0.9,beta2=0.999,epsilon=1E-08);模型初始權(quán)重由均值為0、方差為1的標(biāo)準(zhǔn)正態(tài)分布在[-1,1]區(qū)間內(nèi)隨機生成;每當(dāng)訓(xùn)練集上完成一輪迭代,就在驗證集上進行一次驗證。當(dāng)模型在驗證集上的性能趨于穩(wěn)定或是開始持續(xù)下降時,模型停止訓(xùn)練。
訓(xùn)練完成后,將在測試集上對模型進行性能評估。由于最終輸出是概率向量的序列,因此在進行實體切分及類型判斷時,對該向量序列分兩步進行處理:首先去除不包含實體信息僅有分詞信息的標(biāo)簽;之后依據(jù)標(biāo)簽采用最近配對原則切分出實體的邊界,并判斷出其類型。最終,根據(jù)識別出的命名實體情況,采用Precision、Recall、F1-值三個量作為指標(biāo),用于評價模型最終表現(xiàn),其定義如式(5)所示。
(5)
在模型訓(xùn)練過程中,本文重點對編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò)的超參數(shù)設(shè)置進行了多次試驗驗證,以探索不同結(jié)構(gòu)對標(biāo)注性能的影響,如神經(jīng)元節(jié)點個數(shù)、卷積patch的大小、卷積stride的大小等,以標(biāo)注效果最好的結(jié)構(gòu)作為最終的模型。最終獲得的模型結(jié)構(gòu)及在數(shù)據(jù)集上的標(biāo)注結(jié)果如表5和表6所示。

表5 識別性能最佳的模型參數(shù)Tab.5 Parameters of the best performance

表6 模型在測試集上的實體識別結(jié)果Tab.6 Entity recognition results on the test set
從表6可以看出,本文設(shè)計的聯(lián)合學(xué)習(xí)模型在兩個數(shù)據(jù)集上都取得了較好的識別效果,各個指標(biāo)都在90%以上。尤其是對于組織機構(gòu)名的識別,其結(jié)果與人名的識別結(jié)果已基本相當(dāng),這在傳統(tǒng)基于序列標(biāo)注模型的命名實體識別任務(wù)中是很少見的。因為傳統(tǒng)命名實體識別模型通常對人名、地名有較高的識別率,而對組織機構(gòu)名的識別效果要差很多,其原因就在于人名一般較短、較簡單,而地名一般具有較明顯的指示特征,因而通常有較高的識別率。而組織機構(gòu)名不僅字數(shù)較多,并且可以包含人名和地名,其內(nèi)容形式極其豐富,有著復(fù)雜的局部空間特征和長距離時序依賴特征。因此,一般模型對這種數(shù)據(jù)特征模式難以產(chǎn)生最佳的提取效果,而本文提出的網(wǎng)絡(luò)模型正是針對這一特征模式的有效提取而設(shè)計,因此才取得了更好的識別效果。
此外,為了驗證所設(shè)計的聯(lián)合學(xué)習(xí)框架較其他模型在中文命名實體識別方面的優(yōu)越性,本文還與業(yè)界公認性能較好的基于CRF、LSTM、CNN及組合結(jié)構(gòu)的序列標(biāo)注模型進行了對比實驗,同時也與目前公開發(fā)表的、在PFR語料庫上效果較好的研究工作進行了對比,以三類命名實體(人名、地名、組織機構(gòu)名)的準(zhǔn)確率、召回率和F1-值作為參考指標(biāo),最終詳細的對比結(jié)果如表7所示。

表7 與其他模型的識別性能對比(PFR)Tab.7 Comparison with other models′ recognition performance(PFR)
從表7的結(jié)果來看,本文設(shè)計的基于“CRNN+RNN/字標(biāo)注聯(lián)合學(xué)習(xí)”模型在三個指標(biāo)上獲得了最佳的識別結(jié)果(組織機構(gòu)名的準(zhǔn)確率、召回率和F1-值都排名第一),在五個指標(biāo)上獲得了第二的結(jié)果(與排名第一的差距都在0.5%以內(nèi)),因此總體上較其他模型有顯著的性能提升。同時與文獻[6]發(fā)表的識別結(jié)果相比,本文提出的模型盡管在地名識別方面稍有落后,但在人名和組織機構(gòu)名的識別方面有明顯的性能提升。并且,文獻[6]提出的方法使用了大量精準(zhǔn)的字詞特征,而本文提出的方法沒有涉及任何的外部特征。另外,在實驗過程中,本文還對各個模型的參數(shù)數(shù)量、訓(xùn)練過程迭代次數(shù)以及標(biāo)注效率進行了統(tǒng)計和對比分析,結(jié)果顯示,本文所提模型具有最少的訓(xùn)練參數(shù),且在訓(xùn)練迭代次數(shù)和序列解碼時間上都要明顯少于其他神經(jīng)網(wǎng)絡(luò)模型,因此較其他模型具有更高的訓(xùn)練和推理效率。
另外,本文基于改進RNN構(gòu)建的標(biāo)簽解碼層是與傳統(tǒng)模型的重要不同之處。為驗證該標(biāo)簽解碼層對標(biāo)注效果的影響,本文以CRNN編碼層為基礎(chǔ),針對Softmax層、CRF解碼層和基于改進RNN的解碼層進行了對比實驗,其結(jié)果如表8所示。

表8 不同解碼層的性能對比(PFR)Tab.8 Performance comparison of different decoding layers(PFR)
從表8可以看出,在同樣采用CRNN作為特征編碼層的情況下,配置CRF解碼層的模型較單純的Softmax分類層有更高的準(zhǔn)確率和召回率以及F1-值,這說明CRF層較Softmax層對標(biāo)簽上下文信息的建模能力要強得多,同時也說明,標(biāo)簽的上下文關(guān)聯(lián)信息對于命名實體識別的結(jié)果有著直接的影響;同樣的情形,基于改進RNN的解碼層較基于CRF構(gòu)建的解碼層在具有相當(dāng)準(zhǔn)確率的情況下,其召回率又有了明顯提升,這說明有更多的命名實體被識別出來,并且是被準(zhǔn)確地識別出來,證明了基于改進RNN的解碼層較CRF層對標(biāo)簽的上下文關(guān)聯(lián)特征有更好的建模能力,因而提升了命名實體的識別效果,驗證了這一設(shè)計的有效性。
此外,為了驗證模型在識別長實體時的優(yōu)越性,本文專門針對字數(shù)超過6的命名實體(主要是地名和組織機構(gòu)名)識別結(jié)果進行了統(tǒng)計對比,其結(jié)果如表9所示。

表9 對長實體的識別性能對比(PFR)Tab.9 Comparison of recognition performance of long entities(PFR)
從表9可以看出,對于具有多個字的長命名實體的識別,本文設(shè)計的聯(lián)合學(xué)習(xí)模型較其他模型有明顯的優(yōu)勢,獲得了最好的準(zhǔn)確率、召回率和F1-值。
綜合以上實驗及結(jié)果來看,本文設(shè)計的命名實體識別框架取得了預(yù)期的效果,其原因可歸結(jié)于以下因素:一是構(gòu)建了基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的特征編碼層,能夠有效融合卷積和循環(huán)結(jié)構(gòu)的優(yōu)點來提升網(wǎng)絡(luò)對序列數(shù)據(jù)局部空間特征和時序依賴特征的聯(lián)合建模能力,使提取的特征對標(biāo)注結(jié)果有更加顯著、直接的影響;二是設(shè)計了基于改進RNN的標(biāo)簽解碼層,充分利用RNN的時序連接結(jié)構(gòu)來建模標(biāo)簽序列的上下文依賴關(guān)系,更有效地利用標(biāo)簽上下文信息來輔助預(yù)測;三是設(shè)計了分詞與實體識別聯(lián)合學(xué)習(xí)模式,將分詞信息與實體信息納入統(tǒng)一的標(biāo)簽?zāi)J较拢Y(jié)合相應(yīng)的誤差函數(shù)和模型訓(xùn)練算法來實現(xiàn)分詞信息與實體信息的聯(lián)合學(xué)習(xí)。
本文研究了基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的中文分詞與實體識別聯(lián)合學(xué)習(xí)框架,基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建特征編碼層,實現(xiàn)對文本序列局部空間特征和長距離時序依賴特征的聯(lián)合提取;基于改進的RNN構(gòu)建了標(biāo)簽解碼層,以建模標(biāo)簽序列內(nèi)部的時序關(guān)聯(lián)關(guān)系;同時設(shè)計中文分詞和實體識別統(tǒng)一標(biāo)注模式,實現(xiàn)了中文分詞和實體識別的聯(lián)合學(xué)習(xí)。在公開語料上的實驗結(jié)果驗證了該框架的有效性,尤其是對包含多個字的長實體的識別效果,更是取得了顯著的提升,后續(xù)將研究把聯(lián)合學(xué)習(xí)模型應(yīng)用于特定領(lǐng)域的命名實體任務(wù),以使該方法能夠在更廣闊的領(lǐng)域發(fā)揮作用。