林廣和,張紹武,2,林鴻飛
(1. 大連理工大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024;2. 新疆財經(jīng)大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,新疆 烏魯木齊 830012)
命名實(shí)體識別(Named Entity Recognition,NER)作為自然語言處理的基礎(chǔ)工作,其主要任務(wù)是識別文本中的人名、地名、組織機(jī)構(gòu)名等專有名詞和有意義的時間、日期等短語[1]。NER作為信息抽取中重要的組成部分,其識別效果對于后續(xù)的關(guān)系抽取、語義角色標(biāo)注、機(jī)器翻譯等任務(wù)有很大影響。
目前NER任務(wù)通常被當(dāng)作序列標(biāo)注任務(wù),其主要模型分為傳統(tǒng)的統(tǒng)計機(jī)器學(xué)習(xí)模型和神經(jīng)網(wǎng)絡(luò)模型兩類。常見的NER統(tǒng)計模型主要有隱馬爾可夫模型(Hidden Markov Model,HMM)和條件隨機(jī)場(Conditional Random Field,CRF)等淺層模型,其中CRF模型廣泛應(yīng)用于各種NER任務(wù)中,并取得了不錯的效果[2-6]。近年來,深度學(xué)習(xí)在自然語言處理領(lǐng)域中取得了重大的突破。與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,神經(jīng)網(wǎng)絡(luò)模型在命名實(shí)體識別任務(wù)中取得了更好的結(jié)果。神經(jīng)網(wǎng)絡(luò)方法使用大規(guī)模的未標(biāo)注語料進(jìn)行詞向量訓(xùn)練,通過將預(yù)訓(xùn)練詞向量輸入到卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)等模型,實(shí)現(xiàn)了端到端的訓(xùn)練。在基于神經(jīng)網(wǎng)絡(luò)方法的NER任務(wù)中,Collobert等[7]采用CNN進(jìn)行特征抽取,同時提出了一種句級對數(shù)似然函數(shù)(Sentence-level log-likelihood),通過融合其他特征取得了不錯的結(jié)果。Huang等[8]提出了BiLSTM-CRF模型,同時還融合了其他語言學(xué)特征以提升模型性能。在上述NER方法中,淺層模型采用了特征工程,但在其他領(lǐng)域和語言中泛化能力不佳;大部分神經(jīng)網(wǎng)絡(luò)模型盡管采用了語義豐富的詞向量、自動學(xué)習(xí)任務(wù)相關(guān)的特征表示,但是沒有考慮單詞的結(jié)構(gòu)信息,導(dǎo)致形態(tài)學(xué)信息缺失的問題。如何使模型能根據(jù)當(dāng)前的任務(wù)自動學(xué)習(xí)形態(tài)學(xué)上的信息,從而提升實(shí)體識別性能成為近期研究的熱點(diǎn)。
在目前的NER任務(wù)中,研究自動學(xué)習(xí)詞形信息的工作主要有Lample等[9]的雙向長短時記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory Network,BiLSTM)和Chiu等[10]的CNN。Lample等人采用兩個BiLSTM分別自動學(xué)習(xí)詞級和字符級表示,在命名實(shí)體識別任務(wù)中取得了與先進(jìn)水平可比的結(jié)果。Chiu等人提出采用CNN自動學(xué)習(xí)字符級表示,在一定程度上緩解了模型對于特征工程的依賴,同時還融合了由兩個公開的外部資源構(gòu)造的詞典特征,在CoNLL 2003英文NER語料上取得了F1為91.62%的目前最先進(jìn)結(jié)果。盡管上述字符級表示模型在命名實(shí)體識別任務(wù)中取得了較好的進(jìn)展,但是兩者在理論上均無法全局、動態(tài)地定量表示單詞內(nèi)各字符在字符級詞向量中的貢獻(xiàn)。如何能全局、動態(tài)地定量刻畫詞內(nèi)各字符的貢獻(xiàn),以期產(chǎn)生一種更好的字符級表達(dá)方式,是本研究的核心內(nèi)容。
近年來,注意力(attention)機(jī)制廣泛應(yīng)用于機(jī)器翻譯[11-12]等自然語言處理領(lǐng)域中。在NER任務(wù)中,Rei等[13]采用一種類似門機(jī)制的Attention模型動態(tài)地選擇詞級信息和字符級信息作為模型的輸入,相比于僅有詞向量作為輸入的方法,該方法在多個數(shù)據(jù)集上有了顯著提升。Bharadwaj等[14]通過Attention機(jī)制針對輸入單詞的語義信息與詞內(nèi)字符信息之間的關(guān)聯(lián)性進(jìn)行全局性建模,從而得到該單詞的上下文表示。盡管Attention機(jī)制開始在NER任務(wù)中取得了一定的進(jìn)展,但如何將Attention機(jī)制的動態(tài)性和全局性有效地融入字符級模型有待進(jìn)一步探索。
綜合上述情況和近期Attention機(jī)制在自然語言處理領(lǐng)域上取得的進(jìn)展,本文提出了一種基于Attention機(jī)制的細(xì)粒度字符級詞表示模型(Fine-grained character-level word representation model,F(xiàn)inger)。Finger根據(jù)Attention機(jī)制產(chǎn)生的概率分布,重點(diǎn)關(guān)注對于單詞的形態(tài)學(xué)信息表示起到關(guān)鍵作用的個別字符,從而充分捕獲詞內(nèi)的結(jié)構(gòu)信息,進(jìn)而有助于提升NER系統(tǒng)的識別效果。在此基礎(chǔ)上,我們結(jié)合BiLSTM-CRF模型構(gòu)建了Finger-BiLSTM-CRF模型進(jìn)行實(shí)體識別。該模型是基于BiLSTM-CRF模型的改進(jìn),結(jié)合解釋性較強(qiáng)的Attention機(jī)制,構(gòu)成了一種完全端到端、無任何特征工程的NER系統(tǒng),在CoNLL 2003數(shù)據(jù)集上取得了91.09%的結(jié)果。
受Vaswani等[15]工作的啟發(fā),本文提出一種完全基于Attention機(jī)制的字符級詞表示模型Finger來替代BiLSTM、CNN字符級模型。同時,將Finger作為BiLSTM-CRF模型的擴(kuò)展,構(gòu)造了新的命名實(shí)體識別模型Finger-BiLSTM-CRF。該模型的結(jié)構(gòu)如圖1所示,主要由特征表示層、BiLSTM和CRF層三部分構(gòu)成。
(1)特征表示層主要由詞向量層和字符特征層組成。字符特征層由字符向量層和構(gòu)建在字符向量層之上的基于注意力機(jī)制的Finger模型組成。詞向量層和字符向量層分別接受單詞和字符作為輸入,分別將離散、高維的獨(dú)熱表示映射到各自的稠密連續(xù)的低維特征空間中。Finger則將單詞轉(zhuǎn)換為字符序列表示,通過Attention機(jī)制建立形態(tài)學(xué)信息與字符信息間的關(guān)聯(lián),構(gòu)成與詞內(nèi)結(jié)構(gòu)相關(guān)的字符級向量。最后,將詞向量和字符級向量進(jìn)行拼接以表示單詞在特定語義空間下的特征。
(2)BiLSTM由正向和反向的長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)組成。正向和反向LSTM接收特征表示層的輸出特征作為輸入,分別編碼當(dāng)前時刻的上文和下文信息。兩者的編碼信息合并構(gòu)成待解碼的得分信息。
(3)CRFCRF層接受BiLSTM的輸出得分作為輸入,同時引入轉(zhuǎn)移得分矩陣,根據(jù)序列得分選擇全局最優(yōu)的標(biāo)簽序列。

圖1 本文模型結(jié)構(gòu)
整個模型既融合了NER所需的詞形信息,有助于模型對于實(shí)體的判斷,又結(jié)合了BiLSTM對于單詞的上下文信息的表示能力,還保留CRF層求解標(biāo)簽序列的全局最優(yōu)解的能力,從而為模型產(chǎn)生最優(yōu)結(jié)果創(chuàng)造了可能。
特征表示層將輸入的單詞序列映射為實(shí)值的特征向量,該特征向量捕獲了單詞的句法信息、語義信息和形態(tài)學(xué)信息。定義一個固定大小的詞典Vwrd和一個固定大小的字符集Vchr。給定長度為N的句子{w1,w2,...,wN},將句中每個單詞映射為由詞向量rwrd∈Rdwrd和字符級向量rwch∈Rfinu拼接而成的詞表示xn=[rwrd;rwch],其中詞向量捕獲了單詞wn的句法信息和語義信息,字符級向量表達(dá)了詞形信息。
1.1.1 詞向量層

rwrd=Wwrdvw
(1)
其中,向量vw是長度為|Vwrd|的獨(dú)熱(one-hot)表示。矩陣Wwrd為待學(xué)習(xí)參數(shù),詞向量維度dwrd為超參數(shù)。
1.1.2 字符特征層

rchr=Wchrvc
(2)
其中,向量vc是長度為|Vchr|的獨(dú)熱(one-hot)表示。矩陣Wchr為待學(xué)習(xí)參數(shù),詞向量維度dchr為超參數(shù)。
1.1.3 Finger模型
詞向量的出現(xiàn)減少了模型對于特征工程的依賴,但由此產(chǎn)生了未登錄詞問題和形態(tài)學(xué)信息缺失問題。盡管作為字符級表示模型的BiLSTM[9]和CNN[10]均能通過模型學(xué)習(xí),捕獲單詞的結(jié)構(gòu)信息,彌補(bǔ)了信息缺失的問題,解決了未登錄詞問題,但是BiLSTM只能捕獲單詞的詞綴信息,卻無法明確指出哪些字符構(gòu)成字符表示,CNN捕獲了單詞的n-gram信息,卻無法動態(tài)地表示n-gram中各個字符的貢獻(xiàn)。
在人工標(biāo)注命名實(shí)體識別語料場景下,標(biāo)注者通常根據(jù)自己的語言學(xué)知識來完成標(biāo)注工作,以下文為例:
“…,O includingO 19O landlessO peasantsO massacredO byO policeO inO AprilO inO theO northernO stateO ofO ParaI-LOC . O”
人們通常在判別實(shí)體過程中僅需關(guān)注到當(dāng)前單詞Para的大小寫特征,就大致能判別出Para是否為實(shí)體。
受上述場景啟發(fā),為了更好地編碼單詞的形態(tài)學(xué)特征,本文提出一種基于Attention機(jī)制的細(xì)粒度字符級詞表示模型Finger。Finger采用Attention機(jī)制[11,12]找到適合任務(wù)的字符級詞表示,該過程可以理解為形態(tài)學(xué)信息編碼過程,即引入待學(xué)習(xí)的形態(tài)學(xué)信息參數(shù),針對詞形信息與字符信息的關(guān)聯(lián)性進(jìn)行建模,通過訓(xùn)練賦予與任務(wù)相關(guān)的字符以較高的權(quán)重,而降低其他無關(guān)字符的權(quán)重。在避免人工提取詞綴信息的同時,捕獲了單詞內(nèi)全局的、非線性的形態(tài)學(xué)信息。該模型將BiLSTM對于詞形特征的定性表示和CNN的靜態(tài)表示轉(zhuǎn)變?yōu)槿謩討B(tài)的定量刻畫。
如圖2所示,首先引入一個形態(tài)學(xué)信息矩陣M=(m1,m2,...,mfinu)∈Rdchr×finu,finu表示形態(tài)學(xué)特征類別數(shù),mi表示第i類形態(tài)學(xué)信息特征向量。同時,采用式(3)計算相關(guān)性得分向量Gi,通過雙線性操作(bilinear operation)來捕獲形態(tài)學(xué)信息mi與輸入字符序列矩陣C之間的關(guān)聯(lián)信息。

圖2 細(xì)粒度字符級詞表示模型
(3)
其中,U是待訓(xùn)練權(quán)值矩陣。
隨后,根據(jù)式(4)來處理相關(guān)性得分向量Gi,以獲得該類形態(tài)學(xué)信息的Attention權(quán)重向量αi,j:
(4)
其中Gi,j,αi,j分別表示形態(tài)學(xué)信息mi與輸入的第j個字符間的相關(guān)性得分和對應(yīng)權(quán)重。
接著,利用式(5)將Attention權(quán)重向量αi和輸入字符序列向量C相乘來表示形態(tài)學(xué)上強(qiáng)調(diào)的字符表示:
(5)
然后,根據(jù)式(6),通過一個非線性變換來表示第i類形態(tài)學(xué)特征對應(yīng)的字符表示:
(6)
其中非線性激活函數(shù)f為雙曲正切函數(shù)。
最后,構(gòu)成單詞w的字符級向量rwch=(r1,r2,…,rfinu)。
循環(huán)神經(jīng)網(wǎng)絡(luò)是一種時間序列模型,具有保持歷史信息的能力,理論上能根據(jù)長距離特征來推測當(dāng)前輸出,但在實(shí)際中,RNN因?yàn)樘荻认Ш吞荻缺ǘ鵁o法學(xué)習(xí)到歷史信息[16]。為了解決長距離依賴問題,Hochreiter等人[17]設(shè)計了一種LSTM單元來替換原來RNN的內(nèi)部實(shí)現(xiàn),該單元采用了門機(jī)制來控制信息的傳遞,同時引入記憶單元,保證歷史信息的更替。結(jié)果顯示,LSTM能很好地解決長距離依賴問題。本文中采用的LSTM實(shí)現(xiàn)如式(7~10)所示。
其中,W為層間的權(quán)重矩陣,b為偏置向量,σ為按位sigmoid函數(shù),i,o和c分別對應(yīng)輸入門、輸出門和記憶單元;?表示按位乘法。

通常在預(yù)測階段采用Softmax分類器解決多分類問題,但Softmax分類器在序列標(biāo)注問題中沒有考慮到標(biāo)簽之間的依存關(guān)系。例如,在IOBES標(biāo)注方式下,標(biāo)注器若能正確學(xué)得模型,那么I-PER的后繼標(biāo)簽不能為B-ORG或I-LOC等錯誤標(biāo)簽,可能的正確標(biāo)簽應(yīng)該為I-PER或E-PER。
鑒于上述情況,本文采用Collobert提出的句級對數(shù)似然函數(shù)[7],也就是CRF層。該方法考慮標(biāo)簽序列的全局信息,具體細(xì)節(jié)如下:
假定引入轉(zhuǎn)移得分矩陣A,矩陣元素Ai,j表示標(biāo)簽i轉(zhuǎn)移到標(biāo)簽j的轉(zhuǎn)移得分,令y0,yn+1為句中的起始標(biāo)簽和終止標(biāo)簽,標(biāo)簽種類為k,則A∈R(k+2)*(k+2)。設(shè)句子長度為n,則輸出層的得分矩陣為P∈Rn*k,矩陣元素Pi,j表示第i個詞在第j個標(biāo)簽下的輸出得分;給定輸入句子X=(x1,x2,...,xn),輸出標(biāo)簽序列y=(y1,y2,...yn),則該標(biāo)簽序列的總得分為式(11)。
(11)
對所有可能的序列路徑進(jìn)行歸一化,產(chǎn)生關(guān)于輸出序列y的概率分布,如式(12)所示。
(12)
在訓(xùn)練過程中,最大化關(guān)于正確標(biāo)簽序列y*的對數(shù)概率,如式(13)所示。
(13)
從上式可知: 采用句級似然函數(shù)的目的是鼓勵模型生成正確的標(biāo)簽序列。在解碼階段,預(yù)測總得分最高的序列作為最優(yōu)序列,如式(14)所示。
(14)
在預(yù)測階段,本文采用維特比算法[19]來求解最優(yōu)序列。
為驗(yàn)證所提出模型的有效性,本文采用CoNLL 2003共享任務(wù)[1]提供的英文數(shù)據(jù)集進(jìn)行相關(guān)實(shí)驗(yàn)研究。該數(shù)據(jù)集來自1996年8月至1997年8月的路透社新聞。為方便研究者們在測試集上進(jìn)行性能比較,該數(shù)據(jù)集已經(jīng)預(yù)先劃定了訓(xùn)練集、驗(yàn)證集和測試集,從而避免了測試語料不統(tǒng)一的問題。如表1所示,整個語料包括14 987個訓(xùn)練樣本、3 466個驗(yàn)證樣本和3 684個測試樣本,包含地名(LOC)、組織名(ORG)、人名(PER)和其他命名實(shí)體(MISC)4類實(shí)體。語料中各數(shù)據(jù)集的句子、單詞和各類實(shí)體的分布如表1所示。
由于Ratinov和Roth[2]、Lample[9]等人在試驗(yàn)中采用的IOBES標(biāo)注方式表明了顯式的邊界標(biāo)記有助于模型性能的提升,因此本文使用IOBES標(biāo)注方式來替代傳統(tǒng)的IOB2標(biāo)注方式。
在結(jié)果評估上,本研究的評價結(jié)果是基于標(biāo)注結(jié)果和實(shí)際結(jié)果之間的匹配得到的,采用準(zhǔn)確率(Precision,P)、召回率(Recall,R)和F1值(F1-score)作為模型性能的評價指標(biāo)。

表1 CoNLL 2003 English語料統(tǒng)計
本文采用Theano深度學(xué)習(xí)框架[20],整個模型按照表2的參數(shù)設(shè)置進(jìn)行訓(xùn)練。在訓(xùn)練過程中,本文使用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)作為參數(shù)的優(yōu)化算法,學(xué)習(xí)率為0.015。為了免受梯度爆炸的影響,采用梯度截斷(Gradient Clipping)[21]方法,并設(shè)置該參數(shù)為5.0。本模型經(jīng)過訓(xùn)練,發(fā)現(xiàn)最佳驗(yàn)證集參數(shù)出現(xiàn)在第32輪。對于詞向量映射矩陣、字符向量映射矩陣,都允許它們動態(tài)地隨著反向傳播進(jìn)行更新。為了避免產(chǎn)生過擬合,在Finger和BiLSTM的輸入后采用了dropout率為0.5的正則化方法,實(shí)驗(yàn)發(fā)現(xiàn)dropout對于模型在性能上有著顯著的提升,具體性能比較參見2.4.2節(jié)。

表2 實(shí)驗(yàn)參數(shù)設(shè)置

2.4.1 詞向量比較
如表3所示,整個模型在預(yù)訓(xùn)練詞向量來源不一、維數(shù)不同情況下的表現(xiàn)存在一定的差異。從表中可以看到同為100維的詞向量,GloVe詞向量的性能遠(yuǎn)好于隨機(jī)初始化詞向量的結(jié)果,表明預(yù)訓(xùn)練詞向量對于模型性能提升有很大的幫助,其原因在于預(yù)訓(xùn)練詞向量包含了上下文語義信息,因此在進(jìn)行實(shí)體識別時可以取得更好的效果。同為50維的GloVe詞向量和Collobert的Senna詞向量[7],前者效果略差于后者,可能的原因是Senna的訓(xùn)練語料來源于路透社語料的第一卷(RCV-1),與NER的訓(xùn)練語料同源,因此在維度相同情況下性能略優(yōu);由Word2Vec訓(xùn)練獲得的300維詞向量和同維GloVe詞向量相比,后者明顯優(yōu)于前者,可能是因?yàn)镚loVe的字符均是小寫表示,而Word2Vec則是大小寫敏感,本實(shí)驗(yàn)并未做相關(guān)的預(yù)處理,導(dǎo)致部分單詞作為未登錄詞對待,影響了詞向量的表示能力。根據(jù)GloVe詞向量在不同維數(shù)上的表現(xiàn),實(shí)驗(yàn)表明并非隨著詞向量維數(shù)升高,模型的性能越佳,從而得出維數(shù)的過度增加帶來了信息冗余,反而造成性能下降的結(jié)論。綜上所述,預(yù)訓(xùn)練詞向量較大地提升實(shí)體識別模型的性能,詞向量的維度對于性能的影響極大,利用和訓(xùn)練語料同源的大規(guī)模語料訓(xùn)練得到的詞向量效果更佳。

表3 公開詞向量在NER上的表現(xiàn)
2.4.2 Dropout層的使用
為了分析dropout對于本模型在性能上的影響,關(guān)于dropout層的研究依照如下順序進(jìn)行實(shí)驗(yàn): (1)不使用dropout; (2)只在Finger上的字符物征層后使用dropout; (3)在(2)的基礎(chǔ)上,在BiLSTM的輸入前應(yīng)用dropout。如表4所示,實(shí)驗(yàn)結(jié)果表明dropout的使用能有效地防止過擬合,從而使整個模型的性能得到較大提升。

表4 dropout在各層中應(yīng)用的表現(xiàn)
2.4.3 模塊性能分析
根據(jù)2.3節(jié)的參數(shù)初始化和表2的超參數(shù)設(shè)置,分別對于LSTM、BiLSTM、Finger和CRF的性能進(jìn)行分析。在LSTM模型和BiLSTM模型的比較中,BiLSTM無論在準(zhǔn)確率、召回率和F1值上均高于LSTM,驗(yàn)證了BiLSTM考慮上下文信息后要優(yōu)于LSTM。從Finger-BiLSTM模型和BiLSTM模型的比較中,可以發(fā)現(xiàn)Finger-BiLSTM模型由于Finger產(chǎn)生的字符級詞表示和詞向量聯(lián)合輸入到BiLSTM,相比于只考慮語義信息的模型在性能上有顯著的提升,說明本文設(shè)計的字符級表示模型Finger學(xué)習(xí)到的形態(tài)學(xué)信息提升了模型的表示能力。由Finger-BiLSTM模型和Finger-BiLSTM-CRF模型的比較中,充分說明CRF層在解碼過程中利用了序列中的全局標(biāo)簽信息,對于模型性能有明顯的提升,使Finger-BiLSTM-CRF模型在充分考慮單詞的語言學(xué)信息的同時,融合標(biāo)簽序列的全局信息,從而使模型性能最優(yōu)。具體性能細(xì)節(jié)見表5。

表5 模型在CoNLL 2003英文語料的驗(yàn)證集和測試集上的性能
2.4.4 關(guān)于Finger的顯著性檢驗(yàn)
為了進(jìn)一步證明字符級模型Finger的有效性并不是隨機(jī)產(chǎn)生,本文基于樣本分布未知的前提,采用威爾科克森符號秩檢驗(yàn)(Wilcoxon rank sum test)進(jìn)行驗(yàn)證。
如表6所示,驗(yàn)證集和測試集的準(zhǔn)確率P、召回率R和F1值均為實(shí)驗(yàn)的平均值,通過P值檢驗(yàn)Finger-BiLSTM-CRF和BiLSTM-CRF之間的平均性能是否存在顯著差異。
由表6可得如下結(jié)論: Finger產(chǎn)生的字符級特征能為模型在召回率帶來顯著的提升(p=0.0002<0.01),從而使整個模型在F1值上的表現(xiàn)與原模型存在顯著差異(p=0.0002<0.01)。

表6 模型的顯著性檢驗(yàn)
2.4.5 Finger與主流方法的比較
表7為本模型和其他公開方法在CoNLL 2003英文NER語料上的比較。Collobert等[7]采用前饋神經(jīng)網(wǎng)絡(luò)結(jié)合預(yù)處理和詞綴、大小寫特征,取得了F1值為89.59%的結(jié)果。Huang等[8]采用LSTM-CRF模型融合拼寫、詞性和上下文特征,達(dá)到了90.10%的結(jié)果。Passos等[4]采用CRF結(jié)合詞典和短語向量,達(dá)到了90.90%的結(jié)果。本文不借助于任何人工構(gòu)造的特征,僅使用Finger自動抽取的形態(tài)學(xué)特征和詞向量,通過端到端方式訓(xùn)練實(shí)體識別模型,在CoNLL 2003 NER數(shù)據(jù)上取得了91.09%的結(jié)果,性能優(yōu)于上述模型。實(shí)驗(yàn)結(jié)果表明本文設(shè)計的NER模型可以有效利用字符特征和詞向量表示單詞信息,同時結(jié)合BiLSTM學(xué)習(xí)上下文信息,利用CRF對標(biāo)簽序列進(jìn)行全局推斷,達(dá)到了較好的模型性能。

表7 本模型和主流方法的性能比較(括號內(nèi)表示端到端情況下的性能)
從字符級詞表示模型角度出發(fā),表7顯示: Lample等[9]的LSTM-CRF模型采用BiLSTM學(xué)習(xí)字符級詞表示,達(dá)到了90.94%的結(jié)果;Chiu等[10]采用BLSTM-CNN模型結(jié)合DBpidia和Senna的詞典特征,達(dá)到了91.62%的最先進(jìn)結(jié)果,但在未使用詞典特征下,該模型只能達(dá)到90.98%的結(jié)果。本模型在同為BiLSTM-CRF模型且沒有任何附加特征的情況下,獲得了91.09%的結(jié)果,超過了Lample和Chiu等人的結(jié)果。實(shí)驗(yàn)結(jié)果表明,相比較于BiLSTM和CNN,字符級模型Finger具有更強(qiáng)的形態(tài)學(xué)信息的刻畫能力,這與Attention機(jī)制所具有精確的信息刻畫能力有著密不可分的聯(lián)系,而BiLSTM、CNN分別只能定性或靜態(tài)地表示單詞的詞綴特征,因此無法準(zhǔn)確表達(dá)單詞的信息。為了更為深入地研究Attention機(jī)制的表示能力,我們將在2.4.6進(jìn)行進(jìn)一步的分析。
在Finger與傳統(tǒng)模型和神經(jīng)網(wǎng)絡(luò)模型的先進(jìn)方法比較中,Luo等的模型[5]采用實(shí)體識別任務(wù)和實(shí)體鏈接任務(wù)聯(lián)合訓(xùn)練來相互提升各自的性能,而本模型在不借助于其他任務(wù)帶來的額外信息的情況下,采用端到端方式獨(dú)立訓(xùn)練實(shí)體識別任務(wù),取得了91.09%的結(jié)果。同時,本模型的Finger采用Attention機(jī)制,因而Finger具備了刻畫字符對于字符級詞表示的貢獻(xiàn)的能力;Chiu和Nichols等人的方法[10]結(jié)合DBpidia和Senna的詞典特征,同時采用CNN抽取字符特征,但所表示的特征僅能靜態(tài)地表示詞形信息,而Finger在精確刻畫每個字符的貢獻(xiàn)的同時,動態(tài)地表示形態(tài)學(xué)特征,且在端到端的比較中,F(xiàn)inger的表現(xiàn)明顯優(yōu)于CNN。實(shí)驗(yàn)結(jié)果表明Attention機(jī)制為構(gòu)建字符級表示模型提供了理論基礎(chǔ)和實(shí)踐價值。
2.4.6 樣例分析
通過比較BiLSTM-CRF模型和Finger-BiLSTM-CRF模型,我們發(fā)現(xiàn)模型在加入Finger模型后在召回率上有顯著提升。為了探究這一現(xiàn)象,我們對錯誤樣例進(jìn)行分析,發(fā)現(xiàn)存在部分樣例是由于缺少形態(tài)學(xué)信息導(dǎo)致模型對于實(shí)體邊界產(chǎn)生了誤判,造成模型對實(shí)體判別出現(xiàn)偏差。在圖3所示的例子中,我們可以清楚地看到Finger在實(shí)體識別中發(fā)揮著重要作用。
在大規(guī)模語料中,單詞Do通常以動詞形式出現(xiàn),而實(shí)體由名詞構(gòu)成,所以本例中的BiLSTM-CRF模型結(jié)合上下文和大量語料信息判斷Do為非實(shí)體類型,而融合了Finger產(chǎn)生的詞形特征的BiLSTM-CRF模型成功識別Do作為實(shí)體Kim Do Hoon的一部分。圖3表明,我們設(shè)計的Finger模型能有效融合字符和詞形信息,有助于NER系統(tǒng)進(jìn)行實(shí)體識別。
為了進(jìn)一步分析Finger的有效表示能力,本文在圖4中展示了各字符對于單詞的貢獻(xiàn)度(顏色越深表明在詞表示中的權(quán)重越大)。

圖3 Finger模型的糾錯能力實(shí)例

圖4 Finger模型可視化
我們可以從圖4中清楚地看到實(shí)體Kim Do Hoon各單詞的首字母均呈現(xiàn)較高權(quán)重,這和我們對于命名實(shí)體特征的認(rèn)知保持高度一致。圖4表明本文設(shè)計的Finger模型不同于BiLSTM和CNN,該模型通過Attention機(jī)制,展現(xiàn)了良好的可解釋能力,能定量表示詞內(nèi)各字符對于字符級詞表示的貢獻(xiàn)程度,所呈現(xiàn)的詞表示對于NER系統(tǒng)的實(shí)體識別能力有較大的提升。
盡管詞形信息的加入顯著提升了模型性能,但同時存在著常識性單詞作為實(shí)體時的誤判。如圖5所示,F(xiàn)inger模型感知到單詞Award的拼寫形式,將Lombardi Award判別為實(shí)體,修正了BiLSTM-CRF模型形態(tài)學(xué)信息缺失造成的實(shí)體判別問題,但無法根據(jù)該實(shí)體的上下文信息正確判斷該實(shí)體的類型。在模型無法通過上下文標(biāo)簽有效判別出實(shí)體的類型時,一種可能的解決方案就是引入外部資源,而如何通過外部資源得到常識性信息成為我們下一步工作的研究方向之一。

圖5 Finger模型的錯誤實(shí)例
本文構(gòu)造一種完全端到端、無需人工特征的神經(jīng)網(wǎng)絡(luò)模型Finger-BiLSTM-CRF用于命名實(shí)體識別任務(wù)。該模型引入詞向量特征,并融合了字符特征信息,使模型充分考慮語義信息和形態(tài)學(xué)信息,在避免了傳統(tǒng)統(tǒng)計模型所需的大量特征工程的同時,彌補(bǔ)了此前一些神經(jīng)網(wǎng)絡(luò)未能考慮詞內(nèi)信息的缺陷,增強(qiáng)了向量特征對于未登錄詞的表示能力。該模型既結(jié)合了BiLSTM學(xué)習(xí)單詞的上下文信息的能力,同時又保留了CRF模型通過全局信息推斷標(biāo)簽的能力,在CoNLL 2003英文數(shù)據(jù)集上取得了F1為91.09%的結(jié)果,超過了大部分公開方法,并在端到端模型中達(dá)到了較先進(jìn)水平。
同時,本文提出一種基于Attention機(jī)制的細(xì)粒度字符級詞表示模型Finger。Finger在考慮字符信息的同時,引入形態(tài)學(xué)信息,通過Attention機(jī)制捕獲形態(tài)學(xué)信息和字符信息的相互聯(lián)系,在有效解決實(shí)體識別模型中形態(tài)學(xué)信息缺失、未登錄詞表示不佳等問題的同時,產(chǎn)生一種可解釋的詞表示。通過字符Attention可視化證明Finger能充分挖掘詞形特征,并深入分析了字符級模型Finger對于NER系統(tǒng)的有效性。
盡管本文通過Finger學(xué)習(xí)到形態(tài)學(xué)信息,但語言學(xué)中的其他信息無法通過NER系統(tǒng)捕獲。因此,在未來研究中,我們會更多地通過聯(lián)合訓(xùn)練或者由基于知識庫的模型引入外部資源以獲得更多的語言學(xué)信息,從而提升模型性能。