999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT嵌入的中文命名實體識別方法

2020-04-20 05:02:58董文永
計算機工程 2020年4期
關鍵詞:語言信息模型

楊 飄,董文永

(武漢大學 計算機學院,武漢 430072)

0 概述

命名實體識別(Named Entity Recognition,NER)技術可用于識別文本中的特定實體信息,如人名、地名、機構名等,在信息抽取、信息檢索、智能問答、機器翻譯等方面都有廣泛應用,是自然語言處理的基礎方法之一。一般將命名實體識別任務形式化為序列標注任務,通過預測每個字或者詞的標簽,聯合預測實體邊界和實體類型。

隨著神經網絡的迅速發展,不依賴人工特征的端到端方案逐漸占據主流。文獻[1]基于單向長短期記憶(Long-Short Term Memory,LSTM)模型和神經網絡進行命名實體識別,提出LSTM-CRF模型。基于LSTM良好的序列建模能力,LSTM-CRF成為命名實體識別的基礎架構之一,很多方法都是以LSTM-CRF為主體框架,在其基礎上融入各種相關特征。例如文獻[2]加入手工拼寫特征,文獻[3-4]使用一個字符CNN來抽取字符特征,文獻[5]采用的是字符級LSTM。也有基于CNN的命名實體識別方案,例如文獻[6]提出的CNN-CRF結構,文獻[7]在CNN-CRF基礎上提出使用字符CNN來增強的模型。此后,文獻[8]采用空洞卷積網絡(IDCNN-CRF)進行命名實體識別,在提取序列信息的同時加快了訓練速度,文獻[9]在BiLSTM-CRF模型的基礎上利用注意力機制獲得詞在全文范圍內的上下文表示,并將該模型應用于化學藥物實體識別任務,通過在生物文本上預訓練詞向量以及使用字符級LSTM,獲得了90.77%的F1值。文獻[10]采用GRU計算單元,提出了基于雙向GRU的命名實體識別方法,并將其應用于會議名稱識別任務。文獻[11]將CNN-BiLSTM-CRF模型應用于生物醫學語料中,獲得了較高的F1值。文獻[12]針對裁判文書的實體抽取提出SVM-BiLSTM-CRF模型,主要抽取動產、不動產、知識財產3類實體。該模型利用SVM判斷含有關鍵詞的句子,并將其輸入BiLSTM-CRF模型中進行抽取。文獻[13]針對在線醫療網站的文本,提出IndRNN-CRF和IDCNN-BiLSTM-CRF模型,性能均優于經典的BiLSTM-CRF模型。

中文存在字和詞的區分,因此,在中文領域存在基于字的命名實體識別、基于詞的命名實體識別、基于字和詞的聯合命名實體識別3種方案。文獻[14-15]通過字級別和詞級別統計方法的對比,表明基于字符的命名實體識別方法一般有更好的表現。因此,一些研究者在基于神經網絡的命名實體識別模型中采用基于字的命名實體識別方案[16-17]。另一些研究人員在字級別的命名實體識別方案中融入了詞的信息,例如文獻[18-19]將分詞信息作為soft feature來增強識別效果,文獻[20]則通過將分詞和命名實體識別聯合訓練來融合分詞信息。文獻[21]提出的Lattice LSTM網絡結構效果較好,其將傳統的LSTM單元改進為網格LSTM,在字模型的基礎上顯性利用詞與詞序信息,且避免了分詞錯誤傳遞的問題,在MSRA語料上F1值達到93.18%。

以上基于字的中文命名實體識別方法普遍存在的問題是無法表征字的多義性,例如在句子“這兩批貨物都打折出售,嚴重折本,他再也經不起這樣折騰了”中,3個“折”字表達的是不同的含義,但是在以往的字向量表示方法中,3個字的向量表示完全一樣,這與客觀事實不符。較好的詞表示應能包含豐富的句法和語義信息,并且能夠對多義詞進行建模,針對這個問題,研究人員提出使用預訓練語言模型的方法來進行詞表示。文獻[22]使用一個詞級別的語言模型來增強NER的訓練,在大量原始語料上實現多任務學習。文獻[23-24]采用BiLSTM網絡結構,通過預訓練一個字符語言模型來生成詞上下文表示以增強詞的表示。文獻[25]建立的BERT模型則采用表義能力更強的雙向Transformer網絡結構來預訓練語言模型。

由于BERT預訓練語言模型具有較強的語義表達能力,因此本文通過嵌入該模型的雙向Transformer編碼結構,構建BERT-BiGRU-CRF模型,以提高中文命名實體識別準確率。

1 BERT-BiGRU-CRF 模型

BERT-BiGRU-CRF模型整體結構如圖1所示,整個模型分為3個部分,首先通過BERT預訓練語言模型獲得輸入的語義表示,得到句子中每個字的向量表示,然后將字向量序列輸入BiGRU中做進一步語義編碼,最后通過CRF層輸出概率最大的標簽序列。

圖1 BERT-BiGRU-CRF模型結構Fig.1 BERT-BiGRU-CRF model structure

與傳統的命名實體識別模型相比,本文模型最主要的區別是加入了BERT預訓練語言模型。BERT預訓練語言模型在大規模語料上學習所得,可以通過上下文計算字的向量表示,能夠表征字的多義性,增強了句子的語義表示。該模型有2種訓練方式:一種是訓練整個BERT-BiGRU-CRF模型的參數;另一種是固定BERT參數,只訓練BiGRU-CRF部分參數。第2種訓練方式相對于第1種訓練方式可以大幅減少訓練參數,縮短訓練時間。

1.1 BERT預訓練語言模型

近年來,研究人員將預訓練深度神經網絡作為語言模型,在此基礎上以針對垂直任務進行微調的方式取得了很好的效果。比較典型的語言模型是從左到右計算下一個詞的概率,如式(1)所示:

(1)

在將預訓練模型應用于垂直領域時,有時并不需要語言模型,而是需要一個字的上下文表示以表征字的多義性和句子的句法特征。針對該問題,文獻[22]提出了BERT預訓練語言模型,其結構如圖2所示。為融合字左右兩側的上下文,BERT采用雙向Transformer作為編碼器。該文還提出了Masked語言模型和下一個句子預測2個任務,分別捕捉詞級別和句子級別的表示,并進行聯合訓練。

圖2 BERT預訓練語言模型結構Fig.2 BERT pretrained language model structure

Masked語言模型用于訓練深度雙向語言表示向量,該方法采用一個非常直接的方式,即遮住句子里某些單詞,讓編碼器預測這個單詞的原始詞匯。文獻[22]隨機遮住15%的單詞作為訓練樣本,其中,80%用masked token來代替,10%用隨機的一個詞來替換,10%保持這個詞不變。

下一個句子預測是指預訓練一個二分類的模型來學習句子之間的關系。很多NLP任務如QA和NLI都需要對2個句子之間關系的理解,而語言模型不能很好地直接產生這種理解。為理解句子關系,該方法同時預訓練了一個下一個句子預測任務。具體做法是隨機替換一些句子,然后利用上一句進行IsNext/NotNext的預測。

BERT最重要的部分是雙向Transformer編碼結構,Transformer舍棄了RNN的循環式網絡結構,完全基于注意力機制對一段文本進行建模。Transformer編碼單元如圖3所示。

圖3 Transformer編碼單元Fig.3 Transformer coding unit

編碼單元最主要的模塊是自注意力(Self-Attention)部分,如式(2)所示:

(2)

其中,Q、K、V均是輸入字向量矩陣,dk為輸入向量維度。

上述方法的核心思想是計算一句話中的每個詞對于這句話中所有詞的相互關系,然后認為這些詞與詞之間的相互關系在一定程度上反映了這句話中不同詞之間的關聯性以及重要程度。在此基礎上,利用這些相互關系來調整每個詞的重要性(權重)即可獲得每個詞新的表達。這個新的表征不但蘊含了該詞本身,還蘊含了其他詞與這個詞的關系,因此,其與單純的詞向量相比是一個更加全局的表達。

為擴展模型專注于不同位置的能力,增大注意力單元的表示子空間,Transformer采用了“多頭”模式,如式(3)和式(4)所示:

MultiHead(Q,K,V)=

Concat(head1,head2,…,headh)Wo

(3)

(4)

此外,為解決深度學習中的退化問題,Transformer編碼單元中還加入了殘差網絡和層歸一化,如式(5)和式(6)所示:

(5)

FFN=max(0,xW1+b1)W2+b2

(6)

在自然語言處理中一個很重要的特征是時序特征,針對自注意力機制無法抽取時序特征的問題,Transformer采用了位置嵌入的方式來添加時序信息,如式(7)和式(8)所示。BERT的輸入是詞嵌入、位置嵌入、類型嵌入之和。

PE(Ppos,2i)=sin(Ppos/10 0002i/dmodel)

(7)

PE(Ppos,2i+i)=cos(Ppos/10 0002i/dmodel)

(8)

與其他語言模型相比,BERT預訓練語言模型可以充分利用詞左右兩邊的信息,獲得更好的詞分布式表示。

1.2 BiGRU層

GRU(Gated Recurrent Unit)是一種特殊循環神經網絡(Circulatory Neural Network,RNN)。在自然語言處理中,有很多數據前后之間具有關聯性,傳統前向神經網絡無法對這種數據建模,由此出現了循環神經網絡。

循環神經網絡通過引入定向循環來處理序列化數據,其網絡結構分為3層,分別為輸入層、隱層、輸出層。隱層之間可以前后相連,使得當前隱層的信息可以傳遞到下個節點,作為下個節點輸入的一部分,這樣使得序列中的節點能夠“記憶”前文的信息,達到序列建模的目的。

RNN神經網絡理論上可以處理任意長度的序列信息,但是在實際應用中,當序列過長時會出現梯度消失的問題,且很難學到長期依賴的特征。針對這個問題,文獻[26]改進了循環神經網絡,提出了LSTM模型。LSTM單元通過輸入門、遺忘門和輸出門來控制信息傳遞。

GRU[27]是RNN的另一種變體,其將遺忘門和輸入門合成為一個單一的更新門,同時混合細胞狀態和隱藏狀態。GRU單元結構如圖4所示,具體計算過程如式(9)~式(12)所示。

圖4 GRU編碼單元Fig.4 GRU coding unit

zt=σ(Wi*[ht-1,xt])

(9)

rt=σ(Wr*[ht-1,xt])

(10)

(11)

(12)

其中,σ是sigmoid函數,·是點積。x=(x1,x2,…,xn)為時刻t的輸入向量,x=(x1,x2,…,xn)是隱藏狀態,也是輸出向量,包含前面t時刻所有有效信息。zt是一個更新門,控制信息流入下一個時刻,rt是一個重置門,控制信息丟失,zt和rt共同決定隱藏狀態的輸出。

單向的RNN只能捕獲序列的歷史信息,對于序列標注任務而言,一個字的標簽和該字的上下文都有關系。為充分利用上下文信息,文獻[28]提出了雙向循環神經網絡(BRNN),之后文獻[29]提出了BiLSTM模型,將單向網絡結構變為雙向網絡結構,該模型有效利用上下文信息,在命名實體識別等序列標注任務中得到廣泛應用。

GRU與LSTM相比結構更加簡單,參數更少,可以縮短訓練時間。由于GRU良好的序列建模能力,使得GRU在語音識別、命名實體識別和詞性標注等方面都得到廣泛應用。

1.3 CRF層

GRU只能考慮長遠的上下文信息,不能考慮標簽之間的依賴關系,如在命名實體識別中,有些標簽不能連續出現,因此,模型不能獨立地使用h(t)來做標簽決策,而CRF能通過考慮標簽之間的相鄰關系獲得全局最優標簽序列,故使用CRF來建模標簽序列。

CRF對于給定序列x=(x1,x2,…,xn)和對應的標簽序列y=(y1,y2,…,yn),定義評估分數計算公式如式(13)所示:

(13)

其中,Wi,j表示標簽轉移分數,Pi,yi表示該字符的第yi個標簽的分數。Pi定義如式(14)所示:

Pi=Wsh(t)+bs

(14)

其中,W是轉換矩陣,h(t)是上一層t時刻輸入數據x(t)的隱藏狀態。

對CRF的訓練采用的是最大條件似然估計,對訓練集合{(xi,yi)},其似然函數如式(15)所示,P計算如式(16)所示,表示原序列到預測序列對應的概率。

(15)

(16)

2 實驗結果與分析

2.1 實驗數據

本文采用MSRA數據集,該數據集是微軟公開的命名實體識別數據集,包含人名、機構名、地名3類實體。數據集中包括訓練集和測試集,訓練集共包含4.64×104個句子、2.169 9×106個字,測試集包括4.4×103個句子、1.726×105個字。各類實體統計如表1所示。

表1 數據集實體個數Table 1 Number of entities in data set

2.2 標注策略與評價指標

命名實體識別的標注策略有BIO模式、BIOE模式、BIOES模式。本文采用的是BIO標注策略,其中“B”表示實體開始,“I”表示實體非開始部分,“O”表示非實體的部分。因為在預測實體邊界時需要同時預測實體類型,所以待預測的標簽共有7種,分別為“O”“B-PER”“I-PER”“B-ORG”“I-ORG”“B-LOC”和“I-LOC”。在測試過程中,只有當一個實體的邊界和實體的類型完全正確時,才能判斷該實體預測正確。

命名實體識別的評價指標有精確率P、召回率R和F1值F1。具體定義如式(17)所示。其中,TP為模型識別正確的實體個數,FP為模型識別到的不相關實體個數,FN為相關實體但是模型沒有檢測到的個數。

(17)

2.3 實驗環境

實驗計算機配置如下:Ubuntu操作系統,i7-6700HQ@2.60 GHz的CPU,Python 3.6,Tensorflow 1.12.0,16 GB內存。

2.4 實驗過程

BERT-BiGRU-CRF模型有2種訓練方式:一種是訓練模型全部參數;另一種是固定BERT部分參數,只更新BiGRU-CRF參數。本文使用這兩種方式分別進行實驗。

為證明模型的有效性,將BERT-BiGRU-CRF模型與以下模型進行對比:

1)BiGRU-CRF模型。該模型是序列標注經典模型,基于字的標注,采用預訓練好的字向量,然后輸入BiGRU-CRF模型中進行訓練。

2)Radical-BiLSTM-CRF模型[17]。該模型在BiLSTM-CRF的基礎上融入筆畫信息,將字的筆畫序列輸入BiLSTM中得到字的表示,然后以字的Embedding和筆畫表示連接,作為該字新的語義表示輸入上層BiLSTM-CRF中進行訓練。

3)Lattice-LSTM-CRF模型[21]。該模型在中文語料上達到了較好的效果,Lattice-LSTM網絡結構充分融合了字信息和該字的潛在詞信息,可有效避免分詞的錯誤傳遞。

2.5 參數設置

Google提供的預訓練語言模型分為2種:BERT-Base和BERT-Large。2種模型網絡結構相同,只有部分參數不同。實驗中采用的是BERT-Base。BERT-Base共12層,隱層為768維,采用12頭模式,共110M個參數。最大序列長度采用128,train_batch_size為16,learning_rate為5e-5,droup_out_rate為0.5,clip為5,BiGRU隱藏層維數為128。

2.6 實驗結果

BERT-BiGRU-CRF模型F1值隨訓練輪數的變化如圖5所示,其中BERT-BiGRU-CRF-f模型表示在訓練過程中更新整個模型的參數,BERT-BiGRU-CRF表示固定BERT參數,只更新BiGRU-CRF部分參數。BERT-BiGRU-CRF-f模型在訓練12個epoch時達到最大F1值95.43%;BERT-BiGRU-CRF模型也是在訓練12個epoch時達到最大F1值94.18%;BiGRU-CRF模型在第14個epoch達到最大F1值87.97%。BERT-BiGRU-CRF訓練一輪的時間是394 s,BiGRU-CRF訓練一輪的時間是406 s,BERT-BiGRU-CRF-f訓練一輪的時間為2 044 s。另外測得Lattice-LSTM-CRF模型訓練一輪的時間為7 506 s,在第37個epoch才得到最優F1值,總體訓練時間遠超BERT-BiGRU-CRF模型。

圖5 F1值變化曲線Fig.5 Curve of F1 value changes

針對人名(PER)、地名(LOG)、機構名(ORG)3類實體的準確率、召回率、F1值如表2所示,可以看出其中機構類實體預測準確率偏低,主要原因在于機構名中很多存在地名嵌套、縮略詞、歧義等干擾信息,在沒有其他充足的上下文時容易預測錯誤。

表2 不同類型命名實體識別結果Table 2 NER results for different types of entities %

部分錯例如表3所示。可以看出:例句1的機構名中嵌套了地名,類似的例子還有“中國政府陪同團”“中國東盟”等;例句2中出現了“工商聯”這一縮寫,類似的還有“理事會” “委員會”等;例句3中則出現了歧義的情形。這種情況下如果沒有補充的上下文會導致難以預測。

表3 預測錯誤實例Table 3 Examples of wrong prediction

本文模型與其他模型的對比如表4所示。可以看出,對比BERT-BiGRU-CRF模型和BiGRU-CRF模型,本文模型能提高6.21%的F1值,說明BERT預訓練語言模型能更好地表示字的語義信息,這是因為BERT生成的字向量是上下文相關的,例如在句子“羅布汝信湯洪高安啟元許其亮阮崇武”中,正確實體劃分應該是“羅布|汝信|湯洪高|安啟元|許其亮|阮崇武”,表示6個名字的并列,但在BiGRU-CRF模型中,“安啟元”這個實體無法正確識別,而是將“湯洪高安啟元”作為一個整體,主要原因是“安”字作為姓氏比較少見,在傳統詞向量中只能表義“平安”“安定”等,而在BERT-BiGRU-CRF模型中,生成的“安”字語義向量是上下文相關的,在該語句的上下文中包含有姓氏的含義,與“民族團結,社會安定”中的“安”字相比,生成的語義向量不同,語義不同。同樣的例子還有“普”“亢”作為姓氏的情形。

表4 不同模型命名實體識別結果Table 4 NER results of different models %

BERT-BiGRU-CRF模型與Radical-BiLSTM-CRF模型、Lattice-LSTM模型相比效果更好,說明BERT的特征抽取能力比較強,抽取的特征比單獨訓練筆畫特征和字詞融合特征更準確。對比BERT-BiGRU-CRF-f和BERT-BiGRU-CRF模型可以看出,BERT-BiGRU-f效果更好,但訓練參數量更大,所需要的訓練時間更長。

3 結束語

針對傳統詞向量表示方法無法表征字多義性的問題,本文構建BERT-BiGRU-CRF模型,通過BERT預訓練語言模型雙向Transformer結構動態生成字的上下文語義表示。該模型性能優于Lattice-CRF模型,可有效提升中文命名實體識別的效果,但其缺點是當上下文信息不足且存在實體嵌套、縮寫、歧義實體等情形時,無法實現對語句特征的正確抽取。下一步將在本文模型中融入潛在詞特征,結合BERT與Lattice LSTM表征字的多義性,同時加入潛在詞的特征,以應對上下文信息不足的情況。

猜你喜歡
語言信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
讓語言描寫搖曳多姿
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
累積動態分析下的同聲傳譯語言壓縮
3D打印中的模型分割與打包
我有我語言
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 美女一级毛片无遮挡内谢| 国产视频入口| 亚洲中文字幕久久精品无码一区| 欧美影院久久| 精品超清无码视频在线观看| 伊人成人在线| 欧美午夜在线观看| 国产精品午夜福利麻豆| 欧美中文字幕第一页线路一| 欧亚日韩Av| 欧美国产日韩一区二区三区精品影视 | 国产精品无码制服丝袜| 成人在线观看不卡| 国产哺乳奶水91在线播放| 国产精品免费入口视频| 欧美成人A视频| 99在线视频免费| 永久免费无码成人网站| 欧美怡红院视频一区二区三区| 国产成人91精品| 在线人成精品免费视频| 成人午夜精品一级毛片| 欧美精品啪啪一区二区三区| 久久精品国产免费观看频道| 97精品伊人久久大香线蕉| 狂欢视频在线观看不卡| 中文字幕亚洲无线码一区女同| 国产成人一区二区| 国产日韩av在线播放| 亚洲精品不卡午夜精品| 黄色网在线| 中文字幕在线看视频一区二区三区| 欧美日韩导航| 色婷婷在线影院| 国产91蝌蚪窝| 欧美色视频日本| 国产美女自慰在线观看| 午夜限制老子影院888| 欧美伦理一区| 久久精品最新免费国产成人| 国产亚洲精品无码专| 在线免费观看a视频| 欧美一级专区免费大片| 久久semm亚洲国产| 亚洲成人一区二区| 人妻丰满熟妇AV无码区| 青青草原国产av福利网站| 99国产精品一区二区| 天天躁夜夜躁狠狠躁躁88| 亚洲a级在线观看| 伊人网址在线| 国产视频你懂得| 久久亚洲综合伊人| 无码不卡的中文字幕视频| 久久天天躁夜夜躁狠狠| 91无码网站| 亚洲黄色片免费看| 激情無極限的亚洲一区免费| 精品国产美女福到在线不卡f| 永久免费av网站可以直接看的| 亚洲欧美精品一中文字幕| 全部无卡免费的毛片在线看| 欧美区一区| 无码国产伊人| 午夜爽爽视频| 精品国产99久久| 人妻中文字幕无码久久一区| 中文字幕不卡免费高清视频| 九九久久99精品| 欧美日韩激情在线| 国产chinese男男gay视频网| 日韩欧美中文字幕在线精品| 国内精品一区二区在线观看| 日本www在线视频| 国产精品美乳| 成人av专区精品无码国产 | 少妇被粗大的猛烈进出免费视频| 国产香蕉一区二区在线网站| www.99精品视频在线播放| AV天堂资源福利在线观看| 欧美精品导航| 五月天婷婷网亚洲综合在线|