999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Transformer 編碼器的中文命名實體識別模型

2022-07-14 13:10:56司逸晨管有慶
計算機工程 2022年7期
關鍵詞:信息模型

司逸晨,管有慶

(南京郵電大學 物聯網學院,南京 210003)

0 概述

自然語言處理(Natural Language Processing,NLP)是計算機科學、人工智能領域的重要研究方向,旨在使計算機理解人類的語言并進行有效交互。命名實體識別(Named Entity Recognition,NER)是自然語言處理中的關鍵技術,主要用于識別語句中人名、地名、機構名、專有名詞等包含特定意義的實體,廣泛應用于文獻關鍵詞提取、電子病歷疾病特征抽取等任務,可細分為通用領域的命名實體識別以及金融、醫療、軍事等特定領域[1]的命名實體識別。早期研究多數基于詞典和規則進行命名實體識別,之后機器學習技術被廣泛應用于命名實體識別任務中。近幾年,隨著計算機性能的不斷提升,深度學習技術大幅提升了命名實體識別的準確率。

基于深度神經網絡的命名實體識別模型一般將命名實體識別任務視作序列標注任務,對文本中的每一個字打上對應的標簽,根據標簽序列識別命名實體。目前,主流的基于深度學習的序列標注模型通常采用字嵌入層、編碼層和解碼層三層結構,文本中的字首先通過字嵌入層生成對應的字向量,然后在編碼層進行上下文編碼以學習語義,最后在解碼層中生成對應的標簽,不同的命名實體識別模型均是針對這三層進行改進[2-3]。在自然語言處理任務中,循環神經網絡(Recurrent Neural Network,RNN)被廣泛應用于各種任務的編碼層,其中雙向長短期記憶(Bidirectional Long Short-Term Memory,BiLSTM)網絡是命名實體識別任務中常見的循環網絡結構。文獻[3]提出基于BiLSTM 和條件隨機場(Conditional Random Field,CRF)的命名實體識別模型,利用BiLSTM 的雙向編碼能力進行前后文編碼,通過CRF 學習標簽間的序列順序,是目前主流的命名實體識別模型。文獻[4]提出的Lattice-LSTM 模型在BiLSTM 模型的基礎上進行改進,通過對編碼層進行修改可在字向量中編碼詞語信息。文獻[5-7]研究表明BiLSTM 采用的門結構雖然能幫助解決梯度消失問題,但是三個門單元也導致了計算量的增加,延長了模型訓練時間,而Lattice-LSTM 對編碼層的改進進一步增加了模型訓練負擔[8]。近幾年,文獻[9]提出的Transformer 機器翻譯模型被廣泛應用于各自然語言處理任務,其基于注意力機制獲取文本中字符間的長距離依賴,采用的并行結構也可以提升模型訓練效率。但在命名實體識別任務中,使用Transformer 作為編碼器的性能表現并不理想。文獻[10-12]指出Transformer 機器翻譯模型采用的絕對位置編碼在經過模型自身注意力運算后會丟失字符中的相對位置信息,影響最終識別效果。

雖然BiLSTM 模型在命名實體識別任務中表現較好,但是BiLSTM 訓練速度較慢。Lattice-LSTM模型通過對編碼層的改進在字向量中添加了詞信息,但進一步增加了模型的計算負擔。Transformer編碼器因為丟失了字符相對位置信息,無法充分發揮其性能優勢。針對上述問題,本文提出一種基于Transformer 編碼器的中文命名實體識別模型。在字嵌入層中,使用結合詞典的字向量編碼方法將詞語信息嵌入字向量。在Transformer 編碼器層中,改進自注意力計算方式,同時引入相對位置編碼方法,從而在模型中加入相對位置信息。

1 中文命名實體識別模型

基于Transformer 編碼器的命名實體識別模型的整體可以分為字嵌入層、Transformer 編碼器層和條件隨機場層三層。在字嵌入層中,使用結合詞典的字向量編碼方法生成包含詞語信息的字向量。在Transformer 編碼器層中,對字向量進一步編碼以學習前后文特征,同時通過修改注意力運算方式和引入相對位置編碼,取得字符的相對位置信息。最終通過條件隨機場層獲取最優標簽序列,根據標簽序列識別命名實體。基于Transformer 編碼器的命名實體識別模型如圖1 所示,其中,輸出的“B”標簽代表命名實體的開頭,“I”標簽代表命名實體的結尾,“O”標簽代表這個詞不是命名實體,在Transformer 編碼層中包含多個Transformer 編碼器。

圖1 基于Transformer 編碼器的中文命名實體識別模型Fig.1 Chinese NER model based on Transformer encoder

1.1 結合詞語信息的字嵌入層

在命名實體識別模型的字嵌入層中,需要將輸入語句的每一個字映射為固定維度的字向量,以便后續的編碼。在中文命名實體識別任務中,基于字符的編碼方法難以利用詞語的信息,因此本文提出一種結合詞典的字向量編碼方法,使生成的字向量可以包含詞語的信息。

對于字向量的生成,首先需要進行字嵌入模型的選擇。Word2Vec 是一款經典的語言嵌入模型[13-15],具體實現了Skip-Gram(跳字)和連續詞袋(Continue Bag-of-Words,CBOW)兩種模型,其中跳字模型的核心思想是使用中心字預測背景字,連續詞袋模型的核心思想是使用背景字預測中心字。這兩種模型都可以在不進行人工標注的前提下利用神經網絡訓練生成字向量,并且字向量中包含了上下文本的信息[16],然而在實際實驗中,一般使用跳字模型生成字向量。

在選擇好字嵌入模型后,將介紹融入詞語信息的字向量編碼方法。Lattice-LSTM 模型[4]對LSTM的結構作了大幅修改,在字嵌入的同時引入詞信息,并最終證明了在字向量中加入詞語信息可以增強中文命名實體識別準確率[17]。但是,Lattice-LSTM 模型[4]對LSTM 的修改增加了訓練時需要更新的參數量,增加了模型計算開銷,同時這種修改難以應用于使用其他神經網絡進行編碼的命名實體識別模型。針對上述問題,本文提出一種相對簡單的在字嵌入層引入詞語信息的字向量編碼方法。該方法只對命名實體識別模型的字嵌入層進行修改,從而保證了模型整體計算效率不受太大影響,同時該方法也具有較強的可移植性。

字向量編碼方法的具體步驟如下:1)對于輸入文本進行分句處理;2)使用Lattice-LSTM 模型中開源的中文分詞詞典作為句中每個字對應的詞典,其中約包括29 萬雙字符詞匯和28 萬三字符詞匯;3)對于文本中的每一個字符c,根據詞典匹配句子中所有包含該字符的詞,使用B(c)、M(c)、E(c)3 個集合編碼這個字包含的詞信息,其中,B(c)表示所有以字符c開頭且長度大于1 的詞,M(c)表示包含字符c且字符c不在開頭和末尾的詞,E(c)表示以字符c結尾且長度大于1 的詞,如果集合為空,則添加一個特殊的空詞None 到集合中。如圖2 所示,字符c“5胃”出現在詞“腸胃炎”的中間、詞“胃炎”的首部、詞“腸胃”的底部,因此對應的詞向量集合B(c5)為{“胃炎”}、E(c5)為{“腸胃”}、M(c5)為{“腸胃炎”},這樣可將句中字符“胃”對應的3 個詞的信息“腸胃”、“胃炎”、“腸胃炎”通過字符的3 個集合進行完整收錄。

圖2 融合詞語信息的編碼示意圖Fig.2 Schematic diagram of encoding fusing word information

在獲得每個字符的B、M、E3 個詞語集合后,根據創建的3 個集合,將詞語信息融入到字向量中,構造新的字向量,如式(1)所示:

其中:xnew表示最終生成的包含詞語信息的字向量;xc表示根據跳字模型直接使用Word2Vec 模型訓練生成的字向量表示根據B、M、E3 個詞語集合生成的特征向量表示字向量和特征向量的拼接。的具體生成方法如下:

其中:[v(B),v(M),v(E)]表示根據B、M、E3 個詞語集合生成的特征向量的拼接。每個特征向量v(s)的計算公式如下:

其中:s表示B、M、E中任意一個詞語集合;|s|表示集合中詞的總數;v(s)表示集合對應的特征向量;w表示詞語集合中的詞;ew表示詞w對應的詞向量。通過式(3)實現了在字向量中加入詞語信息,從而豐富了字向量的特征。

1.2 加入相對位置信息的Transformer 編碼器層

Transformer 編碼器的具體結構如圖3 所示,編碼器的輸入為之前生成的字向量,由于Transformer沒有使用遞歸和卷積的方式編碼字的位置信息,因此添加了一種額外的位置編碼來表示序列中每個字的絕對位置信息。

圖3 Transformer 編碼器結構Fig.3 Structure of Transformer encoder

位置編碼的計算如式(4)和式(5)所示:

其中:PPE為二維矩陣,矩陣的列數和之前生成的字向量維數相同,PPE中的行表示文本中每一個字對應的位置向量,列表示位置向量的維度,位置向量的總維數等于字向量的總維數;l表示字在輸入文本中的索引;d表示位置向量的總維數;i表示位置向量具體的維度,取值范圍為表示索引為l的字的位置向量在偶數維度的值,使用正弦函數計算;表示索引為l的字的位置向量在奇數維度的值,使用余弦函數計算;Transformer 編碼器中將作為三角函數的輸入,使相對距離越大的輸入產生的相關性越弱,并將位置編碼和字向量相加得到最終的字向量。

為便于計算,Transformer 編碼器使用絕對位置編碼方法,但是這種編碼方法在經過Transformer 編碼器內部的注意力運算后會丟失相對位置信息。假設輸入序列為X,根據Transformer 編碼器的注意力計算方法,序列中第i個字和第j個字的注意力計算分數如式(6)所示:

其中:Wq和Wk是注意力計算中使用的生成查詢向量的權重矩陣和生成鍵向量的權重矩陣;Vi和Vj是第i個字和第j個字的字向量;Pi和Pj是第i個字和第j個字的位置向量。對式(6)進行因式分解得到式(7):

其中:ViTWqTWkVj不包含位置 編碼;ViTWqTWkPj只包含序列中第j個字的位置向量Pj;PiTWqTWkVj只包含第i個字的位置向量Pi;PiTWqTWkPj中同時包含序列中第i個字和第j個字的位置向量Pi和Pj。事實上,根據Transformer 編碼器的編碼方式,PiTPj包含相對位置信息。對于文本中任意一個字符i,將位置向量展開如式(8)所示:

其中:k表示字符i和字符j的距離,k=j-i。由三角函數的性質可知,cos(a-b)=sin(a)sin(b)+cos(a)cos(b),因此將式(9)化簡可得:

圖4 Transformer 位置向量乘積結果可視化Fig.4 Visualization of product result of position vector

為加強Transformer編碼器對相對位置的感知能力,在文獻[17]研究的基礎上,對式(7)中Transformer編碼器的注意力計算公式進行修改。相比于文獻[17],沒有選擇銳化Transformer 的注意力矩陣,而是通過基于正弦函數的相對位置編碼減少模型的注意力參數,同時保留字符間的距離信息和相對位置信息,提升模型在中文命名實體識別任務中的性能表現,計算公式如式(11)所示:

其中:u和v表示可學習的參數向量;Ri,j是根據式(10)修改的相對位置編碼。因為在引入相對位置編碼后無需再使用注意力機制中的查詢向量查詢字符i的絕對位置Pi,所以使用參數向量u和v替換式(7)中的其中Wq、u和v均是可學習的參數。Ri,j表示字符i和字符j的相對位置編碼,替換了式(7)中代表相對位置信息的相對位置編碼的具體編碼方式如式(12)所示:

相對位置編碼方法實質上是將式(10)中的cos 函數替換成sin 函數。在式(10)中因為三角函數cos(-x)=cos(x)導致Transformer 編碼器使用的原始位置編碼對相對距離的感知缺乏方向性,而sin(-x)=-sin(x),所以相對位置編碼Ri,j對方向敏感。通過上述修改,Transformer 編碼器在進行注意力運算后不會再丟失相對位置信息,在感知字符距離變化的同時也具備了方向感知能力。

1.3 條件隨機場層

在本文命名實體識別模型中,Transformer 編碼器層只能獲取包含進一步上下文信息的字向量,即使加入了詞語信息和相對位置編碼,也無法考慮最終預測標簽之間的依賴關系,比如標簽I 必須在標簽B 后。因此,模型中采用條件隨機場層考慮標簽之間的相鄰關系來獲取全局最優的標簽序列。條件隨機場模型是一種經典的判別式概率無向圖模型,該模型經常被應用于序列標注任務[18],對于輸入句子x=(x1,x2,…,xn),句子標簽序列y=(y1,y2,…,yn)的打分如式(13)所示:

其中:A為轉移得分矩陣表示由標簽yi轉移到標簽yi+1的轉移得分;y0和yn+1表示句中起始和終止標簽,這兩個標簽只在計算時臨時添加表示第i個字被標記為yi的概率。用softmax 函數歸一化得到y標簽序列的最大概率,如式(14)所示:

其中:LLoss表示損失函數。使用經過標注的文本迭代訓練命名實體識別模型直至損失函數Loss 小于閾值ε,ε為事先設定好的常量。利用維特比算法求得全局最優序列,最優序列為最終命名實體識別模型的標注結果,如式(16)所示:

其中:y*為集合中使得分函數取得最大值的標簽序列。

2 實驗結果與分析

將基于Transformer 編碼器的命名實體識別模型與其他基于深度學習的命名實體識別模型進行性能對比,使用Weibo 和Resume 中文命名實體識別數據集進行實驗,利用精確率、召回率以及F1 值作為實驗主要的評估指標,通過實驗結果驗證基于Transformer 編碼器的命名實體識別模型性能。

2.1 實驗數據準備

Weibo 數據集來源于新浪微博上選取的標注信息,具體包括2013 年11 月至2014 年12 月約1 900 條信息[8]。Resume 數據集來源于新浪金融上的中文簡歷信息,包含人名、種族、職稱等8 類實體,共涉及4 731 條經過標注的中文簡歷信息[7]。2 個數據集的詳細統計信息如表1 所示。

表1 數據集統計信息Table 1 Dataset statistics 103

2.2 實驗環境與參數設置

實驗模型采用復旦大學提供的開源自然語言處理框架FastNLP 搭建[19],使用Dropout算法防止模型過擬合。實驗環境設置如表2 所示。實驗中的超參數設置如表3 所示。模型性能對于超參數學習率和Batch Size較為敏感。在實際操作中,Batch Size 選擇16,通過使用小批量的樣本集增加模型迭代次數,更快達到擬合點,對應選擇0.001 的學習率以保持訓練穩定性,同時將Dropout 設為0.3 以防止模型過擬合。

表2 實驗環境設置Table 2 Setting of experimental environment

表3 實驗超參數設置Table 3 Setting of experimental hyperparameters

2.3 與其他模型的對比結果與分析

引入基于ID-CNN+CRF的命名實體識別模型(簡稱為ID-CNN+CRF)[20]和經典的基于BiLSTM+CRF的命名實體識別模型(簡稱為BiLSTM+CRF)作為對比模型,在Weibo和Resume數據集上分別進行對比實驗。由于基于Transformer編碼器的命名實體識別模型中加入了相對位置信息,簡稱為Transformer+Relative Position+CRF。在Resume數據集上3種模型的實驗結果如表4所示,F1值變化曲線如圖5所示。從表4 和圖5 可以看出,基于Transformer 編碼器的命名實體識別模型在Resume 數據集上取得了最優結果,F1 值達到了94.7%,略高于基于BiLSTM+CRF 的命名實體識別模型和基于ID-CNN+CRF 的命名實體識別模型。同時,基于Transformer 編碼器的命名實體識別模型在第20 個Epoch 時F1 值開始增長緩慢,模型趨近于收斂,說明基于Transformer 編碼器的命名實體識別模型相比基于BiLSTM 的命名實體識別模型和基于ID-CNN 的命名實體識別模型具有更快的收斂速度。

表4 Resume 數據集上3 種模型的實驗結果Table 4 Experimental results of three models on Resume dataset %

圖5 3 種模型在Resume 數據集上的F1 值變化曲線Fig.5 F1 value change curves of three models on Resume dataset

在Weibo 數據集上3 種模型的實驗結果如表5所示,F1 值變化曲線如圖6 所示。從表5 和圖6 可以看出,在Weibo 數據集上3 種模型的效果均不理想,基于Transformer 編碼器的命名實體識別模型的F1 值僅達到58.2%,相比其他兩個模型提升有限。根據對Weibo 數據集的觀察發現,3 種模型識別效果均不佳的原因主要為:1)Weibo 數據集的數據樣本量較小,模型訓練效果不佳;2)Weibo 數據集中包含大量的人名類實體和地名類實體,基于深度學習的命名實體識別模型很難通過神經網絡提取實體特征,從而影響了最終識別效果。

表5 Weibo 數據集上3 種模型的實驗結果Table 5 Experimental results of three models on Weibo dataset %

圖6 3 種模型在Weibo 數據集上的F1 值變化曲線Fig.6 F1 value change curves of three models on Weibo dataset

在基于Transformer 編碼器的命名實體識別模型中,分別對字嵌入層和Transformer 編碼器層做了改進,其中字嵌入層使用融合詞語信息的字向量編碼方法,Transformer 編碼器層加入相對位置信息。為驗證這些改動的有效性,引入原始基于Transformer+CRF 的命名實體識別模型在Resume 數據集上做進一步的對比實驗,如圖7 所示。從圖7 可以看出,基于Transformer 編碼器的命名實體識別模型相比原始基于Transformer+CRF 的命名實體識別模型,F1 值約提升了2 個百分點,證明了在字嵌入層中的詞語信息及Transformer 編碼器層中的相對位置信息可有效提升命名實體識別模型的最終識別效果。

圖7 2 種模型在Resume 數據集上的F1 值變化曲線Fig.7 F1 value change curves of two models on Resume dataset

3 結束語

本文針對中文命名實體識別過程中的詞語信息丟失問題,提出一種基于Transformer 編碼器的中文命名實體識別模型。該模型使用結合詞典的字向量編碼方法使字向量中包含詞語信息,通過改進Transformer 編碼器的注意力運算以及引入相對位置編碼方法增加字符的相對位置信息。在Weibo 和Resume 中文命名實體識別數據集上的實驗結果表明,該模型相比于其他主流命名實體識別模型具有更好的識別效果。后續可在MSRA 等數據集上,將該模型與其他基于深度學習的中文命名實體識別模型進行性能對比,進一步增強模型泛化能力。

猜你喜歡
信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
一個相似模型的應用
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 亚洲婷婷在线视频| 国产成人综合日韩精品无码不卡 | 中文字幕66页| 97se亚洲| 毛片在线看网站| 亚洲91在线精品| 色悠久久久久久久综合网伊人| 99re经典视频在线| 国产在线自在拍91精品黑人| аⅴ资源中文在线天堂| 在线免费看黄的网站| 中文字幕无码av专区久久| 亚洲精品国产综合99| 色老二精品视频在线观看| 国产在线观看一区精品| 国产成人精品视频一区视频二区| 在线看国产精品| 亚洲成人网在线观看| 69视频国产| 日本欧美一二三区色视频| 欧美三级自拍| 久久99国产综合精品1| 亚洲床戏一区| 波多野结衣无码视频在线观看| 亚洲最新在线| 亚洲精选高清无码| 色婷婷啪啪| 国产又大又粗又猛又爽的视频| 中文字幕第4页| 国产一区二区三区在线观看视频| 国产精品嫩草影院视频| 国产麻豆福利av在线播放| 色悠久久综合| 免费看av在线网站网址| 777国产精品永久免费观看| 日本精品αv中文字幕| 97国产精品视频自在拍| 88av在线| 国产欧美日韩专区发布| 19国产精品麻豆免费观看| 国产一区二区三区视频| 91麻豆精品视频| 欧美色综合网站| 亚洲国产天堂久久综合| 国产亚洲精品精品精品| 日韩欧美网址| 久青草网站| 亚洲三级影院| 欧美一级99在线观看国产| 少妇精品网站| 国产欧美精品午夜在线播放| 啪啪啪亚洲无码| 亚洲精品免费网站| 久久a级片| 欧美在线国产| 久久夜色精品| 日韩福利在线观看| 99久久精品国产麻豆婷婷| av无码一区二区三区在线| 色综合五月婷婷| 2021国产乱人伦在线播放| 免费a级毛片18以上观看精品| 亚洲日本中文字幕天堂网| 91无码国产视频| 国产视频a| 夜夜高潮夜夜爽国产伦精品| 中日无码在线观看| 激情视频综合网| 久久国产乱子伦视频无卡顿| 日韩欧美国产中文| 国产一级毛片高清完整视频版| 国产91小视频| 国产自在自线午夜精品视频| 精品福利网| 日本午夜在线视频| 色香蕉影院| 欧美午夜视频在线| 熟女日韩精品2区| 曰AV在线无码| 国产清纯在线一区二区WWW| www.国产福利| 婷婷伊人久久|