999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合字詞特征的中文嵌套命名實體識別

2022-01-26 05:10:04黃銘劉捷戴齊
現(xiàn)代計算機 2021年34期
關鍵詞:文本實驗方法

黃銘,劉捷,戴齊

(西南交通大學計算機與人工智能學院,成都 611756)

0 引言

隨著數(shù)據(jù)挖掘與人工智能的發(fā)展,人們對數(shù)據(jù)潛在價值的重視程度日益提升。作為知識抽取的重要組成部分,命名實體識別成為當下研究熱點之一。命名實體識別常作為序列標注任務處理,需要同時預測實體的邊界及實體的類別。目前,命名實體識別常采用Bi-LSTM作為文本特征提取器,并使用CRF(conditional random fields)對標簽的相對關系進行約束,組合形成Bi-LSTMCRF[1]作為模型進行訓練。此外,針對訓練文本的詞嵌入,采用單詞的字符特征與預訓練的詞向量結合的形式,常用的字符特征提取方法包括CNN[2-3](convolutional neural networks)、LSTM[4](long short-term memory)等。不同于英文命名實體識別,中文命名實體識別的訓練文本沒有明確的詞邊界,需要進行分詞處理。因此,中文命名實體識別常伴隨錯誤傳播問題,分詞錯誤將直接導致命名實體識別錯誤,且不同的分詞方法分詞結果不同可能導致詞嵌入時OOV(out of vocabu?lary)。

研究表明,針對命名實體識別任務,基于字粒度的詞嵌入方法性能要優(yōu)于基于詞粒度的詞嵌入方法[5-6]。然而,基于字粒度的詞嵌入方法同樣存在問題。首先,基于字粒度的詞嵌入方法能夠傳遞的信息有限,會忽略文本中許多隱含信息。此外,相同字在不同詞語中表達的含義也可能不同。例如,在鐵路領域,“正線”和“到發(fā)線”中的“線”指鐵路中的軌道線路,而“接地線”中的線表示電路中的電纜。這使得基于字粒度的詞嵌入方法的文本特征提取難度變大,而LSTM雖然能夠學習上下文信息,但對局部特征的提取能力不足,僅使用Bi-LSTM存在對潛在特征的提取能力不足的問題。此外,命名實體中常伴有實體嵌套,CRF結合常規(guī)的BIOES或BIO編碼方式無法完成對嵌套實體的標注。

針對上述兩個問題,本文采取基于字的詞向量嵌入方法,使用ANN對詞向量進行學習,并使用CNN提取局部的詞匯特征,通過結合字詞特征并使用Bi-LSTM學習文本上下文信息,并采用合并標簽標注方法解決實體嵌套問題。最后,本文在多個數(shù)據(jù)集上進行對比實驗,驗證了模型的有效性。

1 相關工作

命名實體識別指從文本中識別出特定類型實體的過程,常作為序列標注問題。根據(jù)使用方法不同可將其分為兩類:統(tǒng)計學習方法和深度學習方法。統(tǒng)計學習方法的常用模型包括HMM(hid?den markov models)和CRF。Ratinov等人[7]使用BIOES標注結合詞典與詞性標注特征在CoNLL03等數(shù)據(jù)集上取得當時最優(yōu)效果。Zhou等人[8]利用手工提取特征結合HMM在多個數(shù)據(jù)集上取得改進。王蓬輝等人[9]使用生成對抗網絡自動生成大量數(shù)據(jù)標注,并將其應用于醫(yī)療實體識別并展現(xiàn)出良好的效果。雖然統(tǒng)計學習方法在過去的工作中展現(xiàn)出良好的效果,但此類方法需要結合領域知識和大量特征工程,需要消耗大量的人力資源,且普適性較差。隨著深度學習的發(fā)展,神經網絡模型在序列標注任務中展現(xiàn)出良好的效果,基于深度學習的命名實體識別方法應運而生,許多學者提出基于神經網絡的自動學習方法。Huang等人[1]提出使用LSTM-CRF模型進行命名實體識別,并取得當時最優(yōu)效果。張應成等人[10]使用LSTM-CRF進行商情實體識別。Chiu等人[2]和Ma等人[3]使用CNN提取字符特征,結合LSTM-CRF模型提出LSTM-CNNs-CRF模型。買買提阿依甫等人[11]將LSTM-CNNs-CRF模型應用于維吾爾文命名實體識別。羅熹等人[12]使用結合多頭自注意力機制與Bi-LSTM-CRF模型,對中文臨床文本進行命名實體識別。Yang等人[13]提出使用nbest策略改進CRF,并整合各類表征學習方法提出NCRFpp開源框架。隨著BERT等的預訓練模型出現(xiàn),許多學者基于BERT模型提出了許多高性能模型。Emelyanov等人[14]整合Bert、Bi-LSTM、多頭注意力機制及NCRF,在命名實體識別任務及文本分類任務中取得良好效果。此外,由于中文文本的特殊性,針對中文命名實體識別的研究亦層出不窮。例如,Liu等人[5]和Li等人[6]針對中文命名實體識別的詞嵌入粒度進行研究,證明了基于字的詞嵌入方法具有更好的性能。Zhang等人[15]通過使用Lattice LSTM進行表征學習,同時使用了基于字的詞向量嵌入和基于詞的詞向量嵌入方法,并多個數(shù)據(jù)集上證明有效。

命名實體識別常伴有實體嵌套問題,如圖1所示。

圖1 嵌套實體示意圖

實體嵌套問題在各個領域普遍存在,如生物[16-17]、醫(yī)療[18]等。針對命名實體識別中的實體嵌套問題,國內外許多學者提出了解決方案。目前,現(xiàn)有的嵌套實體識別的處理方法可分為四種。第一種方法將命名實體識別任務作為序列標注任務,使用多層的扁平實體識別模型識別嵌套實體。Alex等人[16]提出使用多層CRF進行嵌套命名實體識別,每層CRF負責標注特定類型的實體。Ju等人[17]通過動態(tài)堆疊扁平實體識別網絡,動態(tài)識別大實體中的小實體,直至沒有實體被識別出為止,有效解決實體嵌套識別問題。第二種為基于超圖的命名實體識別方法。Lu等人[19]及Muis等人[20]先后提出基于超圖的嵌套實體識別模型。第三種為Wang等人[21]采用的Shift-Reduce系統(tǒng),Shift-Reduce系統(tǒng)將嵌套實體識別任務轉換為Action序列預測任務,結合Stack-LSTM取得了良好的識別效果。最后一種為基于MRC(machine reading comprehension)的方法,Li等人[22]提出將命名實體識別任務轉換為MRC問題,針對每種類型實體,通過問答的方式分別提取文本中的句子類型。文中提出的實體頭尾指針標注方法目前在多個領域得到了廣泛應用。

雖然許多學者提出了針對命名實體識別的解決方案,但針對中文命名實體識別基于字進行詞嵌入潛在問題的研究較少,結合字詞向量進行文本表征的Latice LSTM在訓練時需要查找詞表,導致訓練效果較慢。本文針對中文命名實體識別的字嵌入特征提取困難問題,提出使用ANN、CNN及Bi-LSTM的組合網絡CACL(Combination of ANN CNN and LSTM)作為文本表征學習的方法,增強了神經網絡特征提取能力。此外,針對命名實體識別的嵌套實體問題,本文采用經典的序列標注方法,通過使用合并序列標簽結合CRF的形式進行嵌套實體的標注。

2 模型

本文模型由表征學習方法及實體識別方法組成,模型示意圖如圖2所示。

圖2 模型示意圖

如圖2所示,模型共包括5個部分:詞嵌入層、ANN、CNN、Bi-LSTM與CRF。其中,詞嵌入層、ANN、CNN及Bi-LSTM為模型的表征學習方法。其中,Bi-LSTM層數(shù)可根據(jù)實際情況增減。為實現(xiàn)嵌套實體識別,模型最后一部分使用合并標簽標注方法結合CRF進行實體標注。

2.1 表征學習方法

2.1.1 詞嵌入層

詞嵌入層旨在將原始文本轉換為分布式的向量表示。給定長度為n的句子S={w1,w2,w3,…,wn},其中wi表示原始文本中的第i個字。通過查找預訓練的詞向量,詞嵌入層將原始文本S轉換為分布式的向量表示S={w1,w2,w3,…,wn},其中未找到對應詞向量的字通過隨機初始化的詞向量進行嵌入。

2.1.2 ANN

ANN是一種淺層的全連接神經網絡,通過連接大量神經元的加權運算與激活函數(shù)構成。本文利用ANN對文本的詞向量進行進一步學習,使其能夠更準確表示原始文本特征,其運算公式如式(1)所示。

其中anni為ANN的輸出向量,wi為詞嵌入后獲取的文本的向量表示;Wa和b a為神經網絡的自學習參數(shù),Wa為權重矩陣,ba為偏移量矩陣;tanh為激活函數(shù)。

2.1.3 CNN

CNN是一類包含卷積運算的神經網絡,通過使用卷積核平移進行輸入向量的局部加權求和進行表征學習,對局部特征提取能力較強。由于本文是針對文本進行卷積操作,因此此處使用一維卷積進行特征提取,計算公式如式(2)所示。

其中l(wèi)為卷積核長度ωm為卷積核中第m個待學習參數(shù)。此外,為保證卷積后文本長度不變,卷積核長度應設置為單數(shù),并使用長度為(l-1)/2的空值對文本前后進行填充。

2.1.4 Bi-LSTM

Bi-LSTM是LSTM的變體,由一層前向LSTM和一層后向LSTM組成,通過連接兩層LSTM的輸出,可以有效學習序列前后的關聯(lián)關系,其計算公式如式(3)所示。

2.2 解碼層

如上文所述,本文采用合并標簽標注方法結合CRF進行嵌套實體標注,以下將對方法進行詳細介紹。

2.2.1 合并標簽方法

合并標簽方法通過將嵌套實體單個字符的多個標簽合并形成新的標簽,解決了單層標簽無法標注嵌套實體的問題,如圖3所示。

圖3 合并標簽示意圖

如圖3所示,“隧道”中心臟為“build”類型實體,“隧道襯砌”為“struct”類型實體。若通過常規(guī)的BIOES標注,“隧”和“道”都需要兩個標簽才能完成標注,CRF無法進行解碼。因此,本文通過合并標簽形成新的標簽,再使用CRF對其進行解碼。

2.2.2 CRF

CRF是一個概率模型,通過給定輸入x與前一時刻的狀態(tài)yt-1預測當前狀態(tài)yt。其概率計算公式如式(4)所示。

其中φt和φp為特征函數(shù),用于預測輸入x與y之間的關聯(lián)概率,用于表示當前狀態(tài)與前一個狀態(tài)的轉換概率。x為模型輸入,yt為當前狀態(tài),yt-1表示前一時刻狀態(tài)。最終,我們選用概率最大的狀態(tài)作為當前狀態(tài)預測值。此外,為了使CRF的輸入維度與標簽類別數(shù)保持一致,本文通過一個全連接層對Bi-LSTM的輸出進行降維,計算公式如式(5)所示。

其中Wl與b l為神經網絡待學習矩陣,oi為i時刻Bi-LSTM的輸出向量。

3 實驗

3.1 實驗概述

3.1.1 實驗方案及評價指標

本文實驗主要涉及5種文本表征方法,包括Bi-LSTM、IDs-CNN、Bi-GRU、CACL及Lattice LSTM[15]。其中,Bi-LSTM、IDs-CNN、Bi-GRU為序列數(shù)據(jù)表征常用的表征方法,CNN-LSTM為本文模型,而Lattice LSTM為Zhang等人提出的另一種融合字詞特征的表征網絡。此外,為驗證模型參數(shù)對模型性能影響,本文對模型中涉及的超參數(shù)進行實驗,并分析其對模型性能的影響,模型各參數(shù)如表1所示。

表1 實驗模型參數(shù)

其中,學習率及詞嵌入維度選用中文自然語言處理中常用的學習率0.001及詞嵌入維度300。詞向量采用Python gensim庫中的word2vec模型針對WIKI百科中文語料庫訓練獲取。神經網絡神經元數(shù)量取100-500,變化梯度為100。Dropou取[0.1-0.9],變化梯度為0.2。CNN的卷積核大小kernel size設為[3,5],并將填充長度padding分別設為[1,2]以保證卷積后句子長度不變,IDs-CNN的層數(shù)設置為4層。

實驗評價指標采用精確率(Precision)、召回率(Recall)及F1值,計算公式如式(6)、式(7)及式(8)所示。

其中TP表示將正類預測為正類數(shù),即識別出的正確的實體數(shù)量;FP表示將負類預測為正類數(shù),即識別出的錯誤的實體數(shù)量;F N表示將正類預測為負類數(shù),即未識別出的實體的數(shù)量。

3.1.2 實驗環(huán)境設置

本文實驗主要針對鐵路領域文本,使用《城際鐵路設計規(guī)范》TB10623-2014(以下簡稱TB10623)進行標注獲取訓練數(shù)據(jù)。此外,為進一步驗證模型有效性,本文選用第六屆中國健康信息處理會議(CHIP2020)命名實體識別子任務的公開數(shù)據(jù)集進行實驗,以下簡稱CHIP2020。數(shù)據(jù)集的簡介如表2所示。

表2 數(shù)據(jù)集簡介

如表2所示,CHIP訓練集中包含15000條訓練數(shù)據(jù)及5000條驗證數(shù)據(jù),包含疾病、臨床表現(xiàn)等9類實體;TB10623數(shù)據(jù)集包含895條訓練數(shù)據(jù)和228條驗證數(shù)據(jù),包含電氣設備、設計參數(shù)等6類實體。此外,由于CHIP2020數(shù)據(jù)集的測試集不包含標注,本文將訓練集按照8∶2的比例進行切分,分為訓練集和測試集。

此外,本文采用的實驗環(huán)境如表3所示。

表3 實驗環(huán)境設置

3.2 參數(shù)驗證實驗

為驗證模型參數(shù)對模型性能影響,并選取最優(yōu)實驗參數(shù),本部分實驗使用CHIP2020數(shù)據(jù)集,針對模型的隱藏神經元數(shù)量、Dropout參數(shù)及卷積神經網絡卷積核大小進行分別進行梯度取值對比。

3.2.1 隱藏神經元數(shù)量參數(shù)驗證

模型的隱藏神經元數(shù)量表示神經網絡中每一層中包含的神經元數(shù)量,增加模型的隱藏神經元數(shù)量可以有效增強模型的學習能力,但神經元數(shù)量過多會導致計算量增加和過擬合現(xiàn)象。本文對模型中的隱藏神經元數(shù)量分別取100-500,變化梯度為100進行對比實驗,實驗結果如圖4所示。

圖4 隱藏神經元數(shù)量對模型性能影響

當隱藏神經元數(shù)量為200—400時,模型性能趨于較好,且趨于穩(wěn)定。因此,出于對模型性能考慮,本文取200為隱藏神經元數(shù)量。

3.2.2 Dropout參數(shù)驗證

Dropout表示模型訓練時的丟失率,是Hinton等人[23]于2012年提出的防止過擬合的方法,過高的Dropout參數(shù)會導致模型學習能力下降,且收斂速度下降,而過低的Dropout參數(shù)將導致其效果不明顯。因此,本文選用0.1—0.9區(qū)間對其進行實驗,變化梯度為0.2。其實驗結果如圖5所示。

如圖5所示,當Dropout取0.5時模型取得最優(yōu)性能。因此,本文選用0.5為最終的Dropout參數(shù)。

圖5 Dropout對模型性能影響

3.2.3 卷積核大小驗證

CNN卷積核大小設置直接決定卷積計算范圍,由于本文使用CNN對局部的詞匯特征進行學習。因此,僅選用大小為3和5的卷積核進行實驗,實驗結果如表4所示。

表4 卷積核大小對模型影響

當卷積核大小為3時,模型效果最佳。因此,本文選用3為卷積核大小。

3.3 有效性驗證實驗

本部分實驗采用合并標簽方法作為嵌套實體識別方法,并使用Bi-LSTM、Bi-GRU、IDs-CNN及Lattice LSTM作為基線模型驗證CACL作為表征學習方法有效性。其中,模型參數(shù)取各模型多次實驗結果平均后最佳參數(shù),實驗結果如表5所示。

由表5可知,CACL作為表征學習方法的模型在兩個數(shù)據(jù)集上展現(xiàn)出最優(yōu)效果。

表5 有效性驗證實驗結果

在CHIP2020數(shù)據(jù)集實驗中,CACL的F1值比次優(yōu)模型的F1值分別高出1.21%和1.82%,同時模型的Precis i on和Recall均高于其他基線模型。而Lattice LSTM作為融合字詞特征的另一模型,其F1值略高于除CACL外其他模型,且除驗證集Recall指標略低于Bi-LSTM外,其他指標皆高于其他模型。此外,Bi-LSTM的訓練效果略高于IDs-CNN及Bi-GRU。

在TB10632數(shù)據(jù)集的實驗中,CACL的F1值在Dev及Test數(shù)據(jù)集中比次優(yōu)模型分別高出1.82%和1.59%,且除Test數(shù)據(jù)集中的Recall指標外,模型Precis i on及Recall指標均高于其他基線模型。而Lattice LSTM的各項指標均同樣高于除CACL外的其他模型。此外,與CHIP2020數(shù)據(jù)集不同,優(yōu)于TB10632數(shù)據(jù)集中文本較短,因此IDs-CNN的訓練效果略優(yōu)于Bi-LSTM及Bi-GRU。

以上結果表明,融合字詞特征可以有效提高命名實體識別能力,且CACL具有更好的文本表征效果。

4 結語

本文針對中文命名實體識別字向量嵌入方法文本表征學習困難問題,提出使用CACL作為文本表征學習方法,并對比現(xiàn)有嵌套實體識別方法,提出一種新穎的中文嵌套命名實體識別模型。實驗結果表明,ANN-Bi-LSTM作為中文命名實體識別表征學習方法是有效的。此外,嵌套實體識別方法對比實驗,本文選用Shift-Reduce系統(tǒng)作為嵌套實體識別方法,并與基線模型進行對比,證明本文模型的有效性。

當然,本文工作也具有一定的局限性。一方面,除了本文使用的本團隊標注的鐵路相關實驗數(shù)據(jù)外,本文模型僅在CHIP2020數(shù)據(jù)集進行驗證,針對其他領域數(shù)據(jù)集的有效性仍需進一步驗證。此外,針對TB10632數(shù)據(jù)集的實驗效果較差,需要進一步調整才能應用于實際應用場景。在未來工作中,我們將對模型做進一步改進并使用更多其他領域數(shù)據(jù)來驗證模型。

猜你喜歡
文本實驗方法
記一次有趣的實驗
在808DA上文本顯示的改善
做個怪怪長實驗
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 热这里只有精品国产热门精品| 欧美国产日本高清不卡| 婷婷五月在线| 久久综合五月婷婷| 亚洲视频免费在线看| 九色视频最新网址| jizz国产视频| 97在线观看视频免费| 国产精品久久久久婷婷五月| 久久这里只精品国产99热8| 免费一级无码在线网站| 国产人在线成免费视频| 2021天堂在线亚洲精品专区| 欧美成人免费午夜全| 再看日本中文字幕在线观看| 天堂亚洲网| 成人av专区精品无码国产 | 蜜桃视频一区二区| 激情综合网址| 中文无码精品A∨在线观看不卡 | 国产一在线观看| 91成人免费观看| 国产永久在线观看| 性色生活片在线观看| 在线观看av永久| 午夜高清国产拍精品| 亚洲综合天堂网| 99久久成人国产精品免费| 狠狠操夜夜爽| 国产簧片免费在线播放| 香蕉精品在线| 午夜视频在线观看免费网站| 国内精品91| 亚洲成a人片在线观看88| 四虎AV麻豆| 在线欧美a| 日日碰狠狠添天天爽| 色悠久久久| 亚洲精品国产自在现线最新| 天堂av综合网| 日韩成人免费网站| 国内黄色精品| 国产视频 第一页| 亚洲精品桃花岛av在线| 高清欧美性猛交XXXX黑人猛交| 国产亚洲精品无码专| 亚洲男人的天堂网| 国产成本人片免费a∨短片| 久久久久久久蜜桃| 国产无遮挡裸体免费视频| 午夜综合网| 国产精品第| 欧美一区日韩一区中文字幕页| 中文字幕有乳无码| 成人午夜网址| 在线观看欧美精品二区| 男人天堂伊人网| 在线观看视频一区二区| 欧美日韩一区二区在线播放| 一本久道久综合久久鬼色| 亚洲国产一成久久精品国产成人综合| 2021最新国产精品网站| 日韩一区二区在线电影| 色偷偷一区二区三区| 亚洲av无码久久无遮挡| 亚洲三级视频在线观看| a毛片基地免费大全| 欧美成人午夜在线全部免费| 欧美三級片黃色三級片黃色1| 国产精品原创不卡在线| 九九久久精品国产av片囯产区| 国产精品林美惠子在线观看| 国产成人a在线观看视频| 欧美a在线视频| 精品在线免费播放| 欧美精品成人| 久视频免费精品6| 国产精品密蕾丝视频| 久久精品只有这里有| 亚洲精品另类| 青青久视频| 亚洲最大综合网|