中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2025)16-0050-07
Chinese Named Entity Recognition Based on Data Augmentation and Multifeature Combination
LI Yuan
(School of InformationEngineering,Xinyang AgricultureandForestry University,Xinyang 4640oo,China)
Abstract:NamedEntityRecognition(NER)isanimportantand fundamentaltask inthefieldsofInformationRetrieval and Natural Language Procesing.At present,the mainstream methods based on character combination Attention Mechanism (AM)andcharacterand word combination AMare faced with problems such as corpus,Chinese word segmentationandoverfow Words.Therefore,from the perspectiveof dataset andthecombination ofcharacter and word,this paper proposes a method combining Data Augmentation (DA)and dynamic feature combinationofcharacter and worddomain information.The useof DAtechnologyimproves thequalityandexpands thescaleofcorpus,whilethedynamiccharacterand word featurescombined with domain information byusing AM provide efective textual semantic information.The paper conducts alarge numberof experiments onCCKS2o17and Commondatasets,andthe experimentalresultsshowthe effectivenessof the proposed model.
eywords:data augmentation; dynamic feature combination;Atention Mechanism; Chinese Named Entity Recognit
0 引言
作為信息檢索和自然語(yǔ)言處理(Natural LanguageProcessing,NLP)領(lǐng)域重要且基礎(chǔ)的前置任務(wù),命名實(shí)體識(shí)別(Named Entity Recognition,NER)有著廣泛的應(yīng)用前景,如文獻(xiàn)檢索、病歷抽取,知識(shí)圖譜等。NER是指在非結(jié)構(gòu)化文本中自動(dòng)識(shí)別出特定實(shí)體[1]。這些實(shí)體的結(jié)構(gòu)復(fù)雜,長(zhǎng)度不一[2]。目前隨著深度學(xué)習(xí)的興起,與結(jié)合注意力機(jī)制(AttentionMechanism,Attention)相結(jié)合的,能捕獲長(zhǎng)文本內(nèi)深層語(yǔ)義關(guān)系的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-directionalLongShort-TermMemory,Bi-LSTM)已成為解決NER的主要方法。依據(jù)輸入特征的不同,可分為基于字結(jié)合注意力的方法以及基于字詞結(jié)合注意力的方法。
基于字結(jié)合注意力機(jī)制的方法從字符出發(fā),將文本字向量作為輸入特征,并結(jié)合注意力機(jī)制進(jìn)行特征提取。在字粒度上,為了處理單詞間的內(nèi)部依賴(lài)、并解決深層網(wǎng)絡(luò)帶來(lái)的梯度爆炸問(wèn)題,Huang等[]率先將Bi-LSTM-CRF模型應(yīng)用到NER任務(wù)上;Cao等[依賴(lài)于字粒度信息,提出結(jié)合多個(gè)Bi-LSTM和多頭注意力機(jī)制的對(duì)抗網(wǎng)絡(luò)識(shí)別模型;Akbik等[借助Bi-LSTM-CRF實(shí)現(xiàn)了對(duì)首尾字符向量的整詞編碼,較好地提升了英文NER的性能;Zhu等[從數(shù)據(jù)集出發(fā),通過(guò)數(shù)據(jù)增強(qiáng),提升了LSTM-CNN模型的實(shí)體識(shí)別性能;Cui等[通過(guò)整詞遮蓋策略,提出捕捉更豐富語(yǔ)言特征的ChineseBERT識(shí)別模型。Shen等[8]則基于Prompt-Learning技術(shù),借助大模型的涌現(xiàn)能力改善了NER模型的理解能力。
但是中文詞語(yǔ)中包含較多有益于識(shí)別的詞粒度語(yǔ)義信息,單純基于字的方法卻會(huì)忽略詞粒度上的信息,因此基于字詞結(jié)合的方法獲得了更多的關(guān)注,如Ma等[開(kāi)發(fā)了結(jié)合字符和分詞信息的Bi-LSTM-CRF模型,較大地提升了模型的識(shí)別性能。但也有研究發(fā)現(xiàn)錯(cuò)誤的分詞會(huì)導(dǎo)致下游NER模型性能的衰減[10]。為減少錯(cuò)誤分詞帶來(lái)的不良影響,Zhang等[1探索了利用Gate結(jié)合的字和相鄰詞特征的LatticeLSTM模型;Zhang等[12]在此基礎(chǔ)上,提出利用靜態(tài)注意力機(jī)制結(jié)合字符粒度和外部字典信息的動(dòng)態(tài)元嵌入字(Dynamic Meta-Embeddings,DME)方法;李源等[13]則基于Lattice結(jié)構(gòu)和外部知識(shí),提出結(jié)合知識(shí)圖譜嵌入和位置信息的識(shí)別方法。
為了更好地處理中文NER,本文從數(shù)據(jù)集以及字詞結(jié)合的角度出發(fā),不僅考慮文本的規(guī)模,通用領(lǐng)域語(yǔ)義字粒度信息,還結(jié)合了專(zhuān)用領(lǐng)域詞粒度信息,依靠詞典和注意力機(jī)制實(shí)現(xiàn)對(duì)字詞特征的動(dòng)態(tài)結(jié)合。本文的貢獻(xiàn)總結(jié)如下:
1)提出一種對(duì)非命名實(shí)體進(jìn)行近義替換、隨機(jī)刪除、隨機(jī)新增的數(shù)據(jù)增強(qiáng)方法DWEDG,該方法具有較好的泛化能力,并能應(yīng)用于其他的NLP任務(wù)中。2)結(jié)合中文NER實(shí)際應(yīng)用情況,針對(duì)有標(biāo)簽語(yǔ)料不足以及錯(cuò)誤分詞的問(wèn)題,提出了一種結(jié)合數(shù)據(jù)增強(qiáng)和領(lǐng)域信息字詞特征的方法,實(shí)驗(yàn)顯示該方法能較好地處理中文NER。
1 研究方法
本節(jié)首先給出結(jié)合數(shù)據(jù)增強(qiáng)與多特征組合的中文NER網(wǎng)絡(luò)框架,如圖1所示,包括:
1)數(shù)據(jù)增強(qiáng)部分。快速生成與原文本語(yǔ)義空間相接近的語(yǔ)料。2)聯(lián)合嵌入部分。提供通用領(lǐng)域的字和專(zhuān)用領(lǐng)域的多個(gè)詞間的動(dòng)態(tài)特征組合信息。3)上下文特征提取部分。利用聯(lián)合嵌入部分的特征信息完成上下文特征提取。4)序列標(biāo)注部分。對(duì)生成的候選標(biāo)簽序列進(jìn)行擇優(yōu)選擇。
圖1模型網(wǎng)絡(luò)框架圖

1.1數(shù)據(jù)增強(qiáng)部分
有監(jiān)督學(xué)習(xí)的模型性能會(huì)受到數(shù)據(jù)的規(guī)模和質(zhì)量的嚴(yán)重制約。語(yǔ)料受限時(shí),如何快速有效提高模型的精度是NER任務(wù)的核心之一。目前文本數(shù)據(jù)增強(qiáng)主要包括回譯法[14]、基于對(duì)抗神經(jīng)網(wǎng)絡(luò)[15-16]的方法以及同義詞替換法[。前兩種方法需要多次迭代和轉(zhuǎn)換才能達(dá)到較高的精度且耗時(shí)較長(zhǎng),而基于同義詞替換的方法因其靈活且易于擴(kuò)展的特性得到了更多的關(guān)注。本文重點(diǎn)關(guān)注對(duì)非命名實(shí)體部分的增強(qiáng)處理,并設(shè)計(jì)了基于詞典和詞向量的以非命名實(shí)體為中心的數(shù)據(jù)生成 器(Based Dictionaryand Word2Vector Other-Entity-CentricDataGeneration,DWEDG),其數(shù)據(jù)處理流程如圖2所示。
圖2DWEDG流程圖

對(duì)于初始語(yǔ)料,首先根據(jù)標(biāo)簽截取出句子中的非命名實(shí)體部分,并對(duì)該部分進(jìn)行分詞處理,然后依據(jù)同義詞典以及余弦相似度進(jìn)行單詞間的相似度匹配,取高置信度同義詞進(jìn)行近義替換。為了提高文本的泛化能力,該部分依據(jù)真實(shí)文本中存在的數(shù)據(jù)丟失和數(shù)據(jù)重復(fù)現(xiàn)象,對(duì)同義替換后的結(jié)果進(jìn)行了隨機(jī)刪除和隨機(jī)新增的處理,最后將新生成的語(yǔ)句與原來(lái)的命名實(shí)體部分進(jìn)行拼接,整個(gè)過(guò)程會(huì)重復(fù)執(zhí)行直至產(chǎn)生的數(shù)據(jù)數(shù)目滿(mǎn)足需求時(shí)為止。
1.2 聯(lián)合嵌入部分
當(dāng)前主流詞嵌入方法,如FastText、ELMo等依托大規(guī)模通用語(yǔ)料訓(xùn)練,雖能有效捕捉詞匯的通用語(yǔ)義特征,但在領(lǐng)域遷移時(shí)面臨顯著挑戰(zhàn)。研究表明,醫(yī)療、法律等專(zhuān)業(yè)領(lǐng)域存在大量領(lǐng)域特異性語(yǔ)義關(guān)聯(lián),傳統(tǒng)詞向量在跨領(lǐng)域應(yīng)用時(shí)會(huì)出現(xiàn)特征漂移,導(dǎo)致語(yǔ)義表示失真。這種現(xiàn)象源于兩個(gè)核心問(wèn)題:
1)通用詞向量缺乏領(lǐng)域知識(shí)注入機(jī)制。
2)單一粒度表征難以適應(yīng)專(zhuān)業(yè)領(lǐng)域的分詞特性。
因此,本文構(gòu)造了一個(gè)使用通用領(lǐng)域中的字向量(embedding2)和特定領(lǐng)域信息中的詞向量(embedding1)的聯(lián)合嵌入單元。此外,為了避免僅使用字粒度信息而造成的分詞錯(cuò)誤和語(yǔ)義信息丟失風(fēng)險(xiǎn),本文使用了字粒度信息及其鄰居詞的信息。以“支氣管炎”中的“氣”為例進(jìn)行說(shuō)明,“氣”的鄰居包括“氣管”和“氣管炎”。這些相鄰詞可以為對(duì)應(yīng)的字符提供潛在的語(yǔ)義信息,特征的組合方式如圖3所示,而模型在迭代過(guò)程中,會(huì)通過(guò)更新參數(shù)自動(dòng)學(xué)習(xí)關(guān)聯(lián)矩陣。
圖3字詞特征的計(jì)算過(guò)程。

鄰居詞語(yǔ)義特征的不同導(dǎo)致其重要性也會(huì)有所不同。為了充分利用這些詞粒度的信息,本節(jié)利用通道注意力機(jī)制[17]實(shí)現(xiàn)鄰居詞間信息的自動(dòng)組合,其特征處理過(guò)程如式(1) ~ (3)所示。

xiw=Mc(xin)×xin
其中, r (.)是一個(gè)在頻道維數(shù)將不同長(zhǎng)度的鄰居詞進(jìn)行重塑組合的函數(shù)。為了彌補(bǔ)Avg-Pooling在編碼全局特性信息中所丟失的信息,本節(jié)采用了Max-Pooling操作進(jìn)行最顯著編碼特性的補(bǔ)充。Sigmoid的結(jié)果就表示權(quán)重 wij 。通過(guò)參數(shù)更新使得該機(jī)制能夠自動(dòng)學(xué)習(xí)相鄰詞之間的特征組合結(jié)果。
為了有效利用字符級(jí)和單詞級(jí)信息,再加之DME[12] 的啟發(fā),本文使用超參數(shù)實(shí)現(xiàn)對(duì)字符和單詞結(jié)合比例的控制,相關(guān)公式如下:

其中, ec 表示通用領(lǐng)域的字粒度嵌入向量查找表。xic 表示與輸入的字 ci 相對(duì)應(yīng)的字向量。
表示包含通用領(lǐng)域和專(zhuān)用領(lǐng)域信息的整體字符特征。本章通過(guò)式(5)將不同領(lǐng)域的字粒度信息和詞粒度信息結(jié)合起來(lái)。
1.3上下文特征提取
鑒于單向LSTM存在只考慮歷史信息而忽略未來(lái)語(yǔ)境信息的問(wèn)題,本文采用結(jié)合注意力機(jī)制的BiLSTM進(jìn)行上下文信息提取,相關(guān)公式如下:

其中, a?i? 表示當(dāng)前記憶單元的隱藏層狀態(tài)。
和
分別表示在第 i 個(gè)字符位置的正向和反向記憶網(wǎng)絡(luò)的隱藏狀態(tài)。 hi 表示兩個(gè)方向的隱藏狀態(tài)的組合。(204
是 Bi-LSTM對(duì)輸入的句子 s 的編碼結(jié)果。為了提取不同維度的有效特征,本文使用了空間注意力對(duì)結(jié)果進(jìn)行篩選。
, i∈{1,2,3} 表示輸入向量利用一個(gè) i×d1 卷積核進(jìn)行的卷積運(yùn)算。 Fi 表示使用的 i×d1 卷積進(jìn)行卷積的結(jié)果。
表示使用7×7 的卷積核對(duì)輸入向量進(jìn)行卷積運(yùn)算。AvgPool、MaxPool 分別表示 mean-pooling 和 max-pooling。 σ 表示Sigmoid型函數(shù)。top表示根據(jù)其重要性選擇top m 特征的函數(shù)。
表示使用不同卷積運(yùn)算提取的有效特征。 d2 的值為三次卷積運(yùn)算產(chǎn)生的特征總數(shù)。
1.4 序列標(biāo)注
對(duì)于輸出層,本文采用了線(xiàn)性鏈條件隨機(jī)場(chǎng)作為解碼層。它能夠基于前一個(gè)標(biāo)簽結(jié)果而影響后一個(gè)標(biāo)簽結(jié)果。本文將特征向量 sac 送入條件隨機(jī)場(chǎng)函數(shù),通過(guò)最小化損失函數(shù)找出最高概率的句子序列標(biāo)記。其公式如下所示:

其中,
表示位置標(biāo)簽矩陣, T∈
是前后標(biāo)簽間概率轉(zhuǎn)移矩陣, m 表示句子中詞的個(gè)數(shù),num_tags則是標(biāo)簽的個(gè)數(shù) wt∈
,
表示全連接層的參數(shù)。y表示所有輸出序列的集合。 yt 表示實(shí)際的標(biāo)簽。
2 實(shí)驗(yàn)與分析
2.1 實(shí)驗(yàn)數(shù)據(jù)
為更好地評(píng)價(jià)本文模型,本節(jié)同時(shí)使用了醫(yī)療領(lǐng)域 數(shù)據(jù)集CCKS2017(https://biendata.com/competition/CCKS2017_1/)和通用領(lǐng)域數(shù)據(jù)集Common (https://github.com/zjy-ucas/ChineseNER)進(jìn)行對(duì)比實(shí)驗(yàn),數(shù)據(jù)詳情如表1所示。此外,選取對(duì)應(yīng)通用領(lǐng)域數(shù)據(jù)集作為字向量的訓(xùn)練文本,并將文本所屬領(lǐng)域的數(shù)據(jù)集作為詞向量的訓(xùn)練文本。其中CCKS2017是一個(gè)醫(yī)學(xué)領(lǐng)域的公共數(shù)據(jù)集,它包括五個(gè)類(lèi)別:身體部位、癥狀和體征、檢查和檢驗(yàn)、疾病和診斷、治療,其所屬的領(lǐng)域?yàn)獒t(yī)學(xué)領(lǐng)域,數(shù)據(jù)規(guī)模較小。而Common則屬于通用領(lǐng)域公開(kāi)數(shù)據(jù)集,它包含三個(gè)類(lèi)別:地點(diǎn)、組織和人物,其所屬領(lǐng)域?yàn)橥ㄓ妙I(lǐng)域,數(shù)據(jù)規(guī)模大,語(yǔ)料充足。
表1實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)

2.2 實(shí)驗(yàn)參數(shù)設(shè)置
本實(shí)驗(yàn)是在Windows10系統(tǒng)下基于TensorFlow框架進(jìn)行的。其中在CCKS2017數(shù)據(jù)上使用的字向量和詞向量的維數(shù)均為300。采用的字符向量來(lái)自liu(https://liuhuanyong.github.io/),而詞向量則是通過(guò)在醫(yī)學(xué)領(lǐng)域文本上調(diào)用(https://github.com/RaRe-Technologies/gensim)計(jì)算而來(lái)。如果在采用的字詞向量中未出現(xiàn)當(dāng)前字詞,則使用取值范圍在[-1,1]內(nèi)且服從高斯分布的浮點(diǎn)數(shù)進(jìn)行向量初始化表示。
而在Common數(shù)據(jù)上使用的字詞向量的維數(shù)均為 50。利用 Zhang[12]等使用的屬于通用領(lǐng)域信息的字和詞向量進(jìn)行向量初始化。除此之外,還采用了來(lái)自Zhang等論文中的包含單字符、雙字符、三字符和其他粒度的鄰居詞的詞嵌入向量,以上鄰居詞共計(jì)704.4K ,實(shí)驗(yàn)所使用的其他超參數(shù)如表2所示。
表2超參數(shù)設(shè)置

2.3 評(píng)估方法
為了綜合評(píng)價(jià)模型的性能,本文采用準(zhǔn)確率 (P) 、召回率 (R) 和F1-score(F1)作為評(píng)價(jià)指標(biāo),各類(lèi)別指標(biāo)公式如下:

其中,TP表示真陽(yáng)的數(shù)目,F(xiàn)P表示假陽(yáng)的數(shù)目,F(xiàn)N表示假陰的數(shù)目。
2.4 對(duì)比模型
為驗(yàn)證本章所提模型的有效性,本節(jié)從深度學(xué)習(xí)領(lǐng)域,選擇以下與本文相關(guān)的且具有代表性的系統(tǒng)作為baseline模型:
1)Bi-LSTM-CRF。Huang[3]等率先將Bi-LSTM-CRF運(yùn)用于NLP序列標(biāo)注任務(wù)上。該模型通過(guò)Bi-LSTM編碼過(guò)去和未來(lái)的輸入特征,通過(guò)CRF利用前后序的標(biāo)簽規(guī)范當(dāng)前序標(biāo)簽的類(lèi)別。與基于機(jī)器學(xué)習(xí)的方法相比,該算法具有較高的魯棒性,對(duì)詞嵌入依賴(lài)較小的特點(diǎn)。本文使用Bi-LSTM-CRF來(lái)表示使用字粒度信息的NER模型。
2)Bi-LSTM-CNNs-CRF。Ma等[在Bi-LSTM-CRF的基礎(chǔ)上進(jìn)行了改進(jìn),提出將詞嵌入向量和使用CNN提取的字符級(jí)前后綴特征向量組合起來(lái),作為Bi-LSTM網(wǎng)絡(luò)的輸入編碼。最后,再將Bi-LSTM的輸出向量輸入到CRF層并生成最佳標(biāo)簽序列。該模型不需要特征工程或者數(shù)據(jù)預(yù)處理,適用于各種不同語(yǔ)言的序列標(biāo)記任務(wù)。本文使用Bi-LSTM-CNNS-CRF來(lái)表示使用字粒度和字符前后綴信息的NER模型。
3)Bi-LSTM-CRF*。Wang等[18]提出了將數(shù)據(jù)驅(qū)動(dòng)深度學(xué)習(xí)方法與知識(shí)驅(qū)動(dòng)字典方法相結(jié)合的Bi-LSTM-CRF變體模型。他們使用基于給定詞典的n-gram特征進(jìn)行臨床文本的特征表示。本文使用Bi-LSTM-CRF*來(lái)表示使用字粒度和詞粒度字典信息的NER的方法。
4)DME。Zhang等[12]提出無(wú)須分詞,利用靜態(tài)注意力機(jī)制將字符粒度和外部字典信息結(jié)合的DME方法,并將其應(yīng)用于Bi-LSTM-CRF作為網(wǎng)絡(luò)架構(gòu)的中文NER中。該模型能有效使用外部字典信息,從而輔助字向量挖掘更深層次的實(shí)體特征信息。本文使用DME來(lái)代表無(wú)須分詞操作的同時(shí)利用字粒度和詞粒度信息的基于Bi-LSTM-CRF網(wǎng)絡(luò)的NER模型。DME方法和本節(jié)方法的區(qū)別在于本文使用動(dòng)態(tài)特征組合進(jìn)行字詞間關(guān)系的學(xué)習(xí)。
2.5 實(shí)驗(yàn)結(jié)果與分析
表3展示了在醫(yī)療領(lǐng)域CCKS2017數(shù)據(jù)集上,baseline模型以及本文模型整體的實(shí)驗(yàn)結(jié)果,通過(guò)觀(guān)察可以得到以下結(jié)論:基于字粒度的系統(tǒng)其P值和F1值低于字與外部信息融合方法的。導(dǎo)致這種現(xiàn)象的原因可能是使用字粒度的方法只能提取字粒度的信息,忽略了偏旁部首信息和語(yǔ)序信息等外部信息的作用。與基于字粒度的方法相比,雖然使用字粒度信息與外部信息結(jié)合的方法使用了詞粒度的信息或者偏旁部首粒度的信息,但其F1值并未明顯提升。這可能是因?yàn)檫@些外部信息中包含了一些冗余甚至噪聲信息,僅靠Bi-LSTM難以有效提取信息。而本章提出的模型則在考慮到外部信息作用的同時(shí),綜合利用動(dòng)態(tài)注意結(jié)合字和詞粒度信息,并使用空間注意力提取Bi-LSTM編碼的高維特征,最終取得了比其他方法更好的效果。但是,由于受到前后序列輸入依賴(lài)的影響,基于Bi-LSTM組件模型的運(yùn)行時(shí)間高于基于ID-CNN-CRF的模型。
表3對(duì)比模型在CCKS2017數(shù)據(jù)集上的實(shí)驗(yàn)性能單位: %

細(xì)節(jié)上,基于字符的Bi-LSTM-CRF模型的F1值要比Bi-LSTM-CRF*和DME的模型分別低 0.67% 和 0.47% 。這一現(xiàn)象在一定程度上反映了詞粒度信息對(duì)中文NER任務(wù)的有效性。但是,在小規(guī)模數(shù)據(jù)集上,僅靠單一的Bi-LSTM網(wǎng)絡(luò)很難提取出較多的有效信息。因此,Bi-LSTM-CRF*和DME的F1值低于本文模型的。與baseline中具有最高F1值的Bi-LSTM-CRF*相比,本文模型得到了 1.55% 的提升。這可能是使用數(shù)據(jù)增強(qiáng),并將通用領(lǐng)域字粒度特征和醫(yī)療領(lǐng)域詞粒度特性有效結(jié)合的共同作用。
表4展示了baseline模型以及本文模型在通用領(lǐng)域的Common數(shù)據(jù)集上的指標(biāo)對(duì)比結(jié)果,通過(guò)觀(guān)察可以得到以下結(jié)論:
與在CCKS2017數(shù)據(jù)集上的結(jié)論一致。即,基于字粒度的系統(tǒng)的性能要低于字與外部信息結(jié)合的方法。利用動(dòng)態(tài)特征組合的本文模型能夠比其他對(duì)比模型更有效地提取特征。
具體地,與Bi-LSTM-CRF*相比,本章的方法取得更優(yōu)性能( ∣P∣ 值、 R 值和F1值分別提高了 1.61% ,1.55% 和 1.54% )。盡管Bi-LSTM-CRF*引入了外部信息作為字粒度信息的補(bǔ)充,但由于醫(yī)學(xué)領(lǐng)域字典的限制,該模型在通用領(lǐng)域數(shù)據(jù)集上不能很好地捕捉更多有利于識(shí)別性能的信息。DME則由來(lái)自一般領(lǐng)域的外部信息進(jìn)行補(bǔ)充,從而獲得更好的識(shí)別性能。與DME相比,使用了動(dòng)態(tài)特征組合的本文方法獲得相對(duì)更好的性能( P 值、 R 值和F1值分別提高了 1.23% 、1.24% 和 1.23% )。這與在表3中與Bi-LSTM-CRF*和DME的對(duì)比結(jié)果類(lèi)似,從兩表對(duì)比的結(jié)果可以看出,結(jié)合了數(shù)據(jù)增強(qiáng)的本文模型無(wú)論在通用領(lǐng)域還是醫(yī)學(xué)領(lǐng)域都能取得一定的效果。
表4對(duì)比模型在Common數(shù)據(jù)集上的實(shí)驗(yàn)性能單位: %

2.6 消融分析
為了驗(yàn)證本章提出方法中字詞結(jié)合方式以及
DWEDG模塊的效果,本節(jié)設(shè)計(jì)以下變體模型并在相關(guān)數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)與分析(在本節(jié)中,超參數(shù) α 被設(shè)置為0.2)。
1)Bi-LSTM-CRF。使用通用領(lǐng)域數(shù)據(jù)訓(xùn)練的字向量作為輸入表示向量,并利用Bi-LSTM提取過(guò)去和未來(lái)的上下文信息。
2)Bi-LSTM-CRF + Gazetteer。利用外部詞典信息作為補(bǔ)充信息,并基于Bi-LSTM-CRF進(jìn)行NER,其中詞粒度信息采用動(dòng)態(tài)特征組合方式,如式(1)~(3)所示。而來(lái)自通用領(lǐng)域的字粒度信息和來(lái)自特定領(lǐng)域的詞粒度信息的組合方式則如式(4) ~ (5)所示。
3)Bi-LSTM-CRF+Attention。 在Bi-LSTM-CRF的基礎(chǔ)上,利用空間注意力機(jī)制提取Bi-LSTM-CRF編碼結(jié)果特征。
4)Bi-LSTM-CRF + Gazetteer+Attention。在Bi
LSTM-CRF + Attention的基礎(chǔ)上,利用特定領(lǐng)域的外部詞粒度信息作為補(bǔ)充信息。詞粒度信息則采用動(dòng)態(tài)特征組合,如式(1) ~ (3)所示。
5)Bi-LSTM-CRF + Gazetteer+Attention+DWEDG。使用了DWEDG技術(shù)對(duì)訓(xùn)練集進(jìn)行數(shù)據(jù)增強(qiáng),并翻倍數(shù)據(jù)。而其他設(shè)置皆與消融實(shí)驗(yàn)4)中的設(shè)置保持一致。
6)Bi-LSTM-CRF+Gazetteer_general+Attention。基于Bi-LSTM-CRF ?+ Attention,利用通用領(lǐng)域的外部詞粒度信息作為補(bǔ)充信息。其他設(shè)置與消融實(shí)驗(yàn)4)中的一致。
表5和表6顯示了Bi-LSTM-CRF作為baseline的實(shí)驗(yàn)結(jié)果與Bi-LSTM-CRF相比,表5和表6中的基于動(dòng)態(tài)特征組合( + Gazetteer)方法可以提高模型的F1值。這一現(xiàn)象表明了利用字詞結(jié)合粒度的有效性。
表5變體模型在CCKS2017數(shù)據(jù)集上的實(shí)驗(yàn)性能
單位:%

表6變體模型在Common數(shù)據(jù)集上的實(shí)驗(yàn)性能
單位:%

與Bi-LSTM-CRF相比,在表5和表6中使用空間注意的變體模型在 P 值、 R 值和F1值的得分均有提高。這可能是因?yàn)榭臻g注意力提高了Bi-LSTM編碼特征的提取能力。這一現(xiàn)象在一定程度上證明利用空間注意力進(jìn)行特征提取有效性。
為了反映領(lǐng)域知識(shí)在中文醫(yī)學(xué)文本NER任務(wù)中的作用,本節(jié)進(jìn)行了與Bi-LSTM-CRF
Gazetteer_general+Attention進(jìn)行對(duì)比的實(shí)驗(yàn)。對(duì)比結(jié)果顯示,使用領(lǐng)域信息的模型(Bi-LSTM-CRF+Gazetteer+Attention)在 P 值、 R 值和F1值上的得分均有提高( P 、R和F1值分別提高了 1.38% 、0.22% 和 0.82% )。本文認(rèn)為這一結(jié)果可以反映領(lǐng)域知識(shí)的效用。
而使用了數(shù)據(jù)增強(qiáng)的模型( + Gazetteer+ Attention+DWEDG)在小規(guī)模文本數(shù)據(jù)集CCKS2017上的 P 值和F1分別比不使用的模型0 + Gazetteer + Attention)高了 2.69% 和 1.06% ;而在大規(guī)模的數(shù)據(jù)集Common上僅比不使用的模型的P 值高了 0.16% 。這可能是因?yàn)榕c數(shù)據(jù)規(guī)模較小的CCKS2017(訓(xùn)練集共有960條)不同,較大規(guī)模的Common(訓(xùn)練集共有20864條)的數(shù)據(jù)較為全面所致,DWEDG技術(shù)難以提供更多的不同信息。
最后,上述變體模型的F1值大多低于本文模型。這可能是數(shù)據(jù)增強(qiáng)技術(shù),通用領(lǐng)域字粒度信息,具有領(lǐng)域知識(shí)的詞信息以及注意機(jī)制共同作用的結(jié)果。本章模型的F1值在兩個(gè)數(shù)據(jù)集上的提升效果有所不同,與作為基線(xiàn)模型的Bi-LSTM-CRF相比,本文模型在Common數(shù)據(jù)集上獲得了 5.15% 的F1值的提升,在CCKS2017數(shù)據(jù)集中獲得了 2.81% 的F1值。
3結(jié)論
為了在利用字詞粒度信息和領(lǐng)域信息的同時(shí),避免錯(cuò)誤的中文分詞對(duì)中文NER的影響,本文提出了一種將具有通用領(lǐng)域信息的字和具有特定領(lǐng)域詞相結(jié)合的動(dòng)態(tài)特征組合方法,此外,提出的針對(duì)非命名實(shí)體的DWEDG方法能較好提升模型的準(zhǔn)確率,增強(qiáng)模型在小規(guī)模數(shù)據(jù)集上的泛化能力。與不同模型的對(duì)比結(jié)果也驗(yàn)證了本文提出的方案的可行性和適用性。
參考文獻(xiàn):
[1] LI J,SUN A,HAN J,et al. A Survey on Deep
Learning forNamed EntityRecognition[J].IEEE Transactions on
Knowledge and Data Engineering,2020,34(1):50-70.
[2] GOYAL N,SINGH N. Named Entity Recognition and
Relationship Extraction forBiomedicalText:AComprehensive
Survey,RecentAdvancements,andFutureResearchDirections
[J/OL].Neurocomputing,2025,618:126984(2024-12-13).
https://doi.org/10.1016/j.neucom.2024.129171.
[3]HUANGZ,XUW,YUK.BidirectionalLSTM-CRF
Models for Sequence Tagging[J/OL].arXiv:1508.01991[cs.CL]. (2015-08-09) .https://doi.org/10.48550/arXiv.1508.0199.
[4]CAOP,CHENY,LIUK,etal.Adversarial Transfer
Learning for Chinese Named Entity Recognition with Self
AttentionMechanism[C]//Proceedings of the 2018 Conference on
Empirical Methods in Natural Language Processing.Brussels:
Association for ComputationalLinguistics,2018:182-192.
[5]AKBIKA,BLYTHED,VOLLGRAFR.Contextual
StringEmbeddingsforSequenceLabeling[C]//Proceedingsof the
27th International Conference on Computational Linguistics.Santa
Fe:Association for ComputationalLinguistics,2018:1638-1649.
[6]ZHUH,HUW,ZENGY.FlexNER:AFlexibleLSTM
CNN Stack Framework forNamed Entity Recognition[C]//CCF
International Conference on Natural Language Processing and
Chinese Computing.Cham:Springer,2019:168-178.
[7] CUIY,CHE W,LIUT,et al. Pre-Training with Whole
WordMasking forChinese BERT[J].IEEE/ACMTransactionson
Audio,Speech,andLanguage Processing,2021,29:3504-3514.
[8]SHENY,TANZ,WU S,etal.PromptNER:
PromptLocatingand Typing for Named Entity Recognition [C]//
Proceedingsof the6lstAnnualMeetingoftheAssociationfor
Computational Linguistics (Volume 1: Long Papers).Toronto:
Association for Computational Linguistics,2023:12492-12507.