



中圖分類號:TP391.7 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2025)16-0044-07
Knowledge Extraction for Water Conservancy Engineering Inspection Based on Machine Reading Comprehension
ZHAIXiangchao,ZHANGJianhao,HANWenhao (SchoolofInformationEngeering,NorthinaUiversityofWaterRsourcsandElectricower,Zengzou4o46,Cina)
Abstract: The inspection data of water conservancy projects contains rich risk information. Aiming at the problems ofcomplex long entitiesand nested entities inthedata,ahierarchicalontologymodelandamulti-task kowledgeextraction frameworkareconstructedtosolve theproblemofentityandrelationshipextraction.Firstlyaiming atthecomplexityof domaindata,the hierarchicaltrategy isusedtoefectivelysolvethe modeling problemofcomplex inspectiondata.Secondly,a knowledgeextraction modelcombining machinereading comprehensionand multi-task learning is proposed innovatively.The modelincludesentityextractiontaskbasedonquestionanswering,entityrclasificationtaskbasedondescriptiondisrimination andrelationship extraction task.Each task ealizes collborative optimization through shared parameters and jointtraining. Finally,xperimentalverificationsowstattheentityandrelationshipextractionefectoftheproposedmetodissigiantly beter than otherbaseline models,and itcan meet the actualneeds ofknowledge extractionofengineeing inspectiondata.
Keywords: water conservancy project inspection data ; knowledge extraction ; machine reading comprehension ∴ multitask learning
0 引言
水利工程涉及線路長、地質(zhì)條件復(fù)雜,運(yùn)行過程中積累了大量工程巡檢數(shù)據(jù)。這些數(shù)據(jù)詳細(xì)記錄了工程運(yùn)行中各類風(fēng)險(xiǎn)隱患信息,是評估項(xiàng)目安全性的重要依據(jù)。如何高效、準(zhǔn)確地對這些數(shù)據(jù)進(jìn)行知識抽取與整理,已成為推動工程數(shù)字化、智能化轉(zhuǎn)型的關(guān)鍵問題。
知識抽取主要包括實(shí)體抽取與關(guān)系抽取兩個(gè)核心任務(wù),旨在從非結(jié)構(gòu)化數(shù)據(jù)中抽取各類型實(shí)體及其相互關(guān)系。目前,得益于BERT預(yù)訓(xùn)練模型強(qiáng)大的語義理解能力和遷移能力,基于深度學(xué)習(xí)的知識抽取技術(shù)得到了廣泛研究與應(yīng)用。在實(shí)體抽取方法中,針對扁平數(shù)據(jù)集,通常采用BERT-BiLSTM-CRF[2]架構(gòu)將抽取任務(wù)轉(zhuǎn)換為序列標(biāo)注任務(wù),廣泛應(yīng)用于醫(yī)療[、電力[等眾多領(lǐng)域。對于嵌套數(shù)據(jù)集,Yu等采用雙仿射模型與依存句法分析方法,通過構(gòu)建所有可能起始-終止詞對評分機(jī)制來抽取實(shí)體,解決嵌套問題。Li等[采用機(jī)器閱讀理解方法針對每種類別實(shí)體單獨(dú)抽取,規(guī)避了不同類別實(shí)體間的嵌套問題。在關(guān)系抽取任務(wù)中,分為流水線和聯(lián)合抽取兩種范式。流水線方法先進(jìn)行實(shí)體抽取,再基于抽取結(jié)果進(jìn)行關(guān)系識別任務(wù)。例如PURE[方法設(shè)計(jì)兩個(gè)編碼器分別進(jìn)行實(shí)體與關(guān)系抽取,并通過提前融入實(shí)體類別信息提高關(guān)系三元組抽取效果。聯(lián)合抽取方法通常基于同一編碼層進(jìn)行實(shí)體與關(guān)系抽取,例如SpERT方法[將BERT作為共享編碼層,采用分類的思想結(jié)合上下文信息進(jìn)行實(shí)體與關(guān)系聯(lián)合抽取。Wang等[9]提出的TPLinker方法將聯(lián)合抽取任務(wù)轉(zhuǎn)化為詞對鏈接問題,引入握手標(biāo)注方案有效解決了實(shí)體及重疊關(guān)系抽取問題。
與傳統(tǒng)領(lǐng)域中包含常規(guī)實(shí)體類型的扁平數(shù)據(jù)集不同,工程巡檢數(shù)據(jù)中包含大量專業(yè)名詞,其中實(shí)體文本復(fù)雜、跨度大,且實(shí)體間存在嵌套關(guān)系,如圖1所示,這使得目前主流的實(shí)體與關(guān)系抽取方法難以有效應(yīng)對。本文針對工程巡檢數(shù)據(jù)知識抽取問題,完成以下工作:
1)提出分層定義的工程巡檢數(shù)據(jù)本體模型[10],為知識抽取的準(zhǔn)確性和全面性提供了理論支撐。
2)設(shè)計(jì)面向工程巡檢數(shù)據(jù)的實(shí)體與關(guān)系抽取框架。該框架結(jié)合機(jī)器閱讀理解的問答機(jī)制實(shí)現(xiàn)實(shí)體抽取,并通過實(shí)體類別判別和三元組描述判別任務(wù)提升實(shí)體與關(guān)系抽取的準(zhǔn)確性,有效解決了復(fù)雜長實(shí)體、嵌套實(shí)體及關(guān)系抽取等難題。
3)在工程巡檢數(shù)據(jù)集上進(jìn)行充分實(shí)驗(yàn),并與多個(gè)先進(jìn)基線模型進(jìn)行對比。實(shí)驗(yàn)結(jié)果表明,所提出的模型在實(shí)體關(guān)系三元組抽取任務(wù)中取得了顯著優(yōu)勢,為該類型數(shù)據(jù)的知識抽取提供了有效的技術(shù)解決方案。

1數(shù)據(jù)分析與建模
工程巡檢數(shù)據(jù)以電子文檔的形式存儲,主要形式如圖2所示。與通用領(lǐng)域數(shù)據(jù)不同,巡檢數(shù)據(jù)中實(shí)體稠密,對風(fēng)險(xiǎn)發(fā)生的地點(diǎn)、設(shè)備設(shè)施等的描述通常由多個(gè)常規(guī)(簡單)實(shí)體及其描述詞構(gòu)成。如圖1中,“常莊左岸橋下涵洞排水溝”是事件“積水”的發(fā)生地點(diǎn),其中包含村莊、橋梁、涵洞、排水溝等多個(gè)具體的實(shí)體實(shí)例,它們共同精確地描述了風(fēng)險(xiǎn)發(fā)生的地點(diǎn)。對于該類型數(shù)據(jù),基于傳統(tǒng)抽取方法對各類簡單實(shí)體進(jìn)行標(biāo)注會導(dǎo)致實(shí)體間缺乏語義關(guān)聯(lián),造成信息缺失問題。因此,為保證抽取得到的實(shí)體關(guān)系對原數(shù)據(jù)描述的準(zhǔn)確性,本文提出分層本體建模方法,將水利工程巡檢數(shù)據(jù)中實(shí)體關(guān)系分為兩個(gè)級別,整體數(shù)據(jù)建模如圖3所示。


其中,定義“一級實(shí)體”具有較長文本跨度,由多個(gè)常規(guī)實(shí)體及相關(guān)描述組成。通過一級實(shí)體及關(guān)系定義,可保證對原巡檢記錄中風(fēng)險(xiǎn)信息的準(zhǔn)確概括。“二級實(shí)體”為常規(guī)實(shí)體,劃分為表1所示7種類別。基于該方法的數(shù)據(jù)抽取實(shí)例如圖4所示。

2 知識抽取方法
針對巡檢風(fēng)險(xiǎn)描述數(shù)據(jù)中存在的復(fù)雜長實(shí)體、實(shí)體重疊及關(guān)系抽取問題,本文提出基于BERT結(jié)合多任務(wù)學(xué)習(xí)與機(jī)器閱讀理解的實(shí)體與關(guān)系抽取模型(QANER-EC-RE),整體結(jié)構(gòu)如圖5所示。該模型將實(shí)體和關(guān)系抽取任務(wù)轉(zhuǎn)換為問答和描述判斷任務(wù),通過共享編碼層參數(shù)和聯(lián)合訓(xùn)練優(yōu)化模型,采用流水線方法進(jìn)行實(shí)體與關(guān)系抽取(如圖6所示)。

2.1 問答實(shí)體抽取
采用基于機(jī)器閱讀理解(MachineReadingComprehension,MRC)的問答形式進(jìn)行實(shí)體抽取。首先,為各類型實(shí)體設(shè)計(jì)簡單查詢模板:“找出文中所有 類型實(shí)體”,其中‘ lt;tgt;\" 使用實(shí)體類型替換。例如對于“地點(diǎn)”類型實(shí)體,生成問題:“找出文中所有地點(diǎn)類型實(shí)體”。每條數(shù)據(jù)需要構(gòu)建等同于實(shí)體類型數(shù)量的查詢,依次與上下文內(nèi)容組合作為模型輸入,具體輸入 Iner 為:
Iner={[CLS]q1,q2,…,qm[SEP]c1,c2,…,cn[CLS]}
其中[CLS]是BERT中的特殊標(biāo)識,經(jīng)過編碼后包含整個(gè)輸入句子的語義信息;[SEP]是分割標(biāo)記;qi 表示查詢
中第 i 個(gè)token, ci 表示原文本中第 i 個(gè)token; m 、 n 分別是查詢
和原文本 C 的長度。
數(shù)據(jù)實(shí)體標(biāo)注采用BMESO方法,如圖7所示,其中,B表示實(shí)體開始,M表示實(shí)體中間,E表示實(shí)體結(jié)尾,S表示單字實(shí)體,O表示非實(shí)體。此外,使用S或O標(biāo)注[CLS],表示數(shù)據(jù)中是否有查詢實(shí)體。

模型使用預(yù)訓(xùn)練BERT作為編碼器,基于自注意力機(jī)制,每個(gè)token能夠同時(shí)關(guān)注到查詢 Q 和上下文C 之間的語義信息,嵌入向量表示為:

經(jīng)過Dropout層、簡單的線性層和Softmax獲得中 token關(guān)于每個(gè)標(biāo)簽的預(yù)測得分:

其中, yit 表示第 i 個(gè)token被預(yù)測為標(biāo)簽 t (BMESO其中之一)的概率; WT 表示可學(xué)習(xí)的權(quán)重矩陣; b 表示偏置項(xiàng)。最后根據(jù)每個(gè)token的預(yù)測標(biāo)簽得出答案實(shí)體,完成實(shí)體抽取任務(wù)。
2.2 實(shí)體再分類
對于長實(shí)體或類別較多的數(shù)據(jù),其中部分實(shí)體類別模糊,會導(dǎo)致一個(gè)實(shí)體在多個(gè)不同類別查詢中都被作為答案實(shí)體抽取的問題。因此添加此任務(wù),對被錯(cuò)誤分為多個(gè)類型的實(shí)體進(jìn)行重新分類,過濾類別不正確的實(shí)體。
該任務(wù)采用與問答實(shí)體抽取一致的輸入框架,為實(shí)體及類別生成描述句(例如:“實(shí)體 lt;egt; 是 lt;tgt; 類型”),將描述句與上下文組合作為BERT模型的輸入,通過[CLS]的嵌入表示對描述正誤進(jìn)行判斷。在訓(xùn)練時(shí)需要基于實(shí)體及類型生成正負(fù)樣本,例如,對于實(shí)體“設(shè)備設(shè)施:液壓啟閉機(jī)”,生成描述:“液壓啟閉機(jī)是設(shè)備設(shè)施類型”作為正樣本。然后隨機(jī)選擇兩個(gè)非對應(yīng)的實(shí)體類型生成描述,作為負(fù)樣本。依次處理所有實(shí)體,保持正負(fù)樣本比例為1:2左右。將正負(fù)樣本描述與上下文信息組合作為模型輸入 Iec ,表示如下:
Iec={[CLS]d1,d2,…,dm[SEP]c1,c2,…,cn[SEP]}
其中, di 表示生成描述的第 i 個(gè)token。通過BERT獲取輸入的嵌入表示:

將 e[CLS]i 作為判別器的輸入,得到描述 Di 為正確的概率:
yDi=Softmax(WTe[CLS]i+b)
訓(xùn)練時(shí)設(shè)置閾值為0.6,得分大于閾值則認(rèn)為描
述正確:

其中 yDi 表示模型預(yù)測描述 Di 正確的概率;
表示描述是否正確的預(yù)測標(biāo)簽(正確為1,錯(cuò)誤為0)。
在預(yù)測時(shí),僅對被預(yù)測為多個(gè)類別的實(shí)體進(jìn)行類別重分類,
取Softmax得分最高的類型 T 作為預(yù)測結(jié)果。
其中, ft 表示選擇得分最高的描述句所對應(yīng)的實(shí)體類型。
2.3 關(guān)系抽取
基于實(shí)體抽取結(jié)果,在本體模型限定的關(guān)系類型內(nèi),對可能存在關(guān)系的實(shí)體對基于模板生成描述,如表2所示,通過模型對描述的正誤判斷來抽取關(guān)系。
表2部分關(guān)系三元組描述模板

構(gòu)建此模塊的訓(xùn)練數(shù)據(jù)時(shí),將真實(shí)關(guān)系生成的描述作為正樣本,將真實(shí)三元組中的關(guān)系或?qū)嶓w隨機(jī)替換后生成的描述作為負(fù)樣本,正負(fù)樣本比例為1:2。在預(yù)測時(shí),僅對可能存在的關(guān)系三元組生成描述。
同樣將正負(fù)樣本描述與上下文組合作為模型輸入,使用BERT作為編碼器,最后經(jīng)過Dropout、線性層和Softmax得到描述正確的得分,公式與(4)~(7)一致,最后當(dāng)Softmax得分大于閾值0.6時(shí)認(rèn)為描述正確,將對應(yīng)三元組作為抽取結(jié)果,流程如圖8所示。

2.4 損失函數(shù)
問答實(shí)體抽取任務(wù)使用交叉熵?fù)p失函數(shù)為:

其中, N 表示樣本類別個(gè)數(shù), yi 表示第 i 個(gè)樣本的真實(shí)標(biāo)簽,
表示類別 i 的預(yù)測概率。實(shí)體再分類任務(wù)和關(guān)系抽取任務(wù)都采用二元交叉熵?fù)p失函數(shù):
(10)三個(gè)子任務(wù)采用聯(lián)合訓(xùn)練方式優(yōu)化,聯(lián)合損失計(jì)算式為:
Loss=αLossner+βLossec+γLossre
其中 a 、 β 、y表示損失函數(shù)的權(quán)重系數(shù),在本文中,分別設(shè)置為0.5、0.25、0.25。
3 實(shí)驗(yàn)結(jié)果及分析
3.1 數(shù)據(jù)集
基于本體概念模型,人工標(biāo)注4550條巡檢數(shù)據(jù),詳情如表3、表4所示。按照8:2隨機(jī)劃分訓(xùn)練集與測試集。根據(jù)一級實(shí)體及關(guān)系、二級實(shí)體的不同定義劃分為三種類別數(shù)據(jù)集:
1)T1:包含5種一級實(shí)體和7種關(guān)系,表5中統(tǒng)計(jì)了一級實(shí)體的長度信息。2)T2:包含7種類型二級實(shí)體。3)T1_T2:一、二級實(shí)體的并集,包括T1、T2中的12個(gè)類型實(shí)體,不含關(guān)系。其中一級實(shí)體與二級實(shí)體存在大量嵌套情況,整體嵌套率為 51% (被包含實(shí)體數(shù)/實(shí)體總數(shù))。
表3實(shí)體信息統(tǒng)計(jì)

表4T1_Relations三元組類型統(tǒng)計(jì)

表5一級實(shí)體長度分布及示例

數(shù)據(jù)集T1驗(yàn)證模型對長實(shí)體與復(fù)雜實(shí)體的抽取能力及關(guān)系抽取能力,數(shù)據(jù)集T2驗(yàn)證模型對常規(guī)格式實(shí)體的抽取能力,數(shù)據(jù)集T1T2驗(yàn)證模型面對嵌套實(shí)體時(shí)的實(shí)體抽取能力。同時(shí),數(shù)據(jù)集中保留了數(shù)量較少的實(shí)體類型,以驗(yàn)證模型在實(shí)際應(yīng)用中樣本類別不均衡及樣本不足情況下的有效性。
3.2評價(jià)指標(biāo)和參數(shù)
評價(jià)標(biāo)準(zhǔn)采用準(zhǔn)確率 P (Precision)、召回率 R (Recall)和F1值,計(jì)算公式如下:

其中,TP表示預(yù)測正確的個(gè)數(shù),F(xiàn)P表示預(yù)測錯(cuò)誤個(gè)數(shù),F(xiàn)N表示未被抽取出的正確標(biāo)簽個(gè)數(shù)。
本實(shí)驗(yàn)基于BERT中文預(yù)訓(xùn)練模型bert-base-chinese作為語義編碼器,超參數(shù)batchsize、maxlength、learningrate、droupt分別被設(shè)置為:256、256、10、 2×10-5 、0.1。
3.3 實(shí)驗(yàn)結(jié)果分析
本文在基于巡檢數(shù)據(jù)的三個(gè)知識抽取數(shù)據(jù)集上分別進(jìn)行實(shí)驗(yàn),選擇3種具有代表性的模型作為比較的基準(zhǔn)模型,所有方法如下:
1)BERT-RE(BERT-BiLSTM-CRF+RE):基于序列標(biāo)注的主流實(shí)體識別模型,其中RE是在實(shí)體抽取后,基于BERT構(gòu)建的關(guān)系分類任務(wù),整體按照流水線式方法完成實(shí)體識別和關(guān)系抽取。
2)PURE:流水線式關(guān)系三元組抽取模型。基于跨度進(jìn)行實(shí)體抽取,并在關(guān)系抽取時(shí)通過添加實(shí)體類型標(biāo)簽引入實(shí)體信息以提高抽取效果。
3)SpERT:基于跨度的實(shí)體與關(guān)系聯(lián)合抽取模型,采用分類的思想進(jìn)行實(shí)體與關(guān)系抽取。
4)QANER-EC-RE:本文多任務(wù)模型,聯(lián)合訓(xùn)練,流水線式完成實(shí)體和關(guān)系抽取。
5)QANER-RE:本文模型去掉實(shí)體再分類模塊(EC),作為對比實(shí)驗(yàn)。
基于上述數(shù)據(jù)集分別進(jìn)行實(shí)體、關(guān)系抽取實(shí)驗(yàn),取多次實(shí)驗(yàn)中最后三次epoch的均值,結(jié)果如表6、表7和圖9所示。
表6統(tǒng)計(jì)了本文模型與對比模型在三個(gè)不同特點(diǎn)數(shù)據(jù)集中的實(shí)體抽取結(jié)果。在T1數(shù)據(jù)集(實(shí)體跨度較大)中,本文方法顯著優(yōu)于其他基線模型,F(xiàn)1值高出 9% ,主要因?yàn)楸疚姆椒▽W⒂谔幚韺?yīng)類別實(shí)體,避免了其他類別實(shí)體的干擾。在T2數(shù)據(jù)集(常規(guī)實(shí)體抽取)中,受人工標(biāo)注噪聲影響,所有模型優(yōu)化空間較小,但本文方法仍取得小幅提升。對于T1T2數(shù)據(jù)集(復(fù)雜長實(shí)體與常規(guī)實(shí)體混合,且存在大量嵌套結(jié)構(gòu)),本文方法依然表現(xiàn)最佳,F(xiàn)1值高于基線模型 7% 。對于EC模塊,表6表明該模塊通過修正實(shí)體抽取結(jié)果,進(jìn)一步提升了準(zhǔn)確率。


表7展示基于真實(shí)實(shí)體的獨(dú)立關(guān)系抽取模型性能驗(yàn)證結(jié)果,表8表示基于整體模型的關(guān)系抽取結(jié)果。在T1數(shù)據(jù)集中,關(guān)系定義簡單(如地點(diǎn)與事件間的“發(fā)生”關(guān)系),BERT-RE憑借單獨(dú)針對關(guān)系訓(xùn)練的優(yōu)勢,取得了最好效果。本文方法略低于BERT-RE,但仍取得 93.5% 的F1值,比PURE方法高 3% 。在三元組抽取任務(wù)中,本文模型因在實(shí)體抽取和關(guān)系抽取中均表現(xiàn)良好,獲得了最佳結(jié)果,F(xiàn)1值比其他方法高 8% 。
表8基于預(yù)測實(shí)體的關(guān)系三元組抽取結(jié)果

4結(jié)論
本研究聚焦于水利工程巡檢數(shù)據(jù)的數(shù)據(jù)本體建模與知識抽取問題。首先,基于巡檢數(shù)據(jù)構(gòu)建了分層次的本體概念模型,通過多粒度實(shí)體定義確保了后續(xù)知識抽取的準(zhǔn)確性。其次,針對數(shù)據(jù)中存在的復(fù)雜長實(shí)體、實(shí)體嵌套及關(guān)系抽取等難點(diǎn)問題,創(chuàng)新性地提出了基于機(jī)器閱讀理解與多任務(wù)學(xué)習(xí)的知識抽取模型。該模型包含實(shí)體識別、實(shí)體類別再分類和關(guān)系抽取三個(gè)聯(lián)合訓(xùn)練任務(wù),通過共享編碼層實(shí)現(xiàn)任務(wù)間的信息交互與聯(lián)合優(yōu)化。最后,基于實(shí)際巡檢數(shù)據(jù)集開展了充分的實(shí)驗(yàn)驗(yàn)證,結(jié)果表明本文提出的方法在實(shí)體與關(guān)系抽取任務(wù)上顯著優(yōu)于現(xiàn)有方法,具有優(yōu)越的性能表現(xiàn)。
參考文獻(xiàn):
[1]DEVLINJ,CHANGMW,LEEK,etal.BERT:
Pre-training of Deep Bidirectional Transformers for Language
Understanding[J/OL]arXiv:1810.04805[cs.CL].[2025-02-03].
https://doi.0rg/10.48550/arXiv.1810.04805.
[2] DAI ZJ,WANGXT,NIP,etal.Named Entity
RecognitionUsingBERTBiLSTMCRF forChineseElectronic
Health Records [C]//2019 12th International Congress on Image
and Signal Processing,BioMedical Engineering and Informatics
(CISP-BMEI).Suzhou:IEEE,2019:1-5.
[3]李旻哲,殷繼彬.融合BERT模型與詞匯增強(qiáng)的中醫(yī)
命名實(shí)體識別模型[J].計(jì)算機(jī)科學(xué),2024,51(S1):134-
139.
[4]趙貴中,黃淼華.基于BERT-BiLSTM-CRF的電力事
故信息抽取方法[J].綜合智慧能源,2024,46(11):19-28.
[5]YU JT,BOHNET B,POESIO M.Named Entity
RecognitionasDependency Parsing[J/OL].arXiv:20o5.07150[cs.
CL].[2025-02-10].https://doi.org/10.48550/arXiv.2005.07150.
[6]LIXY,F(xiàn)ENGJR,MENGYX,etal.AUnified
MRC Framework for Named Entity Recognition [J/OL].
arXiv:1910.11476 [cs.CL].[2025-02-13].https://doi.0rg/10.48550/
arXiv.1910.11476.
[7]ZHONGZ,CHEND.AFrustratinglyEasyApproach for
Entity and Relation Extraction[J/OL].arXiv:2010.12812[cs.CL].
[2025-02-16].https://doi.0rg/10.48550/arXiv.2010.12812.
[8]EBERTSM,ULGESA.Span-based JointEntity
andRelation Extraction with Transformer Pre-training[J/OL].
arXiv:1909.07755 [cs.CL].[2025-02-11].https://doi.0rg/10.48550/
arXiv.1909.07755.
[9]WANGYC,YUBW,ZHANGYY,etal.TPLinker: Single-stageJointExtraction ofEntitiesand Relations Through TokenPairLinking[J/OL].arXiv:2010.13415[cs.CL].[2025-02- 09].https://doi.org/10.48550/arXiv.2010.13415.
[10]HAOXJ,JIZ,LIXH,etal.Construction and Application of a Knowledge Graph[J/OL].Remote Sensing,
[9]MAX,HOVYE.End-to-End SequenceLabeling via Bi-directional LSTM-CNNs-CRF[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers).Berlin:Association for Computational Linguistics,2016:1064-1074. [10]LIX,MENGY,SUNX,etal.IsWord Segmentation Necessary for Deep Learning of Chinese Representations? [C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.Florence:Association for Computational Linguistics,2016:3242-3252.
[11] ZHANG Y,YANG J. Chinese NER Using Lattice LSTM [C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers).Melbourne:Association for Computational Linguistics, 2018:1554-1564
[12] ZHANG N,LIF,XUG,et al. Chinese NER Using Dynamic Meta-Embeddings[J].IEEE Access,2019,7:64450- 64459.
[13]李源,洛桑嘎登,蔣衛(wèi)麗.融合外部知識和位置信息 的中文命名實(shí)體識別[J].計(jì)算機(jī)工程與應(yīng)用,2024,60(22): 162-171.
[14] SENNRICH R,HADDOW B,BIRCH A. Improving Neural Machine Translation Models with Monolingual Data [J/ OL].arXiv:1511.06709 [cs.CL]. (2016-06-03).https://arxiv.org/ abs/1511.06709.
[15] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al.Generative Adversarial Networks [C]//Proceedings of the 28th International Conference on Neural Information Processing Systems-Volume 2.Cambridge:MITPress,2014:2672-2680.
[16]XUR,ZHANGY,RENK,et al.Probabilistic Interpolation with Mixup Data Augmentation for Text Classification [C]//International Conference on Inteligent Computing.Singapore:Springer,2024:1-12.
[17]WOO S,PARKJ,LEE JY,et al.CBAM: Convolutional Block Attention Module [C]//Proceedings of the European Conference on Computer Vision(ECCV).Munich: Springer,2018:3-19.
[18] WANG Q,ZHOU Y,RUAN T,et al. Incorporating Dictionaries into Deep Neural Networks for Chinese Clinical Named Entity Recognition [J/OL].Journal of Biomedical Informatics,2019,92:103133(2019-03-05).https://doi. org/10.1016/j.jbi.2019.103133.
作者簡介:李源(1995一),男,漢族,河南信陽人,助教,碩士,研究方向:機(jī)器學(xué)習(xí)、自然語言處理。
2021,13 (13):2511[2025-01-19].https://doi.org/10.3390/ rs13132511.
作者簡介:翟向超(1998一),男,漢族,河南駐馬店人,碩士研究生在讀,研究方向:自然語言處理;張健豪(1999一),男,漢族,河南鄭州人,碩士研究生在讀,研究方向:自然語言處理;韓文豪(1999一),男,漢族,河南商丘人,碩士研究生在讀,研究方向:自然語言處理。