999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RoBERTa的中醫(yī)藥專利命名實體識別

2025-03-31 00:00:00鄧娜何昕洋熊才權(quán)宗澤華

[摘 要] 中醫(yī)藥發(fā)明專利的成分及功能實體具有種類復(fù)雜、歧義繁多等特點。針對傳統(tǒng)命名實體識別方法無法充分獲取其中的語義特征表示,上下文信息及一詞多義等問題,提出一種中醫(yī)藥發(fā)明專利命名實體識別模型,該模型將RoBERTa-WWM預(yù)訓(xùn)練模型、雙向長短期記憶(BiLSTM)網(wǎng)絡(luò)、條件隨機(jī)場(CRF)三個模塊串聯(lián)結(jié)合,將專利摘要依次通過RoBERTa-WWM進(jìn)行語義提取生成含有先驗知識的語義詞嵌入;BiLSTM網(wǎng)絡(luò)增強(qiáng)詞嵌入中的上下文特征信息;CRF解碼序列,輸出概率最大結(jié)果。實驗結(jié)果表明,該模型在真實中醫(yī)藥發(fā)明專利文本語料庫上,F(xiàn)1值(F-Measure)相較其他主流方法在成分與功能的識別上分別提升了5.80%和6.63%,能有效提升中醫(yī)藥發(fā)明專利摘要中藥物成分及功能識別的準(zhǔn)確率。

[關(guān)鍵詞] 中醫(yī)藥發(fā)明專利; 命名實體識別; RoBERTa-WWM; BiLSTM

[中圖分類號] TP312 [文獻(xiàn)標(biāo)識碼] A

中醫(yī)藥發(fā)明專利作為中藥知識產(chǎn)權(quán)的核心要素,不僅是企業(yè)爭相掌握的重要資源,更是能促進(jìn)中醫(yī)藥學(xué)成果普及、推動中醫(yī)藥科學(xué)創(chuàng)新的重要動力。摘要是中醫(yī)藥發(fā)明專利的重要組成部分。從撰寫內(nèi)容看,它簡要概括了中醫(yī)藥發(fā)明專利的成分、功效和目的等要素,讀者能夠根據(jù)摘要快速了解專利內(nèi)所介紹的發(fā)明信息。從組織結(jié)構(gòu)看,它是中醫(yī)藥發(fā)明專利中不可或缺的部分。讀者在進(jìn)行專利檢索時,一方面,大多數(shù)中醫(yī)藥發(fā)明專利資源庫面向整段摘要提供檢索時,無法對摘要中所提到的“成分”、“功能”等結(jié)構(gòu)進(jìn)行單獨檢索;另一方面,讀者獲取中醫(yī)藥發(fā)明專利中成分及功能信息通常通過閱讀整段摘要實現(xiàn),這樣的做法費(fèi)時費(fèi)力。隨著大數(shù)據(jù)時代的到來以及人工智能技術(shù)的興起,如何從中醫(yī)藥發(fā)明專利的摘要中識別出需求信息,成為了當(dāng)前專利研究關(guān)注的一大熱點問題。而其中關(guān)鍵一環(huán)則是摘要結(jié)構(gòu)中成分及功能的命名實體識別。樣例識別如圖1所示。

命名實體識別作為自然語言處理領(lǐng)域經(jīng)典問題之一,解決問題的目標(biāo)是從非結(jié)構(gòu)化文本中識別出結(jié)構(gòu)化的目標(biāo)命名實體。中藥發(fā)明專利的命名實體識別任務(wù)對比于傳統(tǒng)醫(yī)藥領(lǐng)域的命名實體識別任務(wù)面臨更大的挑戰(zhàn),主要原因在于:第一,相比于傳統(tǒng)領(lǐng)域,中醫(yī)藥領(lǐng)域的文本晦澀難懂,擁有更多不同類目的未登錄核心詞,傳統(tǒng)的命名實體識別方法難以對其進(jìn)行有效識別。第二,傳統(tǒng)領(lǐng)域用詞規(guī)范嚴(yán)謹(jǐn),歧義切分現(xiàn)象相對較少,而中藥領(lǐng)域的專利發(fā)明人為了達(dá)到專利審查所要求的創(chuàng)新性,同時出于對自身技術(shù)保護(hù)的考慮,會使用更加抽象的地方口語詞甚至自定義詞。因此,中藥發(fā)明專利中包含大量未登錄詞且基本都為專業(yè)術(shù)語,嚴(yán)重影響命名實體識別的準(zhǔn)確性。鑒于此,本文提出新的模型來解決以上問題,同時引入幾種典型的深度學(xué)習(xí)模型,設(shè)計了一系列摘要功能和成分的識別實驗,并對這些模型的性能表現(xiàn)進(jìn)行對比分析。

1 相關(guān)工作

當(dāng)前中醫(yī)藥專利的命名識別方法主要分為3種:基于中醫(yī)藥關(guān)鍵詞的詞頻統(tǒng)計方法、基于自定義識別規(guī)則的機(jī)器學(xué)習(xí)方法與基于預(yù)訓(xùn)練模型的深度學(xué)習(xí)方法。早期醫(yī)藥命名實體識別研究大多基于規(guī)則詞頻統(tǒng)計方法,制定特定規(guī)則對信息源內(nèi)的目標(biāo)關(guān)鍵詞出現(xiàn)次數(shù)進(jìn)行統(tǒng)計。如Song等[1]通過構(gòu)建醫(yī)藥字典對生物醫(yī)藥名稱進(jìn)行識別,但這種針對特定任務(wù)設(shè)計的字典或準(zhǔn)則的針對性過強(qiáng),無法滿足其他實體識別任務(wù)的需求,因而普遍缺乏泛化性且可移植性較差。傳統(tǒng)的機(jī)器學(xué)習(xí)方法通常需要專業(yè)人員選擇合適的特征來訓(xùn)練模型,Leaman等[2]提出tmchem模型,該模型將兩個CRF模型以并聯(lián)形式進(jìn)行組合,對多個人工提取的特征進(jìn)行融合,從而對生物醫(yī)藥中的專有名詞進(jìn)行命名實體識別。Li等[3]將詞頻信息和共現(xiàn)詞表信息融入CRF模型,進(jìn)一步提升模型對醫(yī)學(xué)專有名詞識別的準(zhǔn)確性。相比于早期命名實體識別研究,上述基于機(jī)器學(xué)習(xí)的方法在命名實體識別上的泛化性和可移植性有了一定改善,但對識別對象的特征選取過于依賴專家的專業(yè)知識,且識別方法單一,因而方法與運(yùn)用范圍有限。近年來,以Word2vec詞嵌入方法為基礎(chǔ)的深度學(xué)習(xí)受到學(xué)者們的廣泛關(guān)注,并將其運(yùn)用于各個命名實體識別任務(wù)。Kim Y等[4]提出的TextCNN(text convolutional neural networks)模型,眾多學(xué)者[5-8]提出 BiLSTM-CRF模型等,相比于傳統(tǒng)機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)方法通過不同的神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)并更新隱藏在目標(biāo)源中的特征信息,在不需要依賴專家對特征進(jìn)行人工構(gòu)建的前提下,在各個命名實體識別任務(wù)中也能取得不錯的效果。但由于缺乏專家對實體特征提取的監(jiān)督與篩選,上述深度學(xué)習(xí)方法的效果很大程度上受限于訓(xùn)練集的質(zhì)量,因而人們提出從大量無標(biāo)簽文本中獲取先驗語義知識來增強(qiáng)語義表示的BERT(bidirectionalencoder representations fromtransformer)預(yù)訓(xùn)練模型。

預(yù)訓(xùn)練模型可以從自定義語料庫中學(xué)習(xí)到含有先驗語義的詞嵌入表示,從而有效緩解因訓(xùn)練集質(zhì)量不足導(dǎo)致詞嵌入表示信息獲取不充分問題。例如2018年谷歌發(fā)布的論文[9]中提到的BERT模型,通過海量語料進(jìn)行預(yù)訓(xùn)練,得到包含目標(biāo)序列充分的局部和全局特征詞嵌入表示。沈同平[10]、王子牛等[11]將BERT與BiLSTM-CRF相結(jié)合應(yīng)用于中文命名實體識別,對比實驗證明:BERT預(yù)訓(xùn)練模型相比于靜態(tài)詞嵌入在命名實體識別任務(wù)效果更好。BERT基于12層Transformer中的Encoder部分連接組成[12],通過兩種預(yù)訓(xùn)練任務(wù)MLM(Masked Language Model)和NSP(Next Sentence Prediction,)從無標(biāo)簽的非結(jié)構(gòu)化語料內(nèi)學(xué)習(xí)先驗的中醫(yī)藥語義信息。BERT預(yù)訓(xùn)練模型在進(jìn)行MLM任務(wù)時會像處理英文單詞一樣隨機(jī)掩蓋訓(xùn)練樣本的字,但中文語料不同于英文語料,中文語料序列的語義單元組成是詞而非字,即BERT的MLM任務(wù)無法在預(yù)訓(xùn)練過程中獲取詞的信息。因此,為使BERT更好適應(yīng)并提取中文語料的特征信息,哈工大訊飛聯(lián)合實驗室發(fā)布中文RoBERTa-WWM訓(xùn)練模型。該模型在進(jìn)行先驗語義的預(yù)訓(xùn)練時會以句子為單位進(jìn)行并訓(xùn)練,這樣更能保留訓(xùn)練目標(biāo)句法層次的先驗知識。在進(jìn)行分詞任務(wù)時,以詞組為單位進(jìn)行切分,大幅度降低了沒登錄詞所帶來的特征缺失問題。

2 相關(guān)模型

2.1 RoBERTa-WWM預(yù)訓(xùn)練模型

RoBERTa-WWM模型在保留BERT模型優(yōu)點的基礎(chǔ)上,進(jìn)一步對預(yù)訓(xùn)練語料與模型的結(jié)構(gòu)層次進(jìn)行優(yōu)化[13]。在大規(guī)模中文語料的基礎(chǔ)上,使用更大的單次訓(xùn)練樣本數(shù)和更多的訓(xùn)練次數(shù)。同時移除NSP任務(wù),以減少訓(xùn)練成本。相比于傳統(tǒng)BERT模型,RoBERTa-WWM模型把輸入文本轉(zhuǎn)化為語義更為豐富的詞嵌入表示,并為其添加句子特征與位置特征,以便更好地區(qū)分上下文信息,用更長的序列長度進(jìn)行訓(xùn)練,最大程度保留上下文信息。

2.2 BiLSTM層

該層由雙向LSTM層前后拼接組成,能通過不同方向的梯度傳遞學(xué)習(xí)到更加全面的中醫(yī)藥專利語句的上下文特征信息。將RoBERTa-WWM層輸出的詞向量同時輸入到雙向LSTM模型進(jìn)行學(xué)習(xí),以此來強(qiáng)化詞嵌入表示的上下文信息。輸出的特征信息,使用Softmax函數(shù)將所獲得的特征值轉(zhuǎn)為對應(yīng)中醫(yī)藥實體的概率分布。LSTM層的模型結(jié)構(gòu)如式(1)~(5)所示:

其中,σ為sigmoid函數(shù),是點積運(yùn)算,it=σ(xt·wi+ht-1·w′i+bi)、ft=σ(xt·wf+ht-1·w′f+bf)、ot=σ(xt·wo+ht-1·w′o+bo)和[AKc~〗t分別表示LSTM模型的輸入門、遺忘門、輸出門和記憶單元; wi,hi-1,bi代表輸入門、遺忘門和輸出門的權(quán)重矩陣和偏置項;ht為t時刻的網(wǎng)絡(luò)輸入也對應(yīng)于詞表示層的輸出。

2.3 CRF層

Softmax函數(shù)雖然可以輸出每個中醫(yī)藥實體對應(yīng)的概率標(biāo)簽,但無法保證標(biāo)簽之間的邏輯關(guān)系,CRF層則可以對標(biāo)簽的結(jié)構(gòu)進(jìn)行規(guī)范控制。例如在I-function后才能出現(xiàn)B-function。通過BiLSTM層輸出的文本特征向量標(biāo)簽無法對其邏輯依賴進(jìn)行約束。因此,本文添加CRF層對BiLSTM網(wǎng)絡(luò)層的輸出進(jìn)行修正,將放入BiLSTM層的輸出放入語言模型中使其得到包含上下文邏輯依賴的合理最優(yōu)序列。BiLSTM層的輸出作為CRF層的輸入,輸出得分score(X,y)如式(7)所示:

3 本文方法

本文提出一種基于RoBERTa-WWM的中醫(yī)藥發(fā)明專利命名實體識別模型RoBERTa-WWM-BiLSTM-CRF,該模型采取RoBERTa-WWM 為預(yù)訓(xùn)練語言模型,利用BiLSTM網(wǎng)絡(luò)增強(qiáng)詞嵌入中的上下文特征信息,使用CRF解碼序列,對中醫(yī)藥發(fā)明專利的命名實體進(jìn)行識別。RoBERTa-WWM-BiLSTM-CRF 模型整體結(jié)構(gòu)如圖2所示。

由圖2可見,該模型由3部分組成,分別為RoBERTa-WWM預(yù)訓(xùn)練層、BiLSTM神經(jīng)網(wǎng)絡(luò)層和CRF分類層。首先,將中醫(yī)藥專利摘要文本輸入RoBERTa-WWM預(yù)訓(xùn)練模型,以詞為單位進(jìn)行切分,并將其轉(zhuǎn)換成詞組序列輸入Transformer的Encoder層,通過多頭注意力機(jī)制,提取摘要文本中的語義信息,達(dá)到一詞多義的效果;其次,將最后一層Transformer的Encoder層輸出詞嵌入輸入BiLSTM模型記錄文本序列上的依賴關(guān)系,并強(qiáng)化其中的上下文特征信息;最后,傳遞到CRF層獲取概率最大的標(biāo)簽信息,完成對中藥專利中功能與成分的抽取。本文使用該模型對中醫(yī)藥發(fā)明專利中的成分及功能的進(jìn)行識別提取,步驟如下:

4 實驗結(jié)果與分析

4.1 數(shù)據(jù)獲取與實驗流程

本文通過爬蟲技術(shù)獲取了中國專利信息網(wǎng)上的[LL]7000條中醫(yī)藥發(fā)明專利數(shù)據(jù)。每條專利數(shù)據(jù)包含實驗所需的專利名稱、申請?zhí)栆约罢糠帧λ廊〉姆墙Y(jié)構(gòu)化摘要部分進(jìn)行數(shù)據(jù)預(yù)處理、成分及功能的數(shù)據(jù)標(biāo)注以及標(biāo)注一致性檢驗的操作,構(gòu)建出中藥發(fā)明專利數(shù)據(jù)集。由于部分企業(yè)及個人考慮到中藥發(fā)明專利的核心成分被泄露,因而對其在成分上進(jìn)行一定的隱藏;所以數(shù)據(jù)集中的成分樣本數(shù)量少于功效樣本數(shù)量。將上述實驗數(shù)據(jù)進(jìn)行預(yù)處理后將訓(xùn)練集與測試集按照8∶2進(jìn)行劃分。同時采用BIO標(biāo)注方式,一共標(biāo)注出5類:O,B-Component,I-Component,B-Function,I-Function。其中O代表中醫(yī)藥非實體,B代表中醫(yī)藥實體的詞首,I代表中醫(yī)藥實體的詞身。

4.2 實驗設(shè)置

本文的實驗?zāi)P褪褂肞ytorch深度學(xué)習(xí)框架構(gòu)建。同時本實驗使用試錯法尋求到最優(yōu)的超參數(shù)設(shè)置。表1為本文模型所涉及的超參數(shù)值。

4.3 模型評估

本文的模型評測指標(biāo)采用準(zhǔn)確率(Precision)、召回率(Recall)和F1值。其中,精確率指的是預(yù)測為正同時實際也為正的中醫(yī)藥實體概率。召回率是針對原中醫(yī)藥樣本中,實際為正的中醫(yī)藥實體樣本占被預(yù)測為正的中醫(yī)藥實體樣本中的概率。

F1值是召回率與精確率的調(diào)和平均值。計算公式為:

其中,TP指的是原中醫(yī)藥實體標(biāo)簽為正,實際預(yù)測也為正確的樣本;TP+FP指所有預(yù)測正確的中醫(yī)藥實體樣本;TP+FN指實際為正的中醫(yī)藥實體樣本總和。[]

4.4 對比實驗分析

為了驗證本模型相較于其他主流模型在中藥發(fā)明專利中有更好的成分及功能的識別效果,本文設(shè)計了兩類對比試驗:第一類實驗采用當(dāng)前主流的不同的預(yù)訓(xùn)練模型與本模型進(jìn)行對比實驗設(shè)計;第二類實驗用同一預(yù)訓(xùn)練模型的不同下游模型進(jìn)行對比試驗設(shè)計。具體結(jié)果如下所示。

4.4.1 與其他主流模型對比與分析實驗 表2展示了第一類實驗在中藥發(fā)明專利數(shù)據(jù)集上的對比結(jié)果。由于非專業(yè)人工標(biāo)注的不穩(wěn)定性與上述中藥專利數(shù)據(jù)集自身的缺陷性,所有模型的各項評價指標(biāo)數(shù)據(jù)相比較于公開數(shù)據(jù)集偏低,同理中藥專利內(nèi)成分的識別效果也比功效的識別效果低。

分析表2可以看出,本模型在中藥專利數(shù)據(jù)集的成分與功能識別上對比于其他基線模型取得了最優(yōu)的識別效果。對于基于Word2vec詞嵌入的基線模型TextCNN-CRF模型、BiLSTM-CRF模型以及TextCNN-BiLSTM-CRF模型由于其詞嵌入無法準(zhǔn)確的獲取中醫(yī)藥專利中的多語義特征,對比基于BERT的中文預(yù)訓(xùn)練模型作為詞嵌入層,識別結(jié)果并不理想。參照表中的準(zhǔn)確率、召回率和F1值可知,BERT-BiLSTM-CRF模型相比于TextCNN-BiLSTM-CRF模型在功能和成分的識別方面分別提升了3.41%,5.12%,4.3%和4.25%,4.17%,4.21%。分析原因是由于word2vec產(chǎn)生是靜態(tài)的,不考慮上下文的詞表示。無法體現(xiàn)詞的復(fù)雜特性,包括一詞多義、語法、語義等信息。而本文模型相比BERT-BiLSTM-CRF模型,在功能和成分的識別方面,準(zhǔn)確率、召回率和F1值分別提升了6.96%,6.64%,6.33%和5.88%,5.72%,5.80%。分析原因主要是由于相較于BERT模型采用的語義提取單一是字而非詞,對于中醫(yī)藥文本的語義信息提取大打折扣。本文使用的RoBERTa-wwm預(yù)訓(xùn)練模型可根據(jù)全詞掩碼任務(wù)獲取詞級別的語義表示,提取到的語義特征能更好的融合上下文的信息,模型更加適用于包含不規(guī)則語句的中醫(yī)藥文本。綜上所述,本模型相較于其他不同預(yù)訓(xùn)練模型,更能適用于中藥發(fā)明專利中所包含的功能和成分的命名實體識別任務(wù)。

4.4.2 同一預(yù)訓(xùn)練模型的單變量性能對比實驗 為了對模型進(jìn)行更細(xì)微的對比,將本實驗?zāi)P团c其作為基準(zhǔn)的RoBERTa-WWM-CRF模型分別在中藥發(fā)明專利中的功能和成分的識別上進(jìn)行對比。評價指標(biāo)同樣使用準(zhǔn)確率、召回率和F1值,結(jié)果如圖4所示。

分析圖4可知,本模型與RoBERTa-WWM-CRF模型都在中藥專利的功能識別方面取得了較好的效果,但在成分識別方面相對較差,分析原因是由于中藥專利的功能表述樣本數(shù)量相對較大,模型對功能的語義表征學(xué)習(xí)較為全面。而成分表述樣本數(shù)量相對較少,且包含有些未登錄中藥專有名詞,這使一部分成分特征不是很明顯,導(dǎo)致識別錯誤。本模型對比于RoBERTa-WWM-CRF模型的準(zhǔn)確率、召回率和F1值,在功能和成分的識別方面分別提高了2.38%,1.53%,1.95%和0.53%,2.13%,1.36%。說明引入BiLSTM層可以對中藥發(fā)明專利中不規(guī)則長度的成分和功能特征進(jìn)行更好的捕獲。總的來說,本模型比RoBERTa-WWM-CRF模型在中藥發(fā)明專利的兩個類別識別上都具有更好的效果。

4.4.3 消融實驗 為了驗證本文模型中,各個模塊之間的有效性,本文通過刪除完整框架的單個模塊設(shè)計了三個辯題實驗。控制訓(xùn)練集與測試集與基線模型對比實驗相同,性能指標(biāo)采用準(zhǔn)確率、召回率和F1值作為評價標(biāo)準(zhǔn),實驗結(jié)果如表3所示。

消融實驗1:移除本文模型中的預(yù)訓(xùn)練模型RoBERTa-WWM模塊,使用BiLSTM-CRF模型進(jìn)行實驗。

消融實驗2:移除本文模型中的BiLSTM模塊,使用基于預(yù)訓(xùn)練模型的RoBERTa-CRF進(jìn)行實驗。

消融實驗3:移除本文模型中的CRF模塊,將RoBERTa-BiLSTM的輸出序列直接進(jìn)行標(biāo)簽預(yù)測。

如表3所示,在中醫(yī)藥成分和功能的識別上,消融實驗1性能都是最差,而本文模型性能最好。以中醫(yī)藥專利的功能識別為例,消融實驗1對比本文模型在準(zhǔn)確率、召回率和F1值上分別減少了13.07%、14.02%和13.60%,分析原因在于消融實驗1缺少中醫(yī)藥預(yù)訓(xùn)練語料的先驗知識,從而導(dǎo)致在對中藥成分識別前,無法有效獲取到有效的特征詞向量。而本文模型相比于消融實驗2與消融實驗3,在準(zhǔn)確率、召回率和F1值上也有相應(yīng)的提升,但消融實驗2中由于缺少BiLSTM模塊,因此對長句中的上下文信息提取能力較弱,從而導(dǎo)致識別性能略低于本文模型;消融實驗3缺乏CRF層對最后的標(biāo)簽進(jìn)行語法與邏輯層次的規(guī)范校準(zhǔn),因而實驗結(jié)果與本文模型也有差距。從消融實驗的結(jié)果上看,本文模型中所用到的預(yù)訓(xùn)練模型RoBERTa-WWM,BiLSTM模型,CRF模型能有效的提升中醫(yī)藥專利成分及功能命名實體識別的準(zhǔn)確度。

5 結(jié)論

本文提出結(jié)合預(yù)訓(xùn)練模型RoBERTa-WWM和BiLSTM-CRF應(yīng)用于中藥發(fā)明專利的命名實體識別模型。該模型使用經(jīng)過大規(guī)模中文語料訓(xùn)練后的RoBERTa-WWM預(yù)訓(xùn)練模型,相較于傳統(tǒng)的詞向量模型和僅獲得字級別語義的BERT模型,它更能解決傳統(tǒng)詞嵌入層的一詞多義問題,可以根據(jù)標(biāo)簽數(shù)據(jù)更好地自動學(xué)習(xí)并優(yōu)化模型參數(shù),省去了傳統(tǒng)人工構(gòu)建特征的局限性。實驗表明,這種預(yù)訓(xùn)練方法更加適用于中醫(yī)藥發(fā)明專利文本,能提升本文實體識別任務(wù)的準(zhǔn)確率。本文模型相比于已有的方法,在中藥發(fā)明專利摘要中的成分和功能識別任務(wù)中的表現(xiàn)更好。

但是,當(dāng)前并沒有統(tǒng)一規(guī)范的中醫(yī)藥專利數(shù)據(jù)集使用,本文所用數(shù)據(jù)集主要通過爬蟲獲取,人工篩選預(yù)訓(xùn)練標(biāo)簽,因而難免會造成標(biāo)注誤差,影響模型特征提取的準(zhǔn)確性。此外,目前中醫(yī)藥專利的數(shù)據(jù)集量并不大,模型不能充分學(xué)習(xí)標(biāo)簽特征,也會導(dǎo)致特征提取能力下降。接下來的工作將會進(jìn)一步擴(kuò)展數(shù)據(jù)集,使用更細(xì)粒度的標(biāo)簽進(jìn)行標(biāo)注,同時考慮使用分治算法,將數(shù)據(jù)集進(jìn)一步進(jìn)行劃分與分類,從而更好地優(yōu)化任務(wù)表現(xiàn)。

[ 參 考 文 獻(xiàn) ]

[1] SONG M, YU H, HAN W S. Developing a hybrid dictionary-based bio-entity recognition technique[J]. BMC medical informatics and decision making, 2015, 15(S1): 1-8.

[2] LEAMAN R, WEI C H, LU Z. tmChem: a high performance approach for chemical named entity recognition and normalization[J]. Journal of cheminformatics, 2015, 7(S3): 1-10.

[3] UNANUE I J, BORZESHI E Z, PICCARDI M. Recurrent neural networks with specialized word embeddings for health-domain named-entity recognition[J]. Journal of Biomedical Informatics, 2017, 76: 102-109.

[4] GUO B," ZHANG C, LIU J, et al. Improving text classification with weighted word em--beddings via a multi-channel TextCNN model[J]. Neurocomputing, 2019, 363: 366-374.

[5] 羊艷玲, 李燕, 鐘昕妤, 等. 基于BiLSTM-crf的中醫(yī)醫(yī)案命名實體識別[J]. 中醫(yī)藥信息, 2021, 38(11): 15-21.

[6] TOPAZ M, MURGA L, GADDIS K M, et al. Mining fall-related information in clinical notes: Comparison of rule-based and novel word embedding-based machine learning approaches[J]. Journal of biomedical informatics, 2019, 90: 1-8.

[7] WANG X, ZHANG Y, REN X, et al. Cross-type biomedical named entity recognition with deep multi-task learning[J]. Bioinformatics, 2019, 35(10): 1745-1752.

[8] DENG N, FU H, CHEN X. Named entity recognition of traditional Chinese medicine patents based on bilstm-crf[J]. Wireless Communications and Mobile Computing, 2021(02): 1-12.

[9] ZHANG Z Z, ZHANG Z W, CHEN H Y, et al. A Joint Learning fr-amework With BERT for Spoken Language Understanding[J]. IEEE Access, 2019, 7: 168849-168858.

[10] 沈同平, 俞磊, 金力,等. 基于BERT-bilstm-crf模型的中文實體識別研究[J]. 齊齊哈爾大學(xué)學(xué)報(自然科學(xué)版), 2022, 38(01): 26-32.

[11] 王子牛, 姜猛, 高建瓴, 等. 基于BERT的中文命名實體識別方法[J]. 計算機(jī)科學(xué), 2019, 46(S2): 138-142.

[12] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]∥Preceedings of" NIPS 2017.Long Beach: Neural information processing systems foundation, 2017:5999-6009.

[13] LI Z, CHENG N, SONG W. Research on Chinese event extraction method based on RoBERTa-WWM-CRF[C]∥Preceedings of 12th International Conference on Software Engineering and Service Science. NY:IEEE, 2021:100-104.

Named Entity Recognition of TCM Patent Based on RoBERTa-WWM

DENG Na ,HE Xinyang, XIONG Caiquan,ZONG Zehua

(School of Computer Science, Hubei Univ. of Tech., 430068, China)

Abstract: The components and functional entities of invention patents of traditional Chinese medicine have the characteristics of complex types and various ambiguities. The traditional named entity recognition methods cannot fully obtain the semantic feature representation, context information and polysemy of a word. A model for named entity recognition of Chinese medicine invention patents is proposed. The model combines three modules in series: RoBERTa WWM pre training model, tw-way short and long-term memory (BILSTM) network and conditional random field (CRF). The patent abstracts are sequentially extracted through RoBERTa-WWM to generate semantic words with prior knowledge; BILSTM network enhances the context feature information in word embedding; The CRF decoding sequence outputs the maximum probability result. The experimental results show that on the corpus of real Chinese medicine invention patents, the F1 value of the model has increased by 5.80% and 6.63% respectively compared with other mainstream methods in the identification of components and functions, and can effectively improve the accuracy of the identification of drug components and functions in the abstract of Chinese medicine invention patents.

Keywords: invention patent of traditional Chinese medicine; named entity identification; RoBERTa-WWM; BiLSTM

[責(zé)任編校: 裴 琴]

[收稿日期] 2022-08-22

[第一作者] 鄧 娜(1985-), 女, 湖北武漢人, 湖北工業(yè)大學(xué)副教授, 研究方向為專利分析和機(jī)器學(xué)習(xí)。

[通信作者] 熊才權(quán)(1966-), 男, 湖北鄂州人, 工學(xué)博士, 湖北工業(yè)大學(xué)教授, 研究方向為人工智能、 辯論模型、 智能決策。

主站蜘蛛池模板: 欧美一级夜夜爽| 亚洲码在线中文在线观看| 欧美日韩动态图| 欲色天天综合网| 狂欢视频在线观看不卡| 欧美中日韩在线| 亚洲欧美不卡中文字幕| 国产免费久久精品99re不卡| 亚洲精品日产AⅤ| 好紧好深好大乳无码中文字幕| 九九视频免费看| 国产SUV精品一区二区6| 天堂亚洲网| 国产一区二区三区夜色| 日韩午夜片| 国产屁屁影院| 久久久久免费看成人影片| 亚洲精品视频免费| vvvv98国产成人综合青青| 欧美特级AAAAAA视频免费观看| 无遮挡国产高潮视频免费观看 | 欧美亚洲第一页| 亚洲无码A视频在线| 在线播放91| 国产精品不卡永久免费| 久青草国产高清在线视频| 欧美日韩一区二区在线播放| 国产a v无码专区亚洲av| h视频在线播放| 国产精品亚洲а∨天堂免下载| 99在线观看国产| 99色亚洲国产精品11p| 欧美日韩免费在线视频| 国产人在线成免费视频| 国产丝袜无码精品| 青青草原国产| 色丁丁毛片在线观看| 久久综合成人| www.日韩三级| 人与鲁专区| 免费一级无码在线网站| 亚洲福利网址| 深爱婷婷激情网| 亚洲欧美日韩另类在线一| 国产高清在线丝袜精品一区| 国产乱人激情H在线观看| 国产91小视频在线观看| 午夜视频在线观看区二区| 亚洲二三区| 亚洲中文字幕av无码区| 午夜老司机永久免费看片| 在线看片中文字幕| 精品国产电影久久九九| 99激情网| 91丨九色丨首页在线播放 | 极品国产一区二区三区| 午夜国产理论| 欧美成人怡春院在线激情| 欧美日韩在线国产| 亚洲欧美另类专区| julia中文字幕久久亚洲| 97国内精品久久久久不卡| 久久99精品国产麻豆宅宅| 亚洲日本中文字幕天堂网| 日韩A∨精品日韩精品无码| 女人一级毛片| 欧美特黄一级大黄录像| 色视频国产| 91外围女在线观看| 青草精品视频| 国产精品中文免费福利| 亚洲男人的天堂久久精品| 久久久精品国产亚洲AV日韩| 激情无码字幕综合| 久热re国产手机在线观看| 色老二精品视频在线观看| 久久精品66| 精品少妇人妻无码久久| 毛片久久久| 五月综合色婷婷| 亚洲AⅤ波多系列中文字幕| www.亚洲天堂|