999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融入領(lǐng)域信息的醫(yī)療領(lǐng)域命名實(shí)體識(shí)別研究

2022-12-06 04:06:30陳繼剛
科學(xué)與信息化 2022年22期
關(guān)鍵詞:實(shí)驗(yàn)模型

陳繼剛

西安交通大學(xué)第二附屬醫(yī)院信息網(wǎng)絡(luò)部 陜西 西安 710004

引言

電子病歷廣泛應(yīng)用于各大醫(yī)療機(jī)構(gòu)的臨床工作,其中包含大量的醫(yī)療領(lǐng)域非結(jié)構(gòu)化文本,是現(xiàn)代醫(yī)學(xué)研究的重要數(shù)據(jù)來(lái)源。如何分析、挖掘、理解和有效利用這些文本,在指導(dǎo)醫(yī)療行業(yè)科研,提供臨床決策支持和提供個(gè)性化醫(yī)療服務(wù)等方面具有重要意義。

1 相關(guān)工作

文本的分析挖掘工作一般通過(guò)自然語(yǔ)言處理(Natural Language Processing,NLP)完成,命名實(shí)體識(shí)別(Named Entity Recognition,NER)作為NLP領(lǐng)域的重要基礎(chǔ)任務(wù),為上層任務(wù)(如信息抽取、信息檢索等)提供豐富的語(yǔ)義知識(shí)。

命名實(shí)體的概念于MUC-6會(huì)議上首次提出,早期NER研究主要有基于規(guī)則和詞典和基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)兩種方法。近年來(lái),基于深度學(xué)習(xí)的方法被廣泛應(yīng)用于NER任務(wù)。來(lái)自百度的Huang等[1]提出了BiLSTM(Bidirectional Long Short-Term Memory)-CRF(Conditional Random Field)模型并應(yīng)用于序列標(biāo)注任務(wù),成為NER任務(wù)的泛用基礎(chǔ)方法之一。研究者們同時(shí)發(fā)現(xiàn),使用預(yù)訓(xùn)練語(yǔ)言模型生成詞向量作為下層網(wǎng)絡(luò)的輸入,可以大幅提高NER任務(wù)的效果。Google的Devlin J等[2]提出了預(yù)訓(xùn)練模型BERT(Bidirectional Encoder Representation from Transformers),使用多層雙向Transformer網(wǎng)絡(luò)同時(shí)捕捉上下文信息,在多達(dá)11項(xiàng)自然語(yǔ)言處理任務(wù)中取得了最優(yōu)表現(xiàn),現(xiàn)已廣泛應(yīng)用于NER任務(wù)中。兩者結(jié)合的BERT-BiLSTM-CRF模型,是NER目前最常用的模型。

實(shí)際應(yīng)用中發(fā)現(xiàn),通用文本訓(xùn)練的BERT字向量(以下簡(jiǎn)稱(chēng)BERT字向量),無(wú)法很好適應(yīng)醫(yī)療領(lǐng)域的下游任務(wù)。如何讓BERT字向量適配醫(yī)療領(lǐng)域任務(wù),是本次研究的關(guān)注點(diǎn)。

2 方法

2.1 領(lǐng)域信息融入字向量

針對(duì)傳統(tǒng)模型在醫(yī)療領(lǐng)域適配性不佳的現(xiàn)狀,本文提出利用領(lǐng)域信息調(diào)整BERT字向量的方法,最終輸入模型中的字向量同時(shí)包含BERT字向量中的語(yǔ)義信息和醫(yī)療領(lǐng)域文本的上下文關(guān)系。受Huang等的啟發(fā),本文主要考慮了以下三種方法結(jié)合BERT字向量與醫(yī)療領(lǐng)域預(yù)訓(xùn)練模型字向量(以下簡(jiǎn)稱(chēng)領(lǐng)域字向量),得到結(jié)合后的字向量

領(lǐng)域字向量表示為如式(2)的形式:

2.1.1 加權(quán)求和。將BERT字向量與領(lǐng)域字向量按位進(jìn)行加權(quán)求和得到,見(jiàn)式(3):

2.1.2 擴(kuò)展維度。將領(lǐng)域字向量補(bǔ)在BERT字向量后面得到,如式(4)所示:

2.1.3 注意力機(jī)制。通過(guò)注意力機(jī)制融合BERT字向量與領(lǐng)域字向量可分為三步:

首先輸入信息,即BERT字向量 與領(lǐng)域字向量 。

其次計(jì)算注意力分布,見(jiàn)式(5):

注:表示sigmoid函數(shù);tanh表示雙曲正切函數(shù);W為訓(xùn)練得到的矩陣。

最后計(jì)算融合后的字向量,利用前一步求得的注意力分布,得到融合后的字向量 ,見(jiàn)式(6):

得到 后繼續(xù)使用標(biāo)注數(shù)據(jù)對(duì)其進(jìn)行微調(diào),具體表現(xiàn)為在結(jié)合后的網(wǎng)絡(luò)上加一層全連接層,用標(biāo)注數(shù)據(jù)調(diào)整全連接層的參數(shù),實(shí)現(xiàn)對(duì)字向量進(jìn)行微調(diào)的效果。經(jīng)過(guò)全連接層的微調(diào)之后,得到最終字向量 ,見(jiàn)式(7)。

注:tanh為全連接層的激活函數(shù);W,b為訓(xùn)練得到的參數(shù)。

將微調(diào)之后的最終字向量 輸入到下層BiLSTM-CRF網(wǎng)絡(luò),得到融入領(lǐng)域信息的醫(yī)療領(lǐng)域NER模型。

2.1.4 訓(xùn)練方法。使用融入領(lǐng)域信息的醫(yī)療領(lǐng)域NER模型訓(xùn)練相關(guān)數(shù)據(jù)集的具體過(guò)程如下:①使用從網(wǎng)絡(luò)渠道及“中國(guó)醫(yī)學(xué)影像資源共享平臺(tái)”獲取的病例數(shù)據(jù),作為醫(yī)療領(lǐng)域的未標(biāo)注文本進(jìn)行無(wú)監(jiān)督訓(xùn)練,可得到醫(yī)療領(lǐng)域的字向量 ;②采用多種方式將BERT字向量 與領(lǐng)域字向量 結(jié)合在一起構(gòu)成新的字向量 ;③利用經(jīng)過(guò)標(biāo)注的公開(kāi)數(shù)據(jù)集和“中國(guó)醫(yī)學(xué)影像資源共享平臺(tái)”上部分經(jīng)過(guò)人工標(biāo)注的病例數(shù)據(jù)集對(duì)新的字向量進(jìn)行微調(diào),在第2步生成字向量的網(wǎng)絡(luò)之后增加一層全連接層,通過(guò)對(duì)標(biāo)注數(shù)據(jù)的訓(xùn)練調(diào)整全連接層的參數(shù);④遍歷數(shù)據(jù)集每一個(gè)句子,針對(duì)句子中的每一個(gè)字生成對(duì)應(yīng)的字向量,將生成的字向量輸入BiLSTM層中,通過(guò)BiLSTM層學(xué)習(xí)數(shù)據(jù)的文本特征,并最終生成輸出向量;⑤將BiLSTM生成的輸出向量輸入CRF層,通過(guò)CRF的打分矩陣以及概率轉(zhuǎn)移矩陣得到每一種標(biāo)簽對(duì)應(yīng)的分?jǐn)?shù),并定義損失函數(shù),通過(guò)將損失函數(shù)最小化更新需要學(xué)習(xí)的網(wǎng)絡(luò)參數(shù);⑥在經(jīng)過(guò)多輪學(xué)習(xí)參數(shù)收斂之后,固定網(wǎng)絡(luò)參數(shù),輸出模型文件,供后續(xù)醫(yī)療領(lǐng)域NER系統(tǒng)使用。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)配置

實(shí)驗(yàn)環(huán)境的軟硬件配置如下:CPU為i7-8700,內(nèi)存16GB,顯卡為NVIDIA RTX 2080Ti/11GB,操作系統(tǒng)為Ubuntu18.04LTS,編程語(yǔ)言為Python3.6,深度學(xué)習(xí)框架為T(mén)ensorFlow1.12,CUDA版本10.0。

3.2 評(píng)價(jià)指標(biāo)

模型訓(xùn)練結(jié)束之后,在測(cè)試集上驗(yàn)證常用相關(guān)指標(biāo):準(zhǔn)確率(Precision)、召回率(Recall)以及F1值,對(duì)比訓(xùn)練后的不同模型的效果。

3.2.1 準(zhǔn)確率P標(biāo)注正確的實(shí)體占標(biāo)注出的實(shí)體總數(shù)的百分比,見(jiàn)式(8)。

注:P代表準(zhǔn)確率;EM代表標(biāo)注正確的實(shí)體數(shù)量;AE代表標(biāo)注出的實(shí)體總數(shù)。

3.2.2 召回率R標(biāo)注正確的實(shí)體占測(cè)試集中實(shí)體總數(shù)的百分比,見(jiàn)式(9)。

注:R代表召回率;EM代表標(biāo)注正確的實(shí)體數(shù)量;AM代表測(cè)試集中的實(shí)體總數(shù)。

3.2.3 F1值為準(zhǔn)確率與精確率的調(diào)和平均,見(jiàn)式(10)。

比較不同模型在測(cè)試集上三種指標(biāo)的高低,可以評(píng)判各自的優(yōu)劣程度。

3.3 前置實(shí)驗(yàn)

在進(jìn)行醫(yī)療領(lǐng)域NER實(shí)驗(yàn)之前,首先需要用醫(yī)療領(lǐng)域的未標(biāo)注文本作為語(yǔ)料庫(kù),訓(xùn)練領(lǐng)域字向量。

3.3.1 獲取語(yǔ)料庫(kù)。本次研究的醫(yī)療領(lǐng)域語(yǔ)料庫(kù)來(lái)源,見(jiàn)表1。

表1 語(yǔ)料庫(kù)統(tǒng)計(jì)表

3.3.2 預(yù)訓(xùn)練。訓(xùn)練使用Python的Gensim模塊下的Word2Vec函數(shù),其模型結(jié)構(gòu)相對(duì)簡(jiǎn)單,訓(xùn)練消耗的資源較少,適合本次訓(xùn)練醫(yī)療領(lǐng)域字向量。相關(guān)參數(shù)設(shè)置見(jiàn)表2。

表2 領(lǐng)域字向量訓(xùn)練參數(shù)

3.3.3 保存預(yù)訓(xùn)練模型。預(yù)訓(xùn)練完成之后,將預(yù)訓(xùn)練模型保存至文件系統(tǒng),供后續(xù)NER實(shí)驗(yàn)使用。

3.4 實(shí)驗(yàn)參數(shù)

實(shí)驗(yàn)過(guò)程中的參數(shù)設(shè)置見(jiàn)表3,為緩解過(guò)擬合帶來(lái)的影響,在生成最終字向量的全連接層中加入了正則化方法Dropout[6]。在模型訓(xùn)練過(guò)程中,使用Adam優(yōu)化算法加速收斂速度,提高學(xué)習(xí)效果。

表3 融入領(lǐng)域信息的醫(yī)療領(lǐng)域命名實(shí)體識(shí)別模型實(shí)驗(yàn)參數(shù)

3.5 實(shí)驗(yàn)數(shù)據(jù)集

訓(xùn)練結(jié)果在公開(kāi)數(shù)據(jù)集Yidu-s4k數(shù)據(jù)集、CCKS2020-Task3數(shù)據(jù)集以及“醫(yī)學(xué)影像資源共享平臺(tái)”已標(biāo)注的病例數(shù)據(jù)上進(jìn)行了相關(guān)實(shí)驗(yàn)。

3.6 實(shí)驗(yàn)結(jié)果

為驗(yàn)證將領(lǐng)域信息融入字向量方法的合理性,將本文提出的模型稱(chēng)為Domain-BERT-BiLSTM-CRF模型,與CRF及BiLSTM-CRF等NER經(jīng)典模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果見(jiàn)表4。其中加權(quán)求和選擇效果最好的展示,CRF與BiLSTM-CRF均使用BERT作為生成字向量的預(yù)訓(xùn)練模型。

表4 不同模型在三種數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

根據(jù)表4中的結(jié)果,可以得出以下結(jié)論:

對(duì)比BiLSTM-CRF模型與原始CRF模型,可以看出利用BiLSTM提取訓(xùn)練數(shù)據(jù)中的上下文特征,有利于提高模型的特征提取能力,模型的效果更優(yōu)。

對(duì)比Domain-BERT-BiLSTM-CRF模型與BiLSTM-CRF模型,可以看出通過(guò)擴(kuò)展維度的方式結(jié)合BERT字向量與領(lǐng)域字向量,取得了比原始BERT字向量更好的效果。在CCKS2020-Task3數(shù)據(jù)集中,該方式的F1值比使用通用BERT的BiLSTMCRF模型的F1值提高了2%。

實(shí)驗(yàn)過(guò)程中記錄了各模型F1值隨epoch的變化,以CCKS2020-Task3數(shù)據(jù)集為例,見(jiàn)圖2。將以擴(kuò)展維度的方式結(jié)合BERT字向量與領(lǐng)域字向量的模型命名為Domain-BERTBiLSTM-CRF-1,將以加權(quán)求和的方式結(jié)合BERT字向量與領(lǐng)域字向量的模型命名為Domain-BERT-BiLSTM-CRF-2,將以注意力機(jī)制的方式結(jié)合BERT字向量與領(lǐng)域字向量的模型命名為Domain-BERT-BiLSTM-CRF-3。

從圖1可以看出,融入領(lǐng)域信息的醫(yī)療領(lǐng)域命名實(shí)體模型的F1值趨于穩(wěn)定的時(shí)間比其他兩種傳統(tǒng)模型稍慢,但穩(wěn)定后的模型F1值更高。

圖1 CCKS2020-Task3數(shù)據(jù)集F1值的變化情況

4 結(jié)束語(yǔ)

醫(yī)療領(lǐng)域的文本標(biāo)注工作需要由受過(guò)專(zhuān)業(yè)培訓(xùn)的人員處理,鑒于醫(yī)療信息自身具有敏感性,各醫(yī)療機(jī)構(gòu)之間的原始數(shù)據(jù)又難以共享,最終導(dǎo)致標(biāo)注醫(yī)療數(shù)據(jù)的獲取成本高昂且難以實(shí)現(xiàn)。如何在有限條件下調(diào)整原始字向量,適應(yīng)醫(yī)療領(lǐng)域的NER任務(wù)是本次研究關(guān)注的改進(jìn)點(diǎn)。

針對(duì)通用BERT字向量無(wú)法很好適應(yīng)醫(yī)療領(lǐng)域任務(wù)的問(wèn)題,本文提出一種將領(lǐng)域信息融入字向量的新方法:①利用醫(yī)療領(lǐng)域內(nèi)大量未標(biāo)注數(shù)據(jù)預(yù)訓(xùn)練一個(gè)領(lǐng)域字向量;②通過(guò)擴(kuò)展維度等方式將BERT字向量與領(lǐng)域字向量相結(jié)合;③增設(shè)一個(gè)全連接層,利用標(biāo)注數(shù)據(jù)對(duì)結(jié)合后的字向量進(jìn)行微調(diào),得到最終的字向量。為了驗(yàn)證新方法的有效性,本文使用Yidu-s4k、CCKS2020-Task3以及“醫(yī)學(xué)影像資源共享平臺(tái)”的已標(biāo)注病例數(shù)據(jù)作為語(yǔ)料庫(kù)進(jìn)行實(shí)驗(yàn),對(duì)比原始CRF模型,BiLSTM-CRF模型與三種Domain-BERT-BiLSTM-CRF模型的效果。

實(shí)驗(yàn)結(jié)果表明,相比CRF和BiLSTM-CRF,采用擴(kuò)展維度的方式結(jié)合BERT字向量與領(lǐng)域字向量效果最佳,有效提升了模型性能。這也驗(yàn)證了Zhang等[7]的實(shí)驗(yàn)結(jié)果,即維度擴(kuò)展方式要優(yōu)于加算、乘算和注意力機(jī)制等方式的效果,猜測(cè)原因?yàn)榫S度擴(kuò)展得到的向量在反向傳播計(jì)算誤差時(shí),能更好地差異化處理不相關(guān)的特征,獨(dú)立地反映語(yǔ)言模型對(duì)上下文結(jié)構(gòu)和上下文語(yǔ)義的表達(dá)與預(yù)期的差別。

擴(kuò)展維度方式的Domain-BERT-BiLSTM-CRF模型在一定程度上改善了原始BERT字向量對(duì)醫(yī)療領(lǐng)域NER任務(wù)適應(yīng)性不佳的情況,但該模型也存在一定局限性,其F1值趨于穩(wěn)定的時(shí)間稍慢,穩(wěn)定后的F1值更高。猜測(cè)原因是新模型在生成最終字向量時(shí),需要比其他兩種傳統(tǒng)模型額外訓(xùn)練一個(gè)全連接網(wǎng)絡(luò)。

猜你喜歡
實(shí)驗(yàn)模型
一半模型
記一次有趣的實(shí)驗(yàn)
微型實(shí)驗(yàn)里看“燃燒”
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
3D打印中的模型分割與打包
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 看国产毛片| 国产精品林美惠子在线播放| 亚洲成综合人影院在院播放| 福利国产微拍广场一区视频在线| 无码内射中文字幕岛国片| 中文字幕 91| 亚洲VA中文字幕| 免费人成黄页在线观看国产| 怡春院欧美一区二区三区免费| 亚洲中文字幕久久精品无码一区| 71pao成人国产永久免费视频| 狠狠亚洲五月天| 午夜视频在线观看免费网站 | 亚洲一级毛片在线播放| 呦视频在线一区二区三区| 亚洲av无码人妻| 黄色国产在线| 国产成a人片在线播放| 大陆精大陆国产国语精品1024| 老司机午夜精品网站在线观看 | 精品国产自| 久久成人国产精品免费软件| 欧美在线视频不卡第一页| 日本爱爱精品一区二区| 国产久草视频| 亚洲天堂色色人体| 久久夜夜视频| 天天摸天天操免费播放小视频| 丁香婷婷激情综合激情| 91麻豆久久久| 99在线观看视频免费| 99热这里只有成人精品国产| 日韩中文字幕免费在线观看| 欧美成a人片在线观看| 欧美a在线| 亚洲天堂日韩在线| 青青极品在线| 在线毛片网站| 国产第四页| 亚洲天堂高清| 国产乱子伦无码精品小说| 凹凸精品免费精品视频| 美女视频黄又黄又免费高清| 精品少妇人妻无码久久| 亚洲人成在线免费观看| 国产精品亚洲精品爽爽| 99国产在线视频| 日本成人在线不卡视频| 亚洲中文字幕在线一区播放| 伊人91在线| 国产微拍一区二区三区四区| 欧美成人A视频| 2020国产在线视精品在| 亚洲无码高清视频在线观看 | 日本AⅤ精品一区二区三区日| 呦女精品网站| 国产精品久久久久久久久| 国产欧美视频在线观看| 99色亚洲国产精品11p| 高清精品美女在线播放| 极品性荡少妇一区二区色欲| 国产精品毛片在线直播完整版| 国产chinese男男gay视频网| 一级全黄毛片| 97se亚洲| 国产第一页免费浮力影院| 22sihu国产精品视频影视资讯| 91欧洲国产日韩在线人成| 欧美亚洲国产精品久久蜜芽| 国产精品人成在线播放| 色婷婷综合激情视频免费看 | 国产成a人片在线播放| 特级aaaaaaaaa毛片免费视频| 91小视频在线观看| 免费在线不卡视频| 国产欧美日韩在线一区| 欧美综合激情| 国产精品成人一区二区不卡| 天天视频在线91频| 激情综合五月网| 精品国产乱码久久久久久一区二区| 国产在线专区|