999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多特征融合的中文電子病歷命名實體識別

2023-12-11 07:11:22李新福
計算機工程與應用 2023年23期
關鍵詞:文本信息模型

孫 振,李新福

河北大學 網絡空間安全與計算機學院,河北 保定 071000

電子病歷作為醫院診療工作的重要輔助材料,記錄病人在醫院診斷治療的全過程。其中,不僅涵蓋病人的診療記錄、檢查結果、醫囑、手術、護理等靜態的病歷信息,還包含為病人提供的服務信息。從電子病歷中抽取醫療相關的實體,是現代醫療工作開展的重要一環,可應用于臨床決策、輔助診療、醫療知識挖掘和醫療知識圖譜的構建等場景。因此,準確快速地提取醫療實體,將非結構化的電子病歷文本,轉變為可供計算機識別的結構化文本,對醫院的醫療信息智能化管理具有非常重要的意義。

命名實體識別(named entity recognition,NER)作為自然語言處理(natural language processing,NLP)的一項基本任務,在文本處理中受到廣泛關注。命名實體識別主要通過對句子進行分詞,劃分出實體邊界,進而從非結構化的文本中抽取不同類別的實體,因此命名實體識別實體邊界的劃分和準確分詞密切相關[1]。醫療領域常見的命名實體主要有手術、藥物、疾病、癥狀、檢查、身體部位等。但是在中文電子病歷文本中,醫療領域的詞匯具有一定的專業性,分詞工具容易將醫學術語的實體邊界混淆,中文漢字的字形信息尚未被充分利用。例如“左腎下囊腫”一詞準確的實體標簽為“疾病”,分詞工具將其劃分為“左腎下”和“囊腫”兩個實體,分別標記為“身體部位”和“癥狀”,從而產生錯誤的識別結果。

中國知識圖譜與語義計算大會(China Conference on Knowledge Graph and Semantic Computing,CCKS)已經連續多年開展了基于中文電子病歷命名實體識別的任務評測,針對性地給出一定數量的標記數據,引領了國內中文電子病歷命名實體識別數據標注規范的統一,同時為相關研究人員提供了重要的數據集。但目前中文電子病歷命名實體識別數據集仍然存在實體標簽分布不均衡的問題。

針對這些問題,本文結合漢字的部首和四角信息,提出了多特征融合的中文電子病歷命名實體識別方法,主要的貢獻可以總結如下:

(1)針對中文電子病歷命名實體識別文本專業詞匯較多帶來的詞匯邊界模糊問題,使用基于字的中文電子病歷命名實體識別模型,將字、部首和四角向量融合,學習漢字最基本的字形結構信息,獲得中文電子病歷文本專業詞匯重要的釋義表示。

(2)針對中文電子病歷命名實體識別數據集實體標簽分布不均衡的問題,提出了實體標簽標記模塊,用二分類器過濾非實體區域,加強模型對少數實體類型的學習。

(3)采用Mogrifier GRU 提取融合的向量表示,在GRU 的基礎上進行隱藏層和輸入層之間的交互,豐富字形特征在文本的表征能力,獲得深層次的文本特征。

1 相關工作

中文電子病歷命名實體識別最早的定義源于I2B2 2010評測任務,該任務分類依據統一醫學語言系統的標準將醫療命名實體劃分為醫療問題、檢查、癥狀三種類型。目前中文命名實體識別任務通常被當作序列標注任務,常用的方法主要分為三種:

(1)基于規則和詞典的方法。基于規則和詞典的方法依賴于人工建立大規模的規則和詞典。Kraus 等人[2]通過大規模的正則表達式構建醫療規則,用于識別臨床病歷中的藥品、劑量等命名實體。該方法依賴于專業領域研究人員的經驗,難以匹配所有領域的實體類型,且不能在領域之間遷移。

(2)基于統計機器學習的方法。常用的統計機器學習方法有:最大熵模型、支持向量機、隱馬爾可夫模型、條件隨機場(conditional random field,CRF)[3]等,基于統計機器學習的方法不需要擁有專業知識的專家來挑選和設計規則詞典,就可以挑選出有效反映該類實體特性的特征集合。Yang 等人[4]基于CRF 模型融合中文漢字特征和醫療規則特征,用于識別身體部位、癥狀、藥物、手術等命名實體。統計機器學習方法依賴于大規模特征工程構建的特征集合,特征工程同樣需要人為創建,對特征選取和數據集的要求較高。

(3)基于深度學習的方法。深度神經網絡利用端到端的模型結構,相比于傳統的統計機器學習方法減少了人工特征選擇帶來的困難,對文本數據的提取更加充分,有利于提高實體識別的效果。Collobert 等人[5]提出基于卷積神經網絡(convolutional neural network,CNN)的命名實體識別方法,在性能上優于所有的統計機器學習方法。Huang 等人[6]將長短期記憶網絡(long short-term memory,LSTM)應用到命名實體識別中,通過門控單元解決了序列任務中CNN不能處理長距離上下文信息的問題,緩解了傳統循環神經網絡(recurrent neural network,RNN)出現的梯度消失問題,獲取更多的文本依賴關系。隨后有研究人員將LSTM 和CRF[7-9]結合應用到電子病歷命名實體識別任務中,識別醫學語料命名實體。由于中文電子病歷語料庫中含有大量非結構化的詞匯,需要從語料庫的上下文提取文本依賴關系,因此充分結合時序特征的BiLSTM-CRF模型成為中文電子病歷命名實體識別最為常見的模型。但是這些模型受限于訓練語料的質量和規模[10],識別效果仍然有所欠缺,可解釋性也不強。門控循環單元(gated recurrent unit,GRU)由Cho 等人[11]提出,和LSTM 同屬于RNN 的變體,和LSTM相比結構更為簡單,有效減小了參數量,在訓練時間上更具優勢。因此本文采用GRU作為基礎模型。

在中文命名實體識別任務中,由于缺乏詞匯邊界,研究人員經常將字作為最小的處理單元。有研究表明[12]基于字的命名實體識別研究方法,通過對字符分割可以規避分詞錯誤帶來的問題,在效果上優于基于詞匯的命名實體識別研究方法。考慮到單個字的語義表征能力較弱,很多研究人員在基于字的命名實體識別方法中采用詞匯增強方法,融合其他文本信息以增強上下文語義表示[13]。Zhang等人[14]在獲取字信息的基礎上改進LSTM結構融入詞匯信息,將潛在的詞匯信息整合到基于字符的模型中。Ma 等人[15]利用詞典匹配字符得到BMES 標注的詞匯信息,并將其融入到對應的字信息中。Xu等人[16]的研究表明以漢字為基礎的部首信息同樣可以增強命名實體的語義表示。受到這些方法的啟發,本文將詞匯增強方法引入到中文電子病歷命名實體識別中。

上述命名實體識別模型中,沒有考慮到中文電子病歷文本中專業詞匯豐富,實體類別分布不平衡給命名實體識別帶來的影響,因此,中文電子病歷命名實體識別的研究還不夠深入。本文結合詞匯增強方法的優勢,將字形信息引入到模型中,增強模型對中文電子病歷專業術語的語義表征能力;采用實體標記策略對向量進行標簽標記,加強對不同實體類型的建模;通過GRU之前的信息交互,獲得更豐富的特征表示。

2 模型架構

本文提出多特征融合的中文電子病歷命名實體識別模型,主要包括三個部分。第一部分為嵌入層,分別提取文本的字、部首和四角向量,通過實體標記策略標記向量的實體類型,然后將三種向量拼接為融合向量;第二部分為特征提取層,利用Mogrifier GRU對融合向量進行特征提取,增強上下文之間的信息交互;第三部分為CRF層,通過狀態轉移矩陣建立約束,得到標簽序列預測結果。整體的模型架構如圖1所示。

圖1 模型架構Fig.1 Model framework

2.1 嵌入層

當命名實體識別被當作序列標注任務時,需要獲取文本的向量表示。在此階段文本序列可以被編碼為X={X1,X2,…,Xn}。模型的字向量由ALBERT 提取;部首和四角向量通過字形轉換函數獲取,并使用CNN 對部首和四角向量進行特征提取,經過向量標記處理后將三種向量拼接得到嵌入層的向量表示。

2.1.1 字向量

ALBERT(a lite bidirectional encoder representations from transformers)[17]是在BERT[18]基礎上開發的一種輕量級預訓練模型,通過參數因式分解、跨層參數共享和句子間順序預測使ALBERT擁有和BERT接近的性能,有效減少了參數量,可以避免模型過擬合。模型架構如圖2所示。

圖2 ALBERT模型Fig.2 ALBERT model

圖2中,Ei、Ti分別代表文本數據中第i個字的文本序列對應的向量表示和經過Transformer編碼后得到的字向量,Trm代表ALBERT內部的雙向Transformer模塊,共12 層。設輸入語句S=c1c2…ct,其中ci∈C,i=1,2,…,t。通過ALBERT 得到與S對應的字向量X=[xc1;xc2;…;xct]。

2.1.2 部首向量

中文電子病歷數據和中文通用領域的數據不同,文本數據具有很強的專業性。漢字是一種象形文字,在醫療文本中,疾病實體漢字都有“疒”部首,代表身體部位的實體漢字大部分都有“月”部首,常見的藥品名大多和“钅”部首相關,相似的部首往往表達出相近的語義關系。因此,本文在嵌入層加入部首向量挖掘醫療文本的語義關系。

在給定的文本序列S=c1c2...ct中,對于每個漢字ci,都可以獲取該字的部首向量表示Radical(ci)={ri,1,ri,2,…,ri,k},設部首向量查找轉換函數為eradical,則通過查找轉換函數進行嵌入表示可以得到對應的部首向量矩陣Wi,如式(1)所示:

2.1.3 四角向量

部首在組成漢字時,在漢字中的位置不同,可能出現完全不同的語義,而部首向量不能捕捉到這種位置關系。并且具有相同部首的漢字編碼可能會干擾語義信息提取效果,部首向量對文本向量表示的補充不足以充分表達漢字語義和內在的文本關系。

四角編碼是一種普遍的漢字檢索方法,按照田字格結構對漢字進行編碼,這種編碼方式可以表征出漢字組成結構的位置關系。加入四角向量可以在部首向量的基礎上補充漢字的構造特征,獲取高質量的文本語義表示。

在給定的文本序列S=c1c2…ct中,對于每個漢字ci,都可以獲取該字的四角向量表示Fc(ci)={fi,1,fi,2,…,fi,k}。設四角向量查找轉換函數為efc,則通過查找轉換函數進行嵌入表示可以得到對應的四角向量矩陣Wf,如式(2)所示:

2.1.4 對向量進行實體標記

在本文使用的中文電子病歷數據集中,樣本分布不平衡,非實體類型占據92%以上,且各實體類別之間存在較大差距。在文獻[19]的啟發下,本文對文本語料中幾種向量進行標簽標記處理。即通過兩個單獨的二分類器來分別檢測每個命名實體對應字符串的開始和結束位置。對向量進行實體標記的過程如圖3所示。

1047 大動脈粥樣硬化與心源性栓塞急性缺血性腦卒中特征差異對比研究 田 冰,王鐵功,楊鵬飛,尹 偉,許 兵,陳錄廣,劉 崎,劉建民,陸建平

圖3 向量實體標記Fig.3 Vector entity tag

利用二分類器標記的方式,可以在電子病歷樣本中,對向量進行標簽標記,加強模型對不同類型實體的建模,緩解實體分布不平衡帶來的影響。這種匹配策略可以保持實體跨度的完整性,在非實體類型過多的條件下提高模型對不同實體類型的識別準確率。

對應的二分類器表示如式(3)、(4)所示:

其中,W、b表示可學習的參數,σ表示激活函數sigmoid,X表示輸入向量,經過計算后得到輸入的第i個向量標識為對象的開始和結束位置的概率pi。如果概率超過某個閾值,則對應的部位將被分配標簽1,否則將被分配0。

實體標簽的最大似然函數如式(5)所示:

用于確定給定向量表示x的實體s范圍。

2.1.5 向量融合

將漢字按照不同的編碼方式拆分,這些結構在漢字局部呈現一定的關聯性。使用CNN可以關注漢字的局部特征,對向量進行進一步的特征提取,捕獲漢字中潛在的語義信息。

其中,w表示卷積核的權重參數,f表示激活函數ReLU,b表示偏置,yi表示經過卷積操作后得到的第i個特征。再經過最大池化后,即可得到文本的字形向量表示。CNN進行特征提取的過程如圖4所示。

圖4 CNN提取字形向量Fig.4 CNN extracts glyph vector

在分別得到字、部首和四角向量后,模型對這三種向量表示進行拼接得到向量x,如式(7)所示:

其中,xc表示字向量,xr表示部首向量,xfc表示四角向量。

2.2 特征提取層

傳統的GRU能在一定程度上緩解梯度消失和長距離依賴的問題,從而捕捉句子中潛在的語義信息。

GRU的計算過程如式(8)~(11)所示:

其中,Zt表示當前的更新門控,rt表示重置門控,ht-1表示上一時刻傳遞的隱藏層狀態,σ(·)表示Sigmoid 激活函數,ht表示當前時刻的輸出。Xt表示t時刻下的輸入向量,Wz、Wr、皆為權重系數,⊙表示矩陣乘法。

雖然GRU在編碼階段可以考慮上下文相關的詞匯信息,但在GRU 計算中當前時刻的輸入和上一時刻傳遞過來的隱藏狀態是相互獨立的,它們只在GRU 的門控內部交互,而沒有在信息傳遞到門控單元之前進行交互。在此階段缺乏交互,可能會導致上下文信息的丟失。

因此,模型借鑒文獻[20]的思想,在不改變GRU 本身結構的基礎上,采用Mogrifier GRU實現當前時刻輸入和上一時刻隱藏狀態的交互。在字形向量表征電子病歷文本的基礎上,通過輸入層和隱藏層信息交互的方式,強化模型對漢字字形隱含語義關系的理解,更加準確地捕獲電子病歷專業術語的上下文信息。設輸入和隱藏狀態的交互輪次為r,每次交互前的輸入和隱藏層狀態都是經過上次交互得到。在r=5的情況下,Mogrifier GRU的示意圖如圖5所示。

圖5 Mogrifier GRUFig.5 Mogrifier GRU

可以表示為:

這里x-1=x,,交互輪數r設定為超參數,當r=0 時,即為未做交互的傳統GRU。將xi和按照指定的輪次進行交互,增強模型對上下文語義信息的提取能力。r為奇數次交互時更新xi,r為偶數次交互時更新,經過多輪xi和的交互后,將所得的矩陣作為GRU的輸入,進一步提取特征編碼。

考慮到長距離依賴對文本標簽決策產生的影響,模型采用雙向的Mogrifier GRU提取輸入序列的特征,分別在正向和反向輸入文本序列,通過計算得到兩個不同方向的隱藏層向量,然后將兩部分向量進行拼接得到對應的輸出:

2.3 CRF層

為避免“B-藥物”后出現“I-解剖部位”的情況,需要使用CRF 建立相應的標簽約束。CRF 是一種判別式概率模型,對于一組給定的輸入序列X={x1,x2,…,xn},對應的預測標簽序列Y={y1,y2,…,yn},對應的概率分數函數如式(18)所示:

其中,C代表轉移分數矩陣,Cij表示從標簽i轉移到標簽j的概率,Pi,yi表示第i個詞語被標記為正確序列yi的概率,S(x,y)表示輸入序列X被標記為正確標簽序列Y的概率分數。預測序列Y對應的概率如式(19)所示:

YX表示所有可能的標注序列。然后通過維特比算法解碼,求得Y中得分最高的標簽序列,如式(20)所示:

3 實驗結果及分析

3.1 數據集

本文在CCKS2019和MSRA數據集上進行實驗,來驗證模型在中文電子病歷命名實體識別任務上的有效性。CCKS2019 數據集共包括6 種實體類型,分別是疾病和診斷、手術、藥物、解剖部位、影像檢查和實驗室檢驗,共有1 379 條數據。MSRA 數據集共包含3 種實體類型,分別是LOC、ORG、PER,共有48 442 條數據。具體的各實體類型如表1和表2所示。

表1 CCKS2019數據集Table 1 CCKS2019 dataset

表2 MSRA數據集Table 2 MSRA dataset

3.2 評價指標

評價指標采用命名實體識別任務中最為常見的評價體系:精確率(precision,P)、召回率(recall,R)和F1值(F1-score)。

其中,TP就是把正類預測為正類,FP就是把負類預測為正類,FN就是把原來的正類預測為負類。F1-score同時兼顧了分類模型的精確率和召回率,可以看作是精確率和召回率的一種加權平均。

3.3 實驗環境和超參數設置

表3和表4列出了本次實驗的具體配置和參數。模型基于Tensorflow框架,服務器具體配置:CPU為Intel?主頻2.5 Hz,GPU 為顯存8 GB 大小的GeForce RTX 2080,內存32 GB。采用交叉驗證的方法對實驗進行微調。將輸入文本最大長度設置為128。

表3 實驗配置Table 3 Experimental configuration

表4 實驗參數設置Table 4 Experimental parameters setting

為了驗證GRU輸入與隱藏層之間的交互輪次r對中文電子病歷命名實體識別效果的影響,選擇不同的r進行實驗。將r作為基礎參數分別設置為4~7,其他參數不變,得出的實驗結果如圖6所示。

圖6 不同交互輪次下F1值Fig.6 F1 value under different interaction rounds

從實驗結果可以看出,F1的變化與交互輪次r之間存在一定關系。在交互輪次較少時,F1 逐漸增大,當r取5時,F1達到最大,證明GRU輸入層與隱藏層之間的交互使得模型加強了模型對上下文信息的提取,相比普通GRU能夠更好地挖掘電子病歷文本特征的前后依賴關系。但當F1取6、7時,F1降低,過多的r會加強模型對文本中非關鍵詞語的關注,影響GRU 對時間序列數據的提取效果。

3.4 實驗結果與分析

3.4.1 對比實驗

為驗證模型的有效性,本文在CCKS2019數據集上與其他先進方法進行對比,并給出了總體的F1值,結果如表5所示。對比方法簡介如下。

表5 對比實驗結果Table 5 Comparative experimental results單位:%

(1)BiLSTM[6]:序列標注任務的通用模型。

(2)BERT-base[18]:谷歌發布的預訓練模型。

(3)MacBERT-base[21]:使用相似詞匯替換任務改進BERT模型。

(4)FLAT[22]:在Transformer 的基礎上,采用特殊的位置編碼表征輸入結構。

(5)DUTIR[23]:提出基于部首的ELMo 預訓練模型,并使用CNN 提取部首向量,在BiLSTM-CRF 的基礎上使用多任務訓練方式,取得CCKS2019 競賽第三名的成績。

(6)FBBC[24]:在修正的數據集上,使用BERT預訓練模型提取字向量,并使用BiLSTM-CRF 進行編碼解碼,取得CCKS2019競賽第一名的成績。

(7)MECT[25]:通過交叉變換網絡融合部首、字和詞向量。

從實驗結果可以發現,本文模型在同一數據集上的實驗結果相比其他模型有著明顯提升。BiLSTM 為常見的序列標注模型,適合大部分命名實體識別任務,因此取得較好的效果。BERT、MacBERT預訓練模型在編碼中考慮了對一詞多義問題的處理,使用注意力機制提取句子中的語義信息,關注文本語義間的聯系,因此在效果上優于BiLSTM模型。FLAT模型引入相對位置編碼,更加關注文本內部的詞匯聯系,在效果上優于預訓練模型。DUTIR使用ELMo預訓練模型提取部首向量,關注電子病歷文本結構的特點,使得向量能夠表征醫療專業詞匯的含義。但編碼方式存在局限性,BiLSTM缺乏隱藏層和輸入層的交互,導致對部首信息的利用不夠充分。FBBC 綜合BERT 模型和BiLSTM-CRF 的優點,通過大規模的預訓練模型和序列建模方法來識別實體類型,但缺乏針對電子病歷文本特點的學習,在識別效果上仍有所欠缺。MECT模型引入部首向量,使用交叉變換網絡提取特征,有效提高了命名實體識別效果,驗證了部首信息對中文電子病歷命名實體識別的有效性。

本文模型使用ALBERT 在使用ALBERT 提取字向量的基礎上加入部首和四角向量,關注電子病歷文本的字形結構特點,同時使用標簽標記方法解決了中文電子病歷數據集樣本分布不平衡的問題,在特征提取前進行輸入層和隱藏層的交互,學習電子病歷文本中潛在的語義關系,因此效果比上述方法更好。

3.4.2 消融實驗

為探究模型中各個模塊給中文電子病歷命名實體識別效果帶來的改進,設置6 個模型進行消融實驗,各模型在CCKS2019數據集的實驗結果如表6所示。

表6 消融實驗結果Table 6 Ablation results 單位:%

model1:普通的ALBERT-BiGRU-CRF模型;

model2:在model1的基礎上加入部首向量;

model3:在model2的基礎上加入四角向量;

model4:在model3 的基礎上對嵌入層的向量進行實體標簽標記;

model5:在model4 的基礎上使用CNN 對部首和四角向量進行特征提取;

model6:在model5 的基礎上對GRU 加入隱藏層和輸入層之間的交互,即為本文提出的模型。

從實驗結果可以看出,model1 僅僅采用ALBERT預訓練模型的方法效果較差。通用領域的預訓練模型在數據量較小、專業術語較多的醫療數據集上對文本信息的獲取有所不足。model2、model3在加入部首和四角向量后,F1值提升了1.20和0.33個百分點,證明這類字形向量對電子病歷專業詞匯提取語義關系有幫助。model4 在model3 的基礎上使用CNN 對部首和四角向量進行特征提取,相比于未經過字形向量處理,F1值提升了0.32 個百分點,證明了在電子病歷文本中使用CNN 可以有效提取特征表示,獲取相對豐富的字形信息。model5通過二分類器處理實體標簽,相比于未經過處理model4 的F1 值提升了0.72 個百分點,證明對于實體類型分布不均衡的樣本而言,標簽分類策略可以有效減少樣本分布不平衡對模型的影響。model6 在引入GRU 的輸入層、隱藏層狀態交互之后,相比于GRU 未做交互model5 的F1 值提升了0.89 個百分點,表明增加兩者之間的交互有利于提高模型對電子病歷文本上下文信息的理解能力,彌補GRU 在編碼階段缺乏交互導致語義信息丟失,提高中文電子病歷命名實體識別的性能。

3.4.3 通用領域數據集對比實驗分析

為驗證模型在中文命名實體識別通用領域的效果,將模型在MSRA數據集上進行對比實驗,并進行相應分析,實驗結果如表7所示。

表7 MSRA數據集上的實驗效果對比Table 7 Comparison of experimental results on MSRA dataset 單位:%

(1)Lattice-LSTM[14]:通過匹配字典的方式找到文本潛在的詞匯信息,并將詞匯信息融合到基于字的LSTM網絡中。

(2)WC-LSTM[26]:提出新的向量編碼方式,通過四種不同的方法將固定長度的單詞信息融入到每個字中。

(3)CGN[27]:提取文本的字、詞義和邊界信息,并利用圖注意力網絡提取三種不同的特征向量。

(4)LR-CNN[28]:針對Lattice-LSTM不能并行運算的缺陷,采用CNN對字特征進行編碼,通過不同的感受野提取特征,并使用反饋機制來調整詞匯信息的權重。

(5)SoftLexicon(LSTM)+bichar[15]:使用詞加權統計數據集中詞語出現的頻率,將字匹配到的詞典和字信息融合。

以上均為命名實體識別中常見的詞匯增強方法,其中Lattice-LSTM、WC-LSTM、CGN、LR-CNN 為動態框架,是在幾種傳統神經網絡模型的基礎上修改網絡架構,融入全新的詞匯信息形成的。但這幾種方法缺乏可遷移性,不能應用到不同的特征提取器中,傳統神經網絡的編碼效果也比較有限。本文模型采用和SoftLexicon 相同的自適應編碼方式,在編碼階段除了使用字向量外,還融入了部首和四角向量,體現了電子病歷數據的專業性,在文本語義表示上更加豐富,同時在編碼層將輸入和隱藏狀態交互加強了模型對文本信息內部的上下文語義提取能力。在F1值上分別比其他幾種方法高出2.26、2.08、1.97、1.73、1.38個百分點,精確率和召回率均達到最高值,證明模型可以捕獲句子中潛在的語義關系,有效識別MSRA 數據集中的各類命名實體,驗證了模型的通用性。

綜合以上結果表明,CNN 作為特征提取器提取部首和四角向量,和ALBERT 提取的字向量融合,可以有效提取文本局部信息,避免有效信息的丟失;通過實體標簽標記策略,可以加強模型對實體類型的建模,減少負樣本過多帶來的影響;在GRU 的基礎上輸入層和隱藏層交互的方法可以提取到文本的深層語義信息,加強文本內部詞匯之間的聯系,進一步提升了中文電子病歷命名實體識別的實驗效果。

4 結束語

本文提出一種Mogrifier GRU 和多特征融合的中文電子病歷命名實體識別研究方法,旨在挖掘文本深層次的語義關系,用于識別醫學領域的命名實體。首先通過ALBERT 提取字向量,CNN 提取部首、四角向量,從不同方向挖掘文本潛在的信息;然后使用二分類器對向量進行實體標簽標記,減少負樣本計算,再將經過標記處理后的三種向量拼接;最后在GRU的基礎上,將輸入部分和隱藏層交互,增強模型上下文信息的提取能力,使用CRF解碼,建立標簽之間的約束。在CCKS2019數據集上進行實驗,證明了模型在中文電子病歷命名實體識別的效果。在中文通用領域數據集上的實驗進一步驗證了模型的適用性。但模型使用的預訓練模型是在通用領域上訓練完成的,對專業領域的數據集識別效果仍然有所欠缺。下一步工作是將預訓練模型在醫療文本數據上訓練,進一步提高模型在中文電子病歷命名實體識別任務的性能。

猜你喜歡
文本信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产成人精品亚洲77美色| av天堂最新版在线| 亚洲欧美在线精品一区二区| 国产无遮挡裸体免费视频| 热九九精品| 国产在线拍偷自揄拍精品| 国产一区二区精品高清在线观看| 欧美午夜视频在线| 国产成人av一区二区三区| 狠狠亚洲五月天| 欧美日韩久久综合| 黄色a一级视频| 国产精品香蕉| 日本三级欧美三级| 久久激情影院| 一本一本大道香蕉久在线播放| 在线观看的黄网| 中文字幕亚洲电影| 亚洲精品成人片在线播放| 日本免费新一区视频| 91精品啪在线观看国产| 国产精品无码久久久久AV| 亚洲一区二区三区国产精品| 亚洲人成色在线观看| 国产剧情一区二区| 在线观看亚洲国产| AV熟女乱| 国产亚洲精品精品精品| 国产区在线看| 国内视频精品| 青青青国产视频| 免费va国产在线观看| 亚洲人成影院午夜网站| 在线国产欧美| 亚洲欧美另类专区| 91人妻日韩人妻无码专区精品| 欧美三级自拍| 国产高清在线精品一区二区三区| 网久久综合| 国产本道久久一区二区三区| 婷婷亚洲最大| 丝袜无码一区二区三区| 国产在线视频欧美亚综合| 国产精品无码一区二区桃花视频| 久久www视频| 欧美午夜在线观看| 亚洲日韩久久综合中文字幕| 精品少妇人妻av无码久久| 欧美色视频日本| 自拍欧美亚洲| 欧美成在线视频| 国产免费观看av大片的网站| 真实国产乱子伦视频| 少妇精品久久久一区二区三区| 亚洲欧美日本国产专区一区| 精品视频一区在线观看| 欧美日本中文| 成人午夜天| 日韩激情成人| 精品一区国产精品| 欧美第二区| 华人在线亚洲欧美精品| 欧美激情第一区| 凹凸国产分类在线观看| 日韩福利在线观看| 久久久亚洲色| 99精品热视频这里只有精品7| 亚洲精品欧美重口| 性欧美久久| 成年人久久黄色网站| A级毛片高清免费视频就| 欧美日韩激情在线| 中文字幕亚洲专区第19页| 国内精品91| 亚洲成人高清无码| 天堂亚洲网| 免费一级全黄少妇性色生活片| 免费观看无遮挡www的小视频| 九九热精品在线视频| 爆乳熟妇一区二区三区| 国产精品任我爽爆在线播放6080| 国产精品香蕉在线|