999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種面向中醫(yī)電子病歷的實(shí)體抽取算法

2022-01-07 01:23:20丁有偉胡孔法戴彩艷
軟件導(dǎo)刊 2021年12期
關(guān)鍵詞:模型

丁有偉,郭 坤,胡孔法,戴彩艷

(1.南京中醫(yī)藥大學(xué)人工智能與信息技術(shù)學(xué)院,江蘇南京 210023;2.南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇南京 211106)

0 引言

中醫(yī)電子病歷記錄了辨證論治的全過程,包含證—癥—方—藥的規(guī)律,對(duì)中醫(yī)傳承發(fā)展有重要作用。隨著智慧中醫(yī)藥領(lǐng)域的發(fā)展,中醫(yī)電子病歷的分析挖掘已成為學(xué)術(shù)界研究熱點(diǎn),多用于臨床決策支持[1]、疾病診斷預(yù)測(cè)[2]、診療規(guī)律挖掘[3]、療效評(píng)價(jià)[4]等。然而隨著智能化程度的加深,迫切需要從語義層面探究電子病歷中蘊(yùn)含的中醫(yī)思想和診療經(jīng)驗(yàn),即從電子病歷中提取出命名實(shí)體,包含命名實(shí)體的類別及其之間的關(guān)系。中醫(yī)電子病歷實(shí)體識(shí)別通常采用人工標(biāo)記或關(guān)鍵詞匹配方法,前者浪費(fèi)大量人力且準(zhǔn)確性不可控,后者完全依賴于詞庫的完整性和準(zhǔn)確性,可擴(kuò)展性較差。因此,為應(yīng)對(duì)各類基于中醫(yī)電子病歷的智能應(yīng)用的數(shù)據(jù)處理需求,亟需研究高效率、高精度的中醫(yī)電子病歷實(shí)體識(shí)別算法。

近年來,基于神經(jīng)網(wǎng)絡(luò)的自然語言處理方法為電子病歷的識(shí)別提供了技術(shù)支撐。自深度神經(jīng)網(wǎng)絡(luò)在手寫體識(shí)別上取得突破以來,各類神經(jīng)網(wǎng)絡(luò)已成為當(dāng)前自然語言處理的主流模型。例如,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)早期用于圖像處理,后來逐漸引入到自然語言處理中并取得較好的識(shí)別效果[5-6];循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)較早應(yīng)用于自然語言處理中[7],但容易引發(fā)梯度消失和梯度爆炸問題,隨后基于該模型的各種改進(jìn)方案被提出[8-9];長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory Networks,LSTM)彌補(bǔ)了RNN 長(zhǎng)期記憶不足的缺陷[10],重點(diǎn)解決自然語言中前言與后語之間的依賴關(guān)系。隨后,大量基于LSTM 的模型被提出,如門控循環(huán)單元(Gated Recurrent Unit,GRU)[11]、雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bidirection Long Short-Term Memory Networks,BiLSTM)模型[12]、LSTM-Attention 模型[13]、LSTM-CRF 模型、LSTM-Attention-CRF 模型[14]、LSTM-CNN 模型[15]等,其中CRF 為條件隨機(jī)場(chǎng)(Conditional Random Field)。此外,為了提高自然語言處理的精度,減少用戶端模型訓(xùn)練的工作量,BERT、GPT 等預(yù)訓(xùn)練模型的應(yīng)用逐漸增多。

針對(duì)中醫(yī)電子病歷的語言特征,本文提出一種高效的實(shí)體抽取算法,首先采用詞向量、BiLSTM、自注意力機(jī)制和CRF 相結(jié)合的模型進(jìn)行命名實(shí)體識(shí)別,對(duì)實(shí)體分類、向量相似度等進(jìn)行優(yōu)化,提高中醫(yī)電子病歷的實(shí)體識(shí)別精度;然后采用BiLSTM 與多層感知器相結(jié)合的模型挖掘中醫(yī)電子病歷各實(shí)體間的依存關(guān)系,通過修改輸出函數(shù)提高實(shí)體關(guān)系識(shí)別精度;最后通過真實(shí)電子病歷的測(cè)試,驗(yàn)證了本文算法的準(zhǔn)確性。

1 中醫(yī)電子病歷實(shí)體識(shí)別

目前中醫(yī)電子病歷自然語言處理常采用實(shí)體庫匹配與人工處理相結(jié)合的方法,采用標(biāo)準(zhǔn)術(shù)語庫匹配出電子病歷中的實(shí)體,術(shù)語庫中不存在的實(shí)體以及實(shí)體之間的關(guān)系均依靠人工識(shí)別,效率低下且出錯(cuò)概率較高。本文方法可自動(dòng)從目標(biāo)文本中識(shí)別出命名實(shí)體以及實(shí)體之間的關(guān)系,識(shí)別準(zhǔn)確率與效率均較高。

中醫(yī)電子病歷命名實(shí)體識(shí)別主要包括中文分詞和命名實(shí)體識(shí)別兩個(gè)任務(wù),識(shí)別模型如圖1 所示。根據(jù)中醫(yī)電子病歷的內(nèi)容設(shè)計(jì)10 種預(yù)測(cè)標(biāo)簽,如表1 所示。每一個(gè)預(yù)測(cè)標(biāo)簽由前綴和后綴兩部分組成,前綴用于分詞任務(wù),其中B 表示詞語首字,I 表示詞語剩余部分;后綴用于標(biāo)識(shí)命名實(shí)體的類別,包含病癥、表現(xiàn)、機(jī)構(gòu)、藥物和其他五大類。

Fig.1 Entity recognition model of TCM EMR圖1 中醫(yī)電子病歷命名實(shí)體識(shí)別模型

Table 1 Classification of predicted labels表1 預(yù)測(cè)標(biāo)簽類別

1.1 字嵌入模型

在識(shí)別中醫(yī)電子病歷時(shí),通常存在一個(gè)大小為|D|的字典D。字嵌入的思想是采用低維稠密矩陣表示字典D,一個(gè)低維向量對(duì)應(yīng)一個(gè)字,以便更好地表示字詞的多維信息,例如詞性、褒貶以及近義關(guān)系等。將字嵌入思想應(yīng)用于中醫(yī)電子病歷識(shí)別中,每一個(gè)中文字符w∈D對(duì)應(yīng)一個(gè)特征向量v∈Rd,其中d表示字嵌入矩陣的維度。字嵌入矩陣由深度學(xué)習(xí)框架的Embedding 函數(shù)給出,并通過訓(xùn)練不斷優(yōu)化,得到的詞嵌入將用于模型輸入。在本文中,字嵌入向量維度設(shè)為256。

1.2 LSTM

LSTM 是RNN 的改進(jìn)版,通過遺忘門、輸入門和輸出門,LSTM 可以選擇性地刪除和保留特征信息。在命名實(shí)體識(shí)別任務(wù)中,需要判斷出當(dāng)前詞語的類別,即預(yù)測(cè)當(dāng)前觀測(cè)值的隱含狀態(tài)。輸入門需要接收來自前方文本的特征以及當(dāng)前觀測(cè)值兩種信息作為輸入,然后使用Sigmoid 層對(duì)其進(jìn)行處理。雖然前方字詞可用于預(yù)測(cè)下一個(gè)字詞的信息,但并非所有來自前方字詞的特征都有價(jià)值。正確做法是刪除無用信息,保留重要信息,遺忘門可使用Sigmoid層(輸出矩陣中只有0 和1 的值)與上一個(gè)細(xì)胞狀態(tài)相乘以實(shí)現(xiàn)該功能。輸出門則是對(duì)輸入門和遺忘門的信息進(jìn)行綜合,即對(duì)前方字詞信息選擇性記憶和遺忘。

LSTM 可用于提取中醫(yī)電子病歷的順序特征,但其門結(jié)構(gòu)只能緩解長(zhǎng)距離依賴丟失的問題。在極端情況下,LSTM 會(huì)退化成傳統(tǒng)的RNN 網(wǎng)絡(luò)。不僅如此,LSTM 每一個(gè)細(xì)胞狀態(tài)的計(jì)算都需要等待前一個(gè)輸出的到來,使其無法實(shí)現(xiàn)并行運(yùn)算。因此,在模型中堆疊多層LSTM 是十分低效的做法。針對(duì)以上問題,本文引入自注意力機(jī)制和CRF。

1.3 自注意力機(jī)制

為使模型更好地提取全局特征,打破長(zhǎng)距離的通信障礙,本文引入自注意力機(jī)制。自注意力機(jī)制只關(guān)注句中的重要部分,更有利于算法獲取有益特征。自注意力機(jī)制使句中不同字詞直接相連,字詞特征不需要像LSTM 那樣逐一傳遞,大大縮短了處理時(shí)間且很好地避免了長(zhǎng)距離依賴丟失的問題。本文對(duì)自注意力機(jī)制進(jìn)行封裝,形成了自注意力網(wǎng)絡(luò),主要由自注意力層、歸一化層、前饋卷積層構(gòu)成。

然而,在今天看來,和其他更典型的拉斐爾前派繪畫相比較而言,羅塞蒂的這些作品仍顯得不那么純粹。比如,如果將《邂逅》和其他旗手如米萊斯的作品《洛倫佐與伊莎貝拉》相比,其刻畫的程度就不如后者更為精謹(jǐn);而《受胎告知》這一題材也不比亨特的《良知覺醒》更具現(xiàn)實(shí)的道德寓意,而畫面中天使加百列雙足周圍纏繞的火焰燃燒出一種超現(xiàn)實(shí)的感覺,背景的藍(lán)色布幔和前景中火紅的織物前后照應(yīng),無疑又給畫面平添了一份裝飾意味。

1.4 CRF

CRF 是一種無向圖模型,可以輸出條件概率,是整個(gè)命名體識(shí)別算法的最后一層,采用線性CRF 處理中文字符序列信息可以很好地提取全局特征。

2 中醫(yī)電子病歷實(shí)體依存關(guān)系挖掘

從中醫(yī)電子病歷中識(shí)別出命名實(shí)體后,為更好地理解其語義,還需要對(duì)命名實(shí)體之間的依存關(guān)系進(jìn)行挖掘。采用BiLSTM 與多層感知器相結(jié)合的方法挖掘中醫(yī)電子病歷命名實(shí)體的依存關(guān)系,模型如圖2 所示,主要包含輸入層、特征提取層和輸出層。

Fig.2 Model of dependencies mining圖2 依存關(guān)系挖掘模型

2.1 輸入層

輸入層包含詞語嵌入和詞類標(biāo)簽嵌入兩個(gè)部分。創(chuàng)建兩個(gè)矩陣字典,其中詞嵌入字典(Words to Embeddings,WTE)負(fù)責(zé)詞轉(zhuǎn)詞嵌入,標(biāo)簽嵌入字典(Tags to Embeddings,TTE)負(fù)責(zé)詞類標(biāo)簽轉(zhuǎn)標(biāo)簽嵌入。字典WTE 中的詞語來源于中醫(yī)電子病歷命名實(shí)體識(shí)別算法的分詞結(jié)果;字典TTE 中的標(biāo)簽包括病癥標(biāo)簽、表現(xiàn)標(biāo)簽、機(jī)構(gòu)標(biāo)簽、藥物標(biāo)簽和其他標(biāo)簽五大類。詞語嵌入與標(biāo)簽嵌入由Embedding 函數(shù)初始化給出,詞語嵌入維度設(shè)置為64,標(biāo)簽嵌入維度設(shè)置為32,并通過訓(xùn)練不斷優(yōu)化,最終得到詞語嵌入與標(biāo)簽嵌入連接,組成維度為96 的向量,作為特征提取層的輸入。

2.2 特征提取層

該層進(jìn)一步提取輸入層信息的特征,輸出結(jié)果作為輸出層的輸入。使用BiLSTM 與多層感知器聯(lián)合構(gòu)造特征提取層,BiLSTM 中每一時(shí)刻的輸出均需綜合考慮前后時(shí)刻的信息。多層感知器是一種最基本的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),主要通過封裝3 個(gè)線性層實(shí)現(xiàn),激活函數(shù)使用ReLU 函數(shù)。

2.3 輸出層

該層輸出函數(shù)的作用是根據(jù)特征提取層對(duì)結(jié)果進(jìn)行預(yù)測(cè),輸出函數(shù)的性能直接決定著模型最終效果。中醫(yī)電子病歷依存關(guān)系挖掘主要包含兩個(gè)任務(wù),即判斷關(guān)系存在和關(guān)系種類,兩種任務(wù)對(duì)應(yīng)的輸出函數(shù)也不同。

2.3.1 判斷關(guān)系存在

該任務(wù)的輸出函數(shù)用于判斷依存關(guān)系是否存在,輸出結(jié)果是一個(gè)向量v∈Rd,其中d表示該句長(zhǎng)度,數(shù)值為正整數(shù)。向量中的整數(shù)代表當(dāng)前詞語所依存的對(duì)象在句中的編號(hào),主要體現(xiàn)在對(duì)病癥的修飾上,如“加重”依存于“感冒”等。借助向量v可以直接解析出該句中存在的依存關(guān)系二元組。該輸出函數(shù)有求和和求積兩種,求和法輸出函數(shù)表示為:

式中,oij表示wi→wj的權(quán)值;表示詞語作為head 的特征值;表示詞語作為dependent 的特征值。

求積法輸出函數(shù)表示為:

式中,Wi為待訓(xùn)練參數(shù)。

2.3.2 判斷關(guān)系種類

該任務(wù)的輸出函數(shù)用于判斷關(guān)系的種類,計(jì)算方式同上,但輸出的并不是一個(gè)整數(shù)值向量,而是一個(gè)概率分布v∈Rd,∑vi=1,此處d表示依存關(guān)系種類個(gè)數(shù)。

2.4 損失函數(shù)

損失函數(shù)又稱為目標(biāo)函數(shù),用于衡量模型預(yù)測(cè)結(jié)果與實(shí)際值的偏差,同時(shí)在反向傳播中也發(fā)揮了重要作用。由于中醫(yī)電子病歷依存關(guān)系挖掘算法同時(shí)完成判斷關(guān)系存在和關(guān)系種類兩個(gè)任務(wù),故損失函數(shù)的輸出是綜合兩種預(yù)測(cè)任務(wù)的結(jié)果,進(jìn)而同時(shí)優(yōu)化兩個(gè)任務(wù)模型。

3 實(shí)驗(yàn)結(jié)果與分析

本文算法主要針對(duì)語言描述半文言半白話、術(shù)語使用個(gè)性化的名老中醫(yī)電子病歷進(jìn)行實(shí)體抽取,實(shí)驗(yàn)數(shù)據(jù)使用某中醫(yī)院真實(shí)的名老中醫(yī)治療兒童哮喘的電子病歷,數(shù)據(jù)集包含近年來約2 000 份電子病歷,每份電子病歷為患者一次門診的全部記錄,刪除部分信息不全和書寫不規(guī)范的電子病歷,剩余1 652 份電子病歷用于實(shí)驗(yàn)測(cè)試。

3.1 命名體識(shí)別結(jié)果

在命名實(shí)體識(shí)別算法實(shí)驗(yàn)中,分別測(cè)試BiLSTM+CRF、自注意力機(jī)制+CRF、BiLSTM+自注意力機(jī)制+CRF 3 種模型的性能,圖例分別為blstm-crf、attention-crf、attentionblstm-crf,從準(zhǔn)確率、損失值、召回率3 個(gè)方面進(jìn)行比較。

圖3 和圖4 給出了兒科哮喘數(shù)據(jù)集在3 種不同命名體識(shí)別模型結(jié)構(gòu)下訓(xùn)練的準(zhǔn)確率和損失值變化。可以看出,BiLSTM+自注意力機(jī)制+CRF 模型在訓(xùn)練時(shí)的收斂速度較快,在訓(xùn)練批次為1~3 之間時(shí),該模型優(yōu)化速度最快,從第4批次開始性能緩慢提升。最終,BiLSTM+自注意力機(jī)制+CRF 與BiLSTM+CRF 兩種模型的準(zhǔn)確率較高。

Fig.3 Results of accuracy圖3 準(zhǔn)確率結(jié)果

Fig.4 Results of loss圖4 損失值結(jié)果

準(zhǔn)確率并不能完全體現(xiàn)模型優(yōu)劣,還需要評(píng)價(jià)模型對(duì)各種標(biāo)簽的識(shí)別能力。表2 為3 種模型的召回率結(jié)果,測(cè)試數(shù)據(jù)集的實(shí)體類型包含病癥、表現(xiàn)、機(jī)構(gòu)、藥物、其他5類。可以看出,雖然BiLSTM+CRF 模型的準(zhǔn)確率最高,但在測(cè)試數(shù)據(jù)上,其對(duì)各類標(biāo)簽的預(yù)測(cè)準(zhǔn)確率不高,尤其是對(duì)機(jī)構(gòu)和藥物的預(yù)測(cè)準(zhǔn)確率較低,無法滿足實(shí)際應(yīng)用需求。主要原因在于,BiLSTM+CRF 模型相較于BiLSTM+自注意力機(jī)制+CRF 模型更為簡(jiǎn)單,訓(xùn)練過程中更容易收斂,且在實(shí)驗(yàn)中出現(xiàn)了過擬合現(xiàn)象。BiLSTM 在命名實(shí)體等序列標(biāo)注問題中表現(xiàn)良好,這是由于改進(jìn)的RNN 可以很好地挖掘文本中的位置信息。盡管在自注意力機(jī)制加入了位置編碼,但結(jié)果仍然遜于BiLSTM,這是由于自注意力機(jī)制難以挖掘位置信息,進(jìn)而證明了在命名體識(shí)別任務(wù)中,文本位置信息十分重要。

Table 2 Results of recall表2 召回率結(jié)果

3.2 依存關(guān)系挖掘結(jié)果

在依存挖掘算法實(shí)驗(yàn)中,分別使用BiLSTM+多層感知器+輸出函數(shù)2、BiLSTM+輸出函數(shù)1、BiLSTM+多層感知機(jī)+輸出函數(shù)1 三種模型進(jìn)行測(cè)試,對(duì)其準(zhǔn)確率、召回率和F值進(jìn)行比較,3 種模型的圖例分別為blstm+mlp+out2、blstm+out1、blstm+mlp+out1,其中輸出函數(shù)1 與2 分別為依存關(guān)系挖掘部分的求和法和求積法輸出函數(shù)。

圖5 和圖6 為3 種模型在不同訓(xùn)練批次的召回率和F值。可以看出,在早期幾輪訓(xùn)練中,3 種模型的召回率與F值就已經(jīng)達(dá)到較佳水平,但這并不代表此時(shí)模型的性能較好。這是由于對(duì)于訓(xùn)練數(shù)據(jù)集中的一個(gè)句子來說,需要計(jì)算的依存關(guān)系數(shù)量往往很少,數(shù)據(jù)中存在大量空依存關(guān)系,模型雖然能預(yù)測(cè)出空依存關(guān)系,但卻無法準(zhǔn)確預(yù)測(cè)其他更有價(jià)值的依存關(guān)系。

Fig.5 Results of recall圖5 召回率結(jié)果

Fig.6 Results of F1圖6 F1 值結(jié)果

為避免空依存關(guān)系對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生影響,圖7 列出了排除空依存關(guān)系后,模型預(yù)測(cè)準(zhǔn)確率隨訓(xùn)練批次的變化情況。可以看出,BiLSTM+輸出函數(shù)1 模型雖然召回率、F 值和準(zhǔn)確率均最高,但受空依存關(guān)系的影響最大,本文建立的BiLSTM+多層感知機(jī)+輸出函數(shù)1 模型在召回率、F 值和準(zhǔn)確率方面與BiLSTM+輸出函數(shù)1 模型接近,但其受空依存關(guān)系影響較小。

4 結(jié)語

Fig.7 Results of accuracy except for null relationship圖7 排除空依存關(guān)系的準(zhǔn)確率結(jié)果

針對(duì)中醫(yī)電子病歷的語言特征與語義分析需求,本文提出一種高效的實(shí)體抽取算法,通過基于BiLSTM+自注意力機(jī)制+CRF 的命名實(shí)體識(shí)別模型和基于BiLSTM+多層感知器的實(shí)體間依存關(guān)系挖掘模型識(shí)別語義信息,在真實(shí)的中醫(yī)電子病歷中取得了較高的識(shí)別精度。該算法可將中醫(yī)電子病歷分析研究從基于關(guān)鍵詞的模式提升至基于語義內(nèi)容的模式,但由于名老中醫(yī)電子病歷的獲取難度較高,目前測(cè)試數(shù)據(jù)量相對(duì)較少,后續(xù)將會(huì)收集更多醫(yī)生、更多科室的電子病歷信息,以便對(duì)本文算法進(jìn)行更深入的測(cè)試與優(yōu)化。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 欧美激情第一欧美在线| 爱做久久久久久| 日韩国产无码一区| 在线国产资源| 19国产精品麻豆免费观看| 一级一级特黄女人精品毛片| 幺女国产一级毛片| 午夜啪啪福利| 欧日韩在线不卡视频| 欧美亚洲中文精品三区| 成人毛片免费在线观看| 一级一毛片a级毛片| 青青久在线视频免费观看| 在线va视频| 女人18毛片久久| 成色7777精品在线| 国产激爽爽爽大片在线观看| 国产一线在线| 日本欧美视频在线观看| 亚洲嫩模喷白浆| 亚洲欧美精品日韩欧美| 在线观看亚洲成人| 97无码免费人妻超级碰碰碰| 亚洲第一成人在线| 亚洲第一黄片大全| 国产乱子伦视频三区| 久久久黄色片| 视频一本大道香蕉久在线播放| 日韩欧美中文字幕在线精品| 国产精品妖精视频| 成人在线天堂| 国产成人一二三| 四虎影视8848永久精品| 久久综合成人| 99热这里只有精品在线观看| 在线观看免费黄色网址| 亚洲成a人片77777在线播放| 免费国产无遮挡又黄又爽| 国产日韩欧美成人| 福利在线不卡| 天天综合天天综合| 精品一区二区三区自慰喷水| 亚洲国产欧美目韩成人综合| 在线观看欧美国产| 巨熟乳波霸若妻中文观看免费 | 国产波多野结衣中文在线播放 | 国产在线观看一区精品| 欧美一区日韩一区中文字幕页| 无码综合天天久久综合网| 精品久久久久久中文字幕女| 精品亚洲欧美中文字幕在线看 | 9久久伊人精品综合| 色噜噜狠狠色综合网图区| 国产精品制服| 在线精品亚洲一区二区古装| 毛片免费高清免费| 色偷偷一区二区三区| 狂欢视频在线观看不卡| 国产自在线拍| 国产一级无码不卡视频| 欧美一区二区三区欧美日韩亚洲| 国产精品久久久久久久伊一| 内射人妻无套中出无码| 亚洲国产无码有码| 视频一本大道香蕉久在线播放 | 欧美69视频在线| 日韩无码视频专区| 秘书高跟黑色丝袜国产91在线| 一级毛片在线播放免费| 免费日韩在线视频| 国产一区二区三区精品久久呦| 久久这里只有精品免费| 国产成人精品2021欧美日韩| 亚洲精品无码av中文字幕| 99精品国产自在现线观看| 精品福利网| 欧美日韩国产在线人| 亚洲一区第一页| 91麻豆精品国产高清在线| 国产小视频在线高清播放| 韩日无码在线不卡| 不卡午夜视频|