999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中文醫(yī)療實(shí)體的弱監(jiān)督識(shí)別方法

2020-07-28 02:40:24趙青王丹徐書世張曉桐王曉曦
關(guān)鍵詞:語義特征方法

趙青,王丹,徐書世,張曉桐,王曉曦

(1.北京工業(yè)大學(xué) 信息學(xué)部,北京 100124; 2.紐約州立大學(xué) 賓哈姆頓大學(xué),紐約 13902; 3.國家電網(wǎng)管理學(xué)院,北京 102200)

醫(yī)療電子病歷(electronic medical records, EMR)目前已經(jīng)成為實(shí)施疾病治療和醫(yī)療保健的基礎(chǔ),它包含了大量與患者相關(guān)的病程記錄,因此被廣泛地應(yīng)用于各個(gè)醫(yī)療保健相關(guān)的領(lǐng)域[1]。調(diào)查發(fā)現(xiàn),接近83%的醫(yī)生表示他們目前都在使用EMR系統(tǒng)或者準(zhǔn)備使用[2]。在與EMR相關(guān)的語義信息挖掘任務(wù)中,命名實(shí)體識(shí)別(named entity recognition, NER)是基礎(chǔ),也是至關(guān)重要的一個(gè)步驟,例如:知識(shí)圖譜構(gòu)建[3]、文本檢索[4]、文本分類[5]和信息抽取[6]等領(lǐng)域中都需要識(shí)別命名實(shí)體。

命名實(shí)體識(shí)別可以看作是一個(gè)序列標(biāo)注任務(wù)[7-8],通過提取出來的信息來查找實(shí)體并將其分為一組固定的類別。傳統(tǒng)實(shí)現(xiàn)NER的2種方法是基于規(guī)則的學(xué)習(xí)方法和有監(jiān)督的學(xué)習(xí)方法,其中有監(jiān)督的學(xué)習(xí)方法占主導(dǎo)地位。基于規(guī)則學(xué)習(xí)的解決方法是假設(shè)可用的訓(xùn)練數(shù)據(jù)已全部標(biāo)記(即所有包含在文檔中的實(shí)體都被標(biāo)記)的前提下,再從文檔中找到候選實(shí)體的標(biāo)簽序列。

目前,中文醫(yī)療領(lǐng)域的命名實(shí)體識(shí)別問題依然面臨很多挑戰(zhàn),主要原因如下:1)醫(yī)療電子病歷中大部分是半結(jié)構(gòu)或非結(jié)構(gòu)化的數(shù)據(jù),并且很多信息是敘述性的,無結(jié)構(gòu)信息,不適用于單純利用語法結(jié)構(gòu)上下文特征進(jìn)行醫(yī)療概念的發(fā)現(xiàn)和抽取;2)醫(yī)學(xué)術(shù)語通常具有模糊性和表達(dá)不一致的特點(diǎn),例如:“慢性阻塞性肺疾病”也可以縮寫為COPD(chronic obstructive pulmonary disease),這會(huì)造成特征維度高、計(jì)算量大;3)需要大量人工標(biāo)注的語料庫作為訓(xùn)練集,且大多數(shù)傳統(tǒng)NER方法是通過詞向量來提取特征的,這在中文醫(yī)療文本中會(huì)導(dǎo)致部分語義信息割裂,并且數(shù)據(jù)量越大消耗的人工標(biāo)注量就越多,因此很難在現(xiàn)實(shí)中得到廣泛應(yīng)用。

近年來,深度學(xué)習(xí)因其在圖像處理、音頻識(shí)別、自然語言處理等領(lǐng)域的優(yōu)異表現(xiàn)吸引了大量的關(guān)注,表現(xiàn)了其良好的圖像、音頻的特征信息抽取能力,同時(shí)在NLP(natural language processing)領(lǐng)域的應(yīng)用也越來越多[9-10]。深度學(xué)習(xí)的主要特點(diǎn)是通過其自身的深層網(wǎng)絡(luò)結(jié)構(gòu)來自主地學(xué)習(xí)更深層的特征及規(guī)律,因此可以大大減輕人工標(biāo)注的時(shí)間,并且具有較強(qiáng)的魯棒性和泛化性。其中循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)是一個(gè)序列模型,它具有時(shí)序記憶的特點(diǎn),能夠考慮詞與詞之間的順序,從而能將詞與詞之間的語義聯(lián)系體現(xiàn)出來,因此可以較好地應(yīng)用于序列標(biāo)注的任務(wù)中。目前,深度學(xué)習(xí)在NER任務(wù)中的應(yīng)用并不少見,但大多數(shù)是關(guān)于英文醫(yī)療領(lǐng)域的,在中文領(lǐng)域中的成果尚不多見,仍需學(xué)者們不斷研究和擴(kuò)展。

針對(duì)以上問題,本文提出了一種結(jié)合醫(yī)療本體語義知識(shí)和標(biāo)注數(shù)據(jù)集的弱監(jiān)督方法來處理訓(xùn)練語料標(biāo)注不全的NER任務(wù)。首先,基于現(xiàn)有的醫(yī)療本體提取語義特征,并在語義特征的基礎(chǔ)上提取字符特征,再利用RNN模型時(shí)序記憶的特點(diǎn)來提取命名實(shí)體相關(guān)的上下文信息,并將提取的特征作為訓(xùn)練模型RNN的輸入,最后通過softmax獲得中文醫(yī)療文本中的標(biāo)簽序列。1)結(jié)合醫(yī)療領(lǐng)域廣泛存在的醫(yī)療本體進(jìn)行醫(yī)療文本的語義概念特征抽取,將其與現(xiàn)有的詞與字向量特征進(jìn)行融合在一起,通過基于RNN的弱監(jiān)督學(xué)習(xí)方法進(jìn)行命名實(shí)體識(shí)別,提高了中文醫(yī)療命名實(shí)體識(shí)別的準(zhǔn)確率。2)基于某醫(yī)院真實(shí)臨床文本數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)驗(yàn)證,將本文提出的基于語義特征融合的弱監(jiān)督學(xué)習(xí)方法與現(xiàn)有概念實(shí)體識(shí)別方法進(jìn)行了性能對(duì)比,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了分析與討論。

在1996年的MUC-6會(huì)議上命名實(shí)體首次被提后,NER在英文領(lǐng)域的應(yīng)用逐漸成熟。現(xiàn)有的大多數(shù)NER工作是基于假設(shè)沒有領(lǐng)域本體知識(shí)的情況下,主要通過標(biāo)注的訓(xùn)練集來學(xué)習(xí)。例如Li等[11]訓(xùn)練了條件隨機(jī)場(chǎng)(conditional random fields, CRF)和支持向量機(jī)(support vector machines, SVM)2種分類模型。結(jié)果表明,CRF的性能比SVM高。Lei等[12]構(gòu)建并對(duì)比了CRF、SVM、最大熵馬爾可夫(MEMM)和結(jié)構(gòu)化的支持向量機(jī)(SSVM)4種模型,并在醫(yī)療數(shù)據(jù)集中對(duì)4類實(shí)體進(jìn)行了實(shí)體識(shí)別,其中SSVM的準(zhǔn)確率最高。何林娜等[13]提出了一種基于特征耦合泛化(feature coupling generalization,F(xiàn)CG)的實(shí)體識(shí)別方法并結(jié)合CRF來自動(dòng)的識(shí)別醫(yī)療文獻(xiàn)中的藥物名稱。

雖然CRF在大多數(shù)NER任務(wù)上都取得了較高的準(zhǔn)確率,但是該方法的特征選擇過程較為繁瑣,隨著特征的增多模型會(huì)變得尤為復(fù)雜,從而造成召回率的急劇下降,可移植性差。近年來,基于深度學(xué)習(xí)的NER工作也相繼展開。Guillaume等[14]提出了一種基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short term memory, LSTM)和CRF結(jié)合的命名實(shí)體識(shí)別方法,用來識(shí)別英文人名、地名等實(shí)體。Dong等[15]提出了利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)進(jìn)行特征提取的方法來進(jìn)行命名實(shí)體識(shí)別。Li等[16]使用RNN并結(jié)合詞字特征來構(gòu)建醫(yī)療領(lǐng)域的命名實(shí)體識(shí)別模型。楊培等[17]提出了一種基于字詞特征并結(jié)合注意力機(jī)制的實(shí)體識(shí)別方法,該方法通過神經(jīng)網(wǎng)絡(luò)LSTM來訓(xùn)練實(shí)體識(shí)別分類器,并采用CRF產(chǎn)生最后的實(shí)體標(biāo)簽分類結(jié)果。

顯然,通過這些方法獲得的命名實(shí)體識(shí)別分類器的知識(shí)僅來源于作為訓(xùn)練集的標(biāo)注語料庫,從而造成其性能對(duì)大規(guī)模充分標(biāo)注的數(shù)據(jù)有很強(qiáng)的依賴性。本文的工作充分考慮醫(yī)療領(lǐng)域大量醫(yī)療本體存在的事實(shí)和中文醫(yī)療文本自身的特點(diǎn),通過從已有的醫(yī)療本體中獲取部分命名實(shí)體知識(shí)并與訓(xùn)練集中已標(biāo)注的知識(shí)相結(jié)合來進(jìn)行序列學(xué)習(xí)分類器的構(gòu)建,有效提高了準(zhǔn)確率。

1 基于多粒度特征融合的命名實(shí)體識(shí)別方法

本文提出的基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語義和字符向量結(jié)合的命名實(shí)體識(shí)別模型整體結(jié)構(gòu),如圖1所示。

圖1 基于RNN的語義和字符向量相結(jié)合的命名實(shí)體識(shí)別模整體結(jié)構(gòu)Fig.1 The model architecture of combining semantic and character embedding based on RNN

1.1 特征提取

1.1.1 語義向量特征表示

語義特征包含概念特征和詞特征2個(gè)部分。其中,概念是指由多個(gè)包含語義的單獨(dú)詞匯組成的一個(gè)特殊的領(lǐng)域術(shù)語,例如,慢性阻塞性肺疾病。詞是指一個(gè)單獨(dú)的語義詞匯,例如,困難。本文對(duì)于那些能夠從領(lǐng)域本體里映射出概念的,就提取概念特征;對(duì)那些不能提取概念的直接提取詞特征,最后通過CBOW(continuous bag-of-words model)模型提取語義特征。

1)概念特征表示。

由于醫(yī)療術(shù)語通常是由多個(gè)詞組成,僅考慮詞特征會(huì)使語義信息割裂,因此在本文的方法中加入了概念特征。首先,將所有稀疏標(biāo)記的語料庫根據(jù)特殊符號(hào)切分成較短的漢子字符串(包括標(biāo)點(diǎn)符號(hào)、數(shù)字和空格符)并去除停用詞;其次,將預(yù)處理后的字符串映射在構(gòu)建好的醫(yī)療本體中,通過最大匹配法來提取本體中的概念;最后,采用一種基于本體計(jì)算概念特征相似度的方法來降低語義特征的維度,從而減少計(jì)算量。具體流程如算法1所示。

算法1概念特征提取

輸入:數(shù)據(jù)集D(包含已標(biāo)注數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集),本體O;

輸出:概念特征。

1)進(jìn)行概念特征提取;

2)通過特殊符號(hào)將數(shù)據(jù)集D切分為漢字字符串L,L=(L1,L2,…,Ln);

3)將字符串L映射到本體O;

4)For 匹配字符串L中的每一個(gè)字符;

5)如果Lmax=Llen(Lmax為字符串的最大初始匹配長(zhǎng)度,Llen為字符串的長(zhǎng)度);

6) 則字符串整體為一個(gè)概念;

7) 如果Lmax

則i=1 (i為字符串中字符的位置);

8) 如果L1

9) 則i=i+1;

10)直到匹配到Li=Lmax,

11)End for

12) 將Lmax從L中抽取出來,并將Lmax的左右兩邊分為2個(gè)新的待切分字符串。

2)詞特征表示。

將詞輸入到模型中是深度學(xué)習(xí)方法在處理NLP任務(wù)時(shí)的首要步驟,因?yàn)樗軌驈拇罅恳褬?biāo)注和未標(biāo)注的數(shù)據(jù)中學(xué)習(xí)到有用的語義和語法信息。傳統(tǒng)的機(jī)器學(xué)習(xí)方法通常采用詞袋模型(bag of words)表示詞向量特征。例如,One-hot Representation[18],該模型在處理離散數(shù)據(jù)時(shí)有一定的優(yōu)勢(shì),但是它沒有考慮詞與詞之間的順序,因此,不能很好地體現(xiàn)出詞與詞之間的語義聯(lián)系,不適用于實(shí)體識(shí)別這樣的序列標(biāo)注任務(wù);其次,隨著數(shù)據(jù)量的增大,特征維度將會(huì)呈現(xiàn)爆炸式增長(zhǎng),會(huì)給后期的運(yùn)算帶來很大的壓力。與高維、稀疏的詞袋模型相比,分布式詞向量表示具有低維,密集的特點(diǎn)更適用于實(shí)體識(shí)別任務(wù)。

目前常用的分布式詞向量表示模型有word2vec[19]和GolVe[20]等,本文采用word2vec中的CBOW模型來提取語義特征。CBOW的訓(xùn)練目標(biāo)使平均對(duì)數(shù)的概率最大化:

(1)

式中:K為數(shù)據(jù)集D中目標(biāo)詞的上下文信息;yi為數(shù)據(jù)集D中的語義。

1.1.2 字符向量特征表示

字符是中文中最自然的語言單位[21],與詞不同,字符主要關(guān)注的是詞語拼寫的特點(diǎn)而不是詞語本身的語義。由于中文不間斷的書寫特性,字符向量也能夠表達(dá)詞語的語義信息,例如:“瘦弱”一詞,既可以根據(jù)上下文來判斷該詞的語義特征,也可以通過該詞的字符“瘦”和“弱”來直接判斷語義。因此,在中文命名實(shí)體識(shí)別的任務(wù)中,字符向量不僅可以輔助判斷語義特征還可以通過字意達(dá)到預(yù)測(cè)新詞的效果。

本文采用CEW[22](character-enhanced word embeddding)模型來學(xué)習(xí)字符特征并結(jié)合語義特征一起進(jìn)行訓(xùn)練。該模型在word2vec的CBOW模型的基礎(chǔ)上進(jìn)行了改進(jìn)。結(jié)合語義向量和字符向量的CWE模型具體的計(jì)算方式為:

(2)

式中:yi為語義Yi的語義向量;zk為yn中第k個(gè)字符向量;yn為語義Yi所包含的字符個(gè)數(shù);Qi由語義向量和其平均字符向量組合運(yùn)算得出。

組合運(yùn)算?有2個(gè)運(yùn)算方式:相加或者結(jié)合計(jì)算。相加就是將語義向量和字符向量的平均值相加,其中語義向量和字符向量位數(shù)相等,如|yi|=|zk|。另一方面,也可以通過結(jié)合的方式,詞向量和字符向量的平均值相加得到Qi,并且Qi的向量維度為|yi|+|zk|。通過實(shí)驗(yàn)證明,2種運(yùn)算方法的性能差別不大,但在效率方面,相對(duì)于結(jié)合運(yùn)算方法的維度高、復(fù)雜性大的特點(diǎn),加法的運(yùn)算效率更高。因此,本文采用了相加的運(yùn)算方法來提取字符向量:

(3)

1.2 基于RNN的弱監(jiān)督實(shí)體識(shí)別模型

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[23]是一個(gè)序列模型,每個(gè)神經(jīng)元不僅能夠沿層間向上傳遞信息,還可以傳輸給下一個(gè)序列,因此比其他的神經(jīng)網(wǎng)絡(luò)更適用于序列標(biāo)注的任務(wù)。RNN具有一個(gè)隱藏單元,即:

ht=σ(Wxt+Uht-1+b)

(4)

式中:ht為t時(shí)刻的輸出,由輸入xt在t-1時(shí)刻的ht-1隱藏單元一起決定;σ為激活函數(shù),例如sigmoid、tanch或者ReLU (rectified liner unit)等;W、U為權(quán)重向量;b為偏差向量。

理論上,RNN是可以處理任意長(zhǎng)度的序列標(biāo)注任務(wù)。然而,實(shí)驗(yàn)表明:由于RNN的存儲(chǔ)記憶功能過于簡(jiǎn)單,隨著序列長(zhǎng)度的增加會(huì)產(chǎn)生梯度消失或者梯度爆炸的問題,因此RNN不能夠?qū)W習(xí)與當(dāng)前時(shí)刻較遠(yuǎn)的信息。為了解決這個(gè)問題,LSTM和GRU (gate recurrent unit) 模型被相繼提出。

長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)在1997年被Hochreiter和Schmidhuber提出,主要為了解決RNN的梯度消失問題[24]。LSTM能夠處理無界任意長(zhǎng)度的順序輸入,并返回輸入中每個(gè)步驟的序列信息。相對(duì)于傳統(tǒng)的RNN模型,LSTM可以處理長(zhǎng)期依賴的問題,在每個(gè)時(shí)刻步驟中都包含了控制門(輸入門、遺忘門和輸出門),允許網(wǎng)絡(luò)忘記、記憶和更新上下文記憶,并減輕了梯度消失等問題。

(5)

(6)

ht=ot⊙g(ct)

(7)

it=σ(Wixt+Uiht-1+bi)

(8)

ft=σ(Wfxt+Ufht-1+bf)

(9)

ot=σ(Woxt+Uoht-1+bo)

(10)

式中:it、ft、ot分別為時(shí)間節(jié)點(diǎn)t的輸入、遺忘、輸出門;σ為非線性函數(shù)。每一個(gè)控制門的參數(shù)都由2個(gè)矩陣和1個(gè)偏差向量組成,因此,3個(gè)控制門的矩陣參數(shù)分別為Wi、Ui、Wf、Uf、Wo、Uo,偏差參數(shù)為bi、bf、bo。LSTM的記憶單元參數(shù)分別為Wc、Uc和bc。這些參數(shù)在訓(xùn)練和儲(chǔ)存時(shí)的每一步都進(jìn)行更新。

門控神經(jīng)網(wǎng)絡(luò)(GRU)與LSTM的目標(biāo)一樣,都是為了解決RNN長(zhǎng)期記憶和反向傳播中的梯度消失或者爆炸問題。不同的是,GRU將LSTM中3個(gè)控制門整合為更新門和重置門[25]。GRU的整體結(jié)構(gòu)為:

(11)

(12)

zt=σ(Wzxt+Uzht-1+bz)

(13)

rt=σ(Wrxt+Urht-1+br)

(14)

式(13)和式(14)分別代表GRU的2個(gè)控制門,其中zt代表更新門,rt代表重置門。GRU降低了LSTM的模型結(jié)構(gòu)的復(fù)雜度,并且減少了訓(xùn)練參數(shù)從而降低訓(xùn)練難度,因此,GRU也是當(dāng)前神經(jīng)網(wǎng)絡(luò)中流行的算法。本文同樣采取雙向GRU(BGRU)來獲得與當(dāng)前時(shí)刻相關(guān)的上下文信息。

如圖1所示,本文的模型采用了深度學(xué)習(xí)模型RNN并結(jié)合了語義特征和字符特征,將現(xiàn)有的醫(yī)療本體與訓(xùn)練集相結(jié)合來獲取命名實(shí)體知識(shí)。由于醫(yī)療術(shù)語大多是由多個(gè)詞組成,僅考慮詞特征會(huì)造成語義信息割裂,因此首先基于本體提取概念特征,對(duì)于不能提取概念特征的直接進(jìn)提取詞特征,概念特征和詞特征統(tǒng)稱為語義特征。

由于在中文中,大部分字符本身就含有一些語義信息,例如:疼痛,即使該詞在訓(xùn)練預(yù)料庫里從未出現(xiàn)過,也可以根據(jù)該詞的字面信息“疼”和“痛”來判斷語義,因此在語義特征的基礎(chǔ)上提取了字符特征。對(duì)于因醫(yī)療術(shù)語表達(dá)不一致所造成的特征維度高、計(jì)算量大的問題,本文通過一種基于本體計(jì)算概念特征相似度的方法來降低語義特征的維度,以而減少計(jì)算量。

本方法的主要目的是通過提取不同粒度的文本特征來提高命名實(shí)體識(shí)別的準(zhǔn)確率。整體流程如算法2所示。

算法2基于RNN的弱監(jiān)督實(shí)體識(shí)別

輸入:數(shù)據(jù)集D(包含已標(biāo)注數(shù)據(jù)集和未標(biāo)注數(shù)據(jù)集),本體O;

輸出:命名實(shí)時(shí)識(shí)別的預(yù)測(cè)標(biāo)簽。

1) For 對(duì)于切分好的語義集(包含概念集和詞集){G1,G2,…,GN}∪{C1,C2,…,CN}∈Y;

3) End For

4) For對(duì)于每一個(gè)語義特征

yi∈(y1,y2,…,yn)提取字符特征

6) End For

7) 將融合字符特征的語義特征映射到本體O;

8) If 有概念特征gi和gk對(duì)應(yīng)本體概念oi∈O;

9) 通過余弦相似度計(jì)算gi和gk到本體概念oi的相似度距離;

10) Else If 小于相似度閾值α;

11)gi和gk分別為本體中的一個(gè)獨(dú)立概念(α的取值范圍在0.82~0.92,由于實(shí)驗(yàn)中α為0.87時(shí)誤差最小,因此設(shè)為0.87);

12) Else If大于相似度閾值α;

13) 認(rèn)為yj和yk為同一個(gè)概念;

14) 初始化:RNN訓(xùn)練模型。

其中,1)、2)為CBOW的語義特征提取,4)、5)為用CEW的方法提取字符特征,7)、13)為基于本體計(jì)算概念特征相似度的方法來降低語義特征的維度,14)為啟用RNN相關(guān)模型來進(jìn)行實(shí)體標(biāo)簽預(yù)測(cè)。

2 實(shí)驗(yàn)和結(jié)果

2.1 數(shù)據(jù)集和參數(shù)設(shè)置

本文采用了合作醫(yī)院的真實(shí)數(shù)據(jù)集,共15 589份電子病歷,包含普通外科、內(nèi)科等17類疾病。每份病歷包含入院、出院、病程3分記錄,由主訴、既往史、檢查、治療手段4部分組成。表1為電子醫(yī)療病歷數(shù)據(jù)集的構(gòu)成。

表1 電子醫(yī)療病歷語料庫的統(tǒng)計(jì)Table 1 Statistics of EMR corpus

實(shí)驗(yàn)中將電子醫(yī)療病歷數(shù)據(jù)集分為:訓(xùn)練集(已標(biāo)注)、訓(xùn)練集(未標(biāo)注)、驗(yàn)證集(用于調(diào)整模型的超參數(shù))和測(cè)試集(用來評(píng)估模型的泛化性)。已標(biāo)注數(shù)據(jù)集中的數(shù)據(jù)標(biāo)注任務(wù)是由醫(yī)生與醫(yī)學(xué)相關(guān)專業(yè)的學(xué)生共同完成的。為了克服單獨(dú)測(cè)試結(jié)果過于片面以及訓(xùn)練數(shù)據(jù)不足的問題,本文在訓(xùn)練時(shí)采用5折交叉的方法,每次選取4個(gè)子集作為訓(xùn)練集,1個(gè)子集作為驗(yàn)證集,不斷重復(fù),直到所有的子集都作為訓(xùn)練集和驗(yàn)證集并且完成訓(xùn)練。

表2為模型的超參數(shù)設(shè)置,對(duì)于字符少于4位的進(jìn)行補(bǔ)0操作,采用隨機(jī)梯度下降算法(stochastic gradient descent, SGD)對(duì)模型進(jìn)行優(yōu)化。為了防止過擬合,在模型的每層加入了批次正則化(bath normalization),并且引入了dropout訓(xùn)練策略[26]。大量實(shí)驗(yàn)證明,該方法能夠在不同程度上有效防止過擬合現(xiàn)象。

表2 模型在實(shí)驗(yàn)中的超參數(shù)Table 2 The hyper-parameters of model in experiment

2.2 實(shí)體類型和標(biāo)簽機(jī)制

在全部的數(shù)據(jù)集中,實(shí)體分為如下4類:

1)疾病:包含電子病歷中病人的現(xiàn)病史、既往史、家族病史和醫(yī)生根據(jù)患者的身體狀況做出的診斷。例如:慢性肺源性心臟病、急性阻塞性肺疾病、高血壓等。

2)癥狀:表示患者向醫(yī)生陳訴(或者別人代訴)的不適感覺或異常感覺,也包括嚴(yán)重程度的修飾成分。例如:喘息、頭痛、惡心等。

3)檢查:指通過實(shí)驗(yàn)室檢查或體格檢查來判斷患者所患疾病。例如:胸部X線、血常規(guī)、肺功能等。

4)治療:指治愈疾病、緩解或改善癥狀所用的治療方法。例如:藥物、呼吸機(jī)、手術(shù)等。

考慮到實(shí)體識(shí)別也是一個(gè)序列標(biāo)注任務(wù),由于醫(yī)療實(shí)體通常由多個(gè)詞組成,因此本文采用廣泛應(yīng)用的BIESO標(biāo)簽機(jī)制:O表示不屬于任何概念的實(shí)體,B、I、E分別表示一個(gè)實(shí)體的第一個(gè)詞、中間詞和結(jié)尾詞。S代表該詞本身就是一個(gè)實(shí)體。

2.3 評(píng)價(jià)標(biāo)準(zhǔn)

本文采用實(shí)體識(shí)別常用的幾個(gè)評(píng)價(jià)標(biāo)準(zhǔn)來衡量本文提出方法的有效性:準(zhǔn)確率(precision)、召回率(recall)和F1值。

準(zhǔn)確率指正確識(shí)別出的命名實(shí)體占總識(shí)別出的比例,召回率是指正確識(shí)別出的命名實(shí)體數(shù)量占文件中所包含的實(shí)體數(shù)量的比例。設(shè)置A為被成功識(shí)別出的實(shí)體數(shù)量,B為未被成功識(shí)別出的實(shí)體數(shù)量,C為模型錯(cuò)誤地將非命名實(shí)體識(shí)別為命名實(shí)體的數(shù)量。

準(zhǔn)確率為:

(15)

召回率為:

(16)

準(zhǔn)確率和召回率并不總是同時(shí)達(dá)到峰值(它們甚至常常呈負(fù)相關(guān))。為了在這2個(gè)標(biāo)準(zhǔn)之間做出權(quán)衡,實(shí)驗(yàn)也采用了考慮這2個(gè)標(biāo)準(zhǔn)的F1測(cè)度來衡量實(shí)體識(shí)別的有效性:

(17)

2.4 實(shí)驗(yàn)結(jié)果

本文實(shí)驗(yàn)分為3個(gè)部分:首先,對(duì)比CRF、Rule-base、SVM 3種傳統(tǒng)方法與本文提出的基于RNN的語義和字符特征結(jié)合的方法的性能,即分別對(duì)全部已標(biāo)數(shù)據(jù)集和加入部分未標(biāo)數(shù)據(jù)集的識(shí)別性能進(jìn)行了對(duì)比;其次,為了說明概念特征在中文醫(yī)療命名實(shí)體識(shí)別任務(wù)中的重要性,對(duì)基于RNN的詞字向量結(jié)合模型和基于RNN的語義和字符向量結(jié)合模型進(jìn)行了對(duì)比;最后,對(duì)RNN相關(guān)的3種模型(RNN、LSTM和GRU)的性能進(jìn)行比較。

表3和表4為CRF、Rule-based、SVM方法與本文基于RNN的語義和字符向量結(jié)合的弱監(jiān)督方法在全部已標(biāo)注數(shù)據(jù)集與加入未標(biāo)注數(shù)據(jù)集的性能對(duì)比結(jié)果。實(shí)驗(yàn)結(jié)果表明,基于RNN的方法優(yōu)于其他3種傳統(tǒng)方法。在全部已標(biāo)數(shù)據(jù)集和加入未標(biāo)數(shù)據(jù)集中,基于BGRU的詞字向量結(jié)合模型的效果是最好的,分別達(dá)到了86.35%和84.54%。不同的是,在表3全部已標(biāo)注數(shù)據(jù)集中,本文方法只比傳統(tǒng)方法的準(zhǔn)確率提高了1.5%~4.2%,這說明傳統(tǒng)方法在處理有監(jiān)督學(xué)習(xí)任務(wù)時(shí)也有不錯(cuò)的表現(xiàn)。但是,由表4可以看出,在加入未標(biāo)數(shù)據(jù)集后,本文方法比著傳統(tǒng)方法的準(zhǔn)確率提高了2.2%~6.1%。由此可以看出,RNN相關(guān)模型的時(shí)序記憶功能對(duì)弱監(jiān)督的實(shí)體識(shí)別任務(wù)有著非常重要的影響。總的來說,在訓(xùn)練語料庫不充分時(shí)本文方法表現(xiàn)更好,這十分有助于解決如今大量人工標(biāo)注耗時(shí)耗力的問題。

表3 傳統(tǒng)方法與基于RNN的語義和字符向量結(jié)合模型在全部已標(biāo)數(shù)據(jù)集上的性能對(duì)比Table 3 The comparison of the performance between the model of combining semantic and character embedding base on RNN and traditional methods on fully labeled dataset

表4 傳統(tǒng)方法與基于RNN的語義和字符向量結(jié)合模型在部分未標(biāo)數(shù)據(jù)集上的性能對(duì)比Table 4 The comparison of the performance between combining semantic and character embedding base on RNN model and traditional methods on a part of unlabeled dataset

表5和表6分別描述了基于RNN的詞字向量結(jié)合模型和基于RNN的語義和字符向量結(jié)合模型在全部已標(biāo)數(shù)據(jù)集上的性能對(duì)比。從實(shí)驗(yàn)結(jié)果可以看出,語義和字符向量結(jié)合模型比詞字向量結(jié)合模型的準(zhǔn)確率提高了0.62%。由此可以說明,在中文醫(yī)療領(lǐng)域的命名實(shí)體識(shí)別任務(wù)中概念特征也是非常重要的,因?yàn)樗軌蚍乐拐Z義信息割裂,保持語義的完整性。從表6中可以觀察到,在基于RNN的語義和字符向量結(jié)合模型中BiLSTM和BGRU的表現(xiàn)都比BRNN好,這也驗(yàn)證了前文提到的RNN模型不能處理較長(zhǎng)序列的任務(wù),因?yàn)殡S著序列長(zhǎng)度的不斷增加會(huì)出現(xiàn)梯度消失或者爆炸的情況。總的來說:基于RNN相關(guān)模型的弱監(jiān)督方法由于具有時(shí)序記憶功能更適合處理實(shí)體識(shí)別等序列標(biāo)注的任務(wù),尤其針對(duì)訓(xùn)練語料庫不全的情況;在命名實(shí)體識(shí)別的任務(wù)中,概念特征能夠防止語義信息割裂,提高命名實(shí)體的準(zhǔn)確率;在RNN相關(guān)的模型中,由于BRNN不能處理較長(zhǎng)序列任務(wù),因此比BiLSTM和BGRU方法的性能低。其次,本文提出的命名實(shí)體識(shí)別方法也存在一定的局限性:對(duì)領(lǐng)域本體的依賴性較高,本文提出的概念特征是從本體中獲取的,高質(zhì)量的語義特征抽取依賴于高質(zhì)量的外部領(lǐng)域本體庫。分類器構(gòu)建的學(xué)習(xí)過程中計(jì)算復(fù)雜性較高,例如一個(gè)字符串在本體中可能會(huì)匹配出多個(gè)概念,而且特征融合造成特征維度的增加也會(huì)增加分類器構(gòu)建的學(xué)習(xí)時(shí)間。由于目前公開的中文電子病歷數(shù)據(jù)集很難獲取到,因此本文的實(shí)驗(yàn)部分只在合作醫(yī)院提供的數(shù)據(jù)集上進(jìn)行。

表5 基于RNN的詞字向量結(jié)合模型Table 5 Model of combining word and character embedding base on RNN

表6 基于RNN的語義和字符向量結(jié)合模型Table 6 Combining semantic and character embedding base on RNN model

3 結(jié)論

1)從醫(yī)療本體中提取概念特征可以保持中文術(shù)語語義的完整性,并降低人工標(biāo)注成本,提高命名實(shí)體識(shí)別的準(zhǔn)確率。

2)通過實(shí)驗(yàn)表明,相比BRNN、BiLSTM和BGRU更擅長(zhǎng)處理較長(zhǎng)序列的文本。

3)基于真實(shí)臨床醫(yī)療文本挖掘的實(shí)驗(yàn)驗(yàn)證了本文提出的方法在實(shí)際應(yīng)用中的有效性。

在未來的工作中,將會(huì)進(jìn)一步考慮命名實(shí)體識(shí)別的時(shí)間復(fù)雜性,通過將一個(gè)字符串匹配出的多個(gè)相關(guān)概念進(jìn)行相關(guān)度排序,來降低特征維度,從而提高分類器學(xué)習(xí)的速度;同時(shí)將繼續(xù)尋找適用于中文醫(yī)療文本挖掘的公開評(píng)測(cè)數(shù)據(jù)集進(jìn)行更全面的性能比較和算法的改進(jìn)研究。

猜你喜歡
語義特征方法
語言與語義
如何表達(dá)“特征”
不忠誠的四個(gè)特征
抓住特征巧觀察
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
認(rèn)知范疇模糊與語義模糊
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 亚洲欧美精品在线| 情侣午夜国产在线一区无码| 亚洲一区免费看| 国产久操视频| 国产亚洲精品va在线| 91精品视频播放| 欧美亚洲第一页| 成人毛片在线播放| 国产精品开放后亚洲| 九色在线视频导航91| 亚洲无码高清视频在线观看| 亚洲成人精品| 在线99视频| 日韩最新中文字幕| 亚洲综合色婷婷中文字幕| 无码中文AⅤ在线观看| av在线无码浏览| 国产日本视频91| 免费AV在线播放观看18禁强制| 99精品热视频这里只有精品7 | 成人在线第一页| 亚洲中文字幕97久久精品少妇| 亚洲三级网站| 99视频精品全国免费品| 欧美国产日韩在线| 女人18一级毛片免费观看| 免费中文字幕在在线不卡 | 亚洲永久免费网站| 国产精品无码影视久久久久久久| 日韩欧美视频第一区在线观看| 在线日韩日本国产亚洲| 国产精品久久久久鬼色| 国产精品网址你懂的| 国产极品美女在线观看| vvvv98国产成人综合青青| 欧美一区二区三区国产精品| 国产一级精品毛片基地| 一本大道香蕉久中文在线播放| 欧美激情首页| 久久久波多野结衣av一区二区| 亚洲成综合人影院在院播放| 亚洲日韩精品伊甸| 视频一区视频二区中文精品| 国产女人水多毛片18| 久久一色本道亚洲| 高潮爽到爆的喷水女主播视频| 亚洲h视频在线| 亚洲av无码片一区二区三区| 久久中文字幕2021精品| 国产呦精品一区二区三区下载| 国产微拍一区| 亚洲第一黄片大全| 亚洲一区国色天香| 亚洲人在线| 在线观看无码a∨| 欧美日韩免费在线视频| 中国精品自拍| 91久久精品国产| 成人无码区免费视频网站蜜臀| 性欧美在线| 国产精品55夜色66夜色| 久久综合久久鬼| 真人高潮娇喘嗯啊在线观看| 大香伊人久久| 久久久久久久久久国产精品| 精品视频91| 欧美日本在线观看| 国产欧美日韩综合在线第一| 狠狠色成人综合首页| 国产欧美在线| 久久精品无码一区二区日韩免费| 日韩性网站| 无遮挡国产高潮视频免费观看| 久久人妻系列无码一区| 国产毛片不卡| 中文国产成人精品久久| 亚洲成a人片| 欧美激情二区三区| 国产男人的天堂| 亚洲国产在一区二区三区| 91精品国产麻豆国产自产在线| 亚洲AV成人一区国产精品|