999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向中文中醫(yī)藥領(lǐng)域的命名實(shí)體識(shí)別

2021-10-29 08:28:32雷迪張璞
電子制作 2021年18期
關(guān)鍵詞:語義中醫(yī)藥信息

雷迪,張璞

(1.河北地質(zhì)大學(xué),河北石家莊,050000;2.河北政法職業(yè)學(xué)院,河北石家莊,050000)

0 引言

中醫(yī)藥是中華文化的瑰寶,歷經(jīng)上千年的傳承,形成了以經(jīng)驗(yàn)為依據(jù)的獨(dú)特理論體系。因此,對(duì)這些寶貴的中醫(yī)藥治療醫(yī)案進(jìn)行數(shù)字化、結(jié)構(gòu)化的知識(shí)構(gòu)建,對(duì)中醫(yī)藥信息檢索與臨床應(yīng)用、挖掘中醫(yī)辨證規(guī)律等方面具有非凡的指導(dǎo)意義。所以,對(duì)這些醫(yī)案中,相關(guān)病癥、方劑、治療手段等實(shí)體的正確提取,有利于推進(jìn)中醫(yī)藥知識(shí)結(jié)構(gòu)化、數(shù)字化、智能化的建設(shè),進(jìn)一步推進(jìn)中醫(yī)藥領(lǐng)域的發(fā)展。

命名實(shí)體識(shí)別作為知識(shí)圖譜中的一部分技術(shù),在自然語言處理特別是通用領(lǐng)域,已有多種模型,并且效果較好。然而針對(duì)中文的復(fù)雜語義關(guān)系及中醫(yī)藥領(lǐng)域中的特定語義信息,比如疾病名稱、中醫(yī)藥物等實(shí)體,當(dāng)前大多命名實(shí)體識(shí)別模型還無法對(duì)這類實(shí)體進(jìn)行準(zhǔn)確的判斷。

針對(duì)此類問題,本文提出使用一種融合中醫(yī)藥領(lǐng)域字、詞信息,運(yùn)用Lattice-LSTM-CRF 解決中文中醫(yī)藥特定領(lǐng)域的命名實(shí)體識(shí)別方法。使用Lattice 對(duì)中文語言命名實(shí)體識(shí)別的實(shí)體邊界劃分優(yōu)勢(shì),結(jié)合中醫(yī)藥領(lǐng)域詞信息的字符特征進(jìn)行輸入。同時(shí),在領(lǐng)域?qū)<业闹笇?dǎo)下,運(yùn)用BIOES 語言標(biāo)注方法自行構(gòu)建中醫(yī)藥醫(yī)案的數(shù)據(jù)集。本文所提出的方法可對(duì)中醫(yī)藥醫(yī)案中的中醫(yī)人體基礎(chǔ)、中醫(yī)治療手段、病癥醫(yī)治藥物等實(shí)體邊界進(jìn)行有效的確定。

1 基于Lattice-LSTM-CRF 在中醫(yī)藥領(lǐng)域的命名實(shí)體識(shí)別模型

本模型主要考慮中文詞級(jí)和字級(jí)信息,經(jīng)過Lattice-LSTM-CRF 幾部分。首先通過Lattice 輸入句子信息后,通過BILSTM 捕獲句子的上下文信息,理解其復(fù)雜的語義關(guān)系。最后利用CRF 將句子的語義表示進(jìn)行判別和解碼,獲得最優(yōu)標(biāo)記序列。整體結(jié)構(gòu)如圖1 所示。

圖1 Lattice-LSTM-CRF 整體結(jié)構(gòu)

■1.1 Lattice-LSTM

我們使用BIOES 標(biāo)記方案進(jìn)行基于詞和基于字的命名實(shí)體識(shí)別標(biāo)記。句子S可以表示為S=c1,c2,c3…,cm(共m個(gè)字符),如圖2 所示,基于字的模型可表示為其中j為句子中的索引值,c為字符信息,x表示文字的向量化表示。經(jīng)過Bi-LSTM的輸入門、遺忘門和輸出門計(jì)算,公式如下:

其中i、o、f分別表示LSTM的輸入門、輸出門、遺忘門信息。Wc和bc是模型的參數(shù)。若將句子S看做基于詞的表示,句子S=w1,w2,w3,… ,wn(其中wi表示第i個(gè)單詞的表示)。b,e分別表示S中單詞開始和結(jié)束的索引值,則經(jīng)過Bi-LSTM的輸入門、遺忘門和輸出門計(jì)算,公式如下:

由于標(biāo)注序列均是在字后面進(jìn)行的標(biāo)注,所以對(duì)于詞級(jí)信息,LSTM 部分沒有輸出門信息。如圖2 所示,由于Lattice-Lstm 是考慮如何將當(dāng)前位置索引為j的cj中能夠融合潛在的w的信息,將融合了詞的更新狀態(tài)送入LSTM 中,所以考慮在LSTM的輸入門位置更新cj。其中這一過程需要增加一個(gè)輸入門的向量

圖2 基于字、詞信息的Lattice-LSTM

對(duì)該向量進(jìn)行歸一化的處理:

得到更新后的cj:

如圖3 所示,將更新的cj重新放入LSTM 中進(jìn)行訓(xùn)練,去掉LSTM 最后的輸出層softmax,將信息放入CRF 中,利用其轉(zhuǎn)移特征來對(duì)標(biāo)簽進(jìn)行語義約束。

圖3 經(jīng)過Lattice-LSTM 后輸入CRF的特征信息舉例

■1.2 CRF

CRF 是一個(gè)判別式模型,也是一種無向的圖模型??梢钥醋魇亲畲箪伛R爾可夫模型在標(biāo)注問題上的推廣。它可以通過特征函數(shù)來學(xué)習(xí)狀態(tài)間的關(guān)聯(lián)。如圖4 所示,對(duì)于本文來說,利用CRF 中輸出元素的前后關(guān)聯(lián)性,來對(duì)中文中的中醫(yī)藥領(lǐng)域標(biāo)簽進(jìn)行標(biāo)簽前后的約束。

圖4 CRF 中進(jìn)行Viterbi 解碼示例

對(duì)特征函數(shù)進(jìn)行簡(jiǎn)化,將兩種特征函數(shù)此時(shí)都用f表示,權(quán)重都用w 表示為:

給定一個(gè)輸入序列x,可以計(jì)算出輸出序列為y的概率,公式如下,其中n為序列的長(zhǎng)度。

可以把Z(k) 看成是所有輸出序列的得分之和。最后采用L2 正則化的句子級(jí)對(duì)數(shù)似然損失訓(xùn)練模型,防止小樣本數(shù)據(jù)實(shí)驗(yàn)過擬合。

而命名實(shí)體識(shí)別任務(wù)本質(zhì)上是一個(gè)seq to seq的任務(wù),所以最后得到的結(jié)果還應(yīng)轉(zhuǎn)化為相應(yīng)標(biāo)簽。這一部分,我們使用CRF 中的一階Viterbi 算法在本模型對(duì)應(yīng)的輸入序列上找到得分最高的標(biāo)簽序列。

2 實(shí)驗(yàn)

本文數(shù)據(jù)集來自于中醫(yī)藥專家對(duì)多種病癥治療的中文中醫(yī)藥治療醫(yī)案,并且以中醫(yī)藥學(xué)科體系為核心,遵循中醫(yī)藥學(xué)語言特點(diǎn),借鑒語義網(wǎng)絡(luò)的理念,建立的一個(gè)中醫(yī)藥學(xué)語言集成系統(tǒng)TCMLS 為依據(jù),在專家指導(dǎo)下將中醫(yī)藥的醫(yī)案文本數(shù)據(jù)分為6 類不同標(biāo)簽,共標(biāo)注字?jǐn)?shù)71902,實(shí)體10692 個(gè),標(biāo)注類別如表1 所示,對(duì)其相關(guān)實(shí)體進(jìn)行BIOES 標(biāo)注。

表1 6類標(biāo)簽的劃分及示例

本實(shí)驗(yàn)取數(shù)據(jù)集的80%作為訓(xùn)練集,10%作為驗(yàn)證集,10%作為測(cè)試集。實(shí)驗(yàn)最終選取常用的精確率 P、召回率R 和F1 值對(duì)命名實(shí)體識(shí)別結(jié)果進(jìn)行評(píng)價(jià)。為了驗(yàn)證本文方法的有效性,我們?cè)O(shè)置了以下4 個(gè)實(shí)驗(yàn)。

LSTM-CRF:LSTM 捕捉句子信息,理解語義內(nèi)容,CRF 對(duì)標(biāo)簽進(jìn)行約束,更好的進(jìn)行命名實(shí)體識(shí)別任務(wù)。

BiLSTM-CRF:BiLSTM由前項(xiàng)LSTM和后項(xiàng)LSTM組合而成,可以更好的捕捉上下文的語義信息。效果優(yōu)于LSTM-CRF。

Lattice-LSTM-CRF:將分詞信息帶入LSTM,能夠?qū)⒆址?jí)別序列信息和該序列對(duì)應(yīng)的詞信息同時(shí)編碼供模型取用,豐富了語義表達(dá)。對(duì)于中文中醫(yī)藥文本數(shù)據(jù)效果明顯。

Lattice-BiLSTM-CRF:結(jié)合字、詞信息同時(shí),捕捉上下文語義,更好的理解中醫(yī)藥語義信息,可以看出F1 值最高,效果最好。實(shí)驗(yàn)結(jié)果如表2 所示。

表2 4個(gè)實(shí)驗(yàn)對(duì)比結(jié)果

3 結(jié)論

本文將Lattice-LSTM-CRF 模型引入到中文數(shù)據(jù)的中醫(yī)藥領(lǐng)域命名實(shí)體識(shí)別研究。通過標(biāo)注的中醫(yī)藥醫(yī)案數(shù)據(jù)集發(fā)現(xiàn),相比傳統(tǒng)的LSTM-CRF 實(shí)驗(yàn),Lattice-LSTM-CRF 更具有實(shí)驗(yàn)優(yōu)越性,對(duì)中醫(yī)藥醫(yī)案中的實(shí)體邊界的確定有更好的效果。本文對(duì)中文中醫(yī)藥領(lǐng)域中的6 類實(shí)體進(jìn)行了很好的識(shí)別。在今后研究中,可以針對(duì)特定領(lǐng)域的詞信息及上下文的相關(guān)性,提前進(jìn)行詞信息的預(yù)處理,比如構(gòu)建相關(guān)詞典。使Lattice 可以更好的利用相關(guān)信息,更好的在命名實(shí)體識(shí)別任務(wù)中凸顯其效果。

猜你喜歡
語義中醫(yī)藥信息
中醫(yī)藥在惡性腫瘤防治中的應(yīng)用
中醫(yī)藥在治療惡性腫瘤骨轉(zhuǎn)移中的應(yīng)用
語言與語義
從《中醫(yī)藥法》看直銷
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
中醫(yī)藥立法:不是“管”而是“促”
“上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
展會(huì)信息
語義分析與漢俄副名組合
主站蜘蛛池模板: 欧美一区二区啪啪| 99re在线观看视频| 亚洲精品欧美日韩在线| 高清不卡毛片| 国产精品自在自线免费观看| 久青草网站| 久久精品国产精品青草app| 久爱午夜精品免费视频| 亚洲第一黄片大全| 亚洲国产一区在线观看| 色老头综合网| 又大又硬又爽免费视频| 国产精品第5页| 热久久综合这里只有精品电影| 亚洲人成影视在线观看| 色呦呦手机在线精品| A级毛片无码久久精品免费| 日日摸夜夜爽无码| 亚洲,国产,日韩,综合一区 | 伊人天堂网| 国产精品网址你懂的| 真实国产乱子伦视频| 国产成人一级| 国内精品久久久久鸭| 女人天堂av免费| 国产福利拍拍拍| 伊人久久婷婷| 亚洲性日韩精品一区二区| 中国特黄美女一级视频| 99精品欧美一区| 久久情精品国产品免费| 久久夜色精品国产嚕嚕亚洲av| 无码综合天天久久综合网| 青青青伊人色综合久久| 亚洲美女一级毛片| 久久国产免费观看| 日韩美一区二区| 114级毛片免费观看| 日韩视频免费| 国产精品一线天| 71pao成人国产永久免费视频| 亚洲国产综合精品中文第一| 日韩欧美中文| 国内精品小视频福利网址| 国产成人资源| 99爱视频精品免视看| 國產尤物AV尤物在線觀看| A级毛片高清免费视频就| 午夜福利在线观看入口| 特级做a爰片毛片免费69| 欧美伦理一区| 亚洲大尺码专区影院| 免费在线不卡视频| 黄色不卡视频| 手机成人午夜在线视频| 激情网址在线观看| 99re这里只有国产中文精品国产精品 | 97影院午夜在线观看视频| 国产理论最新国产精品视频| 永久免费精品视频| 国产精品原创不卡在线| 亚洲伊人久久精品影院| 国产亚洲精久久久久久久91| 国产亚洲一区二区三区在线| 国产成年女人特黄特色大片免费| 欧美在线一二区| 久久精品中文字幕免费| 中文毛片无遮挡播放免费| 中文国产成人精品久久一| 凹凸精品免费精品视频| 国产精品极品美女自在线看免费一区二区 | 99热最新在线| 精品国产自在在线在线观看| 国产一区在线视频观看| 国产日韩欧美在线视频免费观看 | 伊人久久婷婷| 97色婷婷成人综合在线观看| 一级成人a毛片免费播放| 日韩毛片在线播放| 国产视频自拍一区| 亚洲视频在线网| 超碰精品无码一区二区|