999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進(jìn)MC-Bert 的ICD 編碼映射方法研究

2023-06-21 01:59:00周浩然鄭建立
關(guān)鍵詞:語(yǔ)義實(shí)驗(yàn)模型

周浩然, 鄭建立

(上海理工大學(xué)健康科學(xué)與工程學(xué)院, 上海 200093)

0 引 言

疾病和相關(guān)健康問(wèn)題的國(guó)際統(tǒng)計(jì)分類(International Statistical Classification of Diseases and Related Health Problems,ICD)由世界衛(wèi)生組織創(chuàng)立,用來(lái)確定全球衛(wèi)生趨勢(shì)和統(tǒng)計(jì)數(shù)據(jù)的一種醫(yī)療編碼體系國(guó)際標(biāo)準(zhǔn)。 該體系由表1 所示的醫(yī)學(xué)編碼及對(duì)應(yīng)醫(yī)學(xué)名稱組成最小描述單元,涉及到手術(shù)、疾病、診斷等醫(yī)療環(huán)節(jié),對(duì)生物醫(yī)學(xué)領(lǐng)域如醫(yī)學(xué)知識(shí)實(shí)體對(duì)齊、醫(yī)療標(biāo)準(zhǔn)化、臨床路徑等研究起著重要作用,同時(shí)也作用于醫(yī)保結(jié)算、醫(yī)療監(jiān)督等領(lǐng)域。

表1 ICD 編碼示例Tab. 1 Examples of ICD code

當(dāng)前,國(guó)內(nèi)醫(yī)療體系中存在著多種本地化的ICD 編碼版本,且大部分基于ICD-9 和ICD-10。 雖然部分機(jī)構(gòu)發(fā)布了某版本與另一版本的映射,但不論是從映射版本的數(shù)量以及更新速度都不盡如人意。 除此以外,各個(gè)醫(yī)療機(jī)構(gòu)還存在各自定義的院內(nèi)碼,這更對(duì)醫(yī)療數(shù)據(jù)的一致性提出了挑戰(zhàn)。

目前,醫(yī)學(xué)編碼相關(guān)的研究大多集中在病案的命名實(shí)體識(shí)別和編碼領(lǐng)域,如夏等[1]基于深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)電子病歷的實(shí)體識(shí)別;厐等[2]基于文本相似度實(shí)現(xiàn)了康復(fù)量表與 ICF ( International Classification of Functioning,Disability and Health)編碼的映射。 此外,專業(yè)醫(yī)生也就各自專業(yè)領(lǐng)域ICD編碼的合理性進(jìn)行了討論,如葉[3]等對(duì)ICD-10 在眼挫傷的分類編碼討論;許等[4]對(duì)ICD-10 編碼在癲癇方面的質(zhì)量分析。

實(shí)現(xiàn)ICD 映射的方式往往需要大量的人工分級(jí)、字典映射等傳統(tǒng)方式,而基于語(yǔ)義相似度的方法較少。 隨著蘊(yùn)含大量生物醫(yī)學(xué)領(lǐng)域先驗(yàn)知識(shí)的預(yù)訓(xùn)練模型MC-Bert(Meta-Controller BERT)的出現(xiàn),中文醫(yī)學(xué)文本可以轉(zhuǎn)化為更加稠密和準(zhǔn)確的向量表示,在此基礎(chǔ)上本文提出一種基于改進(jìn)MC-Bert 的ICD 編碼映射方法,該方法通過(guò)語(yǔ)義相似度在現(xiàn)有的ICD 版本映射庫(kù)中進(jìn)行匹配實(shí)驗(yàn),在不同匹配精度下的準(zhǔn)確率均達(dá)到較高水平。似度,依次進(jìn)行排序獲得Top5,輸出用于驗(yàn)證。

1 改進(jìn)的MC-Bert 模型

改進(jìn)的MC-Bert 是一種利用白化處理優(yōu)化MCBert 編碼輸出的無(wú)監(jiān)督學(xué)習(xí)模型,其結(jié)構(gòu)圖如圖1 所示。

圖1 改進(jìn)的MC-Bert 模型結(jié)構(gòu)圖Fig. 1 Model structure diagram of improved MC-Bert

首先,由于ICD 中的名稱部分既有較短小的詞語(yǔ)如霍亂,也有較長(zhǎng)的句子如“遺傳性腎病伴有輕微的腎小球異常,不可歸類在他處者”,本文將其統(tǒng)一填充為相同長(zhǎng)度的句子,輸入MC-Bert 進(jìn)行編碼;其次,將兩個(gè)文檔中編碼名稱的輸出矩陣拼接,作為白化處理的輸入,計(jì)算獲得消除各向異性后的句向量;最后,將兩文檔的句向量?jī)蓛捎?jì)算余弦相

1.1 預(yù)訓(xùn)練語(yǔ)言模型MC-Bert

MC-Bert 由Zhang 等[5]提出,訓(xùn)練過(guò)程如圖2所示。 以BERT 作為基礎(chǔ)模型,使用大量生物醫(yī)學(xué)領(lǐng)域語(yǔ)料進(jìn)行訓(xùn)練,包含許多生物醫(yī)學(xué)領(lǐng)域先驗(yàn)知識(shí)。 雖然預(yù)訓(xùn)練語(yǔ)言模型在各項(xiàng)語(yǔ)言任務(wù)中性能均有大幅的提升,但Gao 等[6]發(fā)現(xiàn),其在詞向量方面仍存在各向異性,導(dǎo)致模型出現(xiàn)語(yǔ)義表達(dá)的退化問(wèn)題。

圖2 MC-Bert 的訓(xùn)練過(guò)程Fig. 2 The training process of MC-Bert

1.2 白化處理

白化處理是一種預(yù)處理方法,由Su 等[7]首先引入以解決預(yù)訓(xùn)練模型語(yǔ)義表達(dá)的退化問(wèn)題,其具體操作是將文檔中N條句子經(jīng)過(guò)預(yù)訓(xùn)練模型的編碼層輸出為向量集合{xi}N i=1,然后將此集合經(jīng)過(guò)如式(1)的線性變換,轉(zhuǎn)變?yōu)榫禐? 且協(xié)方差矩陣為單位矩陣的向量集合。

其中,μ代表平移系數(shù),ω代表縮放系數(shù)。

為了實(shí)現(xiàn)x~i的均值為0,則μ需要滿足式(2):

而{xi}Ni=1的協(xié)方差矩陣Σ滿足式(3):

轉(zhuǎn)換后的協(xié)方差矩陣與Σ的關(guān)系為式(4):

由于為單位矩陣,則式(4)等價(jià)于式(5):

由此可得到Σ滿足式(6):

由于協(xié)方差矩陣是正定對(duì)稱矩陣,因此Σ滿足式(7)所示的奇異值分解:

其中,U是ΣΣT的特征向量矩陣,Λ為對(duì)角矩陣

由式(6)、式(7)聯(lián)立,可以得到式(8):

最終可得到ω滿足式(9):

1.3 余弦相似度

余弦相似度是一種常用的計(jì)算文本相似度的方法,計(jì)算公式(10):

其中,x,y代表兩條句向量;d代表句向量的長(zhǎng)度;xi,yi代表x,y在下標(biāo)為i處的值。

余弦相似度的值越接近1,兩個(gè)句子的相似度越高。

2 實(shí)驗(yàn)方法和評(píng)價(jià)指標(biāo)

2.1 實(shí)驗(yàn)數(shù)據(jù)

本文采用ICD-10 國(guó)標(biāo)2020 版和醫(yī)保版2.0 對(duì)照庫(kù)以及ICD-9 團(tuán)標(biāo)2020 版和醫(yī)保版2.0 對(duì)照庫(kù)作為實(shí)驗(yàn)數(shù)據(jù),其實(shí)例見(jiàn)表2。

表2 實(shí)驗(yàn)數(shù)據(jù)示例Tab. 2 Examples of experimental data

2.2 實(shí)驗(yàn)環(huán)境及評(píng)價(jià)指標(biāo)

改進(jìn)的MC -Bert 通過(guò)python 3. 9. 7,基于PyTorch 框架實(shí)現(xiàn);硬件環(huán)境為Intel Core i7-11700,顯卡為RTX 3060,顯存12 G,操作系統(tǒng)為window 10。 運(yùn)用Top-K 準(zhǔn)確率(Accuracy)評(píng)估方法性能,計(jì)算如公式(11)所示:

其中,nk是前k個(gè)候選項(xiàng)中包含正確項(xiàng)的個(gè)數(shù),N是映射條目的總數(shù)。

2.3 實(shí)驗(yàn)設(shè)計(jì)

本文涉及到使用不同版本的ICD 名稱進(jìn)行相似度計(jì)算,但不同版本的ICD 之間可能存在大量重復(fù)的醫(yī)學(xué)名稱,會(huì)干擾不同醫(yī)學(xué)名稱間的相似度匹配結(jié)果,因此設(shè)計(jì)實(shí)驗(yàn)(1);ICD 編碼數(shù)據(jù)蘊(yùn)含豐富的醫(yī)學(xué)知識(shí),注入這類數(shù)據(jù)或可提高模型匹配的準(zhǔn)確率,因此設(shè)計(jì)實(shí)驗(yàn)(2);為了驗(yàn)證改進(jìn)MC-Bert 與其他模型在匹配準(zhǔn)確率上確有提升,因此設(shè)計(jì)實(shí)驗(yàn)(3)。

(1)重名項(xiàng)對(duì)非重名項(xiàng)匹配的干擾評(píng)估實(shí)驗(yàn):從ICD-10 國(guó)標(biāo)2020 版中篩選出與醫(yī)保2.0 版醫(yī)學(xué)名稱不重復(fù)的1 773 條數(shù)據(jù),分別與去除重名項(xiàng)的、包含重名項(xiàng)的醫(yī)保2.0 版數(shù)據(jù)進(jìn)行匹配實(shí)驗(yàn)。

(2)醫(yī)學(xué)編碼注入與否的對(duì)比實(shí)驗(yàn):編碼部分包含類目、亞目、細(xì)目、附加碼,分別代表不同范圍的醫(yī)學(xué)知識(shí)范疇。 ICD-9 團(tuán)標(biāo)版中篩選出非重名項(xiàng)1 289 條,醫(yī)保2.0 版中非重名項(xiàng)1 255 條,分為編碼不注入、整條編碼注入、拆分三類編碼分別注入3 種數(shù)據(jù)進(jìn)行對(duì)比實(shí)驗(yàn),3 種實(shí)驗(yàn)數(shù)據(jù)示例見(jiàn)表3。

表3 三組實(shí)驗(yàn)數(shù)據(jù)示例Tab. 3 Three sets of experimental data examples

(3)改進(jìn)MC-Bert 與其他模型的對(duì)比實(shí)驗(yàn):在數(shù)據(jù)去重和拆分三類編碼注入后,在ICD-10 國(guó)標(biāo)2020 版和醫(yī)保2.0 版對(duì)照庫(kù)以及ICD-9 團(tuán)標(biāo)版和醫(yī)保2.0 版對(duì)照庫(kù)中,就改進(jìn)MC-Bert 和TF-IDF(Term Frequency-Inverse Document Frequency)、LSI(Latent Semantic Indexing)、MC-Bert、VSM(Vector Space Model)模型的表現(xiàn)進(jìn)行對(duì)比。

3 結(jié)果分析和總結(jié)

3.1 重名項(xiàng)對(duì)非重名項(xiàng)的擾動(dòng)評(píng)估實(shí)驗(yàn)

ICD-10 國(guó)標(biāo)2020 版與醫(yī)保2.0 版重名項(xiàng)對(duì)非重名項(xiàng)匹配的干擾結(jié)果見(jiàn)表4。 由此實(shí)驗(yàn)證明,重名項(xiàng)對(duì)非重名項(xiàng)匹配的干擾影響較大,因此需要將不同版本ICD 中的重名項(xiàng)和非重名分開(kāi)匹配。 同時(shí),也驗(yàn)證了改進(jìn)MC-Bert 在非重名項(xiàng)之間依舊保有較高的準(zhǔn)確率。

表4 重名項(xiàng)對(duì)非重名項(xiàng)匹配的干擾結(jié)果Tab. 4 The experimental results of the perturbation evaluation of the duplicated items to the non-duplicated items%

3.2 醫(yī)學(xué)編碼注入與否的對(duì)比實(shí)驗(yàn)

CD-9 團(tuán)標(biāo)版中非重名項(xiàng)1 289 條,醫(yī)保2.0 版中非重名項(xiàng)1 255 條分別對(duì)文本中的英文、符號(hào)進(jìn)行預(yù)處理后,分為編碼不注入、整條編碼注入、拆分三類編碼注入的性能對(duì)比實(shí)驗(yàn)結(jié)果見(jiàn)表5。 由此實(shí)驗(yàn)證明,拆分編碼為類目、亞目、細(xì)目三級(jí)注入醫(yī)學(xué)名稱中可顯著提升準(zhǔn)確率,因而結(jié)合醫(yī)學(xué)名稱與三級(jí)編碼是最為合理的語(yǔ)義匹配方案。

表5 三種實(shí)驗(yàn)數(shù)據(jù)的性能對(duì)比結(jié)果Tab. 5 Comparison of experimental results of three groups of experimental data%

3.3 改進(jìn)MC-Bert 與其他模型的對(duì)比實(shí)驗(yàn)

通過(guò)將ICD-9 團(tuán)標(biāo)版中非重名的1 289 條向量進(jìn)行t-SNE 降維,對(duì)降維后的向量進(jìn)行可視化,得到如圖3 所示的向量分布對(duì)比圖,可見(jiàn)改進(jìn)MCBert 相較MC-Bert 能夠有效的將重疊的向量分散開(kāi)來(lái),擁有更好的語(yǔ)義表達(dá)能力,提升語(yǔ)義相似度檢索的敏感度。

圖3 向量分布對(duì)比圖Fig. 3 Comparison of vector distributions

同時(shí)本文也對(duì)加進(jìn)MC-Bert 與其他模型在ICD-10 國(guó)標(biāo)2020 版和醫(yī)保版2.0 對(duì)照庫(kù)以及ICD-9團(tuán)標(biāo)2020 版和醫(yī)保版2.0 對(duì)照庫(kù)上非重名項(xiàng)的準(zhǔn)確率進(jìn)行比較,結(jié)果見(jiàn)表6、表7。

表6 ICD-9 團(tuán)標(biāo)2020 版和醫(yī)保版2.0 映射的對(duì)比實(shí)驗(yàn)結(jié)果Tab. 6 Comparison experiments of ICD-9 group standard 2020 version and medical insurance version 2.0 mapping%

表7 ICD-10 國(guó)標(biāo)2020 版和醫(yī)保版2.0 映射的對(duì)比實(shí)驗(yàn)結(jié)果Tab. 7 Comparison experiments of ICD-10 national standard 2020 version and medical insurance version 2.0 mapping%

可以看到改進(jìn)后的MC-Bert 模型與其他模型相比,除了在top1 匹配精度下的準(zhǔn)確率方面低于VSM 模型外,其他匹配精度下的準(zhǔn)確率較其他模型有較大提升。

4 結(jié)束語(yǔ)

本文提出來(lái)一種基于改進(jìn)MC-Bert 的ICD 編碼映射方法,通過(guò)實(shí)驗(yàn)證明了該方法相較其他模型在準(zhǔn)確率方面有較大的提升,為醫(yī)學(xué)編碼領(lǐng)域的智能化映射提供了一種思路。

猜你喜歡
語(yǔ)義實(shí)驗(yàn)模型
一半模型
記一次有趣的實(shí)驗(yàn)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
語(yǔ)言與語(yǔ)義
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
3D打印中的模型分割與打包
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
主站蜘蛛池模板: 日韩第八页| 精品国产免费观看| 性色一区| 中国一级特黄视频| 波多野结衣无码中文字幕在线观看一区二区| 国产视频你懂得| 国产人免费人成免费视频| 亚洲啪啪网| 亚洲乱码在线视频| 国产精品久久久久无码网站| 91伊人国产| 亚洲色大成网站www国产| 亚洲中文字幕日产无码2021| 中国精品自拍| 亚洲综合色婷婷| 狠狠亚洲五月天| www亚洲天堂| 911亚洲精品| 色呦呦手机在线精品| 精品无码国产一区二区三区AV| 国产不卡一级毛片视频| 特级欧美视频aaaaaa| 欧美激情伊人| 天天综合网色中文字幕| 国产麻豆va精品视频| 亚洲最大看欧美片网站地址| 青青草91视频| 国产精品第一区在线观看| 中文纯内无码H| 99视频免费观看| 国产成人91精品免费网址在线| 国产免费精彩视频| 制服无码网站| 亚洲国产日韩在线观看| 亚洲视频免| 亚洲Av激情网五月天| 精品久久久久久中文字幕女| 2021国产精品自产拍在线| 国产呦精品一区二区三区下载| 99在线观看视频免费| 三级欧美在线| 久久9966精品国产免费| 91久久偷偷做嫩草影院| 蜜桃臀无码内射一区二区三区| 扒开粉嫩的小缝隙喷白浆视频| 97在线观看视频免费| 性69交片免费看| 婷婷亚洲综合五月天在线| 中文字幕 欧美日韩| 91精品最新国内在线播放| 黑人巨大精品欧美一区二区区| 亚洲日本中文字幕乱码中文| 天堂亚洲网| 99久久精品无码专区免费| 亚洲av成人无码网站在线观看| 久久 午夜福利 张柏芝| 欧美爱爱网| 免费高清毛片| 91国内在线观看| 9啪在线视频| 免费看久久精品99| 乱人伦视频中文字幕在线| 青青草久久伊人| 91福利国产成人精品导航| 少妇精品久久久一区二区三区| 国产精品视频3p| 亚洲国产系列| 国产在线观看人成激情视频| 久久国产精品夜色| 久久综合色天堂av| 青青草一区| 日本亚洲国产一区二区三区| 亚洲第一精品福利| 日本亚洲国产一区二区三区| 婷婷五月在线| 成人免费网站在线观看| 欧美激情综合| 一级毛片a女人刺激视频免费| 97人妻精品专区久久久久| 国产精品香蕉| 乱系列中文字幕在线视频| 欧美一级黄片一区2区|