999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于依存關(guān)系和倒排索引的中醫(yī)電子病歷檢索方法

2020-12-29 12:09:28郭坤丁有偉
計(jì)算機(jī)時(shí)代 2020年12期
關(guān)鍵詞:方法

郭坤 丁有偉

摘? 要: 醫(yī)療信息化背景下,依托大數(shù)據(jù)的智慧醫(yī)療成為研究熱點(diǎn),而電子病歷檢索作為中醫(yī)數(shù)據(jù)處理的基礎(chǔ)操作,其性能直接影響到上層統(tǒng)計(jì)分析和挖掘應(yīng)用的性能。目前中醫(yī)電子病歷采集和存儲(chǔ)尚未形成統(tǒng)一標(biāo)準(zhǔn),存在大量非結(jié)構(gòu)化數(shù)據(jù),基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的檢索方式已不再適用。文章提出一種基于依存關(guān)系和倒排索引的中醫(yī)電子病歷高效檢索方法,通過挖掘關(guān)鍵詞之間的依存關(guān)系,使用二元組表示,并為二元組建立倒排索引以提高檢索效率。該方法根據(jù)關(guān)鍵詞之間的依存關(guān)系重構(gòu)原文,創(chuàng)建倒排索引提高檢索性能,保證海量數(shù)據(jù)的高效訪問。

關(guān)鍵詞: 中醫(yī)電子病歷; 依存關(guān)系; 倒排索引; 結(jié)果重構(gòu)

中圖分類號(hào):TP391.1? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2020)12-56-04

Abstract: In the medical informatization, intelligent medical treatment relying on big data has become a research hotspot, and electronic medical record retrieval, as the basic operation of TCM data processing, directly affects the performance of upper statistical analysis and application. At present, the collection and storage of traditional Chinese medicine electronic medical records has not formed a unified standard. There are a lot of unstructured data, and the retrieval methods for traditional relational database are no longer suitable. This paper proposes an efficient retrieval method of TCM electronic medical records based on dependency relationship and inverted index. By mining the dependency relationship between keywords, using binary group to express, and building inverted index for the binary group to improve the retrieval efficiency. This method reconstructs the original text according to the interdependence of keywords, creates inverted index to improve the retrieval performance, which ensures the efficient access of mass data.

Key words: electronic medical records of Chinese medicine; dependency relationship; inverted index; result reconstruction

0 引言

隨著醫(yī)療信息化的不斷推進(jìn),臨床信息系統(tǒng)建設(shè)逐步完善。直到2014年,醫(yī)院臨床醫(yī)療管理信息化(CIS)系統(tǒng)在醫(yī)療信息化解決方案中占比44.4%,預(yù)計(jì)在2021年超過醫(yī)院管理信息化(HIS)的規(guī)模[1]。在人工智能,大數(shù)據(jù)應(yīng)用增加的背景下,中醫(yī)電子病歷已成為各類輔助系統(tǒng)和智能應(yīng)用的數(shù)據(jù)支撐[2],但如何高效利用臨床診療信息對(duì)數(shù)據(jù)擁有者和應(yīng)用開發(fā)者而言均是巨大的挑戰(zhàn)。

現(xiàn)有對(duì)電子病歷中非結(jié)構(gòu)化數(shù)據(jù)的檢索方法主要分為兩類:基于查詢重構(gòu)的方法和基于本體的方法。查詢重構(gòu)主要有兩種形式,一是關(guān)鍵詞拓展[3],即依托外部醫(yī)療知識(shí)為原檢索擴(kuò)展關(guān)鍵字,如UMLS、ICD-9編碼等。此類方法在實(shí)際應(yīng)用中效果不明顯,且容易發(fā)生查詢漂移的問題;二是關(guān)鍵詞權(quán)重調(diào)整[4],即在原查詢的基礎(chǔ)上,分析關(guān)鍵字在文檔中的貢獻(xiàn)度,查詢重構(gòu)本質(zhì)上是一種基于關(guān)鍵字的方法。而僅僅依賴關(guān)鍵詞作為檢索的標(biāo)準(zhǔn)則存在明顯的弊端。有研究認(rèn)為,關(guān)鍵字之間語(yǔ)法關(guān)系的缺失是造成文本匹配不準(zhǔn)確的重要原因[5]。許多不相關(guān)的文檔之間可能存在相同的關(guān)鍵字[6]。

基于本體的檢索方法通過定義專業(yè)詞匯和專業(yè)術(shù)語(yǔ),深層次地理解檢索對(duì)象。該方法在電子病歷檢索領(lǐng)域得到廣泛應(yīng)用。曾紅武等人[7]提出一種運(yùn)用模糊向量空間模型的概念,挖掘分析海量電子病歷,建立本體知識(shí)庫(kù),能夠高效識(shí)別病歷中疾病的診療模式和依據(jù)。鞏沐歌等人[8]結(jié)合高血壓診斷知識(shí)與本體庫(kù),構(gòu)造了高可用的高血壓電子病歷庫(kù)。但此類方法需要建造健全的本體庫(kù),這使得檢索的效果很大程度上依賴本體庫(kù)的質(zhì)量。

本文提出一種基于依存關(guān)系和倒排索引的中醫(yī)電子病歷檢索方法,提煉關(guān)鍵詞之間的依存關(guān)系,使用依存關(guān)系重構(gòu)原文,并在此基礎(chǔ)上創(chuàng)建倒排索引。該方法兼顧檢索結(jié)果的準(zhǔn)確性和數(shù)據(jù)存儲(chǔ)的高效性。

1 基于依存關(guān)系的中醫(yī)電子病歷核心語(yǔ)義提取

依存語(yǔ)法分析的目的是發(fā)掘復(fù)雜文本中關(guān)鍵詞之間的依存關(guān)系。本方法采用了注意力機(jī)和多層感知機(jī)作為實(shí)體關(guān)系的提取模型。模型包含輸入層,抽象層和輸出層。輸入層完成特征編碼,抽象層產(chǎn)生依存關(guān)系矩陣,輸出層解析依存關(guān)系矩陣得到依存關(guān)系向量。

1.1 輸入層

輸入層接受三種特征輸入,分別為詞嵌入,詞性和詞類。詞嵌入使用Word2Vec算法,設(shè)每個(gè)詞語(yǔ)256維;詞性和詞類使用人工標(biāo)注的方法,針對(duì)兒童哮喘病歷數(shù)據(jù),共使用7種詞性,5種詞類,如表1所示。

1.2 抽象層

抽象層由注意力機(jī)制和多層感知器組成,對(duì)模型輸入進(jìn)行深度抽象,最終得到依存矩陣。設(shè)存在句子[Sentence=word0,word1,word2,…,wordn],抽象層輸出依存矩陣[D=λ0,0…λ0,n???λn,0…λn,n],其中wordn表示句中第n個(gè)詞,[λx,y]表示[wordx]與[wordy]的依存值。

對(duì)于中醫(yī)病歷中非結(jié)構(gòu)化數(shù)據(jù),具有依存關(guān)系的關(guān)鍵詞并沒有固定的排列規(guī)則,這主要體現(xiàn)在兩個(gè)方面:①關(guān)鍵詞之間的語(yǔ)序不固定,即關(guān)鍵詞之間沒有嚴(yán)格的前后關(guān)系,這主要是由不同的書寫,記錄習(xí)慣導(dǎo)致;②關(guān)鍵詞之間的詞距不固定,尤其當(dāng)出現(xiàn)嵌套關(guān)系時(shí),相關(guān)聯(lián)的詞對(duì)可能距離較遠(yuǎn)。而注意力機(jī)制本身對(duì)位置信息不敏感,能很好地提取全局特征。

注意力機(jī)制本質(zhì)上可表示為一個(gè)查詢與一系列鍵值對(duì)的映射關(guān)系。

設(shè)A為注意力函數(shù),S為相似度函數(shù),存在一個(gè)查詢(query)和L組鍵值對(duì)(key, value),Source表示鍵值隊(duì)集合,i表示鍵值對(duì)的序號(hào),則注意力計(jì)算公式如下:

1.3 輸出層

輸出層解析依存矩陣得到依存向量。根據(jù)依存句法分析公理[9],在一個(gè)完整的語(yǔ)句中,任何一個(gè)詞語(yǔ)都不能依存于2個(gè)或2個(gè)以上的其他詞語(yǔ),進(jìn)而在依存向量中每一個(gè)值可以表示為依存對(duì)象在句中的索引。

輸出層主要采用Esiner算法[10],Esiner算法在每一個(gè)間隔[s,t]計(jì)算最佳結(jié)果。s表示左界的索引t法表示右界的索引且s和t中至少有一個(gè)是頭節(jié)點(diǎn)。

該算法以哈希表為基本數(shù)據(jù)結(jié)構(gòu),以間隔[s,t]為鍵,數(shù)值分為兩類,即L(頭節(jié)點(diǎn)在s處)和R(頭節(jié)點(diǎn)在t處)。實(shí)際計(jì)算中考慮四種情況,如表2所示。

1.4 依存向量轉(zhuǎn)子查詢

依據(jù)依存向量將原始語(yǔ)句分解成多個(gè)子查詢,子查詢記錄成二元組的形式。首部為核心詞,尾部為依存詞。設(shè)對(duì)于句子[e0,e1,e2,e3]有依存向量[-1,0,-1,2T],則可以拆分為子查詢集[e0,e1,e2,e3]。表3所示依存向量轉(zhuǎn)子查詢的實(shí)例,該文本包含18個(gè)關(guān)鍵詞,其依存矩陣為D18x18,解析后得到維度為18的依存向量。

在眾多子查詢中,并非每一個(gè)都需要作為檢索特征,過多地引入非關(guān)鍵子查詢反而會(huì)降低查詢地精度。找出關(guān)鍵子查詢可以大大優(yōu)化檢索效率和準(zhǔn)確度[11]。本文篩選出有效的子查詢,例如藥劑與服用量,病癥與患病程度。

2 基于倒排的索引創(chuàng)建

正排索引為整個(gè)文檔創(chuàng)建索引,并記錄下文檔中詞語(yǔ)的詞性、詞頻等信息。該方法優(yōu)點(diǎn)在于創(chuàng)建簡(jiǎn)單,易于后期維護(hù);缺點(diǎn)表現(xiàn)為,查詢時(shí)需要依次掃描所有文檔,效率低下。倒排索引為文檔中每一個(gè)關(guān)鍵字創(chuàng)建索引。這種方法雖然創(chuàng)建維護(hù)比較復(fù)雜,但在處理海量數(shù)據(jù)時(shí)優(yōu)于正排索引。本文以子查詢?yōu)榛締卧瑯?gòu)建倒排索引。根據(jù)電子病歷的需求和數(shù)據(jù)的結(jié)構(gòu)特點(diǎn),設(shè)計(jì)倒排索引的數(shù)據(jù)結(jié)構(gòu)如表4所示。

3 實(shí)驗(yàn)分析

實(shí)驗(yàn)數(shù)據(jù)為某名老中醫(yī)診治兒童哮喘的3000份病歷,每次迭代包含4條數(shù)據(jù),總共訓(xùn)練10個(gè)epoch。

4 結(jié)論

針對(duì)目前中醫(yī)電子病歷中非結(jié)構(gòu)化數(shù)據(jù)檢索效率低的問題,本文引入依存關(guān)系分析,在此基礎(chǔ)上,篩選有效子查詢并創(chuàng)建倒排索引,最大程度還原語(yǔ)義的同時(shí)提高檢索效率。

實(shí)驗(yàn)表明,本文提出的基于注意力機(jī)制的依存關(guān)系挖掘網(wǎng)絡(luò)較傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在收斂速度和準(zhǔn)確率上都有提升,對(duì)依存關(guān)系進(jìn)行規(guī)約并創(chuàng)建倒排索引的檢索方式在數(shù)據(jù)容量以及檢索速度方面優(yōu)于傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)。本研究成果具有重要的理論研究意義和實(shí)際應(yīng)用價(jià)值,該方法可廣泛應(yīng)用于醫(yī)院信息系統(tǒng)及中醫(yī)藥大數(shù)據(jù)中心與云平臺(tái)領(lǐng)域。

參考文獻(xiàn)(References):

[1] 王群.我國(guó)醫(yī)療信息化現(xiàn)狀與趨勢(shì)分析研究[C]. SingaporeManagement and Sports Science Institute, Singapore、Information Technology Application Research Association, Hong Kong.Proceedings of 2017 2nd International Conference on Education Research and Reform (ERR 2017) V20.Singapore Management and Sports Science Institute, Singapore、Information Technology Application Research Association,Hong Kong:智能信息技術(shù)應(yīng)用學(xué)會(huì),2017:268-272

[2] 孟巖,羅德芳.基于臨床知識(shí)庫(kù)的電子病歷智能化應(yīng)用研究[J].中國(guó)衛(wèi)生信息管理雜志,2019.16(5):601-604

[3] Gao J,Xu G,Xu J.Query expansion using path-constrainedrandom walks[C] //Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval,ACM,2013:563-572

[4] Chang YC, Chen SM. A new query reweighting methodfor document retrieval based on genetic algorithms[J].IEEE Transactions on Evolutionary Computation,2006.10(5):617-622

[5] Cui H, Sun R, Li K, et al. Question answering passageretrieval using dependency relations[C]//International Acm Sigir Conference on Research & Development in Information Retrieval. ACM,2005:400-407

[6] 付鵬斌,陳帥帥,楊惠榮,李建君.結(jié)合依存關(guān)系與同義詞詞林的相似度計(jì)算[J/OL].計(jì)算機(jī)技術(shù)與發(fā)展,2020.1:1-8[2020-01-31].http://kns.cnki.net/kcms/detail/61.1450.TP.20190925.1523.042.html.

[7] 曾紅武,彭麗.基于本體的電子病歷后結(jié)構(gòu)化模型關(guān)鍵技術(shù)[J].中華醫(yī)學(xué)圖書情報(bào)雜志,2017.26(8):13-16

[8] 鞏沐歌. 基于本體的高血壓電子病歷知識(shí)庫(kù)研究[D].西安電子科技大學(xué),2010.

[9] Yaghoobzadeh Y, Schütze, Hinrich. Multi-level Repre-sentations for Fine-Grained Typing of Knowledge Base Entities[J]. 2017

[10] Eisner, Jason. Three New Probabilistic Models forDependency Parsing: An Exploration[J]. Computer Science,1997:340-345

[11] Kumaran G , Carvalho V R . Reducing Long QueriesUsing Query Quality Predictors[C]// Proceedings of the 32nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR 2009, Boston, MA, USA, July 19-23, 2009. ACM,2009.

猜你喜歡
方法
中醫(yī)特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數(shù)學(xué)教學(xué)改革的方法
化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學(xué)習(xí)方法
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡(jiǎn)單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 国产丝袜啪啪| 欧美日韩国产精品va| 色成人综合| 天天综合网色中文字幕| 精品撒尿视频一区二区三区| 欧美亚洲国产精品久久蜜芽| 激情视频综合网| 久久免费视频6| 免费黄色国产视频| 国产情侣一区| 国产精品成人第一区| 精品成人一区二区三区电影| 亚洲综合日韩精品| 免费一看一级毛片| 久久综合结合久久狠狠狠97色| 51国产偷自视频区视频手机观看| 无码人中文字幕| 青草免费在线观看| 在线观看免费AV网| 沈阳少妇高潮在线| 久久大香香蕉国产免费网站| 国产精品免费露脸视频| 一本大道无码高清| 中文无码日韩精品| 免费不卡在线观看av| 日本一本正道综合久久dvd| 国产精品无码一区二区桃花视频| 日本黄色不卡视频| 国产xx在线观看| 国产美女无遮挡免费视频网站| 亚洲成肉网| 亚洲天堂久久| 日韩无码黄色| 国产97公开成人免费视频| 久久久久免费看成人影片| 久操中文在线| 日韩精品毛片| 国产精品成人AⅤ在线一二三四 | 国产小视频在线高清播放 | 久久99国产精品成人欧美| 国产福利免费视频| 香蕉在线视频网站| 亚洲无码精品在线播放| 伊人成人在线视频| 综合色在线| 日韩区欧美区| 亚洲a免费| 欧美成人综合视频| 日韩AV无码免费一二三区| 一级毛片免费观看不卡视频| 国产免费久久精品99re不卡| 日韩av高清无码一区二区三区| 国产亚洲欧美另类一区二区| 久久久久久午夜精品| 国产乱人免费视频| 欧美精品成人| 小说区 亚洲 自拍 另类| 免费观看无遮挡www的小视频| 国产成人1024精品下载| 欧美在线一级片| 亚洲中文无码h在线观看 | 亚洲国模精品一区| 国产三区二区| 国产一区二区三区日韩精品| 亚洲视频免| www.亚洲一区| 欧美一级一级做性视频| 国产成年女人特黄特色毛片免| 国产黄色免费看| jizz在线免费播放| 影音先锋亚洲无码| 国产噜噜噜视频在线观看| 亚洲成人免费看| 欧美亚洲欧美| 青草91视频免费观看| 欧美日韩第三页| 国产区在线观看视频| 黄色网在线| 亚洲美女一区二区三区| 青草精品视频| 国产视频大全| 无码免费的亚洲视频|