999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于依存關(guān)系和倒排索引的中醫(yī)電子病歷檢索方法

2020-12-29 12:09:28郭坤丁有偉
計(jì)算機(jī)時(shí)代 2020年12期
關(guān)鍵詞:方法

郭坤 丁有偉

摘? 要: 醫(yī)療信息化背景下,依托大數(shù)據(jù)的智慧醫(yī)療成為研究熱點(diǎn),而電子病歷檢索作為中醫(yī)數(shù)據(jù)處理的基礎(chǔ)操作,其性能直接影響到上層統(tǒng)計(jì)分析和挖掘應(yīng)用的性能。目前中醫(yī)電子病歷采集和存儲(chǔ)尚未形成統(tǒng)一標(biāo)準(zhǔn),存在大量非結(jié)構(gòu)化數(shù)據(jù),基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的檢索方式已不再適用。文章提出一種基于依存關(guān)系和倒排索引的中醫(yī)電子病歷高效檢索方法,通過挖掘關(guān)鍵詞之間的依存關(guān)系,使用二元組表示,并為二元組建立倒排索引以提高檢索效率。該方法根據(jù)關(guān)鍵詞之間的依存關(guān)系重構(gòu)原文,創(chuàng)建倒排索引提高檢索性能,保證海量數(shù)據(jù)的高效訪問。

關(guān)鍵詞: 中醫(yī)電子病歷; 依存關(guān)系; 倒排索引; 結(jié)果重構(gòu)

中圖分類號(hào):TP391.1? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2020)12-56-04

Abstract: In the medical informatization, intelligent medical treatment relying on big data has become a research hotspot, and electronic medical record retrieval, as the basic operation of TCM data processing, directly affects the performance of upper statistical analysis and application. At present, the collection and storage of traditional Chinese medicine electronic medical records has not formed a unified standard. There are a lot of unstructured data, and the retrieval methods for traditional relational database are no longer suitable. This paper proposes an efficient retrieval method of TCM electronic medical records based on dependency relationship and inverted index. By mining the dependency relationship between keywords, using binary group to express, and building inverted index for the binary group to improve the retrieval efficiency. This method reconstructs the original text according to the interdependence of keywords, creates inverted index to improve the retrieval performance, which ensures the efficient access of mass data.

Key words: electronic medical records of Chinese medicine; dependency relationship; inverted index; result reconstruction

0 引言

隨著醫(yī)療信息化的不斷推進(jìn),臨床信息系統(tǒng)建設(shè)逐步完善。直到2014年,醫(yī)院臨床醫(yī)療管理信息化(CIS)系統(tǒng)在醫(yī)療信息化解決方案中占比44.4%,預(yù)計(jì)在2021年超過醫(yī)院管理信息化(HIS)的規(guī)模[1]。在人工智能,大數(shù)據(jù)應(yīng)用增加的背景下,中醫(yī)電子病歷已成為各類輔助系統(tǒng)和智能應(yīng)用的數(shù)據(jù)支撐[2],但如何高效利用臨床診療信息對(duì)數(shù)據(jù)擁有者和應(yīng)用開發(fā)者而言均是巨大的挑戰(zhàn)。

現(xiàn)有對(duì)電子病歷中非結(jié)構(gòu)化數(shù)據(jù)的檢索方法主要分為兩類:基于查詢重構(gòu)的方法和基于本體的方法。查詢重構(gòu)主要有兩種形式,一是關(guān)鍵詞拓展[3],即依托外部醫(yī)療知識(shí)為原檢索擴(kuò)展關(guān)鍵字,如UMLS、ICD-9編碼等。此類方法在實(shí)際應(yīng)用中效果不明顯,且容易發(fā)生查詢漂移的問題;二是關(guān)鍵詞權(quán)重調(diào)整[4],即在原查詢的基礎(chǔ)上,分析關(guān)鍵字在文檔中的貢獻(xiàn)度,查詢重構(gòu)本質(zhì)上是一種基于關(guān)鍵字的方法。而僅僅依賴關(guān)鍵詞作為檢索的標(biāo)準(zhǔn)則存在明顯的弊端。有研究認(rèn)為,關(guān)鍵字之間語(yǔ)法關(guān)系的缺失是造成文本匹配不準(zhǔn)確的重要原因[5]。許多不相關(guān)的文檔之間可能存在相同的關(guān)鍵字[6]。

基于本體的檢索方法通過定義專業(yè)詞匯和專業(yè)術(shù)語(yǔ),深層次地理解檢索對(duì)象。該方法在電子病歷檢索領(lǐng)域得到廣泛應(yīng)用。曾紅武等人[7]提出一種運(yùn)用模糊向量空間模型的概念,挖掘分析海量電子病歷,建立本體知識(shí)庫(kù),能夠高效識(shí)別病歷中疾病的診療模式和依據(jù)。鞏沐歌等人[8]結(jié)合高血壓診斷知識(shí)與本體庫(kù),構(gòu)造了高可用的高血壓電子病歷庫(kù)。但此類方法需要建造健全的本體庫(kù),這使得檢索的效果很大程度上依賴本體庫(kù)的質(zhì)量。

本文提出一種基于依存關(guān)系和倒排索引的中醫(yī)電子病歷檢索方法,提煉關(guān)鍵詞之間的依存關(guān)系,使用依存關(guān)系重構(gòu)原文,并在此基礎(chǔ)上創(chuàng)建倒排索引。該方法兼顧檢索結(jié)果的準(zhǔn)確性和數(shù)據(jù)存儲(chǔ)的高效性。

1 基于依存關(guān)系的中醫(yī)電子病歷核心語(yǔ)義提取

依存語(yǔ)法分析的目的是發(fā)掘復(fù)雜文本中關(guān)鍵詞之間的依存關(guān)系。本方法采用了注意力機(jī)和多層感知機(jī)作為實(shí)體關(guān)系的提取模型。模型包含輸入層,抽象層和輸出層。輸入層完成特征編碼,抽象層產(chǎn)生依存關(guān)系矩陣,輸出層解析依存關(guān)系矩陣得到依存關(guān)系向量。

1.1 輸入層

輸入層接受三種特征輸入,分別為詞嵌入,詞性和詞類。詞嵌入使用Word2Vec算法,設(shè)每個(gè)詞語(yǔ)256維;詞性和詞類使用人工標(biāo)注的方法,針對(duì)兒童哮喘病歷數(shù)據(jù),共使用7種詞性,5種詞類,如表1所示。

1.2 抽象層

抽象層由注意力機(jī)制和多層感知器組成,對(duì)模型輸入進(jìn)行深度抽象,最終得到依存矩陣。設(shè)存在句子[Sentence=word0,word1,word2,…,wordn],抽象層輸出依存矩陣[D=λ0,0…λ0,n???λn,0…λn,n],其中wordn表示句中第n個(gè)詞,[λx,y]表示[wordx]與[wordy]的依存值。

對(duì)于中醫(yī)病歷中非結(jié)構(gòu)化數(shù)據(jù),具有依存關(guān)系的關(guān)鍵詞并沒有固定的排列規(guī)則,這主要體現(xiàn)在兩個(gè)方面:①關(guān)鍵詞之間的語(yǔ)序不固定,即關(guān)鍵詞之間沒有嚴(yán)格的前后關(guān)系,這主要是由不同的書寫,記錄習(xí)慣導(dǎo)致;②關(guān)鍵詞之間的詞距不固定,尤其當(dāng)出現(xiàn)嵌套關(guān)系時(shí),相關(guān)聯(lián)的詞對(duì)可能距離較遠(yuǎn)。而注意力機(jī)制本身對(duì)位置信息不敏感,能很好地提取全局特征。

注意力機(jī)制本質(zhì)上可表示為一個(gè)查詢與一系列鍵值對(duì)的映射關(guān)系。

設(shè)A為注意力函數(shù),S為相似度函數(shù),存在一個(gè)查詢(query)和L組鍵值對(duì)(key, value),Source表示鍵值隊(duì)集合,i表示鍵值對(duì)的序號(hào),則注意力計(jì)算公式如下:

1.3 輸出層

輸出層解析依存矩陣得到依存向量。根據(jù)依存句法分析公理[9],在一個(gè)完整的語(yǔ)句中,任何一個(gè)詞語(yǔ)都不能依存于2個(gè)或2個(gè)以上的其他詞語(yǔ),進(jìn)而在依存向量中每一個(gè)值可以表示為依存對(duì)象在句中的索引。

輸出層主要采用Esiner算法[10],Esiner算法在每一個(gè)間隔[s,t]計(jì)算最佳結(jié)果。s表示左界的索引t法表示右界的索引且s和t中至少有一個(gè)是頭節(jié)點(diǎn)。

該算法以哈希表為基本數(shù)據(jù)結(jié)構(gòu),以間隔[s,t]為鍵,數(shù)值分為兩類,即L(頭節(jié)點(diǎn)在s處)和R(頭節(jié)點(diǎn)在t處)。實(shí)際計(jì)算中考慮四種情況,如表2所示。

1.4 依存向量轉(zhuǎn)子查詢

依據(jù)依存向量將原始語(yǔ)句分解成多個(gè)子查詢,子查詢記錄成二元組的形式。首部為核心詞,尾部為依存詞。設(shè)對(duì)于句子[e0,e1,e2,e3]有依存向量[-1,0,-1,2T],則可以拆分為子查詢集[e0,e1,e2,e3]。表3所示依存向量轉(zhuǎn)子查詢的實(shí)例,該文本包含18個(gè)關(guān)鍵詞,其依存矩陣為D18x18,解析后得到維度為18的依存向量。

在眾多子查詢中,并非每一個(gè)都需要作為檢索特征,過多地引入非關(guān)鍵子查詢反而會(huì)降低查詢地精度。找出關(guān)鍵子查詢可以大大優(yōu)化檢索效率和準(zhǔn)確度[11]。本文篩選出有效的子查詢,例如藥劑與服用量,病癥與患病程度。

2 基于倒排的索引創(chuàng)建

正排索引為整個(gè)文檔創(chuàng)建索引,并記錄下文檔中詞語(yǔ)的詞性、詞頻等信息。該方法優(yōu)點(diǎn)在于創(chuàng)建簡(jiǎn)單,易于后期維護(hù);缺點(diǎn)表現(xiàn)為,查詢時(shí)需要依次掃描所有文檔,效率低下。倒排索引為文檔中每一個(gè)關(guān)鍵字創(chuàng)建索引。這種方法雖然創(chuàng)建維護(hù)比較復(fù)雜,但在處理海量數(shù)據(jù)時(shí)優(yōu)于正排索引。本文以子查詢?yōu)榛締卧瑯?gòu)建倒排索引。根據(jù)電子病歷的需求和數(shù)據(jù)的結(jié)構(gòu)特點(diǎn),設(shè)計(jì)倒排索引的數(shù)據(jù)結(jié)構(gòu)如表4所示。

3 實(shí)驗(yàn)分析

實(shí)驗(yàn)數(shù)據(jù)為某名老中醫(yī)診治兒童哮喘的3000份病歷,每次迭代包含4條數(shù)據(jù),總共訓(xùn)練10個(gè)epoch。

4 結(jié)論

針對(duì)目前中醫(yī)電子病歷中非結(jié)構(gòu)化數(shù)據(jù)檢索效率低的問題,本文引入依存關(guān)系分析,在此基礎(chǔ)上,篩選有效子查詢并創(chuàng)建倒排索引,最大程度還原語(yǔ)義的同時(shí)提高檢索效率。

實(shí)驗(yàn)表明,本文提出的基于注意力機(jī)制的依存關(guān)系挖掘網(wǎng)絡(luò)較傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在收斂速度和準(zhǔn)確率上都有提升,對(duì)依存關(guān)系進(jìn)行規(guī)約并創(chuàng)建倒排索引的檢索方式在數(shù)據(jù)容量以及檢索速度方面優(yōu)于傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)。本研究成果具有重要的理論研究意義和實(shí)際應(yīng)用價(jià)值,該方法可廣泛應(yīng)用于醫(yī)院信息系統(tǒng)及中醫(yī)藥大數(shù)據(jù)中心與云平臺(tái)領(lǐng)域。

參考文獻(xiàn)(References):

[1] 王群.我國(guó)醫(yī)療信息化現(xiàn)狀與趨勢(shì)分析研究[C]. SingaporeManagement and Sports Science Institute, Singapore、Information Technology Application Research Association, Hong Kong.Proceedings of 2017 2nd International Conference on Education Research and Reform (ERR 2017) V20.Singapore Management and Sports Science Institute, Singapore、Information Technology Application Research Association,Hong Kong:智能信息技術(shù)應(yīng)用學(xué)會(huì),2017:268-272

[2] 孟巖,羅德芳.基于臨床知識(shí)庫(kù)的電子病歷智能化應(yīng)用研究[J].中國(guó)衛(wèi)生信息管理雜志,2019.16(5):601-604

[3] Gao J,Xu G,Xu J.Query expansion using path-constrainedrandom walks[C] //Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval,ACM,2013:563-572

[4] Chang YC, Chen SM. A new query reweighting methodfor document retrieval based on genetic algorithms[J].IEEE Transactions on Evolutionary Computation,2006.10(5):617-622

[5] Cui H, Sun R, Li K, et al. Question answering passageretrieval using dependency relations[C]//International Acm Sigir Conference on Research & Development in Information Retrieval. ACM,2005:400-407

[6] 付鵬斌,陳帥帥,楊惠榮,李建君.結(jié)合依存關(guān)系與同義詞詞林的相似度計(jì)算[J/OL].計(jì)算機(jī)技術(shù)與發(fā)展,2020.1:1-8[2020-01-31].http://kns.cnki.net/kcms/detail/61.1450.TP.20190925.1523.042.html.

[7] 曾紅武,彭麗.基于本體的電子病歷后結(jié)構(gòu)化模型關(guān)鍵技術(shù)[J].中華醫(yī)學(xué)圖書情報(bào)雜志,2017.26(8):13-16

[8] 鞏沐歌. 基于本體的高血壓電子病歷知識(shí)庫(kù)研究[D].西安電子科技大學(xué),2010.

[9] Yaghoobzadeh Y, Schütze, Hinrich. Multi-level Repre-sentations for Fine-Grained Typing of Knowledge Base Entities[J]. 2017

[10] Eisner, Jason. Three New Probabilistic Models forDependency Parsing: An Exploration[J]. Computer Science,1997:340-345

[11] Kumaran G , Carvalho V R . Reducing Long QueriesUsing Query Quality Predictors[C]// Proceedings of the 32nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR 2009, Boston, MA, USA, July 19-23, 2009. ACM,2009.

猜你喜歡
方法
中醫(yī)特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數(shù)學(xué)教學(xué)改革的方法
化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學(xué)習(xí)方法
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡(jiǎn)單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 亚洲欧美精品日韩欧美| 青草精品视频| 玖玖精品在线| 中文国产成人精品久久一| a级免费视频| 久久一本精品久久久ー99| 久久精品免费国产大片| 久久久精品国产亚洲AV日韩| 亚洲国产日韩在线成人蜜芽| 国产v精品成人免费视频71pao | 国产在线麻豆波多野结衣| 国内精品小视频在线| 欧美中出一区二区| 国产女人综合久久精品视| 多人乱p欧美在线观看| 国产永久在线观看| 成人国产精品一级毛片天堂| 国产一级毛片yw| 色爽网免费视频| 亚洲三级电影在线播放| 91午夜福利在线观看| 国产在线精品网址你懂的| 天堂中文在线资源| 成AV人片一区二区三区久久| 国产丰满成熟女性性满足视频| 久久99国产乱子伦精品免| 欧美亚洲日韩不卡在线在线观看| 亚洲av无码成人专区| 91久久国产热精品免费| 亚洲综合亚洲国产尤物| 亚洲欧美精品在线| 欧美激情第一欧美在线| 久久精品嫩草研究院| 中文字幕va| 99久久免费精品特色大片| 国产第一色| 国产精品任我爽爆在线播放6080 | 999精品色在线观看| 一级成人a毛片免费播放| 91精品免费高清在线| 一级毛片免费高清视频| 亚洲中文字幕无码爆乳| 久久77777| 久久夜夜视频| 久久国产成人精品国产成人亚洲| 91黄色在线观看| 国产成人久久综合一区| 成人一级黄色毛片| 欧美翘臀一区二区三区| 性激烈欧美三级在线播放| 亚洲欧美日韩成人在线| 久996视频精品免费观看| 99色亚洲国产精品11p| 亚洲第一页在线观看| 亚洲天堂高清| 亚洲娇小与黑人巨大交| 欧美日韩国产综合视频在线观看| 亚洲青涩在线| 久久黄色一级视频| 国产av一码二码三码无码| 日韩无码精品人妻| 国产成人综合久久精品下载| 久热这里只有精品6| 特级做a爰片毛片免费69| 国产精品国产三级国产专业不| 欧美日韩一区二区在线免费观看| 午夜视频www| 91精品专区| 亚洲欧美成人综合| 亚洲av无码牛牛影视在线二区| 成人在线综合| 人妻精品久久无码区| 中字无码精油按摩中出视频| 国产香蕉在线| 一级一级一片免费| 免费xxxxx在线观看网站| 免费无码又爽又刺激高| 亚洲v日韩v欧美在线观看| 亚州AV秘 一区二区三区| 亚洲天堂成人在线观看| 日韩免费中文字幕| 爱爱影院18禁免费|