999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于堆積策略的電子病歷實體識別

2014-04-29 04:53:24鄧本洋等
智能計算機與應用 2014年1期
關鍵詞:電子病歷

鄧本洋等

摘要:隨著各國政府對健康醫療信息系統的投入,電子病歷信息挖掘得到越來越多學者的關注。與傳統的文本相比,電子病歷有其自身的特點.。在2010年i2b2舉辦的評測中,概念抽取任務最好系統的F值為0.8523,與傳統的命名實體識別效果有一定差距。使用了CRF、最大熵兩種模型建立了baseline系統并且使用堆積策略綜合兩者的結果,使得系統的F值達到了91.1%。

關鍵詞:電子病歷; 實體識別; 堆積策略

中圖分類號:TP391 文獻標識碼:A文章編號:2095-2163(2014)01-0069-04

0引言

電子病歷(electronic medical records,EMR)是電子化的醫療記錄,能夠為健康管理提供信息處理相關工具[1]。隨著各國政府對健康醫療信息系統的大力投入,電子病歷信息挖掘已得到愈益廣泛學者的高度關注。電子病歷中蘊含的知識能夠應用在醫療診斷、醫療問答和制定用戶健康計劃等眾多領域中。實體識別作為信息處理的基礎模塊,在電子病歷的信息挖掘中不可或缺、至關重要。

實體通常是由一個到多個詞組成的一類名詞短語,在MUC[2,3]、ACE[4]和CoNLL[5]普及的實體識別任務中,實體通常包括人名、地名、機構名稱等。命名實體識別(Named Entity Recognition, NER)在MUC6上首次正式提出,并包含如下子類:名稱類,包含人名(包括人名的縮寫)、地名、機構名;時間類,指純粹的時間短語;數字類,包含貨幣和純數字。如今,實體范圍得到進一步擴展,覆蓋了很多領域的常見概念,例如疾病名稱、刊物名稱、體育運動名稱等。在ACE關系抽取評測任務中,實體類別已擴展到一百多種。

電子病歷實體識別要求在未標注的病歷數據上識別并輸出疾病、治療、診斷相關的概念。通用領域命名實體研究時間較長,并且由于名稱類、時間類和數字類實體在結構、命名規則等方面有一定的規律,同時可用標注語料儲備豐富,系統的準確率和召回率可達到90%以上,近乎可用的水平。電子病歷中的實體有其自身的特點,從2010年i2b2評測[6]的結果上看,最優系統[7]的F值(系統性能指標)為0.852 3,與通用領域命名實體識別存在較大的差距。電子病歷中實體識別的難度主要有以下幾個方面的原因:實體數量多,現有可用的詞典、本體庫等資源不能提供充足的信息;標注語料少,由于涉及到用戶的隱私,公開可用的電子病歷資源也很少見;詞形復雜,電子病歷中疾病、藥物的縮寫詞、同義詞很常見,給實體識別帶來一定的難度;實體劃分標準歧義,例如電子病歷中的檢查和藥物經常出現分類錯位。

多分類器組合策略在眾多領域均被證明是行之有效的,其中的堆積算法(stacking)適用于所有的分類問題[8]。stacking方法尤其適用于整合多個不同學習方法的預測結果,從而充分利用每個分類器的優點以提高組合分類器的識別效果。本文在stacking策略的框架下,綜合CRF模型和最大熵模型預測的結果,以提高電子病歷實體識別效果。

本文的結構安排如下:第一部分引言;第二部分相關工作,主要介紹相關評測及電子病歷實體識別已有的研究成果;第三部分有監督電子病歷實體識別,描述了本文在實體識別中選用的特征和模型;第四部分堆積算法介紹,對堆積算法進行了詳細的分析;第五部分實驗結果,對比了堆積算法和baseline系統的結果;最后給出結論和未來展望。

1相關工作

隨著i2b2評測的逐年舉辦,帶標注的電子病歷語料開始公開。一般情況下,機器學習模型的效果將隨著標注語料規模的增大而趨于明顯,同時統計方法受數據的不均勻性影響比較大,例如詞匯的多樣化、書寫風格迥異等。在2010 i2b2/VA challenge中,效果比較好的系統選擇的模型都是CRF[6]。Gurulingappa等[9]在模型訓練的時候,擴展文本特征來提高實驗的效果,并且輸出階段采用規則對實體規范化;Roberts[10]將實體識別劃分為兩個階段,第一階段對實體邊界進行識別,第二階段對提取的實體組進行分類;Bruijn等[7]在常用特征的基礎上,充分利用了現有醫療資源cTASKS、UMLS和ConText等中的信息擴展特征,并且使用詞聚類算法增加低頻詞識別的準確率,系統最后的F值0.852 3,排在評測榜第一位。其他系統采用的方法類似,大多基于已有的命名實體識別系統,并且充分利用現有知識庫。

統計學習方法未獲得令人滿意的結果,原因可能如下:抽取的特征不能有效地表示命名實體;單個算法無法達到最佳性能。本文在基于CRF和最大熵模型的基礎上,使用堆積策略(stacking)提高電子病歷中概念抽取的準確率。堆積方法適用于整合多個不同學習方法的預測結果,通過充分利用每個分類器的優點來提高組合分類器的識別效果。CRF模型在實體邊緣識別上優于最大熵模型,同時最大熵模型的分類結果又可以提高CRF序列化標注的準確性,實驗表明堆積策略可以顯著提高電子病歷中實體識別的效果。第1期鄧本洋,等:基于堆積策略的電子病歷實體識別智能計算機與應用第4卷

2有監督電子病歷實體識別

近20年來,統計學習方法在理論和應用上都得到了可觀的進步和發展。在自然語言處理領域,統計學習方法更在分詞、詞形標注、句法分析等各個任務上都獲得了不可小覷的優異成果。使用統計機器學習方法實現建模主要有兩個關鍵的步驟:首先是選取能夠表示隨機過程的特征,然后是模型的選擇。電子病歷實體識別任務中選取的特征如表1所示。

由表1可見,其中大多為二元特征。在詞特征中,詞形特征表示構成詞的基本字符集合,具體構造方法為:小寫字母串替換為a,大寫英文串替換為A,數字串全部替換為0,例如2017-06-17變為0-0-0。針對電子病歷的特點,同時引入句子特征和段落特征:是否以冒號結尾、時態、標題、次標題。標題特征為以冒號結尾的行,并且該行只有一個句子,即電子病歷中段落分割的標志。次標題特征指的是距離當前行最近的冒號之前的詞短語,次標題中的冒號可能出現在句中。此外,還引入了醫療資源UMLS[11]和DrugBank[12]以查詢病歷中名詞是否屬于已定義的語義類型,并且引入語義分布的特征以提高實驗的效果。

5結束語

作為信息處理的基礎技術,實體識別在電子病歷應用中扮演著重要角色。本文針對電子病歷實體識別任務,基于最大熵模型和CRF模型實現了兩個基礎系統,并在此基礎上使用堆積策略融合了兩個分類器的結果,實驗表明融合分類器的方法獲得的改進效果十分明顯。電子病歷蘊含了豐富的醫學專業知識,實體識別技術僅挖掘出了其中的名詞信息。為了將電子病歷更寬泛地應用在醫療、生活等方面,后續的研究將包括關系抽取、時序關系抽取、事件抽取等。

參考文獻:

[1]HANNAN T J. Electronic medical records[J]. Health Informatics: An Overview, 1996: 133-148.

[2]GRISHMAN R, SUNDHEIM B. Message understanding conference-6: A brief history[C]//Proceedings of COLING. 1996, 96: 466-471.

[3]CHINCHOR N. Overview of MUC-7.[C]//Proceedings of the Seventh Message Understanding Conference(MUC-7). 1998: 178-185.

[4]DODDINGTON G, MITCHELL A, PRZYBOCKI M, et al. The automatic content extraction(ACE) program-tasks, data, and evaluation[C]// Proceedings of LREC, 2004, 4: 837-840.

[5]SANG E F T K, DE MEULDER F. Introduction to the CoNLL-2003 shared task: Language independent named entity recognition[C]//Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Vulume4. Association for Computational Linguistics, 2003: 142-147.

[6]UZUNER O, SOUTH B R, SHEN S, et al. 2010 i2b2/VA challenge on concepts, assertions, and relations in clinical text[J]. Journal of the America Medical Informatics Association, 2011, 18(5): 552-556.

[7]DE BRUIJN B, CHERRY C, KIRITCHENKO S, et al. Machine-learned solutions for three stages of clinical information extraction: the state of the art at i2b2 2010[J]. Journal of the American Medical Informatics Association, 2011, 18(5):777-562.

[8]SIGLETOS G, PALIOURAS G, SPYROPOULOS C D, et al. Combining information extraction systems using voting and stacked generalization[J]. The Journal of Machine Learning Research, 2005, 6: 1751-1782.

[9]GURULINGAPPA H, HOFMANN-APITIUS M, FLUCK J. Concept identification and assertion classification in patient health records[C]// Proceedings of the 2010 i2b2/VA Workshop on Challenges in Natural Language Processing for Clinical Data. Boston, MA, USA: i2b2. 2010.

[10]ROBERTS K, RINK B, HARABAGIU S. Extraction of medical concepts, assertions, and relations from discharge summaries for the fourth i2b2/VA shared task[C]// Proceedings of the 2010 i2b2/VA Workshop on Challenges in Natural Language Processing for Clinical Data. Boston, MA, USA: i2b2. 2010.

[11]LINDBERG D A, HUMPHREYS B L, MCCRAY A T. The Unified Medical Language System[J]. Methods of information in medicine, 1993, 32(4): 281.

[12]OVERINGTON J P, AL-LAZIKANI B, HOPKINS A L. How many drug targets are there?[J]. Nature reviews Drug discovery, 2006, 5(12): 993-996.

猜你喜歡
電子病歷
云計算平臺下的電子病歷系統安全管理
電子病歷保全與認證研究
法制博覽(2016年12期)2016-12-28 13:05:51
基于病種的全結構化病歷模板研發與應用
現階段電子病歷問題的探討及改革
不同質控方法在病案質量控制中的應用效果
基于HDFS的分布式區域電子病歷存儲策略
軟件導刊(2015年6期)2015-06-24 12:58:39
主站蜘蛛池模板: 国产大片喷水在线在线视频| 免费看久久精品99| 波多野结衣在线一区二区| 欧美综合区自拍亚洲综合天堂| 美女国产在线| 亚洲av无码牛牛影视在线二区| 日本在线欧美在线| 久久男人视频| 亚洲综合狠狠| 亚洲AV人人澡人人双人| 啊嗯不日本网站| 国产一区二区丝袜高跟鞋| 天堂在线www网亚洲| av在线无码浏览| 亚洲精品久综合蜜| 色综合a怡红院怡红院首页| 亚洲日本韩在线观看| 国产黄色片在线看| 日韩美毛片| 国产jizz| 美女被躁出白浆视频播放| 91精品国产一区| 亚洲乱码在线播放| 国产亚洲高清在线精品99| 国产人成乱码视频免费观看| 欧美色视频日本| 黄色网页在线播放| 亚洲精品第五页| 午夜视频www| 成人一区专区在线观看| 亚洲无限乱码| 国产一区二区三区日韩精品| 亚洲午夜福利精品无码| 伊人色婷婷| 超碰精品无码一区二区| 亚洲日韩AV无码精品| 国产女人综合久久精品视| 久久夜色撩人精品国产| 伊人91在线| 亚洲国产天堂在线观看| 无码国产伊人| 97国产成人无码精品久久久| 午夜一级做a爰片久久毛片| 日韩福利在线观看| 国产va免费精品| 欧美精品v欧洲精品| 日韩专区第一页| 伊人久久福利中文字幕| 久久黄色视频影| 久热中文字幕在线观看| 国产精品无码AV片在线观看播放| 91外围女在线观看| 色悠久久久| 十八禁美女裸体网站| 国产视频一区二区在线观看| 片在线无码观看| www中文字幕在线观看| 亚洲成在线观看| 中文字幕在线不卡视频| 一本大道香蕉久中文在线播放| 91在线精品麻豆欧美在线| 91成人在线免费视频| 亚洲三级影院| 久久久国产精品无码专区| 波多野结衣无码中文字幕在线观看一区二区| 91亚瑟视频| 亚洲天堂色色人体| 国产精品19p| 丰满人妻久久中文字幕| 欧美日韩亚洲国产| 日本高清视频在线www色| 青青青草国产| 国产人成在线视频| 国产伦精品一区二区三区视频优播 | 在线日韩日本国产亚洲| 免费一级无码在线网站 | 日本91视频| 精品1区2区3区| 国产视频大全| 亚洲欧洲日产无码AV| 亚洲色精品国产一区二区三区| 亚洲欧洲日产无码AV|