999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

病歷數據挖掘技術的應用研究*

2021-03-11 13:26:12陳小文唐翠娥
科學與信息化 2021年6期
關鍵詞:深度模型

陳小文 唐翠娥

貴州醫科大學 計算機教育與信息技術中心 貴州 貴陽 550025

引言

電子病歷(Electronic Medical Record,EMR)是醫務人員在醫療活動過程中形成的電子化病人記錄,是現代醫院診療、科研及管理工作所必需的重要臨床信息資源[1],其蘊含了大量的、準確的詳細的患者的醫療信息。通過對住院電子病歷完成知識分析和實體識別,準確提取患者各項醫療信息,可幫助醫學研究者構建臨床決策支持系統,減少個人的醫療失誤問題。文獻[2]提出了一種基于雙向長短時記憶網絡與 CRF(conditional random field)結合的實體識別和實體關系抽取方法,對識別結果知識圖譜化。文獻[3]提出了基于bootstrapping的識別算法和基于條件隨機場的識別算法,有效地提高了條件隨機場識別結果的準確率、召回率和F1值。利用快速樹算法降低了抽取算法的時間復雜度,獲得了標準樹片段庫和局部樹片段庫;提出了啟發式和機器輔助的方法來解決數據不一致問題;提出了一種基于多特征和CRF相結合的命名實體識別方法,利用分層融合聚類的方法對存儲庫中從未出現的實體進行聚類;提出了一種基于卷積神經網絡的多類別分類方法,用于從EMR中挖掘命名實體;設計了病歷數據到RDF三元組格式的轉化方案和存儲方案,提高了數據檢索速度,同時避免空值所導致的問題。采用否定術語對中文電子病歷進行檢測,降低了標點錄入錯誤而出現假陽性術語的概率。提出了改進后的逆向最大匹配算法,提高了分詞準確度和分詞效率。分別采用C4.5、BP對腫瘤病歷數據進行了分類實驗,結果表明:C4.5算法更有利于輔助醫生進行腫瘤疾病診斷。針對國際疾病分類標簽提出端到端的深度學習方法,在分類性能上有顯示的提升。

1 數據提取與模型描述

病歷文本數據中包含了非常重要的醫療信息,通過對住院電子病歷完成知識分析和實體識別,準確提取患者各項醫療信息,可協助醫學研究者構建臨床決策支持系統,幫助醫生解決知識上的局限性問題,從而減少個人的醫療診斷失誤。借鑒OEM(Object Exchange Model)模型描述方式,采取四元組(oid,label,type,value)來表示,type可為原子型也可為集合,value表示具體的值。其結果如圖1所示。

圖1 病歷基本信息模型圖

病歷文本數據以半結構化數據居多,構建病歷文本數據提取和分類規則,將非結構化、半結構化的數據轉換成可挖掘的結構化數據,并創建數據模型結構化模型M={N,F,I,P,D},其中N為當前病史集合、F為既往史集合、I為人個史集合、P則為體格檢查集合,D為診斷結果集合。其中N={惡心、嘔吐,頭昏,畏光、畏聲,頭痛,乏力及麻木,大小便異常,體重明顯增減},F={傷寒、結核,肝炎,糖尿病,高血壓,冠心病,中毒史,過敏史},I={吸煙,戒煙,飲酒},P={體溫,呼吸,脈搏,血壓},D={腦供血不足,腦出血,腦梗,緊張性頭痛,神經癥焦慮,椎基底動脈供血不足,帕金森病,前庭神經元炎,后循環缺血,良性位置性眩暈}。

2 數據預處理

電子病歷中包含的醫療信息十分豐富,借助數據分割提取從Word文件中提取相應的關鍵信息,按患者基本信息模型進行數據關聯與存儲,并將最終生成的二維表以EXCEL格式導出,項目組累計完成384份神經內科住院電子病歷數據提取工作,依據診斷結果進行分類匯總,其中腦供血不足113份、腦梗89份、緊張性頭痛67份、腦出血28份、后循環缺血23份、神經癥焦慮狀態19份、良性位置性眩暈18份、帕金森氏病11份、椎基底動脈供血不足8份、前庭神經元炎7份。在數據預處理階段進缺失數據記錄進行補充或丟棄,針對缺少5項以下的數據記錄采取填充眾數的方式進行補充,對缺失5個及以上數據項的記錄進行丟棄處理。為避免數據提取的數據類型異常而導致的錯誤,將所有的對象數據編碼成數值型。考慮到病歷數據的特征以文本形式呈現且跨度大,特將所有數據進行標準化處理,并統一到0~1范圍內。

3 算法分析

挖掘算法直接影響實驗數據的結果,依據病歷文本數據的自身特征、數據項,選擇合適的算法進行數據挖掘、分析尤為重要。在前期算法調整階段設定驗證集的比例為10%,等待超參數調整結束并穩定后,訓練與驗證數據的比例分別為80%和20%。實驗所采用的處理器為Intel(R) i5-8250U 1.8GHz 4核 8個邏輯處理器,內存24G。

3.1 決策樹

決策樹是一個預測模型,它是對象屬性與對象值之間的一種映射關系。決策樹是一種樹型結構,每個葉子代表一種類型。決策樹能直接體現數據,而且能夠同時處理數據型和常規則屬性,相對較為易于理解和實現。設置起始深度為1、終止深度為15、深度探索步長為4進行模型訓練與測試,模型訓練與測試花費130ms,其測試結果為51.04。在對超參數進行調整后,測試結果波動較小。由模型結果而知,當深度為4時能獲取最大的準確率。

圖4 深度學習結果趨勢圖

3.2 深度學習

深度學習是學習樣本數據的內在規律和表示層次,最終目標是讓機器能夠像人一樣具有分析學習能力,能夠識別文字、圖像和聲音等數據。借助深度學習模型對病歷數據進行訓練與測試。以batch_size=8進行200輪訓練,其訓練與測試結果如下圖所示,模型訓練與測試花費63000ms(每輪315ms),其測試結果為57.29。深度學習運行結果如圖4所示。

3.3 隨機森林

隨機森林利用多棵樹對樣本進行訓練并預測的一種分類器,其利用平均決策樹可降低過擬合的風險性。其分類性能非常穩定,當半數以上的基分類器出現差錯時才會導致錯誤的預測。隨機森林的算法較為復雜,對其模型訓練和測試的成本相對較高。模型訓練與測試花費0.92秒,其測試結果為65.62。

3.4 實驗小結

深度學習、決策樹、隨機森林三種算法的執行時間、測試結果如下表1所示。在算法執行性能上,決策樹的執行時間最短,測試結果得分近為51.04。深度學習的執行時間是決策樹的2.42倍,在測試結果方面提高了6.25。隨機森林的執行時間是920ms,模型的執行時間為決策樹的7.07倍,在測試結果方面相比決策樹和嘗試學習分別提高了14.58和8.33。

表1 分類實驗性能與結果對比

4 實驗小結

在電子病歷挖掘過程中有兩個重要的步驟:①從半結構化、非結構化的電子病歷中提取相應的現病史、既往史、個人史、體格檢查等重要信息,病歷數據特征的提取質量直接影響到后續的數據挖掘的質量和執行速度。②挖掘算法的選取,通過對三種不同挖掘算法測試結果可知:隨機森林準確率較高65.62,但耗時相對較高。后續研究將改進數據提取的算法和挖掘算法數據結構。

猜你喜歡
深度模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
深度觀察
深度觀察
深度觀察
深度觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 久久五月视频| 在线欧美日韩| 亚洲区视频在线观看| 1024你懂的国产精品| 五月激激激综合网色播免费| 狠狠色狠狠综合久久| 97se亚洲综合在线天天 | 欧美福利在线观看| 欧美色香蕉| 国产一级毛片高清完整视频版| 国产又粗又猛又爽| 国产女人在线视频| 国产成人精品高清不卡在线| 亚洲无线观看| 性视频久久| 极品私人尤物在线精品首页 | 国内毛片视频| 中文字幕免费播放| 亚洲激情区| 三上悠亚在线精品二区| 久久精品人人做人人爽| 热这里只有精品国产热门精品| 色哟哟国产精品| 国产欧美日韩综合一区在线播放| 欧美亚洲国产视频| 亚洲中文字幕在线精品一区| 精品国产99久久| 中文字幕在线免费看| 伊人久久综在合线亚洲2019| 熟妇丰满人妻av无码区| 青草视频在线观看国产| 韩日午夜在线资源一区二区| 大陆国产精品视频| 欧美日韩激情| 香蕉网久久| 免费全部高H视频无码无遮掩| 欧美成人精品高清在线下载| 五月六月伊人狠狠丁香网| 久久亚洲日本不卡一区二区| 欧美午夜在线观看| 国产欧美高清| 激情国产精品一区| 91免费国产在线观看尤物| 欧美在线观看不卡| 国产极品美女在线观看| 国模私拍一区二区| 99视频在线免费看| 97国产在线视频| 日韩精品久久无码中文字幕色欲| 国产日韩欧美在线播放| 在线精品视频成人网| 色一情一乱一伦一区二区三区小说 | 久久五月天国产自| 久久精品国产91久久综合麻豆自制| 久久综合色天堂av| 成人福利在线免费观看| 中文字幕亚洲第一| 色综合天天娱乐综合网| 国产极品粉嫩小泬免费看| 午夜激情婷婷| 国产在线精品网址你懂的| 九九九九热精品视频| 久久久久人妻一区精品| 欧美三級片黃色三級片黃色1| 免费无码又爽又黄又刺激网站 | 91国内在线视频| Jizz国产色系免费| 国模沟沟一区二区三区| 亚洲中文字幕久久无码精品A| 色精品视频| 5555国产在线观看| 99视频只有精品| 亚洲成人黄色在线| 亚洲无码37.| 狼友视频一区二区三区| 亚洲精品麻豆| 亚洲乱码视频| 在线欧美a| 一级看片免费视频| 福利在线免费视频| 中文天堂在线视频| 亚洲精品卡2卡3卡4卡5卡区|