999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據歷史醫療檔案檢索系統的設計與應用分析

2019-03-25 03:57:44亓曉芳楊凌燕
中國醫學裝備 2019年3期
關鍵詞:系統

亓曉芳 楊凌燕

醫療檔案作為記錄患者從出生到死亡的所有生命體征的變化,以及自身所從事過的與健康相關的一切行為與事件的檔案,其內容主要包括患者生活習慣、既往病史、診治情況、家族病史、現病史、體檢結果及疾病過程記錄等。醫療檔案具有即時性、碎片化、非結構化、數據量大、結構復雜、來源多樣等特點。隨著信息化、物聯網技術的發展,特別是自動化采集技術在臨床的廣泛采用,醫療檔案數據呈現暴增趨勢,且來源于不同的業務系統。傳統的檢索技術難以滿足海量數據實時檢索的功能需求,醫療檔案大數據檢索技術研究具有較大的現實需求。

隨著分布式存儲、內存計算、云計算等大數據管理技術的發展及應用,基于分布式檢索技術構建海量數據管理系統逐漸成為研究及應用的熱點,目前已應用于圖書管理、科研管理等領域。本研究基于構建醫療檔案檢索系統,著力解決當前存在的海量醫療檔案數據檢索效率低下的技術問題,完善數據管理功能,進而為數據應用及挖掘分析提供支持,實現醫療檔案數據管理標準化、自動化[1-2]。

1 大數據歷史醫療檔案檢索研究現狀

1.1 需求分析

大數據歷史醫療檔案檢索系統能夠整合不同業務系統存儲及組織管理形式,構建海量數據存儲,實現數據采集、整理及存儲等基礎功能,降低檔案數據采集的復雜性,增強系統可擴展性,并在此基礎上構建醫療檔案檢索系統,實現跨業務系統檔案數據關聯檢索、數據挖掘等功能,提高數據利用效率[3]。實現檔案數據價值從檔案數據本身變為檔案數據深層挖掘以及數據組合;檔案采集從被動的數據收集變為主動檔案數據抽取;檔案管理從檔案記錄管理變為海量數據集合管理;檔案服務從被動式滿足臨床查詢需求變為主動式服務提供,內容從查詢擴展到統計、建模等多項內容。

1.2 數據采集與集成

(1)數據采集。數據資源采集技術是實現醫療檔案數據管理的基礎,建立數據采集機制是構建檔案數據采集組織模式的重要前提,實現多接口數據對接、檔案數據抽取、清洗轉換及數據加載過程,即從各個不同的數據源抽取到數據存儲(operational data store,ODS)中,完成數據采集過程[4]。

(2)數據集成。大數據環境下,數據集成是醫療檔案數據管理需要解決的首要問題。由于各個業務系統間缺乏直接數據關聯,無法構建數據集合,從而限制了數據規模的增長[5]。同時,醫療機構內業務系統間無法形成數據交換。

1.3 信息提供

在大數據環境下,醫療業務系統間實現了數據連接及共享,為更高層次的數據應用創造了條件。醫療檔案信息從提供檔案數據本身變為檔案數據深層挖掘以及數據組合,即轉變原有管理模式,將直接數據查詢轉變為數據關聯分析,加速檔案信息一體化進程[2]。

1.4 海量數據存儲

在大數據時代,醫療檔案數據急劇增長,既包括結構化記錄又包括了大量非結構數據。如何遷移業務系統數據,實現海量數據的集中存儲,動態分配存儲資源,降低數據管理的復雜性,提高存儲資源的利用率,并增強各業務系統的可擴展性,保障各業務工作的連續性和數據安全性,成為當前面臨的重要問題[4]。

1.5 數據檢索

隨著業務系統的整合,醫療檔案數據量急劇增長,原有的醫療檔案信息檢索方法已經無法適應當前需求,需要提升檢索算法效率,提升數據檢索的響應速度[4]。

1.6 數據統計分析

醫療檔案數據不僅數據量劇增,信息復雜度也逐漸提高,既增加了檔案存儲的難度,又帶來了數據分析的新需求。采用大數據技術,可針對海量數據進行統計、分類、聚類、回歸以及協同過濾等操作,分析數據特征,挖掘應用價值,達到提高數據集的利用率的目的。

2 大數據歷史醫療檔案檢索系統設計

2.1 系統結構

大數據歷史醫療檔案檢索系統將不同業務系統中結構化數據經抽取轉換加載(extract transform load,ETL)過程關聯裝配后存儲到關系型數據庫系統,獨立文檔等存儲入Hadoop分布式文件系統(Hadoop distributed file system,HDFS)后經分詞處理后生成關鍵詞庫,并在此基礎上建立索引。當用戶發出請求后,系統根據用戶需求判斷應用類型,調用對應功能。其中,采用ETL工具Kettle實現業務系統數據抽取、轉換及載入功能,采用HDFS技術實現檔案數據的分布式存儲[5];采用Elasticsearch分布式的關聯檢索技術實現檢索應用,數據挖掘及分析功能由Apache Spark實現。系統結構如圖1所示。

2.2 數據抽取

數據抽取采用開源工具Kettle實現,該工具可以在Window、Linux及Unix上運行,綠色無需安裝,數據抽取高效穩定。可通過圖形化的用戶環境,實現管理來自不同數據庫的數據。通過編制transformation和job腳本實現抽取過程,其中通過transformation完成數據轉換,job則完成整個工作流的控制[6-7]。可實現在應用程序或數據庫之間進行數據遷移、從數據庫導出數據到文件、導入大規模數據到數據庫以及數據清洗并集成入應用程序等功能。并使用job作業方式或操作系統調度,來執行一個轉換文件或作業文件,通過集群的方式在多臺機器上部署,實現分布式檢索功能[6]。

建立字段映射表,將業務系統數據與抽取數據建立對應關系。按照數據過濾條件,過濾并轉換數據后載入存儲結構(如圖2所示)。

2.3 大數據存儲

建立大數據存儲是實施醫療檔案應用的首要問題。面對海量數據,首先需要解決存儲空間不足的狀況,空間不足無法確保數據集的完整性。同時,還需要解決容量擴充、容災備份等現實需求。

圖1 大數據歷史醫療檔案檢索系統結構圖

圖2 大數據歷史醫療檔案檢索系統數據ETL流程圖

圖3 大數據歷史醫療檔案檢索系統數據分析流程圖

系統存儲采用Hadoop HDFS實現,作為高度容錯性的系統,HDFS能提供高吞吐量的數據訪問,適合大規模數據集上的應用[4]。可實現流式讀取文件系統數據的目的,該系統有著高容錯性的特點,并且適合部署在低廉的硬件上。可提供高吞吐量訪問應用程序的數據,適合醫療檔案大數據集的應用系統。與此同時,HDFS支持大文件存儲,同時滿足文本信息以及圖片、視頻等媒體信息的存儲需求[5]。

2.4 數據分析

系統數據分析功能包括:統計分析及部分機器學習功能。用戶選取需要分析的邏輯字段名,設置字段間關聯,系統根據字段間連接建立邏輯組合。系統執行操作校驗,針對字段類型、字段數量以及記錄數進行核驗,核驗無誤后用戶選取分析方法,選擇對應參數。系統生成查詢記錄請求并執行分析算法,生成結果后存儲模型并顯示報告。系統操作流程如圖3所示。

在傳統的機器學習算法訓練及應用中,由于技術和單機存儲的限制,只能在少量數據上使用。即傳統統計和(或)機器學習依賴于數據抽樣,而實際中樣本難以實現隨機,導致學習模型及測試精準度不足。系統采用HDFS等分布式文件系統,存儲海量數據成為可能[8-9]。通過建立分布式數據分析工具,從根本上解決了統計隨機性的問題。然而,由于Hadoop分布式機器學習過程資源迭代消耗巨大,特別是持久化過程,成為多次迭代的算法性能瓶頸[9]。Spark采用的內存計算模式以及實時批計算功能,克服了Hadoop MapReduce模式的瓶頸。同時,Mlib囊括了常用的機器學習算法和工具,包括分類、回歸、聚類、協同過濾、降維等,同時還包括底層的優化原語和高層的管道API等功能。

以構建Spark Mlib支持向量機(support vector machine,SVM)為例描述算法流程:

2.5 數據可視化

數據可視化工具采用Echarts2.0實現,該工具具有可視化類型豐富、刷新速度快的優點,可直接支持二維數據表、鍵值對、TypedArray等數據類型,兼容性高,支持IE、Chrome、Firefox等多種瀏覽器類型。當用戶發出可視化請求時,前端頁面向后端發出數據請求,完成檢索后將查詢結果組裝后輸出到可視化組件,向用戶呈現檢索結果。

2.6 數據管理

Hadoop Web UI作為HadoopHDFS分布式數據管理工具,但其功能及操作習慣難以符合醫療機構管理人員的要求。本研究基于HDFS java API接口開發了基于HDFS的醫療檔案數據管理工具,實現HDFS下容災備份、文件系統訪問、文件創建、刪除文件、條件檢索文件、文件上傳、文件下載、文件重命名等方法,便于數據管理。同時,提供了采用HDFS JAVA API功能接口實現針對HDFS操作的二次開發。

如下所示,以實現文件系統訪問功能為例描述開發流程:

圖4 大數據歷史醫療檔案檢索系統數據檢索流程圖

3 大數據歷史醫療檔案檢索系統應用

3.1 檢索系統

系統數據檢索采用結構化數據多維數據查詢,結合全文數據庫關聯檢索實現。其中:①Elasticsearch實現,Elasticsearch基于Lucene實現,可提供分布式搜索、分布式索引功能;②無需配置即可實現分布式功能,可根據預先設置的分片數、冗余,對索引文件進行分片;③根據當前節點數量以及節點上索引分片數,實現自動負載均衡;④提供restful接口并支持多種持久化策略。

當用戶發出檢索請求時,系統判斷請求任務類型,為統計查詢任務時,可選用數據倉庫查詢方法或Spark mlib統計查詢算法;當為普通查詢任務時,對照索引在數據集合中分別實施查詢。在結構化數據集中,采用Spark SQL直接執行對應查詢任務;在非結構數據集合中,采用Elasticsearch完成檢索,兩部分檢索結果經組合后呈現至用戶。系統流程如圖4所示。

Spark SQL作為Spark數據查詢組件,能夠兼容常規數據庫查詢,同時也能夠符合大數據條件下多種數據訪問要求,其語法接近SQL語句,因此,系統通過該組件開發實現了關系數據庫、HDFS及HIVE等數據源訪問功能。Elasticsearch檢索通過構建個性化詞典、建立數據索引、開發數據檢索算法等步驟實現[10-11]。分詞采用Ansj分詞組件實現,詞典基于分詞比對及發現機制構建,繼而通過分詞詞元倒排后構建索引[11-12]。系統采用分布式搜索及詞元關聯機制構建檢索算法,將用戶輸入分詞后,通過檢索算法實現檢索功能[13]。

3.2 系統功能界面

傳統檔案數據管理通過檔案文件收集、整理、存儲、統計等操作,實現檔案的集中化管理。基于大數據技術構建的歷史醫療檔案管理模式采用面向用戶需求提供信息服務的應用平臺。采用大數據醫療檔案信息化管理可實現醫療檔案數據抽取、整合、檢索及分析工作,改變了傳統應用模式,將原有的被動式數據服務模式轉換為主動式服務提供模式。而在醫療檔案信息化進程中,隨著眾多業務系統廣泛使用,數據呈現豐富和動態化,在大數據技術的支撐下,實現數據接口統一規范、統一標準,檔案信息資源可有效地實現采集、整合,構建大數據集合。系統功能界面如圖5所示。

圖5 大數據歷史醫療檔案檢索系統界面圖

3.3 系統查詢功能測試

系統在關聯檢索技術的應用下,實現對檔案信息的全文查詢、組合查詢、分類查詢等,優化檢索過程,較之傳統查詢方法,在單表查詢、復合查詢、跨庫查詢以及多維數據表檢索性能均有所提高,同時彌補了傳統方法難以實現非結構化數據檢索的狀況[14]。此外,先進的大數據存儲技術克服了檔案持久化的問題,最大限度地提高了存儲空間的利用率,解決了傳統檔案完整性受限于存儲空間的難題。大數據背景下的復合醫療檔案數據集分析難度加大,原有的檔案信息分析方法和模式已經無法適應大數據時代的需要,系統采用Spark Mlib算法工具包提升了分布式環境下檔案信息的挖掘和分析利用效率,提升對用戶需求的響應速度[15]。由此可見,基于大數據的檔案信息化建設極大地拓展了醫療檔案數據來源,提升了應用范圍和醫療機構整體的應用管理水平。查詢功能測試如圖6所示。

圖6 大數據歷史醫療檔案檢索系統查詢功能測試界面圖

4 結論

隨著信息技術的發展,醫療檔案管理中數據資源如何獲取及高效應用逐漸成為研究的焦點,隨之而來的業務數據關聯、信息檢索、數據資源挖掘分析、數據檢索以及數據服務提供均面臨新的挑戰。隨著大數據技術發展,尤其是在圖書檔案、科研平臺等領域的成功應用,引發了相關學科管理模式的變革,并以高效、全面、快捷及安全的特點,印證了其在海量數據管理及應用的巨大優勢[12,16]。針對醫療檔案數據集采集、海量存儲、關聯查詢、分析應用等現實需求,本研究以大數據領域技術為手段,構建基于大數據檢索系統構建的歷史醫療檔案管理系統。經測試運行,該系統可有效提高醫療檔案數據集數據處理效率,在滿足原有業務的基礎上,擴展信息服務能力,在醫療檔案信息化建設過程中,加強了業務系統中信息共享及數據集成,減少信息孤島的現象。同時,采用大數據方法構建數據檢索及分析工具,能夠降低數據利用難度,提高查詢效率。同時,該系統對于其他相關領域的海量數據管理具有一定的借鑒作用,有待在后續研究中逐漸擴展應用,助力學科發展。

猜你喜歡
系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
基于PowerPC+FPGA顯示系統
基于UG的發射箱自動化虛擬裝配系統開發
半沸制皂系統(下)
FAO系統特有功能分析及互聯互通探討
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
一德系統 德行天下
PLC在多段調速系統中的應用
主站蜘蛛池模板: 欧美成人国产| 久久无码av一区二区三区| 国产精品女主播| 在线日韩一区二区| 国产精品丝袜视频| 67194在线午夜亚洲| 亚洲成人一区在线| 亚洲视频欧美不卡| 国产精品白浆无码流出在线看| 中文字幕中文字字幕码一二区| 中文字幕在线欧美| 天天综合网色中文字幕| 亚洲成人网在线播放| 久久亚洲国产一区二区| 国外欧美一区另类中文字幕| 不卡国产视频第一页| 国产高清色视频免费看的网址| 精品黑人一区二区三区| 久久99蜜桃精品久久久久小说| 欧美一区二区三区国产精品| 欧美、日韩、国产综合一区| 国产男人的天堂| 91热爆在线| 亚洲欧美日韩成人高清在线一区| 夜夜爽免费视频| 波多野结衣无码中文字幕在线观看一区二区| 青青青国产视频手机| 亚洲欧美综合在线观看| 黄色网址手机国内免费在线观看| 久久这里只精品热免费99 | 日韩黄色大片免费看| 亚洲精品欧美日本中文字幕| 日韩人妻无码制服丝袜视频| 日韩精品一区二区深田咏美| 91探花国产综合在线精品| 日本伊人色综合网| 欧美成人精品欧美一级乱黄| 国产香蕉在线视频| 99热这里只有免费国产精品 | 国产精品综合久久久| 免费亚洲成人| 国产精品主播| 日韩小视频在线播放| 国产系列在线| 久久永久免费人妻精品| 国产又粗又猛又爽| 成人综合网址| 亚洲成在人线av品善网好看| 国产女人爽到高潮的免费视频| 国产99视频精品免费视频7| 日本亚洲最大的色成网站www| 亚洲第七页| 国产网站一区二区三区| 精品人妻AV区| 中文字幕在线看| 亚洲精品无码久久毛片波多野吉| 免费一极毛片| 扒开粉嫩的小缝隙喷白浆视频| 国产无码制服丝袜| 国产毛片片精品天天看视频| 中文字幕2区| 看国产一级毛片| 国产人前露出系列视频| 亚洲女人在线| 国产福利小视频高清在线观看| 国产亚洲欧美在线视频| 好紧好深好大乳无码中文字幕| 国产精品55夜色66夜色| 亚洲精品在线91| 色网站在线视频| 欧美视频在线不卡| 国产午夜人做人免费视频中文 | 国产一区二区三区在线精品专区| 国产不卡一级毛片视频| 亚洲成人播放| 黄色在线不卡| 丝袜美女被出水视频一区| 成人字幕网视频在线观看| AV网站中文| 国产毛片不卡| 国产91小视频| AV在线麻免费观看网站|