999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Hadoop的醫療大數據分析系統的研究與設計①

2017-05-17 09:59:58虞宏霄南華大學附屬南華醫院衡陽400南華大學計算機學院衡陽400
計算機系統應用 2017年4期
關鍵詞:數據庫

廖 亮, 虞宏霄(南華大學 附屬南華醫院, 衡陽 400)(南華大學 計算機學院, 衡陽 400)

基于Hadoop的醫療大數據分析系統的研究與設計①

廖 亮1, 虞宏霄21(南華大學 附屬南華醫院, 衡陽 421002)2(南華大學 計算機學院, 衡陽 421001)

針對目前部分醫院對于龐大醫療數據處理能力匱乏問題, 設計了一個基于Hadoop的醫療大數據分析系統. 該系統可提供輔助診斷和醫療數據統計兩大功能, 同時融合了多節點分布式計算技術, 可以根據患者的醫檢數據快速生成初診結果, 并能夠有效地改善傳統醫療數據信息系統分析效率較低的現狀.

Hadoop; 智能醫療; 大數據; HIS

1 引言

近年來, 計算機技術和互聯網技術得到了前所未有的飛速發展, 人類社會邁入了大數據時代, 醫療產業信息化建設也隨之不斷加速. 據衛生部統計, 2014年我國投入到醫療行業信息化建設的資金為275.1億元, 2015年總計投入規模超過300億元[1]. 與此同時,各類醫療信息數據量呈現出了爆炸式的增長趨勢, 而傳統的以數據倉庫存儲模式為主體醫院信息系統(HIS)由于受到硬件成本的限制, 對于大量非結構化數據處理時容易遇到性能瓶頸, 很難做到存儲能力和計算能力的雙向擴展. 因此, 本文借鑒了當前大數據處理領域的最新科研成果, 設計了一個基于Hadoop的醫療大數據分析系統, 以更好地滿足醫院對于海量醫療數據的整合加工和定量分析的需求.

2 大數據及其處理技術概述

在IT系統和計算機網絡的相關基礎設施及應用中時刻都在產生大量的數據信息, 如何在合理時間內將各類紛繁復雜的數據進行有效地擷取管理, 并整合成為具備支持決策的實用數據源已成為現階段的研究熱點, 大數據的概念由此應運而生.

大數據的概念最早由全球知名資訊公司麥肯錫提出, 所謂大數據即big data(或mega data), 是指大小超出了常規數據庫或工具軟件的分析處理能力, 被迫采用非傳統方式處理的數據集[2]. 大數據具備4V特征,即Volume(體量大)、Velocity(處理快)、Variety(類別多)、Veracity(可靠性高), 要求以高擴展存儲和分布式處理方式完成數據查詢及管理功能, 目前眾多機構雖然已經擁有了數量較大的原始積累數據, 卻普遍缺乏高效的數據挖掘分析手段, 同時數據倉庫的日常維護成本也在逐年升高. 因此, 以Hadoop構架為代表的分布式文件系統得到了廣泛的應用.

Hadoop是由Apache基金會開發的適合大規模數據處理的分布式系統基礎架構, 其核心部分包括HDFS(Hadoop Distributed File System)和Map/Reduce編程模型[3]. HDFS是一種采用主/從(master/slave)式架構, 同時具備高容錯性特點, 可以通過大量部署在普通PC上實現多數據節點對超大數據集進行分塊存儲管理的分布式文件系統. 另外, HDFS為文件訪問提供“一次寫入, 多次讀取”的響應模型, 簡化了數據一致性問題,適合大數據流的高吞吐率操作應用. Map/Reduce是由谷歌實驗室提出的一種全新的分布式程序設計模型,主要通過Map(映射)和Reduce(化簡)兩個步驟來并行處理大規模數據集. 首先, Map函數在不改變原始文件列表的情況下, 對切割后的小塊文件所形成的獨立元素組進行逐一映射操作, 并創建多個新的列表用于保存Map的處理結果. 然后, 再由Reduce函數對映射后輸出的中間文件依據Key-Value值進行適當的合并或縮減. 最后, 將大量結構不同甚至互不相關的原始數據經由特征抽取后產生的結果保存至磁盤[4].

3 系統構架設計

針對目前各大醫院內部醫療數據信息化建設的實際運行情況, 本文所提出的醫療大數據分析系統的框架包括: 數據層、訪問控制層和應用層三個部分, 系統體系結構如圖1所示.

圖1 醫療大數據分析系統體系結構

該系統采用層次化結構設計原則, 最底層是數據層, 負責將現有的醫院信息系統提交的各類醫療數據文件通過切割分塊的形式保存至Hadoop集群數據節點,實現文件的分片管理和負載均衡控制. 訪問控制層是中間層, 由命名節點管理命名空間鏡像以及各文件塊和數據節點的對應關系, 運算中心通過調用命名節點提供的元數據信息, 對原始數據集進行Map/Reduce處理, 指導文件的讀寫流程, 并將處理結果上交至應用層.應用層是系統的最高層, 為用戶提供了操作界面接口,用戶可以通過該接口向訪問控制層下達操作指令以及接收系統的輔助診斷報告和數據統計分析結果.

4 系統功能的設計與實現

該系統通過與傳統的醫院信息系統進行協同工作,可以對現有單節點醫療數據庫中存放各類醫療數據轉為分布式存儲管理; 并通過調用運算中心設計的Map/Reduce算法, 實現對海量數據的高效統計分析和醫療輔助診斷.

4.1 數據存儲功能的設計與實現

數據層是由一系列安裝了Linux操作系統的普通PC和現有醫院信息系統的醫療數據庫構成, Hadoop分布式文件系統(HDFS)運行在眾多PC構成的數據節點集群中, 主要負責對原始醫療數據進行導入和分布式存儲管理, 其工作原理如圖2所示[5].

目前現有的醫院信息系統(HIS)主要由電子病歷子系統(EMR)和影像歸檔通信子系統(PACS)構成, 其中EMR用于存放病人的基本信息、醫檢結果以及診斷報告等結構化數據, PACS存放的是各類數字化醫學影像、聲音等非結構化數據. 在Hadoop項目中, 除HDFS和Map/Reduce編程模型外, 還包括了結構化數據倉庫基礎構架Hive, 非關系型數據庫Hbase, 以及傳統數據倉庫與HDFS之間的數據導入工具Sqoop等第三方模塊.

圖2 數據分布式存儲實現原理

在將原始醫療數據進行分布式處理之前, 先在命名節點中安裝Hive和Hbase, 再利用Sqoop工具提供的Java API與傳統醫療數據庫連接. 需要導入的各類數據, 首先判斷其是否為結構化數據, 如果是結構化數據, Sqoop工具將通過JDBC/ODBC接口連接Hive,然后查詢與該數據對應的存儲表單是否已經存在, 如果不存在則創建新表后存入Hive; 如果已經存在, 再判斷數據量是否超過設定閥值(Threshold), 如果沒有超過, 直接存入Hive; 如果超過, 則需要增加分區后再存入Hive. 當數據為非結構化數據時, Sqoop工具將通過Hbase接口連接Hbase, 并提交插入請求; 請求得到響應后, 再對Hbase表進行掃描并定位插入位置,同時設定時間戳, 將數據插入Hbase數據庫. 數據寫入HDFS的執行流程如下所示:

(1) 客戶端開發庫(Client)啟動數據節點, 并向上層的命名節點發起RPC請求.

(2) 命名節點會檢查需要創建的文件是否已經存在以及創建者的操作權限, 若檢查成功, 則為文件創建一個記錄; 檢查失敗, 向客戶端拋出異常.

(3) 當RPC寫入請求得到響應后, 客戶端開發庫(Client)會將需要寫入的文件切分成多個Packets, 然后向命名節點申請新的Blocks, 并將本地文件與HDFS數據塊的映射列表, 以“塊報告”的形式提交給命名節點.

(4) 命名節點向客戶端返回所管理的數據節點的配置信息, 客戶端將根據數據節點的IP地址, 以管道(Pipeline)的形式, 按順序寫入到每一個數據塊節點中.

當原始醫療數據全部寫入HDFS后, 命名節點將所有文件的元數據信息(如文件的屬性; 文件的塊列表;文件塊與數據節點的對應關系等)提交給運算中心, 運算中心會根據設計好的Map/Reduce算法對分布式文件集進行特定的讀寫操作和分析處理.

3.2 輔助診斷和數據統計功能的設計與實現

在患者實際就醫過程中, 通常需要進行大量的醫療檢查, 由于患者的體質差異, 同一類型疾病的醫檢項目可能會在不同患者的檢查過程中呈現出不同的數據結果. 因此, 部分患者在醫檢過后, 還需要經過一段時間的入院觀察治療才能最終定性所患疾病的具體類型. 而在醫院現存的電子病歷中, 包含了眾多已確診病癥的醫檢數據及患者的個人信息, 基于Hadoop的醫療大數據分析系統, 可以通過對HDFS中存放的所有電子病歷文件進行Map/Reduce處理, 將不同病癥的各類醫檢項目數據值進行區間歸納, 并生成輔助檢測模板以提高醫院的工作效率, 同時還可以對各年齡段患者的主要易發病進行高速數據統計. 算法實現如下[6]:

Mapper算法:

(1) 打開電子病歷文件, 當文件非空且文件未結束則循環讀取字符串到變量str中;

(2) 如果str=”年齡” then key1=年齡值(整數類型);當str=”診斷結果”時, value1=病癥名稱, 將(key1,value1)寫入中間文件;

(3) 如果str=”診斷結果” then key2=病癥名稱(字符串類型).

當str=”醫檢數據”時, 修改key2=病癥名稱 & 該病對應的某種醫檢項目名稱(字符串類型);

value2=與該病對應的某種醫檢項目的醫檢結果數據值,

將與該病對應的每一種醫檢項目分別生成(key2, value2)寫入中間文件.

Reducer算法:

(1) 創建Hash表ht;

(2) 當key值為整型時, key=與key1對應的年齡段& value1, value=value+1, 將(key, value)寫入ht;

(3) 當key值字符串類型時, 如果value > max 則max = value;

key= key2, value= max, 將(key, value)寫入ht;

如果value < min 則 min = value;

key= key2, value= min, 將(key, value)寫入ht;

(4) 將ht中的每一組(key, value)寫入最終結果文件;

由于Mapper算法所提供的(key, value)中的key與value可能為不同的數值類型, 而HashTable可以支持任何類型的key-value鍵值對, 因此需要創建一個Hash表用于保存Reduce處理的臨時結果.

當系統做數據統計時, 首先判斷接收到的key值是否為整型, 是整型則按照數值大小歸入對應的年齡段, 然后將該年齡段與所患病癥組合成新的key值,并判斷該key是否已經存在于ht中, 如果尚未存在,則在ht中加入該key; 如果已經存在, 則將該key對應的value值(即該年齡段患該種疾病的人數)加1.

當接收到的key值為字符串類型時, 如果判斷該key對應的value值大于現存的最大值max, 則將max替換成該value; 如果判斷該key對應的value值小于現存的最小值min, 則將min替換成該value. 如此反復比對, 即可實現某種疾病不同患者的各項醫檢項目數據值的區間歸并, 最終將所有疾病的醫檢項目數據值區間進行分類提取, 形成輔助檢測模板.

5 系統性能測試

為了測試系統的實際運行效果, 作者為本系統配置了20個數據節點, 隨機抽取了各年齡段共計50535份電子病歷進行了數據分析, 生成的易發病統計表如表1所示.

表1 各年齡段易發病統計

最后, 將本系統與現有的醫療數據庫利用程序控制臺的Begin()和End()函數中所記錄的時間進行了工作效率比較, 兩者在數據處理過程中的時間消耗如表2(不包含數據寫入磁盤所消耗的時間)所示. 工作效率對比折線圖如圖3所示.

表2 大數據分析系統與傳統數據庫的耗時對比

圖3 工作效率對比

通過實驗結果可以看出, 隨著被處理的電子病歷的數量增加, 傳統的單節點數據庫耗時呈線性增長趨勢; 而基于Hadoop的醫療大數據分析系統, 由于在數據統計過程中采用了分布式的處理方式, 時間消耗并未顯著增長.

6 結語

本文的主要創新點有兩個: (1)提出了一個基于Hadoop的大數據分析系統的體系結構, 并對該系統所提供的功能進行了詳細的分析與設計; (2)為醫療輔助診斷和數據統計設計了一個切實可行的Map/Reduce算法, 優化了醫療診斷流程并實現了海量數據的高速統計. 最后, 通過具體實驗驗證了基于Hadoop的醫療大數據分析系統比傳統的單一節點數據庫具備更高的工作效率.

1 中國產業信息網.2015年中國醫療信息化市場運營報告, http://www.chyxx.com, 2015.

2 馬建光,姜巍.大數據的概念特征及應用,國防科技,2013, 34(2):10–17.

3 White T. Hadoop: The Definitive Guide. 3rd Ed. O’Reilly Media, 2012, 5.

4 Gillick D, Faria A, DeNero J. Mapreduce: Distributed computing for machine learning. Berkley, 2006, 12.

5 Shvachko K, Kuang H, Radia S, et al. The hadoop distributed file system. 2010 IEEE 26th Symposium on Mass Storage Systems and Technologies (MSST). IEEE. 2010.

6 Boyd S, Parikh N, Chu E, et al. Distributed optimization and statistical learning via the alternating direction method of multipliers. Foundations and Trends in Machine Learning, 2011, 3(1).

Research and Design of Medical Mega Data Analysis System Based on Hadoop

LIAO Liang1, YU Hong-Xiao212(The Affiliated Nanhua Hospital, University of South China, Hengyang 421002, China) (School of Computer Science and Technology, University of South China, Hengyang 421001, China)

For solving the problem of lack of large medical data computing ability in some hospitals presently, a medical mega data analysis system based on Hadoop is designed. The system can provide two functions of auxiliary diagnosis and medical data statistics, combing with the technology of multi-node distributed computing. So, the preliminary diagnosis results can be concluded immediately according to patient’s medical data. And at the same time, the proposed system also has more efficient analysis capability than the traditional hospital information system.

Hadoop; intelligent medical; mega data; HIS

2016-04-29;收到修改稿時間:2016-12-08

10.15888/j.cnki.csa.005845

猜你喜歡
數據庫
數據庫
財經(2017年15期)2017-07-03 22:40:49
數據庫
財經(2017年2期)2017-03-10 14:35:35
兩種新的非確定數據庫上的Top-K查詢
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
數據庫
財經(2015年3期)2015-06-09 17:41:31
數據庫
財經(2014年21期)2014-08-18 01:50:18
數據庫
財經(2014年6期)2014-03-12 08:28:19
數據庫
財經(2013年6期)2013-04-29 17:59:30
主站蜘蛛池模板: 91精选国产大片| 日韩欧美国产区| 亚洲欧美日韩动漫| 99久久国产综合精品女同| 麻豆国产在线观看一区二区| 国产成人免费观看在线视频| 波多野结衣中文字幕一区二区| 久久精品91麻豆| 国产精品手机在线观看你懂的 | 国产裸舞福利在线视频合集| 国产高潮流白浆视频| 国产亚洲精品在天天在线麻豆| 亚洲成av人无码综合在线观看| 欧美va亚洲va香蕉在线| 精品国产成人av免费| 国产v精品成人免费视频71pao| 91精品伊人久久大香线蕉| 一区二区三区国产精品视频| 欧美一级专区免费大片| 免费观看欧美性一级| 亚洲最大看欧美片网站地址| 老色鬼久久亚洲AV综合| 亚州AV秘 一区二区三区| 国产国产人在线成免费视频狼人色| 成人一级免费视频| 精品视频福利| 在线无码av一区二区三区| 国产欧美日韩va另类在线播放| 欧美日韩在线第一页| 国产福利在线免费| 四虎影视国产精品| 欧美激情第一区| 毛片免费高清免费| 高清精品美女在线播放| 伊人婷婷色香五月综合缴缴情| 国产成人一区二区| 婷婷综合色| 波多野结衣一二三| 亚洲swag精品自拍一区| 欧美日韩资源| h网站在线播放| 午夜毛片福利| av在线手机播放| 亚洲精品福利视频| 理论片一区| 狠狠色综合久久狠狠色综合| 久久久久青草线综合超碰| 日韩精品亚洲人旧成在线| 99re这里只有国产中文精品国产精品 | 无码福利视频| 最新亚洲人成网站在线观看| 伊人久久精品无码麻豆精品| 亚洲视频色图| 综合久久五月天| 国产精品丝袜在线| 亚洲综合色婷婷中文字幕| 伊人色综合久久天天| 54pao国产成人免费视频| 91人妻日韩人妻无码专区精品| 波多野结衣一区二区三区四区视频| 欧美日韩国产高清一区二区三区| 成人在线第一页| 国产本道久久一区二区三区| 欧美亚洲香蕉| 91久久夜色精品国产网站| 国产91视频免费| 毛片在线看网站| 国产成人精品男人的天堂下载| 欧美在线视频a| 欧美日韩北条麻妃一区二区| 精品少妇人妻无码久久| 国产精品亚洲天堂| 在线精品视频成人网| 日韩欧美国产精品| 精品国产成人高清在线| 97久久免费视频| 国产乱人乱偷精品视频a人人澡| 欧美日本中文| 国产欧美另类| 在线观看国产精品第一区免费| 国产成本人片免费a∨短片| 国产男女免费视频|