文/朱偉華
(佳緣科技股份有限公司 四川省成都市 610000)
醫院作為當前移動互聯網重要的應用領域,已經開發了許多的先進軟件,比如移動掛號系統、移動診療系統,不僅實現了醫院診療的信息化和移動化,還引入了人工智能等技術,開發了一個智慧醫院,大大地提高了醫院的診斷治療等服務水平[1]。醫院數據存儲平臺可以為醫院信息化提供一個數據存儲場所,利用先進的SQLserver 和Oracle 數據庫等管理軟件,建立一個先進的生態存儲圈,不斷地提高醫院信息化存儲和管理水平[2]。另外,醫院數據存儲平臺還具有數據智能分析、優先級存儲等功能,一旦某一個數據對象訪問頻次上升,就可以為這些數據賦予較高的優先級,將其轉移到高速緩存中,提高用戶的訪問效率。醫院數據存儲平臺構建一個生態存儲圈,不僅實現了基本的信息加工功能,還可以提高存儲服務效率。
移動互聯網時代醫院數據存儲平臺可以為患者、醫師提供各類型的資源,還可以實現數據存儲、傳輸和共享功能,同時還可以根據數據訪問頻次設置優先級,提高對醫療數據的訪問效率[3]。醫院數據存儲平臺的功能包括五個方面,實現存儲資源的并發響應操作功能,如圖1 所示。
數據存儲平臺的業務功能很多,操作交互流程包括五個步驟,分別是設置平臺操作系統、構建Hadoop 集群、數據整合和預處理、數據存儲、數據挖掘和分析,進一步提高了大數據應用效能。
(1)選擇平臺操作系統。移動互聯網時代醫院數據分析與處理過程中,其面臨的數據資源非常多,為了提高對這些醫院視頻、文本、圖像等數據資源的組織管理效率,需要使用與之匹配的操作系統,盡可能地實現大數據的優先級訪問、熱點數據存儲,管理大數據的物理存儲空間,實現對資源的調度和分配。常用的操作系統包括RedHat、Centos 或者Debian,這些都可以作為底層平臺操作工具,具有較強的可擴展性,能夠支持數據處理。數據存儲平臺操作系統還具有虛擬化功能,從而可以擴展系統的物理存儲空間、共享CPU、提高通信帶寬的利用率。本文選擇RedHat 作為操作系統,其可以實現大數據的操作和處理。

圖1:移動互聯網時代醫院數據存儲平臺
(2)搭建Hadoop 集群。Hadoop 是一個軟件平臺,其可以運行醫院視頻、文本、圖像等處理軟件,最核心的技術為MapReduce,能夠將大量的計算機組成一個集群,實現海量數據分布式計算。Hadoop 吸引了很多商業公司研發和設計,已經構建了各種開源組件,包括Sqoop、Hbase 和Spark 等。Hadoop 包括很多的組成元素,最底層的組成元素就是Hadoop Distributed File System(HDFS),其可以Hadoop 集群平臺中的所有存儲節點文件,HDFS 的上一層就是一個MapReduce 引擎,這個引擎包括兩個組成部分,分別是JobTrackers 和TaskTrackers,利用Hadoop 可以實現數據處理和操作,進一步滿足分布式數據操作[4]。本文數據存儲平臺采用Hadoop 集群平臺,可以滿足數以千計的用戶同時訪問醫院數據存儲平臺的需求,還可以針對不同的醫學影像軟件、藥房管理軟件、門診掛號軟件進行集成,為用戶提供一個集成化的操作界面[5]。
(3)數據整合和預處理。數據存儲平臺保存的資源非常多,比如文件日志、關系數據、對象數據等,這些有結構性數據也有非結構性數據,因此在把數據整合在一起時需要進行預處理,以便能夠利用企業服務總線進行通信傳輸,提高數據的一致性和可靠性。數據預處理可以利用Impala、SparkSQL 和HiveSQL 等工具。本文選擇使用HiveSQL 作為數據整合軟件,該軟件能夠實現大規模的信息加工,進一步加強對醫院數據資源的管控。
(4)數據存儲。數據存儲平臺最重要的功能就是存儲。數據存儲可利用HBase 和Kudu 等存儲管理工具,建立一個生態存儲圈,不斷地提高大數據平臺的存儲和管理水平,還可以降低訪問延遲,提高數據分析能力。目前,數據存儲還引入了更加先進的平臺,比如Oracle 數據倉庫,數據倉庫不僅可以實現普通數據的處理功能,還具有數據智能分析、優先級存儲等功能,一旦某一個數據對象訪問頻次上升,就可以為這些數據賦予較高的優先級,將其轉移到高速緩存中,提高用戶的訪問效率。數據倉庫還可以按照主題模式加工信息,利用數據倉庫提高數據存儲的應用性和可視化,確保數據的透明化操作水平。
(5)數據挖掘和分析。醫院數據存儲的資源非常多,這些資源通常是無序的、雜亂的,雖然符合一定的組織原則,但是人們利用數據仍非常復雜,因此引入數據挖掘和分析功能,可以提高數據利用的時效,縮短數據處理時間。數據挖掘和分析引入了人工智能技術,比如卷積神經網絡算法、貝葉斯算法、支持向量機和K-means算法等。本文選擇卷積神經網絡算法,該算法應用過程較為簡單,不需要任何背景知識,就可以實現對醫院數據資源的挖掘和分析。
醫院數據存儲平臺關鍵技術非常多,其中最為關鍵的技術包括光纖共享陣列存儲技術、熱點數據遷移技術,可以實現醫院對視頻、圖像、文本等數據的存儲,還可以實現對熱點數據的高頻詞訪問,將訪問頻次較低的數據遷移到優先級較低的存儲位置,將訪問頻次較高的數據遷移到優先級較高的存儲位置,提高醫院數據存儲效率。
醫院信息化數據種類非常多,常規的存儲器已經無法滿足需求,因此引入了光纖共享陣列存儲技術,該技術可以擴展單臺主機或服務器的永久存儲空間,利用光纖通道將存儲器集成在一起,形成一個多接入接口的存儲區域服務器網絡,還可以為多用戶構建共享存儲空間。光纖共享陣列存儲技術成本低,擴展性更好,還可以利用虛擬機存儲技術提高磁盤陣列的使用效率。光纖共享陣列存儲技術擁有智能磁盤控制器,該控制器能夠控制磁盤陣列的訪問效率,控制器位于主機和磁盤之間,配置有專門的I/O 輸入輸出接口,能夠同時操作CPU 和Cache,大大地提高光纖陣列存儲的響應速度。
數據遷移技術可以采用優先級算法,把光纖陣列存儲單元劃分為不同的優先級,從高到低進行排序,優先級較高的存儲訪問頻次較多的數據,優先級較低的存儲訪問頻次較少的數據。首先,醫院的數據訪問頻次不同,因此可以設置一個計數器,每訪問一次計數器就增加1,這樣計數器數值越高,表示數據訪問的次數越多,因此為了提高這些數據的訪問效率,可以將其轉移到優先級較高的位置。同時,數據遷移需要與Cache 調度算法進行集成,可以確保Cache 滿負荷運載,因此可以提高數據存儲平臺應用效率。
卷積神經網絡(CNN)是一種深度前饋人工神經網絡,已成功地應用于圖像識別、特征提取、文本數據挖掘、動態目標追蹤等領域,CNN 包括兩層基本結構,一是特征提取層,每一個神經元的輸入與前一層局部連接,可以提取這一部分的局部特征,在提取局部特征之后,就可以確定這些特征與其他特征之間的位置關系;二是特征映射層,網絡的每一個層都可以由多個特征映射組成,每一個特征映射都可以描述為一個平面,平面上所有的神經元的權值相同。CNN 特征映射結構利用Sigmoid 函數作為卷及網絡的激活函數,這樣就使得特征映射之間具有位移不變性,位于同一平面上的神經元都可以共享權值,這就可以大大地減少對自由參數的設置。卷積神經網絡的每一個卷積層都可以跟著一個用來求取局部平均與二次提取的計算層,這樣就可以大大地減小特征分辨率。CNN 模型已經被提出很多年,在剛提出來的那幾年沒有受到足夠的重視,直到最近幾年,人們提出利用訓練好的CNN 模型實現數據分類,可以比較準確區分每一個局部特征。這個成果幫助CNN 為數據分類、人臉識別、目標檢測等領域所接納。CNN 的權值具有共性特征,減少自由參數的訓練次數,因此便于用于高緯數據處理。這些特性符合遙感影像的要求,它的分類計算可以獲取較高的準確度。
醫院數據存儲平臺操作過程中,算法處理流程包括以下四個關鍵層,一是輸入層,輸入層的主要作用就是對原始的數據進行預處理。二是卷積層,卷積層一般包含兩個操作,其一是進行局部的關聯,將每個神經元看作是一個過濾器;其二是進行窗口滑動,過濾器對局部的醫院數據進行計算。卷積層的關鍵作用就是獲取醫院數據的局部特征,每一卷積層都可以作為一個特征提取層,并且可以減少參數的設置數量,提高卷積準確度。三是池化層,池化層的主要作用是用來壓縮數據和參數的數量,減小過擬合。池化層就是用來壓縮醫院數據的。在卷積層提取的醫院數據特征基礎上,池化可以計算某一個局部的卷積特征平均值,也可以計算最大值或最小值,減小卷積層特征的維數,這樣就可以持續降低分類器的計算復雜度,減輕分類器的負擔,也可以避免分類器過度擬合。四是全連接層,全連接層可以輸出分類結果,起到了一個分類器的作用,能夠將訓練好的模型輸出出來,這樣就可以提取醫院數據的特征。
醫院數據存儲平臺可以部署先進的醫療管理服務軟件,同時存儲醫院的診斷、治療、住院、藥物等各類型數據信息,利用先進的數據遷移技術、卷積神經網絡算法、光纖共享陣列存儲技術等,提高患者、醫師、護士等用戶的訪問效率。