翟 曦 周蓮茹 焦雄飛
隨著信息技術的發展和普及,結合醫院數據特點,醫院信息化建設逐漸成為提高醫院核心競爭力的關鍵戰略措施。借助云計算技術與大數據來提高醫院信息數據處理效率,發揮出數據信息資源優勢,完善醫院經營管理結構體系,進而促進醫院信息化建設,實現醫院經營管理水平的提升[1]。對此,醫院高層管理者需重視大數據價值,結合醫院海量數據特點,應用大數據技術,塑造“智慧醫院”,提高醫院核心競爭力,為醫院謀求更為廣闊的發展空間。以往醫院信息系統只是技術支撐和運維工具,而未來醫院信息系統將成為醫院的核心競爭力,醫院最終會成為基于數據的醫療服務企業[2]。在這樣的環境背景下,探究醫院信息化的大數據應用價值具有非常重要的現實意義。
近年來,國際上許多國家已紛紛認識到大數據在醫院信息化建設中的重要性,并加速其建設。美國是醫療信息化的起源地,早在2007年美國國會通過了《美國食品與藥品管理修改法案》(Food and Drug Administration Amendments Act,FDAAA),授權食品藥品監督管理局(Food and Drug Administration,FDA)利用醫療信息電子數據庫建立藥品主動監測系統,該套主動監測系統應用大數據實現了分散數據資源的整合,主動發起藥品安全研究,目前在藥品監測上取得了極大的成功[3]。在實現部分區域衛生信息共享的基礎下,歐盟開始了探索國家層面上共享衛生信息大數據模式的規劃,2000年以后,歐盟開始進行戰略衛生信息化網絡工程,為了共享各醫院信息,英國、法國、意大利及德國等國許多公司都參與該項工程,在分布式數據庫系統和開放網工程方面已做大量工作。英國國家衛生服務戰略的目標是建立每個人的終生電子健康記錄,國家的臨床醫生均可從網上得到患者記錄和最佳臨床治療方面的支持;建立一個國家衛生電子圖書館,使醫生、護士和其他臨床技術人員及時得到最新臨床研究成果和實踐應用技術[4-5]。
目前,我國醫院信息建設的現狀中許多醫院都已經建設成了自己的數據信息管理系統,在大數據以及大數據處理技術上的應用也得到較大的發展,尤其表現在對醫院的經營管理、物資采購管理等方面取得了較大的進步。但是,在對信息進行管理的過程中,面臨著數據數量急劇增長、數據就緒時間在不斷增加、數據結構不再單一性和數據儲存的方式更加分散的4個方面問題,并且在區域醫療信息共享上仍然沒有長足進展,各個醫院還在數據孤島上繼續摸索前行[6-7]。
2016年,國務院發布的《“健康中國2030”規劃綱要》中明確指出,要大力推進健康醫療大數據的開放共享、深度挖掘和廣泛應用。醫院信息化建設應參照如健康等級7(health level seven,HL7)等國際醫療界公認的醫療衛生數據編碼標準、數據交換標準和其他信息技術標準規范,逐步探索建立統一的醫院信息化建設標準和規范體系,實現醫療機構內部以及跨機構、跨區域、跨領域的醫療信息資源共享與利用[8-9]。
醫院數據具有來源復雜的特點,其數據來源主要有以下方面。
(1)社會化媒體和互聯網中產生的數據信息,這些數據信息由于互聯網自身特點,使得數據雜而量大,形成龐大的網絡數據庫,其中蘊藏大量的信息價值,等待挖掘。
(2)傳感器網絡、智能終端以及實時監控系統所形成的信息,這些信息主要應用在醫院內部經營管理中,為各個管理決策提供信息依據,進而提高管理效率。
(3)以醫院信息系統(hospital information system,HIS)或電子病歷系統為核心的各個醫療系統所組成、所采集的患者臨床信息數據,即由這些患者臨床信息數據所產生的對于臨床診斷,醫療行為的支持,是醫院核心數據處理平臺,其應用價值匯集成醫院核心競爭優勢,促進醫院的可持續健康發展[10]。
縱觀醫院醫療管理活動中形成的全部數據,其數據結構多樣復雜,在進行數據結構分析中應以多維角度進行解析:①醫院數據結構可分為結構化、半結構化和非結構化,其中非結構化數據和半結構化數據占總數據的75%~85%;②將醫院數據結構分為內部數據和外部數據,兼備醫院的公共數據和私密數據的雙重屬性,外部數據具備公共特征,而內部數據直接關系到醫院商業機密與行業標準,具備私密性特點[11];③醫院數據結構呈現多維性,除傳統紙質文件及信函等內容外,還擁有大量電子信息、音頻信息以及網絡信息等內容,其數據格式互不兼容而具備隨機性,進而給數據應用帶來困難。
醫療數據不僅是來源復雜,其數據之間的關系也十分復雜,例如,一個原發性肝癌患者的醫療信息,可能會涉及到其所就診的多家醫院,會涉及到患者的疾病史、就診史和服藥史以及其他同類病患的相關信息等。醫療數據之間的關系既有橫向的對比,又包含縱向的延續醫院在提供醫療服務的時候,需要提取相關患者的全部數據,又要按照就診記錄、疾病史等因素進行分類,方能幫助醫生實現對患者的全方位救助[12]。
醫院大數據外部構架針對醫院外部數據,將醫院公共數據和私密數據有效隔離開,將醫院數據處理能力與基礎設施資源從內部應用延伸至外部應用,構建基礎設施資源軟件應用結構,借助虛擬化技術將醫院現有設備資源有效整合在一起,結合醫療服務需求開展動態化管理,進而實現醫院各項設備資源的合理分配[13]。在醫院大數據外部構架中,醫院可以結合自身醫療服務需求和內部管理需求結合信息化產品外部資源的運用,做好開發測試工作,并以此調整系統運行模式,包括醫學邏輯模型和其管理系統,使得醫院醫務人員和患者可以根據規則制定自定義資源需求,促進醫院信息化建設。
在醫院大數據內部構架中,以服務為核心,構建3層服務模式。
(1)SaaS軟件服務層。將服務軟件統一部署在云端,用戶利用互聯網獲取相應服務程序,便于系統后期維護和管理,同時用戶可以結合自身信息需求,以服務類型、時間及價格等節點進行劃分,提高醫院信息化服務水平,節省醫院經營成本,進而提高醫院信息化建設的可靠性和經濟性[14]。
(2)Paas平臺服務層。將開發環境和服務器平臺視為一種服務,為用戶提供軟件應用環境,借助互聯網連接醫院云端,提高軟件開發質量,并對軟件運行狀態進行實時監控,構建醫院管理系統,提高內部管理水平。
(3)IaaS基礎服務層。以硬件資源為核心,借助互聯網進行服務器部署,提高各個系統的計算能力與數據儲存能力,挖掘醫院數據的核心價值,為醫院醫療技術的提高提供真實有效的信息依據,同時有利于醫院日常基礎設施的護理工作,降低醫院信息化投入成本,進而加快醫院信息化建設進程[15]。
(1)建立統一數據的大數據平臺。由于醫院信息數據的復雜性與結構多樣性,各個醫療系統產生了大量的接口,導致了醫院在實際的醫療行為中會出現同一數據由于接口原因導致延遲或調用失敗等問題。建立統一數據的大數據平臺,數據接入層采用分布式日志系統,實現推拉模式的各種主流方式,并可按需升級為統一數據接入平臺,不僅支持日志及頁面源碼數據,還可以實現各類接口數據的無縫可視化接入,如關系型和非關系型數據、各種主流非結構化數據等[16]。
(2)海量數據管理技術。在實際應用中,海量數據管理技術主要應用于醫院大規模數據處理中,其安全性需求不高,服務于醫院外部數據管理[17]。由于醫院在實際經營管理中會產生大量的數據信息,大量數據的管理是醫院管理工作中的重要內容,可以生成管理反饋,為醫院管理工作各項決策提供信息依據。基于此,凸顯出以集中化數據管理模式為核心海量數據管理價值,其高效性和高容錯性可以強化系統運行性能,包含數據緩存、索引以及數據分區,使得數據處理工作中服務器集群中實現任務分工,提高了數據管理效率,保證最佳管理效果。
(3)虛擬化技術。在進行醫院信息化建設中,虛擬化技術是大數據應用系統的核心技術,可以將各系統中的儲存數據資源進行整合和利用,將系統軟件應用與低層硬件有效的隔離,既要將各系統收集到的數據資源轉化為多個虛擬資源,即為分裂模式,又要將各系統中收集到的數據資源整合為一個虛擬資源,即為聚合模式[18]。在醫院大數據應用系統運行中,虛擬化技術要將儲存、技術以及網絡進行虛擬化處理,將系統中的數據資源進行邏輯抽象與統一標示,協助系統服務運作,進而提高醫院大數據應用系統的運行效率和運行質量,實現醫院信息化建設。對此,借助虛擬化技術可以有效降低大數據應用系統整體能耗,將各個虛擬計算節點整合成一個物理節點,實現數據資源利用的最大化,促進物理節點的動態漂移和負載平衡,形成可靠的計算機運行環境,提高醫院數據處理的綜合質量水平。
海量的數據量增長,多廠商信息系統數據的不一致性,成為目前醫療大數據的主要問題。為了解決目前醫療大數據存在的問題,業界逐漸形成了建設醫療大數據平臺的共識,通過醫療大數據平臺,將各類醫療數據整合起來。
建立醫療大數據平臺的最終目標是無論住院還是門診,所有相關診療信息都能存入數據庫伴隨患者終身。而建設臨床數據庫(clinical data repository,CDR)的關鍵是集成單個患者所有的臨床數據,通過建立患者主索引,可將患者在門診、住院和體檢的歷史診療數據關聯起來,自動完成三級索引關系:主索引-就診索引-單據索引。
通過患者唯一索引標識號,將患者在醫院歷次門診、住院和體檢的詳細信息完整展現出來,內容涵蓋臨床上的所有治療信息,包括病案首頁、醫囑(處方)、病歷記錄、輔助檢查報告及體檢報告等,使醫護人員快速高效掌握患者既往診療情況,可以為治療提供參考幫助。CDR后期的數據分析挖掘,也是基于個體連續完整的診療信息集之上,因此患者主索引顯得尤為重要[19]。
CDR是指一種臨床信息整合與分析系統,能夠實時的整合不同臨床信息的數據源,為單一患者提供完整的臨床信息視圖。CDR的建設和應用被認為是電子病歷建設的一個新階段,是目前我國醫院信息化發展趨勢,也為實現各級衛生部門區域信息共享及分級診療的互聯互通奠定了基礎。
建立CDR的目的是為了將不同廠商或者系統內復雜數據源的數據、異構的數據和非標準的數據通過數據中心進行關聯和整合,并涉及到對數據的清洗、關聯、標準化、整合及校驗等過程。通過CDR的建設,將區域化的所有醫療機構與醫療相關的數據全部整合在一起。在以后的醫療主管部門的查詢分析和統計,以及進一步臨床或者運營方面的科研分析,均可基于該數據中心的數據進行查詢(如圖1所示)。

圖1 臨床數據中心拓撲圖
利用互聯網+大數據技術,基于臨床數據中心,建立醫療大數據平臺。醫療大數據平臺應用Hadoop技術,對數據進行存儲和挖掘。在目前主流的醫療人工智能方面,使用人工智能學習模型進行訓練,機器學習的成果可通過醫療大數據平臺進行驗證和預測。
醫療大數據平臺的醫療相關數據來源于CDR,對于其他領域的數據,可以通過CDR平臺對接其他的數據中心,使醫療大數據平臺擁有最廣泛的數據以供數據挖掘和分析[20](如圖2所示)。

圖2 醫療大數據平臺應用場景示圖
目前,對比發達國家現階段醫療信息化的進展,我國醫療領域的大數據應用還屬于起步階段,面臨的共享壁壘、標準統一等問題,制約著大數據在醫療信息化的發展。在闡述大數據在醫院信息化發展中存在的主要問題的同時,提出部分技術實現解決方法。在分析醫院大數據應用體系結構后,提出通過分布式儲存技術、海量數據管理技術以及虛擬化技術的綜合應用,構建醫院大數據應用體系。相信在政策推動和信息科學技術不斷發展的前提下,未來基于大數據的醫療信息化體系將實現醫療及管理等工作的智能化[21];借助互聯網+技術真正顛覆傳統的醫患行為交互模式,最終促進醫院的可持續健康發展,并且在區域醫療體系的完善過程中發揮作用。