◆陳博 李晨 李林
(鄭州市骨科醫院河南 450052)
隨著醫療行業信息化進程的加深,如何對患者信息進行高效有序地存儲和管理,并提供安全的信息快速訪問成為目前醫療行業數據存儲的主要發展趨勢。鄭州市骨科醫院是一所集醫療、急救、教學、科研、預防保健、康復為一體的三級甲等中西醫集合骨專科醫院。目前醫院系統主要有 HIS系統(醫院信息系統,Hospital Information System)、LIS系統(實驗室信息系統,Laboratory Information System)、PACS系統(醫學影像治理與通信系統,Picture Archiving and Communication System)、EMR系統(電子病歷,EMR,Electronic Medical Record)等,院內各個系統之間要求數據能夠互聯互通,交互共享。由于醫院業務量大,收治病人較多,因此要求業務要保證7*24小時不間斷運行,且系統具備容災能力。目前大多數醫院的采用傳統的一主一備存儲方式,當主機出現問題的時候,通過備機上的軟件將原先備份的數據恢復即可。這種軟件備份恢復的方式雖然目前有效,但隨著數據量的日益增多,恢復的時間周期越來越長,而且對硬件資源要求也越來越高,成本也逐步增加。因此,建設一套高效穩定且成本較低的存儲系統來保障醫院關鍵業務正常運行,成為目前醫療行業信息系統災難恢復建設的核心任務。
醫院可根據業務的恢復時間目標(RTO,Recovery Time Objective)和恢復點目標(RPO,Recovery Point Objective)不同,選擇不同的容災方案。由于業務需求的不同,醫院會采用不同的數據備份和數據保護方式,以達到容災、容錯兩大目的,并且也可降低后期硬件上的維護成本。常用的容災備份系統應包括硬件級物理容錯和軟件級數據備份,并且能夠自動地跨越整個網絡平臺。當網絡出現故障或系統崩潰時,能迅速地恢復系統和數據,保證業務正常運轉。
硬件級物理容錯是基于容錯技術原理,采用硬件全冗余的技術,在兩套同等規格設備之間做冗余,從而確保當故障來臨時能及時切換服務器設備,并自動恢復到損壞前的正常狀態,確保服務器正常使用。常見的硬件容錯方式主要考慮以下幾點:
(1)采用雙機容錯機制:在醫院業務網絡中,最關鍵的設備是數據存儲服務器,為了保證網絡系統連續運行,必須采用文件服務器雙機熱備份容錯技術,以解決硬件的故障。從物理上保證醫療數據運行的所需環境。
(2)網絡故障和容災恢復:網絡備份的最終目的是保障網絡系統安全運行,當網絡系統出現邏輯錯誤時,網絡備份系統能夠根據備份的系統文件和各類數據庫文件在最短時間內迅速恢復網絡系統。
(3)備份任務管理:采用定時自動備份措施,并指派專人定時巡檢,盡量避免由于人為原因造成的操作性錯誤和遺漏。
硬件的建設是醫院業務連續運行的重要保障。但對于數據量巨大、計算環境復雜的醫院而言,僅僅只有強大的硬件設施還不夠,需要硬件容錯技術與軟件容災技術結合起來,才能提供及時有效的解決方案。
軟件級數據備份可根據對系統的保護程度分為數據庫級容災備份和應用級容災備份。數據容災是應用容災的基礎,應用容災是數據容災的目標。在選擇容災系統的構造時,還要建立多層次的廣域網絡故障切換機制。
所謂數據容災,就是指建立一個異地的數據系統,該系統是本地關鍵應用數據的一個可用復制。數據備份是數據保護的基礎,也是抵御邏輯故障、惡性操作的唯一方案。備份系統通過備份策略,對計算機的操作系統、文件系統、應用程序、數據庫系統等數據集實現某一時間點的完整拷貝,而拷貝的數據處于離線狀態,不能被立刻訪問,必須通過相應操作才能恢復。這就要求在本地數據或者整個應用系統出現災難時,系統至少在異地保存有一份可用的關鍵業務的數據。該數據可以是本地生產數據的完全實時復制,也可以比本地數據略微落后,但一定是可用的。
應用容災是建立在數據容災的基礎上,在異地建立一套完整的與本地生成系統相當的備份應用系統。在災難情況下,遠程系統迅速接管業務運行。數據容災是抵御災難的保障,而應用容災則是容災系統建設的目標。建立這樣一個系統是相對比較復雜的,不僅需要一份可用的數據復制,還要包括網絡、主機、應用甚至IP資源等之間的良好協調。在距離較遠的容災系統中,不僅要實現完整的應用容災,還要在包含本地系統的安全機制、遠程的數據復制機制上,具有對廣域網范圍的遠程故障切換能力和故障診斷能力。即一旦故障發生,系統要有強大的故障診斷和切換策略制訂機制,而廣域網范圍的高可用能力與本地系統的高可用能力應形成一個整體,實現多級的故障切換和恢復機制,確保系統在各范圍的可靠和安全。
參照國際容災協會DRII(Disaster Recover Institute International)建議的容災建設流程, 要求用戶業務系統容災備份系統的建設必須以業務為核心,配備相關人員、制定完善的流程、采用成熟的技術,以保證用戶容災備份系統的成功實施。鄭州市骨科醫院是一所中西醫結合骨專科醫院,醫院對于影像、檢驗、檢查結果要求傳輸及時,且質量要求高。院內中心機房采用 SAN架構集群模式,采用 6臺HPDL380服務器作為集群,兩臺宏杉存儲管理機及磁盤陣列技術,ODSP Scope+界面管理模式,同時在集群上對數據庫采用SQL Server AlwaysOn技術。該技術集中了故障轉移集群、數據庫鏡像和日志傳送三者間的優點,當一臺服務器數據庫出現異常時,系統上的業務可以自由地切換到另一臺服務器上,從而保證業務正常運轉。如圖1所示,容災主要劃分為三個部分,即:接入平臺、應用平臺和存儲平臺。接入平臺負責集群平臺與存儲之間銜接,均采用萬兆光纖接口,提高數據流通速率。接口部分需要做好冗余,以確保當一個接口出現問題時,其他接口仍然能夠為業務提供高質量的傳輸路徑;存儲平臺作為整個系統的基礎平臺,部署著磁盤陣列、存儲管理機、SAN交換機等硬件設備。這些設備承載著醫院的病人信息,醫療數據以及院內數據流通,均采用萬兆光纖接口;應用平臺主要包含系統接口、應用軟件與中間件、數據庫、操作系統等,主要用于部署醫院的HIS,LIS,PACS等業務系統,保持不同系統之間的數據復制和應用切換。
圖2所示是在容災系統模型下建設的一種對稱“雙活”災備系統存儲架構。存儲“雙活”是指主生產端數據庫和備端數據庫同時在線可運行,且處于可讀可查詢的一種存儲狀態。該方案采用在線式應用級容災方式,按照數據庫的語法組裝成數據庫能識別的數據集合,從而使用數據庫自身的增量數據保存到在線的備用數據庫中,以此來達到備用數據庫總是可見、可驗證的目的。備用數據庫要保證是實時在線的,并且能用來實現查詢統計功能,這樣就分流了主數據庫的計算壓力。

圖1 容災系統模型

圖2 對稱“雙活”容災架構
針對目前醫院災難備份需求,我院按照預設的時間策略,采用同步鏡像技術,將生產中心HIS01的LUN中的數據流量經由交換機同步寫入HIS02副本LUN中,嚴格保證兩者數據實時一致,這樣做可以使得每個IO均要求同步寫入生產LUN和副本LUN, 一旦主存儲服務器停止服務,可立即使用備用存儲服務器接替主生產服務器上的業務系統并使之持續化運行,從而實現在存儲上的“雙活”。存儲上的雙活主要是指“數據保護+業務連續性”,是在鏡像基礎上的增強,支持鏡像的兩個LUN對前端同時提供業務。當任意一個數據中心發生災難時,業務將在另一個中心上運行,不需要人工干預。同時對重要系統數據做快照,雙重保護數據安全。
我院根據國際容災標準share 78定義,數據在兩個站點之間相互鏡像,由遠程異步提交來同步,因為關鍵應用使用了雙重在線存儲,所以在災難發生時,僅僅很小部分的數據被丟失,恢復的時間被降低到了分鐘級或秒級。核心業務要達到RTO到0.5小時以內,RPO小于1分鐘。同時在集群上使用VMware虛擬化平臺的硬件加速方案,保障虛擬化平臺和數據庫平臺業務可靠性,通過存儲雙活平臺設備級冗余,整體方案可靠性達到99.9999%。當HIS生產服務器下的主存儲出現故障,導致生產系統無法正常提供業務支持時,數據保護器會通過快照將數據寫入到備份存儲,從而實現雙活存儲機制與數據恢復機制的零切換。
結合我院目前信息化基礎設施建設狀況,不斷探索適合醫院未來發展的數據中心發展模式,雙活數據容災中心建設是其中一項重要課題。如圖3所示是參照目前醫療行業等級評審中的要求,在現行的規范和標準下建設方案。在容災系統上線后,將逐步解決遇到緊急情況下的數據災難問題。院內采用多重防護措施,在數據庫方面使用SQL Server AlwaysOn技術來保證數據庫中業務能夠自由切換;生產機房和容災機房采用萬兆 FC SAN等措施在物理接口上提升接口流量傳輸速率;采用快照技術針對小范圍服務器宕機等情況進行快速處理,可以回滾0-24小時內任意時間點數據;而對稱“雙活”存儲系統的部署則是針對大范圍故障,能采用對集群中的卷進行恢復等功能。

圖3 容災系統拓撲圖
醫院信息系統具有信息量大、結構復雜、數據在線、可靠性要求高等特點,因此在規劃存儲方案時,要保證醫院信息系統具有連續工作的能力,且系統的可用性應大于99.999%。上文提到的容災備份方案可以很好改善數據備份中存儲不安全,恢復速度慢、容災能力低等的問題,對醫院的數據容災提供了科學有效的管理辦法。今后還會專門針對患者對醫療資源方面的需求不斷提高服務器的生產效率,在原有技術的基礎上不斷更新改善,以達到更快的恢復時間目標和恢復時間點目標。