中國人民解放軍第三零九醫院信息科,北京 100091
醫院信息系統容災方案的設計與實現
林濟南,王虹
中國人民解放軍第三零九醫院信息科,北京 100091
目的設計一套針對醫院信息系統(HIS)的容災方案。方法采用冗余備份技術、集群技術,來實現HIS的數據容災和應用容災。結果該方案在醫院使用后,多次有效地避免了由各種原因引起的數據丟失和應用中斷事件的發生。結論該設計方案簡單有效,使HIS具備了數據容災和應用容災的能力,保證了醫院業務的連續性和高可用性。
醫院信息系統;容災系統;數據備份
隨著醫院信息化建設的發展,醫院信息系統(HIS)、圖片存檔及通訊系統(PACS)、實驗室信息系統(LIS)、辦公自動化(OA)信息系統等逐漸得到廣泛應用,加上社會、公眾對醫療業務的服務要求不斷地提高,醫院信息系統需要7×24 h連續運行,這對于系統的安全性、穩定性要求很高。信息系統應用的時間越長,業務安全越關鍵,日常的醫院管理、臨床醫療和教學科研對它們的依賴度也就越強,這些系統一旦停機造成的損失也越大。為了保護重要業務數據的安全,保證醫院信息系統的業務連續性和高可用性,容災系統的建設已經刻不容緩。
2007年7月,國家標準《信息系統災難恢復規范》(GB/ T20988-2007)出臺[1],并于2007年11月1日開始正式實施。
容災系統用于災難恢復,它由數據備份系統、備用數據處理系統和備用的網絡系統組成。災難恢復是將信息系統從災難造成的故障或癱瘓狀態恢復到可正常運行狀態,并將其支持的業務功能從災難造成的不正常狀態恢復到可接受狀態,而設計的活動和流程[2]。
1.1 災難風險分析
一般來說,人們將計算機網絡系統可能遭受的災難分為下面幾種:① 自然災難,如洪水、颶風、地震等;② 外在事件,如電力或通訊中斷;③ 技術失靈,如電腦宕機或網絡受損;④ 設備受損,如火災、爆炸等。
由于醫院業務信息系統與計算機網絡系統緊密連接,無論哪種災難都會影響醫院業務信息系統的安全。然而,建立容災系統可以幫助業務信息系統將損失降到最小。容災分為本地容災和遠程容災,
本地容災,一般指主機集群中某臺主機出現故障,不能正常工作時,其他的主機可以替代該主機,繼續進行正常工作[3]。遠程容災可以這樣理解,備份中心是遠程的,并且在單位日常業務運作信息系統中實施了各種數據保護,一旦單位日常業務運作信息系統受災,遠程備份中心接管它繼續提供服務。
1.2 災難恢復等級劃分及要素分析
按照國家標準將信息系統災難恢復到各個等級所需的資源分為7 個要素:① 數據備份系統;② 備用數據處理系統;③ 備用網絡系統;④ 備用基礎設施;⑤ 技術支持能力;⑥ 運行維護管理能力;⑦ 災難恢復預案。國家標準對這7個要素都提出了明確要求[4],見圖1。

圖1 災難恢復等級
2.1 采用冗余、備份技術進行數據容災
(1)網絡連接。我院將生產中心(支持醫院日常業務運作的各信息系統)建在門診樓,而容災中心則建在干部保健樓,兩座樓的距離在300 m以上。生產中心和容災中心之間不但有多條光纖直接相聯,同時也建立千兆帶寬的以太網絡連接,并且信息系統各工作站的接入層網絡建立與容災中心的網絡連接。
(2)數據存儲。將相關信息系統的數據集中存儲到中心磁盤陣列上。在生產中心對現有HIS磁盤陣列存儲進行升級擴容,使其成為中心磁盤陣列;將LIS、OA、內網、郵件等服務器配備的雙冗余光纖通道主機適配卡和中心磁盤陣列的雙陣列控制器連接,實現生產中心的應用服務器與中心磁盤陣列存儲之間的數據鏈路的冗余;同時,將LIS、OA、內網、郵件等應用服務器上的數據由本地磁盤遷移到中心磁盤陣列上。
(3)數據備份。通過數據庫備份腳本或第三方備份軟件實現業務數據從中心磁盤陣列備份到對應服務器的本地磁盤。這種方式確保生產中心所有業務系統的數據都有相同的兩份,杜絕了磁盤單點故障。
(4)磁盤陣列。我院對不同業務系統的存儲設備采用不同級別的磁盤數組技術(RAID);對HIS、PACS、LIS、電子病歷等核心業務的中心磁盤陣列采用RAID1+0的方式存儲[4],以達到對本地存儲數據的冗余保護;對OA、網站等其他非核心業務,中心磁盤陣列則采用RAID5技術,以達到提高磁盤存儲利用率的目的。
(5)冗余備份。在容災中心安裝一臺磁盤陣列存儲作為HIS和其他系統的容災存儲,利用IBM存儲自帶的遠程數據鏡像和數據復制技術進行異地冗余備份,當生產中心出現毀滅性災難時,能最大限度保證數據的完整和安全[5]。對HIS、LIS、PACS、電子病歷等核心業務的數據庫數據除了利用上述方案進行冗余備份外,還利用Oracle、SQL Server自帶的數據備份工具或自編備份腳本,進行數據庫文件備份,并轉儲到磁帶上,實現一段時間內的數據全備份,以有效應對文件損壞或人為誤操作帶來的數據風險[6]。
綜上所述,該方案將生產中心與容災中心設置在相隔一定距離的兩座樓里,其優點有兩個:一是可以有效預防單點的火災、爆炸、電力或通訊中斷等情況發生時對業務和數據的影響,二是方便本院技術人員實時監控容災中心的日常運行情況和故障排除。其缺點是無法實現大的自然災難發生時對業務和數據的安全保護,如當洪水和地震造成生產中心與容災中心所在樓同時發生毀損時,業務和數據就會徹底被毀損。
2.2 采用雙機熱備和集群技術進行應用的容災
信息系統的業務連續性主要由2 個指標來衡量:恢復時間目標(Recovery Time Objective,RTO)和恢復點目標(Recovery Point Objective,RPO)。RTO 體現了災難發生后,業務工作可以在多長時間內恢復;RPO 體現了業務工作恢復時數據的丟失程度。國家標準第6級要求RTO 和RPO的值都趨于零,即具備遠程集群系統的實時監控和自動切換能力。但這需要成倍的增加建設資金及后續維護成本。本方案綜合考慮成本和業務實際需要,在災備機房沒有采用遠程集群系統的實時監控和自動切換,做到了RPO等于零,而業務應用需要工程師的干預,RTO在10~15min左右。
我院數據庫服務器和應用服務器采用雙機熱備技術和集群技術,大大降低了因機器硬件(硬盤、風扇和網卡)故障和軟件(操作系統、應用軟件)故障所帶來的宕機風險,提高了整個系統的可用性。如HIS、PACS、RIS、醫保和電子病歷等數據庫服務器均采用雙機熱備技術和集群技術進行容災保護,以達到業務應用容災的目的。每個業務系統均有2臺數據庫服務器,2臺服務器根據業務特點,采用主從、互備、并行等不同的方式工作。
在工作過程中,實際以同一個虛擬的IP地址對外提供服務,按工作方式的不同,將服務請求發送給其中一臺服務器承擔;同時,服務器之間通過心跳線偵測對方的工作狀況,當一臺服務器出現故障時,另一臺服務器根據心跳偵測的情況做出判斷并進行切換、接管服務。對于用戶而言,這一過程是全自動、完全透明的,在很短時間內完成,系統將繼續正常運行,不會對業務造成影響。隨著我院設備的擴充和業務量的增加,像PACS等系統還可以增加新的應用服務器到集群中來平衡系統的壓力。
我院將現有的IBM P5 520小型機遷移到容災中心,作為HIS容災主機,在災難發生時作為HIS應急運行主機;新購幾臺PC服務器作為其他業務系統的容災主機,在災難發生時作為應急運行主機。在容災主機中安裝和生產系統相同版本的操作系統、數據庫、應用等軟件,確保在生產數據庫故障時,數據無丟失,數據庫快速接管。容災方案架構圖,見圖2。

圖2 容災方案架構圖
該方案建成后,有效地應對過一次門診樓的火災風波。去年,我院門診樓因中央空調老化起火,雖然火災在較短的時間內撲滅了,沒有造成生產中心硬件受損,但較長時間內電力無法供應,業務無法繼續,經請示報告后,迅速啟用容災中心的相關系統,在15 min內HIS、PACS、LIS、醫保和電子病歷等核心業務系統恢復服務,確保了各項業務工作的正常運行。
2.3 采用雙光纖交換機、雙光纖線路進行網絡鏈路的容災
容災中心與生產中心的數據需要進行同步,所以同步的鏈路也是安全保護的重點。容災系統在網絡的拓撲結構設計中,在位于門診樓的生產中心架設2臺光纖交換機,在干部保健樓的容災中心也架設2臺光纖交換機,交換機之間采用2條多模光纖直接連接,充分考慮了擴展性和冗余性[7],最大限度地保證網絡的健壯和自愈性,從而實現網絡鏈路的容災。
異地容災系統能保證當災難發生時醫院數據的安全和業務的連續性,具體表現在:數據在遠程場地存在有一致、可用的備份,應用可以在十幾分鐘內立即在遠程容災中心運行。
該方案具有如下特點:① 管理操作簡單方便:將生產機房信息系統上的數據變化實時同步復制到災備機房的容災系統,對生產系統的資源占用低,不影響生產系統的正常運行;與操作系統和數據庫無關,支持所有操作系統和數據庫及各種數據文件;② 快速切換、無縫接管:當生產中心的系統無法正常運行,而又不能在短期內恢復時,可利用災備中心提供業務接管,災備中心必須在生產中心不可用并決定切換后,15min之內完成業務接管,且生產中心服務器恢復正常后,容災系統需要將災備中心的最新數據反向復制回生產中心,實現業務的恢復;③ 監控及管理功能:能實現對系統運行狀態、運行日志及系統配置等方面進行統一的管理及監控,保證在系統出現錯誤時能及時報警并跟蹤,以方便故障快速定位和解決。
[1] GB/T20988-2007,信息系統災難恢復規范[S].
[2] 胡敏,徐旭東,張曙光,等.醫院信息系統容災方案的設計與實施[J].醫療衛生裝備,2009,30(11):44-45.
[3] 劉曉輝.醫院信息系統中災備系統的設計與實現[J].醫療設備信息,2007,22(1):22-24.
[4] 朱有存,羅丹,王梅,等.基于RMAN的“軍衛一號”數據庫備份恢復方法[J].醫療衛生裝備,2007,28(1):50-51.
[5] 馬錫坤.基于Oracle的在線式應用容災系統的建立[J].中國醫療設備,2012,27(2):38-40.
[6] 王亦然.Oracle數據庫災備技術探討[J].個人電腦,2011,(11):94-96.
[7] 陳常暉.數據中心災備技術實現淺析[J].電腦知識與技術, 2009,5(36):10544-10545.
Design and Implementation of Disaster Recovery Scheme of Hospital Information System
LIN Ji-nan, WANG Hong
Department of Information, the 309thHospital of PLA, Beijing 100091, China
ObjectiveTo design a disaster recovery scheme for hospital information system (HIS).MethodsUsing the redundancy backup technology and cluster technology to achieve the data disaster recovery and application disaster recovery of HIS.ResultsWith the application of this scheme in our hospital, data loss and application interruption caused by various causes are prevented.ConclusionThe scheme is simple and effective, and makes hospital information system have abilities of data disaster recovery and application disaster recovery, which assure the continuity and high usability of critical businesses.
hospital information system; disaster recovery system; data backup
TP309.3;TP393.08
A
10.3969/j.issn.1674-1633.2013.09.016
1674-1633(2013)09-0047-03
2013-05-29
2013-07-29
作者郵箱:linjn2009@126.com