張?jiān)?何懋 周帆帆
(昆明醫(yī)科大學(xué)第一附屬醫(yī)院信息中心 云南省昆明市 650032)
近年來,大型綜合性三甲醫(yī)院通常建設(shè)有數(shù)據(jù)中心,以承載以電子病歷為核心的HIS、EMR、PACS、LIS 等信息系統(tǒng)的運(yùn)行,為醫(yī)院業(yè)務(wù)工作的開展提供了平臺(tái)技術(shù)支撐。隨著互聯(lián)網(wǎng)醫(yī)療、大數(shù)據(jù)、人工智能、智慧醫(yī)療等技術(shù)的不斷應(yīng)用,醫(yī)院信息系統(tǒng)不斷發(fā)展壯大,醫(yī)院管理、科研、教學(xué)、醫(yī)療越來越依賴于信息系統(tǒng)支撐和數(shù)據(jù)的支持,龐大系統(tǒng)應(yīng)用,信息數(shù)據(jù)海量增長(zhǎng),信息數(shù)據(jù)逐漸發(fā)展成為醫(yī)院核心資產(chǎn)。信息系統(tǒng)高度集中和信息存儲(chǔ)網(wǎng)絡(luò)化,加大了各類風(fēng)險(xiǎn)的發(fā)生概率和信息資產(chǎn)的脆弱程度。
昆明醫(yī)科大學(xué)第一附屬醫(yī)院是一所集醫(yī)療、教學(xué)、科研、干部保健于一體的大型三甲綜合醫(yī)院,編制床位4500 張,年出院17.28萬人次,門診量396 萬人次,每年產(chǎn)生結(jié)構(gòu)化數(shù)據(jù)(HIS/EMR、LIS、PACS 等)和非結(jié)構(gòu)化數(shù)據(jù)(PCSA 影像)約28TB。擁有同城兩個(gè)院區(qū),分別建設(shè)有B 級(jí)標(biāo)準(zhǔn)機(jī)房和數(shù)據(jù)中心。主院區(qū)數(shù)據(jù)中心核心網(wǎng)絡(luò)區(qū):利用萬兆交換機(jī)通過交換機(jī)多虛一集群技術(shù)實(shí)現(xiàn)跨交換機(jī)的鏈路聚合,提供萬兆網(wǎng)絡(luò)接入服務(wù)。服務(wù)器區(qū):數(shù)據(jù)庫服務(wù)區(qū)主要采用X86 物理主機(jī)集群方式,利用Oracle RAC 實(shí)現(xiàn)服務(wù)器本地雙活,支持HIS、EMR、PACS、LIS、ICU 等核心業(yè)務(wù)應(yīng)用,保障醫(yī)院業(yè)務(wù)7X24 小時(shí)持續(xù)運(yùn)行,滿足業(yè)務(wù)系統(tǒng)高性能、高可用、高可擴(kuò)展性、高穩(wěn)定的需求。應(yīng)用服務(wù)器采用虛擬化方式形成計(jì)算資源池,采用多節(jié)點(diǎn)的虛擬化平臺(tái)進(jìn)行建設(shè),通過資源管理平臺(tái)對(duì)計(jì)算資源進(jìn)行按需分配和動(dòng)態(tài)調(diào)配。
醫(yī)院信息化的深入發(fā)展,醫(yī)院信息系統(tǒng)成為迄今為止世界上企業(yè)級(jí)信息系統(tǒng)中最為復(fù)雜的一類[1],使得醫(yī)院業(yè)務(wù)活動(dòng)離開信息系統(tǒng)就難以運(yùn)行的地步。源源不斷涌入的人群,7×24 的業(yè)務(wù)運(yùn)行方式,使得醫(yī)院信息系統(tǒng)數(shù)據(jù)以TB 級(jí)增長(zhǎng),通過定時(shí)備份與恢復(fù),可能導(dǎo)致數(shù)據(jù)恢復(fù)時(shí)間長(zhǎng),停機(jī)時(shí)間長(zhǎng)、造成備份時(shí)間點(diǎn)到故障發(fā)生時(shí)間點(diǎn)的數(shù)據(jù)丟失。
綜上所述,為保障醫(yī)院業(yè)務(wù)持續(xù)性和數(shù)據(jù)的安全,在異地建設(shè)與生產(chǎn)中心主機(jī)性能按比例匹配、架構(gòu)相同或與之等同的應(yīng)用系統(tǒng),即災(zāi)備中心,一旦生產(chǎn)中心意外癱瘓,災(zāi)備中心可以接替業(yè)務(wù)中心來對(duì)外提供持續(xù)的服務(wù)。
目前業(yè)界以系統(tǒng)恢復(fù)時(shí)間(RTO)和數(shù)據(jù)丟失量(RPO)作為災(zāi)備系統(tǒng)建設(shè)標(biāo)準(zhǔn)。恢復(fù)時(shí)間目標(biāo)(Recovery Time Objective,簡(jiǎn)稱RTO)表示從災(zāi)難發(fā)生直到業(yè)務(wù)流程再次運(yùn)行(即被恢復(fù))的時(shí)間。RTO 有兩個(gè)組成部分,明確災(zāi)難發(fā)生后指示恢復(fù)流程開始的決策時(shí)間和進(jìn)行災(zāi)難恢復(fù)流程的實(shí)施時(shí)間。一般來說,恢復(fù)時(shí)間(RTO)越短,那么災(zāi)難恢復(fù)方案的成本就越高,災(zāi)難造成的業(yè)務(wù)損失就越小。結(jié)合醫(yī)院實(shí)際RTO/RPO 值如表1 所示。
根據(jù)災(zāi)備系統(tǒng)建設(shè)內(nèi)容和業(yè)務(wù)恢復(fù)需求,按照不同的災(zāi)備級(jí)別進(jìn)行建設(shè)。針對(duì)各核心業(yè)務(wù)系統(tǒng)災(zāi)難恢復(fù)點(diǎn)目標(biāo)(RPO)定義為趨近 0 分鐘;災(zāi)難恢復(fù)時(shí)間目標(biāo)(RTO)定義為30 分鐘到48 小時(shí)不等。

表1:醫(yī)院信息系統(tǒng)業(yè)務(wù)分析

圖1:容災(zāi)拓?fù)?/p>
同城雙中心:指在同城建立兩個(gè)可獨(dú)立承擔(dān)核心系統(tǒng)運(yùn)行的數(shù)據(jù)中心,雙中心具備基本等同的業(yè)務(wù)處理能力,并通過高速鏈路實(shí)時(shí)的進(jìn)行數(shù)據(jù)同步。在使用模式上可分為雙活、雙運(yùn)營(yíng)或主備運(yùn)行模式。其運(yùn)行模式如表2 所示。
結(jié)合醫(yī)院業(yè)務(wù)應(yīng)用和醫(yī)院管理要求,容災(zāi)系統(tǒng)建設(shè)為同城主備營(yíng)模式。
在醫(yī)院容災(zāi)系統(tǒng)的建設(shè)過程中,生產(chǎn)機(jī)房和容災(zāi)機(jī)房位于同城不同院區(qū),通過部署多條裸光纖的方式作為傳輸鏈路,則可供選擇技術(shù)如表3 所示。

表2:容災(zāi)模式

表3:容災(zāi)技術(shù)選型
綜上所述,考慮到各種技術(shù)的成熟度問題,容災(zāi)系統(tǒng)選擇如下技術(shù)進(jìn)行建設(shè):
(1)本地備份系統(tǒng)建設(shè):采用備份存儲(chǔ)介質(zhì)一體化的備份一體機(jī)進(jìn)行建設(shè);
(2)同城應(yīng)用級(jí)容災(zāi)系統(tǒng)建設(shè):核心業(yè)務(wù)系統(tǒng)采用基于數(shù)據(jù)庫的復(fù)制技術(shù)實(shí)現(xiàn)數(shù)據(jù)復(fù)制。
如圖1 所示,采用基于數(shù)據(jù)庫的復(fù)制技術(shù)和基于存儲(chǔ)陣列的復(fù)制技術(shù)構(gòu)建應(yīng)用級(jí)容災(zāi)中心;通過租用云服務(wù)商數(shù)據(jù)災(zāi)備服務(wù),利用備份一體機(jī)遠(yuǎn)程復(fù)制功能將數(shù)據(jù)同步備份到云端提升數(shù)據(jù)容災(zāi)能力。
對(duì)HIS/EMR、PACS、LIS、ICU/手麻/血透等核心數(shù)據(jù)庫服務(wù)器,在生產(chǎn)機(jī)房分別配置2 臺(tái)X86 服務(wù)器,組成ORACLE RAC 集群。在容災(zāi)機(jī)房按照生產(chǎn)機(jī)房的業(yè)務(wù)系統(tǒng)配置相同配置的單臺(tái)X86 服務(wù)器。
對(duì)于非結(jié)構(gòu)化數(shù)據(jù),在生產(chǎn)中心和容災(zāi)中心分別配置1 套大容量的NAS 存儲(chǔ),用于PACS 影像等非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ),通過NAS 存儲(chǔ)的遠(yuǎn)程復(fù)制功能,實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的實(shí)時(shí)復(fù)制。
生產(chǎn)中心與容災(zāi)中心分屬于同一個(gè)廣域網(wǎng)上的不同網(wǎng)段,通過客戶端的中心路由器配置Failover 切換,支持對(duì)兩個(gè)中心的同時(shí)訪問能力,保證客戶端在災(zāi)難發(fā)生后仍能與災(zāi)難備份中心建立TCP/IP 連接。
(1)模擬測(cè)試:模擬核心業(yè)務(wù)系統(tǒng)發(fā)生災(zāi)難性故障,完全宕機(jī)失效,測(cè)試災(zāi)備中心可以在規(guī)定時(shí)間內(nèi)對(duì)外提供服務(wù)。通過中斷生產(chǎn)中心物理連接線纜,模擬生產(chǎn)中心出現(xiàn)故障,災(zāi)備中心存儲(chǔ)變?yōu)榭捎?,?shù)據(jù)庫啟動(dòng)。
(2)并行測(cè)試:模擬部分核心業(yè)務(wù)系統(tǒng)發(fā)生災(zāi)難性故障,災(zāi)備中心可以在規(guī)定時(shí)間內(nèi)將故障業(yè)務(wù)接管并對(duì)外提供服務(wù)。模擬部分核心業(yè)務(wù)系統(tǒng)故障,通過更改網(wǎng)絡(luò),使容災(zāi)中心的該業(yè)務(wù)對(duì)外提供服務(wù)。
(3)完全中斷測(cè)試:模擬全部核心業(yè)務(wù)系統(tǒng)發(fā)生災(zāi)難性故障,災(zāi)備中心可以在規(guī)定時(shí)間內(nèi)將所有業(yè)務(wù)接管并對(duì)外提供服務(wù)。
經(jīng)測(cè)試,生產(chǎn)中心與災(zāi)備中心、云端核心業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫經(jīng)過系統(tǒng)切換后最大歸檔日志號(hào)一致,時(shí)間低于1 分鐘,應(yīng)用恢復(fù)RTO ≤10 分鐘,RPO ≈0。
應(yīng)用級(jí)別的系統(tǒng)容災(zāi),存儲(chǔ)和主機(jī)應(yīng)統(tǒng)一考慮,容災(zāi)中心需要接管生產(chǎn)中心的數(shù)據(jù)庫和應(yīng)用服務(wù)器,配置應(yīng)與生產(chǎn)中心主機(jī)性能按比例匹配、架構(gòu)相同。
應(yīng)用級(jí)容災(zāi)接管建議由人來決策,避免生產(chǎn)中心可能產(chǎn)生的如斷電、網(wǎng)絡(luò)故障、服務(wù)器暫時(shí)故障抖動(dòng)。
為確保災(zāi)備系統(tǒng)數(shù)據(jù)的一致性、完整性、正確性,當(dāng)災(zāi)難發(fā)生時(shí)生產(chǎn)系統(tǒng)可盡快恢復(fù),需要在平時(shí)通過災(zāi)備演練對(duì)災(zāi)備數(shù)據(jù)、災(zāi)備系統(tǒng)、災(zāi)備流程做進(jìn)一步的評(píng)測(cè)。