陳榮山,姚 婕,吳 昊
(泰興市中醫院,江蘇 泰興 225400)
受制于泰興中醫院原大慶路院區數據中心規模的限制,信息化建設僅依靠單服務器支撐醫院信息系統運行,隨著醫院整體規模和醫療服務能力的不斷擴大,現有的信息化服務能力已顯得捉襟見肘。同時,根據數據安全以及等保測評的要求,醫院雙活數據中心建設勢在必行。
如何利用當前的IT基礎架構先進技術,搭建多活應用場景,以滿足醫院高速發展的信息化建設要求,建設穩定、可靠、高效的信息基礎支撐平臺和服務平臺,成為泰興中醫院信息化建設至關重要的問題。
“雙活數據中心”中的“雙活”一詞源于圍棋中的術語,在中國圍棋里有一個術語叫做雙活,終局時,經雙方確認,不能被提取的棋都是活棋,這時候雙方是有些勢均力敵的,最后要以生存于棋盤的總子數來判斷勝負,其中包括雙活棋的子數多少。從圍棋上理解雙活,那就是有兩方或者兩邊都是有作戰能力,能都獨立運行。
在數據中心的基礎架構建設中,還存在諸多專業詞匯,比如:熱備、冷備、RPO和RTO等。
熱備,當主部件或者設備發生故障時,通過設置的熱備能夠自動頂替,對業務毫無影響的故障切換,這就叫熱備,最常見的比如磁盤陣列(RAID)在做完RAID以后,會針對不同的磁盤設置熱備盤(hotspare),以保證當RAID中的磁盤發生故障后,熱備盤能夠及時地替換掉那塊故障硬盤,保證RAID的完整性。
冷備,相比熱備而言,冷備不像熱備那么及時自動地解決問題,需要人為干預,這中間的過程可能會造成業務的不可用甚至數據丟失。
RPO(Recovery Point Object),是衡量災難發生后會丟失多少生產數據的指標,簡單點說就是數據持有人或者使用者所能容忍的最大數據丟失量。
RTO(Recovery Time Objective),是恢復時間目標,指在故障或災難發生之后,應用系統停止工作的最高可承受時間。
雙活,在IT基礎架構中,雙活的分類有很多,比如應用雙活、數據庫雙活和存儲雙活等,從前端的業務系統,再到底層的基礎架構,從上至下的全套冗余設計,可被認為是本地或者異地的雙活數據中間設計。當其中一個數據中心發生軟、硬件故障或者災難時,另外一個數據中心能夠在無需人工干預的情況下,自動、快速、安全地將應用、網絡流量切換過來,保證業務前端應用無感知,業務零停頓,應用零影響,保證醫院業務的連續性。
雙活數據中心建設的目的就是當我們碰到一些系統故障,或者自然災害的時候能夠有很強的抵抗性,保證整套業務系統的高可用性。高可用性可以用以下指標來衡量。
平均故障間隔MTBF(Mean Time Between Failure):表示2次故障的間隔時間,也就是系統正常運行的平均時間,這個時間越長,說明系統穩定性越高。
故障恢復時間MTTR(Mean Time To Repair):表示系統發生故障后“恢復的時間”,這個值越小,故障對用戶的影響越小。
還有一個常說的詞匯就是系統可用性,就是通過平均故障間隔和故障恢復時間這2個值換算得來的。系統可用(Availability)=MTBF/(MTBF+MTTR)×100%,這也是很多IT廠家對外宣傳的“N個9”高可用。見表1。

表1 系統可用性說明
故障時間越短,整個系統的可靠性就越高,每提升一個9需要對系統的建設有更高的要求,往往也要增加很多的軟硬件設備,更多的成本投入。
隨著信息技術的不斷進步,IT基礎架構也在不斷演進,以滿足客戶對容量、性能以及可用性的多重需求。
1.2.1 服務器單機模式
單機模式顧名思義只有一臺服務器運行一套乃至所有的應用系統,相當于一臺配置很高的個人PC。醫院里所有的應用系統都跑在單臺服務器上,如果機房發生斷電或者有火災等意外情況,應用服務器就會停止工作,進而醫院各個業務系統都不可用。
當然,作為醫院支撐的核心業務系統不會選擇這種不太可靠的方式,一定要做到關鍵業務獨立系統,并采取一定的備份措施。服務器單機模式是最傳統的IT架構模式,系統可用性較低,且易造成存儲和計算資源浪費,僅適用于剛起步的微小型企業或者應用系統數量極少的IT建設。
由于業務量較小、業務系統簡單,泰興市中醫院原有數據中心采用的就是這種服務器單機模式,配備了2臺4路服務器運行醫院信息系統(HIS)、實驗室信息系統(LIS)、影像歸檔和通信系統(PACS)系統,配備了1臺2路服務器用于備份核心數據庫文件。
1.2.2 服務器集群模式
當1臺服務器承載著多套應用后,一旦這臺服務器發生系統故障就會造成所有應用失效。這時就需要把業務分散到多臺服務器上,同時把數據集中在獨立的存儲設備上,這就需要應用服務器集群技術。
服務器集群系統是應用集群技術(Cluster)將多臺相互獨立的服務器在網絡中虛擬化成統一計算資源池,通過集群可以讓多臺服務器運行同一個或多個計算任務,提供更加強大的運算能力以及容錯能力,并解決以下幾個問題:
1)集群系統中服務器硬件故障。多個獨立服務器虛擬化成統一計算資源池后集群系統中運行的操作系統不再受限于服務器的自身資源,包括其硬件和部署在上面的軟件。當有服務器發生硬件問題宕機無法提供服務時,其他服務器能夠自動承擔故障服務器的應用要求,分流業務壓力,保證業務不中斷。
2)集群系統中軟件故障。集群系統中的服務器硬件上都可運行各種操作系統,比如windows、linux等,在操作系統上再部署各種業務軟件,當業務軟件發生故障時,對應的部署操作系統、硬件也無法提供對外服務,則應用中斷。如果我們在服務器操作系統層部署了類似于VMware HA、RoseHA等產品,借助該類軟件的冗余策略,會將業務虛擬機或者業務系統自動切換到集群中其他的服務器上,繼續運行對外提供服務。
3)集群系統中人為誤操作問題。除了軟硬件的問題,我們還會碰到一些計劃外的問題,比如人為失誤。在使用有管理權限賬號操作下,非專業的人為誤操作會引起不必要的業務停頓。因此有效的安全冗余機制,回滾機制就尤為重要。重現故障,業務系統回滾至故障的前一秒,避免人為失誤帶來的損失。
1.2.3 超融合模式
時下還有一種熱門的服務器集群搭建模式的就是超融合(HCI)模式。在超融合模式下,沒有單獨的存儲系統,都是服務器。通過超融合軟件將所有服務器串在一起,組件成一個大的集群。在集群中每臺服務器就是一個節點(Node),通過副本技術在整個集群中分散著2份以上的數據,任意一個Node發生故障都不會影響整個系統的正常運行。
超融合的優勢在于以x86標準服務器硬件設備和虛擬化管理軟件、分布式存儲軟件相結合,相較于傳統服務器集群系統,超融合將存儲也虛化成存儲資源池,數據不再集中在某一臺存儲上了,當我們需要擴容或者數據遷移,設備新舊更替時只要增加或者刪除節點就可以了,操作更加敏捷,資源交付更有彈性。
醫療行業一般把業務分為穩態和敏態兩大類。穩態業務一般包括HIS、EMR、LIS、集成平臺等應用,穩態業務一般使用傳統三層架構方式(服務器+交換機+存儲)來部署。敏態業務比如“互聯網+”醫療創新業務,提升患者就醫體驗、惠民服務類,如醫院微信公眾號、預約叫號、線上問診、遠程醫療等。這些業務敏態業務的建設都需要有靈活、高效、彈性的底層平臺支撐,超融合服務器架構也就成為了這類應用的首選。通過使用超融合解決方案可以幫助醫院快速上線業務系統,在系統敏捷性、穩定性、靈活性和可擴展性方面均具有很大優勢。
1.2.4 雙活數據中心
在上一節中我們提到集群模式下的三層架構,數據是存放在存儲設備上,因此存儲的可靠性就尤為重要。在數據中心基礎架構建設中常見的存儲雙活有兩種,一種是本地雙活,在一個數據中心搭建2套存儲,存儲設備之間無主次之分,同時提供IO讀寫。另外一種是異地雙活,2套設備分布在2個機房,機房之間無主次之分,任一機房發生故障都不會影響前端業務。
本地機房雙活系統的搭建相對來說比較簡單,只要考慮存儲設備之間的性能平衡,鏈路之間的冗余、負載均衡等即可。如圖1所示。

圖1 本地機房雙活系統
異地雙活機房建設除了本地雙活建設考慮要求,還要考慮到2個機房之間的網絡建設,包括機房之間的鏈路延時RTT(無線傳輸技術),鏈路的冗余等等,同時還需要考慮到第三方站點仲裁的設立,防止出現雙活腦裂的現象發生。
存儲雙活的建設根據各大IT廠商的方案主要分為2類,一類是通過存儲自帶軟件雙活,比如華為、HDS和Netapp等,還有一類是通過存儲雙活網關來實現,比如DELLEMC、IBM等。
第一類中,比如華為,華為存儲雙活是借助于存儲付費軟件HyperMetro來實現的。2套同樣型號、配置的存儲,通過HyperMetro來實現本地或者異地的數據實時同步。做了雙活的2臺存儲沒有主備之分,2個站點可以同時對外提供讀寫服務,并且借助第三方仲裁,對2臺存儲的服務能力實時監控,當任意一臺存儲發生故障時,通過仲裁的判斷自動將所有業務安全快速地切換到運行正常的存儲中去,保證業務連續性。
另外一類,比如DELLEMC的存儲雙活網關Vplex,能夠將DELLEMC和其他廠商存儲通過網關異構整合,虛擬化為統一的存儲資源池,實現異構存儲雙活。Vplex雙活方案有Vplex Local(本地數據中心)和Vplex metro(異地數據中心)2種方案,異地數據中心方案由2個站點的2套Vplex集群系統組成,每個站點的Vplex集群都有自己專屬的本地存儲陣列,通過創建分布式鏡像卷為跨集群的鏡像卷,提供Vplex Access Anywhere功能,2個站點的Vplex集群各有1個卷,2個卷的ID一樣。
借助于DELLEMC Vplex的縱向、橫向擴展能力,可以從獨立的雙活控制器起步,擴展至異地最多16個控制器,保證一或多的控制故障冗余;同時借助于控制器硬件獨有的緩存作用,加大數據在分布式緩存中的讀命中率,以及IO的共享負載均衡,快速支撐可以跨越上百公里的數據中心雙活建設。
不同的存儲雙活建設方案也有各自的優缺點,比如軟件雙活,優點在于單一OS,同構設備,結構簡單,故障點少,軟件功能豐富,基于磁盤基本的鏡像,對讀寫性能影響極小,且不增加延遲。往往同時支持SAN(存儲局域網)和NAS(網絡附屬存儲)的雙活,建設成本也較低。缺點在于軟件雙活往往會使用存儲控制器本身的資源,而且只能是同品牌甚至同型號之間的存儲才能做軟件雙活,有些無法做到雙活的橫向擴展。
而硬件雙活優點在于支持異構多品牌的存儲產品做雙活設計,不用被單一存儲品牌綁定,可以利舊原有設備。并且網關硬件往往會自帶高內存,有助提升整體系統性能。缺點在于投入更多的硬件成本來搭建雙活系統,增加鏈路設計的復雜性。在不同的業務場景,例如NAS場景下,像DELLME Vplex還不支持NAS的雙活。
因此在選擇存儲雙活建設方案時需要考慮的方面有很多,不僅要考慮存儲雙活方案帶來的成本投入,還要考慮自身的現有的IT建設情況,是否需要設備利舊,多個機房的鏈路帶寬,以及不同應用(針對SAN和NAS應用場景)雙活建設需求等等。
隨著人民對健康的需求愈加迫切,泰興市中醫院業務量逐年穩步增長,原有以收費為核心的業務系統已不能滿足需求,醫院業務系統重心必須向服務臨床傾斜,建設以電子病歷為核心的業務系統,同時升級數據中心以承載數量龐大的業務子系統。升級后的數據中心以虛擬化+雙活存儲為主要架構,以4臺2路服務器虛擬化、搭載2套DELLEMC雙活存儲運行前端應用程序,以2臺4路服務器HA(雙機集群系統)模式運行數據庫,兼顧了應用擴展的靈活性和數據庫的物理安全,從單機模式直接跨越到本地雙活數據中心模式,實現了數據中心建設的彎道超車。
泰興市中醫院新院區啟用后,數據中心建設再次提速升級,應用超融合技術建設了容災機房,配置了8個節點的全閃節點,使用VEEAM軟件對虛擬機進行定時備份,實現DSG數據庫備份軟件對核心數據庫實施同步,保證主機房完全故障時,容災機房可以迅速拉起業務,保障核心業務連續與數據完整。
數字化醫療是我國現階段醫療信息化建設的主要方向,結合醫療行業業務系統的要求,借助當今世界熱門IT技術來不斷滿足日益增長的就醫需求,面對多變環境下的醫療疾病挑戰,需要建設一個高水平、高質量、高穩定性的智慧數據中心,以承載醫院日益復雜的內部業務系統以及互聯網+應用,以高水平的服務提升廣大人民群眾的就醫體驗,不斷增強人民群眾就醫滿足度、安全感、幸福感,推動醫療服務高質量發展。