新疆烏魯木齊69010部隊(duì) 趙學(xué)軍
當(dāng)前,在單位信息化系統(tǒng)建設(shè)與運(yùn)行管理過程中,數(shù)據(jù)安全及應(yīng)用安全作為建設(shè)中的重要環(huán)節(jié)應(yīng)當(dāng)放到首要位置,立足長遠(yuǎn),優(yōu)先考慮,未雨綢繆,容災(zāi)系統(tǒng)就是在這種情況下應(yīng)運(yùn)而生的,它能保證關(guān)鍵數(shù)據(jù)不丟失、關(guān)鍵業(yè)務(wù)不中斷,最大限度地保障數(shù)據(jù)及應(yīng)用的高可靠性。
容災(zāi)為系統(tǒng)提供了比數(shù)據(jù)備份更高等級的保護(hù),數(shù)據(jù)備份只能保證數(shù)據(jù)的可靠,在數(shù)據(jù)恢復(fù)期間系統(tǒng)服務(wù)是停滯的,而容災(zāi)在數(shù)據(jù)安全的基礎(chǔ)上,更強(qiáng)調(diào)業(yè)務(wù)系統(tǒng)的安全。容災(zāi)工程就是采用必要的技術(shù)和特定機(jī)制,防范由于軍事打擊、自然災(zāi)害、社會動亂、病毒入侵、人為破壞或系統(tǒng)故障等造成的信息系統(tǒng)數(shù)據(jù)損失、業(yè)務(wù)中斷,確保計算機(jī)信息系統(tǒng)在遭受破壞的情況下能夠盡可能減少損失、盡快恢復(fù)運(yùn)行的一項(xiàng)系統(tǒng)工程。容災(zāi)的實(shí)現(xiàn)主要是通過在本地或異地建立和維護(hù)一個備份系統(tǒng),利用地理上的分散性加強(qiáng)對災(zāi)難事件的抵御能力。容災(zāi)系統(tǒng)更加強(qiáng)調(diào)外界環(huán)境對系統(tǒng)的影響,特別是大范圍的災(zāi)難性事件對信息系統(tǒng)節(jié)點(diǎn)的影響,提供節(jié)點(diǎn)級別的系統(tǒng)恢復(fù)功能。
容災(zāi)系統(tǒng)有兩個關(guān)鍵性指標(biāo):一是恢復(fù)時間目標(biāo)(RTO)(Recovery Time Objective),即災(zāi)難發(fā)生后,業(yè)務(wù)功能從停頓到恢復(fù)的時間要求;二是恢復(fù)點(diǎn)目標(biāo)(RPO)(Recovery Point Objective),即當(dāng)災(zāi)難發(fā)生后,系統(tǒng)和數(shù)據(jù)必須恢復(fù)到的時間點(diǎn)要求。在國際標(biāo)準(zhǔn)SHARE 78中定義的容災(zāi)系統(tǒng)有七個層次,從最簡單的僅在本地進(jìn)行磁帶備份到將備份的磁帶存儲在異地,再到建立應(yīng)用系統(tǒng)實(shí)時切換的異地備份系統(tǒng),恢復(fù)時間從幾天到小時級到分鐘級、秒級或0數(shù)據(jù)丟失。
容災(zāi)按不同的劃分方式有不同的類型。
一是按照業(yè)務(wù)系統(tǒng)與備份系統(tǒng)之間的距離遠(yuǎn)近劃分為本地容災(zāi)和異地容災(zāi)。本地容災(zāi)一般將業(yè)務(wù)系統(tǒng)與備份系統(tǒng)放在同一個建筑物內(nèi)或相近的范圍之內(nèi)。異地容災(zāi)則將備份系統(tǒng)遠(yuǎn)離業(yè)務(wù)系統(tǒng),從數(shù)十公里到上千公里不等。
二是按照實(shí)施容災(zāi)的層次劃分為數(shù)據(jù)容災(zāi)、應(yīng)用容災(zāi)與業(yè)務(wù)容災(zāi)。數(shù)據(jù)容災(zāi)是指在異地建立一個數(shù)據(jù)備份系統(tǒng),該系統(tǒng)是業(yè)務(wù)系統(tǒng)關(guān)鍵數(shù)據(jù)的一個可用復(fù)制。該數(shù)據(jù)可以是業(yè)務(wù)系統(tǒng)數(shù)據(jù)的完全實(shí)時復(fù)制,也可以比業(yè)務(wù)系統(tǒng)數(shù)據(jù)略微落后,確保災(zāi)難發(fā)生后業(yè)務(wù)數(shù)據(jù)一定是可用的。應(yīng)用容災(zāi)是在數(shù)據(jù)容災(zāi)的基礎(chǔ)上,建立一套完整的與業(yè)務(wù)系統(tǒng)相當(dāng)?shù)膫浞菹到y(tǒng)。建立這樣一個系統(tǒng)不僅需要一份可用的數(shù)據(jù)復(fù)制,還要有包括網(wǎng)絡(luò)、主機(jī)、應(yīng)用、甚至IP等資源以及各資源之間的良好協(xié)調(diào)。業(yè)務(wù)容災(zāi)是將業(yè)務(wù)分解為粒度較細(xì)的應(yīng)用,當(dāng)災(zāi)難發(fā)生時可以通過對業(yè)務(wù)進(jìn)行重組從而保證業(yè)務(wù)的連續(xù)性。
三是按照數(shù)據(jù)復(fù)制模式不同劃分為同步復(fù)制、異步復(fù)制、半同步復(fù)制和自適應(yīng)復(fù)制。同步復(fù)制要求在主備中心同時提交I/O操作(主要是寫操作),并且只有在都完成之后才能進(jìn)行下一次I/O操作,它能保證數(shù)據(jù)的RPO在秒級,但同步模式通常會對系統(tǒng)的性能產(chǎn)生較大的影響,對網(wǎng)絡(luò)帶寬要求較高,整體投資較大,運(yùn)營成本較高,支持的距離有限。異步復(fù)制不要求數(shù)據(jù)在主、備節(jié)點(diǎn)同時提交,數(shù)據(jù)首先在主節(jié)點(diǎn)提交,隨后處理后續(xù)服務(wù),然后才在備份節(jié)點(diǎn)提交。半同步復(fù)制基本與異步復(fù)制相同,但是它只允許在接收到備份中心確認(rèn)信息前進(jìn)行讀操作而不允許寫操作。自適應(yīng)復(fù)制則是同步、異步復(fù)制的折衷。
一般服務(wù)器數(shù)據(jù)存儲都采用磁盤陣列來確保數(shù)據(jù)安全,常用的有RAID1、RAID5、RAID6等,能夠提供不同方式的磁盤數(shù)據(jù)保護(hù),這種保護(hù)提供了信息系統(tǒng)最為基礎(chǔ)的數(shù)據(jù)保護(hù)方式,當(dāng)單塊硬盤出現(xiàn)故障時,能夠通過磁盤陣列恢復(fù)數(shù)據(jù)。
但其缺點(diǎn)也較為明顯,首先,它無法保護(hù)業(yè)務(wù),在數(shù)據(jù)恢復(fù)期間系統(tǒng)是無法提供正常服務(wù)的,而且服務(wù)器其它部件導(dǎo)致的宕機(jī)或其它原因?qū)е碌臉I(yè)務(wù)停滯,它是無法解決的;其次,它只能解決單個服務(wù)器問題,不是一種集中解決方案。
傳統(tǒng)的磁帶庫及近年出現(xiàn)的虛擬磁帶庫技術(shù)是一種超大容量存儲備份方式,廣泛應(yīng)用于銀行、石油、圖書館、廣播電視、軍隊(duì)等需要海量存儲的部門和行業(yè),能夠以較高性能和較低成本為異構(gòu)系統(tǒng)提供存儲歸檔和備份,便于離線和異地保存。
這種方式與應(yīng)用系統(tǒng)無關(guān),是基于數(shù)據(jù)層面的備份,可以為異構(gòu)應(yīng)用提供大容量集中式數(shù)據(jù)備份。但磁帶庫技術(shù)仍舊只是一種備份技術(shù),它不能解決業(yè)務(wù)系統(tǒng)的應(yīng)急恢復(fù)能力,在數(shù)據(jù)和應(yīng)用系統(tǒng)恢復(fù)期間業(yè)務(wù)是停滯的,只能保證數(shù)據(jù)的容災(zāi),不能保證應(yīng)用的容災(zāi)。
集群(Cluster)技術(shù)是指一組相互獨(dú)立的計算機(jī),利用高速通信網(wǎng)絡(luò)組成一個計算機(jī)系統(tǒng),每個群集節(jié)點(diǎn)(即集群中的每臺計算機(jī))都是運(yùn)行其自己進(jìn)程的一個獨(dú)立服務(wù)器。這些進(jìn)程可以彼此通信,對網(wǎng)絡(luò)客戶機(jī)來說是就像是形成了一個單一系統(tǒng),協(xié)同起來向用戶提供應(yīng)用程序、系統(tǒng)資源和數(shù)據(jù),并以單一系統(tǒng)的模式加以管理。計算機(jī)集群技術(shù)的出發(fā)點(diǎn)是為了提供更高的可用性、可管理性、可伸縮性的計算機(jī)系統(tǒng)。一個集群包含多臺擁有共享數(shù)據(jù)存儲空間的服務(wù)器,各服務(wù)器通過內(nèi)部局域網(wǎng)相互通信。當(dāng)一個節(jié)點(diǎn)發(fā)生故障時,它所運(yùn)行的應(yīng)用程序?qū)⒂善渌?jié)點(diǎn)自動接管。
其中,只有兩個節(jié)點(diǎn)的高可用集群又稱為雙機(jī)熱備,即使用兩臺服務(wù)器互相備份。當(dāng)一臺服務(wù)器出現(xiàn)故障時,可由另一臺服務(wù)器承擔(dān)服務(wù)任務(wù),從而在不需要人工干預(yù)的情況下,自動保證系統(tǒng)能持續(xù)對外提供服務(wù)。可見,雙機(jī)熱備是集群技術(shù)中的最簡單的一種。
雖然集群技術(shù)能夠達(dá)到數(shù)據(jù)和應(yīng)用的雙保險,但這種模式也有弊端。它無法避免數(shù)據(jù)誤刪除、邏輯性破壞和自然災(zāi)難,且代價高昂,無法統(tǒng)一管理和集中。
持續(xù)數(shù)據(jù)保護(hù)(CDP)是一種在不影響應(yīng)用系統(tǒng)正常運(yùn)行的前提下,持續(xù)捕捉或跟蹤目標(biāo)數(shù)據(jù)所發(fā)生的任何改變,可以恢復(fù)到此前任意時間點(diǎn)的方法。CDP系統(tǒng)能夠提供塊級、文件級和應(yīng)用級的備份。CDP技術(shù)通過在操作系統(tǒng)核心層中植入文件過濾驅(qū)動程序來實(shí)時捕獲所有文件的訪問操作,對于需要CDP連續(xù)備份保護(hù)的文件,當(dāng)CDP管理模塊經(jīng)由文件過濾驅(qū)動攔截到其改寫操作時,則預(yù)先將文件數(shù)據(jù)變化部分連同當(dāng)前的系統(tǒng)時間戳(System Time Stamp)一起自動備份到存儲設(shè)備。從理論上說,任何一次的文件數(shù)據(jù)變化都會被自動記錄,因而稱之為持續(xù)數(shù)據(jù)保護(hù)。
CDP技術(shù)是對傳統(tǒng)數(shù)據(jù)備份技術(shù)的一次革命性的重大突破。傳統(tǒng)的數(shù)據(jù)備份解決方案專注于對數(shù)據(jù)的周期性備份上,因此一直伴隨有備份窗口、數(shù)據(jù)一致性以及對生產(chǎn)系統(tǒng)的影響等問題。現(xiàn)在,CDP為用戶提供了新的數(shù)據(jù)保護(hù)手段,系統(tǒng)管理者無須關(guān)注數(shù)據(jù)的備份過程(因?yàn)镃DP系統(tǒng)會不斷監(jiān)測關(guān)鍵數(shù)據(jù)的變化,從而可以自動實(shí)現(xiàn)數(shù)據(jù)的保護(hù)),而是僅僅當(dāng)災(zāi)難發(fā)生后,簡單地選擇需要恢復(fù)到的時間點(diǎn)即可實(shí)現(xiàn)數(shù)據(jù)的快速恢復(fù)。
通過在客戶端加裝iSCSI型主機(jī)總線適配器(HBA卡,Host Bus Adapter)實(shí)現(xiàn)SANboot,其功能是當(dāng)受保護(hù)服務(wù)器操作系統(tǒng)不能正常啟動時,通過對HBA卡的配置,并選用相應(yīng)系統(tǒng)啟動選項(xiàng),就可實(shí)現(xiàn)受保護(hù)服務(wù)器操作系統(tǒng)的快速啟動,SANboot啟動速度與本地相當(dāng)。
將最新的CDP技術(shù)和iSCSI HBA遠(yuǎn)程引導(dǎo)技術(shù)相結(jié)合,就能夠提供文件、數(shù)據(jù)庫、操作系統(tǒng)的實(shí)時備份與恢復(fù),整合數(shù)據(jù)備份、系統(tǒng)恢復(fù)、災(zāi)難恢復(fù)、本地及異地容災(zāi)等多項(xiàng)功能,并且能同時給多個系統(tǒng)提供容災(zāi)服務(wù),在容量、帶寬、成本等方面是一種較為出色的解決方案,可以滿足大多數(shù)單位信息化建設(shè)的要求,提高數(shù)據(jù)防護(hù)能力,為業(yè)務(wù)工作正常開展提供有力支撐。
容災(zāi)系統(tǒng)的建立,一定要以用戶的需求為出發(fā)點(diǎn),首先要根據(jù)應(yīng)用的類型確定需求的優(yōu)先順序原則,這樣才能確定相關(guān)的方案。以下的因素應(yīng)是容災(zāi)系統(tǒng)建設(shè)重點(diǎn)考慮的相關(guān)原則:
1.容災(zāi)系統(tǒng)應(yīng)具有開放性,不依賴特定硬件系統(tǒng)。應(yīng)支持包括TCP/IP網(wǎng)絡(luò)在內(nèi)的廣泛的傳輸介質(zhì)。
2.考慮到容災(zāi)能力和對應(yīng)用系統(tǒng)性能的影響,容災(zāi)方案不僅要支持近距的、同步的數(shù)據(jù)容災(zāi),還必須能支持遠(yuǎn)程的、異步的數(shù)據(jù)容災(zāi)。對于異地數(shù)據(jù)容災(zāi),數(shù)據(jù)復(fù)制不僅僅要求在異地有一份數(shù)據(jù)拷貝,同時必須保證異地數(shù)據(jù)的完整性、可用性。
3.容災(zāi)系統(tǒng)本身應(yīng)具備各種容錯考慮。能支持靈活多樣的容災(zāi)結(jié)構(gòu)。
4.完善的容災(zāi)系統(tǒng)應(yīng)該考慮實(shí)用的災(zāi)難恢復(fù)手段,建立多層次的廣域網(wǎng)絡(luò)故障切換機(jī)制。在遠(yuǎn)程的容災(zāi)系統(tǒng)中,既要包含本地系統(tǒng)的安全機(jī)制、遠(yuǎn)程的數(shù)據(jù)復(fù)制機(jī)制,還應(yīng)具有廣域網(wǎng)范圍的遠(yuǎn)程故障切換能力和故障診斷能力。也就是說,一旦故障發(fā)生,系統(tǒng)要有強(qiáng)大的故障診斷和切換策略制訂機(jī)制,確保快速的反應(yīng)和迅速的業(yè)務(wù)接管。實(shí)際上,廣域網(wǎng)范圍的高可用能力與本地系統(tǒng)的高可用能力應(yīng)形成一個整體,實(shí)現(xiàn)多級的故障切換和恢復(fù)機(jī)制,確保系統(tǒng)在各個范圍的可靠和安全。