闕凌燕,陳利躍,黃 斌
(浙江電力調度通信中心,杭州 310007)
浙江電力調度管理信息系統采用先進、成熟的信息技術,以數據為中心,以實時和準實時系統為主框架,根據具體技術業務需求,完成了6大專業、62個專業模塊、56個工作流的開發,涵蓋了調度生產和行政管理的絕大部分業務。經過多年的應用和不斷完善發展,調度管理信息系統已經成為浙江省電力調度中心不可或缺的應用平臺。如何提高系統數據安全性、可靠性、可用性也顯得越來越重要。
因此,需設計構建一套合理的數據保護方案,以保障系統在災難或突發事件時仍能穩定運行和正常應用。即使出現數據庫故障或崩潰,也不必中斷業務應用即能迅速恢復系統和數據,保證系統業務的連續性。
系統原有數據保護采用傳統備份陣列加磁帶庫方式,數據庫服務器直接通過光纖通道卡和SAN交換機將數據以LAN-Free方式備份到磁帶庫。當系統故障時,備份系統找出最后完整備份的磁帶,恢復系統和數據。這種備份模式存在以下缺陷:
(1)系統備份和恢復的時間長,無法做到對數據進行高頻率的備份。
(2)由于備份代理會影響主機的性能,備份過程影響生產系統的運行,因此備份時間都必須安排在半夜業務量少的時間段進行。
(3)傳統備份方式無法驗證日常的備份數據在突發故障時能否恢復成功。當發生災難時,不能保證用戶數據快速恢復,影響用戶應用的連續性和數據完整性。
一旦出現故障,長時間的系統應用中斷將極大地影響工作正常進行,對此尋求了新一代連續數據保護技術 CDP (continuous data protection)。CDP技術可以捕捉到一切文件級或數據塊級別的數據改動,可以對備份對象進行更加細化的保護與恢復。當出現數據丟失、損壞或安全問題時,數據庫系統可以迅速恢復到指定時間點,特別是恢復到最新時刻的數據一致狀態,可以連續捕獲數據變化并進行準實時備份。
新一代CDP數據保護技術建立了一個近似虛擬存儲系統,應用系統可以在不同的存儲設備上透明切換,采用CDP技術的優勢在于:
(1)所有業務和應用數據實時鏡像,基于塊級的實時系統克隆,為所有業務系統提供保障。
(2)對系統的保護均不改變任何系統現狀,不影響主機性能,輕松實現災難防御體系。
(3)系統出現任何故障時,都可以利用CDP技術實現快速恢復。
(4)自動產生數據快照。CDP技術對每一個應用都可以產生多達256個數據快照,可以在幾秒鐘內將龐大的系統歷史版本展現出來。
(5)數據保護精細化。CDP技術保存和恢復的數據,其間隔和粒度改變了傳統的粗放型 (如傳統的一天一備份),走向了精細化。
系統采用3臺HP UNIX服務器,圖1中所示數據庫服務器(1,2)為生產數據庫服務器,數據庫服務器(3)為備用數據庫服務器。2臺互為集群的生產數據庫服務器為前端客戶提供在線訪問,保證系統的高可用性,通過CDP管理平臺將數據連續復制到EMC CX500存儲系統。備用數據庫服務器通過CDP技術保持當前數據為最新狀態。正常情況2臺服務器會進行狀態均衡,各自承擔業務。一旦1臺出現問題,所有業務都會自動切換到另外1臺服務器上。如果2臺生產數據庫服務器都出現異常,即可將應用服務器切換到備用數據庫服務器,保障業務正常進行,避免故障造成業務停頓。然后對生產服務器進行恢復,恢復正常后再將應用服務器從備用庫切回。

圖1 系統結構圖
在CDP服務器上運行時間點標記Time-mark(時間戳)選項,可進行在線數據多個版本的保存。利用Time-mark與快照代理,通過設置合理的數據快照策略,管理員可以在任何時刻創建一個Time-mark,按照事先設定的時間間隔,將指定時刻點的數據視圖保存下來。快照代理確保數據完整性,Time-mark功能則使應用主機能在瞬間加載過去任意時刻的數據版本,避免漫長的數據庫修復和一致性檢查,從而實現數據恢復時間最小化。因誤操作、病毒侵襲等導致的生產站點數據錯誤,可通過CDP服務器的內置時間標記回溯并快速恢復到此前某一數據良好的狀態點,該過程只需在圖形化管理界面上輕點鼠標即可實現。
根據調度管理系統的業務特點,設置為5 min保留1個狀態點,共保留576個狀態點,即2天的業務備份。當系統發生故障,丟失數據最長時間是5 min,可以通過程序補齊丟失數據。同時將備用數據庫狀態自動同步到最近一個狀態點。
當系統運行過程中出現數據庫故障導致數據庫系統崩潰時,采用如下步驟即可啟動備用數據庫:
(1)通過CDP的客戶端,取消分配給主數據庫的磁盤。
(2)通過備份數據庫服務器測試磁盤最近的Time-mark點的數據庫可用性。
(3)通過CDP的客戶端,檢測磁盤是否在最新的Time-mark,不是則回滾到最新的Time-mark。
(4)將回滾后的磁盤分配給備用數據庫,啟動備用數據庫。
啟用備用數據庫后,調度管理系統業務恢復,即可對生產系統主數據庫進行故障修復。修復后,將存儲和CDP磁盤建立的鏡像指向主數據庫,將業務切換回主數據庫,恢復過程完成。
采用CDP技術后,進一步提升了調度管理信息系統的數據安全性,優化了系統功能。
(1)在生產端建立一套完整的定時自動備份,自動完成數據在線同步,避免了因發生災難及人為誤操作后的數據丟失。
(2)簡化了系統備份管理,能夠對數據備份系統進行靈活的集中管理。
(3)提供了良好的操作使用界面及事件告警等,簡化了復雜的數據保護工作,降低了維護工作量。
(4)具有強大的擴充能力,數據保護系統具備良好的服務器主機節點及存儲容量按需增加的擴充能力,可隨著數據的增多對調度管理信息系統擴充構建。
(5)方便構建數據測試環境。生產數據庫數據同步到備用數據庫后,對于影響生產系統的測試,可在備用數據庫提取狀態點進行,還可以方便地對生產系統進行二次開發測試。
數據保護方案實施后,對可能出現的故障進行了測試,進行了生產系統故障模擬并順利地將調度管理信息系統切換到了備用數據庫。上述操作對最終用戶完全透明,用戶端不需更改任何設置,即可訪問恢復后的調度管理信息系統。即使故障發生后切換到備用數據庫服務器,或生產數據庫服務器恢復后重新接管,對用戶訪問沒有任何影響。系統運行穩定、性能可靠,為建設高性能、高可用性的信息平臺奠定了良好基礎。
[1] 安劍,胡勇,李振華.北方聯合電力ERP系統異地容災保護方案[J].電力信息化,2008,6(7)∶119-23.
[2] 王彥龍,李戰懷,徐娟.基于塊的數據庫系統連續數據保護[J].計算機研究與發展,2006(3)∶168-173.
[3] ALAIN AZAGURY, MICHAEL E FACTOR, JULIAN SATRAN.Point-in-time copy∶yesterday, today and tomorrow[C].College Park,USA∶the 19thIEEE Symposium on Mass Storage systems,2002:259-270.