張操
(國家電投集團貴州金元股份有限公司,貴州 貴陽 551800)
現代企業基本都以集中部署分級應用的方式展開信息化應用,當ERP系統成為企業生產經營管理重要支撐時,信息系統和數據就成為企業核心資產,對數據實施連續性安全保護是必要的、迫切的,它是企業連續運作、規避風險、健康發展的要求,是企業進行全球化戰略布局、成為世界級企業的要求,也是行業、法規遵從性的要求。通過一系列災備系統的建設和計劃行為,實現當關鍵系統發生災難時能夠快速恢復,實現無數據丟失的災難保護,實現業務連續性目標。災備系統涉及眾多計算機技術及眾多廠商的各類解決方案,所以容災是一種科技含量較高的特殊IT運維管理,項目實施的關鍵,在于建立災備系統有關的常態管理流程,建立配套應急管理預案,建立科學的人員、資源組織管理流程。
企業ERP系統的應用、數據服務集中部署,建大集中應用承載數據中心,建基礎網絡,包括辦公局域網、數據中心局域網、企業廣域網,ERP系統部署于企業數據中心,公司本部、所屬單位廣域網互聯互通,本部通過辦公網使用ERP,所屬單位通過廣域網使用ERP。ERP系統應用現狀參見圖1。
ERP硬件系統主要是后端存儲、前端服務器及用戶網絡,包括存儲陣列、8Gbps FC存儲網絡、10Gbit/s以太網絡,具體配置如下。
(1)數據庫服務器由2臺高配小機組成,2臺分別作為Oracle RAC的2個運算節點,運行Oracle 10g RAC,通過8Gbps FC存儲網訪問共享存儲陣列。(2)WEB應用服務器由2臺高配x86 PC服務器組成。(3)采用Oracle腳本邏輯導出的方式,每天備份ERP系統數據,同時存儲在備份磁盤陣列及備份磁帶庫。
(1)通過Oracle腳本進行數據備份,人工操作效率低,備份文件管理效率低,易發生備份文件錯亂,無法保證數據恢復的準確性和高效率。(2)ERP系統承載了企業生產經營財務等核心業務,災難發生時Oracle腳本恢復數據需數小時,不能滿足業務連續性要求。(3)由于腳本備份僅實現了數據備份,缺少裸系統和數據平臺備份,災難發生時需重建系統和數據平臺,不能實現快速恢復。(4)存儲存在單點故障,主存儲發生故障會導致系統崩潰、數據丟失、服務停止,對企業生產經營造成極大的損失。沒有災難備用資源,不能短時間恢復系統運行。
針對以上關鍵系統存在的安全隱患和風險,分階段體系化建設災備系統,逐步提高并不斷強化對關鍵系統的數據保護。
第一階段:關鍵系統應用初期,業務量、數據量、訪問量都不大,結合企業IT資源現狀,確定一期災備系統指標RPO≤2小時,RTO≤8小時。
第二階段:隨著應用深度和范圍不斷擴大,業務量、數據量、訪問量持續增加,信息系統逐漸成為企業生產經營的重要支撐,災備系統的重要性凸顯,在一期的基礎上,二期災備系統指標RPO=0,數據任意點時間恢復。
(1)建立自動化集中備份管理機制,采用專業備份管理軟件,對關鍵系統的數據和環境,實現自動化、專業化備份,并同時保存在備份陣列和磁帶庫,還實現了對非關鍵系統的備份。(2)建立裸系統快速恢復環境,當ERP服務器發生系統錯誤崩潰不能啟動時,可快速恢復系統備份映像。(3)建立災難備用環境和恢復測試環境,當關鍵系統發生故障而短時間無法修復,備用環境可臨時替代生產環境,恢復關鍵系統應用,備用環境也可作為備份恢復數據驗證和災難恢復演練使用。(4)選擇美國賽門鐵克(Symantec)公司的NetBackup作為一期關鍵產品,新增一臺小機作為災難備用硬件,同時作為AIX、Linux等異構系統的裸機恢復環境,一期拓撲見圖2。

圖2 企業核心業務ERP系統一期容滅項目建成
在一期災備系統基礎上,為達到更高級別的數據保護,更高的業務連續性,引入業界CDP技術的產品和系統實現,具有連續數據保護CDP功能的解決方案有:(1)磁盤陣列復制技術。(2)主機層復制技術。(3)數據庫復制技術。(4)應用層復制技術。(5)第三方存儲復制,系統通過同構或異構磁盤陣列來實現數據復制,同時提供數據復制管理功能。
采用解決方案4選型EMC RecoverPoint作為二期關鍵產品,并對一期系統進行運行調優,保持關鍵系統裸機恢復環境,保持非關鍵系統數據和操作系統災備環境,并通過新系統同步復制+快照+快照管理功能保證生產端和災備端的數據一致性。
(1)部署兩套EMC VNX磁盤陣列,一對EMC RecoverPoint設備,新建EMC 8Gbps FC存儲網,設備系統實現互聯互通,實現關鍵數據的任意時間點無丟失,實現快速保存及可靠恢復。(2)ERP系統小機和應用服務器,一期備份服務器,一期數據備份存儲和一期備份磁帶庫,接入新建存儲網。(3)通過虛擬平臺新建關鍵系統的臨時生產環境,小機系統和OracaleRAC平臺升級調優,EMC-ERP、EMC-CDP陣列和EMC RecoverPoint CDP統一接入EMC 8Gbps FC-SAN,一期項目中備份小機、備份服務器、備份陣列和備份磁帶庫統一遷移至新建存儲網,新磁盤陣列導入歷史數據,進行二期災備系統的關鍵數據備份與恢復測試,二期拓撲見圖3。

圖3 企業關鍵業務ERP一期二期容滅系統建成
項目啟動前充分做好組織和人員安排,同時充分做好項目涉及的技術準備工作,分解工作任務責任到人,并做到職責明確。一期和二期容災系統建設都按以下原則進行項目實施的組織管理。
5.1.1 成立項目實施小組
負責項目實施風險和質量控制、方案審批決策和項目人員及資源組織管理。
5.1.2 項目實施方案審定
項目總體實施方案是整個項目實施的指導性、規范性、操作性文件,主要包括以下幾點。
(1)實施總體任務目標(項目驗收標準)。(2)實施進度計劃(階段驗收標準)。(3)實施準備(軟硬件環境)。(4)實施詳細計劃(項目進度計劃細化)。①解決項目實施中存在的風險,如何防范和降低對業務系統產生的影響;②主要的實施操作步驟,細化到每一步的技術要求和操作說明;模塊化測試和總體測試,明確方法和標準。
實施階段按項目總體實施方案中的工作任務和工作計劃執行,過程中履行工作日志、周工作總結制度,記錄調試操作配置,監督項目進度,項目驗收支撐材料積累。
項目總體實施方案對工作任務進行了系統、科學、合理的分解和安排,明確了工作職責,將工作任務分解為關鍵任務和非關鍵任務,采取分模塊獨立實施,最后進行聯合調試的策略,極大程度地減少和降低了實施安全風險和突發事件的發生幾率。盡管項目總體實施方案中管理和技術內容具體詳細,但實施過程中難免會與實際情況產生技術上的偏差或差異,比如集成商對實施產品的技術理解不夠全面、準確甚至錯誤,或對IT實施環境調研不細,導致發生技術突發事件,如果影響方案中關鍵工作任務的執行,需立即終止項目實施,方案上會論證修訂后再重啟實施。如果僅影響非關鍵任務的執行,及時靈活進行調整變通即可。

表1

表2

表3
人為的突發事件情況比較復雜,主要分為人員變更、需求變更、IT環境變更等,項目實施責任主體方人員變更,向項目組提交書面申請,審批后才能進行人員變更,須避免因人員變更時發生項目實施安全風險或突發事件;需求發生變更時立即對項目總體實施方案進行修改調整并上會審定;IT環境變更導致不能按既定方案開展工作時,立即對項目總體實施方案進行調整,經實施小組上會審定后再重啟實施工作。
我們在一期二期項目實施過程中,按上述管理和實施策略進行了具體實踐,項目實施全過程規范化、標準化、制度化,保障了項目實施進度、質量,編制了總體測試方案并細化測試項目操作步驟,按項測試并詳細記錄,按標準流程進行了數據和系統裸機備份恢復測試,達到了項目預期。
二期項目實施中,在關鍵系統生產環境臨時切換到虛擬平臺時,數據庫虛擬機產生性能瓶頸,虛擬機CPU負荷超90%并居高不下,無法正常支撐ERP系統應用,針對該突發事件,立即安排系統計劃性停機,協調4U ERP應用物理服務器安裝數據平臺并導入業務數據,性能問題及時有效的解決,將突發情況對項目實施的影響降到了最小。
本階段重點是項目培訓,項目技術資料移交,協助編寫項目運維管理制度。管理人員可進行原廠培訓取證上崗。
通常需移交技術資料如下:(1)產品到貨清單,安裝調試清單。(2)項目實施方案。(3)項目過程資料,主要包括工作日志、工作周報。(4)項目驗收報告。竣工資料還應包括項目合同,項目安裝實施報告,項目測試方案,日常運維手冊,產品手冊相關資料,項目實施技術總結報告,及支持系統安全可靠運行的管理制度。
(1)未實施數據保護存在風險(表1)。
(2)實施數據保護后風險(表2)。
(3)實施連續性數據保護后風險(表3)。
一期二期災難恢復系統建設實施,結合長期管理運維實踐,驗證了我們所引入的技術、產品和系統,可靠性高、靈活性大,兼容性強、適應性好,在國內外中大型企業中都正在應用且具有成功經驗。企業對災難恢復系統是可管理的、可運維的。
參考文獻:
[1]GB /T 20988 2007. 信息安全技術 信息系統災難恢復規范 [S].北京: 中國標準出版社, 2007.
[2]張冬.次世代數據存儲思維與技術[M].北京:清華大學出版社,2017 ISBN 978-7-302-46492-1.
[3]楊義先,姚文斌等.信息系統災備技術綜論[J].北京郵電大學學報,2010(2).
[4]施躍躍,徐景良.金融行業災備架構高指標RTO的實現方式[J].計算機應用與軟件,2012(2).