吳健寶


摘要
隨著科學技術的發展,電子化業務系統代替手工處理稱為主流;信息系統作為業務應用的關鍵支撐,其面臨的各種風險將對對業務連續性造成致命影響。本文結合電網企業實際情況,對信息系統面臨的風險以及應急保障策略進行了分析和探討。
【關鍵詞】業務應急 風險梳理 保障策略
1前言
隨著業務系統規模的不斷擴大,信息系統面臨的運維風險也越來越高,風險的范圍越來越大,如:主被動系統故障、人為誤操作、火災、水災、傳輸中斷、等,同時日益激烈的市場競爭和不斷提高的客戶服務質量需求對信息系統支撐能力和可靠穩定運行提出了更高的要求,迫切需要建設一套完整的應急保障體系,來全方位保障業務應用的安全穩定運行。
經過數年的建設,信息化系統已逐步積累了應對處理各種風險的保障措施,如備份、高可用、應急系統、容災系統等,同時結合日常維護工作中發現的問題,進行了細化歸類,形成了全方位風險場景和應對措施,通過在此基礎上進一步建立完善全網信息化系統的應急保障體系和相關指標要求,可更敏捷、高效的應對各類突發事件挑戰,提高信息化系統的抗風險和業務連續性能力。
2 風險分析
電網企業信息化系統在運行過程中存在各種可能導致系統運行異常或中止,造成企業和客戶無法進行正常業務操作,業務中斷將導致客戶和公司利益遭受重大損失。
系統風險管理首先對業務運營支撐系統進行風險評估和風險分析,然后將面臨的各種風險進行分類,針對每種風險和常見場景制定相應的業務連續性保障措施,對于保障措施不能覆蓋和應對的殘余風險,需要制定改進計劃,通過不斷完善和持續改進,促進應急保障體系的健全和完善。風險梳理過程如圖1所示。
2.1 系統面臨的風險
現階段電網企業信息系統主要面臨的風險有計劃外風險和計劃內風險兩種:
計劃外風險:主要指不可預測的人為或自然的原因,造成業務系統運行嚴重故障或癱瘓的情況,這種風險不可避免,主要包括:自然災害、人為誤操作、惡意破壞、硬件故障:電源空調故障、應用軟件故障、系統軟件故障等。
計劃內風險:主要指由于系統本身的變更需求,造成的可事先預知但不可避免的業務中斷的情形。包括應用軟件上線、系統軟件升級及維護、硬件擴容及維護等。
為有效應對各種突發的、人為的、自然的可能威脅信息化系統業務連續性的風險,必須提前進行風險分析,分析各種風險發生的可能性,并定量或定性描述各種風險可能造成的影響。進而通過技術和管理手段,防范各種風險的再次發生。
2.2 系統風險分類
按照風險分析的要求,在信息化系統業務連續性保障的實際工作中,面臨的風險可以分為以下幾類:
2.2.1 接入層的風險
接入層一般都采用DNS技術、負載均衡技術、集群技術等,在出現單點故障時業務影響一般較小,風險相對較小,但是在特殊情況下,比如網絡故障、負載均衡器雙機同時故障、集群全部節點故障、應用邏輯混亂等情況下,仍會引起災難事件發生。
2.2.2 中間件層的風險
中間件層一般也采用集群技術、高可用切換技術,但由于中間件層承擔了核心應用邏輯功能,在軟件版本邏輯混亂、數據異常、集群故障等情況下也可能引起災難事件發生。
2.2.3 數據庫層的風險
數據庫層是數據的核心所在,一般都采取并行處理或主備模式,在單點故障下一般影響業務較小,但是存儲故障、網絡故障、數據庫本身運行異常、數據邏輯錯誤等情況下如短時間無法恢復,則對客戶感知影響較大,風險等級高。
2.2.4 后臺應用的風險
后臺應用承擔如系統關鍵接口、計量等關鍵業務,一般采用雙機或集群技術實現高可用,但是出現文件系統故障、網絡故障、集群故障等情況下,風險較大。
2.2.5 動環設施的風險
電力、空調是設備正常運行最基礎的設施,一般機房都配備雙路供電、冗余空調等來確保環境安全。在單路電力故障、空調故障等情況下一般不會產生影響,但如出現嚴重電力、空調故障時,有可能會引起整個機房設備運行異常,從而大面積影響服務,風險等級很高。
3 應急保障策略梳理
如圖2所示,為確保業務保障能力,各供電局信息中心應建立包括數據備份、本地高可用、應急系統乃至容災系統在內的階梯式應急保障體系。通過實施階梯式應急保障體系,涵蓋解決目前信息化系統主要面臨的風險的各項措施,最終達到提高信息化系統的抗風險和業務連續性能力的目的。
3.1 數據備份保障
最基本的系統保障手段之一,通過定期或不定期的備份增加核心數據的安全性,備份介質可包括傳統物理磁帶或是虛擬磁帶庫設備。應建立涵蓋關鍵業務數據庫、關鍵主機操作系統、重要歷史數據、核心應用程序等在內的備份恢復措施來保障系統數據安全。但由于數據量大磁帶恢復時間較長,一般在小時級,其應用范圍主要是提供最基礎的數據恢復手段。
3.2 本地高可用保障
主要針對生產中心內單點故障的應對措施,是應急保障體系下常用的一種保障措施,應針對關鍵業務和系統建立沒有任何單點隱患的本地高可用系統,如采用雙機熱備應用自動接管、磁盤鏡像、節點集群、雙網卡綁定等相關技術。根據采用的技術不同,業務的影響時間也不同,例如采用集群技術、雙網卡綁定等,發生故障時影響業務時間在秒級,而雙機熱備接管技術由于還需要進行應用接管影響業務時間一般在分鐘級。
3.3 應急系統
主要為信息化系統提供最關鍵業務的迅速恢復能力,針對關鍵業務和關鍵渠道,在出現不同級別的系統故障或主動維護場景如系統升級、新業務上線等情況下,在不需要啟動容災的前提下,建立快速應急機制,讓用戶可以通過應急系統,在故障期內辦理關鍵業務,從而降低用戶的負面感知,保障關鍵業務連續性。根據采用的技術和手段的不同,應急系統一般需要分鐘級別的業務恢復時間。
3.4 容災系統
主要是應對各類重大系統風險,如系統重大故障、人為誤操作、火災、水災、傳輸中斷、電網停電等,造成生產完全中斷且無法短時間恢復。為了應對這種災難性的突發事件,可以通過容災系統來滿足業務連續性的要求。正常情況下容災系統對核心生產系統的數據進行實時或準實時的復制,在災難性的事件發生后,能夠將核心業務切換到容災系統,恢復關鍵系統運行。根據采用的技術和手段的不同,容災系統一般需要小時級別的業務恢復時間。
根據對信息化系統面臨的常見的風險進行分析,四層保障措施主要應用場景如表1所示。
4 結束語
通過對信息化系統風險分析和應急保障策略的梳理,以最大化降低服務的影響為核心,同時配備相關人員組織和資源保障措施,制定完善的流程,并采用合適的技術手段,達到在特定系統故障和風險情況下快速恢復系統和業務的目的;從而建立起一套完善的應急保障體系,以滿足業務需求,確保更好的系統業務連續性。
參考文獻
[1]徐海東,陳欣,劉楠,魏麗紅.應對挑戰建立完善的網絡與信息安全保障體系[J].電信科學,2010(07).
[2]畢士金.加強商業銀行業務系統應急保障機制建設[J].金融電子化,2010.
[3]程正剛,房鑫炎,俞國勤,包海龍.電力應急體系脆弱性評估指標體系的編制[J].華東電力,2010(02).
[4]許振宇,郭雪松.基于用戶滿意的應急管理信息系統評價研究[J].情報雜志,2011(03):161-165.