姜旭 許國平 郭會 陳小慶
【摘要】為防范商業銀行信息系統引發的風險、提升應急處置效率與能力,基于IT生命周期提出全生命周期應急管理技術體系,包括需求、開發、投產、運維四個階段的知識庫、變更管理、監測預警、應急會商、自動處置等五類技術。
【關鍵詞】商業銀行信息系統 IT全生命周期 應急管理技術
一、引言
隨著信息技術的快速發展,IT技術已經成為商業銀行賴以發展的基礎,由此衍生的突發事件也嚴重影響了金融服務效率和正常運營管理[1]。因此,應加強商業銀行突發事件應急管理技術的研究與實踐,以提升風險防范水平和應急處置能力。本文提出了應急管理技術體系,并在IT全生命周期的各個環節進行技術研究與應用實踐,涵蓋知識庫、變更管理、監測預警、應急會商、自動處置技術五個方面。
二、全生命周期應急管理技術體系
全生命周期應急管理技術體系主要包括知識庫、變更管理、監測預警、應急會商、自動處置五個方面,涵蓋了應急需求制定、運行架構設計、信息系統投產、系統監控告警、應急響應、事件匯報、問題排查、自動處置與驗證等多個環節(如圖1所示)。
在需求階段,運維團隊中的運維保障經理需要按照應急需求庫中的通用應急需求模板制定信息系統應急需求,并進一步豐富維護應急事件歷史庫中的信息,從系統研發的最初階段夯實后期運維保障與應急管理的基礎;在開發階段,企業架構資產庫提供可復用資源;信息系統關系視圖可輔助研發人員做好接口設計,多媒體應急場景庫可幫助測試人員制定應急功能測試用例,使得系統測試更為豐富全面;在投產階段,變更管理系統對信息系統的投產過程進行規范化管理,避免因審批不合規、流程不合理而引發生產事件,自動部署系統實現投產過程的自動化,以降低人工操作風險;在運維階段,通過集中監控管理系統實時監控應用系統運行信息,并可根據歷史數據動態調整報警基線,實現主動監控、主動預警,應急會商系統和掌上應急可以幫助應急人員及時響應,有效協作,實現應急響應的快速化[2],利用一體化自動處置工具,可快速排查故障,自動進行處置,自動模擬驗證,以提高應急處置效率。
三、應急處置技術
(一)知識庫技術
知識庫技術主要應用于需求階段與開發階段的系統設計過程中,應急需求庫、歷史事件庫、應急場景庫等可為應急需求的制定提供參考,企業資產架構庫為系統設計提供健壯性好、容錯率高的可復用資源,信息系統關系視圖可查看信息系統之間的關聯關系而輔助接口設計。
應急需求庫是為提高信息系統健壯性,減少投產后應急壓力,可通過制定非功能性需求企業標準進行標準化,包括適合性、性能效率、兼容性、易用性、可靠性、安全性、可維護性和可移植性等方面,規定信息系統應滿足的非功能性指標。非功能性企業標準按照層次關系可分為類、族、組件、元素以及元素選項等層級,通過不同類別的應用系統制定裁剪模板,運維經理依照系統類型選擇特定模板進行元素匹配,根據元素的必選、可選標準定制該項目的非功能需求概要,并選擇具體的元素選項,制定詳細的需求(如圖2所示)。
信息系統管理關聯視圖是在信息系統數量和規模逐漸增大、系統間的關系也隨之錯綜復雜的情況下,對各系統的關聯關系進行管理的一種方法,比如一支業務交易需在多個不同的信息系統之間關聯調用,上下游環節增多,隨著證券、基金、電商等第三方系統的接入,內外系統的關聯度不斷增強[3]。通過多維度多層次關系視圖系統,制定通用的規則并有效的歸納各個信息系統的分類和關聯關系定義,利用搜索引擎和展示功能,動態地將數據予以拓撲圖的形式展現,同時帶來豐富的屬性信息(如圖3所示)。
(二)變更管理技術
在IT全生命周期中的投產階段和運維階段,有效防控投產風險和人為操作風險,力爭實現變更管理流程化,從而設計并研制了變更管理系統、自動部署系統等信息化系統。變更管理系統具有變更申請、變更評審、評審會議、公有模塊等功能,同時還兼顧安全性、操作響應時間、并發數、交易高峰時段、存儲、易用性等非功能性需求(如圖4),將問題與需求跟蹤、分行實施的應用變更納入系統管理范疇,實現全行性的應用變更管理。系統需要對變更申請、變更評審過程實行日志化管理,對于申請、評審的修改細節與關鍵動作進行詳細記錄,對變更申請的來源進行重點審查,力求每個變更事出有因、有據可依。
(三)監測預警技術
集中監控管理平臺是監測預警技術的關鍵平臺,以提高生產運行的連續性和穩定性,實現快速響應、快速定位和快速處置,通過事件告警監控及性能數據監控,實現對被監控應用的關鍵進程、對外網絡通道、交易流量控制、系統運行狀態與參數、應用系統資源使用情況等的全面監控(如圖5所示)。集中監控管理平臺對監控系統的性能指標數據進行采集、分析、計算,當超出預設閥值或性能基線時產生告警,對選擇時間段內采集到的監控數據進行統計分析,形成歷史圖表或報表,繪制監控數據基線,方便運維人員參考。同時還將各被監控系統發生異常時產生的告警事件發送給集中監控管理平臺,由平臺進行告警展示及集中處理,根據告警的不同級別、不同內容和不同分類對告警的通知渠道、通知人員、閥值、告警規則等進行個性化定制和靈活配置。
(四)應急會商技術
當出現突發狀況時,為提高應急處置效率而搭建了應急會商系統,集合了總分一體通訊名錄、多方會議、遠程應急、集中會商等多項功能。其中,總分一體通訊名錄包含了投入生產的所有重要信息系統以及相關責任人聯系方式,每月更新內容以保證信息及時、有效;應急會商系統引入了多方電話會議形式,建立虛擬會議室呼叫所有人員同時對話,以避免單點通訊的滯后性;集中會商是指分布于銀行應急操作間的以KVM為核心的大屏顯示系統,可實時顯示任意多臺運維終端的內容,方便同時觀看和操作多臺終端而互不干擾;遠程應急實現了應急響應與應急處置的無縫銜接,應急操作間安裝相關設備,當應急人員在趕往處置現場途前,可以通過移動設備以及網頁等方式查看生產信息,實時進行分析并指導現場人員操作。
(五)自動處置技術
以7×24小時類系統電子銀行系統為例,電子銀行自動應急處置系統要實現應急過程中的自動分析、自動處置和自動驗證功能,集成電子銀行各子系統應急處理機制,串聯從前臺頁面到后臺系統應急處理流程,主要包括各子系統狀態監控、預案匹配、資源管理、配置調整和閾值控制等功能。其中,狀態監控依托于電子渠道實時監控工具,實時監控網銀交易運行情況,一旦出現某個交易成功率低于設定的閾值,立即發出報警并通過短信方式將錯誤信息實時通知系統運維人員關注,處置功能實現自動回收重啟服務器站點、錯誤交易定位、流量閾值控制、路由配置調整等操作。
三、小結
本文主要提出了商業銀行信息系統應急管理技術體系,并對IT全生命周期各階段的知識庫、變更管理、監測預警、應急會商、自動處置五類技術進行了詳細闡述。該體系覆蓋到應急流程中預防、監控、判斷、報告、組織、處置、驗證等各個環節,為應急活動提供了一定的技術保障與支撐,提升了銀行應急處置效率與能力[6]。在后期研究中,還將強化管理活動及技術手段過程,推動業務部門深入參與應急處置、理清業務與技術應急責任邊界、加強業務連續性與技術應急處置的關聯關系,在業務與技術互相促進等方面進一步研究,以推進業務技術協同應急處置。
參考文獻
[1]郭利根.強化信息科技核心競爭力,完善信息科技風險監管長效機制[N].金融時報.2012-3-29(001).
[2]王俊,王昕.國內外突發公共衛生事件應急管理綜述[J].中國市場.2012(26).
[3]王海平.對現行支付清算系統應急機制的再思考.金融時報.2013.
[4]喬海曙,凌華.中國銀行業應急管理:問題與對策[J].金融論壇.2008(11).
[5]何倩,李仕明,劉樑.非常突發事件在線信息處理:研究與發展[J].電子科技大學學報.2011(13).
[6]吳曉玲,必須高度重視金融突發公共事件應急處置[J].金融電子化.2006(08).