侯杰華,申玉華,鄒 暾,馬 濤
1.湖南省煙草公司信息中心,長沙市芙蓉南路一段628號 410004
2.湖南省永州市煙草公司信息中心,湖南省永州市冷水灘區珍珠路909號 425000
3.武漢楚煙信息技術有限公司,武漢市硚口區寶豐路6號香溢大酒店7樓 430030
隨著應用集成技術的逐步完善,建立統一、規范的運維和安全管理已成為湖南省煙草公司(以下簡稱湖南煙草)信息化建設的一項重要工作,以IT 運維服務為主體對企業信息網絡和應用系統進行實時監控,可提前發現系統隱患和潛在風險,使企業信息網絡和應用系統保持高效、穩定和安全地運行。國內學者在信息安全[1]和運維服務管理[2]方面都進行了研究,公安部和國家煙草專賣局對信息安全等級[3]和信息安全運維保障[4-5]也發布了規范和建設指南。煙草行業在采用SOA(Serviceoriented Architecture)架構進行信息系統集成[6]方面進行過探索,但把信息安全和運維服務管理集成到一個軟件平臺、實現一體化管理還未見報道。湖南煙草在“煙草商業系統應用平臺集成”等重點信息化項目建設的帶動下,信息化水平已達到較高程度,為實現全省集中統一管理,確保運維工作的安全性和規范性,采用SOA 架構基于ITIL(Information Technology Infrastructure Library)技術建立了適應業務和管理需求的信息安全運維服務一體化管理系統,以規范運維管理流程,實現運維工作的規范化和監控管理的自動化,保證湖南煙草業務系統的穩定運行。
目前湖南煙草已建立的業務系統涉及辦公、煙葉、卷煙、物流、專賣、內管、財務等多個業務領域,建立了應用集成平臺,形成了以省局、白沙物流、市局三級路由設備構建全省互聯互通的OSPF(Open Shortest Path First)網絡,利用流量工程技術保障核心業務的數據交換。網絡運維和安全監管方面,在省局和各市局、縣局都配置有專業的數據中心機房,以及相應的機房管理制度和業務運維服務,保證業務的連續性。網絡接入方面,采用靈活的動態Vlan 技術,設置獨立的服務器Vlan 域,有效地保證了業務系統訪問控制機制。系統運維工作以服務外包的方式,由第三方技術人員負責,在統一地點辦公,少數人員通過VPN 撥入遠程維護,市局、縣局的現場維護工作有嚴格的審批流程。
盡管湖南煙草已建立了較完善的運維管控制度體系,但在實際工作中仍存在一些安全風險,主要是運維行為由各開發商自動負責,缺少運維角色集中管理,對信息系統的敏感信息、運維時效、運維監控和審計也缺乏管理,存在安全風險,信息系統的整體運維缺乏完整性統計和分析,難以獲取具體操作的統計分析數據等。
針對湖南煙草安全運維工作存在的風險和不足,采用SOA 架構[6]建立了統一的信息安全運維服務一體化管理平臺,集中監管全省煙草信息系統所有硬件設備、網絡鏈路、數據庫、中間件和業務系統的運行狀態和安全狀態。基于ITIL 技術[2]建立了統一的事件、問題、配置、變更、日志和安全等管理流程,統一了全省的運維模式,按需授權和集中審計,滿足各類運維業務需要,實現信息系統管理的逐級監控、信息共享、運維互助,做到“可視化展示、集成化管理”。
安全運維服務一體化管理平臺在系統架構上分為3 個層面:數據采集層、匯總分析層和展現層,見圖1。數據采集層主要承擔基礎數據采集業務,通過數據采集器,采集省(市)公司的交換機、路由器、主機、操作系統、中間件、數據庫、應用系統以及機房設備的指標信息,將指標信息保存在數據采集的數據庫中。匯總分析層進行業務處理,完成設備監控、運維管理、安全審計和分析等功能,并形成安全運維知識庫。展現層將匯總分析層處理產生的各類信息以圖形、列表等形式展現給運維管控人員,為運維工作提供依據。

圖1 信息安全運維服務一體化管理平臺系統架構
如圖2 所示,管理平臺采用支持雙機熱備[4]的硬件設備,以雙機熱備模式部署于服務器域,當主機出現故障時備機接管會話;平臺的WEB 服務器、郵件服務器、審計服務器、日志服務器、身份認證系統集中部署在省局機房,供全省統一使用;平臺的數據采集器、訪問控制設備、流量分析設備等軟硬件設施采用分布式方式,分別部署在省、市信息中心的數據中心機房;多功能安全網關部署在運維管理室接入交換機連接全局的級聯鏈路上,對運維訪問提供深層防御。
安全運維一體化管理平臺主要實現基礎資源、業務監控、運維服務和信息安全4 大管理功能,通過配置管理跟蹤和日志智能分析,實現信息安全事件的自動采集、分析、預警,為運維人員處理各類事件提供依據。

圖2 信息安全運維服務一體化管理平臺設備部署
基礎管理模塊通過對網絡、設備、備份、機房、應用系統等信息系統的數據采集、分析、告警,建立起配置管理數據 庫(CMDB,Configuration Management Database),對操作系統、中間件、數據庫、WEB 服務器等應用系統性能進行監控管理。數據采集由Agent 和AgentServer 兩部分組成,Agent 部署在被監控系統上,采用C、C++、Java 開發,數據采集插件根據被監控系統的需要采用C、C++、Java、SH 等開發。AgentServer 在系統中具有管理本地資源、調度Agent、檢測事件等能力,接收來自Server 的監控資源、監控指標、監控策略等信息,放入共享內存中,并創建任務隊列,按照既定的策略發指令給Agent,由Agent 調用相應的采集程序,將采集的信息反饋給AgentServer,AgentServer 收到后,通過本機上的事件檢測引擎,進行事件的初步檢測并傳遞至數據處理層進行處理;Agent 和AgentServer 之間的通信采用SNMP、TCP/IP 協議;AgentServer 還具有接收來自其他監控系統或第三方產品的事件數據的能力,實現對IT 系統的集中監控和管理。
數據分析處理是整個系統的核心,主要對采集的數據進行聚合、統計與分析處理工作,并根據各種性能KPI(Key Performance Indicator)指標的特征定義告警門限,通過與事件管理之間的接口及時生成告警信息;事件數據處理首先對采集或接收到的各種原始事件進行標準化處理,再對事件進行分類和分級,并根據各種條件進行事件合并、壓縮和過濾,然后通過相關性分析盡可能地確定事件發生根源,提高告警信息的精確性;告警數據處理主要對告警信息進行傳遞、升級和前轉處理,通過監控界面和其他告警渠道通知用戶。為提高系統效率,事件的規則庫等信息在系統啟動時調入內存中,數據處理工作通過操作內存完成。
業務監控[7]管理是從業務的角度重新詮釋和展現IT 組件和服務,屏蔽IT 基礎架構層次的復雜性和技術細節,按照業務影響和故障的嚴重程度,了解各項業務的重要性和緊迫性。監控視圖按主機、網絡、應用等不同角度實現多方式、多層次的展現,有拓撲和圖表兩種展現方式,見圖3。拓撲展現包括結構展現和關系展現。結構展現是按照IT 資源的組成結構逐層次展現IT資源的子資源及其可用性狀態;關系展現是按照拓撲圖的方式展現IT 資源之間的關聯關系,同時也包括按顏色展現資源的可用性狀態及其相互之間的影響。圖表展現能夠按不同層次的管理、運維、業務人員以表格與圖形方式展現各類IT 資源每天、每周以及每月的信息報表,同時也能夠展現不同層次管理人員所關心的各類IT 資源的性能趨勢等報表。

圖3 業務監控管理功能視圖
事件告警是集中監控管理建設的主要目的,系統通過定義好的發現策略對所有設備進行自動發現,數據寫入配置管理數據庫并同步更新拓撲圖。當告警事件發生后,系統自動進行業務影響分析,通過定義好的模板將告警信息向上傳遞或過濾,實現業務預警。告警方式除聲光告警外,還能利用系統平臺提供的API 實現其他告警方式,如短信、電話語音、E-mail 等。在確認告警的基礎上,由人工對業務系統、數據庫進行信息關聯,并錄入人員信息等,為領導決策提供依據。
運維服務管理基于ITIL 流程框架,實現事件、問題、變更、需求、知識庫[2]等管理功能,見圖4。運維服務管理的核心是工作流引擎,基于工作流引擎構架了ITIL 主要流程,包括服務臺、事件問題、問題管理等,以及結合自身經驗定制的運維管理流程和需求管理流程。根據不同權限定制的控制臺,可以供企業不同層面用戶使用。服務管理平臺與底層的監控管理平臺以及郵件、短信等系統之間有接口,能夠接受監控管理平臺的事件。
在運維服務管理中,事件管理是問題管理、變更管理、需求管理的來源和基礎,主要流程包括:①檢測和記錄。在整個生命周期中對事件進行檢測、跟蹤、監視和更新,并將該信息用于問題管理、報告和流程優化。②服務請求的處理。對不同類型的服務請求以不同的方式處理。③分類和初始支持。對事件劃分類別,并根據影響和緊迫性確定事件的優先級,為事件提供解決。④調查和診斷。調查處理事件和收集診斷數據,并根據服務水平協議(SLA,Service-Level Agreement)要求,進行相應事件的升級、管理上報或功能上報。⑤重大事件應急處置。為處理超出常規的嚴重事件,提供高優先級的事件所需要的協調、上報、溝通和資源。⑥解決和恢復。通過與變更管理流程配合以實施補救操作。⑦終結。用戶對該事件的解決感到滿意,在關閉事件記錄前,更新事件記錄并將其分配到某個終結類別中。

圖4 運維服務管理
安全管理主要實現用戶的統一身份認證和訪問權限控制,運維人員的會話同步監控與過程重放、異常維護行為告警及阻斷、運維操作行為記錄與查詢等功能。系統通過帳號同步收集LDAP(Lightweight Directory Access Protocol)技術實現統一的用戶身份認證,帳號同步是雙向的,一方面是帳號管理模塊收集資源中主從帳號的過程,另一方面是帳號管理模塊將創建的主從帳號下發到資源中。用戶信息保存在LDAP服務器中,LDAP 服務器中的主從帳號也可以同步到管理的資源中。系統通過“審計系統帳號”與“服務器帳號”相關聯的方式,為每一個運維人員創建唯一的登錄帳號,運維人員通過自身的“審計系統帳號”,先登錄安全管理系統,再登錄目標服務器,從而實現將用戶身份的認證落實到“自然人”。
配置管理[5]是通過建立的配置管理數據庫對所有的IT 組件、組件的版本和狀態以及組件之間的相互關系進行跟蹤,通過維護信息系統和服務的邏輯模式來協助管理運維服務。對網絡、設備、業務、備份、機房各系統進行配置管理,根據問題管理提交的變更請求修改配置,核實變更內容并準確記錄。日志智能分析包括系統及事件日志和防火墻、VPN、代理服務器日志兩部分,實現對主機、業務、網絡、備份和機房的事件日志集中管理,通過日志管理對事件進行分析、過濾并找出故障原因,快速解決問題,從而保障業務正常運營。
通過在被監控平臺上部署Agent,可以對網絡、設備、業務、備份、機房5 大系統進行數據自動采集、分析、預警和監控,建立起配置管理數據庫。主要收集各種性能KPI 和告警KPI 數據,通過對SYSLOG、SNMP TRAP、ICMP POLL、TCP POLL 和性能閥值定義等手段采集告警信息,并將采集到的信息經過過濾、級別定義等處理在系統界面上進行展示。前端SNMP 采集器根據系統中配置好的性能采集頻率主動輪詢遠端Agent,獲取各項性能數據。通過ICMP 協議可采集部分設備間端到端網絡時延指標,為網絡性能診斷提供依據。
湖南煙草安全運維管理系統實現了運維人力資源統一調度,解決了目前運維和安全管理工作中存在的溝通不暢、效率低下、服務質量無法保證等問題。湖南省局部署安全運維服務一體化管理系統后,實現了信息安全事件的自動采集、分析、預警和處理,運維人員由原來的60 多人減少到11 人,提高了工作效率,節約了人力資源。同時,安全運維管理系統實現了業務系統和基礎設施的實時監控,將服務臺、事件管理等服務流程電子化,固化崗位職責,對運維人員的操作過程進行痕跡保留,實現人員身份、運維操作和訪問控制的統一管理。系統還將日常運維和信息安全進行了資源整合,通過不斷積累的知識庫,加強了人員間的溝通和協作,提升了工作人員的專業化水平。
[1]胡新華,耿剛勇.中國煙草總公司信息系統容災中心技術方案設計[J].煙草科技,2010(3):22-25.
[2]顧宇.基于ITIL 的IT 運維服務管理探析[J].信息與電腦:理論版,2011(4):21-25.
[3]中華人民共和國公安部.信息安全等級保護管理辦法[S].2007.
[4]國家煙草專賣局.煙草行業信息安全保障體系建設指南[R].2008.
[5]國家煙草專賣局.煙草行業信息系統運行維護規范[S].2009.
[6]胡新華,耿剛勇.面向服務架構在煙草信息系統集成中的應用[J].煙草科技,2010(5):19-23.
[7]丁偉,肖強,李世祥,等.煙葉收購內部監管系統的設計與應用[J].煙草科技,2011(7):24-27.