劉 洋
(中國鐵路信息技術中心,北京 100844)
大型企業IT管理當前已經邁入了云計算與大數據的時代,其管理對象覆蓋整個信息系統,包括:網絡、主機、存儲等硬件設備,溫度、濕度、電源等機房環境,操作系統、數據庫、中間件、業務應用系統等軟件環境和應用環境[1]。各種新興技術為未來IT管理提供了新模式,實現了設備集中、數據集中、業務集中[2]。在新技術的支撐下,機房綠色化、設備虛擬化、業務服務化、運維自動化,以及運維趨勢分析、大數據業務分析、設備性能分析、監管控平臺一體等,都是現在比較成熟和先進的運維管理方法[3]。
國際主流的IT運維管理參考體系即為ITIL,自上世紀80年代發展至今,已發布至V3版本,并發布了基于ITIL體系的ISO 20000標準[4]。在工業和信息化部、國家標準化委的領導和支持下,中國自主研制了一套IT服務領域的標準庫和一套提供IT服務的方法論,即信息技術服務標準ITSS[5]。
中國鐵路總公司采用“鐵路總公司–鐵路局–站段”三級信息系統運行維護體系[6],組建相對完備的人才隊伍,其運行維護工作基本覆蓋包括服務器、網絡、存儲在內的基礎設施,以及包含操作系統、數據庫、中間件在內的業務系統支撐層和業務系統的日常維護。制定了相關的運行維護標準規范,實現運維作業流程化,并針對信息系統運行的考核機制及基本指標,對相關運行維護人員進行考核[7]。但信息運行維護及管理體制中,尚存在一些問題需要優化和加強,如各單位信息運行維護水平不一,人才隊伍、考核、知識管理、標準規章的落地、運維流程、工具的使用等方面的水平仍然存在差距[8]。
本文借鑒國內外先進運維標準規范,緊密結合鐵路信息系統既有運維管理實踐,對鐵路信息系統平臺集中安全運維綜合監管系統相關問題進行研究,提出了系統總體思路,并對結構、功能等方面進行詳細設計,最后就關鍵技術做出說明。
以集中安全運維支撐業務需求為導向,提出集中安全運維綜合監管系統的整體建設思路與原則。
(1)建設平臺化的運維支撐工具。按照集中安全運維支撐平臺進行規劃設計,搭建一體化、平臺化的運維系統,集成融合現有各類運維支撐工具,促進運維支撐工具的集中統一、數據共享、流程融合、一體化應用。
(2)支撐功能覆蓋監控、管理及數據服務。為應對當前信息系統平臺集中安全運維支撐需求,新的運維平臺應在滿足IT基礎資源監控的同時,支撐運維業務管控工作,并通過統一的數據采集分析,為上層主動運維、服務分級、考核評價、經營決策等提供依據。
(3)實現自動化與智能化運維手段。運維平臺需要對運維工作進行場景細分,針對可標準化、自動化、定制化、結果能量化的運維工作,進行建模、分析、固化,通過技術時段實現智能化運維支撐,減輕運維人員負擔,提升運維工作效率。
構建松耦合的數據采集、支撐平臺、業務應用、門戶展現4層技術架構,與鐵路總公司云運維管理平臺集成,以適應系統在業務范圍和應用范圍不斷擴大的情況下,對系統靈活性、擴展性等能力以及運行性能的要求。技術架構如圖1所示。

圖1 監管系統技術架構
2.1.1 數據采集層
通過多種開放性協議,包括SNMP、ICMP、STP、FDB、WMI、SSH、JDBC、JMX、HTTP等,實現對硬件、軟件、信息系統基礎設施環境等運維目標運行狀況的動靜態參數采集。采集源分為:信息系統資源、通信鏈路資源、云資源,以及告警信息、安全信息、訪問信息、日志信息等。將這些數據采集、清洗后,存儲到采集數據存儲池內,供上層平臺使用。
2.1.2 支撐平臺層
為上層應用層和門戶層提供平臺級和數據級服務,主要包括數據庫環境和各類服務接口。數據庫通常有關系型數據庫、大數據環境、實時數據庫等,涉及到決策、統計、運行、告警、流程工單、系統資源、配置、知識庫等數據信息。平臺服務涵蓋接口、流程引擎、日志、任務調度、總線、集成環境、報表、緩存、權限控制、圖形平臺等服務。
2.1.3 業務應用層
業務應用通常是指各類與集中安全運維綜合監管系統相關的基礎管理應用、業務管理應用、平臺管理應用。這些應用會使用到下層提供的各類數據和服務,是監管系統面向用戶和其他業務管理的相關應用。
2.1.4 門戶展現層
采用可視化標準組件庫、統一展現框架、門戶代辦等技術,可以支持移動終端、桌面終端、大屏等展示。
監管系統應用架構如圖2所示。整體應用功能規劃為4個應用層,整合設計了5類基礎管理應用和3類業務管理應用,構建了統一運維工作臺。按照一次規劃,逐步完善,分步實現的原則,優先滿足基層人員實際工作需要。

圖2 監管系統應用架構
4個應用層分別是基礎管理、業務管理、平臺管理和運維工作臺。其中,5類基礎管理應用,分別是資產管理、配置管理、知識管理、基礎設施監測、業務應用監測;3類業務管理應用,分別是項目管理、監測處置、保障支撐。
本設計中所說的資產,是信息運行管理的硬件、軟件、虛擬資源、基礎業務(包括:IP、vlan、域名、負載均衡策略、防火墻策略、電源負載、賬號權限、機柜空間、機房空間、配線架端口等)以及機房基礎設施資源的資產屬性。資產管理主要指對機房各類軟硬件資源、虛擬資源和基礎支撐等進行管理,可利用資源的資產屬性,進行規范化、標準化、流程化及有序高效的管理。
建立配置庫,對配置信息的更新進行審核和批準。根據查詢條件,查詢資源數據,并可以新增、修改、刪除配置項數據。主要功能包括資源模型數據查詢,根據查詢條件查詢,按照配置分類、配置類型查詢資源數據;展示資源數據詳細信息;展示資源數據相關聯數據信息;修改配置項數據;刪除配置項數據;新增配置項數據等。
根據用戶需求,在組織中構建一個量化與質化的知識系統,讓組織中的資訊與知識,通過獲得、創造、分享、整合、記錄、存取、更新、創新等過程,形成知識條目,并對知識的采編結果進行審核發布,不斷回饋到知識系統內,形成永不間斷的個人與組織知識,這些知識成為組織智慧的循環,在企業組織中成為管理與應用的智慧資本。使用者根據問題描述查詢知識庫,并參照知識庫內容處理問題。同時將未能查詢到的知識條目按照需求更新上報,知識管理員對上報需求進行分析后,添加相關知識。
(1)機房監測,主要是針對機房內所有設備及環境進行集中監控和管理,其監控對象構成機房的各個子系統有輔助系統(空調、UPS、門禁、視頻)、環境系統(溫濕度、漏水)、消防系統、安保系統、網絡系統等。
(2)網絡監測,包括交換機、路由器、負載均衡和防火墻等網絡設備,監測的內容主要包括網絡設備的內存、CPU使用情況、設備運行狀態、網絡端口運行狀態、網絡流量等。
(3)主機監測,包括各類安裝了操作系統的服務器設備,監測這些設備的內存、CPU、硬盤使用率,以及I/O狀態、網絡狀態、進程狀態等。
(4)存儲監測,包括存儲設備、SAN交換機等各類存儲環境設備,監測內容包括其運行狀態、性能、容量使用情況等。
(5)數據庫監測,主要包括各類關系型數據庫、非關系型數據庫,監視的主要內容包括有數據庫的運行狀態、運行性能、表空間大小等關鍵數據。
針對業務應用系統的運行情況,進行主動、被動的探測與展示,結合圖模一體化的運行視圖,對業務應用系統的實時狀態、關鍵指標、網絡安全、桌面安全等進行監測。展現各業務應用系統綜合性能情況。對異常和超時的業務應用進行排名,對監測系統、范圍、運行概況給出大致描述,對各個系統應用頁面探測,給出全面統計信息數據和統計結果等內容。
提供系統問題反饋收集機制,便于實現對信息系統運維需求的線上問題收集和統一管理。項目計劃管理是一個用于協調所有項目計劃的文件,可以幫助指導項目的執行和控制,根據項目需求,提供項目建立、項目可研、項目儲備、項目計劃等前期項目管理工作。
(1)事件管理,通過提供監測事件,準確確定正確的支持資源,以便盡快解決事件。
(2)問題管理,以解決問題為導向,以挖掘問題、表達問題、歸結問題、處理問題為線索和切入點。
(3)風險管理,把風險可能造成的不良影響減至最低。
(4)容量管理,為數據處理和存儲提供所需的容量。
(5)可用性管理,通過對信息系統以及IT服務進行設計、實施、評價和管理,最大限度縮短計劃性停機和突發性停止應用時間,持續地滿足業務的可用性需求。
(1)客服管理,用戶通過系統或熱線客服電話申報故障異常,客服人員將任務按故障類型派單到相關部門進行處理,并對處理過程進行跟蹤、督辦。
(2)值班管理,實現值班排班、值班日志、交接班等線上值班管控功能,并可通過圖形化的值班視圖查看當日值班信息。
(3)安全管理,提供安全監測、終端監測、合規監測、主動防御等安全監視與管理功能,實現安全指標的集成匯總及展示,包括補丁漏洞、殺毒軟件、保密檢測、安全接入平臺、信息網隔離、安全設備、防火墻監測、內/外網安全管理等功能。
(4)審計管理,提供線上運維審計、安全審計等審計管理功能,是集成系統運維操作關鍵指標數據并進行展現的頁面,可通過系統基礎數據采集自動抽取相關日志數據進行審計評估。
提供基于用戶角色的集中化信息展示平臺和應用入口,全面提升界面圖形化視覺展現,滿足用戶的個性化需求,并具有良好的功能擴展性。個人工作臺根據用戶的崗位角色,提供組件模板,同時提供可定制的、支持組件個性化的專屬工作區。功能框架主要包括展現框架、工作臺組件和系統配置。
支持對各類不同基礎資源的集中統一采集和事件處理分析,同時支持第三方網管數據的接入與標準化展現,最終形成統一的告警處理中心。
系統通過告警規范、告警范圍、告警處理、告警規則、告警分析、告警展示、告警恢復7個維度進行告警的全方位管理。同時,基于統一信息庫中的模型關聯關系,實現頂層業務系統告警到下層資源告警、資源性能數據的根源追溯功能。
通過內置的基礎模型庫,對配置、類別、屬性、關聯、表單等按需擴展,融合資產配置生命周期狀態管理,實現快速構建資產配置模型。該配置模型可以結合配置管理數據庫(CMDB),實現配置項的全生命周期管理,并能動態獲取各配置項的參數值。
無需編碼、圖形化的流程自定義技術,對審批類流程節點進行封裝,支持用戶根據實際管理需要,調整業務審批步驟,支持總部的流程模板統一下發到各下級單位。
基于圖模庫一體化操作設計的可視化技術,實現圖形化的模型和資源數據操作功能。結合圖形編輯工具及布局管理器,實現用戶級的組態化圖形定制服務。
系統設計了獨立的圖形平臺模塊,是系統和用戶之間的接口,提供用戶監控、瀏覽和操作等功能。圖形平臺主要包括:圖形及視圖編輯模塊、統一展現視圖模塊。圖形及視圖編輯模塊是整個展現框架中的底層支撐平臺,提供給用戶的功能包括:編輯和管理不同類型的圖檔資料,實現“圖-模-庫”一體化綁定操作;定義和編輯不同類型的視圖,提供靈活的展現方式。統一展現視圖模塊通過提供不同的視圖展現形式實現不同管理域數據的統一展現。
通過對鐵路信息系統平臺集中安全運維綜合監管系統的設計,在深度整合現有工具的基礎上,實現了運維對象全監測、運維流程全覆蓋、運維目標全滿足的基本支撐需求,將現有的各種“散”逐步向“集”過渡,實現“集約化”的架構管控與保障體系、“集成化”的信息管理平臺、“集中化”的公共基礎平臺。
集中安全運維綜合監管系統,劃分了資產管理、配置管理、知識管理、基礎設施監測、業務應用監測、項目管理、監測處置、保障支持、運維工作臺等9項子系統,有效區分了運維過程中面向不同運維對象的工作內容,使得運維人員的工作界面更明晰,流程更簡潔。在系統設計時,采用的集中統一事件處理、資產配置動態建模、圖形化流程定義、圖模庫一體可視化等關鍵技術,能對規范事件處理流程、定義標準化運維對象、工作臺人機交互等快速實現,起到促進作用。
為了滿足未來鐵路總公司數據中心的運維要求,該系統還需要在性能、可靠性、穩定性,以及部分功能性方面繼續進行研究和實踐。尤其需要思考并完善的工作是:面對萬級、甚至是10萬級規模以上的運維對象時,滿足集中、安全、監管等運維要求。