尚 英,陳 武,童宇軒
(1.國網甘肅省電力公司蘭州供電公司,甘肅 蘭州 730050;2.國網信通億力科技有限責任公司, 福建 福州 350001)
自動化運維作為一種創新的運維模式,結合了運維流程、平臺系統、運維人員的基本能力、業務規劃及業務建設。該系統可以解決重復性問題,并促進運維效率的提升,更好地確保業務安全性。
運維自動化技術支撐體系建設通常有4種模式,即分散建設、集中模式、平臺模式、自助模式。這4種模式可以看成是企業運維自動化能力建設不斷走向成熟的4個階段,最終的目標是實現自助運維。
采用1(平臺)+N(場景工具)模式的優勢在于如下8點。(1)隨著運維規模的擴大,運維工具數量、種類也大幅增加,運維工具本身的管理成為必須面對的問題,需要統一集中的運維平臺支撐。(2)平臺具備廣泛的兼容性,可納管全面的IT設備和系統。(3)具備與現有運維工具集成的能力,最過往投資保護。(4)在平臺上可靈活擴展到更多運維場景,而不增加平臺維護成本.(5)平臺具備向數據化、智能化演進的可能性,滿足長期建設要求。(6)場景可由實際使用者根據自身使用需求提出并建設。(7)發揮多方積極性,各取所長.(8)運維團隊逐步具有較強的運維開發能力[1-2]。
運維自動化技術支撐體系繼承ITOM3.0基礎技術要求,業務功能全部覆蓋ITOM3.0業務點,按“1平臺+N場景工具”的思路設計,分為運維對象層、采集控制層、技術平臺層、運維工具層、統一門戶層及大屏展示層??傮w技術框架如圖1所示[3]。
對于運維對象層,即服務器、存儲、網絡、數據庫、中間件、應用、業務系統及基礎設施等運維對象。
對于技術平臺層,由資源中心應用(統一CMDB)、作業中心應用、流程中心應用、數據中心應用、模型中心應用、監控中心應用、AI中心應用、集成中心應用、開發中心應用、agent控制中心應用,共10個中心組成公共支撐平臺。中心內部可采用緊耦合設計,實現中心內部功能;中心之間采用去核心的分布式設計,實現分布式、扁平化的應用結構。
對于場景工具層,從資源管理類工具、監控巡檢類工具、資源部署類工具、故障處置類工具、運行分析類工具、檢修管理類工具、安全管理類工具、備份管理類工具及運維能力提升類工具等方面規劃了9大類多個自動化運維工具,涵蓋了主要的運維場景。采用平臺模式,面向場景的工具建設是完全開放和不斷迭代的,未來各部門、各專業可以根據自身情況新增需求,靈活開發配置所需的場景工具。
對于大屏展現層,提供大屏全景展示和三維可視化展示能力,實時反映各類信息系統運行狀態,及時獲取運維自動化各項操作結果,協助調控運行人員及時把控全局,為決策提供依據。
自動化運維技術支撐體系按照特點可以總結為“一平臺、十中心、多場景、輕應用”。

圖1 總體技術框架
Agent控制中心是整個平臺的底層管控系統,是自動化平臺所有其他服務的基礎,是平臺服務體系與用戶機器的連接器。Agent控制中心是典型的兩層分布式C/S結構,主要包含智能統一Agent,提供各種服務的Server。其中,Agent是部署在業務機器上的程序,每臺業務機器理論上只可以部署一個;其他模塊部署無具體要求,可以單獨部署,也可以混合部署[4-5]。
整個自動化體系中,Agent控制中心沒有直面用戶,但Agent控制中心在自動化平臺體系中卻是不可或缺的,可為平臺其他模塊提供人機交互的通道與能力。
流程中心模塊實現對日常運行、檢修等運維管理流程的支撐需求,為運維管理工作提供流程流轉、待辦生成及任務分配等服務。流程管理需實現流程的設計、建模、模型測試、模型導入導出及瀏覽等功能。實例管理可對具體的業務流程實例進行查詢、統計、分析,并可人工調整流程走向。業務對象管理應實現對業務對象的維護和瀏覽功能。用戶任務管理實現相關人員發起、審批、查看、回退及作廢流程等任務操作,并能夠支持自定義功能。系統管理需包括日志管理、權限管理及數據備份等功能。流程引擎作為流程中心應用的核心,應實現業務流程定義解析、活動間的路由網關協調處理、請求處理和引擎自身調度等功能。統一流程服務主要實現與其他中心應用的接口功能。流程中心可對外提供可調用的流程定義列表、流程實例列表、即席查詢功能列表及待辦提醒等服務。
模型中心以智能模型為基礎,用于實時分析運維對象的健康狀態,并根據模型對運維對象的打分情況及時發出報警,同時基于機器學習的AI模型還可以提供運維對象健康狀態預測。智能模型主要包括5種模型。第一,健康模型。該模型是判別系統是否健康的指標模型,通過一組符合指標計算百分制的分數,通過分數高低表示系統健康狀態的好壞。第二,性能模型。通過負荷指標計算百分制分數,通過分數高低表示系統性能的好壞。第三,負載模型。通過負荷指標計算數據庫的負載情況,負載分數越高說明系統的負載越高。第四,資源模型。該模型是運維對象對資源的消耗情況的動態模型。第五,容量模型。池化、云化環境的業務容量對應資源容量的模型,用于云環境的擴容規劃、資源調度等場景。
集成中心模塊通過提供API,統一以組件的形式對接企業服務總線。
開發中心提供完善的前后臺開發框架、調度引擎及公共組件等模塊,可以幫助用戶快速、低成本、免運維地構建支撐工具和運營系統。
信息系統日常運行維護中,由于運維對象、運維操作、運維流程及運維角色的不同,存在各種各樣的不同運維場景[6]。
某個運維對象產生監控告警后,系統可根據預先確定的規則執行某個應急操作(場景1=監控+應急操作)。
有些情況下,還需要進一步自動創建一個事件單(場景2=監控+應急操作+創建事件單,這里與服務管理流程進行了聯動)。
如果滿足預先定義的一定條件,可能還要求同時向一定范圍的人員發送短信通知(場景3=監控+應急操作+創建事件單+短信通知,這里進一步與告警通知自動化流程進行了聯動)。
對于運維工作,場景的特定性和靈活性是很普遍的。例如,應用升級或配置變更,每次實施的目的和內容往往不盡相同,可稱為一個特定的“運維場景”。
2.2.1 補丁管理自動化場景
信息安全是IT運維管理永恒不變的主題。隨著數據中心的規模日漸增長,大量系統和設備每月的大量補丁缺乏高效、穩定機制處理,在需要保證補丁最新更新的前提下,對應急補丁要求能夠靈活快速響應處理。補丁管理通常包含5項操作:從原廠官方同步補丁信息和補丁文件;在本地數據中心進行補丁文件的清洗、處理和轉存;從安全基線、服務器及補丁三個維度進行補丁實時發現;向有問題的系統或應用推送補丁,完成補丁升級操作;對補丁升級后的系統或應用進行持續監測,確保補丁生效后的穩定性。
因此,補丁管理場景=下載同步+清洗轉儲+監控+補丁升級操作+監控??梢圆捎米詣踊绞介_發補丁管理工具,實現補丁更新工作管理,從權限顆粒化管理、自定義報表、服務器維度、補丁維度及基線維度進行補丁的統一更新操作,提升工作效率,保證業務平穩運行。補丁管理自動化工具如圖2所示[7]。

圖2 補丁管理自動化工具
2.2.2 資源交付自動化場景
資源交付是數據中心運維常見的運維場景之一。隨著業務創新和用戶需求不斷變化,對于系統新業務快速上線,資源快速交付提出了更高要求。傳統資源交付涉及多個環節,需人工創建,耗費時間和人力。
需要構建一套基于自動化的資源敏捷交付工具,將虛擬機創建、應用組件安裝及網絡策略配置等操作步驟串聯到同一流程中,實現資源在線審批,一鍵策略下發和無人值守安裝,從而實現信息化系統虛擬機資源的敏捷交付。資源交付實施過程如圖3所示。
2.2.3 日常巡檢自動化場景
隨著信息系統復雜性和建設規模的不斷增大,各種復雜設備對人的要求越來越高,信息系統健康巡檢成為日常運維中工作量最大、重復性最高的工作。巡檢工作是一項標準化、批量化的任務作業,非常適合利用自動化方式實現。
巡檢自動化工具,通過對作業中心和配置中心相關整合編排,實現對廣泛設備的健康巡檢[8]。功能及邏輯架構設計如圖4所示。
巡檢任務返回的結果利用可視化技術,展示到Web頁面或直接通過郵件系統發送給運維管理人員。

圖3 資源交付實施過程

圖4 巡檢自動化功能及邏輯結構
第一階段,構建強大的自動化基礎技術支撐平臺,實現統一采集、統一操作、統一資源、統一監控及統一流程;構建配置管理、性能監控、基線管理、日志分析、備份驗證、數據拯救、應用發布及電子標簽等一系列自動化運維工具。
第二階段,健全完善運維自動化體系,實現自動化運維一體化管理;優化崗位職責,完善技術手段,強化運維數據分析能力,實現應用自動拓撲、故障自愈、預警管理,及全管理自動化,實現初步的應用管理自動化。
第三階段,持續優化運維自動化體系,實現自動化運維智能化(AIOPS),實現IT服務價值管理;提升技術手段,建立運維智能學習、趨勢預測,實現運維故障智能化處理、端到端的精益化運維管理。
通過運維自動化平臺建設,可以大幅提高運維生產力,提升IT管理效率,提升管理、經濟及社會等多方面效益。
關于管理效益,實現工作流程規范化,統一運維管理、流程與執行充分互動;實現故障分析智能化,能夠提前預防、無人值守、智能判斷與處理。
關于經濟效益,通過運維自動化平臺建設,提高設備資源利用效率,降低采購成本;提高信息運維服務工作效率,降低人力成本。
關于社會效益,通過運維自動化平臺建設,為IT系統的安全、持續、不間斷運行提供了有利的支持,提高了信息系統運行可用率,持續提升公司運維服務水平的高度,為信息運維服務提供全面支持;IT系統的穩定運行,可減少客戶投訴,提升服務水平,樹立良好的企業形象,提高企業品牌意識,更好地服務于社會大眾。
本文總結和提煉出電力行業的信息自動化運維建設思路,主要包含自動化運維的基本框架體系建設、平臺的邏輯設計及最佳的實踐方法等。同時,本文分析了運維自動化建設效益。