四川中電啟明星信息技術有限公司 余 癡 李 立 任蕾凡
隨著國家電網公司"十三五”信息化規劃的開局,要求優化運維架構和流程,深化風險防控和隱患治理,推廣自動化運維工具。建設運維服務多渠道統一接入應用,建設和推廣智能化分析應用、業務監控工具、自動化運維工具。
公司2016年信息通信工作要點中,要求統籌推進運行管理集約,完成信息通信運維體系頂層設計,健全運維支撐體系,探索信息系統維保模式創新,提升維保業務標準化、集約化水平。強力推進運維作業智能化,完成運維自動化頂層設計,充分利用新技術,豐富自動化手段,推進基礎環境、動力環境等的監控全覆蓋,以及虛擬資源動態分配部署和系統巡檢、作業、發布的自動化。
公司2016年信息化建設實施意見,要求加快推進運維自動化工具研究建設。
基于"大、云、物、移”等新技術,開展運檢自動化頂層設計,統籌自動化運維工具開發。
伴著信息時代的慢慢發展,IT服務內在緊要的重要因素之一便是IT運維。與此同時越來越復雜的需求,面對越來越多樣化的用戶需要,日益漸增的IT應用也要更加合理的處理方式來保障IT服務能變通穩定的持續保護,這類似模式中的保障成分便是IT運維。從剛出現時的少量服務器到現在巨大的數據中心,僅僅靠人工來完成已然不能滿足在技術、業務、管理等方面的需求,那同時人們對于標準化、自動化、架構優化、過程優化等降低IT業務基本成本也變得越來越重視。在其當中,自動化最開始成為代替人工操作為起點的訴求被普遍專研和利用。
IT運維從出現到如今,自動化屬于其必不可少的屬性之一,已然不單單僅是取代人工操作,更重要的是深層探知和大體剖析,怎樣在目前這種條件下達成性能和服務使用最大化,還能確保投資回報效益最大化。這種情況在IT運維自動化造成的,不僅設備和相關的利益相關者,使用它的操作和維修決策的水平,在目前的形勢下成為必然導向的客戶服務,IT運維團隊的形成,各級技術人員對服務人員和廣大用戶占絕大多數的情況。所以,將一組將靜態的設備構造轉為依據IT方面所需動態彈性相應的計劃,為了便是實現IT運維的效能,減少成本是IT運維自動化的主要目的。
因此,IT運維的一個重要屬性就是自動化,以及一系列與之配套的軟硬件平臺和系統。
很多事情都是因為每天重復的IT操作,從以前的手工操作到自動操作,可以減少甚至完全解決操作中的延遲,一個“零延時”的IT操作。
簡單地說,它指的是基于IT事件和相關過程的自動化框架的運行和維護過程,一旦監視系統性能超過標準或停機時間,觸發事件和預定義過程等,可自動啟動故障響應和恢復機制。

運維應包括如下內容:
A、環境定義:開發環境、測試環境、類生產環境、生產環境等。
B、部署:有效地部署部署包到不同的環境
C、監控:部署的系統和應用程序監視器。
D、警報:問題發生時的響應和處理機制。
E、性能優化:如Nginx / java / PHP /數據庫/網絡各種服務系統的優化。
F、其他內容:日志包裝、自動化測試、發布、上線,灰色的分區配置,自動化標準化操作和維護,分布式架構的標準化,指令高速緩存存儲中間件、自動化測試、云搜索、開放的平臺,平臺的市場基礎設施、服務管理、任務調度、集群協作,調用鏈分析,界面質量等內容。
隨著企業業務的不斷擴大。IT設備和硬件的擴展也造成了更復雜的操作和維護工作。在IT運維服務中,一般包括了很多的運維項目,比如系統鏡像服務,網絡維護,安全運維等,這些運維只要一旦出現了問題就必然都會影響業務人員平常的使用及操作。目前,大多數企業的IT運維都面臨著以下問題。首先,固然IT部門已針對性公布了運維制度與流程,但業務部門仍然不滿意運維工作,運維管理效率低下,近似的問題一再產生,IT運維人員捉襟見肘。其次隨信息化硬件和應用系統建設的實現,主要問題便是怎樣整和運維人員并且創立一個統一服務流程。
現狀一:IT運維人員成本偏高,據專業考查,大多數CIO認為最該關注的是IT運維成本太高。因為在過去的5年中,很多企業已經實施了大量的IT系統,使得它的運作越來越復雜,管理起來也越來越困難。與此同時,近半的人接受訪問CIO覺得IT運維成本太高的主要因素是IT運維的自動化的現狀還未達到預期的樣子,通過手工流程來解決管理問題,不僅僅導致運維效率達不到要求,并且人力的成本也超過了能接受的范圍。與此還有一家國際知名調查機構Gartner在調查后察覺,對于IT運維成本來說,技術或產物(包含硬件、軟件、網絡等)成本僅僅只占總成本的20%,而維護和操作和維護人員費用的過程成本則高達40%。
現狀二:處在"救火式”的IT運維控制。IT工作者大多僅僅是處在被動低效率手工救火的形式,當事件發生并對業務產生影響時,它知道并著手解決它。這種被動”救火”會導致:①IT運維人員的工作是十分繁多的,IT運維人員總是將大部分的精力和時間來解決不少簡一反復的問題;②IT運維本身質量很難提高;③還有就是故障預警機制的不完善經常會導致故障爆發了以后或則是預警之后才會發現解決,這樣導致不但事倍功半并且故障還會經常出現惡性的連鎖效應;④IT部門和業務部門對IT的運行和維護不滿意。
現狀三:自動化程度簡單地引起了”反應”,雖然IT運維管理技術一直在不斷提升,但事實上,許多IT運營商無法擺脫它,主要原因是自動化不高而致使的。IT設備、服務器、網絡流量,乃至數據庫的預警信息,雖然可以通過技術從而獲得,但是當成千上萬的警告信息聚集在一起時,就會導致對問題到底在哪里的錯誤判斷。還有,現在許多企業對于革新的管理很多都是通過手工操作來完成工作。即使是簡單的系統更新或更改,也總是要求操作人員逐一登陸,每個設備手動更改,當設備數量達到大量時,其工作量不可知。而這樣的變更和檢查操作在IT運維中往往每天都在進行,占用了大量的運維資源。因此,達成運維管理工作的自動化對企業來講已刻不容緩。全部信息(錯亂)都會通過不同地方被集中到了這個圓圈中,信息進去后不能夠自動流出來。可能發生的情況:循環信息在裝滿時會爆裂;循環速度減慢,信息輸入速度減慢。
目前,許多IT企業已從人工操作實現到計算機管理,但許多企業的IT運維管理還不過是處在”半自動化”的運維狀態。主要原因是這類IT運維依然還是等到IT故障發生后再由運維人員選擇相關的補救措施。這些傳統的被動、孤立、半自動化的運維管理模式往往使IT部門疲于奔命,主要現象可以從以下三個方面來看:
(1)運維人員被動、效率低。只有當事件發生并影響到企業才能意識到并著手解決的時候,這種被動的"救火”不僅使IT維修人員經常忙碌,而且也使IT操作本身的質感難以改善,從而導致IT部門與業務部門對于IT運維的服務感到并未到達預期的滿意程度?,F在絕大多數的企業IT運維人員平常大部分的時間和精力是解決很多的簡一反復的問題,導致IT運維人員的工作總是處在解決與補救問題的形勢當中,不單是工作達不到預期的完成而且總是會出現惡性連鎖效應。
(2)已有的IT運維機制達不到預期的高效率,如今大多數企業在IT運維管理過程當中對于自動化的運維管理模式不能做到,而且沒有精準的角色界定和責任區分,造成原因后很難迅速準確地找到根本原因,在發現問題的過程中,找不到合適的人員進行維護和處理,或者缺乏故障處理機制,并且在處理問題上,不僅解決了標準化的不足,還缺乏全面的跟蹤記錄。
(3)IT運維技術工具的落后,伴隨著信息技術的發展,IT系統對企業來說越來越復雜,眾多的網絡設備、服務器、中間件、業務系統等IT運維人員需要時間,縱使加班加點地維護、部署、管理也常常會因設備產生故障而致使業務的間斷,嚴重影響企業的正常運轉。其中一些問題是由于缺乏IT操作和維護工具,如事件監視和診斷工具。由于缺乏有效的技術工具,很難迅速有效地處理故障。
A、工具中心是以工具為單元對自動化運維功能集合進行管理。運營層面,借鑒互聯網應用商店模式,實現工具型應用從注冊上線、買賣直至下線的整個生命周期管理;執行層面,各單位運維人員可以在工具商店直接下載工具到執行環境中快速使用,也可通過作業編排、作業執行(支持串行執行和并行執行)來對工具進行集中調用。工具中心將作為公司未來應用商店的一個組成部分。在功能方面,工具中心包括工具準入、工具管理、運行管理、工具評價、工具庫等5個模塊。工具準入需實現工具及附件的上傳,自動和人工審核工具的合規、合法、安全性,通過審核的工具進行發布上架操作等功能,并提供標準化工具準入接口規范;工具管理應實現工具發布后的生命周期管理,包括搜索、下架、發布消息、刪除等功能;運行管理實現工具運行管理,響應外部對工具的調用,完成工具的部署啟停、工具運行狀態監控、運行環境管理等功能;工具評價實現用戶對工具匿名文字評論、打分、評級等功能;工具庫實現工具各種形式的展現,包括工具精選、排行榜、分類展現、詳情、工具收藏。工具中心將作為未來公司運維自動化類工具注冊和管理的唯一入口,對外提供工具清單檢索、信息查詢,工具調用控制、狀態查詢、更新信息等服務供其他中心調用。
B、資源配置中心對資源進行識別、控制、維護、檢查,并為其它中心提供準確的資源配置數據支撐。業務上包括資源錄入和拓撲展現。功能上,資源錄入包括資源初始化、資源查詢、分類管理、資源維護、發布。資源初始化需實現資源配置信息的初始錄入,支持人工錄入方式;資源查詢需提供查詢接口,實現資源信息的對外查詢;分類管理實現資源分類的維護、分類屬性的定義;變更實現資源和屬性的變更;發布管理實現當配置發生變更時,可觸發相關場景將變更內容作用于資源對象使之生效。資源配置中心對外提供資源查詢和資源變更兩類服務;資源查詢供相關業務查詢資源的類別、屬性、相互關系等信息;資源變更供相關業務增加、刪除、修改資源的類別、屬性、相互關系等信息。
C、監控是信息通信運維體系3.0技術支撐部分的監控策略與配置中心,將原始監控數據轉化為告警,支持將業務需求轉化為落地策略,為各類業務展現模塊提供監控及告警數據服務。業務上包括監控展現和告警規則定義。在功能方面,監控展現支持自定義多種方式對監控結果進行統計展現及告警消息展現;告警規則主要通過監控指標和閾值定義告警規則。監控模塊的主要數據來源是統一Agent、日志、資源配置中心及第三方數據源,經過數據加工處理和數據持久化(入庫)之后,可為分析展示中心等其他模塊提供KPI數據服務及運行事件告警服務。監控資源對象包括運維自動化支撐平臺本身的健康監控、工具運行監控、用戶異常操作監控、資源容量監控、資源使用率監控等。
D、統一Agent實現對數據采集、系統控制的需求,是在信息通信運維體系3.0中采集運維對象的運行信息、控制運維對象運行狀態的唯一合法代理。統一Agent的主體功能模塊包括:數據采集和指令執行。數據采集實現采集數據處理、指標數據上傳以及采集數據暫存等功能;指令執行實現接收指令和對指令進行解析、驗證、執行,執行包括對宿主機的應用推送、安裝、配置變更等。統一Agent中心向外部提供數據查詢和命令推送兩類服務。
以工具中心、資源配置中心、監控為基礎,建立運維自動化支撐平臺,通過對運維工具的統一納管、統一調度,實現運維作業的流程化、規范化。