雷曦煒 王進
【關鍵詞】自助運維服務;關鍵技術
不斷擴充的業務需求和逐步提高的服務要求,傳統以人工運維服務模式已經不能滿足需要。主要體現在傳統運維服務主要依靠人工方式進行,重復性勞動強度大,效率低;故障處理缺乏預防自愈手段,長期以來的“頭痛醫頭,腳痛醫腳”維護服務方式,缺乏預防性和故障自愈的技術手段,處理方式被動。
基于以上現狀,急需一種能夠實現自動化運維服務、故障根因自動定位和故障預防自愈、運維服務自助編排的自助運維手段,提升運維效率。
針對這些問題,我們提出“多維信息聚合一高效數據引擎一智能分析預測一自助編排服務”的思路,進行解決問題的新途徑探索——具有自助運維服務能力的平臺模型,建立以自助、可編排、實時在線為特點的運維服務體系。
多維信息聚合:對運維服務所需知識點進行聚合,形成多維的、標準化的信息聚合平臺,形成信息知識體系。
高效數據引擎:將數據經過處理、轉換后,經過知識分類和智能關聯,形成高效的數據引擎,為數據服務提供可靠的數據引擎。
智能分析預測:通過建立故障分析規則,實現故障根因定位、故障預防自愈功能,壓縮冗余故障工單提高運維效率,為自助運維服務提供強大的數據支撐能力。
自助編排服務:根據用戶選擇和個性化需求,在后臺通過配置管理和服務管理支撐,為用戶提供可編排、可定制、全天候實時在線的運維服務模式。
基于以上分析,提出以智能交互、可編排、可定制為特點的自助運維服務的建設模型,進行運維服務建設實踐。
基于上述自助運維服務模型設計,主要進行故障根因定位策略、故障預防自愈功能、自助運維服務交互、自助工單處理和定制運維服務模式等關鍵能力建設。
(一)制定故障根因定位策略
制定同一設備內、不同設備間、不同專業網絡之間告警的關聯規則,采用樹形算法、保護算法和環狀算法建立抽象數據模型,實現對衍生告警故障、主次告警故障、同源告警故障和跨專業告警關聯故障定位。對大面積斷站直接輸出根因派單處理,提升工單壓縮率,為自助運維服務提供精準的數據支撐。
(二)故障預防自愈的實現
基于故障根因定界定位,挖掘分析告警與性能指標相關性,獲取性能指標變化趨勢,以15分鐘為粒度,統計故障設備網元的性能數據指標,形成趨勢走向圖。分析該段時間的告警趨勢,與性能趨勢比較,分析告警相關性較大的性能指標,并通過平臺向相關責任人發送故障預防告警通知。
依托原子編排能力,構建故障樹模型,結合專家經驗庫和平臺項目自學習能力,生成故障分析樹,根據系統對故障根因的定位,系統通過向網絡操作維護中心下發指令,實現部分故障的自動修復。
(三)自助運維服務交互能力
基于數據引擎的深度分析能力,提供智能應答功能,支持在線文檔、運營指標、運行報告等的模糊查詢,支持多輪對話快速縮小查詢范圍,支持多種常見文檔、多媒體格式的在線瀏覽與播放。
(四)自助工單處理
根據信息聚合平臺信息,周期性或按條件觸發各類推送消息,將人工催辦完成的工單由系統自助完成,由平臺替代人工發起、跟蹤任務,過程中支持升級提醒,任務完成后自動生成相應的報告。
(五)定制運維服務模式
定制運維服務模式分為模板編輯、模板生成、報告編輯、文檔生成和信息發送五個步驟。模板編輯包括了對服務響應的格式、字體、顏色的制定,還可以對服務響應需要的截圖、變量進行制定。在編輯好文檔模板以后,對文檔模板進行上線,按照模板生成相應的文檔。
文檔生成,首先需要選擇關聯的文檔模板,選擇好模板以后確定文檔生成的周期和時間。對于生成的文檔不但可以在線查看,還可以在線編輯。配置好文檔生成周期、時間,按照設定的周期和時間定時生成文檔,按照一定的周期對同類文檔的數據進行持續的趨勢分析,根據趨勢圖來判斷問題是否有好轉,如果趨勢仍在繼續劣化,就自動觸發預警消息并自動推送到責任人,提醒重點關注。
通過上述自動化運維能力建設,運維服務從手工模式轉到自動化、自助化模式,打造了具有交互能力的自助運維服務模式,并實現了全域故障根因分析和故障預測自愈,面向多場景的快速支撐能力得到大幅度提高。
(一)具有交互能力的自助運維服務
基于聚合信息平臺實現運維服務的模糊查詢、精確匹配,以問答方式訪問,并返回處理結果,降低學習成本。多觸點通過一站式入口,支持資源、告警、工單、天氣等的數據的一體化采集、分析與價值輸出,實現支撐能力升維、生產入口降維的運維服務目標。
(二)全域的故障根因分析,實現故障預測自愈
在故障根因分析和預防預測方面,成功實現了多個關鍵技術的研發突破和實踐應用。通過對歷史數據、業務數據、問題數據、用戶數據等多維數據多維分析技術、智能關聯技術等,實現故障根源自動定位、故障隱患預測、問題主動上報、指標異常預測等,為知識投放、業務優化、支撐優化、人員優化、系統優化提供指導依據,減少運維出勤,降低代維成本,提升故障處理效率。
(三)可定制、可編排的個性化運維服務模式
面向全省運維服務個性化需求,用戶可根據運維工作需要,自行定制運維服務模式,并選擇服務送達方式。如用戶定制移動網絡的等級故障服務,在設置通知方式時候,可以自主在夜間選擇電話;對非等級故障選擇短信,既滿足了運維工作需要又避免了信息泛濫。
考慮到運維服務要求具有個性化和快速響應等特點,對于個性化需求的業務層分析,采用組件化架構的設計,充分利用組件化架構的優勢特點,對系統組件間進行解耦。在應用層和控制層的調用中,通過功能組件對外開放統一接口,在接口中聲明包含所有的服務,支撐應用層模板快速和靈活配置,形成面向多場景的支撐。
自助運維服務模式投入使用以來,累計提供服務3.5萬多次,代替人工運維服務3200多人次,減少維護出勤次數15%,運維效率大幅度提升。通過自助運維服務模式變革,為相關網絡運維人員提供更加及時準確運維信息,重要站點和等級故障保障更加及時有效,萬人投訴率下降4.5%,有效提升了用戶感知。