[邱傳寧]
隨著電信網絡云網一體化轉型的不斷深入,網絡設備的高度集中,各類型設備硬件及軟件運維壓力持續增大。在傳統運維模式中,當網絡運行出現異常,產生告警時,運維管理人員通過告警定位信息,查看網管告警、性能日志去查找和定位故障信息,這種方法已無法滿足面向用戶感知的網絡網絡智能運維需求,傳統依賴人工的運維手段逐漸向自動化、智能化的運維手段轉變。運維模式逐漸趨向主動監測分析業務、網絡、設備各層面的運行情況,主動發現網絡隱患和業務質量下降趨勢,彌補設備告警的不足。
與此同時,由于電信運營網絡的分拆整合,部門的重組調整,網絡工程師流動性加大,這就要求將專家維護經驗固化和沉淀下來,起到降本增效的作用。還可將固化的電信維護操作案例作為新員工專業培訓教材,通過經典案例的學習,解決新員工培訓上崗周期長的問題。
現有的日志分析技術,主要以網絡和信息安全審計為目的,對接入平臺終端用戶的登錄情況、設備操作行為等進行記錄和檢測,審計是否存在繞行等異常登錄,高危的敏感操作是否按單施工,以及其他的違規操作。
針對上述電信網絡現狀以及運維訴求的痛點,本文提出了一種基于日志數據分析的智能網絡運維方法,通過分析處理海量操作日志數據,獲取成功維護經驗,從而將優秀專家維護經驗固化,引入大數據和AI 來替代重復工作,解決復雜和難點問題,為提升運營商的運維水平打下夯實基礎。
網絡設備硬件、軟件在運維過程中,產生了海量的操作日志數據,本文以日志采集處理架構ELK(ElasticSearch全文檢索數據庫、Logstash 日志采集器和Kibana 可視化數據搜索)為基礎,對日志數據進行采集、清洗以及分析。通過操作日志數據分析,回溯網絡設備故障工單告警產生信息,故障閉環信息,對于網管所執行操作能成功排除故障的案例,獲取其成功維護經驗,自動生成專家經驗庫,用以指導同類故障處理,并通過預先定義的告警項、觸發器、故障動作等,做到實時故障預警、故障恢復,評估可實現約10%的網絡設備故障自動修復,從而有效提升故障處理的時效性,實現網絡設備運維智能化、自動化。
與現有技術相比,本文利用大數據架構,分析操作日志數據,回溯故障工單,獲取成功維護經驗,提高了運維效率及可靠性,同時自動生成經典維護案例,實現運維知識的高效傳遞。
本文介紹的基于操作日志分析的智能運維設計方法,操作日志分析以大數據ELK 平臺為基礎,包含了ElasticSearch 全文檢索數據庫、Logstash 日志采集器和Kibana 可視化數據搜索,系統架構設計如圖1 所示。

圖1 系統架構設計
Logstash 具有實時傳輸能力的數據采集引擎,以Logstash 進行日志數據、故障工單數據的采集和解析,再將數據傳送到ElasticSearch 數據庫。
ElasticSearch 是一個實時的分布式搜索和分析引擎,ElasticSearch 提供的API 是基于HTTP 協議的RESTful API,可以用于全文搜索和分析,使用字段、數值范圍檢索,指定時間范圍查詢的大數據檢索,使海量數據可以達到秒級響應。運維日志分析引擎利用ElasticSearch API 封裝了自定義的運維日志分析模塊,按運維需求,結合故障工單數據,對經過采集、清洗過的4A 操作日志、網管操作日志進行分析,獲取成功維護經驗。
Kibana 為ElasticSearch 提供了分析和可視化的Web接口,通過Kibana 使用戶能連接ElasticSearch 搜索引擎,進行搜索、統計數據,并能對Elasticsearch API 封裝的自定義運維日志分析規則進行驗證,生成各種維度表格和圖形。
基于操作日志分析的智能運維模型,從網絡安全和運維的需求出發,提出基于大數據海量日志分析基礎上進行的智能安全感知算法,擁有日志全文搜索、可視化多維分析等核心功能,通過前端WEB 界面進行分析與展示,實現統一管理、隱患分析、故障定位、安全預警等分析功能,給運維人員提供價值最大化的日志數據信息。實現“面向設備”、“面向網絡”的傳統監控模式轉變為“面向客戶”自動化、智能化的主動運維模式。
當網絡設備運行出現異常,網絡集中告警監控系統檢測到異常并實時生成故障工單,派修至相關責任部門,相關部門遠程集中維護人員開始故障處理,通過4A 平臺授權登錄,接入各網管執行維護操作,排查故障。以上大量網內故障處理以及日常運維操作過程產生的海量操作日志數據經過ELK 平臺處理后,進入日志分析模塊。日志分析從故障工單入口,通過回溯網絡設備故障工單告警產生關鍵信息,故障閉環信息,對操作日志進行分析,將網管所執行操作能成功排除故障的案例,打上經驗標簽,成功維護經驗權重值置“1”,獲取成功維護經驗,運維操作日志分析邏輯流程如圖2 所示。

圖2 日志分析邏輯流程圖
以下通過實例分析,進一步論證在大數據ELK 平臺基礎上,對運維操作日志分析,回溯網絡設備故障工單,獲取成功維護經驗邏輯的有效性和可行性。
如圖1 系統架構設計所示,日志數據、故障工單數據通過Logstash 數據采集引擎采集,并傳送到ElasticSearch數據庫。ElasticSearch 運維日志分析模塊按運維梳理規則,提取故障工單關鍵信息;比對分析故障關鍵信息與操作日志;利用匹配出的操作日志數據,回溯到故障工單“結單信息”;生成成功維護經驗數據,存儲到專家經驗庫。
以某故障為例,如圖3,故障標題“2012 烽火江珠中80*(40/100)Gb/sDWDM 系統OOP_HIGH”。

圖3 故障工單
實例處理步驟1:提取故障工單關鍵信息,對應圖2步驟1。
故障工單-“故障描述”(故障內容)字段查找網絡設備告警產生關鍵信息如下:
【告警時間】:2021-02-22 15:54:40
【告警位置】:/Ems=廣東二干烽火100G 波分網管/Ne=04-01-江門炮臺
-OTM-珠海方向/Shelf=1-3/Board=49/Port=1
【告警信息】:OOP_HIGH
實例處理步驟2:將故障關鍵信息與ELK 平臺采集清洗后的操作日志匹配,對應圖2 步驟2。
EMS 網管操作日志數據如圖4 所示,其中“操作對象”與故障工單關鍵信息中的“告警位置”相關聯匹配,對于關聯上的操作日志,同時關聯故障工單“告警時間”與操作日志“操作時間”(在告警時間后2 小時內),搜索關聯操作,查找“操作指令”(詳細信息)。

圖4 EMS 網管操作日志
光保護網管操作日志數據詳見圖5,其中“局站”與故障工單關鍵信息中的“告警位置”相關聯匹配,對于關聯上的操作日志,同時關聯故障工單“告警時間”與操作日志“操作時間”(在告警時間后2 小時內),搜索關聯操作,查找“當前路由(切換指令)”,匹配出對應該故障工單的操作日志數據“備”到“主”的切換操作。

圖5 光保護網管操作日志
實例處理步驟3:利用以上匹配出的操作日志數據,回溯到故障工單“結單信息”,對應圖2 步驟3。
如圖6 所示,匹配結果與所執行操作一致,根據網管執行操作動作,故障得以清除,插入新增字段“經驗獲取”標志權值為“1”,對應圖2 步驟4。
實例處理步驟5:生成成功維護經驗數據,存儲到專家經驗庫
故障工單“經驗獲取”標簽值為“1”,作為成功維護經驗數據固化到專家經驗庫,對應圖2 步驟5。

圖6 故障工單結單信息
通過以上實例說明,基于操作日志分析,回溯故障工單,獲取成功維護經驗進行固化的方法,在電信大數據平臺的基礎上,利用人工智能自學習的運維模式,自動生成專家經驗庫,并通過優秀專家維護經驗的指導和學習,也保證運維人員隊伍的維護水平,從而保障網絡安全、穩定的運行,讓網絡維護優化工作更加面向客戶,以提升客戶對網絡的感知。
利用大數據框架分析處理海量操作日志數據,獲取成功維護經驗,從而將優秀專家維護經驗固化和沉淀下來,解決了網絡運維工程師流動性趨增的問題。并按運維需求預設告警觸發器,故障動作,實現故障自動預警,自動修復。