基于人工智能平臺的智能運維實踐

2022-07-20 05:57:26中興通訊股份有限公司中心研究院劉蔚楊魁

數字技術與應用 2022年6期

中興通訊股份有限公司中心研究院劉蔚楊魁

人工智能技術已經進入實施階段，AIOps 的實踐之一是將其應用于電信網絡運維，本文介紹了AI 技術應用于網絡運維場景中流量預測、日志分析、故障檢測和預測的方法和實踐。基于人工智能平臺可以加速實現網絡智能化，助力AIOps 在電信網絡的實踐。

在Garter 中將AIOps 定義為將機器學習和數據應用到IT 運維中，整合人工智能和大數據技術，強化IT 運維能力。在電信網絡運維中的AIOps 就演變成應用AI和大數據技術，解決傳統運維中難以解決的問題，提升網絡運維智能化。電信設備商和運營商從服務場景化出發，以算法結合網絡運維場景，在流量預測、異常檢測、故障預測、日志分析、根因分析幾方面進行應用落地。網絡智能化運維系統的實現，要在對業務場景的理解基礎上，使用若干算法進行模型訓練，并得到業務專家和運維人員的認可。

流量預測：在電信網絡中存在大量的KPI 數據，用于日常的運維情況監測，如小區或基站的上下行流量、接入的用戶數等。但每個小區或基站能夠承載的數據流量是有限的，依據網元的KPI 周期數據，使用算法對趨勢進行分析和預測，可以在數據達到上限之前，進行擴容準備，提前滿足用戶需求。

異常檢測：依據業務和數據的不同，有多種類型，對于連續性指標，其異常有毛刺異常、階躍異常。

故障預測：基于KPI 的變化值及其趨勢，以及以往故障前的指標，通過特征構造，使用算法發現網元故障的內在規律，在線監控，預測故障的發生，并采取相應措施，提高系統的可用性。

根因分析：日常運維中會出現大量告警，通過算法，判斷根因告警，并進行派單處理，提升運維效率。

日志分析：將日志收集、解析、特征和數據構造，選擇模型按業務邏輯進行異常檢測等智能化分析。

1 人工智能平臺功能和架構

智能運維的落地需要支持端到端的AI+業務應用能力，提供從數據獲取、數據標注、離線訓練、模型評估、模型管理、推理服務、數據和模型及服務能力共享的全棧式解決方案。在用戶友好性方面需要提供可視化算子、拖拽式的流水線建模能力，用戶進行簡單操作，便可以實現AI 應用的全流程。架構方面需要支持微服務化，各功能組件以鏡像方式發布，依靠K8S 調度各組件，提供彈性擴容和縮容，如圖1 所示。

圖1 人工智能平臺Fig.1 Artificial intelligence platform

數據源和ETL：從網元和網管系統獲取運維數據，如網元KPI、告警、日志、DPI、信令、工單等。對隱私數據可以脫敏后存儲。ETL 和數據存儲：負責數據的匯集、抽取、轉換，抽取算法需要的數據字段，將數據規范化處理，如空值填充或丟棄，并存儲到系統中。

數據標注：開源數據集無法滿足具體場景下、特定目的訓練需求，需提供多樣化的標注能力。常見的標注數據類別有：表格類、文本、圖片、音頻、視頻。企業基于數據安全和用戶隱私保護考慮，此類數據不適合由外部公司標注，所以標注能力及效率也被最終用戶關注。

模型訓練和推理服務：選擇數據集、相應模型和訓練資源，提交系統進行訓練、記錄訓練過程和結果。支持自動調優，如：網格搜索、隨機優化、貝葉斯尋優、強化學習尋優等，以及量化、剪枝和壓縮，降低對系統資源的占用和提升模型推理速度。

AB 測試和效果監測：對上線的模型進行效果監測。對預上線的模型，以灰度形式發布，先小流量試用，并監控其準確率等指標，視效果優劣逐步提升其流量，并正式發布新模型，并下線舊模型。

數據和模型共享機制：提供公共數據集和模型，并支持用戶私有數據集、模型、推理服務能力以市場方式提供，在不同的用戶或用戶群間進行分享。

通過組件化、微服務化，算法工程師可以重點關注數據處理、特征構造、模型訓練和評估環節，提高網絡智能運維落地的效率。

2 網絡智能運維方法

2.1 流量預測

流量預測：電信網絡中的KPI 數據，從數值上看分為連續型的和離散型的，不同種類的網元從KPI 數據的業務性質、統計粒度均有不同。比如統計粒度：從時間上可以從15 分鐘、小時、天，及匯總后的周、月、季粒度。從統計對象范圍上可以從小區Cell、基站、地區、4G、5G，逐級匯集匯總。從業務層面分類更多，如上下行流量、報文包數、號碼數等。

對于連續型的數據均可以使用時間序列算法進行預測，可用的模型有ARIMA、SARIMA、LSTM、Prophet、N-BEATS 等，開源庫Kats、Darts 匯集常見算法，并提供從數據預處理、模型選擇、繪圖展示到指標評估工具的集合。常用的評價指標有平均絕對誤差MAE 和MASE等。在應用中綜合考慮模型訓練時長、數據敏感度、指標效果、推理速度，選擇單模型或模型組合，輸出最終結果。

2.2 異常檢測和故障預測

異常檢測所使用的數據是一種無標簽的數據。一種是沒有標注的異常點，通常采用無監督的方法；另一種是有標注的異常點，數據分布極不平衡，異常數據較正常數據的數量在1%以下，部分情況甚至僅有萬分一左右。常用的算法有基于統計的方法，聚類方法DBSCAN、孤立森林、OneClass SVM。

當前寬帶提速，運營商光纖到戶，用戶使用光纖上網的比例高，一個局點有幾萬到幾十萬戶，運維的一個日常工作是更換故障光模塊，但其故障率非常低，同一局點下的不同廠家以及同一廠家光模塊的種類、型號、批次各異，傳統方法是在用戶報障后進行處理，一方面運維人員排障工作量大；另一方面備貨時間不定，缺乏計劃性。為此引入人工智能算法，這是典型的異常檢測和故障預測問題，光模塊的數據從綜合網管EMS 及網元測獲取，首先積累一批離線數據，通過對離線數據的分析，構造數據特征，使用異常檢測模型，發現日發送流速、偏置電流、電壓及其多日差值、功率的變化、溫度等的極值等指標，是預測故障的重要特征，并且不同型號的模塊間存在差異。進一步分析，最終F1 指標可以達到35%，其中召回率達99%。后續可通過在線部署模型，進行在線訓練和推理，實現異常發現和故障預測，相比于傳統待模塊故障或用戶投訴才去處理，可大幅提升運維效率和電信網絡服務質量，如圖2 所示。

圖2 異常檢測流程Fig.2 Anomaly detection process

故障預測，使用基于NLP 技術構造告警詞向量方法進行網元重大告警預測。目前告警分析通常通過挖掘告警頻關聯繁度的特征、前后告警時間差值特征、告警發生時間特征等，構造多種時間周期下的告警關聯關系，來預測重大告警發生的可能性。采用NLP 技術進行數據處理，對全局的基站側告警進行編碼，比如共有告警碼200個，將每一個告警視為一個詞，將告警碼編碼為Alarm1，Alarm12，...，Alarm200。將網元每一日的告警視為該網元的一句話，其后是否發生特定重大告警視為一個標簽。這樣告警數據就轉換為，每個日粒度中每個網元的帶有標簽的一句話。再使用Word2vec 中Skip-gram 和CBOW 模型將其轉換為高維詞Embedding 向量，取該向量各維度的max、mean 值，及告警數量、類別、時間等進行訓練，F1 值可以達到0.66+，較傳統方法有顯著提升。

2.3 日志分析方法

基于日志的異常檢測可以囊括為:系統日志收集、系統日志解析、特征和數據構造和異常檢測。

以HDFS 日志為例，日志記錄形如： :

日志解析：采用Drain 方法，得到日志模板和結構化日志。先通過正則對日志進行解析，比如HDFS 中對block_id進行處理。如Receiving block blk_5792489080791696128 src:/10.251.30.6:33145 dest:/10.251.30.6:50010。處理后得到數據格式為：Receiving block <*> src: <*> dest:<*>。再分別通過日志信息長度搜索，以及通過第一個token 搜索，如上樣例中“Receiving”。再按token 相似度搜索。最后更新解析樹，得到日志模板。再將日志結構化，根據日志內容生成事件模板（EventTemplate），并采用block_id 對日志進行分區（組），生成日志序列。

特征構造：日志經解析后得到序列數據，再進行特征構造，如三種特征類別。序列特征：按照一定窗口劃分日志序列，每個日志序列直接視為序列特征。事件計數特征：在每個日志序列中，計算每個日志事件的發生次數，以形成事件計數向量。語義特征：對生成的日志序列中的每個事件進行semantic embedding，獲取語義特征向量。針對event-template 采用sentence-bert 預訓練模型進行編碼，獲得句子嵌入。

基于log2vec 模型構造特征，采用LSWE 詞向量模型，輸入所有日志詞庫、同義詞、反義詞、關系三元組進行訓練，得到詞向量，其中模板的向量構造方法是求模板中高維詞向量的加權平均值。

數據構造：將日志數據分成若干不同的組，這樣一個日志序列可以由一個組來代表，再使用窗口將日志數據集劃分成有限塊。窗口可以采用：固定、滑動和會話窗口三種方式，這里主要用到滑動窗口和會話窗口。固定窗口方式基于時間戳，其窗口大小為固定值，同一窗口中的日志作為日志序列。滑動窗口方式也基于時間戳，其取決于窗口大小和預定的步長，在同一窗口中的日志分組為日志序列，不同窗口之間會有重疊。會話窗口：會話窗口基于標識ID 來標識，標識ID 在日志數據中記錄不同的執行方式，根據ID 對日志進行分組，每個會話窗口均對應唯一的ID。

在完成特征構造后，再使用無監督或有監督的方法進行模型訓練和效果檢驗。

3 結語

電信網絡運維中的AIOps 落地，從早期單場景智能運維應用發展到多場景串聯嵌入運維系統的智能化服務。基于人工智能平臺，算法工程師可以聚焦在業務和數據本身，提高智能化項目落地效率。未來，運維智能化也將從當前先AI 進行分析再由專家判斷的模式，逐步降低人工干預和二次判別，演進到AI 自行進行判定和執行的模式。

引用

[1] 劉蔚,丁偉,杜家強.一種AI Explorer架構與應用[J].信息通信技術與政策,2019(7):39-43.

[2] 周晶,王德政,洪科.5G 網絡智能運維AI應用研究[J].郵電技術設計,2021(11):83-87.

[3] 湯濟偉.基于長短期記憶網絡的日志分析工具的研究與實現[D].重慶:西南大學,2020.