萬宏謀 蔡林峰 王榮 中國電信股份有限公司江西分公司 南昌市 330029
關鍵字:智能化 網絡故障 維護
云網故障處理的第一個階段主要以人工處理為主,工程師依靠經驗進行逐段的網絡分析、故障定位及處理。第二個階段是人們依托綜合網管系統(tǒng),結合運維工程師經驗和關聯(lián)規(guī)則進行故障處理。近年來,人工智能(AI)技術迅速發(fā)展,Gartner 在2016 年提出AIOps的概念,基于AI的云網故障分析和處理,將成為網絡故障運維的第三階段。
網絡故障的維護存在以下短板問題:①網絡告警故障工單的發(fā)起是自動的,而工單流轉環(huán)節(jié)中的轉派交互是人工的,需大量的人工閱讀、判斷、操作。②大量網絡告警故障,集中在幾類主要場景,其判斷、處理簡單重復,占用了大量人力操作時間。③告警故障恢復后,業(yè)務的恢復驗證及回單需人工操作,工作量大,效率低。④用戶申告內容的分析處理,由人工閱讀判斷,缺乏自動化處理能力。
①應用AI技術,進行工單內容的NLP分析,實現(xiàn)自動化的故障工單識別轉派,避免人工閱讀、分析、轉派的操作。②應用AI實現(xiàn)典型網絡故障場景的自動處理,減輕人工處理量;同時,減少故障工單的總體處理時限。③故障恢復的驗證,由AI執(zhí)行,并自動推送處理人員,自動關閉工單;④針對申告故障內容,進行NLP自動分類、自動處理。
梳理并實現(xiàn)動環(huán)停電、基站斷站、小區(qū)退服、IP端口DOWN、IPRAN開環(huán)、智能片障等主要場景的告警自動處理流程,以下是動環(huán)停電、基站斷站處理流程示例:

圖1 動環(huán)停電工單自動處理流程

圖2 基站斷站故障工單自動處理流程
(1)自動處理的目的
① 告警派單后二次關聯(lián)處理,自動合并有關聯(lián)關系的多張工單。
② 主動調用網管能力幫助現(xiàn)場確認設備狀態(tài),輔助校驗。
③ 規(guī)范現(xiàn)場工單回單。
④ 自動結單,減少人工質檢歸檔工作。
(2)實現(xiàn)情況
工單自動處理,目前已完全實現(xiàn)6類工單自動處理目標,覆蓋工單2.3萬余張/月(占比75%),單張工單預處理時間1-2分鐘。
基于開源深度學習框架BERT模型對現(xiàn)場的故障處理回單內容進行NLP分類學習建模,識別回單是否符合規(guī)范。圖3是Transformer模型結構。

圖3 BERT TRANSFORMER模型結構
如圖4所示,在工單處理建模的準確率達到了98%,實際生產環(huán)境中的線上準確率為93%,完全能夠滿足生產需求。

圖4 回單質檢模型準確率
◎應用場景:在故障工單現(xiàn)場回單后,根據回單內容智能分類,決策進行下一步工單處理的動作,自動進行工單調度(銷障、轉派或退單)。
◎完成情況:通過爬蟲獲取工單回單反饋數據70多萬條,由于轉派、退單等數據量和銷障的數據量嚴重不均衡,銷障的量占比99%以上,不能用來全部進行學習訓練,最終選取了5515張銷障數據、全部轉派數據5249張、全部退單數據268張,進行訓練,細分場景還是存在不均衡,通過上采樣擴充較少的數據樣本。
◎應用效果:月度覆蓋工單3萬余張,判斷耗時十幾秒左右。對于識別出的處理場景,結合后續(xù)的自動處理動作,實現(xiàn)工單的自動結單、 智能轉派或自動退單等自動流轉調度。

圖5 結單、轉派、退單場景的運行時長

圖6 智能轉派示例
針對告警恢復,故障是否真正恢復的問題,開發(fā)自動化驗證程序,解決告警恢復需人工回單確認的問題,實現(xiàn)主動驗證恢復工單120余張/天,主動關閉告警150余條/天,驗證的工單覆蓋100%在途的告警工單。

圖7 全部在途告警工單驗證一輪耗時5分鐘以內
每月有大約5000多寬帶用戶申告,由監(jiān)控值班人員人工進行預處理后,再轉派到地市維護崗位進行處理,耗費大量的預處理及轉派時間。梳理自動預處理流程,通過整合 PON網管、3A能力及工單處理調度能力,自動進行預處理及轉派,節(jié)省大量的重復工作,加快工單的流轉效率,工單流轉歷時1分鐘內,同時在處理過程中定期進行業(yè)務恢復自動測試,輔助現(xiàn)場處理。

圖8 用戶申告工單自動化處理流程

圖9 用戶申告工單的自動流轉處理界面
(1)時間節(jié)省
①網絡故障工單自動預處理月均處理工單23000余張,單張2分鐘預處理時間,合計768小時。相比人工平均40分鐘/每張,需15360小時,節(jié)約大量時長。
②工單自動轉派月均成功轉派工單300余張,單張節(jié)約時間1分鐘,合計5小時。
寬帶客戶申告單月均處理工單5000余張,單張節(jié)約處理時間2分鐘,合計167小時。
合計節(jié)約時間489小時/月,按工作人員月均186小時折合計算,相當于2.6人/月的人工量。
(2)效率提升
自動轉派流轉耗時1分鐘內,對比原先人工處置平均耗時38分鐘,效率提升97%。
寬帶用戶申告工單自動預處理流轉耗時1分鐘內,對比原先人工處置平均耗時9分鐘,效率提升89%。
寬帶用戶申告工單處理時長較年中下降11%,維護作業(yè)單處理時長較年中壓降71%。
綜上所述,本文中將AI和大數據技術應用于通信網絡故障的自動化處理,提升了網絡故障的自動化處理效率,縮短處理時長,提升了云網運營的效率、服務水平。當前,基于AI的網絡智能運維方興未艾,成為通信行業(yè)研究的技術熱點,在應用AI技術進行網絡故障的綜合定位、故障隱患的智能預測、主動發(fā)現(xiàn)等方面,應用前景非常廣闊,AI技術與云網運維的深入結合,將進一步提升云網智能化運營水平。