劉惜吾,馬丹丹,葉曉斌,李亞夢(.中國聯通廣東分公司,廣東 廣州 5067;.中國聯通研究院,北京 0076)
5G網絡運營商面臨網絡新建和升級改造,網絡規模和業務容量極速增長,網絡結構呈現多維度復雜性,行業應用需求呈現多樣化個性化,與此同時,用戶對服務交付的質量和高效性的期許值也逐年提升。新舊網絡的交織、客戶市場需求的變化對基礎維護工作提出更細致的要求和更高的挑戰。
另一方面,從經驗看網絡配置引發的問題尤為突出,在配置下發過程中可能由于各種原因,如業務人員的技術水平、操作規范性等導致漏配、錯配等問題。2020 年廣東省某地(市)一起故障,4 個接入環和匯聚ASG 設備間互聯鏈路同時發生中斷,經核實故障原因是由于備用平面相關環路中斷站點二三層聯動漏配,主用平面中斷后網絡切換不成功導致業務中斷。為解決上述問題及挑戰,廣東聯通積極探索5G時代網絡發展的新模式,積極推進網絡運維智能化進程,將大數據分析和AI技術引用到網絡設備配置稽核領域,創新性提出基于AI的關聯分析異常檢查方法,學習建立異常配置模型,對全網設備配置進行全面高效的核查,充分發揮AI 算法分析與決策能力,將運維人員從繁瑣的重復性工作中解放出來,規避人為誤操作,提升網絡運維效率和網絡質量可用性等級,在用戶感知之前解決故障,降低網絡故障率,提升用戶滿意度。
傳統的運營商網絡多采用OEM 廠家提供的軟硬件一體整體解決方案,如廣東聯通169城域網、IP承載網以華為、思科2 個廠家為主,IPRAN 承載網以華為、中興、烽火3 個廠家為主,這些OEM 廠家以其專有的軟硬件和私有協議、封閉的系統等控制行業生態。
以IPRAN 承載網為例,CSG、ASG、RSG 等設備的上線和業務開通過程通常需要完成大量的配置,包括一些基礎配置(用戶信息、AAA 設置等)、端口配置(物理端口、VLAN 端口等)、協議配置(ISIS、MPLS、BGP等)以及各類的業務配置(Tunnel、PW、L2VPN、L3VPN等)。現有的網絡配置核查方案由廠家“分而治之”,依賴大量的人工,對不同廠家設備、同一廠家不同型號、同一型號不同版本定制化處理,維護效率低下,運營成本高,存在較多弊端。
首先,廠家配置巡檢工具算法邏輯簡單、稽核效率低。廣東現網3 個廠家雖已經配置稽核工具,但巡檢邏輯單一,稽核效果不理想。如現網中興設備使用的巡檢工具ZXSEM/TIM400,通過編輯腳本定制巡檢任務,通過網管對設備下發show 命令,查詢對應配置信息,不僅稽核時間長,還容易因為大量的任務處理導致死機,單地(市)均有上千臺承載設備,配置命令總數達到200萬行,例如某地(市)超過2 000臺設備稽核40多小時之后死機。
其次,現有工具通常基于檢測規則或者專家系統,無法適應網絡設備版本的更新迭代。專家系統做配置巡檢有其固有的優勢,但是缺乏通用性和靈活性,如中興的TIM400 系統、華為的NCE 系統均存在這樣的問題,使用于某個地區或某個運營商網絡的巡檢工具在其他地區或其他運營商的網絡上就不適用了,更無法應對5G 時代大量網絡新建和網絡改造帶來的爆發式增長的工作量,無法適配網絡技術更新迭代的需求。
此外,現有工具的巡檢對象往往是單臺設備,沒有學習能力,無法實現網絡級沖突檢測、隱患核查,存在較大的盲區,對于未知的配置錯誤大概率會出現漏檢。5G新網絡的運維也面臨著設備種類繁多、數量龐大,客戶業務多樣等挑戰,專業運維知識不可避免存在缺失,一些隱性的配置隱患,用傳統的單臺設備級視角或專家經驗是很難發現的。
配置稽核的目的是發現配置數據中的錯誤、隱患,從數據的角度看,就是要找到配置數據中的異常項。異常檢測是機器學習應用的一個研究熱點,神經網絡、SVM、孤立森林、聚類等機器學習算法在網絡流量、性能異常方面有大量應用。
基于AI的關聯分析是傳統的機器學習方法,也是強有力的數據挖掘工具,可以在海量數據中快速發現數據、事件之間的依賴關系或者因果關系,例如apriori(入選數據挖掘領域十大經典算法)、FpGrowth 等,能夠從大量的數據中自動搜索隱藏于其中的有著特殊關系性的信息。因此本文通過數據挖掘方法將配置文件中的關聯關系挖掘出來,從而代替人工實現配置規則自挖掘、自學習。
通過上述現網配置稽核痛點分析及AI 算法的研究,本文提出將AI 關聯分析用于網絡設備配置稽核,融合了大數據分析、AI 關聯挖掘,借助統計分析對設備進行配置基線識別,對設備在網絡中承擔的角色功能進行層次化關聯分析,如圖1所示,按不同粒度分層檢測,發現配置中的漏配、錯配、沖突、冗余等配置異常,結束異廠家分而治之的局面,實現統一運維及配置稽核規則自挖掘、自學習,適應網絡動態發展。

圖1 基于AI的配置稽核系統邏輯架構圖
基于AI關聯分析的配置稽核系統分為數據采集、關聯分析、人工標注、自動標注、告警通知5個模塊:數據采集部分負責制定定期任務,收集基礎網絡設備配置文件;關聯分析模塊利用AI數據統計技術對配置文件進行異常檢測;人工標注模塊提供專業技術人員對異常列表進行標注的接口;自動標注模塊收集人工標注數據集進行自動標注模型訓練,標注之后的結果通過消息推送方式通知專業維護人員。系統架構圖如圖2所示。

圖2 基于AI的配置稽核系統架構圖
AI關聯分析配置稽核系統部署方案如圖3所示,由網絡數據中臺統一完成數據采集、處理,依托廣東聯通AI 孵化平臺AI 框架及算力,部署AI 關聯分析算法,完成配置基線學習、數據挖掘關聯分析、系統流程控制、用戶管理、權限控制等功能,訓練異常配置稽核模型。

圖3 配置異常檢查系統部署方案
常見的配置錯誤包括多配、少配、錯配和沖突等,其中多配是指在某個場景或者業務的配置中出現了多余的命令或者參數,而少配則是缺少了必須的配置命令或者參數,錯配通常表現為將一條配置命令配置成了和它相似的另一條命令,沖突則是配置數據中出現了2條或者多條不能同時配置的命令或者參數。對于每一種類型的設備,配置特征具備一定的共性,通過統計分析可以發現一些大致的規律,形成配置文件的基線。
如表1 所示,某地(市)500 臺網絡設備配置文件,約75 萬行的統計分析中間結果,從表1 中可以看出某些配置出現機率非常大,說明這些配置是普遍存在的高頻配置。同樣從表1中也可以分析出某些配置命令只出現在某些設備中,說明某些配置具有個性化的統計特征,某些配置命令只出現在或更多地出現在某一類設備中。

表1 數據挖掘中間數據
本方案利用大數據統計分析進行配置腳本的基線學習,在海量配置數據中進行數據預處理,去除干擾項,完成數據清洗從而得出分類項集,進一步用于關聯分析所需的訓練集。
在基線學習完成的分類項集中,本文認為配置錯誤應該是稀少的、偶現的,否則現網設備就不可能正常運行了。基于AI 的配置稽核系統采用AI 關聯分析挖掘數據集中的關聯規則,用絕對出現次數的占比作為配置正確的支持度參數,配置腳本中出現的配置命令頻次越大,即表示其上下文呈強關聯性,配置越接近標準,配置異常的可能性越小;出現頻次越低的配置與上下文呈弱關聯性,異常的機率越大。
如圖4 所示,配置數據由一系列CLI 命令構成,每條CLI命令包含一定數量的參數,CLI命令之間可能存在一些特定的標識符和分隔符,用于指示特定場景或者業務配置的起始和終結。其中左側配置樣式中的L11 出現次數是1 次,右側配置樣式中的L10 和L11 出現次數是1 731 次,則配置稽核系統認為左側配置樣式中的L11 是錯誤的,并且可以根據右側的配置樣式進行修改調整。

圖4 關聯規則檢測異常配置
基于上述規則對采集到的海量設備配置數據進行關聯性分析學習,從中挖掘弱關聯規則構建異常配置模型,基于訓練得出的異常配置模型對設備配置數據進行掃描,發現其中的可疑配置并上報運維人員進行處理。
通過AI關聯關系分析檢測出的異常配置項,需要經過標注進行異常分類,系統最初是采用人工標注,人工標注的內容包括異常類型、嚴重程度、異常說明、標注者。
經過標注之后的檢查結果就可以用于配置異常的修改,但是每次掃描問題列表都要經過人工分析是不現實的,會給專業人員造成更多的工作負擔,因此系統設計了自動標注方式,將人工標注的歷史數據作為訓練數據,按照異常情況進行聚類分析并且一一映射對應處理方案,使自動標注模型學會自動識別異常問題類型。
配置稽核系統對廣東某地(市)數據進行掃描之后,檢測到異常192項,經過自動標注,一共標注了170項,其中高中風險有4 項,沒有被標注的22 項異常是因為自動標注模型中沒有學習到對應的異常情況,經過不斷的數據積累,無法自動標注的情況會越來越少。圖5是自動標注的結果。

圖5 配置稽核系統的自動標注結果
查準率和查全率是評價機器學習模型有效性最常用的2 個指標。從整個AI 配置稽核系統來看,查準率是算法找出的錯誤配置中到底有多少是錯的,而查全率就是在所有的錯誤中,算法找到了多少錯誤。
首先考慮查準率的評估。對于配置異常模型掃描得到的配置異常,由運維人員進行標注確認,本文采集了廣東省內3 個地(市)的設備配置數據,各地(市)的配置數據量大小如表2 所示。表2 中第4 列的數值是AI配置異常模型掃描出來的可疑問題數量,第5 列是人工標注確認后的問題數量,可以發現,3 個地(市)的查準率都超過了80%,其中A 市的查準率接近90%。另外,3 個地(市)的掃描耗時都在分鐘級,檢查效率非常高。

表2 3個地(市)的配置數據量和掃描結果
要準確評估查全率就需要提前知道數據集中到底有多少錯誤配置,本文采用一種基于抽樣的近似檢測方法。首先由運維專業人員挑選11個常見的、不同類型的錯誤配置,然后將這些人為制造的錯誤配置隨機加入到A 市的配置數據集中,再由配置異常模型進行掃描,最后統計掃描結果中識別出人為制造的錯誤配置,由此得出算法的查全率。表3 列出了挑選的11個錯誤內容,可見錯誤類型即包含常見的CLI 命令漏配、錯配,也有命令參數的漏配錯配等,比較有代表性。掃描結果顯示,本文的算法可以發現其中的9 個錯誤,查全率達到81.8%。

表3 人為制造的配置錯誤
進一步分析發現,第7 個錯誤配置未找到的主要原因是在A 市數據集中這種錯誤非常多,導致異常配置模型未包含其特征,因此未能在掃描中識別出來。
本文通過分析大量現網驗證數據發現,基于AI的配置稽核算法是基于配置錯誤是稀少的、偶現的這個假設,當某類錯誤配置頻繁出現時,該算法可能不能準確獲得這個錯誤特征導致未能檢查出此類錯誤。后續需要結合更多的機器學習算法,進一步提高配置異常檢查的查準率和查全率。
本文提出了一種基于AI 關聯分析的設備配置異常檢測方法,該方案結合最前沿的AI技術與網絡運維技術,創造性地改變了傳統人工配置稽核方式,同時有別于以往的研究,創新性地采用逆向思維,將AI 關聯分析中的弱關聯規則作為配置異常的特征,在此基礎上從海量訓練集中學習配置異常模型,進而利用配置異常模型完成配置異常稽核。從現網運行結果顯示,此算法的查準率和查全率都大于80%,部分場景準確率達到90%,系統檢測時間低至分鐘級,有效提升了配置稽核效率與配置風險識別率。
此外,該創新方案采用的AI算法具備強大的自學習、自挖掘能力,可以無縫移植到設備配置巡檢核查中,如城域網、承載網、分組網等,適配5G 時代海量設備運維需求,具備良好的泛化能力,能有效應對網絡的動態發展,具備廣泛的實用性以及可推廣性,實現傳統運維的智能化變革。