數智融合的網絡閉環優化技術研究與實踐

2021-03-14 09:56:26劉曉軍武娟徐曉青

廣東通信技術 2021年1期

［劉曉軍武娟徐曉青］

1 引言

隨著移動通信技術的不斷發展和互聯網需求的爆發式增長，對通信網絡的要求越來越高[1]；同時各種新技術、新協議的層出不窮，在增加了網絡服務能力的同時，也帶來了網元設備品牌、型號碎片化等問題。在如此錯綜復雜的網絡環境下，如何有效智能管控成為急需解決的關鍵環節。采用數智融合方式，通過實時或準實時采集不同網元設備的數據，再經數據實時處理、建模分析和預測，最終實現網元設備的優化配置，從而形成一整套的閉環操作過程[2][3]，具備提供網絡智能管控和優化的能力。

目前可采用多種技術實現或接近實現上述目標，包括DPI數據采集與分析、基于P4的網絡遙測等技術[4]等。其中DPI數據采集與分析，是基于網絡數據包的深度檢測技術，實現對網絡的關鍵點的流量和報文內容進行檢測分析，可以根據事先定義的策略對檢測流量進行過濾控制。DPI數據采集與分析，能夠實現對多種維度的網絡行為分析和應用層面的策略控制，如果要實現對網元狀況的獲取和配置，需要進行海量數據的挖掘和處理，并外接對應的控制器完成。該種解決方法，需要基于DPI采集設備和海量的DPI數據挖掘與處理，存在較為突出的處理時效性問題，難以有效滿足實時網絡優化處理的業務需求。

基于P4的網絡遙測技術，其可很好應用于可編程數據平面的帶內網絡遙測（INT）技術[5]，而且具有網元設備品牌的無關性，能夠直接在轉發數據分組時獲取設備內部更為細粒度和準確的遙測數據。不過該種技術方案，需要網元設備具備SDN能力[6][7]，其普適性存在一定的局限，從而影響到其規模化部署和應用。

正是由于上述解決方案都存在一定局限性和適用性等問題，本文提出基于Network Telemetry網絡遙測技術，實現針對網元設備的數據采集和控制指令下發，并結合數據處理和分析能力，構建網絡智能優化閉環操作的一體化解決方案。

Network Telemetry是一種具備遠程網絡設備采集數據的技術，能夠周期性主動上報流量、CPU或內存等網元數據信息，相對傳統網絡監控方式，例如SNMP等的問答式交互，提供了更實時、有效和便捷的數據采集功能。

Network Telemetry技術，具備支持更多設備承載，更高的數據精度，更實時控制及對設備功能、性能影響較小等特點，為網絡快速排障、快速優化提供數據基礎，并且具備與通用大數據處理平臺良好銜接等能力。

Network Telemetry，因其需要廠商內嵌到設備協議堆棧和管理模塊中，也存在接口私有化和官方授權等局限。不過通信網絡設備，例如路由器、交換機等，具有一定的品牌集中性，該問題是可通過針對主流設備有效適配而得以解決。

本文提出基于Network Telemetry技術，融合大數據處理和人工智能機制，實現網絡閉環智能優化，采用底層構建Telemetry適配層，完成兼容各種品牌網元設備的私有Telemetry接口，實現主流的交換機和路由器的準實時數據采集；同時將Telemetry采集器功能集成到Hadoop集群[8]，完成網元狀態數據的實時處理與分析；并融合AI處理框架，一站式進行優化智能計算；最終通過NetConf協議實現針對網元設備的控制指令下發，完成基于網元實時數據的一體化智能優化處理過程。本文實踐環節中，采用在實驗室環境下搭建基于Network Telemetry的數智融合處理環境，驗證該種方法的有效性，并模擬完成路徑優化處理過程。

2 數智融合架構

構建數智融合的一體化架構，關鍵就是將Network Telemetry數據采集、大數據處理、AI計算和Netconf控制指令下發等關鍵步驟和功能有機融合。其中為了減少數據的傳輸路徑和提升數據的傳輸效率，將Network Telemetry的采集器功能內置到大數據+AI融合平臺內，相關的處理架構如圖1所示。

圖1 基于Network Telemetry數智融合架構

在現網部署過程中，需要在通信網絡的關鍵節點（核心交換機、路由器等）設備配置Telemetry能力，使其具備基于Telemetry訂閱功能；并通過大數據平臺的前置機采集器，實現基于Telemetry機制的數據采集策略配置下發和網元數據實時采集；大數據+AI融合平臺基于實時數據獲取、流式數據處理和AI分析能力，實現將網元數據進行計算、智能訓練/預測；之后最終通過控制器將大數據+AI融合平臺生產的優化配置指令通過Netconf協議下發到網絡中各交換機、路由器網元設備，實現網絡優化配置，完成網絡優化的自循環閉環過程。

如果采用網元控制的專用術語采集器、分析器和控制器來展示的話，上述處理過程相關的軟件堆棧如圖2所示。

圖2 基于Network Telemetry數智融合軟件堆棧

其中網絡設備部分，需要配置Telemetry數據采集協議、基于XML網絡配置的Netconf協議、Google遠程過程調用gRPC協議等，同時需要支持YANG模型等。

采用采集器、分析器統一部署的方式，可分為采集服務、數據處理、AI分析和可視工具等四個部分組成。

（1）采集服務：適配主流網元設備的Telemetry能力，實現針對各主流品牌的網元設備智能發現、智能配置和智能數據獲取等功能。具備通過gRPC協議與網元建立相應的遠程調用，基于YANG模型實現數據的采集，并通過GPB進行數據結構描述等。

（2）數據處理：采用GPB編碼實現網元上傳原始數據實時轉譯，并通過kafka消息隊列實現數據流式傳輸，并通過Structed Streaming實時流式計算完成數據的初步處理和hadoop集群的存儲，針對實時發現的設備故障及時反饋到控制器；同時將網元數據，基于hive、hbase等分布式數據庫進行存儲。

（3）AI分析：基于TFonSpark和BigDL等融合組件，實現基于hadoop集群的AI架構的運行。通過底層的大數據、AI融合組件，能夠實現通用的AI框架基于hadoop分布式集群運行和無縫的數據提取、分析和預測等深度學習、機器學習等功能。

（4）可視工具：該層是對接數據處理和AI分析結果，實現基于開源的可視化工具，例如JupyteR、Tableau等，能夠將實時將Telemetry采集處理完成的數據建模和AI預測、分析的結果進行圖表展示。

當然采集器、分析器部分軟件或者工具，是采用開放式的思路，具備基于hadoop集群按需添加，并非局限于上圖所示軟件或者工具。

控制器通過Telemetry對應的配置機制，通過相應的配置工具/接口實現對各網元設備的數據采集策略的配置操作；通過對接分析器，獲取對應的網絡優化指令，通過NetConf等協議實現針對網元設備優化指令下發，達到針對網元設備的優化處理。

3 應用場景分析

為了實現針對通信網絡的實時數據采集和監控功能，需要在關鍵的網元設備上配置Telemetry功能，并架設對應的采集功能前置機，實現對就近交換機或路由器的Telemetry數據采集。在實際的網絡部署過程中，一般可采用將數據采集前置機和控制器合并部署，該種架構雖然在軟件架構方面存在一定的不足，但是減少對應的硬件資源的投入和數據傳輸路徑[9]。

3.1 應用場景分類

基于設備層面的Telemetry機制，在網元設備硬件板卡ASIC層面植入代碼，直接從板卡數據層面導出數據；具備低于秒級上報實時或準實時數據的能力；能夠提供超過50種以上的數據指標，能夠有效支持多方面的網絡優化智能決策。通過結合大數據和AI處理能力，具備異常檢測、故障定位、流量預測和網絡調優等方面的應用場景。

（1）異常檢測：提供準實時的網元異常狀況追蹤和分析，包括單指標異常、多指標異常、流量異常和閥值異常等，并根據網元異常情況實時調整對應的處理和控制策略，提升網絡的穩定性[10]。

（2）故障定位：綜合網元各種指標數據，實時跟蹤故障點，并根據歷史數據分析，采用多維度數據精準定位故障網元、追蹤故障位置變更[11]；并結合已有的故障數據訓練AI模型，進行有效的故障預測。

（3）流量預測：通過持續化獲取各個核心網元的流量情況，具備由點到面的流量分析和預測功能，包括單一網元的流量預測、網絡鏈路流量情況分析、鏈路流量預測，通過并與網元/鏈路的狀況結合，根據預測結果進行相關的網元/鏈路的限流控制等。

（4）網絡調優：按照時間序列，基于以往時段的網元、鏈路情況，并結合業務需求預測分析，有效指導網絡擴容、優化資源配置[12]、選擇最優鏈路和業務流量優化等。第四節將重點針對路由優化部分進行闡述和研究。

3.2 異常檢測應用分析

采用Telemetry機制的異常檢測，是基于持續性的網元設備板卡信息，包括告警信息、板卡信息等，進行網元健康狀況跟蹤和預測，是網絡優化的基礎工作內容之一。其中告警信息包括CPU、內存、網絡丟包、緩存使用情況等相關信息，并結合網元上線時長、部署位置等情況，實現針對網元異常和網元狀況的實時跟蹤[13]，其處理過程如圖3所示。

承擔分析器作用的大數據和AI融合平臺，基于海量的網元已有故障數據，采用CPU、內存、網絡傳輸等多個維度，構建面向單個網元的故障模型，并通過該模型導現網相關網元異常和狀態，實現針對該網元健康狀態的預測；并對處于臨界狀態的網元，根據預測結果，基于控制器下發閥值調優控制等方式，動態調節網元的CPU過載閥值和內存過載閥值等，實現網絡服務能力的可控性和故障提前預判。

圖3 采用Telemetry機制的異常檢測過程

以上應用方式是基于單個網元的故障預測，基于Telemetry具有規律的數據上報和采集機制，能夠形成整條鏈路/區域網絡的故障追蹤和預測，即可實現故障檢測由點到線、由線到面的覆蓋能力外延。

同時結合流量等相關維度的數據，亦可外延到網絡鏈路選優、網絡路由優化等方面，該部分內容將在第四章中重點針對網絡路由優化進行研究和闡述。

4 路由優化實踐

基于實驗室環境搭建路由優化的應用場景，實現針對網元設備Telemetry數據采集的閉環網絡智能優化的流程打通和可行性驗證。

試驗環境包括將Network Telemetry采集器、控制器和分析器混合搭建方式，構建基于Telemetry的數智融合系統，具備簡易的Telemetry數據采集、處理和優化運算能力。該套系統，采用hadoop集群架構內置Telemetry能力，從而構建采集器、分析器和控制器功能。

在網絡設備方面，通過選用4臺內置Telemetry能力的思科ASR9000路由器，構成如下圖的網絡相關鏈路，如圖4所示。

圖4 采用Telemetry路由優化實驗組網

通過預先設置，通過Network Telemetry采集到的信息得到鏈路AB、鏈路BC（可分配的帶寬）為15G、其余鏈路的流量閥值為10G。由Network Telemetry采集到的信息，還可得到各個鏈路的狀態，例如時延，丟包率，抖動等。假設用一個狀態系數來衡量一段鏈路的綜合狀態，例如，狀態系數=時延，其狀態系數越大，該段鏈路狀態就越差，傳輸質量就越低。Telemetry能夠對網絡狀態進行更細致的感知，提供更加精準的網絡狀態信息，基于這些信息，為路由選路提供了依據，路由優化算法能在這些網絡狀態信息的基礎上，確定候選路徑。

Telemetry的意義在于其能提供實時或準實時的網元信息，并在此基礎上可結合各種路由優化算法，提升網絡服務質量。假設存在如下兩個流量需求，需求A →B，為25G，需求A →C，為15G。由Telemetry得到各段鏈路信息，綜合得出需求的各個路徑的狀態：路徑A →B的狀態為1，路徑A →C的狀態為1.5，路徑A →B →C的狀態為2，路徑A →C →B狀態為2.5，路徑A →D →C為6，路徑A →D →C →B的狀態為7。對需求A →B的路徑進行按狀態排序，得到候選路徑表:[A →B，A →C →B，A →D →C →B]。同樣對需求A →C的路徑進行按狀態排序，得到候選路徑表:[A →C，A →B →C，A →D →C]。

為提高鏈路利用率和吞吐量，應該盡量使用多個路徑進行路由，當然這些路徑的狀態必須滿足QoS要求；同時帶寬的分配需要滿足一定的公平性。如果都按最短路徑路由，需求A →B，只采用路徑A →B路由，只能得到帶寬15G；需求A →C，只采用路徑A →C路由，只能得到帶寬10G。在Telemetry采集得到鏈路信息的基礎上，對各個路徑進行分析，針對每個需求確定了候選路徑，采用了最大最小公平算法[14]，對各個需求進行多路徑帶寬分配。最大最小公平算法，能夠將網絡的帶寬公平地分給需求，直到帶寬分配完畢，能比較好地兼顧公平性和吞吐量。最大最小公平算法得到的路由及路徑帶寬分配結果

由于交換機規則有限等的硬件約束，無法做到多路徑任意比例的流量分割，只能采用一定的比例分割流量。這里設流量分割比例為0.25，即對需求分配流量時，最小比例為0.25。再次用貪心算法在最大最小公平分配的基礎上進行對各個路徑流量分割比例離散化，得到盡可能公平的結果和盡可能大的吞吐量，結果為：

可以看出，相比最短路徑路由，最大最小公平算法使每個需求多了5G和3.33G的帶寬分配，吞吐量一共多了8.33G，提高了鏈路的利用率。在最大最小公平路由的基礎上，可以進一步結合機器學習算法對各個需求的流量進行分類，如分類成對QoS需求低的流量和對QoS要求高的流量。在最大最小公平分配及其流量分割離散化得到的路徑中，盡可能地將需求中對QoS要求高的流量安排在狀態較優路徑，進一步優化傳輸質量。此外，Telemetry持續監控網絡狀態，一旦某段鏈路發生故障，可迅速地進一步評估并更新可用候選路徑；或者預測故障，提前更新并切換候選路徑，避免出現較為嚴重的故障影響。

5 結束語

本文基于Network Telemetry機制，實現針對網元設備運行狀態、告警等數據實時或準實時采集，并通過將采集器與分析器融合，基于Hadoop大數據/AI融合架構，進行網元原生數據實時流計算處理和智能分析、預測，最終實現基于控制器的優化指令下發，完成網絡優化一體化閉環處理過程。通過分析典型的應用場景，并將其在實驗室環境下應用于路由優化實踐，不但驗證可行性，并且得到了預期的效果。