龐小龍
中通服咨詢設計研究院有限公司
現代園區網絡面臨著業務種類眾多、業務需求量巨大等諸多問題,相應的網絡管理也變得復雜和被動。如何提高園區網絡管理的及時性和準確性,降低監控過程對網絡設備本身的功能及性能的影響,成了園區網絡智能化運維亟需解決的問題。
傳統的網絡運維采用“問答”的方式來獲取相關設備的監控數據,不能監控過多的網絡節點且管理效率低。以SNMP技術為例,網管系統通過定期發送SNMP查詢消息獲得所需設備信息,這種查詢是非連續的(有時間間隔,一般為分鐘級,達不到秒級或亞秒級的顆粒度),這種非連續的查詢,往往會導致運維系統無法察覺到對網絡運行情況的突發變化。
如圖1所示,該曲線為某節點設備端口實時帶寬,通過SNMP對該接口帶寬進行監測。在一個時間間隔區間,分別進行了第一次查詢和第二次查詢,恰巧兩次查詢結果相同,則從SNMP的角度來看,在這個時間區間內,該端口帶寬未發生變化,然而實際上接口流量卻是發生了大幅度的升降。為了提高監控數據的精度,只能增加查詢的頻次,但是這樣的操作本身又會對被監控階段設備產生影響,導致設備的CPU占用率過高而影響設備的正常功能。

圖1 SNMP網絡狀態信息采集示意圖
上面的例子雖然稍顯極端,但是卻直觀反映出了“問答式”傳統網絡監控技術(如SNMP、CLI等)的諸多不足之處,而且即使是SNMP Trap和Syslog這種支持推送模式的技術,也僅僅是在設備發生告警事件后進行數據推送,并不支持數據流量類監控數據的采集。
為了滿足大規模、高性能網絡的監控需求,Telemetry技術應運而生,實現把傳統的從監控系統到網絡設備“拉”數據的方法,變為網絡設備主動向監控系統“推”數據的方法。
相對于傳統的網絡監控技術,Telemetry具有諸多優勢:
(1)設備主動注冊
傳統網絡監控系統通過定期掃描地址段來發現新的設備,地址段的大小和掃描間隔對掃描速度有著直接影響。而在Telemetry中,網絡設備啟動后馬上上報注冊,讓監控系統即刻發現自己,保證了監控系統的即時性和不間斷性。
(2)資源利用率高
傳統的網絡監控系統由于采用“一問一答”式的交互模式,每一次查詢時都要解析查詢請求報文,這就導致連續的同類型查詢需要進行重復的查詢報文解析,大量消耗設備的CPU資源,從而導致設備需要頻繁中斷其他任務來處理查詢命令。而在Telemetry中,可以一次進行多次報文的訂閱,后續采樣時,網絡設備持續主動的上報訂閱的數據,不需要持續維持會話關系,節省了網絡設備的CPU資源,從而提高了網絡監控的效率。
(3)運維復雜度低
傳統的網絡監控系統需要配置大量的設備列表、接入設備的密碼、需收集數據的類型等信息,同時防火墻需要開啟雙向通信。而在Telemetry中,僅需要簡單配置網絡設備即可實現主動上報數據的功能,相關的防火墻開啟策略運行網絡設備傳輸數據到監控系統。
(4)時間精度高
在Telemetry中,進行一次交互可以上報多個采樣數據,同時對采樣數據進行壓縮處理,降低帶寬占用。這種高效的數據采集方式可以使采樣精度達到亞秒級甚至毫秒級。
(5)采樣數據準確性高
傳統網絡監控系統,由于采樣的數據沒有時間戳信息,當網絡有較大延遲時,采樣數據的準確性會受到較大影響。而在Telemetry中,由于采樣數據帶有時間戳信息,因此可以準確掌握采樣數據的發生時間,從而極大地提高了采樣數據的準確性。
智能化運維系統通過Telemetry技術完成實時高效的數據信息采集,同時結合AI算法對采集到的各類數據進行分析及呈現。此外,通過場景化的持續學習和專家經驗,構建業務流、轉發路徑、網絡服務的多層次關聯分析能力,將運維人員從傳統低效的運維系統中解放出來,結構化地為用戶顯示應用行為及網絡質量,實現網絡運維的智能化。智能網絡運維邏輯架構如圖2所示。

圖2 智能化運維系統邏輯架構圖
處于管理層的SDN控制器通過南向接口與網絡設備對接,完成對設備的管理。這些接口協議包括Telemetry的GRPC協議、SNMP協議、Syslog協議等。
大數據分析平臺具備滿足高速數據采集的大數據分析能力,同時結合分布式數據庫系統可以對各類注冊設備上報的海量實時數據進行分布式計算、匯聚、存儲,實現多維度的檢索及統計查詢能力。
數據分析模塊的智能分析系統根據園區網絡的運維場景,可向上層提供各類數據應用分析服務,例如連接類、空口性能類的智能識別及問題分析,漫游類、設備類的智能識別等。
基于Telemetry技術的智能化運維可以有效進行有線網絡及無線網絡的故障識別和原因分析。通過Telemetry從園區網絡中各類無線設備、有線設備獲得相關KPI數據并上報給網絡的SDN控制器,SDN控制器將上報數據進行分類并利用AI算法進行全網質量的分析呈現和問題識別。
無線側的網絡數據主要從AP、射頻、用戶3個維度進行網絡質量的評價,同時結合AI算法以及相關性分析、異常模式等功能主動識別高干擾、高信道利用率、信號弱覆蓋等與空口性能及接入相關的問題。如表1所示。

表1 采用Telemetry采集無線網絡狀態數據
有線側的網絡數據主要從設備、接口、鏈路三個維度進行網絡質量評價,同時結合CPU占用率和內存利用率等進行基線預測。通過對實時數據與預測基線的對比,可以對網絡指標的優劣進行及時預判,從而實現主動網絡監控、預測網絡異常,在故障發生前提前預警,讓運維人員可以提前做出相關處置,避免網絡性能的進一步劣化。如表2所示。

表2 采用Telemetry采集有線網絡狀態數據

監測對象 主要監測指標 設備類型接口 收/發包數、廣播包數、組播包數、丟包數、錯包數等交換機、WAC鏈路 光功率、電壓、電流、溫度等 交換機
對于以上各類網絡指標,SDN控制器通過訂閱、采集、緩存/分發、分析/運算、存儲/顯示5個環節的數據處理流程,實現網絡監測運維從數據上報到頁面呈現全過程的管理。
訂閱階段,SDN控制器根據運維人員的實際運維需求,對不同的設備、不同的運維邏輯通過多種組合方式獲得所需的網絡狀態數據,比如基于Syslog的用戶數據、基于Telemetry的設備/用戶性能數據、基于SNMP的設備管理數據等。SDN控制器訂閱完成后,由采集器對訂閱數據進行采集,基于SNMP的數據采集可以達到分鐘級,而基于Telemetry技術可以實現秒級采集,真正做到“實時”采集。采集數據上傳至SDN控制器后,經過分布式系統緩存分發至對應的分析和運算模塊,基于機器學習和AI算法等多種手段進行智能化運維研判。最終,將處理后的數據存儲并集中展示,為運維人員提供智能化的支撐與服務。
通過以上模式,在時效、數據滿足度上建立最優的大數據運維支撐體系,直觀地呈現全網整體質量,幫助運維人員提升運維效率和用戶體驗。同時,基于實時或周期性地自動生成網絡質量評估報告,提供可以量化的網絡服務,從而實現智能化的網絡運維。
基于Telemetry技術的數據采集為智簡園區網絡的SDN控制器提供了實時、精準、豐富的網絡指標數據。同時,基于可視化的技術方式,對整個園區網絡的有線、無線設備可以實時、有效、前瞻的進行數據采集和呈現,從而實現真正意義上的網絡運維系統的智能化和自動化。