錢 雁,張 慷,徐海峰,顏永明,張 玲
(中國電信股份有限公司上海分公司,上海 200085)
作為新一代云網融合產品,軟件定義廣域網(Software Defined Wide Area Network,SD-WAN)已成為廣域網(Wide Area Network,WAN)服務的主流方向。運營商依托其特有的基礎網絡覆蓋面廣的優勢,已建立全國跨地域的高速高質量的骨干網絡,同時結合靈活多樣的接入通信方式——專線、寬帶、4G 和5G 等,為客戶提供了部署簡單、易用高效、穩定可靠的網絡解決方案。SD-WAN 運維團隊為了能統一納管SD-WAN 多廠商、多基礎網絡,為客戶提供高品質服務,需要構建一個面向運營、客戶和代理商的多維度SD-WAN 綜合網管系統,此時運營商級的綜合網管系統所呈現出的優勢尤為明顯。
隨著互聯網的快速發展,SD-WAN 市場將成為金融、教育、交通、零售等行業的支柱,到2022年其市場規模可達到45 億美元[1]。越來越多的企業客戶對廣域網帶寬的需求不斷提高。專線在眾多互聯方式中是網絡質量最好的一種,但費用也是最高的,客戶為適應高帶寬業務應用的需求,面臨升級成本大[2]的問題。這就要求有一個網絡產品,在降低客戶成本的同時,能依靠技術手段實現WAN的高可靠性特點和原本的效率,并且提升多種業務網絡管理的融合性和覆蓋度[3]。
正是在這樣的背景下,SD-WAN 應運而生,提供了面向連接服務的靈活組網模式。運營團隊在全國多省云資源池中為每個SD-WAN 廠商創建獨立網絡服務提供點(Point-Of-Presence,POP)資源池,并在對應廠商的POP 資源池云間建立高速的數據中心互聯(Data Center Internet,DCI)專線組,構建POP 全互聯的底層網絡架構。客戶組網依托多協議標記交換虛擬私有網絡(Multi-Propocol Label Switching Virtual Private Network,MPLS VPN)、4G、5G、寬帶等方式接入,使用隧道加密模式實現點對點互聯,可實現點對點組網、中心輻射型(Hubspoke)組網、全網狀型(Full-mesh)、混合組網等多種組網模式。SD-WAN 組網架構如圖1 所示。

圖1 SD-WAN 組網架構
對于運營商來說,運營SD-WAN 既是挑戰,又是機遇。只有運營SD-WAN 運營商才能保存激增專線、寬帶等基礎業務,并依托本身具備的基礎網資源優勢、多SD-WAN 廠商合作技術優勢、全程全網運維優勢進行創新加持,從而在避免運營商傳統業務被新業務替代的同時,有效促進新業務蓬勃發展。因此,由運營商來運營SD-WAN,尤其在建設SD-WAN 綜合網管方面具有極強的市場競爭能力。
為彌補傳統網元網管存在的缺陷,通過建設綜合網管系統將IT 化產品建設轉化為運營商級服務能力,提升全程全網運營水平。
2.1.1 缺失多廠商統一技術標準
運營商運營SD-WAN 采用的是與多廠商合作的模式[4],通過與盡可能多的專業設備廠商合作,為客戶提供更多的選擇,最大程度地釋放SD-WAN商業價值,形成一個開放式合作平臺;但也帶來了每家設備廠商的網管接口標準難統一的問題。因此,需有一個綜合網管系統來統一管理各個控制器平臺,屏蔽多廠商的差異性,提升工作效率[5]。
2.1.2 缺失統一監控平臺
SD-WAN 應用了一種overlay 隧道技術。底層網絡可以是傳統的MPLS VPN 專線、Internet 鏈路或者4G、5G 鏈路,overlay 則是在底層underlay 的基礎上疊加了虛擬化技術,共同構成了overlay+underlay 的架構模式。因此,典型客戶SD-WAN 組網不僅涉及SD-WAN 各家廠商的網絡管理系統,同時也涉及POP 底座相關的云資源系統,以及各類底層網元(專線、IP 類)網管系統。多種業務的網元網管系統存在業務關聯性,但缺乏統一的綜合網管系統。任何單獨的網管系統都不足以找出真正的“事件根源”,因此需要全面、綜合的網管系統來解決實際工作中遇到的問題。
2.1.3 缺失面向客戶的網管系統
現有的專業網管系統管理的對象是網絡設備,使用對象是后端運維團隊。而在云服務盛行的時代,SD-WAN 運營商為提升服務質量和客戶黏合度,需形成面向代理商和客戶的應用層界面,通過監測端到端的SD-WAN 的業務訪問質量,使全程全網的業務成本效率最大化。
為滿足SD-WAN 業務跨廠商、多維度的管理需求,依托運營商的優勢,對多SD-WAN overlay廠商網管、云資源網管、集團MPLS VPN 網管統一納管,打造全程全網全業務的綜合網管,建立面向運營界面、面向客戶界面、面向代理商界面多維度管理,實現“可看、可管、可控”。
建設融合跨廠商、跨層級的SD-WAN管理平臺,實現具有標準統一接口,具備故障溯源和端到端監測能力的網管系統。同時,從傳統的面向運營轉變為面向運營和客戶的統一運營管理平臺。
運營商級SD-WAN 綜合網管系統的建設在整體架構上共涉及4 個層面,如圖2 所示。

圖2 平臺整體架構
從最底層的數據采集,到各個專業網管的統一納管,再賦予綜合網管管理功能,最后形成面向不同場景的應用,形成統一的網管系統。
(1)第一層:底層數據采集,通過簡單網絡管理協議(Simple Network Management Protocol,SNMP)、網絡流(Network Flow,NETFLOW)等多種網絡協議,收集物理設備及鏈路的基本信息。
(2)第二層:各類專業網管系統,SD-WAN業務及各類基礎網所涉及的網元網管,包括SDWAN 廠商網管、MPLS VPN 網管、多云網管、4G、5G。
(3)第三層:融合各專業管理,建立統一綜合網管,形成資源監控、性能管理、告警管理、工單管理、配置管理和系統管理的統一平臺。
(4)第四層:應用層,通過分權分域的方式,建立面向運營商、代理商、客戶的不同視角,支撐對運維統一納管的上帝視角、劃區域的代理商視角、個性化的客戶視角3 個不同維度的場景。
各系統對接及功能見表1,“東西方向”需實現與各SD-WAN 廠家網管系統的對接,并通過建立標準接口,對多設備廠商統一管理,橫向到邊。“南北方向”實現與云資源網管、基礎網(MPLS VPN、4G、5G)的對接,構建overlay 與underlay關聯關系,實現底層監控,縱向到底。同時,構建跨SD-WAN 網絡的端到端監測路徑,模擬客戶實際訪問體驗,提升客戶業務感知。

表1 功能對接梳理
最終,依托運營商級SD-WAN 綜合網管系統,將IT 化產品建設轉化為運營商級服務能力,提升全程全網運營水平。
運營商所運營的SD-WAN 為滿足不同客戶個性化需求,采用的是與各家overlay 廠商合作的模式,當前運營商已與華為、Versa、締安、云連接等多家廠商合作。雖然能最大程度地挖掘業務市場潛力,但作為一個綜合網管系統必須要解決各廠商平臺的監控字段不統一,數據接口存在差異性的問題。
運營商級SD-WAN 綜合網管通過搭建數據編排平臺,很好地解決了這個問題。數據編排平臺就如同構建了一個數據“滴滴”平臺,一方面,從各個廠商的采集到的數據,也就是各個型號的“車”進行虛擬化,統一納入平臺中;另一方面,接受各類應用的需求,按需快速匹配相應的數據,也就是分配最適合的“車”。
如圖3 所示,在原監控字段匹配的策略中,不同品牌的廠家各自有自己的監控字段和接口,每家廠商相關字段均需人工事先進行編排,不具備可復制性,工作量大。而SD-WAN 綜合網管運用了控制反轉機制,并利用服務查找機制,通過遍歷服務配置,動態獲取不同overlay 廠家監控類的實例,進行原子能力拉齊,事先建立統一的接口。當每次發起請求時,自動找到相應模板,對所需的系列參數進行設定部署,完成全自動監控服務。

圖3 新老網絡服務形成的對比
因此,運營商級SD-WAN 綜合網管借助數據編排平臺,統一管理各家overlay 廠商控制器平臺,解決了監控接口的差異性問題,還統一了規范,改被動適配為主動定義規則,從而加速響應業務需求,為形成面向企業客戶的網絡合力開辟了嶄新的道路。
如圖4 所示,在SD-WAN 核心網中,POP 點底座依托云化部署,POP 點之間的DCI 線路下鉆到底層underlay 為MPLS VPN 網絡。同時,客戶接入POP 點的隧道,下鉆到underlay 同樣是基于運營商提供的各類傳統基礎網絡,有常見的MPLS VPN專線、多業務接入平臺(Multi-Service Transport Platform,MSTP)專線、寬帶、4G、5G 等。

圖4 overlay 和underlay 邏輯關系
具備融合云資源管理能力(天翼云、阿里云、騰訊云等),納管各類運營商傳統網絡能力是運營商運營SD-WAN 業務的優勢所在,同時也成為運營商級SD-WAN 綜合網管系統的亮點。
在這里,綜合網管系統對接的各類網元網管系統主要為監控類接口,雙方通過創建業務邏輯接口的方式,采用統一規范的restful 接口,通過接口調用監控、告警參數,包括設備的性能、流量以及鏈路的流量、時延、抖動、丟包等信息,實現對SDWAN 底層網絡運行狀態的監控。
雖然借代意義在詞里的呈現方式并無定規,釋義內容也有繁有簡,但結合詞形和詞義,我們仍然不難看出詞中的借代非常普遍。例如:
通過調用云管原子能力,監控底層虛機資源、CPU、內存和告警,實現資源監控和故障定位能力。同時,通過調用集團專線網管的原子能力,實現DCI 及客戶網絡所承載的MPLS VPN 專線的監控能力,完成對MPLS VPN 專線的物理拓撲,設備資源狀態、流量、性能、告警的監測,使整個SD-WAN核心網底座更加穩固。另外,調用寬帶、4G 和5G 網元網管原子能力,實現對客戶底層接入網絡的監測。
如圖5 所示,若是非運營商運維SD-WAN,只能監控到用戶側的中央處理單元(Central Processing Element,CPE)設備,中間的網絡對于運維人員都是黑盒子,一旦overlay 出現異常,無法直接定位到物理故障點,而由運營商運維SD-WAN 有著天然的優勢。隨著對各類運營商網元網管的納管,通過將上層鏈路與底層承載網絡建立關聯關系,率先實現overlay 監控直接透視underlay 監控,在上層overlay 產生告警的情況下,下鉆定位到底層的故障物理線路。

圖5 “運營商”與“非運營商”可檢測點的對比
圖6 展示了overlay 中隧道下鉆到底層MPLS VPN 的關聯關系。隧道通過字段“CPE+端口”的方式定位到具體某臺CPE 設備下的端口,而端口與MPLS VPN 線路事先建立映射關系,鎖定到具體某條MPLS VPN 線路,通過調用MPLS VPN 網管原子能力,能清晰地看到物理鏈路的狀態、告警信息、性能等。因此,通過將隧道與底層MPLS VPN 建立關聯,及時觸發關聯告警,為運維人員精準排障提供了新的思路和手段。

圖6 overlay 與underlay 關聯關系
由于SD-WAN具有快速部署、組網便捷的優勢,因此使用SD-WAN 的客戶群越來越廣,逐步呈現出面向全國的組網模式。客戶終端遍布全國各地,但CPE 終端設備本身的監測只針對本端監控,如何構建一條跨越SD-WAN 網絡的端到端路徑,模擬客戶實際訪問,對提升客戶業務感知十分重要,因此需要有檢測手段實現端到端訪問質量監控。
SD-WAN 廠商控制平臺本身具備對各終端CPE下發指令的功能,采用網絡配置協議(Network Configuration Protocol,NETCONF)進行指令下發及狀態數據收集。這種方式不同于常規的協議報文,雖然它也通過Yang 語言對數據進行建模,但最大的區別在于下發的檢測指令的對象不限于單臺設備,而是多臺設備,因為控制平臺具備批處理能力。一旦擴充或修改下發設備對象,只需變更Yang 文件即可,具備很強的擴展性。而運營商級SD-WAN 綜合網管則通過標準的應用程序編程接口(Application Programming Interface,API)與各家設備廠商的控制平臺對接,充分利用其對終端CPE 下發指令的能力,對全網CPE 終端設備統一、快速下發檢測鏈路負載、時延、抖動、丟包率的指令,構建全網面向客戶的端到端監測能力。
同時,綜合網管系統對采集到的鏈路數據進行統一分析。如圖7 所示,針對業務應用優先級的差異化匹配選路策略,通過API 接口對控制器下發線路切換指令,使終端CPE 選取滿足條件的鏈路進行轉發,并且根據鏈路質量動態調整。通過這種方式,使流量選路策略比傳統的靜態流量調度更加精細、靈活,為實現最大化的智能選路開啟了嶄新的篇章。策略與網絡質量隨動,才是真正意義的動態流量調度。

圖7 SD-WAN 線路切換
SD-WAN 日常運維方面,運營商運維人員無須根據不同廠商來回切換不同的運維平臺,減少了人員投入成本。同時,可以通過underlay+overlay 關聯關系進行分析,分段落、分層次排查故障段落,定位根源故障,為運維人員整體監控和快速定位故障點提供有力手段,極大地縮短了運維時間,提升處理故障的效率。
代理商服務方面,通過分權分域方式,實現各家代理商對各自下掛企業客戶的網絡日常監控能力,并根據不同客戶群的需求提供定制化服務。
客戶應用感知方面,以客戶體驗為核心,跨越SD-WAN 網絡,構建端到端的質量檢測路徑,在提升鏈路多維度監測的同時,根據鏈路質量實現隨選路由能力。
圖8、圖9、圖10 分別為面向運營商的界面、面向代理商的界面和面向客戶的界面。

圖8 運營商視角

圖9 某代理商視角

圖10 某客戶視角
最終,運營商提升了SD-WAN 管理水平和服務質量,同時,為代理商、客戶帶來了顯性化的應用體檢。2021 年初,系統正式投入使用,underlay+overlay 綜合網管優勢得到了充分發揮,在SD-WAN 運維中起著十分重要的作用。如圖11 所示,統計2021 年1 月至6 月SD-WAN 故障處理情況,平均初判時間(7.54 分鐘/個)比2020 年7 月至12 月平均初判時間(4.35 分鐘/個)縮短42.31%,初判能力有明顯的提升。

圖11 SD-WAN 故障初判時間比較
新的技術和產品要得到市場的認可,離不開高品質的服務支撐。通過建設運營商級SD-WAN 綜合網管系統,實現了不同overlay 廠商融合、傳統網絡融合、端到端監控,在提升SD-WAN 網絡健壯性的同時,也為SD-WAN 產品增加了競爭力。
后續隨著SD-WAN 逐漸向service chain 演進,綜合網管系統不僅要能管理路由功能、4 層防火墻功能,而且要逐漸向管理AC、7 層防火墻、負載均衡等設備演進,從而提高整體網絡服務的靈活性和系統的可維護性。