韓茹 程東 劉昊
(諾基亞通信技術(北京)有限公司浙江分公司 浙江省杭州市 310020)
5G 網絡的智能化、虛擬化程度遠高于4G。尤其是云網融合、網隨云動、DC 下沉,使傳統移動網絡的無線網、承載網、核心網之間的邊界越來越模糊,在5G 云網融合的背景下,網絡邊界的模糊化使得分專業運維的難度越來越高,迫切需要網絡一體化的診斷方法。
為此,我們基于運營商現場的一體化診斷案例與經驗,從資源聯動、告警聯動、性能聯動多個維度梳理了智能聯動、融合運維的方法,最終建立起5G 云網融合的網絡一體化診斷方法。
5G 云網融合下的網絡一體化診斷方法,主要從資源聯動、告警聯動、性能聯動三個維度來實現。
承載網在整個5G 網絡中起到了承上啟下的作用,由于核心網側的DC 數量較少,基于5GC CE 和ASBR 設備可以很容易地建立起“承載網-核心網”的資源樹,因此5G 網絡的資源聯動難點主要體現在“無線網-承載網”這一段。
根據5G 承載網PW+L3VPN 組網策略,通過在A 設備和B 設備上采集相關的端口、PW、VRF 信息,可以自動判斷出每個A 設備下掛的基站設備IP 地址。
判定承載網與基站的資源聯動關系的算法為:同時滿足以下幾個條件時,對應的子接口下掛的即為基站業務。
(1)接入PW 終結在B 設備的2 層子接口上;
(2)3 層子接口上的VRF 為“CDMA-RAN”;
(3)GW 的IP 地址+1 即為基站的IP 地址;
(4)通過IP relay address 來判斷基站業務類型是5G NSA 還是5G SA。
1.2.1 告警采集方法
網管軟件采集網元告警的方法有多種,包括:
(1)SNMP Trap:由網元實時上報,在5 秒內完成告警的收集和處理;
(2)SNMP Get:由網管系統定時輪詢設備狀態,輪詢周期一般設置為5 分鐘;
(3)Streaming Telemetry(流遙測技術):是一項從物理設備或虛擬設備上遠程高速采集數據的網絡監控技術,可以支持毫秒級的數據采集能力,支持基于訂閱的推送模式(PushMode)主動向采集器推送數據信息,提供更實時、更高速、更精確的網絡監控功能。
(4)閾值告警:由性能指標超過一定閾值后產生的告警,如CPU 利用率告警、光功率異常告警等。
1.2.2 告警歸一化處理
系統將按照統一的告警模型,對采集到的告警數據進行歸一化處理。
1.2.3 告警聯動處理
在5G 組網中,承載網絡承上啟下,對接包括5G 基站gNB、邊緣網關MEC、下沉的DC 節點、核心網5GC、入云業務的云資源池等。無論是對接哪類設備,都需要進行告警的聯動處理。
承載網側網管將對圖中涉及到的設備都進行設備告警、鏈路告警、協議告警、其他告警的監測與聯動處理。通過接入與業務通斷、性能相關的告警,按照告警協同定位來定位業務異常根因點。當業務故障或性能異常后,有些可通過顯性告警直接定位根因,例如設備掉電等;而有些則需通過告警逐級判定,例如鏈路正常但OSPF鄰居狀態異常等。
1.3.1 性能數據采集與聯動
承載網管通過SNMP 協議每5 分鐘采集一次全網所有A 設備、B設備的每個接口的流量,計算出相應的5分鐘接收速率、發送速率,并按照基站業務自動發現的資源聯動信息,得到每個基站的5 分鐘接收流量、發送流量及總流量。
根據每個基站的IP 地址,承載網管可以匹配到該基站對應的ID、名稱、經度、緯度信息,從而通過GIS API 進行分圖層的獨立值專題圖方式呈現,按照基站的流量進行分等級設置,不同級別以不同的顏色表示。如圖1 所示。
1.3.2 性能測量聯動
網絡的隱性問題,還可以通過性能測量來實現聯動與定位,如網絡的端到端Ping 測、基于RFC2544 的性能測量、Y.1731 測量等。
(1)端到端Ping 測:周期性對業務進行PW 全程PING 操作,初步統計分析業務性能指標。
(2)基于RFC2544 的性能測量:對于客戶業務性能異常,而無法判定原因,此類狀況可剝離客戶側設備及網絡,再通過RFC2544 協議實時的對網絡端到端性能進行探測及統計,包含吞吐量、丟包率、時延及抖動等性能指標??捎糜谂卸ňW絡側或客戶側性能故障點。
(3)Y.1731 測量:自動/手動方式進行測量,測量方式基于Y.1731 協議(對業務運行無影響),分析端到端時延、丟幀率等性能指標。
在上述的網絡一體化診斷方法中,最關鍵的幾項技術說明如下。
通過基站業務自動判定的方法,在不依賴其它系統平臺的情況下,直接由承載網管側發現每個A 設備下掛的基站IP、掛接的端口等信息,這也是在承載網管上實現無線網與承載網智能聯動的前提。

圖1:性能流量指標的聯動GIS 呈現
A 設備、BB 對與基站的互動,是通過百度地圖的API 來實現的,但由于全省各類基站數量眾多,因此直接采用百度地圖的API 控件,會導致地圖在加載基站圖層后打開很慢(15s 左右),而且進行地圖的操作會出現卡頓。因此對應用做了優化,包括:
2.2.1 批量入參優化
百度地圖API 支持JSON 方式的入參,通過入參的批量處理優化,在數據庫中直接轉換得到要求的JSON 方式,使百度地圖控件能夠批量處理,從而實現GIS 圖的加載時間在1s 左右。
2.2.2 多級動態合并
比如10 萬個基站同時作為一個圖層進行顯示,則當地圖縮小時,基站圖層將完全覆蓋住底圖。因此,需要按照基站的實際經緯度以及站間距,實現動態的基站圖標合并。在不同的放大等級下,當基站的站間距小于門限值時,后臺會自動把這些基站合并為同一圖標,從而實現在不同的GIS 圖放大、縮小等級下,都能夠流暢地呈現基站位置、告警、流量等信息。
百度地圖自帶的API 在計算基站圖標合并時,速度較慢,這會導致GIS 操作時的響應時間較長,采用多級動態合并技術,由數據庫異步計算所有放大、縮小等級下全網基站的站間距以及圖標的合并關系,當在GIS 圖操作時,響應時間可以小于1s,從而解決了百度地圖API 在大數據量時處理能力不足的問題。
由于基站設備數量眾多,因此目前移動網網管只能提供最小粒度為小時的流量等性能指標采集和統計能力。
根據無線網與承載網的智能聯動要求,需要實現基站流量5 分鐘粒度的采集和分析能力,為此我們采用Erlang 語言設計和開發了大規模分布式云采集服務,可以同時通過云資源的集群分布調度數百萬的采集任務。
調度原理簡述為,所有的分布式采集Node(節點)集群在一起組成一組Hash 環。每個采集任務由唯一的UUID 標示,Master(主節點)根據任務的UUID 作Hash 運算,生成Key,然后在一組Hash 環中找到前置的Node(節點),將任務分配到該Node 進行調度。
利用上述并發調度原理設計的框架,目前已經實現每秒并發10000 個端口的采集和流量差值處理能力,按5 分鐘采集粒度,可以支持到全網300 萬端口。如果后續網絡設備數量增加,也可以通過相應增加虛擬機采集服務器來擴展。
根據上述資源聯動、告警聯動、性能聯動實現5G 云網融合下的網絡一體化診斷,不需要后端維護人員一直進行值守和分析,只需在網絡出現異常后由系統自動通過短信、郵件等方式通知相關人員即可,這將有利于5G 業務大發展的背景下,進行“能遠程不現場、能自動不人工”的集約化運維,也能夠顯著提升維護人員問題處理的工作效率和準確率,從而提升5G 網絡的客戶滿意度。