王飛 中國移動通信集團陜西有限公司
鑒于互聯網服務差異及資源端到端質量不穩定,上網體驗問題已成為制約全業務快速發展的瓶頸。由于不能常態化實時測量全量用戶的感知變化,“連而不通、通而不暢、暢而不穩”的狀況仍不斷上演。如何重現用戶的上網過程,依托用戶真實訪問數據提前發現感知短板,并提供事前優化,已成為決定寬帶運營商公司全業務競爭力的關鍵因素。
千兆無源光網絡,簡稱GPON網絡。該網絡故障自動排查技術依賴用戶真實的上網數據采集分析,并解決用戶上網路徑的自動識別,通過建立“用戶上網設備級聯模型”,對寬帶服務過程中涉及的用戶異常掉線、寬帶認證性能、互聯網傳輸質量、DNS解析、用戶流量、用戶真實訪問延時、下載速率等端到端多環節指標標的采集、關聯分析,可建立起多維的寬帶端到端質量評估體系及預警機制。
依托于自身實踐經驗及市場上的分析需求,本次設計的GPON網絡故障的自動排查方案的目標體現在四個層面:
(1)自動核查用戶上網級聯關系,根本解決用戶端口資源信息不準確問題。
(2)通過基于用戶真實上網行為,形成全網覆蓋的端到端質量指標分析能力。
(3)提供基于大數據的多維度分析能力,實現網絡指標與感知指標質量差關聯分析。
(4)依賴“用戶上網設備級聯模型”整合排障信息,力爭一鍵式排障處理。
對于GPON網絡而言,寬帶運行質量差主要體現在網絡側接入差、用戶側體驗差、業務內容設置差等三個維度,下面展開一一闡述。
(1)用戶側質量差原因
用戶側質量差原因主要體現在用戶家用無線路由質量差、用戶主動設置或被篡改成異網DNS、電腦環境問題、家庭組網環境等層面。
(2)網絡側質量差原因
網絡側質量差原因依據網絡類型的不同,也存在一定的差異。
PON接入網:光貓收光強度超過閥值、PON收光異常、PON下聯用戶過載、PON流量過載等;
城域網:BAS下聯口流量過載、光模塊異常、BAS地址池過載等;
集中支撐類:NAT地址過載問題、認證掉線問題、DNS解析不佳等。
(3)業務內容側質量差原因
用戶側質量差原因主要體現在GPON網絡用戶對已經引入內容仍異網訪問;忙時Cache壓力大,造成感知差;用戶個性訪問,內容未疏導;內容源或鏈路質量差等層面。
從用戶帳號視角“端到端”整合的“用戶側、網絡側、內容側”全景信息,形成用戶帳號維度貫穿的運維數據中心。在此基礎上提供質量差發現、排障定界、故障影響分析等定位設計思路。
筆者結合自身實踐調研,發現GPON網絡定位不精確的難點主要體現在三個層面:
(1)用戶側問題突出,可監測指標少
用戶側終端類型和組網環境差異大,問題最為突出,上門排查成本高。
(2)需要全網、全時監測上網過程,確保每個用戶訪問過程可復現
針對用戶側故障排查,每一個用戶都是一個監控點,傳統的撥測手段受到監控點數量和撥測樣本的限制,無法重現用戶真實訪問感知。排障處理需要全網、全時、全過程監測上網過程,確保每個用戶訪問過程可復現。
(3)帳號級聯設備及端口準確性是關鍵
網絡指標與業務感知指標的協同分析的根本是,網絡指標與告警源于設備、端口,如何通過用戶上網路徑核查,將網絡指標貫穿到用戶帳號緯度,是指導用戶質量優化和故障定界的關鍵。
以GPON網絡定位難點作為解決問題的切入點,有的放矢從三個層面展開問題突破思路的制定。
(1)帳號上網路徑自動核查,解決級聯設備及端口準確性問題
采用“MAC/VLAN端口信息”識別手段,與PPPOE+技術互為補充,自動構建基于現網數據的“賬號-〉ONU及端口 -〉PON 口 -〉 OLT-〉 BAS”上網路徑視圖。實現用戶賬號所在ONU端口精準核查,保證有源設備級聯信息的百分百準確。
(2)用戶感知多法測量,確保全網、全時監測用戶上網過程
大數據也要效益比,選擇共性、可測量的感知指標(上網延時、速率、流量等),實現全網用戶帳號溯源的關聯分析。在成本可控前提下,實現全網用戶全時全量監控。
(3)通過大數據分析,拓展用戶側指標監控能力
通過上網數據特征分析,實現用戶家用路由器廠商分析、下掛用戶數分析、長時間未重啟家用路由器分析;通過感知數據聚類對比,實現用戶個體感知與同ONU、同PON口、同OLT感知對比分析,以排除線路共性因素,定位用戶側質量差原因。
依托用戶上網資源模型,從“寬帶帳號”視角整合設備告警、流量擁塞、認證失敗、異常掉線、網絡性能、用戶感知的全景指標,方便運維人員快速定位故障,簡化后續流程。
(1)圖形化端到端呈現,整合用戶側質量差要素
提供用戶上網級聯設備圖像顯示,可直觀展現用戶上網所經過主要設備及端口狀態(包括:帳號、家用路由器、ONU/端口、OLT/PON口、BAS/端口、內容源分布)。同時通過設備及鏈路圖標顏色變化,顯示各質量差故障設備點。
(2)分段分項定界,實現質差問題原因判定
按照用戶側、網絡側及內容側三個方面,展開基于問題的成因分析。
首先,需要對用戶家庭側環境數據整合與定界。它主要的方案設計如下:
① 用戶本人信息:用戶上網級聯關系核查、接入帶寬核查、當前訪問速率、當前下載速率。
② 家用路由器信息:是否為路由器接入、路由器廠商、家庭下聯用戶數。
③ 接入 ONU 質量信息:ONU 基本信息、ONU 光功率、ONU 下掛用戶整體訪問延時、下掛質差用戶占比。
④ 異常掉線信息:采用可視化分析方式,整理異常掉線所出現的原因,來進行整合分析。
其次,網絡側質量數據整合與定界。
① 接入PON質量信息:PON口信息、PON口光功率、PON下掛用戶數、PON下掛用戶數、PON口下掛用戶整體訪問延時、下掛質差用戶占比、PON口流量與峰值占比。
② 接入OLT質量信息:OLT基本信息、OLT下掛用戶數、OLT下掛用戶整體訪問延時、下掛質差用戶占比、OLT上行流量與峰值占比。
③ 訪問行為及業務體驗數據整合與定界:用戶訪問量統計、訪問資源分布分析、移動網內訪問延時分析、外網訪問延時分析、下載帶寬分析等。
最后,從業務內容側展開質量差的根源分析。通過對用戶業務質量相關的全景數據的深度分析,實現質差問題原因的初步判斷。如“PON用戶數過載、ONU光衰過大、家用無線路由器質差、PON口流量擁塞、異網訪問占比高、內容源問題”等為切入點展開分析。
GPON網絡故障在很大程度上影響了網絡接入的穩定性、用戶體驗的順暢性及業務內容的優化。因此在進行研究故障自動排查技術時,需要做到:首先,在構建數據中心時,依托級聯模型,從用戶維度貫穿“用戶側、網絡側、內容側”全景信息,構建運維數據中心,發揮其自身實質作用;其次,兩端兩載一服務:建立“兩端、兩載、一服務”的貫穿客戶感知和網絡指標全局評估體系,保障運行的完整性;然后,要防患于未然,對寬帶質量差的根源進行預判,常態下采集用戶真實體驗數據,提供質差用戶及質差設備提前發現;最后展開基于Wifi網絡分析優化:測速工具內嵌Wifi網絡分析功能,可指導裝維人員對家庭Wifi網絡信號情況進行分析和問題定位。唯有多重并舉,才可以很好的解決GPON網絡故障,實現自動排查技術的精確定位。