黎 宇,楊世標(中國聯通廣東分公司廣東廣州 510627)
隨著互聯網用戶數量的增加和用戶接入速率的持續提升,電信運營商IP 互聯網承載的數據流量逐年增加,部分省級分公司的出口總帶寬已達數10 Tbit/s且仍不斷增長。以傳統分光方式開展的質量分析已面臨越來越嚴峻的成本投入壓力,業界急需一套靈活性好、性價比高和可擴展性強的質量分析系統代替傳統分光深度包檢測(DPI)。本系統采用EDPI 數據采集分析模式,根據分析需求定制,在城域網出口設備處靈活進行流量選擇性策略鏡像,獲取用戶出網流量數據,提取IP 地址、統一資源定位符(URL)、抖動、時延等數據信息,運用AI 神經網絡算法對用戶維度、設備維度和資源維度質量數據進行層層關聯分析,評價網絡質量并結合DNS、RADIUS 等數據進行網內質差定位,實現固網專線、寬帶業務質量劣化的主動響應,大幅提升運維效率、客服支撐效率和客戶感知。
隨著信息技術發展及網絡演進,客戶對于固網線路的要求不再僅僅局限于業務的通斷,而是開始從時延、抖動、丟包等性能類指標出發關注業務的感知度。
長期以來,傳統運營商的支撐響應大多源于客戶報障后的被動響應,響應過程人工環節繁多,多單位流轉耗時長,再加上對質量類指標關注缺失,越來越難以滿足客戶需求。
傳統網絡質量分析往往采用定向分光或探針探測方式獲取源數據。定向分光方式成本高、靈活性差,單位分光成本高達3 萬元/GB;探針探測方式因無法實時模擬端到端的探測路徑,導致質量分析不夠精確。此外,過于固化的質量分析模型也制約了系統本身的分析準確性和可迭代性。
為了滿足客戶需求,打破傳統質量分析模式的限制,一方面通過研究EDPI技術在現網質量分析中的落地應用場景和與現網數據的整合,另一方面通過利用AI 算法的引入及全流程貫通自動化處理的方式,搭建全新的基于AI 算法的互聯網大數據端到端感知分析處置系統,打造一個性價比更高、分析更精確靈活、體驗更好的互聯網質量分析處置系統。
EDPI 靈活包檢測技術是從數據的有效和有用角度來看待固網動輒數TB量級的互聯網出口帶寬,只取其中對數據經營和挖掘有用的部分數據進行采集和分析的一種質量分析技術。本系統選取用戶Web 訪問場景(占比最大),采集了用戶上行端口(80、8080、443 等)數據,通過深度報文檢測,解析出用戶IP、訪問的URL連接、連接源信息和User Agent等數據信息,并通過包內TCP 等協議特征計算TCP 握手時延、首包時延、丟包率,并結合包數據計算用戶端到端的業務使用指標。
與DPI 技術相比較,EDPI 可大大降低數據采集成本,如表1所示。

表1 DPI和EDPI對比表
系統模塊主要由數據采集模塊、數據處理模塊、AI分析模塊和展示模塊組成,如圖1所示。

圖1 系統架構圖
2.2.1 數據采集
數據采集是收集互聯網業務端到端感知監測分析系統的源數據,采集的數據源主要有以下幾個分類。
a)RADIUS。用戶上下線日志,即用戶IP,登錄時間,寬帶接入服務器(BARS)信息,公私網對應關系,用于匹配的EDPI數據。
b)號線數據。賬號與光網絡ONU 單元、光線路OLT終端對應關系。
c)DNS。域名解析記錄,用于核對應用資源。
d)NetFlow。重點內容資源業務流量矩陣分析,針對大型獨立內容提供商(CP)、電信接入資源的服務提供商(SP)、內容分發網絡(CDN)運營商,根據其域名DNS解析結果在電信運營商網內(省/城域網)、網外(國內各運營商,國際主要國家/運營商)落點,分析電信運營商城域網至對應內容資源落點之間流量矩陣。
e)重點IDC 間流量矩陣。IDC 流量流向模型,根據客戶IP 地址段/AS 和EDPI 數據實現基于IDC 的質量分析。
f)EDPI。用戶上網指標數據、URL等信息。
2.2.2 數據預處理
a)數據清洗。拋棄不能識別的流量包、沒有正確匹配的會話流、沒有按正確格式記錄的日志。
b)數據脫敏。使用哈希算法對用戶名進行加密。
c)數據標記。根據域名、URL 等分析出對應的應用,以及通過IP、端口號等分析出對應用戶的過程。
d)數據歸并。拋棄重復數據的過程,也指對一些可以相加的數據,比如流量、訪問量等進行相加統計的過程。
2.2.3 AI分析
通過AI 算法建模,不斷進行樣本訓練,學習質差特征,最終模型化輸出質差結果。
2.2.3.1 專家系統
a)設備指標建模。指對用戶接入等網絡設備的各項指標(訪問量、時延、丟包、速率)等進行建模,形成分析網絡設備質量的分析流程。
b)用戶應用指標建模。指對網站、域名、URL 等應用資源的各項指標(訪問量、時延、丟包、速率)等進行建模,形成分析用戶應用資源質量的分析流程。
c)多維度統計分析。指可以通過用戶、網絡設備、應用資源3個維度進行質量分析,同時還通過在線時間、落點、Top100 熱點應用等傳統統計方式輔助質量分析。
2.2.3.2 機器學習
a)分類。使用過往投訴用戶和正常用戶的特征進行有監督的訓練,然后對每日的用戶特征進行分類預測,從而分析出哪些用戶是質差用戶。
b)聚類。可以通過對全部用戶特征進行無監督分析,找出異常值或離群值,從而將這些特征對應的用戶標記為疑似質差用戶。
c)關聯分析。對用戶經常訪問的應用以及訪問一些常用應用的行為和用戶是否質差進行關聯分析,通過這種關聯找到可能出現質差的用戶訪問,同時對質差用戶、質差設備、質差應用進行關聯,分析質差的根本原因。
2.2.4 分維度展示
a)用戶維度。從用戶角度分析結果,不僅僅是按照用戶IP 地址得到分析結果,而是結合EDPI 數據、號線和RADIUS 數據,將用戶源IP 地址自動關聯到專線和寬帶注冊用戶(見圖2)。

圖2 質差用戶列表
b)設備維度。從網元設備角度進行設備質量分析,通過設備質差用戶數比例和設備質量進行多向分析,定位設備質量情況,實現設備維度的質差發現(見圖3)。

圖3 設備質差分析列表
c)資源維度。按照用戶訪問的目標網站進行訪問分析和質量分析,將NetFlow訪問流向與EDPI數據、DNS 數據結合,并將原始數據中的目的IP 地址等內容轉化為域名和網站數據,集中展現對應資源的被訪情況。
關于自動處理功能是人工智能的一個敏感問題,互聯網業務端到端感知分析系統實現的是系統自動故障定位和自動派發處理工單的流程,如圖4所示,即結合人工處理的機制實現自主分析和自動判斷。

圖4 自動派單流程圖
按照上述多種維度分析,互聯網業務端到端感知監測分析系統的自動派單功能可以分為如下幾類。
a)外線工位處理工單。通過系統的用戶維度分析,可以自動定位用戶終端設備故障或問題,并自動給相關維護單位下發工單,對該問題進行及時處理。
b)專業維護工單。通過系統針對網內設備維度分析,可以自動定位出網內設備故障或問題,并自動給相關維護單位下發工單,對該問題進行及時處理。
c)資源側的維護工單。通過系統的資源維度分析,可以自動定位出各網站存在的問題和隱患,并通過資源側聯動群,推送異常報障信息。
端到端感知監測分析系統實現了上述精確分析和自動派單處理功能后,可以提前發現并處理互聯網業務中大部分故障隱患,使得用戶故障投訴率大大降低。
運用EDPI 及AI 深度學習算法實現互聯網業務端到端感知監測的數據分析,可降低數據采集獲取成本,并提升運維、客服人員支撐效率。