中國移動通信集團江蘇有限公司南京分公司 周 雋
當前服務質量優化工作,往往依賴于用戶投訴或故障觸發,業務相關的薄弱環節難發現、難預知。因此,迫切需要建立一套從“服務性能監視”到“服務瓶頸發現”到“主動干預調整”的依賴流程驅動的自激勵模式,使得事后維護向事前維護轉變,補救性維護向預防性維護轉變。
重點滿足互聯網運維中如下幾個方面的需求:
1)建立全面、科學的寬帶運營維護評估體系,實現服務質量可視化;
2)提供基于拓撲管理的設備和鏈路管理手段,實現對網元運行狀態和故障的實時監控;
3)建立預判告警手段,實現對潛在故障點和薄弱環節的前發現、提前改進,并能通過郵件、短信等方式進行告警通知。
4)支持全面應用環節監控管理,提供DNS(域名系統)用戶掉線、認證性能等寬帶業務及應用相關性能數據,并進行統計分析;
5)采用客戶端排障與網絡故障排查相結合的方式,提供直觀快速的故障排查手段,建立用戶維度上網接入設備的級聯模型,實現故障點的快速定位;
6)系統自動對用戶賬號與IP地址動態匹配關聯,實現從用戶維度對用戶行為及網服務質量的監控管理。
系統采用指標集中監測、資源級聯發現及主動仿真測試相結合的方式,將用戶感知與網絡質量數據從用戶維度加以關聯分析和展現。系統結構如圖1所示。

系統功能包括數據采集處理、接入質量分析、傳輸質量分析、用戶感知分析、寬帶認證分析、流量分析、DNS性能分析、綜合告警管理、智能排障處理、統一資源管理、實時監控、系統管理等功能模塊,見圖2。

2.2.1 數據采集處理
數據采集是所有服務質量監控與網絡管理的前提。數據采集主要包括數據的收集、數據整理和數據預處理(如過濾、對照、豐富等)。為了保證數據采集的完整性,系統提供對數據采集結果的瀏覽和手動啟動采集的能力,即通過定制采集的周期和時間,實現對日常數據的自動采集,當由于異常情況引起采集失敗的時候,通過啟動手動數據采集進行數據補采。同時,對采集到的性能數據進行高效的數據聚合、統計等處理工作,并靈活定義告警門限,及時生成告警信息;對采集到的用戶流量數據通過與RADUIS數據的比對處理,形成用戶賬號與IP流量對象的邏輯關聯。
2.2.2 接入質量分析
系統定期自動獲取本地網異常掉線用戶的相關信息,提供接入質量相關的掉線匯總統計、掉線類型統計、用戶掉線排行、BAS掉線排行。
2.2.3 傳輸質量測試分析
對用戶來說,鏈路質量的好壞直接關系到整個網絡數據傳輸的質量,同時也會直接影響為客戶提供服務的質量。系統提供了完善傳輸性能測試工具,并通過圖表的方式,對所關注的各鏈路性能進行分析。系統可靈活定制測試任務計劃,對各考核路徑的丟包率、延時指標進行統計。
2.2.4 用戶感知分析
鑒于互聯網業務日趨多樣、用戶行為復雜等特點,用傳統的網絡質量評估方式很難有效反映客戶感知。系統通過仿真探針與客戶端方式實現網頁訪問、在線視頻、網絡游戲等主流業務端到端的服務質量評估,從而指導維護優化工作,改善網絡客戶感知,降低網絡客戶投訴。
2.2.5 寬帶認證分析
系統實時采集RADIUS(遠程用戶撥號認證系統)計費和認證消息數據,提供在線用戶分析、RADIUS性能分析、掉線原因分析、多端口用戶分析、用戶認證記錄查詢等功能。
2.2.6 流量與性能分析
系統對路由器、BAS、OLT、ONU的端口流量及性能指標進行周期性采集分析,提供全環節的監控保障。同時,通過自動采集配置帶寬,實現端口占比及突變預警。
2.2.7 DNS性能分析
系統實時采集用戶的DNS報文分析,提供指定DNS服務器性能分析。
提供指定周期內,不同DNS服務器、各時段分布的壓力分析。統計數據項包括:請求總包數、回包數、成功解析包數、平均響應時長、響應成功率、解析成功率。
提供指定周期內,不同DNS服務器解析失敗原因分類分析,提供失敗數、失敗率統計。
2.2.8 綜合告警臺
綜合預警臺通過主動檢測關鍵服務指標、集中展現最新“預警信息”。運維人員可根據預警級別進行確認和優化處理。
告警信息包括:BAS在線人數告警、接口流量告警、RADIUS告警、DNS服務告警、鏈路質量告警、設備故障告警等。
提供依據事件分類配置不同報警規則的設置頁面,報警信息將按照事件分類與通知規則的對應關系通過短信、E-mail兩種方式及時通知到管理員。
2.2.9 智能排障處理
通過自動建立“用戶上網設備級聯模型”,從“寬帶賬號”維度整合設備告警、流量擁塞、認證失敗、異常掉線、網絡性能,方便運維人員快速定位故障。代維及客服人員可以Web終端方式登錄,通過簡單操作實現報障提前診斷與預處理,簡化后續流程。
2.2.10 統一資源管理
鑒于傳統資源臺賬人工維護的工作量壓力與準確性差異,資源管理重點實現PON(無源光網絡)資源的自動登記管理,根本解決手工維護信息問題。系統功能包括:設備信息管理、鏈路維護管理、鏈路群維護管理、區域信息管理、設備級聯關系查詢、設備資源占用率統計等功能。
2.2.11 系統管理
系統管理提供用戶權限管理、日志管理、參數管理等功能。
系統中各種基礎數據的獲取,主要通過協議適配器、測試管理工具、寬帶客戶端、應用接口這4種方式進行采集。
1)協議適配器:由分布式數據采集網關(GW)和適配器模塊組成,支持數據的分布式采集、前置預處理、歸一化處理功能。提供基于通用設施(如線程池、數據庫連接池,任務隊列、消息緩存和過濾機制等)的各種協議采集,如SNMP(簡單網絡管理協議)、NetFlow(一種數據交換方式)/NetStream(提供報文統計功能)、RADUIS、NAT(網絡地址轉換)、DNS、Syslog(系統操作日志)等,同時協議適配器可基于新的數據采集要求進行靈活的協議擴充。
2)測試管理框架:實現基于分布式測試服務器的主動測試管理,完成測試任務的統一下發,測試結果數據的集中處理。主要功能包括統一任務管理器、服務通信模塊、多線程探測探針。探測探針可集中于核心服務器,也可根據測試需要靈活部署在網絡出口、接入層等網絡位置,實現對用戶端、網內核心節點、網外目標網站的雙向測試。
3)寬帶客戶端:寬帶撥號客戶端軟件在提供PPPoE(以太網上的點對點協議)撥號功能的同時,實現用戶自助的故障診斷功能。同時,客戶端內置了應用性能監視引擎,可對關鍵網絡業務進行服務感知測試,并將測試結果上傳給服務器,供服務器質量分析和排障使用。服務感知測試內容包括:網絡端到端性能、電子信函、文件傳輸、Web網頁傳輸等。
4)應用接口:系統一方面可以通過SOAP(簡單對象訪問協議)、API(應用程序接口)、文件等接口方式實與第三方EMS(網元管理系統)和NMS(網絡管理系統)的數據獲取,如:客戶業務資料庫、客戶業務受理單等。同時系統也可以為其他管理系統提供不同層次開放標準的接口,最大限度地充分利用本系統的管理數據。互聯網質量數據獲取見圖3。

完成在基礎數據抽象和聚合處理,形成基礎的數據源。主要包括數據處理引擎和專題分析插件兩部分。
1)數據處理引擎:對采集到的數據進行抽象和對象化處理,并根據數據進行高效的數據聚合、對比關聯等處理,為保證數據處理效率,該部分工作在內存中處理完成。系統采用內存數據庫和高效緩沖池等技術,實現大數據量的分析處理。
2)專題分析插件:主要基于專題數據源的數據處理,如實現多層次數據收斂,以及基于歷史數據和閥值控制的自動觸發等。包括接入質量分析、寬帶認證性能分析、網絡傳輸質量分析、用戶感知性能、用戶流量分析、端口流量分析、DNS專題分析、NAT專題分析等插件。
PON設備的MIB(管理信息庫)消息中可提供ONU端口和MAC(媒體接入控制)的對應關系,而系統同時監聽用戶上網的RADIUS報文消息,系統通過MIB消息和RADIUS報文的動態匹配,可獲取用戶上網級聯設備信息。該方式優點是信息采集并發獲取,信息獲取效率高。
主要應用于用戶報障的快速處理,運維人員可通過輸入賬號進行相關快捷查詢。系統可集中顯示用戶上網相關節設備狀態,展現用戶最后認證失敗原因、最后下線原因、級聯設備及端口信息、用戶上網記錄、用戶客戶端測試結果、用戶歷史故障等信息,根據系統給出的相關信息,方便維護人員快速定位故障并響應處理。故障級聯見圖4。

1)從用戶的角度提升服務:通過對異常掉線、用戶端口性能、寬帶認證性能、網絡傳輸狀態、用戶感知性能等指標的統計分析,可以建立對應的質量指標考核體系和優化辦法,從而實現對寬帶服務質量的閉環管理;
2)從經營的高度管理用戶:系統可以提供對每個用戶的網內網外流量統計分析,進而實現每個用戶流量成本的計算,為用戶評估和差異管理提供決策依據;
3)從端口的粒度細化運維:通過對ONU端口與用戶賬號的動態關聯處理,可實現從用戶角度對每個指標的查詢統計,對用戶投訴與故障便于分析管理。
系統的應用重點對互聯網運維中如下幾個方面工作產生了較好的提升作用:
1)薄弱環節提前發現,建立提前預警以及集中整改機制,有效降低萬投比(每月每萬收費用戶中的投訴數量);
2)提升接入層資源的精細化管理,提高設備利用率,為新增采購提供指導;
3)駐地網裝機質量第一時間自動分析,可在業務正式開通前完成不達標整改。