中國能源建設集團廣東省電力設計研究院|張帆 魏暢
基于告警關聯的電力系統數據網絡監測模型
中國能源建設集團廣東省電力設計研究院|張帆 魏暢
通過使用數據網絡流量監測模型可實現以下目的:掌握網絡流量特性、了解用戶網絡行為、監視網絡流量狀態、檢測分析異常流量、分析用戶行為和量化網絡承載能力。

隨著信息技術在電力系統中應用的不斷發展,電力系統數據網絡的規模也在不斷擴大,同時網絡中所承載的業務也越來越復雜多樣,電力通信數據網管理及維護工作面臨著極大的挑戰。而這也對數據網絡的運維管理提出了更高的要求,即需要對數據網絡進行精細化監測管理,更加客觀系統地對數據網絡的特性與趨勢進行描述,“告警關聯分析”代表了未來一類綜合性的數據網絡管理功能,通過綜合性的管理分析功能深入發掘管理數據間的聯系,并最終為優化和完善電力系統數據網絡提供可靠的參考依據。
當前常見的網絡流量監測模型利用簡單網絡管理協議(simple network management protocol,SNMP)等網絡流量探針,獲取如帶寬、鏈路利用率等網絡特性信息,并僅通過維護人員預先設定監控指標數值固定的上/下限值進行簡單比較,當被監控指標越過預設閥值時生成告警信息。
該網絡流量監測模型有一定的流量告警功能,但僅從單一方面獲取流量情況,不具備多角度、多側面網絡分析能力,無法系統全面描述數據網絡特征;另外由于作為流量判斷依據的告警閥值為一個固定的經驗數值,因此告警效率較低,漏報率和誤報率較高,告警結果常常無法為維護人員提供有效網絡流量信息,其應用缺點如下。
1)無法系統全面對數據網絡特征進行獲取和描述;
2)告警閥值需手工設置,缺乏智能化變更;
3)維護人員的經驗對閥值設置起關鍵作用,閥值設定較為主觀;
4)監控對象流量特征各不相同,閥值設置難度大。
模型建立目標
本文擬在電力系統中建立一種科學的數據網絡流量監測模型,通過全網流量實時監測,對網絡設備性能狀態、吞吐量、帶寬資源利用率、異常流量監控預警、業務應用流向分布等進行精細化的分析管理,以提供全面的網絡流量可視化、量化的運行數據報告,并提供網絡異常流量的監控分析,從而減少網絡故障診斷、異常偵測分析的難度和時間。同時可較好的為網絡優化提供數據支持,減少因網絡擁塞或異常而發生的延遲、中斷,保障網絡的運行效率,整體提高數據網絡的可靠性和可用性。
通過使用數據網絡流量監測模型可實現以下目的:掌握網絡流量特性、了解用戶網絡行為、監視網絡流量狀態、檢測分析異常流量、分析用戶行為和量化網絡承載能力。該模型為網絡服務優化提供了輔助決策依據,可以提升網絡服務安全性,實現及時檢測和解決網絡存在的隱患問題,并最終達到指導數據網絡規劃、建設和改造的目的。
關鍵技術
(1)SNMP技術
SNMP是目前應用最為廣泛的網絡管理協議,其管理信息庫(management information base,MIB)含有網絡流量數據的變量。

圖1 四維度流量監控模型
(2)Netflow/netstream技術
網絡流量(Netflow/netstream)是一套網絡流量監測技術,它運行在路由器中動態地收集經過路由器的流的信息,并向指定的目的端吐出這些數據。目前在流量分析模型中有廣泛應用。
(3)DPI探針技術
DPI(Deep packet inspection)探針技術是一種就應用層的流量檢測,當IP數據包、TCP或UDP數據流通過基于DPI技術的分析時,通過深入讀取IP包載荷的內容來對OSI七層協議中的應用層信息進行重組,從而得出整個應用程序的內容,實現不同應用層的有效識別。
建模思路
監測模型從區域、時間、業務、鏈路四個維度,利用SNMP、netflow/netstream、DPI探針網絡流量監測工具,形成不同維度下的流量特征,從而可根據實際需求,制定精細化的網絡流量分析方案。四維度流量檢測模型如圖1所示。
建立步驟
采集單元部署:根據實際運行需求,本模型將采集單元部署數據網絡特定的鏈路上,從而通過網絡探針對流量信息進行收集。如圖2所示,根據電力系統數據網特點,本模型可以在各級公司邊緣網絡設備至IDC網絡設備間的鏈路上部署流量采集單元,獲得IDC網絡至匯聚層網絡鏈路上的流量信息。
流量特征分析:本模型基于動態基線的制定理念,將一天分成多個時段,結合數據網絡中每天相同時段的正常流量,計算其平均值,并利用這些連續不同時段的流量平均值制定出流量基線特征,從而可以客觀地反映正常行為下網絡流量所呈現的變化趨勢。
特征庫建立
本模型根據時間、地域、業務以及鏈路區間4個維度的參數變化,可以獲取數據網絡的若干網絡行為特征,可以根據實際運行特點以各個側面描述網絡特性,從而更全面細致地對系統數據網絡進行精細化分析。通過綜合各項網絡特征,可以建立一套完整的網絡特征庫,包括鏈路流量特征、不同區域流量占比特征、不同業務類型流量特征、不同業務類型流量占比特征等。
模型應用
異常行為告警:通過將初定位網絡流量異常的節點與動態臨界值基線進行比較,只把與流量基線明顯偏離的時段列為異常流量,而排除某些尖峰時段網絡流量本應高于固定臨界值的節點,從而減少了網絡監測誤判的情況。如圖3所示,只有與流量基線明顯偏離的點才被判定為異常流量。
設備性能與鏈路流量的告警關聯:設備性能通常是指網絡設備的CPU/內存利用情況,現有網管系統只是對該項指標進行監測并觸發閥值產生告警。而最終影響到CPU/內存利用率高的具體原因無法發掘。通過經驗得出,能影響到CPU/內存利用率的外在主要因素是鏈路流量或鏈路異常數據包成分。鏈路流量過大,網絡要轉發就需要消耗更多的CPU和內存。鏈路異常數據包過多,網絡設備進行處理也需要消耗更多的CPU/內存。因此,設備性能告警與鏈路流量/數據包成分告警的關聯是密不可分的。設備性能與鏈路流量告警關聯場景具體實現如圖4所示。
當路由器E的CPU/內存觸發了預設值的閥值,所有鏈路未觸發流量閥值,但是鏈路中傳輸的數據包類型或尺寸占比異常時,所產生的告警級別歸為緊急。
網絡優化依據:通過模型的建立,可以針對系統正常運行下高峰擁擠時段,提供更全面和細致的流量描述和分析,從而可以更有效地指導隨后數據網絡的優化和調整。同時可以根據網絡流量特征,總結當前系統數據網絡運行規律走向,為系統網絡遠期預測與建設提供有效的數據支持。
本文根據電力系統業務特點與需求,建立一種基于告警關聯的電力系統數據網絡監測模型。該模型通過監測網絡流量狀態和設備重要指標狀態,以及告警關聯技術與故障管理的結合,為現實網絡的網管工作提供了指引性的方法和路線,從而可以更全面進行數據網絡運行狀態分析,并獲取和建立網絡特征庫,最終為提供網絡管理依據,更有效地提升數據網絡的服務質量。

圖2 網絡流量探針部署示意

圖3 異常流量示例

圖4 設備性能與鏈路流量告警關聯場景示意圖