◆楊志華 楊成濤 李坤 廖仲欽 楊振明
(云南電網有限公司瑞麗供電局云南 678600)
電網內部綜合數據網網絡覆蓋面廣,信息點多,承載著公司日常辦公管理、電力生產監測系統等等諸多各種業務。網絡的可靠性和安全性直接決定著企業的信息安全,也決定著站內設備監控、數據采集傳輸等各個方面的安全穩定[1]。電力綜合數據網涉及較廣范圍的數據業務,為了實現不同業務對數據網絡不同的要求,需要通過流量監測分析不同的方面,例如:丟包率、抖動、寬帶、時延等[2]。電力綜合數據網的流量監測是指通過一些技術或方法,以軟硬件結合的方式,在特定的實際的物理網絡鏈路或某個節點中,對能夠反映網絡后繼變化趨勢的網絡性能指標進行采集測量與計算分析。
采集技術目前主要分為兩類:主動測量與被動測量。主動測量是指自己主動向網絡中的鏈路或節點發送數據包用于監測數據流的性能指標,最基礎的應用實例為計算機ping本地網關,通過本地主機主動向網關發送 ICMP數據包來判斷本地網絡連接狀態以及計算路徑之間的往返時延、丟包率,但主動測量占用了一部分的網絡資源,給網絡系統帶來了額外的負擔,影響了網絡性能,對測量結果的準確性帶來了一定的誤差。被動測量技術不會主動向外發送報文,是通過在網絡鏈路或待測點中串聯上分流設備來監測網絡上的數據流信息,但這種方法雖然不會給網絡帶來額外的負擔,但由于復雜性高,成本高,所以普遍性較低不利于廣泛使用。目前,國內外采用的采集技術從方法上分類,主要包括以下三種:
簡單網絡管理協議(SNMP)是網絡中使用最廣泛、最為普及的采集技術。該技術基于TCP/IP協議層內的各種互聯網絡元件之間的管理協議,提供了從網絡設備收集網絡信息的途徑,并為設備預留了向網絡管理站反饋故障和錯誤的渠道[3]。該方法的優點是具備普遍性、通用性、相對成熟、使用方便,但該技術目前只能做到對單個網絡設備接口級別的流量統計,無法做到網絡層端到端之間的流量統計、業務統計,同時對于一些特殊異常流量可能無法發現。
sFlow是由InMon、HP等公司開發的一種基于采樣的網絡監測技術,通過設置一定的采樣率對交換機或者路由器里的數據包進行捕獲,再通過嵌入到網絡設備里的代理將數據包轉發給流量分析服務器進行處理,從中取得該網絡所傳輸數據包的源地址、目的地址、IP地址、字節數等信息。主要優勢在于整個網絡監測成本低,采樣的速率可自行設置,網絡性能、帶寬基本不受影響;其缺點在于抽樣間隔較大時可能錯失關鍵數據包,損失流量的部分信息,準確性下降,對新的業務也缺乏辨識度[4]。
數據采集探針是專門用于獲取網絡鏈路流量數據的硬件設備。使用時將它串聯在待監測流量的鏈路中,通過分流網絡路線上的數字信號的方式獲取信息[5]。由于一個探針只能完成監測一條鏈路中的流量信息的任務,所以想完成全網流量的監測需要采用多點分布,在每條待測鏈路放置一個探針。再將所有探針收集到的流量數據通過后臺服務器以及數據庫進行匯總保存,用于全網的流量分析和長期報告,為故障分析、網絡優化、網絡規劃提供實時的、歷史的重要數據。基于硬件探針的采集技術最大特點就是能夠提供詳細地從物理層到應用層的流量信息,但是成本較高,使用起來較復雜。
網絡流量數據在不同網絡業務中常表現出有規律的相互作用和影響,從中可總結出屬于它的各類不同特性。目前網絡流量數據存在以下幾種主要的特性:
(1)長相關性與自相似性
長相關性反映了自相似過程中的持續現象,是指利用過去的數據變化趨勢來預測流量系統下一步的變化趨勢。實際的網絡流量在時間軸上呈現長相關性,自相似是指當前網絡流量的波動情況可在歷史變化中尋找到相似情況,在歷史數據基礎上可對目前網絡流量的變化趨勢進行精準度較高的預測。結合歷史數據,這種預測既包括空間維度上的,也包括時間維度上的。從流量分析的角度看,自相似性的直觀解釋是在不同時間尺度上,網絡流量對時間的分布看起來是相似的。
(2)周期性
周期性表述了網絡流量的變化特性隨時間變化而表現出來的一種周而復始的變化規律[6],通常以一天到一年為觀測區間,若采樣周期跨度太大,就會使得該周期內的流量特性被淹沒在大量的數據信息中不被發現;而采樣周期太短,沒有足夠的數據積累無法得出準確的周期變化趨勢。這種變化特性可能是因為網絡系統的客觀原因,也可能是因為人們的使用習慣造成。
(3)多分形性
一個圖形的部分在某種方式下與圖形整體相似,這該圖像可稱為分形。多個單一分形在空間上相互纏結、鑲嵌得到的就是多分形[7]。行業的前輩通過多種測試和推導確認了網絡流量具備多分形的特征。大多數的現實流量具有長相關性,但它在不同尺度、不同維度下還存在著短相關性,為了精確得出流量在小尺度上的局部特性,引入局部尺度的概念,來研究在極限短的時間間隔下網絡流量的一些特性。
針對網絡流量的大數據分析技術主要有聚類、關聯分析、統計描述等。
(1)聚類分析
首先聚類的作用主要就是將物理或抽象對象的集合分成相似的對象類。
例:means聚類算法:
a.任意選擇k個對象作為初始的簇中心;
b. repeat;
c. 根據簇中對象的平均值,重新將每個對象賦予最類似的簇;
d. 更新簇的平均值,即計算每個簇中對象的平均值;
e. until不再發生變化。優點:容易實現,易于理解在低維度這一塊應用廣泛。優點:容易實現,易于理解在低維度這一塊應用廣泛。
缺點:對于高維度這塊涉及很少,計算速度很慢,特別是計算距離需要好久才能計算成功。另一個缺點就是他還需要設置一個K值,而這個K值是一個假設值,具有不穩定性,因此可能會造成誤差。
(2)關聯分析
關聯分析是數據中發現各個項集之間的某些相似關聯和相關聯系。關聯分析的核心為利用Apriori算法進行分析。
Apriori算法:主體為一種被稱為逐層搜索的迭代方法。利用頻繁的項集特性產生的先驗知識來進行工作。
具體操作如下:第一步:找出頻繁1—項集的集合.記做L1
第二步:用L1找出頻繁2出項集的集合L2
第三步:用L2找出頻繁3出項集的集合L3
.....
直到找不到頻繁k+1項集時得出最大頻繁項集LK。(每次找LK都需要去掃描一次數據庫)。
優點:可以與多種算法相融合并且算法容易實現。適合所有稀疏類的事務分析。
缺點:會產生許多不需要的集合,需要多次掃描數據庫產生大量冗余數據、耗費大量時間,導致它的效率會很低
(3)統計描述
統計描述是對大量數據資料進行整理、分析之后做成圖表或者表格形式。然后對數據的分布的狀態、隨機產生的變量和數字特征之間有何關系進行估計和描述。統計描述主要有集中趨勢分析、離中趨勢分析以及相關分析。
集中趨勢:通過研究數據當中的平均數、眾數、中數等指標并進行統計描述。
離中趨勢:通過研究數據當中的四分差、平均差、方差和標準差等指標并進行統計描述。
相關分析;通過查找兩個或多個數據之間在統計學上是否存在關聯性,進行分析。
(1)SVM(支持向量機模型):它可以與聚類分析相結合組成一個網絡流量預測模型。首先采集某一段時間的流量數據對其聚類分析,選擇每一個與預測樣本相關的訓練樣本集合,然后設置支持向量機的參數取值范圍,初始化核寬度和懲罰參數,接著讓支持向量機對訓練樣本集合進行學習,之后統計訓練誤差是否滿足網絡管理的實際要求,如果滿足就得出最優核寬度及懲罰參數,以此創建網絡流量預測模型舉例。若不滿足,有文獻提出了利用一種布谷鳥搜索算法[8]進行優化讓支持向量機再次學習。直到滿足網絡流量管理的實際要求。

圖1 預測模型建立流程圖
(2)流量模型預測法:在一定規模的流量歷史數據積累下,選定流量的主要特性為出發點,選用合適的流量模型總結出網絡流量在特定情形下的變化趨勢。這種方法利用了網絡流量具有自相似的性質,可以用來理解和預測網絡流量行為,分析和評價網絡性能,為網絡結構的組建提供理論基礎。目前主流的傳統網絡流量模型有,泊松模型,馬爾科夫模型,自回歸模型等。
(3)神經網絡
神經網絡預測模型:采集歷史流量數據將其整理為神經網絡所能識別的訓練集,然后神經網絡通過訓練對其進行建模。根據模型來預測未來某一段時間的流量情況。
優點:可以用于高度非線性系統的處理。
缺點:預測需要大量的訓練樣本來進行修正模型[9]。
(1)在網絡安全防御系統中:應用流量分析中的采集及分析功能。
首先對所有接收過來的流量進行采集初步過濾后發生給數據挖掘與分析模塊。然后利用卷積神經網絡構建一個網絡流量挖掘與分析系統,該系統可以從發生過來的流量中發現潛在的病毒或木馬,針對這些網絡安全威脅進行識別、評估和判斷。在流量挖掘與分析系統得出結果后,就可以判斷出這些流量是否含有病毒或木馬,如果存在就可以啟動殺毒軟件將其滅殺,如果不存在就將其放行。例如華為防火墻及部分殺毒軟件。
(2)應用在校園網絡之中:應用流量管理可以及時響應和異常檢測功能。
例:在某個龐大的校園網中網速突然卡頓,如果不及時處理,將會導致大量重要的教學數據無法傳輸,但是留給網絡安全管理者的反應時間很短暫,當時沒有排查出原因是什么,沒有攔截到這段帶有網絡病毒的流量,這個網絡病毒對網絡的影響很是嚴重,導致了整個校園網絡出現癱瘓。而在引進流量管理系統之后,每次發生卡頓或其他異常后系統都能快速反應并進行監測,找出問題及時處理
(3)應用在醫院內網流量管理之中:應用流量管理的關聯分析及可視化展示功能。
例:某三甲醫院患者流量大,醫院信息系統中收到大量流量信息數據,這些信息中會在醫院常規工作中起到重大作用,而且都是重要資源。流量管理系統可以根據關聯分析對其數據進行挖掘分析,從中發現某些關聯關系,利用可視化分析,能夠將抽象的數據變換成更易理解和觀測的圖形,能夠形象地觀察出數據內在的關系,發現隱藏在數據中重要的關聯性關系,從而更清晰、有效地展示數據分析結果[10]。
(4)在電力綜合數據網管理中的應用:業務識別、異常檢測及主動被動測量功能。
目前,質量監測與評估是電力綜合數據網管理的主要手段,在運維中數據流預警和調度手段越發重要,實際運行中依托人工進行問題和故障檢查成為主要手段,所以,在這種情況下就需要引進流量管理系統,業務識別技術通過辨別、分類等方法分散不同流量的去向,大大減輕了網絡堵塞的狀況。對網絡傳輸的流量進行主動測量,掌控其動態數據,實現寬帶流量的精細化管理。該方案不僅保證了數據網的正常運行還能節約運行成本。文獻[11]提出了汲取 F-ARIMA與 SARIMA兩種模型的優點,建立全業務綜合流量預測模型,提高了預測的準確率的方法,但僅處于研究階段,模型全面性和實用性都有待考證,因此,電力綜合數據網方面類似復雜智能的高級應用還需要時間考驗。
本文介紹電力綜合數據網流量監測與分析所需的關鍵技術,對比了平行技術之間的優缺點。通過對網絡流量特性的分析和大數據建模預測的推論,可以快速定位網絡故障,更好的控制流量和提高網絡的性能,同時為網絡建設與規劃提供運行數據依據。從應用分析來看,目前的應用還主要集中在可視化管理流量和故障發現方面,采用人工監屏與軟件自動采集相結合的運行管理模式,隨著大數據與人工智能技術的快速發展與不斷應用發展,相信在未來可以不斷減少人工監屏的工作量,進行智能診斷和自動推送建議,乃至自動派單給維護人員,網絡流量自愈和自我管理能力將得到較大提升,使綜合數據網運行更為穩定,從而保障電網各項數字化業務的正常開展。