杜潔 蘇文偉 彭秋霞
摘 要
電力綜合數(shù)據(jù)網(wǎng)的深化應(yīng)用對(duì)異常流量的檢測(cè)和分析提出了更高的要求。本文通過(guò)對(duì)電力綜合數(shù)據(jù)網(wǎng)的流量數(shù)據(jù)結(jié)構(gòu)進(jìn)行分析,驗(yàn)證了電力綜合數(shù)據(jù)網(wǎng)正常單位流量具有穩(wěn)定的信息熵。在此基礎(chǔ)上,提出了通過(guò)對(duì)數(shù)據(jù)流量五元組熵值的分析來(lái)判斷異常流量的方法,并對(duì)綜合數(shù)據(jù)網(wǎng)流量結(jié)構(gòu)進(jìn)行建模,提出應(yīng)用支持向量機(jī)的算法對(duì)異常流量進(jìn)行識(shí)別。
【關(guān)鍵詞】綜合數(shù)據(jù)網(wǎng) 異常流量 支持向量機(jī)
1 某電網(wǎng)綜合數(shù)據(jù)網(wǎng)流量分析現(xiàn)狀
目前某電網(wǎng)公司綜合業(yè)務(wù)數(shù)據(jù)網(wǎng)以主數(shù)據(jù)中心和同城災(zāi)備中心為核心,與全省各地供電局的綜合數(shù)據(jù)網(wǎng)絡(luò)核心形成互聯(lián),互聯(lián)鏈路采用萬(wàn)兆以太網(wǎng)傳輸技術(shù),形成一個(gè)電網(wǎng)綜合數(shù)據(jù)業(yè)務(wù)傳輸?shù)某休d網(wǎng)平臺(tái)。具體網(wǎng)絡(luò)拓?fù)淙缦滤荆?/p>
該電網(wǎng)公司綜合數(shù)據(jù)網(wǎng)絡(luò)核心日常數(shù)據(jù)流量已超過(guò)1GB,流量監(jiān)控使用ARBOR流量分析設(shè)備來(lái)完成,通過(guò)Netflow的方式監(jiān)測(cè)骨干層各中心匯聚設(shè)備連接到省中心的端口。
目前,該電網(wǎng)公司流量分析系統(tǒng)具備的主要功能包括:
(1)能夠得到端到端用戶體檢的量化數(shù)據(jù),包括端到端的全過(guò)程響應(yīng)時(shí)間。
(2)能夠得到網(wǎng)絡(luò)傳輸時(shí)延的數(shù)據(jù),并考慮到不同數(shù)據(jù)包大小情況的網(wǎng)絡(luò)傳輸時(shí)延。
(3)能夠得到應(yīng)用系統(tǒng)各個(gè)交互過(guò)程的響應(yīng)時(shí)間的數(shù)據(jù)。
(4)能夠根據(jù)時(shí)間迅速定位流量,并根據(jù)地址、端口等信息迅速將所需網(wǎng)絡(luò)流量數(shù)據(jù)包檢索并抽取出來(lái)進(jìn)行分析。
由以上功能點(diǎn)的統(tǒng)計(jì)分析,可以得知,目前該電網(wǎng)的流量分析系統(tǒng)能做到對(duì)網(wǎng)絡(luò)流量的統(tǒng)計(jì)及性能分析,但對(duì)網(wǎng)絡(luò)流量異常的做不到良好的預(yù)警。
2 流量異常檢測(cè)方法
自Denning研究異常檢測(cè)模型以來(lái),網(wǎng)絡(luò)異常檢測(cè)方法的研究就一直受到學(xué)術(shù)界的極大關(guān)注。白玉峰研究致力于利用流量大小(如流數(shù)、分組數(shù)或字節(jié)數(shù))來(lái)檢測(cè)網(wǎng)絡(luò)異常并獲得巨大成功,但是這類方法面臨的問(wèn)題是:并非所有的異常都會(huì)引起流量大小的顯著變化;此外,采用不同的流量測(cè)度可能會(huì)識(shí)別出不同的流量異常,因此僅僅采用一種流量測(cè)度并不能識(shí)別蘊(yùn)含在流量數(shù)據(jù)中的所有異常。
近年來(lái)的大量研究表明,不管是局域網(wǎng)還是廣域網(wǎng),網(wǎng)絡(luò)流量都具有明顯的突發(fā)性和長(zhǎng)相關(guān)性,而網(wǎng)絡(luò)的自相似性特性可以很好地描述流量這些特性,所以,自相似性已成為網(wǎng)絡(luò)流量的重要特性并以此作為流量異常檢測(cè)的基礎(chǔ)。現(xiàn)今已有大量計(jì)算機(jī)學(xué)科領(lǐng)域的算法和模型被使用在網(wǎng)絡(luò)流量的異常檢測(cè)方面,文獻(xiàn)采用小波分析方法利用網(wǎng)絡(luò)流量在時(shí)間尺度上的多重分形,在小波域內(nèi)對(duì)網(wǎng)絡(luò)流量進(jìn)行分解,通過(guò)計(jì)算網(wǎng)絡(luò)流量的Hurst指數(shù),根據(jù)正常與異常流量Hurst指數(shù)的偏差來(lái)檢測(cè)異常,但該方法Hurst指數(shù)與時(shí)間尺度緊密相關(guān),只對(duì)突發(fā)性的流量具有較好的檢測(cè)效果;文獻(xiàn)[1]提出一種融合k-means的聚類檢測(cè)算法,該文增量地構(gòu)建流量矩陣,增量地使用PCA主成分進(jìn)行異常檢測(cè),這些方法在全網(wǎng)流量異常時(shí)檢測(cè)效果非常明顯,但算法相對(duì)過(guò)于復(fù)雜使其在實(shí)時(shí)性上較差;文獻(xiàn)[2] 使用一種基于信息熵的特征選擇算法,降低了檢測(cè)數(shù)據(jù)的維數(shù),但增量學(xué)習(xí)的限制條件比較多,增量學(xué)習(xí)效率較低。
3 綜合數(shù)據(jù)網(wǎng)流量異常檢測(cè)
通過(guò)上述分析可以看出,數(shù)據(jù)流五元組的熵值較為穩(wěn)定,可以通過(guò)熵值的變化情況來(lái)區(qū)分正常流量和異常流量。因此綜合數(shù)據(jù)網(wǎng)異常流量的檢測(cè)問(wèn)題也就是通過(guò)對(duì)數(shù)據(jù)流量五元組熵值的分析來(lái)做出正常或異常的判斷。
3.1 異常流量檢測(cè)模型
針對(duì)上文中對(duì)流量特性的分析,綜合數(shù)據(jù)網(wǎng)異常流量的檢測(cè)問(wèn)題可以理解為通過(guò)已有的流量特征據(jù),將現(xiàn)有的流量分類為正常或異常。模式識(shí)別理論是利用已有的信息,按照某種特定的規(guī)則確定未知的樣本的類別屬性,模式識(shí)別往往被看作是分類問(wèn)題,讓機(jī)器自身從環(huán)境中分離出某種模式并對(duì)未知樣本的歸類做出合理的判斷。因此,可以將模式識(shí)別應(yīng)用于綜合數(shù)據(jù)網(wǎng)的異常力量檢測(cè),通過(guò)對(duì)己有的數(shù)據(jù)流量的熵值樣本進(jìn)行學(xué)習(xí),建立規(guī)律模型,利用該模型對(duì)未知樣本進(jìn)行分類。
3.2 異常檢測(cè)算法
首先使用一定數(shù)量的正常流量和異常流量數(shù)據(jù)作為訓(xùn)練樣本輸入到支持向量機(jī)之中,根據(jù)這些訓(xùn)練數(shù)據(jù)輸出一個(gè)模型,這個(gè)模型實(shí)際上就是通過(guò)樣本構(gòu)造的決策函數(shù)。然后將測(cè)試數(shù)據(jù)輸入該模型進(jìn)行分類。
3.2.1 訓(xùn)練階段
根據(jù)信息熵的定義,對(duì)樣本流量的五元組分別求熵,建立樣本流量的五維熵值向量。使用核函數(shù)將向量從五維變換到高位,再將數(shù)據(jù)作為訓(xùn)練樣本輸入到支持向量機(jī)之中,根據(jù)這些訓(xùn)練數(shù)據(jù)構(gòu)造的一個(gè)決策函數(shù)。
3.2.2 檢測(cè)階段
將檢測(cè)流量輸入模型進(jìn)行檢測(cè),分類結(jié)果為1則為正常流量,分類結(jié)果為-1即為異常流量。
4 結(jié)束語(yǔ)
本文通過(guò)對(duì)電力綜合數(shù)據(jù)網(wǎng)的流量數(shù)據(jù)結(jié)構(gòu)進(jìn)行分析,驗(yàn)證了電力綜合數(shù)據(jù)網(wǎng)正常數(shù)據(jù)符合重尾分布,且正常單位流量具有穩(wěn)定的信息熵。在此基礎(chǔ),對(duì)綜合數(shù)據(jù)網(wǎng)流量結(jié)構(gòu)進(jìn)行建模,采用支持向量機(jī)的識(shí)別算法對(duì)異常流量進(jìn)行識(shí)別。實(shí)驗(yàn)結(jié)果表明,在異常流量比例大于5%的條件下,算法能夠檢測(cè)出網(wǎng)絡(luò)中的異常數(shù)據(jù)。
下一步的工作是深入研究電力綜合數(shù)據(jù)網(wǎng)異常流量的類型以及各種異常流量對(duì)流量結(jié)構(gòu)的影響,改進(jìn)檢測(cè)算法,進(jìn)一步提升算法的精度。
參考文獻(xiàn)
[1]DENNING D.An intrusion-detection model[J].IEEE Transactions on Software Engineering,1987,13(2):222-232.
[2]TORRES R,HAJJAT M,RAO SG,et al.Inferring undesirable behavior from P2P traffic analysis[A].SIGMETRICS[C].USA,2009,231-242.
[3]GU G,PERDISCI R,ZHANG J,et al.BotMiner:clustering analysis of network traffic for protocol and structure-independent botnet detection[A].USENIX Security[C].USA.,2008,67-76.
作者單位
云南電網(wǎng)公司信息中心 云南省昆明市 650217endprint