999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

利用互信息進行網絡異常檢測的熵特征優選

2012-06-13 02:30:54易勝藍
電訊技術 2012年6期
關鍵詞:定義特征檢測

易勝藍

(中國西南電子技術研究所,成都 610036)

利用互信息進行網絡異常檢測的熵特征優選

易勝藍

(中國西南電子技術研究所,成都 610036)

首先討論了傳統流量統計分析的缺點,指出熵分析能夠反映更多潛在的信息,發現傳統流量統計分析不能發現的網絡異常。其次,討論了流量熵和計數熵的不同,指出兩者應該配合使用,不能如現有研究中一樣片面地使用其中一種。最后,用互信息法分析了兩種熵的常用特征,實驗發現兩者分別呈現冗余狀態,在剔除冗余之后檢測的效率有明顯提高,且不失檢測準確率。

網絡異常檢測;網絡流量;互信息;熵特征優選

1 引 言

傳統的流量(Traffic Volume)分析僅僅對總體流量的變化敏感,在總體流量平穩的背景下對其中各個流量特征的異常不敏感。例如,總流量不變的情況下,個別IP的流量變大甚至擠占其他IP正常使用的帶寬。出現這種情況多是在白天流量高峰,本來總流量就將近滿載沒有上升空間。這種情況下發生分布式拒絕服務(DDoS)攻擊,因為總流量沒有變化不能為一般的流量異常檢測方法探知。

鑒于該缺陷,研究者們[1-4]提出了基于熵理論的流量特征分析。“熵(Entropy)”這個概念最先由魯道夫·克勞修斯(Rudolf Clausius)提出,并應用于熱力學中。后來香農(Shannon)第一次將熵的概念引入到信息論中來。簡單來說,熵代表一個系統的混亂程度,系統內各組成部分越混亂熵值就越大(最大值為1),系統內部越有序則熵值就越小(最小值為0)。就上述的例子來說,總流量不變的情況下,總流量的組成是在發生變化的。如果一個IP的流量變大擠占了帶寬,這種情況可以看作是整個流量系統向有序發展,極限情況是總流量就等于這個IP的流量達到流量系統的最有序狀態,這時候的熵達到最小值0。可見,當某個IP的流量突然變大,整體的流量熵應該是在減小,我們可以通過熵值變化的程度來判讀異常的發生。

目前,在網絡異常檢測中使用的熵特征分為“流量熵”和“計數熵”兩大類。這兩種定義的熵都有人使用,但是兩者之間的區別與聯系還沒有公開文獻進行分析,導致在實際中被隨意選用。但是不同實驗顯示這兩種定義的熵其實是有不同的特點和應用場景的,不能隨意選用,相互替換。其次,熵的計算復雜度大大高于傳統的統計分析,有必要對現有的多個熵特征進行優化和篩選,剔除冗余的特征以提高計算效率。針對以上兩個問題,本文首先從理論和實驗兩方面分析了這兩種不同定義的熵的適用范圍,進而設計了一種基于互信息的熵特征優化方法,剔除了冗余的特征。實驗表明,在優選特征的條件下,熵分析的網絡流量異常檢測在不失準確率的情況下,檢測的效率有較明顯的提高。

2 基于互信息的熵特征優選

2.1 流量熵與計數熵分析

熵的定義為

式中,Np(xi)為主機、端口(源、目的)、協議或應用所占包數,np為總包數。

使用該定義的熵被稱為流量熵。這并非唯一定義方式,網絡異常研究中還有另外一種以分量出現次數為準的定義方式(定義2)[2]:

式中,Nr(xi)為主機、端口(源、目的)、協議或應用所占netflow記錄數,nr為netflow總記錄數。

使用這種概率定義的熵被稱為計數熵。仍以主機為例,這種定義下,總量 V就是計算熵的時段出現的的主機地址的總數(可重復),而分量v則是某個主機地址在該時段重復出現的次數。

下面我們以源IP地址這個流量特征為例來研究兩者的不同與聯系。首先從定義來看,定義1是用每個不同IP所占用的報文數占總報文數的比例。可以理解為不同IP地址發出流量大小占總流量的比例。而定義2是不同IP地址重復的次數占總IP出現次數(可重復)的比例。前者著重不同IP在流量上表現出來的混亂程度,而后者主要是各個不同IP出現次數表現出來的混亂程度。

我們可以推論,定義1對那些流量很小但是數量眾多的IP值不敏感,對那些小包的掃描攻擊、小包的蠕蟲擴散攻擊識別能力較弱,優點在于能具體感知流量突然增大的IP,對大規模DDoS的目標等涉及流量改變的攻擊敏感。而定義2則對IP重復次數敏感,對流量信息不敏感。即某個IP即便異常地產生了大量流量,但是出現次數不多,根據該定義計算出來的熵值不能感知該IP的異常。相對地,對定義1不能感知的小數據包掃描、蠕蟲擴散等影響多個IP地址的攻擊。這兩種定義,單獨使用其中一種是很片面的,兩者的結合能提供發現更多不同類型的流量異常。于是需要檢查的熵特征從4個擴展到8個,即源地址流量熵、目的地址流量熵、源端口流量熵、目的端口流量熵、源地址計數熵、目的地址計數熵、源端口計數熵、目的端口計數熵。

實際還有其他關于協議和應用等的熵,但是它們一般都可以用端口的熵來代替,因為大多數的協議和應用都有對應的端口。因此,實際研究和使用中的還是地址和端口的熵值。

2.2 基于互信息的熵特征優選

熵分析的計算復雜度遠遠高于傳統的簡單統計的分析方法,在高速網絡環境下,熵值特征獲取的效率遠低于傳統方法,使得實際應用受到一定限制。針對這種情況,研究者一方面采用一些經典方法,例如抽樣,另一方面也積極地尋找有針對性的解決方法,例如將流挖掘的相關方法進入網絡熵分析中。實驗發現,使用相同概率定義的熵特征具有非常大的相關性。其中一個出現異常往往連帶其余3個同時出現異常,據此推測這些特征其實存在內部相關性。下面用信息論中的互信息理論來剔除冗余特征,特征數量的減少可以極大提高檢測的效率。

互信息(Mutual Information,MI)在信息論中是作為一種衡量兩個信號關聯程度的尺度,后來引申為對兩個隨機變量間的關聯程度進行統計描述。設MI(x,y)為隨機變量x和y的互信息,則:

式中,p(x)和p(y)分別是x和y獨立出現的概率,p(x,y)是 x和 y同時出現的概率。當MI(x,y)>>0時,表明 x和y高度相關;當 MI(x,y)≈0時,表明 x和y是弱相關,它們的同現屬于偶然現象;MI(x,y)<<0時,表明 x和y互補分布,不存在關聯關系。

在本應用環境中,x、y分別代表同定義的4個流量特征中的兩個。用互信息法考察它們兩兩間的關系。在這里重要的是要判斷4個指標間上升下降的關系(包括其上升下降的程度)。取一段時間4個特征的熵流,統計其上升下降的數目,上升為1,下降為0。以考察上升點為例,特征 index的上升點數目被記為CNTup(index)。在同一時間點同時上升并且兩個特征上升值之間的差異在可接受范圍內,則計入同現次數,記為CNTup(index1,index2)。所謂可接受范圍由所指定的判斷因子β確定:在t時刻兩個特征的熵值 index1和 index2,如果index1-index2 <β則被認為在可接受范圍內。受考察的熵流總點數為size(index),則特征 index1和index2獨立出現的概率為

MIdown的獲取方法類似。

當考察的變量獨立的時候,兩者的互信息為0,互信息的絕對值越大表明兩者越相關,完全相關時,互信息為1。在實際應用中,一般認為大于0.1以上就是相關的。

3 實驗與分析

從單位網絡中心提取了大約一周的流量數據和報警記錄進行實驗。前者是Netflow格式的流量統計信息,后者是Snort格式的報警記錄。從流量信息中提取熵特征,并做互相關檢測,結果如表1~3所示,其中src代表源,dst代表目的,ip代表地址,port代表端口。

表1 總同現概率Table 1 The summary probability of appearring at the same time

表2 同現概率(DOWN:下降,UP:上升)Table 2 The probability of appearring at the same time

表3 互信息值Table 3The mutual information

由上可知,這4個流量熵的特征互信息遠遠大于0,呈強相關性,只需要檢測其中一個就可以代表其余。計數熵表現出同樣特性,如表4所示(限于篇幅,略去了中間結果)。

表4 計數熵的互信息Table 4 The mutual information of count entropy

實驗結果表明,在使用熵分析進行有無異常檢驗時,只需要進行流量熵和計數熵其中一個特征的檢測即可。這里推薦用“目的地址”特征,從報警記錄的相關標記來看,影響目的地址的異常較多。于是,剔除冗余后的檢測特征就剩下兩個:{流量目的地址熵,計數目的地址熵}。表5是剔除冗余特征前后的檢測效率和準確率的比較,同一數據集同樣的檢查算法,具體算法參見文獻[5]。

表5 特征優選前后Table 5 Detection efficiency and accuracy before and after feature selection

由表5可以看出,進行特征優選后,在準確率基本保持不變的情況下,大大提高了檢測的效率,這對大規模高速網絡具有重要意義。

4 結 論

熵分析可以提供比傳統流量分析具有更加精確的檢測結果,但是其計算復雜度大大高于傳統的簡單統計分析,在高速大規模網絡中這種低效果尤其不可接受。本文從保障檢測的準確率和提高計算效率兩方面出發,將流量熵和計數熵綜合使用并用互信息優選特征,減少冗余特征。實驗表明,用互信息法剔除冗余特征能夠有效提高檢測的效率,而不損失準確率。

[1]Nychis G,Sekar V,Andersen D G,et al.An Empirical E-valuation of Entropy-based Traffic Anomaly Detection[C]//Proceedings of the 8th ACM SIGCOMM Conference on Internet Measurement.New York,USA:ACM,2008:151-156.

[2]LallA,Sekar V,Ogihara M,et al.Data streaming algorithms for estimating entropy of network traffic[J].ACM Sigmetrics Performance Evaluation Review,2006,34(1):145-156.

[3]Wagner A,Plattner B.Entropy Based Worm and Anomaly Detection in Fast IP Networks[C]//Proceedings of the 14th IEEE International Workshops on Enabling Technologies:Infrastructure for Collaborative Enterprise.Washington,DC,USA:IEEE,2005:145-156.

[4]王海龍,楊岳湘.基于信息熵的大規模網絡流量異常檢測[J].計算機工程,2007,33(18):130-133.

WANG Hai-long,YANG Yue-xiang.Network-wide Traffic Anomaly Detection Based on Entropy[J].Computer Engineering,2007,33(18):130-133.(in Chinese)

[5]王娟,靳京,錢偉中,等.基于小波分解的群落流量異常檢測[J].電子測量與儀器學報,2010,24(4):365-370.

WANG Juan,JIN Jing,QIAN Wei-zhong,et al.Community Traffic Anomaly DetectionUsing Wavelet Analysis[J].Journal of Electronic Measurement and Instrument,2010,24(4):365-370.(in Chinese)

YI Sheng-lan was born in Changning,Hunan Province,in 1981.She received the B.S.degree in 2003.She is now an engineer.Her research concerns aviation communication.

Email:sly-lan@163.com

Entropy Feature Selection of Network Anomaly Detection by Using Mutual Information

YI Sheng-lan
(Southwest China Institute of Electronic Technology,Chengdu 610036,China)

Firstly,the shortcomings of traditional statistical analysis using network flow data are discussed,and it is pointed out that the entropy analysis can reflect more potential information to find out more network anomaly that can not be found by the traditional statistical analysis.Secondly,the difference between the flow entropy and count entropy is discussed and it is proposed that they should be used cooperatively and that using one of them just as existing studiesis not recommended.Finally,features of the two kindsof entropy are studied bymutual information analysis.The simulations show that there is redundant in them.After redundant features are eliminated,the detection efficiency is increased significantly while the detection accuracy is maintained.

network anomaly detection;network traffic;mutual information;entropy feature selection

TN915;TP393

A

10.3969/j.issn.1001-893x.2012.06.038

1001-893X(2012)06-1018-04

2011-11-01;

2012-04-09

易勝藍(1981—),女,湖南常寧人,2003年獲工學學士學位,現為工程師,主要從事航空通信領域的研究工作。

猜你喜歡
定義特征檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
小波變換在PCB缺陷檢測中的應用
成功的定義
山東青年(2016年1期)2016-02-28 14:25:25
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
修辭學的重大定義
當代修辭學(2014年3期)2014-01-21 02:30:44
主站蜘蛛池模板: 国产午夜不卡| 奇米影视狠狠精品7777| 丝袜美女被出水视频一区| 欧美在线视频不卡第一页| 秋霞国产在线| 99中文字幕亚洲一区二区| 成年人午夜免费视频| 日本免费一区视频| 在线另类稀缺国产呦| 国产91精品最新在线播放| 亚洲无码日韩一区| 自慰高潮喷白浆在线观看| 国产在线第二页| 久久精品女人天堂aaa| 国产精品私拍在线爆乳| 亚洲欧洲日韩久久狠狠爱| 热99re99首页精品亚洲五月天| 青草视频免费在线观看| 国产一级在线观看www色| 日韩一区二区在线电影| 欧美亚洲香蕉| 国产91在线|日本| 欧美国产日产一区二区| 久久6免费视频| 国产本道久久一区二区三区| 五月天在线网站| 97精品久久久大香线焦| 91国内在线视频| 欧美日韩国产精品va| 黄色一及毛片| 日韩欧美中文| 91在线丝袜| AV色爱天堂网| 日韩无码精品人妻| 91破解版在线亚洲| 久久性视频| 亚洲第一区在线| 亚洲男人天堂网址| 国产女人在线观看| 欧美丝袜高跟鞋一区二区| 亚洲成年人网| 欧美成人手机在线观看网址| 亚洲人成在线精品| 亚洲精品自产拍在线观看APP| 精品视频福利| 日本欧美一二三区色视频| 亚洲综合狠狠| 91久久偷偷做嫩草影院| 欧美另类视频一区二区三区| 亚洲男人天堂2020| 亚洲首页国产精品丝袜| www.91中文字幕| 久久伊人色| 麻豆国产在线观看一区二区 | 中文无码影院| 久久综合伊人 六十路| 亚洲青涩在线| 亚洲第一区精品日韩在线播放| 一本视频精品中文字幕| 久久精品无码一区二区日韩免费| 亚洲精品无码高潮喷水A| 亚洲成AV人手机在线观看网站| 91啪在线| 宅男噜噜噜66国产在线观看| 午夜一区二区三区| 亚洲乱伦视频| 91在线精品麻豆欧美在线| 亚洲女同一区二区| 亚洲欧美自拍一区| 美女国内精品自产拍在线播放| 中文字幕久久波多野结衣| 亚洲精品国产乱码不卡| 日韩第一页在线| 九色在线观看视频| 亚洲精品视频在线观看视频| 中国国产一级毛片| 国产91无毒不卡在线观看| 麻豆精选在线| 欧美翘臀一区二区三区| 亚洲天堂精品在线观看| 99这里只有精品免费视频| 国产黄色视频综合|