利用互信息進行網絡異常檢測的熵特征優選

2012-06-13 02:30:54易勝藍

電訊技術 2012年6期

關鍵詞：定義特征檢測

易勝藍

(中國西南電子技術研究所,成都 610036)

利用互信息進行網絡異常檢測的熵特征優選

易勝藍

(中國西南電子技術研究所,成都 610036)

首先討論了傳統流量統計分析的缺點,指出熵分析能夠反映更多潛在的信息,發現傳統流量統計分析不能發現的網絡異常。其次,討論了流量熵和計數熵的不同,指出兩者應該配合使用,不能如現有研究中一樣片面地使用其中一種。最后,用互信息法分析了兩種熵的常用特征,實驗發現兩者分別呈現冗余狀態,在剔除冗余之后檢測的效率有明顯提高,且不失檢測準確率。

網絡異常檢測;網絡流量;互信息;熵特征優選

1 引言

傳統的流量(Traffic Volume)分析僅僅對總體流量的變化敏感,在總體流量平穩的背景下對其中各個流量特征的異常不敏感。例如,總流量不變的情況下,個別IP的流量變大甚至擠占其他IP正常使用的帶寬。出現這種情況多是在白天流量高峰,本來總流量就將近滿載沒有上升空間。這種情況下發生分布式拒絕服務(DDoS)攻擊,因為總流量沒有變化不能為一般的流量異常檢測方法探知。

鑒于該缺陷,研究者們[1-4]提出了基于熵理論的流量特征分析。“熵(Entropy)”這個概念最先由魯道夫·克勞修斯(Rudolf Clausius)提出,并應用于熱力學中。后來香農(Shannon)第一次將熵的概念引入到信息論中來。簡單來說,熵代表一個系統的混亂程度,系統內各組成部分越混亂熵值就越大(最大值為1),系統內部越有序則熵值就越小(最小值為0)。就上述的例子來說,總流量不變的情況下,總流量的組成是在發生變化的。如果一個IP的流量變大擠占了帶寬,這種情況可以看作是整個流量系統向有序發展,極限情況是總流量就等于這個IP的流量達到流量系統的最有序狀態,這時候的熵達到最小值0。可見,當某個IP的流量突然變大,整體的流量熵應該是在減小,我們可以通過熵值變化的程度來判讀異常的發生。

目前,在網絡異常檢測中使用的熵特征分為“流量熵”和“計數熵”兩大類。這兩種定義的熵都有人使用,但是兩者之間的區別與聯系還沒有公開文獻進行分析,導致在實際中被隨意選用。但是不同實驗顯示這兩種定義的熵其實是有不同的特點和應用場景的,不能隨意選用,相互替換。其次,熵的計算復雜度大大高于傳統的統計分析,有必要對現有的多個熵特征進行優化和篩選,剔除冗余的特征以提高計算效率。針對以上兩個問題,本文首先從理論和實驗兩方面分析了這兩種不同定義的熵的適用范圍,進而設計了一種基于互信息的熵特征優化方法,剔除了冗余的特征。實驗表明,在優選特征的條件下,熵分析的網絡流量異常檢測在不失準確率的情況下,檢測的效率有較明顯的提高。

2 基于互信息的熵特征優選

2.1 流量熵與計數熵分析

熵的定義為

式中,Np(xi)為主機、端口(源、目的)、協議或應用所占包數,np為總包數。

使用該定義的熵被稱為流量熵。這并非唯一定義方式,網絡異常研究中還有另外一種以分量出現次數為準的定義方式(定義2)[2]:

式中,Nr(xi)為主機、端口(源、目的)、協議或應用所占netflow記錄數,nr為netflow總記錄數。

使用這種概率定義的熵被稱為計數熵。仍以主機為例,這種定義下,總量 V就是計算熵的時段出現的的主機地址的總數(可重復),而分量v則是某個主機地址在該時段重復出現的次數。

下面我們以源IP地址這個流量特征為例來研究兩者的不同與聯系。首先從定義來看,定義1是用每個不同IP所占用的報文數占總報文數的比例。可以理解為不同IP地址發出流量大小占總流量的比例。而定義2是不同IP地址重復的次數占總IP出現次數(可重復)的比例。前者著重不同IP在流量上表現出來的混亂程度,而后者主要是各個不同IP出現次數表現出來的混亂程度。

我們可以推論,定義1對那些流量很小但是數量眾多的IP值不敏感,對那些小包的掃描攻擊、小包的蠕蟲擴散攻擊識別能力較弱,優點在于能具體感知流量突然增大的IP,對大規模DDoS的目標等涉及流量改變的攻擊敏感。而定義2則對IP重復次數敏感,對流量信息不敏感。即某個IP即便異常地產生了大量流量,但是出現次數不多,根據該定義計算出來的熵值不能感知該IP的異常。相對地,對定義1不能感知的小數據包掃描、蠕蟲擴散等影響多個IP地址的攻擊。這兩種定義,單獨使用其中一種是很片面的,兩者的結合能提供發現更多不同類型的流量異常。于是需要檢查的熵特征從4個擴展到8個,即源地址流量熵、目的地址流量熵、源端口流量熵、目的端口流量熵、源地址計數熵、目的地址計數熵、源端口計數熵、目的端口計數熵。

實際還有其他關于協議和應用等的熵,但是它們一般都可以用端口的熵來代替,因為大多數的協議和應用都有對應的端口。因此,實際研究和使用中的還是地址和端口的熵值。

2.2 基于互信息的熵特征優選

熵分析的計算復雜度遠遠高于傳統的簡單統計的分析方法,在高速網絡環境下,熵值特征獲取的效率遠低于傳統方法,使得實際應用受到一定限制。針對這種情況,研究者一方面采用一些經典方法,例如抽樣,另一方面也積極地尋找有針對性的解決方法,例如將流挖掘的相關方法進入網絡熵分析中。實驗發現,使用相同概率定義的熵特征具有非常大的相關性。其中一個出現異常往往連帶其余3個同時出現異常,據此推測這些特征其實存在內部相關性。下面用信息論中的互信息理論來剔除冗余特征,特征數量的減少可以極大提高檢測的效率。

互信息(Mutual Information,MI)在信息論中是作為一種衡量兩個信號關聯程度的尺度,后來引申為對兩個隨機變量間的關聯程度進行統計描述。設MI(x,y)為隨機變量x和y的互信息,則:

式中,p(x)和p(y)分別是x和y獨立出現的概率,p(x,y)是 x和 y同時出現的概率。當MI(x,y)>>0時,表明 x和y高度相關;當 MI(x,y)≈0時,表明 x和y是弱相關,它們的同現屬于偶然現象;MI(x,y)<<0時,表明 x和y互補分布,不存在關聯關系。

在本應用環境中,x、y分別代表同定義的4個流量特征中的兩個。用互信息法考察它們兩兩間的關系。在這里重要的是要判斷4個指標間上升下降的關系(包括其上升下降的程度)。取一段時間4個特征的熵流,統計其上升下降的數目,上升為1,下降為0。以考察上升點為例,特征 index的上升點數目被記為CNTup(index)。在同一時間點同時上升并且兩個特征上升值之間的差異在可接受范圍內,則計入同現次數,記為CNTup(index1,index2)。所謂可接受范圍由所指定的判斷因子β確定:在t時刻兩個特征的熵值 index1和 index2,如果index1-index2 <β則被認為在可接受范圍內。受考察的熵流總點數為size(index),則特征 index1和index2獨立出現的概率為

MIdown的獲取方法類似。

當考察的變量獨立的時候,兩者的互信息為0,互信息的絕對值越大表明兩者越相關,完全相關時,互信息為1。在實際應用中,一般認為大于0.1以上就是相關的。

3 實驗與分析

從單位網絡中心提取了大約一周的流量數據和報警記錄進行實驗。前者是Netflow格式的流量統計信息,后者是Snort格式的報警記錄。從流量信息中提取熵特征,并做互相關檢測,結果如表1～3所示,其中src代表源,dst代表目的,ip代表地址,port代表端口。

表1 總同現概率Table 1 The summary probability of appearring at the same time

表2 同現概率(DOWN:下降,UP:上升)Table 2 The probability of appearring at the same time

表3 互信息值Table 3The mutual information

由上可知,這4個流量熵的特征互信息遠遠大于0,呈強相關性,只需要檢測其中一個就可以代表其余。計數熵表現出同樣特性,如表4所示(限于篇幅,略去了中間結果)。

表4 計數熵的互信息Table 4 The mutual information of count entropy

實驗結果表明,在使用熵分析進行有無異常檢驗時,只需要進行流量熵和計數熵其中一個特征的檢測即可。這里推薦用“目的地址”特征,從報警記錄的相關標記來看,影響目的地址的異常較多。于是,剔除冗余后的檢測特征就剩下兩個:{流量目的地址熵,計數目的地址熵}。表5是剔除冗余特征前后的檢測效率和準確率的比較,同一數據集同樣的檢查算法,具體算法參見文獻[5]。

表5 特征優選前后Table 5 Detection efficiency and accuracy before and after feature selection

由表5可以看出,進行特征優選后,在準確率基本保持不變的情況下,大大提高了檢測的效率,這對大規模高速網絡具有重要意義。

4 結論

熵分析可以提供比傳統流量分析具有更加精確的檢測結果,但是其計算復雜度大大高于傳統的簡單統計分析,在高速大規模網絡中這種低效果尤其不可接受。本文從保障檢測的準確率和提高計算效率兩方面出發,將流量熵和計數熵綜合使用并用互信息優選特征,減少冗余特征。實驗表明,用互信息法剔除冗余特征能夠有效提高檢測的效率,而不損失準確率。

[1]Nychis G,Sekar V,Andersen D G,et al.An Empirical E-valuation of Entropy-based Traffic Anomaly Detection[C]//Proceedings of the 8th ACM SIGCOMM Conference on Internet Measurement.New York,USA:ACM,2008:151-156.

[2]LallA,Sekar V,Ogihara M,et al.Data streaming algorithms for estimating entropy of network traffic[J].ACM Sigmetrics Performance Evaluation Review,2006,34(1):145-156.

[3]Wagner A,Plattner B.Entropy Based Worm and Anomaly Detection in Fast IP Networks[C]//Proceedings of the 14th IEEE International Workshops on Enabling Technologies:Infrastructure for Collaborative Enterprise.Washington,DC,USA:IEEE,2005:145-156.

[4]王海龍,楊岳湘.基于信息熵的大規模網絡流量異常檢測[J].計算機工程,2007,33(18):130-133.

WANG Hai-long,YANG Yue-xiang.Network-wide Traffic Anomaly Detection Based on Entropy[J].Computer Engineering,2007,33(18):130-133.(in Chinese)

[5]王娟,靳京,錢偉中,等.基于小波分解的群落流量異常檢測[J].電子測量與儀器學報,2010,24(4):365-370.

WANG Juan,JIN Jing,QIAN Wei-zhong,et al.Community Traffic Anomaly DetectionUsing Wavelet Analysis[J].Journal of Electronic Measurement and Instrument,2010,24(4):365-370.(in Chinese)

YI Sheng-lan was born in Changning,Hunan Province,in 1981.She received the B.S.degree in 2003.She is now an engineer.Her research concerns aviation communication.

Email:sly-lan@163.com

Entropy Feature Selection of Network Anomaly Detection by Using Mutual Information

YI Sheng-lan
(Southwest China Institute of Electronic Technology,Chengdu 610036,China)

Firstly,the shortcomings of traditional statistical analysis using network flow data are discussed,and it is pointed out that the entropy analysis can reflect more potential information to find out more network anomaly that can not be found by the traditional statistical analysis.Secondly,the difference between the flow entropy and count entropy is discussed and it is proposed that they should be used cooperatively and that using one of them just as existing studiesis not recommended.Finally,features of the two kindsof entropy are studied bymutual information analysis.The simulations show that there is redundant in them.After redundant features are eliminated,the detection efficiency is increased significantly while the detection accuracy is maintained.

network anomaly detection;network traffic;mutual information;entropy feature selection

TN915;TP393

10.3969/j.issn.1001-893x.2012.06.038

1001-893X(2012)06-1018-04

2011-11-01;

2012-04-09

易勝藍(1981—),女,湖南常寧人,2003年獲工學學士學位,現為工程師,主要從事航空通信領域的研究工作。

利用互信息進行網絡異常檢測的熵特征優選

1 引 言

2 基于互信息的熵特征優選

2.1 流量熵與計數熵分析

2.2 基于互信息的熵特征優選

3 實驗與分析

4 結 論

1 引言

4 結論