基于卡方方法及對稱不確定性的網絡流量特征選擇方法

2019-04-25 07:35:00

長春理工大學學報(自然科學版) 2019年2期

（長春理工大學理學院，長春 130022）

隨著網絡技術的日益發展，互聯網已經成為人們獲取和共享信息資源的非常重要的方式。但同時由于互聯網的飛速發展，互聯網的用戶規模、網絡應用種類以及網絡流量數據也隨之急劇增長，使得網絡結構愈加復雜，這就對網絡管理、維護和檢測技術提出更高的要求。

網絡流量分類是指按照各個應用的屬性將大量的混合網絡流量數據進行歸類的過程［1］。但是由于互聯網的用戶對各種網絡應用的使用頻率不同，使得各個網絡應用的數據出現了不平衡現象。如劍橋大學Moore等提供的數據集，共包括10個數據集，涵蓋了12類的網絡流量數據，共377526個樣本［3］。但是Moore數據集卻是一個數據不均衡數據集，其中大類別（WWW類）占總樣本的85%以上，而小類別（ATTACK、INTERACTIVE類等）在總樣本中所占比例不足1%，故對網絡流量數據進行分類時，得到的分類模型對大類別效果更好，而對小類別效果欠佳，因此關注點不能只是整體的分類準確率，應對各個類別的召回率考慮更加重視。如直接對Moore數據集分類時，由于WWW類別樣本的個數較多，其召回率也高達90%以上，但是由于ATTACK類別樣本數量小，其召回率只達50%左右。

盡管有些類別的樣本量小，但是并不能忽略其重要性，如P2P類型的網絡流量數據對于合理分配網絡寬帶具有指導意義；而ATTACK類型的網絡流量屬于網絡攻擊，準確地識別出此類型的流量也是十分重要的。所以為了最大可能地減弱各類數據不均衡問題的影響，需要在保證分類準確的基礎上，提高小類的召回率。

在網絡流量分類問題中，每個樣本都具有248個特征，特征屬性繁多且許多特征之間存在強相關性，這增加了網絡流量分類問題中建模的復雜度，并且會降低分類的準確率。因此需要在保證其分類準確性的前提下對網絡流量進行特征選擇，剔除一些具有冗余性和相關性極小的特征，以提高各個類別的召回率。

1 相關工作

相關領域的各國學者針對網絡流量數據分類問題進行了分析研究，近些年來對于網絡流量分類的研究中基于統計方法和機器學習的方法成為熱點。Lei等［3］利用統計的方法計算出各個特征的卡方值并選擇前k個，之后利用遺傳算法和C4.5決策樹對所選出的前k個特征再進行選擇；褚慧琳等［4］提出了過濾型和封裝型相結合的特征選擇算法；孫興斌等［5-6］先是提出了基于統計頻率的特征選擇方法，根據樣本的頻率計算特征選擇系數，選擇特征與類別相關性較強的特征，接著又提出基于相對不確定性和對稱不確定性的Hybrid型特征選擇方法，利用信息熵理論對特征進行選擇；劉紀偉等［7］提出基于統計排序的網絡流量特征方法，基于統計方法定義特征選擇系數和特征影響系數對特征進行二次選擇。

本文針對網絡流量不均衡問題提出一種基于卡方方法及對稱不確性的特征選擇方法（Chi-square method and symmetric uncertain network traffic feature selection，CHI-SU），CHI-SU方法首先計算出所有特征和各個類別之間的卡方值，接著引入信息熵對所計算得到卡方值進行加權排序，選擇出候選特征子集后再進行最優特征子集的搜索。最終通過所構造的特征集利用C4.5決策樹對網絡流量進行分類，在分類準確率較高的情況下，可以提高各個類別的召回率。

2 基于卡方方法及對稱不確定性的特征選擇方法

2.1 卡方統計選擇方法

卡方統計量可以衡量特征t與類別c的相關程度，假設t（共p個）和c（共q個）之間符合具有一階自由度的卡方分布，則特征t對于類別c的χ2值的計算公式為：

其中，N：總樣本的個數；Ni?j：有特征ti且屬于類cj的樣本個數；：有特征ti但不屬于類cj的樣本個數；：沒有特征ti但是屬于類cj的樣本個數；：沒有特征ti也不屬于類cj的樣本個數；Nj：屬于類cj的樣本個數；Njˉ：不屬于類cj的樣本數。

從（1）式可以得到，特征ti與類別cj相關性大時，χ2值也會較大，計算所有特征ti與所有類別的χ2值，可以計算得到χ2矩陣，記為K，則K為：

QIU Y.F等［8］已經證明，用卡方方法對特征進行選擇效果顯著，但是從（1）式可看出所計算的χ2值僅體現在特征與類之間的相關性，χ2值較大時表示此特征含有較多類別的信息，反之亦然，這種方法在處理各類別樣本數目相當時具有良好的效果，但是對于各類數據不均衡時卡方方法具有一些偏差。所以對于處理不均衡的數據集，以往的卡方特征選擇方法存在著不足之處，為了解決這一問題，綜合考慮特征在每個類別中的具體分布，對各類別數據不均衡和特征選擇問題進行處理，在卡方統計方法上融合信息熵［9］，計算加權的χ2統計量，可以較好地表示出特征對類的區分能力，更好地解決不均衡數據集下特征選擇問題。

2.2 對稱不確定性

對特征ti與類別cj計算出的卡方值進行加權，加權后的卡方統計量記為SUχ2(ti,cj)，加權后的卡方統計量考慮了特征與類別之間的相關性又衡量在數據集不均衡的情況下特征對不同類別的區分能力，利用對稱不確定性來衡量某個特征對總體類別C的區分能力［10］，對稱不確定性的定義為：

其中：

則：

p(cj|ti,k)：cj類在特征ti離散化后的第k個取值條件下出現的概率；

Nti：特征ti離散化后的取值個數；

p(ti,k)：特征ti離散化后第k個取值出現的概率；

H(ti)：特征ti的信息熵；

H(C|ti)為總體類別C在特征ti下的條件熵；

IG(C|ti)：總體類別C在特征ti下的信息增益。

對稱不確定性可以用來衡量特征ti和類別C之間提供的信息量，為0表示特征ti和類別C相互獨立，如果，則表示特征ti能更容易地區分不同類別的樣本。對于不均衡的數據集，首先根據卡方統計量可以看出一些特征含有較多的區分信息，再根據其信息熵、信息增益以及對稱不確定性，對各個類別的權重加以調整，使得最終分類時提高其整體和小類別的召回率，對χ2統計矩陣進行加權得到矩陣K′：

2.3 特征選擇方法（CHI-SU方法）

基于卡方特征選擇方法首先根據公式（3）計算出的加權卡方矩陣（4）選擇與每個類相關性較高的k個特征，去掉重復的特征后再選擇，構成候選特征子集；再從已經構成的候選特征集中依次選擇特征，利用C4.5決策樹對數據集進行分類，同時記錄結果，根據分類結果確定最優特征子集。步驟如下：

步驟1.對于每個類cj，由（1）式計算出χ2(ti,cj)；對于每個特征ti，由（2）式計算得到SU(ti,C)；根據公式（3）計算 SUχ2(ti,cj) ，得到加權χ2矩陣K′，按照矩陣（4）的列即對于每個類cj的每個特征ti排序，選擇前l個加權χ2值大的特征。

步驟2.對于每個特征集合Tj，去除Tj中屬于T1,T2,…,Tj-1的特征，將集合中所有特征按照其SU值降序排列，保留前k個特征，過濾其余特征，得到q個特征集合Tj(j=1,2,…,q)。

步驟3.搜索最優特征子集，初始化特征集合T′為空集，對于每個特征集合Tj，從中選擇一個特征放入T′集合中。

步驟4.對數據集訓練集S、測試集D進行預處理，保留T′集合中的特征，得到處理后的訓練集S′和測試集D′，用C4.5決策樹分類器對S′進行訓練，并利用D′進行測試，記錄分類效果；

步驟5.重復步驟3，直到完全搜索整個特征空間，選擇分類效果最好的特征集合輸出。

3 實驗分析

3.1 實驗數據集

實驗數據集采用的為Moore數據集［3］，該數據集共包含了10個數據集，分為了12個類型的網絡流量數據，每條數據均有249個流特征，其中最后一項為類別特征。但是由于GAMES、INTERACTIVE、DATABASE和MUTIMEDIA這四個類型的網絡流量數據并不是在每個子數據集中都存在，故對過濾掉四類數據集進行分類預測，過濾之后的樣本數及比例如表1所示。

表1 Moore數據集詳細信息

3.2 實驗工具與實驗流程

實驗使用的主要實驗工具為Matlab R2012b和Weka 3.8，實驗平臺運行Windows 8操作系統，CPU為Iterl Core i5-4200 1.6GHz，內存大小為4.00GB。

實驗的算法流程圖如圖1所示。

圖1 實驗的基本流程圖

表2 三種方法所選的特征符號及物理意義

孫興斌等人在文獻［6］中提出了FFS方法即基于統計頻率的網絡流量特征選擇方法，在文獻［7］中提出了FSMID方法即面向多類不均衡網絡流量的特征選擇方法，這兩種方法都是討論網絡流量數據不均衡性，且使用的實驗數據集均為Moore數據集，評價指標使用的均為準確率以及召回率，故將CHI-SU方法和FFS方法、FSMID方法進行對比分析，利用三種方法所選擇的流量特征的序號［11］如表2所示。

3.3 評價指標

傳統的分類器評價標準是分類的精確率，可增加召回率這一指標來共同衡量所選特征集合的優劣。其中精確率和召回率可由二分類混合矩陣得出，二分類混合矩陣如表3所示。

表3 二分類混合矩陣

根據表3定義正類的Precision（精確率）和Recal（l召回率）：

3.4 實驗結果

由表1可以看到，ATTACK類別的網絡流量數據占比為0.442%，數量相對較少，但是其在識別網絡攻擊時的重要性卻遠超于其他類別。故對網絡流量進行分類時，會對大類別如WWW類別的網絡流量數據更有利，而小類別的數據極易被誤分。

利用三種不同的方法得到的特征對少數類ATTACK類型的流量數據分類后的精確率如表4所示。

表5是通過三種不同的方法得到的特征對少數類ATTACK類型的流量數據分類后的召回率，可以得到在精確率都在90%以上的情況下，CHI-SU方法明顯也提高了小類ATTACK的召回率。

表4 三種方法在每個數據集中ATTACK類的精確率

表5 三種方法在每個數據集中ATTACK類的召回率

4 結語

對網絡流量進行分類時，數據不均衡問題時常出現，故對網絡流量數據不均衡問題的研究是一項熱門的問題，提出的基于卡方方法及對稱不確定性的網絡流量特征選擇方法對比于其他方法，準確率并沒有明顯的提高，但是在小類別召回率有明顯提高。如何簡單迅速地選擇出合適的特征集合，在保證整體分類準確率以及各類別準確率的同時，大幅度地提高其召回率及其他的一些指標，是未來研究的一個方向。