999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于卡方方法及對稱不確定性的網絡流量特征選擇方法

2019-04-25 07:35:00
關鍵詞:分類特征方法

(長春理工大學 理學院,長春 130022)

隨著網絡技術的日益發展,互聯網已經成為人們獲取和共享信息資源的非常重要的方式。但同時由于互聯網的飛速發展,互聯網的用戶規模、網絡應用種類以及網絡流量數據也隨之急劇增長,使得網絡結構愈加復雜,這就對網絡管理、維護和檢測技術提出更高的要求。

網絡流量分類是指按照各個應用的屬性將大量的混合網絡流量數據進行歸類的過程[1]。但是由于互聯網的用戶對各種網絡應用的使用頻率不同,使得各個網絡應用的數據出現了不平衡現象。如劍橋大學Moore等提供的數據集,共包括10個數據集,涵蓋了12類的網絡流量數據,共377526個樣本[3]。但是Moore數據集卻是一個數據不均衡數據集,其中大類別(WWW類)占總樣本的85%以上,而小類別(ATTACK、INTERACTIVE類等)在總樣本中所占比例不足1%,故對網絡流量數據進行分類時,得到的分類模型對大類別效果更好,而對小類別效果欠佳,因此關注點不能只是整體的分類準確率,應對各個類別的召回率考慮更加重視。如直接對Moore數據集分類時,由于WWW類別樣本的個數較多,其召回率也高達90%以上,但是由于ATTACK類別樣本數量小,其召回率只達50%左右。

盡管有些類別的樣本量小,但是并不能忽略其重要性,如P2P類型的網絡流量數據對于合理分配網絡寬帶具有指導意義;而ATTACK類型的網絡流量屬于網絡攻擊,準確地識別出此類型的流量也是十分重要的。所以為了最大可能地減弱各類數據不均衡問題的影響,需要在保證分類準確的基礎上,提高小類的召回率。

在網絡流量分類問題中,每個樣本都具有248個特征,特征屬性繁多且許多特征之間存在強相關性,這增加了網絡流量分類問題中建模的復雜度,并且會降低分類的準確率。因此需要在保證其分類準確性的前提下對網絡流量進行特征選擇,剔除一些具有冗余性和相關性極小的特征,以提高各個類別的召回率。

1 相關工作

相關領域的各國學者針對網絡流量數據分類問題進行了分析研究,近些年來對于網絡流量分類的研究中基于統計方法和機器學習的方法成為熱點。Lei等[3]利用統計的方法計算出各個特征的卡方值并選擇前k個,之后利用遺傳算法和C4.5決策樹對所選出的前k個特征再進行選擇;褚慧琳等[4]提出了過濾型和封裝型相結合的特征選擇算法;孫興斌等[5-6]先是提出了基于統計頻率的特征選擇方法,根據樣本的頻率計算特征選擇系數,選擇特征與類別相關性較強的特征,接著又提出基于相對不確定性和對稱不確定性的Hybrid型特征選擇方法,利用信息熵理論對特征進行選擇;劉紀偉等[7]提出基于統計排序的網絡流量特征方法,基于統計方法定義特征選擇系數和特征影響系數對特征進行二次選擇。

本文針對網絡流量不均衡問題提出一種基于卡方方法及對稱不確性的特征選擇方法(Chi-square method and symmetric uncertain network traffic feature selection,CHI-SU),CHI-SU方法首先計算出所有特征和各個類別之間的卡方值,接著引入信息熵對所計算得到卡方值進行加權排序,選擇出候選特征子集后再進行最優特征子集的搜索。最終通過所構造的特征集利用C4.5決策樹對網絡流量進行分類,在分類準確率較高的情況下,可以提高各個類別的召回率。

2 基于卡方方法及對稱不確定性的特征選擇方法

2.1 卡方統計選擇方法

卡方統計量可以衡量特征t與類別c的相關程度,假設t(共p個)和c(共q個)之間符合具有一階自由度的卡方分布,則特征t對于類別c的χ2值的計算公式為:

其中,N:總樣本的個數;Ni?j:有特征ti且屬于類cj的樣本個數;:有特征ti但不屬于類cj的樣本個數;:沒有特征ti但是屬于類cj的樣本個數;:沒有特征ti也不屬于類cj的樣本個數;Nj:屬于類cj的樣本個數;Njˉ:不屬于類cj的樣本數。

從(1)式可以得到,特征ti與類別cj相關性大時,χ2值也會較大,計算所有特征ti與所有類別的χ2值,可以計算得到χ2矩陣,記為K,則K為:

QIU Y.F等[8]已經證明,用卡方方法對特征進行選擇效果顯著,但是從(1)式可看出所計算的χ2值僅體現在特征與類之間的相關性,χ2值較大時表示此特征含有較多類別的信息,反之亦然,這種方法在處理各類別樣本數目相當時具有良好的效果,但是對于各類數據不均衡時卡方方法具有一些偏差。所以對于處理不均衡的數據集,以往的卡方特征選擇方法存在著不足之處,為了解決這一問題,綜合考慮特征在每個類別中的具體分布,對各類別數據不均衡和特征選擇問題進行處理,在卡方統計方法上融合信息熵[9],計算加權的χ2統計量,可以較好地表示出特征對類的區分能力,更好地解決不均衡數據集下特征選擇問題。

2.2 對稱不確定性

對特征ti與類別cj計算出的卡方值進行加權,加權后的卡方統計量記為SUχ2(ti,cj),加權后的卡方統計量考慮了特征與類別之間的相關性又衡量在數據集不均衡的情況下特征對不同類別的區分能力,利用對稱不確定性來衡量某個特征對總體類別C的區分能力[10],對稱不確定性的定義為:

其中:

則:

p(cj|ti,k):cj類在特征ti離散化后的第k個取值條件下出現的概率;

Nti:特征ti離散化后的取值個數;

p(ti,k):特征ti離散化后第k個取值出現的概率;

H(ti):特征ti的信息熵;

H(C|ti)為總體類別C在特征ti下的條件熵;

IG(C|ti):總體類別C在特征ti下的信息增益。

對稱不確定性可以用來衡量特征ti和類別C之間提供的信息量,為0表示特征ti和類別C相互獨立,如果,則表示特征ti能更容易地區分不同類別的樣本。對于不均衡的數據集,首先根據卡方統計量可以看出一些特征含有較多的區分信息,再根據其信息熵、信息增益以及對稱不確定性,對各個類別的權重加以調整,使得最終分類時提高其整體和小類別的召回率,對χ2統計矩陣進行加權得到矩陣K′:

2.3 特征選擇方法(CHI-SU方法)

基于卡方特征選擇方法首先根據公式(3)計算出的加權卡方矩陣(4)選擇與每個類相關性較高的k個特征,去掉重復的特征后再選擇,構成候選特征子集;再從已經構成的候選特征集中依次選擇特征,利用C4.5決策樹對數據集進行分類,同時記錄結果,根據分類結果確定最優特征子集。步驟如下:

步驟1.對于每個類cj,由(1)式計算出χ2(ti,cj);對于每個特征ti,由(2)式計算得到SU(ti,C);根據公式(3)計算 SUχ2(ti,cj) ,得到加權χ2矩陣K′,按照矩陣(4)的列即對于每個類cj的每個特征ti排序,選擇前l個加權χ2值大的特征。

步驟2.對于每個特征集合Tj,去除Tj中屬于T1,T2,…,Tj-1的特征,將集合中所有特征按照其SU值降序排列,保留前k個特征,過濾其余特征,得到q個特征集合Tj(j=1,2,…,q)。

步驟3.搜索最優特征子集,初始化特征集合T′為空集,對于每個特征集合Tj,從中選擇一個特征放入T′集合中。

步驟4.對數據集訓練集S、測試集D進行預處理,保留T′集合中的特征,得到處理后的訓練集S′和測試集D′,用C4.5決策樹分類器對S′進行訓練,并利用D′進行測試,記錄分類效果;

步驟5.重復步驟3,直到完全搜索整個特征空間,選擇分類效果最好的特征集合輸出。

3 實驗分析

3.1 實驗數據集

實驗數據集采用的為Moore數據集[3],該數據集共包含了10個數據集,分為了12個類型的網絡流量數據,每條數據均有249個流特征,其中最后一項為類別特征。但是由于GAMES、INTERACTIVE、DATABASE和MUTIMEDIA這四個類型的網絡流量數據并不是在每個子數據集中都存在,故對過濾掉四類數據集進行分類預測,過濾之后的樣本數及比例如表1所示。

表1 Moore數據集詳細信息

3.2 實驗工具與實驗流程

實驗使用的主要實驗工具為Matlab R2012b和Weka 3.8,實驗平臺運行Windows 8操作系統,CPU為Iterl Core i5-4200 1.6GHz,內存大小為4.00GB。

實驗的算法流程圖如圖1所示。

圖1 實驗的基本流程圖

表2 三種方法所選的特征符號及物理意義

孫興斌等人在文獻[6]中提出了FFS方法即基于統計頻率的網絡流量特征選擇方法,在文獻[7]中提出了FSMID方法即面向多類不均衡網絡流量的特征選擇方法,這兩種方法都是討論網絡流量數據不均衡性,且使用的實驗數據集均為Moore數據集,評價指標使用的均為準確率以及召回率,故將CHI-SU方法和FFS方法、FSMID方法進行對比分析,利用三種方法所選擇的流量特征的序號[11]如表2所示。

3.3 評價指標

傳統的分類器評價標準是分類的精確率,可增加召回率這一指標來共同衡量所選特征集合的優劣。其中精確率和召回率可由二分類混合矩陣得出,二分類混合矩陣如表3所示。

表3 二分類混合矩陣

根據表3定義正類的Precision(精確率)和Recal(l召回率):

3.4 實驗結果

由表1可以看到,ATTACK類別的網絡流量數據占比為0.442%,數量相對較少,但是其在識別網絡攻擊時的重要性卻遠超于其他類別。故對網絡流量進行分類時,會對大類別如WWW類別的網絡流量數據更有利,而小類別的數據極易被誤分。

利用三種不同的方法得到的特征對少數類ATTACK類型的流量數據分類后的精確率如表4所示。

表5是通過三種不同的方法得到的特征對少數類ATTACK類型的流量數據分類后的召回率,可以得到在精確率都在90%以上的情況下,CHI-SU方法明顯也提高了小類ATTACK的召回率。

表4 三種方法在每個數據集中ATTACK類的精確率

表5 三種方法在每個數據集中ATTACK類的召回率

4 結語

對網絡流量進行分類時,數據不均衡問題時常出現,故對網絡流量數據不均衡問題的研究是一項熱門的問題,提出的基于卡方方法及對稱不確定性的網絡流量特征選擇方法對比于其他方法,準確率并沒有明顯的提高,但是在小類別召回率有明顯提高。如何簡單迅速地選擇出合適的特征集合,在保證整體分類準確率以及各類別準確率的同時,大幅度地提高其召回率及其他的一些指標,是未來研究的一個方向。

猜你喜歡
分類特征方法
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲人成色77777在线观看| 久久亚洲黄色视频| 91福利国产成人精品导航| 久久国产精品麻豆系列| 情侣午夜国产在线一区无码| 片在线无码观看| 国产产在线精品亚洲aavv| 亚洲无码免费黄色网址| 亚洲色欲色欲www网| 午夜老司机永久免费看片| 国产成人精品在线1区| 制服无码网站| 超清无码熟妇人妻AV在线绿巨人| 尤物精品国产福利网站| 激情综合图区| 国产免费精彩视频| 麻豆国产原创视频在线播放| 亚洲 日韩 激情 无码 中出| 成人免费一区二区三区| 女人18毛片久久| 亚洲床戏一区| 草逼视频国产| 亚洲最新网址| 97se亚洲综合在线| 中文成人无码国产亚洲| 国产成人精品一区二区秒拍1o| 色网站免费在线观看| 久久人人97超碰人人澡爱香蕉| 中文字幕亚洲精品2页| 国产成人精品在线| 国产精品无码AV中文| 九九热精品视频在线| 国产乱人视频免费观看| 蜜桃视频一区二区三区| 永久在线精品免费视频观看| 综合色天天| 99热最新在线| 国产精品亚洲五月天高清| 情侣午夜国产在线一区无码| 狠狠色综合久久狠狠色综合| 日韩小视频在线观看| 亚洲国产清纯| 亚洲天堂在线免费| 青草娱乐极品免费视频| 国产人人干| 国产69精品久久久久孕妇大杂乱| 国产色伊人| 国产成人精品在线1区| 亚洲午夜片| 亚洲一区二区三区在线视频| 亚洲成网站| 亚洲另类第一页| 欧美性爱精品一区二区三区| 国产高潮视频在线观看| 无码一区二区三区视频在线播放| 久一在线视频| 久久香蕉国产线| 婷婷丁香色| 国产精女同一区二区三区久| 青青青国产精品国产精品美女| 国产sm重味一区二区三区| 麻豆国产在线观看一区二区 | 尤物在线观看乱码| 国产女人喷水视频| 一区二区欧美日韩高清免费 | 人妻精品全国免费视频| 天堂亚洲网| 欧美中文一区| 久久久无码人妻精品无码| 亚洲乱码视频| 亚洲日韩第九十九页| 精品一区二区久久久久网站| 国产精品久线在线观看| 91麻豆精品国产91久久久久| 日韩性网站| 久草热视频在线| 日韩小视频网站hq| 国产欧美专区在线观看| 亚洲日本中文综合在线| 亚洲欧美成aⅴ人在线观看| 漂亮人妻被中出中文字幕久久| 亚洲欧洲日韩国产综合在线二区|