999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于KNN離群點檢測和隨機森林的多層入侵檢測方法

2019-03-22 03:46:24任家東劉新倩何海濤趙小林
計算機研究與發(fā)展 2019年3期
關(guān)鍵詞:檢測方法模型

任家東 劉新倩 王 倩 何海濤 趙小林

1(燕山大學信息科學與工程學院 河北秦皇島 066001)2(河北省軟件工程重點實驗室(燕山大學) 河北秦皇島 066001)3(北京理工大學軟件學院 北京 100081)4 (軟件安全工程技術(shù)北京市重點實驗室(北京理工大學) 北京 100081) (jdren@ysu.edu.cn)

隨著計算機和網(wǎng)絡(luò)服務(wù)的不斷發(fā)展,計算機和網(wǎng)絡(luò)的安全已經(jīng)成為一個重要的問題.網(wǎng)絡(luò)中異常行為的檢測已經(jīng)成為網(wǎng)絡(luò)安全領(lǐng)域重要的研究內(nèi)容.入侵檢測系統(tǒng)用來檢測和分析網(wǎng)絡(luò)數(shù)據(jù),標識異常的網(wǎng)絡(luò)行為.通常來講,入侵檢測系統(tǒng)主要分為2類:基于誤用的入侵檢測系統(tǒng)和基于異常的入侵檢測系統(tǒng)[1].基于誤用的入侵檢測系統(tǒng)可以有效地檢測出已知的攻擊類型,例如Snort入侵檢測系統(tǒng)[2].這種類型的入侵檢測系統(tǒng)誤報率較低,但是不能很好地識別網(wǎng)絡(luò)中新的攻擊類型.基于異常的入侵檢測系統(tǒng)能夠根據(jù)正常的網(wǎng)絡(luò)行為建立檢測模型,識別出正常行為的偏差值,從而識別網(wǎng)絡(luò)異常行為[3].這種類型的入侵檢測系統(tǒng)能夠檢測出新的或未知的攻擊類型,但又有較高的誤報率.

為了降低基于異常的入侵檢測系統(tǒng)的誤報率,許多數(shù)據(jù)挖掘和機器學習方法,例如支持向量機(support vector machine, SVM)和神經(jīng)網(wǎng)絡(luò),被應(yīng)用到入侵檢測系統(tǒng)中.目前的許多研究將特征選擇或特征提取的方法與一些機器學習的方法相結(jié)合,來提高入侵檢測系統(tǒng)的準確性,同時降低算法的運行時間.Raman等人[4]提出將超圖、遺傳算法和支持向量機相結(jié)合來實現(xiàn)入侵檢測系統(tǒng).超圖和遺傳算法用于實現(xiàn)支持向量機模型的參數(shù)估計和特征選擇,支持向量機用來對特征選擇后網(wǎng)絡(luò)數(shù)據(jù)進行異常檢測,證明了特征選擇方法和支持向量機結(jié)合可以提高數(shù)據(jù)識別的準確率.Khammassi等人[5]采用遺傳算法和邏輯回歸算法進行特征選擇,選取最優(yōu)的特征子集.通過不同的決策樹算法證明本方法選取的特征子集對于入侵檢測是有效的.Aljawarneh等人[6]采用信息增益來選取重要特征,并提出一種混合投票模型,結(jié)合J48,Meta Paging,Random Tree等方法來識別異常數(shù)據(jù),該方法能夠提高檢測的準確性,降低誤報率.George[7]選擇支持向量機和主成分分析來執(zhí)行網(wǎng)絡(luò)數(shù)據(jù)的異常檢測,與貝葉斯分類算法和信息增益降維方法的分類效果進行比較,并證明主成分分析和信息增益降維方法都能改善貝葉斯分類算法的效果,但會降低支持向量機的分類效果[8].

除了上述方法外,一些方法還側(cè)重于研究數(shù)據(jù)集中數(shù)據(jù)項的選取,通過采用聚類方法或抽樣方法來選取部分有代表性的訓練數(shù)據(jù).該訓練數(shù)據(jù)與機器學習算法相結(jié)合,可以顯著降低分類器的訓練時間并提高分類的準確率.程曉旭等人[9]采用改進的K-means算法得到全局的最優(yōu)的聚類劃分,降低了異常檢測的時間復雜度.Alyaseen等人[10-12]將改進的K-means方法與機器學習方法相結(jié)合來構(gòu)建入侵檢測模型.改進的K-means方法能發(fā)現(xiàn)數(shù)據(jù)之間相似的結(jié)構(gòu)或模型,從而能夠降低數(shù)據(jù)集的長度,得到一個高質(zhì)量的數(shù)據(jù)集.將改進的K-means與C4.5結(jié)合來構(gòu)造入侵檢測模型的分類器,大大降低了入侵檢測系統(tǒng)的運行時間[10];與支持向量機算法相結(jié)合有效的提高了異常數(shù)據(jù)類型DoS(denial of service),R2L(remote to local),U2R(user to root)的檢測率[11];與支持向量機和極限學習機(extreme learning machine, ELM)的混合模型相結(jié)合來提高入侵檢測系統(tǒng)的準確性和效率[12].Roshan等人[13]提出一種自適應(yīng)的入侵檢測系統(tǒng)結(jié)合聚類和極限學習機模型,該方法能夠以較小的代價檢測出已知的和新型的攻擊.Enamul等人[14]采用抽樣技術(shù)與最小二乘支持向量機(least square support vector machine, LS-SVM)的混合模型,抽樣技術(shù)選擇最有代表性的訓練數(shù)據(jù)集,最小二乘支持向量機對網(wǎng)絡(luò)數(shù)據(jù)進行分類,標識異常數(shù)據(jù)類型.

盡管對于網(wǎng)絡(luò)異常行為檢測的研究很多,但仍然存在著某些異常行為(例如Probe(probing),U2R,R2L)的檢測率較低以及各類別檢測不均衡的問題.本文主要針對這一問題,提出一個新的混合模型,結(jié)合KNN(Knearest neighbors)離群點檢測算法和多層隨機森林算法來建立入侵檢測模型.采用KNN離群點檢測算法獲取一個小規(guī)模、高質(zhì)量的訓練數(shù)據(jù)集.在此訓練數(shù)據(jù)集上,結(jié)合類別檢測劃分方法,構(gòu)建多層次的隨機森林模型,檢測網(wǎng)絡(luò)異常行為.基準數(shù)據(jù)集KDD(knowledge discovery and data mining) Cup 1999用來評估本文算法的正確性和檢測性能,并在不同大小的測試數(shù)據(jù)集上驗證本文算法的擴展性.

Fig. 1 The entire flow of the proposed method圖1 本文算法的整體流程圖

1 基于KNN離群點檢測和隨機森林的多層入侵檢測方法

本節(jié)描述提出的方法結(jié)合數(shù)據(jù)選取和多層隨機森林算法來進行入侵檢測.該方法主要包括4個階段:1)對訓練數(shù)據(jù)集和測試數(shù)據(jù)集進行預處理;2)數(shù)據(jù)選取階段,得到一個新的規(guī)模小、質(zhì)量高的訓練數(shù)據(jù)集;3)采用新的訓練數(shù)據(jù)集訓練多層的隨機森林分類器;4)測試校準測試數(shù)據(jù)集.最終得到測試數(shù)據(jù)集中正常行為和異常行為的檢測結(jié)果.本文算法的整體流程如圖1所示:

在基準數(shù)據(jù)集KDD Cup 1999中,10%的訓練數(shù)據(jù)集具有數(shù)據(jù)量大和數(shù)據(jù)類別不平衡的問題,該數(shù)據(jù)集被完全用于分類器時,存在許多引人注意的問題.首先是訓練器的訓練時間會非常長,可能會因為內(nèi)存溢出而導致訓練失敗.其次,因為數(shù)據(jù)之間的不平衡,導致訓練器在分類性能上更偏向于數(shù)量較多的類別,使得類別Probe,U2R,R2L的分類準確性偏低.因此本文對訓練數(shù)據(jù)集進行數(shù)據(jù)抽取,從而降低數(shù)據(jù)集的大小,并得到新的高質(zhì)量的訓練數(shù)據(jù)集.

1.1 基于KNN離群點檢測的數(shù)據(jù)選擇方法

該部分采用KNN離群點檢測算法對數(shù)據(jù)進行選擇.KNN離群點檢測算法是一種基于距離的離群點檢測算法,最早由Knorr等人在1998年提出.該方法是在KNN的基礎(chǔ)上發(fā)展而來的,是一種比較簡單且易于應(yīng)用的離群點檢測算法.KNN離群點檢測算法的基本思想是通過計算數(shù)據(jù)集D中每個數(shù)據(jù)與數(shù)據(jù)集D中其他數(shù)據(jù)的K近鄰平均距離,并對每個點的K近鄰平均距離進行降序排序,距離最大的前N個點被認為是離群點.在本文中,離群點被認為是分布稀疏且離高密度的群體較遠的點.在數(shù)據(jù)選擇時,刪除數(shù)據(jù)集D中的N個離群點,得到新的數(shù)據(jù)集D′,新數(shù)據(jù)集的大小為M=|L-N|,L為原數(shù)據(jù)集D的大小.

在采用KNN離群點檢測算法進行數(shù)據(jù)選擇之前,先將訓練數(shù)據(jù)集分為5類:Normal,Probe,DoS,U2R,R2L,在每一類數(shù)據(jù)集上執(zhí)行KNN離群點檢測算法,得到一個新的規(guī)模小、質(zhì)量高的訓練數(shù)據(jù)集,該數(shù)據(jù)集可以有效地改善多層隨機森林分類器的訓練時間和性能.在網(wǎng)絡(luò)流量中,由于攻擊行為U2R和R2L的樣本數(shù)量的所占比例非常少,在分類效果上處于劣勢,因此U2R和R2L類型不執(zhí)行離群點刪除操作.在Normal,Probe,DoS這3個類別上執(zhí)行離群點檢測算法,每個類別的離群點檢測算法設(shè)置不同的參數(shù)M和K.在本文中通過多次實驗獲得每個類別中最優(yōu)的參數(shù)M和K,從而得到最優(yōu)的網(wǎng)絡(luò)異常行為的檢測率.算法1展示了根據(jù)KNN離群點檢測算法選取新的訓練數(shù)據(jù)集的詳細步驟.

算法1. 基于KNN離群點檢測的數(shù)據(jù)選擇算法.

輸入:10%的訓練數(shù)據(jù)集TD、參數(shù)KNormal,MNormal,KProbe,MProbe,KDoS,MDoS;

①DNormal,DProbe,DDoS=?;*存儲不同類別的數(shù)據(jù)集合*

② for eachdinTD

③ if (d.label==1) thenDNormal.add(d);

④ else if (d.label==2) thenDProbe.add(d);

⑤ else (d.label==3) thenDDos.add(d);

⑥ end if

⑦ end for

produceKOD(D,K,M)

①L=D.length;*數(shù)據(jù)集D的大小*

②Avg[L],Index=?;*Avg中存儲每條數(shù)據(jù)的K近鄰平均距離,Index中存儲前M個數(shù)據(jù)的索引值*

③d[L]=?;*存儲數(shù)據(jù)之間的歐氏距離*

④ for (i=0;i

⑤ for (j=0;j

對一個人而言,對國家的認同關(guān)系到個人的心靈歸宿與肉體歸宿,個人在認同國家的同時也享受著這個身份帶來的歸屬感與安全感,因此無論對于任何人而言,國家層面的身份認同與心理認同對于個人生存、成長都是十分重要的,也是個體社會政治化的重要內(nèi)容。

⑥ 計算數(shù)據(jù)D(i)和D(j)之間的歐氏距離d[j];

⑦ end for

⑧ 對d進行升序排序;

⑨ 計算d中的前K個數(shù)據(jù)的平均值A(chǔ)vg[i];

⑩ end for

1.2 多層隨機森林模型

隨機森林(random forests, RF)最早是由Leo[15]作為一個分類算法提出的,廣泛應(yīng)用于入侵檢測和計算生物學等方面.該算法的優(yōu)勢在于:該算法是一種集成學習方法,對于任何類型的數(shù)據(jù)集,隨機森林算法的分類效果和聚類效果要優(yōu)于大多數(shù)算法,并且能夠有效處理高維度的數(shù)據(jù)集.該算法對于參數(shù)的設(shè)置并不敏感,可以很容易地找到一個合適的隨機森林模型.隨機森林算法是一個組合分類器,以決策樹為基礎(chǔ)分類器.該模型的基本思想是:一個森林包含多個決策樹,每棵決策樹是由有放回的隨機抽樣樣本構(gòu)造的,也就是說在總的訓練集中的有些樣本可能多次出現(xiàn)在1棵樹的訓練集中,也可能從未出現(xiàn)在1棵樹的訓練集中,并使每棵決策樹進行充分生長,不進行任何剪枝,最終的輸出結(jié)果就是所有決策樹進行多數(shù)投票的結(jié)果.

本文提出以隨機森林模型作為基礎(chǔ)分類器來構(gòu)建多層的異常檢測分類器.為了更有效地檢測異常行為,提出一種新的類別檢測劃分方法,該方法與多個的隨機森林分類器相結(jié)合來構(gòu)建多層的異常檢測分類器.新的劃分方法和多層隨機模型結(jié)構(gòu)如圖2所示.該模型包含4個隨機森林分類器,第1個分類器(RF1)將數(shù)據(jù)分為2組:Group1和Group2,Group1包括DoS和Probe,Group2包括Normal,U2R,R2L;第2個分類器(RF2)區(qū)分DoS和Probe;第3個分類器(RF3)檢測R2L;第4個分類器(RF4)是檢測U2R和Normal.根據(jù)經(jīng)驗將隨機森林模型中樹的數(shù)量設(shè)置為150.

Fig. 2 Multi-level random forests model圖2 多層隨機森林模型

根據(jù)網(wǎng)絡(luò)流量的相似性,本文提出一種新的類別檢測劃分方法.該劃分方法首先將網(wǎng)絡(luò)數(shù)據(jù)劃分為2組.對于第1組來說,DoS和Probe在流量特征上更相似,同時與其他的類別有更少的相似性,因此將這2個類別的數(shù)據(jù)分為1組.對于第2組來說,當發(fā)生U2R和R2L攻擊時,此時的流量特征與正常的連接區(qū)別很小,Normal,U2R,R2L在流量特征上更相似[16],因此將這3種類別分為1組.這種劃分盡可能避免了異常行為在檢測時的相互干擾,尤其是異常行為Probe,U2R,R2L的檢測.在網(wǎng)絡(luò)數(shù)據(jù)中,攻擊類型的數(shù)目要遠小于正常連接的數(shù)目,其中Probe,U2R,R2L類別的數(shù)據(jù)所占的比例非常小,這就使得異常行為檢測算法需要在檢測率與誤報率之間尋找一個平衡,盡可能多得檢測出攻擊行為,同時避免將正常行為誤檢為攻擊行為.DoS屬于大流量的攻擊行為,檢測相對更容易一些.U2R和R2L屬于明顯的小流量攻擊,并且造成的危害更大,其中U2R被認為是網(wǎng)絡(luò)中最危險的行為[17].Probe是對網(wǎng)絡(luò)的掃描和檢測,被認為是多種嚴重攻擊的前提行為.因此對Probe,U2R,R2L的檢測是至關(guān)重要的.與其他算法相比,本文提出的劃分方法和多層的隨機森林模型能有效地檢測出Probe,U2R,R2L,并在所有類別的檢測間取得一個平衡,因此,本文提出的劃分法和檢測模型是合理和有效的.

2 實驗結(jié)果

本節(jié)評估本文提出的算法的性能,所有的實驗均在Windows 7 PC,Inter?Pentium?CPU G2020 @2.90 GHz,4.00 GB RAM環(huán)境中實現(xiàn).采用MATLAB 7.8.0實現(xiàn)本文的算法.

2.1 訓練集與測試集

KDD Cup 1999數(shù)據(jù)集是入侵檢測領(lǐng)域的基準數(shù)據(jù)集,被廣泛用于入侵檢測系統(tǒng)的研究中.該數(shù)據(jù)集一共包括41個屬性和1個類別標簽(正常或其他的攻擊類型),其中7個屬性(屬性2,3,4,7,12,14,22)是離散屬性,其他屬性是連續(xù)屬性.在離散屬性中屬性2,3,4是符號屬性,其他是數(shù)值屬性.這41個屬性可以分為4類:TCP連接基本特征、TCP連接內(nèi)容特征、基于時間的網(wǎng)絡(luò)流量統(tǒng)計特征和基于主機的網(wǎng)絡(luò)流量統(tǒng)計特征,如表1所示.數(shù)據(jù)集中異常數(shù)據(jù)類型分為4類:DoS,Probe,U2R,R2L.KDD Cup 1999數(shù)據(jù)集提供了訓練和測試數(shù)據(jù)集.10% KDD訓練數(shù)據(jù)集包括22種攻擊類型,測試數(shù)據(jù)集中還包括額外的17種攻擊類型.KDD Cup 1999訓練數(shù)據(jù)集和測試數(shù)據(jù)集的詳細信息如表2所示.

Table 1 Attributes of KDD Cup 1999 Dataset表1 KDD Cup 1999數(shù)據(jù)集的屬性

Table 2 Details of Training Dataset and Testing Dataset in KDD Cup 1999表2 KDD Cup 1999訓練數(shù)據(jù)集和測試數(shù)據(jù)集中不同類別數(shù)據(jù)的詳細信息

Continued (Table 2)

10%的訓練數(shù)據(jù)集和校準測試數(shù)據(jù)集在應(yīng)用到入侵檢測方法之前,首先需要進行數(shù)據(jù)預處理.數(shù)據(jù)預處理過程共包括5個步驟:1)由于訓練數(shù)據(jù)集中包含重復的數(shù)據(jù),首先對訓練數(shù)據(jù)集進行去重處理,將訓練數(shù)據(jù)集由494 021條數(shù)據(jù)降低為145 586條數(shù)據(jù).2)由于訓練數(shù)據(jù)集中屬性列num_outbound_cmds,is_hot_login的所有數(shù)值均為0,對數(shù)據(jù)的分類沒有任何影響,因此將訓練數(shù)據(jù)集和測試數(shù)據(jù)集中的屬性列num_outbound_cmds,is_hot_login刪除.3)將訓練集和測試集中的符號屬性protocol_type,service,flag轉(zhuǎn)化為數(shù)值屬性.以屬性protocol_type為例,該屬性共包括3種:TCP,UDP,ICMP,將這3種類別用數(shù)值表示,即1表示TCP,2表示UDP以及3表示ICMP.4)將類別標簽轉(zhuǎn)化為數(shù)值表示,其中1表示Normal類別,2表示Probe類別,3表示DoS類別,4表示U2R類別以及5表示R2L類別.5)將訓練數(shù)據(jù)集和測試數(shù)據(jù)集進行[0,1]標準化處理.采用min-max標準化方法對訓練集和測試集進行標準化[12]:

(1)

2.2 實驗評估指標

入侵檢測系統(tǒng)中存在許多可利用的評估指標.其中準確性Acc(accuracy)、檢測率DR(detection rate)和誤報率FAR(false alarm rate)是入侵檢測系統(tǒng)中主要的評估指標[4].

(2)

(3)

(4)

其中,TP(true positive)是指將異常樣本正確分類為異常樣本的數(shù)量,TN(true negative)是指將正常樣本正確分類為正常樣本的數(shù)量,F(xiàn)P(false positive)是指將正常樣本錯誤分類為異常樣本的數(shù)量,F(xiàn)N(false negative)是指將異常樣本錯誤分類為正常樣本的數(shù)量.

2.3 實驗分析

第1個實驗用來評估KNN離群點算法檢測的性能.KNN離群點檢測算法的目標是用來提高多層隨機模型分類器的性能.該實驗通過比較KNN離群點檢測算法和多層隨機森林算法構(gòu)成的混合模型與單一的多層隨機森林模型的檢測效果,來說明KNN離群點檢測算法能改善分類器的性能.為了這一目的,首先選取KNN的離群點檢測算法中最優(yōu)的參數(shù)K和M.參數(shù)的選取分為3個部分,Probe類別的參數(shù)、DoS類別的參數(shù)和Normal類別的參數(shù).首先選取Probe類別的參數(shù),將KProbe分為5個層次10,20,30,40,50,在每個層次下選擇不同的MProbe來進行實驗,實驗結(jié)果顯示在表3中.當KProbe值一定,MProbe增加時,Probe的檢測率DRProbe不斷上升.當MProbe一定,KProbe增加時,Probe的檢測率有稍微的增加.根據(jù)表3分析,當MProbe=2 000時,檢測率是最高的,在KProbe=40和50,Probe類別的檢測率相同.隨著KProbe不斷增大,Probe的檢測率基本上保持不變.因此Probe的參數(shù)設(shè)置為KProbe=40,MProbe=2 000.

Table 3 Detection Rate of Probe in Different Parameters表3 Probe在不同的參數(shù)下的檢測率

Fig. 3 The performance comparison between the hybrid model and the single model圖3 混合模型和單一模型的性能比較

采用與Probe參數(shù)選擇類似的方法,通過多次實驗,選擇DoS和Normal類別的參數(shù).對于DoS類別來說,DoS類別的數(shù)據(jù)量將會影響RF2分類器檢測DoS的檢測率,因此由DoS的檢測率DRDoS來決定KDoS和MDoS的選取.KDoS從5,10,20,30共4個層次進行分析,MDoS從10 000,15 000,20 000共3個層次進行分析,實驗結(jié)果顯示在KDoS=10,MDoS=15 000時DoS的檢測率最高.為了得到更好的MDoS的取值,將MDoS從10 000~15 000進行細粒度的劃分.根據(jù)實驗結(jié)果分析,將DoS的參數(shù)設(shè)置為KDoS=10,MDoS=11 000.對于Normal類別來說,Normal類別的數(shù)據(jù)量影響Normal和R2L的檢測率,因此根據(jù)Normal和R2L的檢測率來決定KNormal和MNormal的選取.在實驗中將KNormal的取值設(shè)置為50,100,150,200,250,300共6個層次,MNormal依次設(shè)置為2 000,3 000,4 000,5 000,6 000,7 000,8 000,9 000共8個層次進行分析,實驗結(jié)果顯示:隨著KNormal的增大,Normal類別的檢測率DRNormal先增大后減小;隨著MNormal的增大,Normal的檢測率不斷增大,但變化的幅度并不大.但隨著MNormal和KNormal的不斷增加,R2L的識別準確率逐漸降低.為使得Normal和R2L都有較高的檢測率,本文選取MNormal=6 000,KNormal=150.

通過上述實驗分析,在Normal,Probe,DoS這3個類別下,KNN離群點檢測算法的參數(shù)M和K設(shè)置如表4所示.應(yīng)用KNN離群點檢測算法之前和之后不同類別的數(shù)據(jù)集的數(shù)量如表5所示.

Table 4 Parameters of KNN Outlier Detection Algorithm表4 KNN離群點檢測算法的參數(shù)設(shè)置

Table 5 Size of Dataset Before and After Applying KNN

新的小規(guī)模、高質(zhì)量的數(shù)據(jù)集用于訓練多層的隨機森林分類器.圖3展示了混合的KNN離群點檢測算法和多層隨機森林的模型(混合模型)與單一的多層隨機森林模型(單一模型)的檢測性能,混合模型在準確率和檢測率上要優(yōu)于單一模型,并有一個可以接受的誤報率.對異常類型Probe,U2R,R2L的檢測效果明顯優(yōu)于單一模型,DoS的檢測效果略高于單一模型,Normal類型的檢測率略微低于單一的模型,但仍然是很好的識別結(jié)果.該實驗說明KNN離群點檢測算法可以有效的提高多層隨機森林模型的準確率和檢測率,并能提高DoS,Probe,U2R,R2L異常類型的檢測率.

為了說明多層隨機森林算法的性能要優(yōu)于其他分類算法這一問題,本文將混合的多層極限學習機算法(混合ELM模型)與混合的多層隨機森林算法(混合RF模型)進行對比,圖4說明了多層隨機森林算法的準確率、檢測率以及對各個數(shù)據(jù)類的檢測率都要優(yōu)于多層極限學習機模型,同時該模型具有較低的誤報率.

為了說明本文算法的擴展性,將本文提出的算法在不同大小的測試集上進行測試,檢測其準確率、檢測率、誤報率以及不同類別的檢測率是否隨著數(shù)據(jù)集的變化保持穩(wěn)定.從校準測試數(shù)據(jù)集中隨機無放回抽取數(shù)據(jù),構(gòu)成3個不同大小的測試數(shù)據(jù)集(25%校準數(shù)據(jù)集,50%校準數(shù)據(jù)集和100%校準數(shù)據(jù)集),如表6所示.圖5展示了不同測試集的檢測效果,隨著測試集的增大,本文提出的算法在準確率、檢測率和誤報率上均能保持穩(wěn)定.對于不同類別的檢測率,除了DoS的檢測率下降了大約3%,其他類別的檢測率均保持穩(wěn)定或略微提高.說明本文提出的算法能適應(yīng)不同大小的測試數(shù)據(jù)集,有很好的擴展性.

Table 6 Different Size of Three Testing Dataset 表6 3個不同的測試數(shù)據(jù)集的數(shù)據(jù)量

Fig. 4 The performance comparison between the hybrid RF model and the hybrid ELM model圖4 混合的隨機森林模型和極限學習機模型的性能比較

Fig. 5 The detection performance of different testing dataset圖5 不同測試集的檢測性能

入侵檢測方法在網(wǎng)絡(luò)異常檢測時要求做到網(wǎng)絡(luò)異常行為的實時性檢測.為了說明多層隨機森林算法檢測的檢測效率,將多層隨機森林算法與單一隨機森林算法的檢測時間在多個不同規(guī)模的測試集上進行對比,如圖6所示.本文提出的多層隨機森林算法比單一隨機森林算法的運行時間要稍微高一點,但在不同規(guī)模的數(shù)據(jù)集上,運行時間僅差1 s左右.在整個測試數(shù)據(jù)集上,檢測時間不到8 s,因此本文提出的方法可以高效地檢測網(wǎng)絡(luò)入侵行為,滿足入侵檢測中實時性的要求.

為了更好地驗證本文提出的算法,在整個校準數(shù)據(jù)集上將本文算法與其他4種算法相比較,表7展示了比較的結(jié)果.表7說明本文提出的算法具有較高的準確率和檢測率,同時有一個可以接受的誤報率.在Probe,U2R,R2L的檢測上要明顯優(yōu)于其他算法,Normal,DoS的檢測率略微低于其他算法.傳統(tǒng)的極限學習機算法和隨機森林算法能更好的識別出正常的行為,對于異常行為,尤其是Probe,U2R,R2L的檢測率均比較低.Genetic算法有較高的誤報率,這是因為正常的行為被大量誤判為異常的行為.Multiclass SVM同樣對于Probe,U2R,R2L的檢測率較低.本文算法的優(yōu)勢在于有較高的準確率和檢測率,能很好的檢測出Probe,U2R,R2L,同時在每個類別的檢測率之間取得一個平衡.

Fig. 6 The running time comparison between multi-level RF and the single-level RF圖6 多層和單層隨機森林運行時間比較

Table 7 Performance Comparison Between the Proposed Method and Other Algorithms表7 本文算法和其他算法的性能比較

Note: The font of bold type indicates the best detection result achieved by the proposed or comparied methods.

3 總 結(jié)

在大量的網(wǎng)絡(luò)數(shù)據(jù)中,為了更有效地檢測網(wǎng)絡(luò)異常行為,本文提出一種新的混合的入侵檢測方法,該方法結(jié)合KNN離群點檢測算法和多層次的隨機森林模型來檢測異常的網(wǎng)絡(luò)行為.采用KNN離群點檢測算法來檢測并刪除訓練數(shù)據(jù)集中的離群數(shù)據(jù),得到一個小規(guī)模、高質(zhì)量的訓練數(shù)據(jù)集,該數(shù)據(jù)集可以有效地改善分類器的訓練時間和檢測性能.根據(jù)網(wǎng)絡(luò)流量的相似性,提出一種新的類別檢測劃分方法,該方法能對不同的類別進行有效的辨別.結(jié)合這種劃分方法,提出的多層隨機森林模型能有效的檢測異常行為.基準數(shù)據(jù)集KDD Cup 1999用來評估本文算法的性能.不同大小的測試數(shù)據(jù)集用來評估本文算法,說明該算法具有良好的擴展性.與其他算法相比,本文的算法準確率要明顯優(yōu)于其他算法.該算法的主要貢獻在于對Probe,U2R,R2L這3個異常類別的檢測,其檢測率要遠遠優(yōu)于其他算法,并在不同類別的檢測率之間取得一個平衡.

猜你喜歡
檢測方法模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應(yīng)用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 亚洲精品午夜天堂网页| 狠狠做深爱婷婷综合一区| 在线观看视频一区二区| 久久综合亚洲色一区二区三区| 免费人欧美成又黄又爽的视频| 亚洲天堂高清| 在线观看91香蕉国产免费| 免费在线一区| 国产一级小视频| 久久99精品久久久久纯品| 日韩av无码精品专区| 欧美三级日韩三级| 91精品亚洲| 国内精品自在自线视频香蕉| 亚洲女同一区二区| 91在线视频福利| 中文字幕免费视频| 波多野结衣一区二区三区四区| 午夜综合网| 日韩黄色精品| 一级毛片不卡片免费观看| 国产成人AV大片大片在线播放 | 四虎国产精品永久一区| 久久综合结合久久狠狠狠97色 | 正在播放久久| 伊在人亚洲香蕉精品播放| 国产色图在线观看| 免费看a级毛片| 成人精品亚洲| 亚洲成av人无码综合在线观看| 中文字幕乱码中文乱码51精品| 97超碰精品成人国产| 青青热久免费精品视频6| 久久99热这里只有精品免费看| 亚洲αv毛片| 婷婷色在线视频| 国模视频一区二区| 欧美成在线视频| 欧美亚洲网| 国产产在线精品亚洲aavv| 97视频免费看| 9啪在线视频| 国产一级视频在线观看网站| 久久精品亚洲中文字幕乱码| 国产微拍一区二区三区四区| 亚洲无码高清视频在线观看| 2024av在线无码中文最新| 国产成人凹凸视频在线| 亚洲aaa视频| 成人第一页| 天堂av高清一区二区三区| 亚洲性色永久网址| 午夜人性色福利无码视频在线观看| 伊人色综合久久天天| 99九九成人免费视频精品| 人人澡人人爽欧美一区| 免费国产黄线在线观看| 亚洲一级色| 亚洲一区国色天香| 国产爽歪歪免费视频在线观看| 精品五夜婷香蕉国产线看观看| 国产免费高清无需播放器| 凹凸国产熟女精品视频| 亚洲第一视频网站| 中日无码在线观看| 凹凸精品免费精品视频| 中文字幕日韩欧美| 91色爱欧美精品www| 99精品国产自在现线观看| 99视频有精品视频免费观看| 老司机久久精品视频| 国产h视频在线观看视频| 亚洲欧洲天堂色AV| 久久久波多野结衣av一区二区| 国产91视频观看| 日韩精品无码不卡无码| 亚洲天堂视频在线观看| 国产精品免费久久久久影院无码| 国产日韩欧美视频| 中文字幕免费播放| 国产精品3p视频| 99re66精品视频在线观看|