999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ELM-KNN算法的網(wǎng)絡(luò)入侵檢測(cè)模型

2018-08-17 03:15:34顧兆軍
關(guān)鍵詞:分類特征檢測(cè)

顧兆軍,李 冰+,劉 濤

(1.中國(guó)民航大學(xué) 信息安全測(cè)評(píng)中心,天津 300300; 2.中國(guó)民航大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300)

0 引 言

BP神經(jīng)網(wǎng)絡(luò)作為傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的一種,憑借較強(qiáng)的非線性擬合能力、可映射任意復(fù)雜的非線性關(guān)系等特性,在入侵檢測(cè)領(lǐng)域得到很好的應(yīng)用,但BP神經(jīng)網(wǎng)絡(luò)存在訓(xùn)練時(shí)間長(zhǎng)、易陷入局部極小等問(wèn)題[1-5]。基于統(tǒng)計(jì)學(xué)習(xí)理論的支持向量機(jī)(support vector machine,SVM),相對(duì)于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)泛化能力得到很大提高,且對(duì)于小樣本網(wǎng)絡(luò)入侵檢測(cè)問(wèn)題具有較高的檢測(cè)率,但SVM需人為指定核函數(shù)及參數(shù),并且處理大規(guī)模樣本存在效率低等問(wèn)題[6-8]。極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)是由Huang等[9,10]提出的新型單隱層前饋神經(jīng)網(wǎng)絡(luò)(single-hidden layer feed forward networks,SLFNs)。它克服了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度慢,易陷入局部最小等缺點(diǎn),無(wú)需迭代調(diào)整參數(shù),具有更好的泛化能力和更快的訓(xùn)練速度,但存在過(guò)擬合現(xiàn)象。K最近鄰算法(K-nearest neighbor,KNN)采用投票機(jī)制,有效避免了過(guò)擬合現(xiàn)象。AK Alshamiri等[11]提出了用于聚類的新型極限學(xué)習(xí)機(jī)K均值算法,實(shí)驗(yàn)結(jié)果表明ELM與K均值算法的集成,提高了聚類質(zhì)量。隨后,盧誠(chéng)波等[12]提出了基于ELM特征映射的K最近鄰算法,并通過(guò)實(shí)驗(yàn)驗(yàn)證了該算法在分類領(lǐng)域的優(yōu)良性。

本文將ELM特征映射的KNN算法應(yīng)用于入侵檢測(cè)模型,通過(guò)仿真實(shí)驗(yàn),驗(yàn)證了模型的有效性。

1 ELM-KNN算法

1.1 KNN算法

假設(shè)樣本集樣本有n個(gè)屬性,每個(gè)樣本用n維空間中的一點(diǎn)表示,通過(guò)判別與待分類樣本最接近或最相似的K個(gè)已知類別標(biāo)簽的樣本類別,確定該樣本的類別。K個(gè)相鄰樣本是通過(guò)距離來(lái)判斷,比如:兩個(gè)點(diǎn)或者元組X1=(x11,x12,…x1n)和X2=(x21,x22,…x2n)的歐幾里得距離為

(1)

KNN算法的基本步驟如下:

(1)計(jì)算未知樣本和每個(gè)訓(xùn)練樣本之間的距離dist。

(2)將得到的未知樣本和訓(xùn)練樣本之間的距離進(jìn)行排序,根據(jù)距離找出最接近未知樣本的K個(gè)最近鄰樣本。

(3)統(tǒng)計(jì)K個(gè)最近鄰樣本中每種類別出現(xiàn)的次數(shù)。

(4)選擇出現(xiàn)頻率最多的類別作為未知樣本的類別。

KNN算法達(dá)到良好分類效果的前提,要求樣本之間的距離呈現(xiàn)橢圓形或者超球形,如果樣本集的分離邊界是非線性的,分類效果可能不佳,因此,為了達(dá)到良好的分類效果,可以將低維輸入空間中復(fù)雜線性不可分的樣本投影到高維特征空間,在高維特征空間中對(duì)樣本進(jìn)行分類。在使用SVM進(jìn)行特征映射時(shí),存在容易產(chǎn)生次優(yōu)解以及計(jì)算量過(guò)大等缺點(diǎn)[13]。極限學(xué)習(xí)機(jī)與SVM相比有自己獨(dú)特的優(yōu)點(diǎn),具有更高的泛化性和更好的可擴(kuò)展性。

1.2 極限學(xué)習(xí)機(jī)

與傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)相比,極限學(xué)習(xí)機(jī)訓(xùn)練過(guò)程中隨機(jī)生成隱含層權(quán)重以及偏差,無(wú)需調(diào)整參數(shù),并且其隱含層和輸出層的權(quán)重通過(guò)最小二乘法計(jì)算得到,因此極限學(xué)習(xí)機(jī)訓(xùn)練速度以及泛化能力均好于傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)。極限學(xué)習(xí)機(jī)學(xué)習(xí)模型如下:給定N個(gè)訓(xùn)練樣本集{(xi,ti)|xi∈Rd,ti∈Rm,i=1,…N},具有L個(gè)隱層神經(jīng)元且激活函數(shù)為g(x)的SLFNs的輸出為

(2)

其中,ω=[ωi1,…,ωid]T、β=[βi1,…,βim]T分別是ELM算法執(zhí)行過(guò)程中隨機(jī)生成的權(quán)重向量,ω是隱含層神經(jīng)元和輸入神經(jīng)元的輸入權(quán)重,β是連接隱含層神經(jīng)元和輸出神經(jīng)元的權(quán)重,bi是隨機(jī)生成的第i個(gè)隱含層神經(jīng)元的偏差。ωi·xi為ωi和xi的內(nèi)積。本文通過(guò)實(shí)驗(yàn),選擇Sigmoid函數(shù)作為激活函數(shù),設(shè)變量為t,則該函數(shù)為

(3)

要使得具有L個(gè)隱層神經(jīng)元且激活函數(shù)為g(x)=(ωi·xi+bi)的SLFNs零誤差逼近N個(gè)樣本,需使式(4)成立

(4)

即存在βi、ωi、bi使式(5)成立

(5)

式(6)可表達(dá)為

Hβ=T

(6)

其中

H=

(7)

(8)

(9)

其中,H表示隱含層輸出矩陣。

綜上所述,給定N個(gè)訓(xùn)練樣本,具有L個(gè)隱層神經(jīng)元,激活函數(shù)為g(x)的單隱層前饋神經(jīng)網(wǎng)絡(luò)算法的基本步驟如下:

(1)隨機(jī)生成輸入權(quán)重向量ωi和隱層神經(jīng)元的偏置bi,i=1,…,L。

(2)計(jì)算隱層輸出矩陣H。

(3)計(jì)算輸出權(quán)值β

β=H+T

(10)

式中:T=[t1,…,tN],H+是隱層輸出矩陣H的Moore-Penrose廣義逆。

2 基于ELM-KNN的入侵檢測(cè)模型

鑒于ELM單隱層前饋神經(jīng)網(wǎng)絡(luò)以及KNN算法的各種優(yōu)良性能,將其引入到入侵檢測(cè)模型中。極限學(xué)習(xí)機(jī)訓(xùn)練過(guò)程中隨機(jī)生成隱含層參數(shù)以及利用最小二乘法計(jì)算輸出權(quán)重,使得學(xué)習(xí)速度得到了很大的提高,克服了梯度下降算法的一些缺點(diǎn)。但激活函數(shù)的選擇、隱含層節(jié)點(diǎn)數(shù)的分配等問(wèn)題,可能使ELM訓(xùn)練過(guò)程中產(chǎn)生非優(yōu)化節(jié)點(diǎn),影響ELM的泛化的能力。因此相比于傳統(tǒng)的參數(shù)調(diào)整型神經(jīng)網(wǎng)絡(luò),ELM算法要更加合理的選擇激活函數(shù)以及隱含層節(jié)點(diǎn)數(shù)目。本文將KDD Cup99數(shù)據(jù)集分為測(cè)試集和訓(xùn)練集,將訓(xùn)練樣本放入模型中進(jìn)行訓(xùn)練,最后再對(duì)測(cè)試樣本進(jìn)行測(cè)試,判斷屬于哪類攻擊。

假設(shè)樣本集為:X={(xi)|xi∈Rd,i=1,…,N},樣本集通過(guò)ELM單隱層前饋神經(jīng)網(wǎng)絡(luò)的映射函數(shù)φ將x向量映射到L(L>>d)維特征空間F中

φ:Rd→F

(11)

ELM的典型結(jié)構(gòu)如圖1所示。

圖1 ELM典型結(jié)構(gòu)

對(duì)映射到高維特征空間中的向量執(zhí)行KNN分類算法。將ELM-KNN算法用于入侵檢測(cè)中的流程如圖2所示。

圖2 ELM-KNN算法的入侵檢測(cè)流程

ELM-KNN算法具體步驟總結(jié)如下:

給定樣本集X={(xi)|xi∈Rd,i=1,…,N},單隱層前饋神經(jīng)網(wǎng)絡(luò)的激活函數(shù)為g(x),隱含層節(jié)點(diǎn)數(shù)為L(zhǎng)。

(1)隨機(jī)生成隱含層權(quán)重ωi以及偏差bi。

(2)通過(guò)實(shí)驗(yàn)選擇合適的激勵(lì)函數(shù)。常用的激勵(lì)函數(shù)有Hardlim函數(shù)、Sigmoid函數(shù)、Sine函數(shù)等。

(3)通過(guò)實(shí)驗(yàn)選擇最佳的隱含層節(jié)點(diǎn)個(gè)數(shù)。ELM算法可以在一個(gè)較大的隱含層節(jié)點(diǎn)范圍內(nèi)取得同樣小的驗(yàn)證誤差,但是隱含層節(jié)點(diǎn)數(shù)超過(guò)一定的數(shù)量會(huì)影響訓(xùn)練時(shí)間和測(cè)試時(shí)間,甚至導(dǎo)致模型過(guò)擬合[9]。因此,為了得到一個(gè)準(zhǔn)確的模型結(jié)構(gòu),本文通過(guò)實(shí)驗(yàn)對(duì)比,選擇合適的隱含層節(jié)點(diǎn)個(gè)數(shù)。

(4)實(shí)驗(yàn)選擇KNN算法中的近鄰數(shù)。KNN算法中參數(shù)K的選擇直接影響到分類結(jié)果的好壞。

(5)利用ELM將樣本數(shù)據(jù)xi映射為

G(xi)=g(ωi,bi,x)

(12)

(6)對(duì)映射到高維特征空間中的向量執(zhí)行KNN分類算法。

(7)若G(xi)屬于第j類,則原始樣本屬于第j類。

3 實(shí)驗(yàn)研究

3.1 實(shí)驗(yàn)數(shù)據(jù)及實(shí)驗(yàn)環(huán)境

為了測(cè)試基于ELM-KNN算法的入侵檢測(cè)模型的性能,在Intel(R) Core(TM) i7-3770 3.40 GHZ CPU、4 G內(nèi)存,Windows 7操作系統(tǒng),Matlab R2013a軟件環(huán)境中,采用KDD Cup99數(shù)據(jù)集[14]實(shí)現(xiàn)仿真實(shí)驗(yàn)。該數(shù)據(jù)集分為四大攻擊類型:Probe(端口掃描與探測(cè))、Dos(拒絕服務(wù)攻擊)、R2L(遠(yuǎn)程機(jī)器的非法訪問(wèn))和U2R(對(duì)本地超級(jí)用戶的非法訪問(wèn)),Normal表示正常訪問(wèn)。原始數(shù)據(jù)數(shù)據(jù)量龐大,并且每條記錄包括41個(gè)特征屬性(具體見(jiàn)表1),因此選擇其中一部分作為實(shí)驗(yàn)數(shù)據(jù)[15]。訓(xùn)練集和測(cè)試集的樣本見(jiàn)表2。

3.2 實(shí)驗(yàn)結(jié)果與分析

3.2.1 冗余特征的篩選

對(duì)特征屬性較多的樣本采用KNN算法分類時(shí),可能會(huì)因特征屬性過(guò)多,造成計(jì)算量變大,影響分類效果。樣本中是否存在冗余特征也是影響入侵檢測(cè)效率和正確率的重要因素之一。KDD Cup99數(shù)據(jù)集的41個(gè)特征中,有些特征對(duì)分類效果沒(méi)有太大的影響,反而只會(huì)降低入侵檢測(cè)的分類效率,甚至導(dǎo)致分類結(jié)果出現(xiàn)偏差。因此,為了提高入侵檢測(cè)的效率和正確率,對(duì)KDD Cup99數(shù)據(jù)集的樣本特征屬性進(jìn)行篩檢。圖3為K=5時(shí),樣本集不同數(shù)量屬性特征的入侵檢測(cè)正確率。

由圖3可得,KDD Cup99的樣本存在冗余屬性。特征屬性個(gè)數(shù)從2增加到10時(shí),檢測(cè)率呈現(xiàn)快速增長(zhǎng)趨勢(shì);當(dāng)特征屬性為10的時(shí)候,模型已經(jīng)具有較高的檢測(cè)率;特征屬性個(gè)數(shù)從10增加到25時(shí),檢測(cè)率趨于穩(wěn)定;當(dāng)特征屬性個(gè)數(shù)大于25時(shí),檢測(cè)率呈現(xiàn)出不穩(wěn)定的趨勢(shì)。據(jù)此本文仿真實(shí)驗(yàn)采用13個(gè)特征屬性,以提高入侵檢測(cè)的正確率。

表1 KDD Cup99的特征

表2 數(shù)據(jù)描述

圖3 不同特征子集的入侵檢測(cè)正確率

3.2.2 KNN算法的K值的選擇

近鄰數(shù)K的取值問(wèn)題,直接影響到KNN算法分類效果的好壞。關(guān)于K值的選擇,K的值從1開(kāi)始逐漸增加,觀察K值的變化對(duì)入侵檢測(cè)正確率的影響,結(jié)果如圖4所示。

由圖4可知,當(dāng)K值從1增加到3時(shí),入侵檢測(cè)正確率大幅度增加,當(dāng)K值從3增加到5時(shí),入侵檢測(cè)正確率增加幅度減緩,當(dāng)K值等于5時(shí),達(dá)到最大的入侵檢測(cè)正確率,當(dāng)K值大于5時(shí),入侵檢測(cè)正確率逐漸降低,據(jù)此,本文實(shí)驗(yàn)近鄰數(shù)K的取值為5。

圖4 不同K值下的入侵檢測(cè)正確率

3.2.3 ELM隱含層節(jié)點(diǎn)個(gè)數(shù)和激勵(lì)函數(shù)的選擇

由極限學(xué)習(xí)機(jī)的工作原理可知,隱含層節(jié)點(diǎn)個(gè)數(shù)和激勵(lì)函數(shù)的選擇對(duì)ELM泛化性能以及分類精度影響較大。圖5給出了3種不同激勵(lì)函數(shù)(Sigmoid函數(shù)、Sine函數(shù)、Hardlim函數(shù))在隱含層節(jié)點(diǎn)個(gè)數(shù)的影響下,入侵檢測(cè)正確率的變化。由圖5可以得出,Sigmoid函數(shù)、Sine函數(shù)、Hardlim函數(shù)無(wú)論在數(shù)值上還是變化趨勢(shì)上都有很好的一致性,且3條曲線在隱層節(jié)點(diǎn)個(gè)數(shù)為500的時(shí)候,入侵檢測(cè)正確率達(dá)到最高。由圖可見(jiàn),Sigmoid函數(shù)在隱含層節(jié)點(diǎn)個(gè)數(shù)達(dá)到500的時(shí)候,入侵檢測(cè)正確率最高,基本上穩(wěn)定在95.33%。因此,為了得到一個(gè)更加適合的模型結(jié)構(gòu),本文隱含層節(jié)點(diǎn)個(gè)數(shù)選取500,激勵(lì)函數(shù)選取Sigmoid函數(shù)。

圖5 不同激勵(lì)函數(shù)在隱層節(jié)點(diǎn)個(gè)數(shù)變化下的入侵檢測(cè)正確率

3.2.4 結(jié)果與分析

為了使基于ELM-KNN算法的入侵檢測(cè)模型的檢測(cè)結(jié)果有對(duì)比性,采用未進(jìn)行高維映射的KNN的檢測(cè)模型、BP神經(jīng)網(wǎng)絡(luò)、Kernel-KNN的檢測(cè)模型以及只使用ELM算法分類的檢測(cè)模型作為對(duì)比模型。

將訓(xùn)練樣本分別輸入到BP、KNN、ELM、Kernel-KNN模型中進(jìn)行學(xué)習(xí),本文通過(guò)對(duì)比正確率、誤報(bào)率、漏報(bào)率3個(gè)指標(biāo)來(lái)評(píng)價(jià)模型

(13)

(14)

(15)

通過(guò)對(duì)表3~表5進(jìn)行分析,可以得到如下結(jié)論:

(1)相對(duì)于Kernel-KNN、BP、KNN、ELM,ELM-KNN的網(wǎng)絡(luò)入侵檢測(cè)正確率較高,有效降低了誤報(bào)率、漏報(bào)率。相對(duì)于ELM算法,平均檢測(cè)正確率大約提高了5.45%,提高的幅度最大。

(2)ELM-KNN算法較BP神經(jīng)網(wǎng)絡(luò)的入侵檢測(cè)正確率高,是由于BP神經(jīng)網(wǎng)絡(luò)存在易陷入局部極小等缺點(diǎn);ELM-KNN算法相比于KNN算法入侵檢測(cè)正確率較高,主要是因?yàn)镋LM-KNN算法將低維空間復(fù)雜線性不可分的樣本數(shù)據(jù)投影到高維特征空間中,使得樣本變得線性可分,從而提高了網(wǎng)絡(luò)入侵檢測(cè)的正確率;ELM-KNN算法相比于Kernel-KNN算法,具有更好的泛化性能和分類能力,能更加逼近目標(biāo)函數(shù);ELM-KNN算法的網(wǎng)絡(luò)入侵檢測(cè)率完全優(yōu)于ELM算法的檢測(cè)率,是因?yàn)镋LM算法采用最小二乘法計(jì)算,會(huì)出現(xiàn)過(guò)擬合現(xiàn)象,而KNN算法采用的是投票機(jī)制,不會(huì)出現(xiàn)過(guò)擬合現(xiàn)象。

表3 不同模型的檢測(cè)正確率對(duì)比/%

4 結(jié)束語(yǔ)

針對(duì)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)算法存在易陷入局部最小、人工參與調(diào)節(jié)參數(shù)過(guò)多、泛化能力差等缺點(diǎn),本文提出了基于ELM-KNN算法的網(wǎng)絡(luò)入侵檢測(cè)模型,建立入侵檢測(cè)分類器。ELM算法具有泛化能力強(qiáng)、學(xué)習(xí)速度快等優(yōu)點(diǎn),但易出現(xiàn)過(guò)擬合現(xiàn)象,采用投票機(jī)制的KNN算法能有效避免過(guò)擬合現(xiàn)象,思路簡(jiǎn)單,易于實(shí)現(xiàn)。結(jié)果表明,相比于與BP神經(jīng)網(wǎng)絡(luò)、KNN算法、ELM算法以及Kernel-KNN算法,ELM-KNN算法在入侵檢測(cè)中具有更高的準(zhǔn)確率。

表4 不同模型的誤報(bào)率對(duì)比/%

表5 不同模型的漏報(bào)率對(duì)比/%

猜你喜歡
分類特征檢測(cè)
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
分類算一算
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
主站蜘蛛池模板: 色播五月婷婷| av手机版在线播放| 国产精品手机视频一区二区| 亚洲69视频| 国产午夜一级淫片| 久久黄色一级片| 亚洲男女天堂| 九九热这里只有国产精品| 国产精品黄色片| 精品人妻无码中字系列| 日本www色视频| 亚洲自偷自拍另类小说| 福利在线不卡| 666精品国产精品亚洲| 中文字幕无码av专区久久| 欧美第九页| 亚洲午夜福利精品无码| 国产精品lululu在线观看| 手机成人午夜在线视频| 国产黑丝视频在线观看| 国产99视频免费精品是看6| 爱色欧美亚洲综合图区| 人人爽人人爽人人片| 51国产偷自视频区视频手机观看| 99久久精品国产综合婷婷| 久久激情影院| 一级毛片免费观看久| 精品无码国产一区二区三区AV| 欧美成人免费一区在线播放| 香蕉伊思人视频| 亚洲国产成人在线| 午夜国产小视频| 四虎成人在线视频| 青青青视频蜜桃一区二区| 国产精品福利尤物youwu| 一级毛片基地| 天天视频在线91频| 国产91成人| 在线播放91| 色综合色国产热无码一| 高清乱码精品福利在线视频| 麻豆精品在线播放| 国产高清在线观看91精品| 国产亚洲视频免费播放| 日韩天堂在线观看| 国产高清免费午夜在线视频| 亚洲国产精品一区二区高清无码久久| 成年A级毛片| 国产人人射| 国产精品免费露脸视频| 日韩成人在线一区二区| 日韩免费毛片| 久久精品视频亚洲| 五月婷婷激情四射| 国产青青草视频| 日韩高清一区 | 无码精品福利一区二区三区| 免费看一级毛片波多结衣| 日本a级免费| 亚洲一级毛片在线播放| 国产尹人香蕉综合在线电影 | 欧美区在线播放| 性视频一区| 午夜性爽视频男人的天堂| 欧美激情福利| 国产成人精品高清不卡在线| 91成人在线免费视频| 91人妻在线视频| 亚洲国产午夜精华无码福利| 五月综合色婷婷| 2024av在线无码中文最新| 波多野衣结在线精品二区| 日韩国产精品无码一区二区三区 | 欧美激情网址| 欧美一级在线看| 伊人色综合久久天天| 色偷偷综合网| 极品av一区二区| 一级全免费视频播放| 亚洲欧美日韩中文字幕在线| 久久综合AV免费观看| 免费 国产 无码久久久|