999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于優(yōu)化數(shù)據(jù)處理的深度信念網(wǎng)絡(luò)模型的入侵檢測方法

2017-09-03 10:23:54萬廣雪肖振久
計算機應(yīng)用 2017年6期
關(guān)鍵詞:數(shù)據(jù)處理檢測模型

陳 虹,萬廣雪,肖振久

(遼寧工程技術(shù)大學(xué) 軟件學(xué)院,遼寧 葫蘆島 125105)

基于優(yōu)化數(shù)據(jù)處理的深度信念網(wǎng)絡(luò)模型的入侵檢測方法

陳 虹,萬廣雪*,肖振久

(遼寧工程技術(shù)大學(xué) 軟件學(xué)院,遼寧 葫蘆島 125105)

(*通信作者電子郵箱avril_snow@foxmail.com)

針對目前網(wǎng)絡(luò)中存在的對已知攻擊類型的入侵檢測具有較高的檢測率,但對新出現(xiàn)的攻擊類型難以識別的缺陷問題,提出了一種基于優(yōu)化數(shù)據(jù)處理的深度信念網(wǎng)絡(luò)(DBN)模型的入侵檢測方法。該方法在不破壞已學(xué)習(xí)過的知識和不嚴重影響檢測實時性的基礎(chǔ)上,分別對數(shù)據(jù)處理和方法模型進行改進,以解決上述問題。首先,將經(jīng)過概率質(zhì)量函數(shù)(PMF)編碼和MaxMin歸一化處理的數(shù)據(jù)應(yīng)用于DBN模型中;然后,通過固定其他參數(shù)不變而變化一種參數(shù)和交叉驗證的方式選擇相對最優(yōu)的DBN結(jié)構(gòu)對未知攻擊類型進行檢測;最后,在NSL-KDD數(shù)據(jù)集上進行了驗證。實驗結(jié)果表明,數(shù)據(jù)的優(yōu)化處理能夠使DBN模型提高分類精度,基于DBN的入侵檢測方法具有良好的自適應(yīng)性,對未知樣本具有較高的識別能力。在檢測實時性上,所提方法與支持向量機(SVM)算法和反向傳播(BP)網(wǎng)絡(luò)算法相當(dāng)。

入侵檢測;優(yōu)化數(shù)據(jù)處理;深度學(xué)習(xí);深度信念網(wǎng)絡(luò);未知攻擊檢測

0 引言

近年來,國內(nèi)外網(wǎng)絡(luò)安全事件層出不窮,僅在2015年度發(fā)生的信息泄漏事件就不勝枚舉,越來越多的企業(yè)和用戶成為網(wǎng)絡(luò)攻擊的受害者,因此,如何保護隱私信息,使其免受或少受來自互聯(lián)網(wǎng)惡意用戶的攻擊,已經(jīng)成為當(dāng)今網(wǎng)絡(luò)技術(shù)人員和業(yè)界密切關(guān)注的問題。

入侵檢測系統(tǒng)是信息安全綜合防御系統(tǒng)的重要組成部分,其核心技術(shù)是通過分析網(wǎng)絡(luò)節(jié)點采集的流量數(shù)據(jù)來發(fā)現(xiàn)違反安全策略的入侵行為,在發(fā)現(xiàn)可疑通信時發(fā)出警報或者采取主動反應(yīng)措施,是一種積極主動的安全防護技術(shù)。

入侵檢測技術(shù)一般分為基于標志和基于異常兩類[1],傳統(tǒng)檢測方式都是以離線數(shù)據(jù)庫的方式實現(xiàn)的,通過和本地樣本庫的已知攻擊樣本進行模式匹配來實現(xiàn)網(wǎng)絡(luò)上的攻擊檢測。顯而易見,這種方式的缺陷是只能檢測出樣本庫中已經(jīng)存在的類型攻擊,檢測過程中自適應(yīng)能力差,無法保證能夠應(yīng)對當(dāng)今日益擴大的網(wǎng)絡(luò)規(guī)模和層出不窮的攻擊手段。針對上述問題,則需要設(shè)計更加智能化方法來構(gòu)造自適應(yīng)的、對未知攻擊類型識別率高的、快速的入侵檢測模型。

在已經(jīng)成功應(yīng)用于入侵檢測領(lǐng)域的方法中,神經(jīng)網(wǎng)絡(luò)(Neural Network, NN)算法具有自適應(yīng)、自學(xué)習(xí)、較好的容錯性,以及能夠進行大規(guī)模并行計算和非線性映射等優(yōu)點,非常適用于變化多端的網(wǎng)絡(luò)入侵檢測數(shù)據(jù),在一定程度上克服了上述缺陷[2-5]。文獻[5]提出了將增量式生長型分層自組織映射(Growing Hierarchical Self-Organizing Map, GHSOM)神經(jīng)網(wǎng)絡(luò)模型用于對未知攻擊類型進行檢測,取得了較高檢測率;但在遇到不同類型的未知攻擊時,新增子網(wǎng)數(shù)不確定,模型存在著不穩(wěn)定的缺陷。正是由于不同類型網(wǎng)絡(luò)攻擊產(chǎn)生的數(shù)據(jù)分布規(guī)律往往難以知道,因此,其他非參數(shù)化方法也廣泛地被應(yīng)用到入侵數(shù)據(jù)的分類中,包括數(shù)據(jù)挖掘[6-7]、支持向量機(Support Vector Machine, SVM)[8]和聚類方法[9]等。

2006年,文獻[10]提出了利用無監(jiān)督的、分層訓(xùn)練的深度信念網(wǎng)絡(luò)(Deep Belief Network, DBN)實現(xiàn)對數(shù)據(jù)特征提取和分類,為圖像分類、語音識別等諸多疑難問題帶來了突破性進展[11-12]。深度學(xué)習(xí)是對NN的進一步發(fā)展,對輸入的數(shù)據(jù)進行多層特征提取,得到更適合分類的特征集,使機器能更好地學(xué)習(xí)數(shù)據(jù)之間規(guī)律,從而提高對新樣本的預(yù)測或分類的準確性。近年來,一些研究人員將DBN應(yīng)用于入侵檢測領(lǐng)域,逯玉婧[13]提出采用基于DBN模型和隨機森林(Random Forest, RF)結(jié)合的方式進行入侵檢測;Atom等[14]將DBN模型僅用于特征提取,而采用SVM算法對提取后的特征進行分類。但在前期數(shù)據(jù)處理上,上述研究都是在將41維原始數(shù)據(jù)映射為122維的基礎(chǔ)上,建立DBN模型進行特征提取和分類[15-17]。以上方法都是在選用的訓(xùn)練集和測試集存在相當(dāng)一部分重復(fù)數(shù)據(jù)的前提下,取得較高的檢測率,但沒有考慮到如何提高對未知攻擊類型檢測的問題;同時,由于在數(shù)據(jù)處理上大幅增加了原始數(shù)據(jù)維度而導(dǎo)致模型結(jié)構(gòu)復(fù)雜,采用DBN方法和其他算法相結(jié)合增加了算法的復(fù)雜性等原因,可能無法滿足檢測的實時性,且沒有充分利用DBN模型強大特征提取能力的優(yōu)點。

針對上述的數(shù)據(jù)處理對DBN模型復(fù)雜性和檢測結(jié)果的影響,以及對未知攻擊類型的檢測問題,本文提出了一種基于優(yōu)化數(shù)據(jù)處理的DBN模型的入侵檢測方法,在不增加原始數(shù)據(jù)維度的前提下,選擇對DBN模型而言最優(yōu)的數(shù)據(jù)處理方式和網(wǎng)絡(luò)結(jié)構(gòu),主要解決對未知類型攻擊的檢測問題,同時盡量不破壞已經(jīng)學(xué)習(xí)到的知識,不降低檢測實時性,并基于NSL-KDD數(shù)據(jù)集設(shè)計實驗進行驗證。

1 DBN模型

DBN作為一種深度模型在學(xué)術(shù)界受到了廣泛的關(guān)注,隨后被成功應(yīng)用到圖像識別、自然語言處理等領(lǐng)域。結(jié)構(gòu)上,DBN是由若干層無監(jiān)督的受限玻爾茲曼機(Restricted Boltzmann Machine, RBM)網(wǎng)絡(luò)和一層有監(jiān)督的反向傳播(Back Propagation, BP)網(wǎng)絡(luò)組成的一種深層神經(jīng)網(wǎng)絡(luò),以包含兩層RBM結(jié)構(gòu)的DBN模型為例,其結(jié)構(gòu)如圖1所示。

DBN的學(xué)習(xí)過程可分為預(yù)訓(xùn)練(pre-training)和微調(diào)(fine-tuning)兩個階段。預(yù)訓(xùn)練(pre-training)階段通過將低一層的RBM輸出作為高一層RBM的輸入,完成對RBM逐層無監(jiān)督訓(xùn)練的方式。微調(diào)(fine-tuning)階段將實際輸出與期望輸出的誤差進行反向傳播,采用有監(jiān)督的學(xué)習(xí)方式完成對頂層的BP網(wǎng)絡(luò)進行訓(xùn)練,從而達到對pre-training階段初始化的模型參數(shù)調(diào)優(yōu)的目的。因此,RBM 的pre-training過程可以認為是對一個深層 BP 網(wǎng)絡(luò)權(quán)值參數(shù)的初始化,這樣就使得DBN克服了 BP 網(wǎng)絡(luò)因隨機初始化權(quán)值參數(shù)而容易陷入局部最優(yōu)和訓(xùn)練時間長的缺點。

1.1 RBM模型

RBM是DBN的基本組成部件,在結(jié)構(gòu)上是具有兩層的淺層神經(jīng)網(wǎng)絡(luò):第一層稱為可見層(Visible Layer),也稱為輸入層;第二層是隱含層(Hidden Layer),或稱為特征提取層。RBM結(jié)構(gòu)如圖2所示,其中:v和h分別代表隱含層和可見層;a和b為隱含層和可見層的偏置(bias);w表示兩層之間的連接權(quán)值。這種結(jié)構(gòu)的特點是層內(nèi)無連接,層與層之間全連接,因此RBM結(jié)構(gòu)是一個有向無環(huán)圖。

圖2 RBM結(jié)構(gòu)

在計算過程中,可見層與隱含層的變量取值存在著多樣性,為了方便描述,假設(shè)兩者均為二值變量{0,1}。設(shè)可見層與隱含層節(jié)點數(shù)目分別為m和n,vi和hj分別代表可見層第i個節(jié)點與隱含層第j個節(jié)點的狀態(tài)。而RBM是一種典型的基于能量的模型,RBM的能量函數(shù)可描述如下:

(1)

式中:θ=(wij,ai,bj)是RBM的參數(shù),wij表示可見層節(jié)點vi與隱含層節(jié)點hj之間的連接權(quán)值,ai和bj分別表示vi和hj節(jié)點所對應(yīng)的偏置。基于上述的能量函數(shù),(v,h)的聯(lián)合分布概率為:

P(v,h|θ)=e-E(v,h|θ)/Z(θ)

(2)

(3)

由于RBM模型結(jié)構(gòu)特征(層內(nèi)無連接),因此在給定可見層節(jié)點vi值(經(jīng)過處理的樣本數(shù)據(jù))時,得到的各個隱層節(jié)點hj之間狀態(tài)相互獨立。此時,hj的激活值為:

(4)

式中,σ(x)=1/(1+e-x)為sigmoid函數(shù),是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過程中典型的非線性激活函數(shù)。經(jīng)過式(4)計算出hj的激活值后,將其作為反向傳遞中的輸入值,來達到對可見層節(jié)點vi值的重構(gòu),從而得到原始的vi近似值:

(5)

由此可見,RBM在學(xué)習(xí)過程中采用反復(fù)迭代的方式,目標在于經(jīng)過學(xué)習(xí)得到最優(yōu)參數(shù)θ來盡可能地擬合樣本數(shù)據(jù)。假設(shè)在訓(xùn)練過程中,樣本數(shù)目為T,當(dāng)前的樣本為t,則參數(shù)θ通過求訓(xùn)練樣本的極大似然函數(shù)得到:

(6)

為了得到最優(yōu)θ值θ*,在RBM中釆用隨機梯度上升的方法求得l(θ)的最大值,在這里假設(shè)θ僅為一個具體參數(shù),就轉(zhuǎn)化為l(θ)的偏導(dǎo)函數(shù)的求解。

(7)

同理,可以展開對θ的每個分量進行求偏導(dǎo)數(shù),可分別得到w、a和b的最優(yōu)值。

基于對比散度(Contrastive Divergence, CD)算法[18],將訓(xùn)練數(shù)據(jù)作為RBM的可見層的輸入值,經(jīng)過式(4)的計算得到隱含層節(jié)點(隱含層節(jié)點數(shù)目需要根據(jù)需要事先設(shè)定)的激活狀態(tài)值,經(jīng)過式(5),再次計算得到可見層節(jié)點的重構(gòu)值(訓(xùn)練數(shù)據(jù)的近似值),從而得到訓(xùn)練數(shù)據(jù)的重構(gòu)誤差,經(jīng)過完整的CD算法后,得到參數(shù)的更新準則為:

(8)

式中:ε為訓(xùn)練過程中的學(xué)習(xí)率;〈·〉data為訓(xùn)練數(shù)據(jù)集所定義的分布上的數(shù)學(xué)期望;〈·〉recon為重構(gòu)后模型所定義的分布之上的期望。

1.2BP網(wǎng)絡(luò)

在DBN模型中,最上層的BP網(wǎng)絡(luò),是以一種有監(jiān)督的方式對多層RBM經(jīng)過pre-training提取的特征向量進行分類,在實際輸出值和期望輸出值不符時,承擔(dān)著對pre-training階段初始化的參數(shù)進行調(diào)優(yōu)的作用。

傳統(tǒng)的BP網(wǎng)絡(luò)是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練樣本的多層前饋網(wǎng)絡(luò),分為信息正向傳播和誤差反向傳播兩個階段。但DBN模型頂層的BP網(wǎng)絡(luò)的信息正向傳播階段被多層RBM的pre-training代替,直接由BP層得到對RBM的提取特征進行分類輸出結(jié)果。通過計算實際輸出值和期望輸出值間的誤差判斷兩者是否相符,如果誤差過大,進入BP網(wǎng)絡(luò)的誤差反向傳播階段。誤差通過DBN的BP輸出層,按誤差梯度下降的方式修正各層權(quán)值,向多層RBM層、輸入層逐層反傳。經(jīng)過反復(fù)的信息正向傳播和誤差反向傳播過程,是RBM各層權(quán)值不斷調(diào)整的過程,也是DBN模型學(xué)習(xí)樣本的過程,這個過程一直進行到BP層輸出值和期望輸出值的誤差減小到可以接受的程度,或者完成預(yù)先設(shè)定的迭代次數(shù)為止,以此完成對模型參數(shù)的調(diào)整。

對于上述反向傳播過程,需要計算每層的下降梯度δ,通過δ實現(xiàn)自頂向下的網(wǎng)絡(luò)權(quán)值修正。對于輸出層,如果第i個節(jié)點的實際輸出值為oi,而期望輸出值為di,δ的表達式為:

δi=oi(1-oi)(di-oi)

(9)

對于第l個隱含層,δ的計算表達式為:

(10)

由此,可以根據(jù)式(10)中的δ值對DBN的連接權(quán)值和偏置進行如下更新:

(11)

其中,εfine-tuning為fine-tuning階段的學(xué)習(xí)率,在模型的設(shè)計中,需要多次實驗確定最優(yōu)值。

與傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)相比,基于BP的DBN的權(quán)值微調(diào)算法克服了因隨機初始化權(quán)值參數(shù)而容易陷入局部最優(yōu)和訓(xùn)練時間過長的缺點,只需要對RBM的pre-training獲得的權(quán)值空間進行微調(diào),大大縮減了參數(shù)尋優(yōu)的收斂時間。

2 基于優(yōu)化數(shù)據(jù)處理的DBN入侵檢測

為了更好地理解本文提出的思想,首先將算法的流程和算法的優(yōu)勢描述如圖3所示。在本文的研究中,算法的兩個優(yōu)勢分別在數(shù)據(jù)處理階段和選用的DBN模型設(shè)計階段,如圖3虛線框中標注內(nèi)容。數(shù)據(jù)處理階段將不同類型的數(shù)據(jù)分開處理,并將經(jīng)過不同數(shù)據(jù)處理方法產(chǎn)生的數(shù)據(jù)集在后續(xù)的內(nèi)容中設(shè)置了仿真實驗對比,闡明了數(shù)據(jù)處理對于數(shù)據(jù)之間的規(guī)律和DBN模型分類結(jié)果的影響,最后確定一種能夠顯著提高基于DBN模型分類效果的數(shù)據(jù)處理方式;DBN模型設(shè)計階段主要完成的工作為經(jīng)過控制其他參數(shù)不變而改變一個參數(shù)的大量實驗交叉驗證和分析已有文獻,最終確定了一種最優(yōu)的DBN網(wǎng)絡(luò)結(jié)構(gòu),使得對未知攻擊類型的識別率最高。

圖3 本文算法流程和改進點

2.1 數(shù)據(jù)處理

適當(dāng)?shù)臄?shù)據(jù)處理能夠較好地描述數(shù)據(jù)之間的規(guī)律,是提高分類精度的第一步,由于實際問題產(chǎn)生的原始數(shù)據(jù)中數(shù)據(jù)類型不符合條件或數(shù)量級的差異等原因,往往不能直接用于訓(xùn)練,需要經(jīng)過處理后才能作為分類器的訓(xùn)練輸入數(shù)據(jù),而通過相關(guān)研究人員對入侵檢測的研究[19-20]發(fā)現(xiàn),數(shù)據(jù)分類器的分類結(jié)果好壞除了和方法的選擇有關(guān),還與數(shù)據(jù)的處理方式有關(guān),對于選定一種分類方法,適合的數(shù)據(jù)處理方式能夠給分類結(jié)果帶來可觀的提升,不當(dāng)?shù)臄?shù)據(jù)處理也能導(dǎo)致數(shù)據(jù)收斂慢甚至不收斂,從而降低數(shù)據(jù)的分類精度。

在選定的入侵檢測數(shù)據(jù)集中,本文將41維特征數(shù)據(jù)分為字符(nominal)類型和數(shù)值(numeric)類型,對其分別進行如下處理。

2.1.1Nominal類型PMF編碼

入侵檢測的輸入數(shù)據(jù)來源于網(wǎng)絡(luò)的信息流,每條數(shù)據(jù)中包含多個信息特征,這些特征除了基本的numeric類型,也包括nominal類型,這些數(shù)據(jù)和數(shù)據(jù)特征共同構(gòu)成了整個數(shù)據(jù)集用于訓(xùn)練分類器和檢測異常數(shù)據(jù)。但是在實際的檢測過程中,包括DBN模型等分類器輸入的訓(xùn)練數(shù)據(jù)只能是numeric類型,然而nominal類型的數(shù)據(jù)對于分類結(jié)果可能起到關(guān)鍵性作用,比如網(wǎng)絡(luò)數(shù)據(jù)包中的字段protocoltype和servicetype都是nominal類型,也是網(wǎng)絡(luò)數(shù)據(jù)包的分類的重要標準,不能輕易忽略,需要將其轉(zhuǎn)換為numeric類型。

對于有n個特征的數(shù)據(jù)集,將其映射為M個特征矢量,每個特征矢量表示為x=(x1,x2,…,xn)(n∈N),假設(shè)xj=(x1j,x2j,…,xMj)(j∈{1,2,…,n})表示每條數(shù)據(jù)的第j個特征為nominal類型,xj中包含K種nominal值分別為nom1j,nom2j,…,nomKj,將rkj∈N記為在xj中值nomkj出現(xiàn)的次數(shù),可得:

rkj=|{i∈N|xij=nomkj,i=1,2,…,M}|;k=1,2,…,K

(12)

根據(jù)式(12),nomkj在xj中出現(xiàn)的頻率值fkj可以表示為:

fkj=rkj/M;k=1,2,…,K

(13)

(14)

s.t. 0≤rkj/M≤1,k=1,2,…,K

對于數(shù)據(jù)集中的nominal類型數(shù)據(jù)xkj:一些研究人員的處理方式是對其進行數(shù)字編碼(Number)方法[21],根據(jù)字段可能取值的個數(shù)將對應(yīng)字段編碼為0,1,…,N,這種處理方式也能實現(xiàn)nominal類型向numeric類型的轉(zhuǎn)換,但還需要對轉(zhuǎn)換后的數(shù)據(jù)再次進行歸一化;而在文獻[13-17]中采用的是二進制編碼(Binary)方式,轉(zhuǎn)換后的數(shù)據(jù)雖然都處于[0,1],但是這種方式會嚴重增加原始數(shù)據(jù)的維度,從而導(dǎo)致需要多層復(fù)雜DBN的模型結(jié)構(gòu)來提取分類有效特征,也可能需要對處理后的數(shù)據(jù)再進行降維步驟。

針對上述問題,本文通過概率質(zhì)量函數(shù)(ProbabilityMassFunction,PMF)的計算方式將nominal類型的xkj轉(zhuǎn)化為numeric類型的xkj=fkj后,轉(zhuǎn)換后的數(shù)據(jù)維度沒有發(fā)生變化,且能夠保證所有的轉(zhuǎn)化后的值為[0,1],相當(dāng)于同時進行了類型轉(zhuǎn)化和數(shù)據(jù)歸一化兩個操作。

2.1.2numeric類型歸一化處理

在一個數(shù)據(jù)集中,各個特征數(shù)據(jù)往往不在同一數(shù)量級下,例如在入侵檢測標準數(shù)據(jù)集KDD中,“dst_bytes”字段的取值可能為14 421,“dst_host_rerror_rate”字段的取值為0.02,這就導(dǎo)致在學(xué)習(xí)數(shù)據(jù)規(guī)律的時候,降低了梯度下降求最優(yōu)解的速度,也有可能由于收斂速度慢甚至不能收斂導(dǎo)致影響分類精度,因此需要將數(shù)據(jù)歸一化處理為[0,1]的數(shù)據(jù)。

假設(shè)選定的數(shù)據(jù)集共包含N個樣本,可以將所有樣本的每個特征屬性列映射為x=(x1,x2,…,xN)T,如果xi是第i個樣本對應(yīng)的屬性值為numeric類型數(shù)據(jù),可以分別用MinimumMaximum歸一化、Statistical歸一化和Decimal歸一化這三種廣泛的歸一化方式,具體形式如下:

1)MinimumMaximum歸一化(本文簡稱Maxmin)。其計算式如下:

f1(xi)=(xi-min(x))/(max(x)-min(x))

其中:min(x)和max(x)分別為x可取值中的最小值和最大值。

2)Statistical歸一化。其計算式如下:

f2(xi)=(xi-μ)/σ

其中:μ的取值為所有x取值的平均值;σ為x的標準差。

3)Decimal歸一化。其計算式如下:

f3(xi)=xi/10e

其中:e的取值為能使x中的最大值經(jīng)過處理后處于[0,1]的最小值。

2.2 基于DBN的入侵檢測

采用DBN方法對未知攻擊類型進行檢測的方式主要是利用DBN模型包含多層RBM進行特征提取和CD學(xué)習(xí)方法的反向更新來反復(fù)優(yōu)化網(wǎng)絡(luò)權(quán)值,從而達到通過已知的訓(xùn)練樣本對未知檢測樣本的良好學(xué)習(xí)能力與適應(yīng)能力。

一般來說,入侵檢測數(shù)據(jù)維度相對較高,部分特征的存在不僅無法標識攻擊的類型,反而會因為其干擾降低分類的精度。為了得到更好的檢測結(jié)果,往往需要選用能夠合理標識類別特征的數(shù)據(jù),因此,進行特征提取的DBN模型一般會包括多層RBM結(jié)構(gòu),多層RBM的學(xué)習(xí)過程可通過圖4來描述。

圖4 多層RBM的學(xué)習(xí)過程

處理好的數(shù)據(jù)x作為DBN模型的第一個RBM的可見層輸入數(shù)據(jù)(一般來說第一個RBM可見層單元數(shù)一般等于訓(xùn)練數(shù)據(jù)的特征維數(shù)),采用CD算法對RBM進行逐層訓(xùn)練,前一層的RBM輸出值作為下一層的輸入值,直至多層RBM訓(xùn)練結(jié)束。CD算法逐層訓(xùn)練RBM模型步驟如下:

輸入 一個訓(xùn)練樣本x,隱含層單元個數(shù)n,學(xué)習(xí)率ε,最大訓(xùn)練周期T;

輸出 連接權(quán)重矩陣w,可見單元的偏置a,隱藏單元的偏置b。

End for

End for

End for

按照下式更新參數(shù):

a←a+ε(v1-v2)

b←b+ε(P(h1=1|v1)-P(h2=1|v2))

Endfor

對多層RBM訓(xùn)練結(jié)束后,頂層BP層通過反向傳播,根據(jù)重構(gòu)誤差對訓(xùn)練RBM得到的參數(shù)進行微調(diào),從而得到最優(yōu)θ=(wij,ai,bj)值。在這個過程中,由于在實際應(yīng)用的時候數(shù)據(jù)量往往較大,檢測需要滿足實時性,為了加快訓(xùn)練過程,一般采用批量訓(xùn)練的方式進行,即每次對訓(xùn)練數(shù)據(jù)隨機采樣固定的數(shù)量輸入到DBN中,每次采樣的數(shù)量對應(yīng)程序中設(shè)定的min-batch的值,每訓(xùn)練一個min-batch的數(shù)量,網(wǎng)絡(luò)權(quán)值更新一次,直至全部樣本訓(xùn)練完畢。

檢測過程中,測試樣本的數(shù)據(jù)維度與訓(xùn)練數(shù)據(jù)相同,在已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)結(jié)構(gòu)中輸入測試數(shù)據(jù)和對應(yīng)的屬性標簽,通過前向傳播計算得到對每條檢測數(shù)據(jù)的實際分類結(jié)果,然后將分類結(jié)果和輸入的屬性標簽進行比對,得到對測試樣本檢測的正確檢測率。

3 實驗與結(jié)果分析

3.1 實驗數(shù)據(jù)

在本文中,實驗采用的是NSL-KDD數(shù)據(jù)集[22],NSL-KDD是在KDD99數(shù)據(jù)集的基礎(chǔ)上去除了部分冗余數(shù)據(jù)的數(shù)據(jù)集,能更好地檢測出模型對未知數(shù)據(jù)的識別能力。

在數(shù)據(jù)集的每條數(shù)據(jù)中,共包括41個屬性特征和1個標識攻擊類別的屬性標簽。41個屬性中分為3個nominal類型和38個numeric類型數(shù)據(jù)。屬性標簽將數(shù)據(jù)分為4類攻擊(Anormal)類別和1類正常(Normal)數(shù)據(jù),4類攻擊數(shù)據(jù)又被劃分為39個詳細類別。將41中屬性分為nominal和numeric類型描述如表1所示,將4大類攻擊類型和1類正常數(shù)據(jù)描述如表2所示。

大多數(shù)研究人員的工作都是基于NSL-KDD數(shù)據(jù)集的KDDTrain+_20Percent訓(xùn)練子集和KDDTest-21測試子集完成的,經(jīng)過統(tǒng)計,在KDDTrain+_20Percent訓(xùn)練集中,Normal數(shù)據(jù)和拒絕服務(wù)攻擊(DenialofService,DoS)數(shù)據(jù)所占比例分別為53.39%和36.65%,在KDDTest-21中,Normal數(shù)據(jù)約占43.08%,而DoS類別約為33.08%,由此可見這兩個數(shù)據(jù)集之間存在大量重復(fù)數(shù)據(jù)且屬于嚴重不平衡數(shù)據(jù)集,在一定程度上不能完全反映出本文要解決的對未知樣本的識別問題,因此,根據(jù)NSL-KDD包括各類數(shù)據(jù)的數(shù)量,選用的訓(xùn)練數(shù)據(jù)集、測試數(shù)據(jù)集和驗證數(shù)據(jù)集如表3,其中驗證數(shù)據(jù)集是為了驗證所選模型對未知類型檢測效果較好的同時,是否破壞已學(xué)習(xí)到的知識。

表1 屬性特征

表2 攻擊類型

表3 數(shù)據(jù)集選擇

為設(shè)置對比實驗,采用上述的基于PMF編碼nominal類型數(shù)據(jù)和三種方式對numeric類型數(shù)據(jù)歸一化后,形成三個不同的數(shù)據(jù)集。另外,設(shè)置一個未經(jīng)處理的數(shù)據(jù)集及根據(jù)文獻[15]和文獻[21]中分別使用的數(shù)據(jù)處理方式,共組成6個數(shù)據(jù)集,通過實驗驗證的方式,尋求一種對于DBN模型而言檢測率最高的數(shù)據(jù)處理方式。用于評估數(shù)據(jù)處理對正確檢測率影響的數(shù)據(jù)集如表4所示。

表4 評估數(shù)據(jù)集

3.2 實驗環(huán)境與評價標準

在入侵檢測領(lǐng)域,對未知樣本的正確檢測率和檢測時間是評價檢測結(jié)果的重要指標,由此可以分辨將該方法應(yīng)用于入侵檢測領(lǐng)域是否可行和高效,此外,本文通過和應(yīng)用于入侵檢測領(lǐng)域的其他經(jīng)典算法相比較,通過對相同數(shù)據(jù)的訓(xùn)練和檢測的正確檢測率來驗證本文提出方法的穩(wěn)定性。具體的實驗環(huán)境和實驗結(jié)果的評價標準設(shè)置如下:

1)實驗環(huán)境。

Window7 操作系統(tǒng),MatlabR2014a,2.20GHzCPU,2.00GBRAM。

2)實驗評價標準。

定義:N為測試數(shù)據(jù)集包含的Normal數(shù)據(jù)量,A表示Anormal(包含各種攻擊類型)數(shù)據(jù)量,NF為Normal數(shù)據(jù)準確地被識別為Normal類型的數(shù)量,AF表示Anormal類型被準確識別出來的數(shù)量,T為檢測時間,則可以得出:

1)正確檢測率 =(NF+AF)/(N+A),表示被正確識別出來的樣本占總樣本的比例,檢測率越高,則選用的模型越高效。

2)檢測時間T,表示檢測測試樣本過程中消耗的時間,時間越短,證明模型可用性和實時性越好。

3.3 結(jié)果分析

本節(jié)內(nèi)容主要包括如下兩個方面:一是DBN模型結(jié)構(gòu)和參數(shù)選取對正確檢測率和實時性的影響;二是分析不同數(shù)據(jù)處理下的檢測結(jié)果,找到基于DBN模型的入侵檢測的最優(yōu)化數(shù)據(jù)處理方式。

3.3.1DBN模型結(jié)構(gòu)和參數(shù)選取。

以經(jīng)過處理的Train-PMF-Maxmin和Test-PMF-Maxmin數(shù)據(jù)集為例,共有41個數(shù)據(jù)特征,輸出的分類數(shù)據(jù)共分為1類Normal數(shù)據(jù)和4類Anormal數(shù)據(jù),因此DBN輸入數(shù)據(jù)為41維,輸出的維數(shù)為5。由于目前DBN結(jié)構(gòu)的確定還沒有確切的理論支撐,需要通過相關(guān)文獻和大量的實驗驗證來確定相對較優(yōu)的結(jié)構(gòu)模型。為了易于觀察檢測結(jié)果隨DBN網(wǎng)絡(luò)結(jié)構(gòu)變化的情況,將DBN結(jié)構(gòu)的隱層數(shù)限制在5層以內(nèi)(包含5層),將各隱層節(jié)點數(shù)目分別在{10,20,40,60,80}中選取且各隱層節(jié)點數(shù)目相同,根據(jù)文獻[23-24]和反復(fù)實驗的交叉驗證[25-26]方式,將DBN模型其他參數(shù)設(shè)置如下:pre-training和fine-tuning階段的學(xué)習(xí)率設(shè)置為0.05,min-batch數(shù)量為100(可根據(jù)樣本數(shù)量和種類進行調(diào)整),pre-training階段迭代次數(shù)為5,fine-tuning階段迭代20次后檢測結(jié)果趨于穩(wěn)定。如圖5所示,通過固定其他參數(shù)不變(20節(jié)點)時,討論各隱層節(jié)點數(shù)目對正確檢測率的影響。

圖5 正確檢測率隨隱層數(shù)目變化(20節(jié)點)

從圖5可知,當(dāng)隱層數(shù)目為2,即DBN模型深度為4時,該模型在檢測過程中取得相對較高的檢測率,由此可以說明,增加DBN的深度不一定能夠增強DBN的特征提取能力,反而會導(dǎo)致DBN的泛化能力降低,產(chǎn)生過擬合現(xiàn)象。因此,DBN的層數(shù)設(shè)置可能和數(shù)據(jù)處理后的維度相關(guān),并不是層數(shù)越多,分類效果越好。

在固定隱層數(shù)為2,變化各隱層的節(jié)點數(shù)目時,正確檢測率的變化趨勢如圖6所示。由圖6可知,在節(jié)點數(shù)目為10的時候,由于節(jié)點之間相互連接較少,不足以提取適合分類的特征集,而節(jié)點的數(shù)目過大也出現(xiàn)了過擬合的問題。本文實驗中,當(dāng)各隱層節(jié)點數(shù)設(shè)置為20時,正確檢測率相對最高。通過觀察DBN模型包含的隱層數(shù)目和各隱層節(jié)點數(shù)目對正確檢測的影響,綜合上述的分析,在后面選用DBN的隱層層數(shù)為2、各隱層節(jié)點均為20的網(wǎng)絡(luò)結(jié)構(gòu)來討論數(shù)據(jù)處理對檢測率的影響和結(jié)構(gòu)的穩(wěn)定性。

圖6 正確檢測率隨隱層節(jié)點數(shù)目變化(隱層數(shù)2)

3.3.2 數(shù)據(jù)處理對檢測結(jié)果的影響

經(jīng)過3.1節(jié)的數(shù)據(jù)處理,得到6組測試數(shù)據(jù),將這6組數(shù)據(jù)分別用本文所選的模型和文獻[15]中的方法進行訓(xùn)練和測試,不同數(shù)據(jù)處理下的正確檢測率如圖7所示。

圖7 不同數(shù)據(jù)處理方式下的未知樣本檢測率

由圖7可以看出,在未經(jīng)過處理的數(shù)據(jù)集PMF-Non上,檢測率僅達到57%,因此,未經(jīng)過處理的原始數(shù)據(jù)收斂性較差。經(jīng)過Maxmin歸一化處理的PMF-Maxmin和Num-Maxmin數(shù)據(jù)集上的檢測率均相對較高,高于Statistical歸一化和Decimal歸一化方式處理的數(shù)據(jù)集;但Bin-Maxmin數(shù)據(jù)由于經(jīng)過二進制編碼后存在著維數(shù)高的缺點,文獻[15]為了更好地降低數(shù)據(jù)維度和提取有效特征而采用的模型層數(shù)、節(jié)點數(shù)較多,對檢測率和檢測實時性將會存在一定影響。實驗結(jié)果表明,樣本的正確檢測率和數(shù)據(jù)處理之間存在著不可忽略的關(guān)系,即數(shù)據(jù)處理能夠在一定程度上影響數(shù)據(jù)的分布規(guī)律,選擇合理的數(shù)據(jù)處理方式能夠提高對樣本的檢測率。

因此,針對基于DBN的入侵檢測問題,通過實驗選取了一種基于PMF編碼nominal類型數(shù)據(jù)、Maxmin歸一化處理numeric類型數(shù)據(jù)的優(yōu)化數(shù)據(jù)處理方式,確定了一種深度為4、2個隱層、節(jié)點數(shù)目均為20的DBN模型,對設(shè)定的測試數(shù)據(jù)集中的完全未知樣本的檢測率能夠達到87.76%。

3.3.3 選定模型的訓(xùn)練性能分析

對于選定的深度為4、各隱層節(jié)點均為20的DBN模型,在對表4中經(jīng)過PMF編碼和Maxmin歸一化處理的訓(xùn)練數(shù)據(jù)集進行訓(xùn)練的過程中,根據(jù)訓(xùn)練數(shù)據(jù)集包含的數(shù)據(jù)條數(shù)及大量的訓(xùn)練實驗可知,10折交叉檢驗是在本文實驗已選用的數(shù)據(jù)集的前提下獲得最大正確率的恰當(dāng)選擇,通過10折交叉檢驗,將訓(xùn)練數(shù)據(jù)集的20 100條數(shù)據(jù)隨機分為10份,其中9份用作訓(xùn)練,而剩下的1份用來驗證,則相當(dāng)于每條數(shù)據(jù)都有一個預(yù)報的正確檢測率,每次檢測的正確率及10次檢測的平均正確檢測率如表5所示。

表5 10折交叉檢驗結(jié)果

在已經(jīng)進行的大量實驗中,10折交叉檢驗是獲得相對較高的每個樣本的平均檢測率,能夠達到94.96%。除此之外,訓(xùn)練時間也是評價分類器性能的一個重要標準,如果將訓(xùn)練數(shù)據(jù)集的20 100條數(shù)據(jù)在上述模型中進行訓(xùn)練,訓(xùn)練10次的每次平均用時為19.289 74s,而考慮到數(shù)據(jù)量和實驗環(huán)境等因素,在訓(xùn)練上消耗的時間是可以接受的,因此下文可選用上述確定的模型來進行實驗。

3.4 驗證選定的DBN模型識別性能

從表3中的訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集包含的攻擊類型和數(shù)量來看,訓(xùn)練數(shù)據(jù)集中共包含normal類型和12種攻擊類型,則這12種攻擊類型對分類器而言可以看作已知類型的攻擊,而測試數(shù)據(jù)集中包含了normal類型和8種完全不同于訓(xùn)練數(shù)據(jù)集中的攻擊類型,則對于分類器而言,這8種攻擊類型則是未知攻擊類型,本文通過選定的DBN模型能夠?qū)y試數(shù)據(jù)集中的8種攻擊類型具有較高的正確檢測率的方式來驗證DBN模型對未知攻擊類型的識別能力。

同時,將本文的方法與已經(jīng)在入侵檢測取得較好檢測結(jié)果的BP神經(jīng)網(wǎng)絡(luò)和SVM算法進行了對比。通過統(tǒng)計對各類未知攻擊類型的正確檢測率和檢測時間來驗證本文選用的基于優(yōu)化數(shù)據(jù)處理的DBN模型的高效性和實時性。

對比算法中的BP神經(jīng)網(wǎng)絡(luò)參數(shù)與本文選取的DBN模型相似,隱層節(jié)點數(shù)為20,迭代次數(shù)為20次,SVM算法采用LibSVM開源工具,核函數(shù)采用徑向基函數(shù)(RadialBasisFunction,RBF),根據(jù)文獻[27-28],錯誤懲罰因子C=10 000,RBF核函數(shù)的控制因子為2。不同分類算法對各類未知類型攻擊的正確檢測率如表6所示。

表6 不同分類算法對未知樣本的正確檢測率對比 %

Tab. 6 Comparison of correct detection rate of differentclassification algorithms for unknown samples%

由于數(shù)據(jù)集中包含的buffer_overflow和rootkit類別的數(shù)據(jù)較少,所以每條數(shù)據(jù)所占該類數(shù)據(jù)總量的比例較大,因此各類算法對這兩種攻擊的檢測效果差異較為明顯。從表6可以看出,基于DBN模型的正確檢測率比SVM算法和基于BP神經(jīng)網(wǎng)絡(luò)的算法均有所提高:DBN模型在Test-PMF-Maxmin上的整體檢測率相比SVM算法提高了4.43%,對應(yīng)到測試數(shù)據(jù)集中10 100條數(shù)據(jù),則DBN模型正確檢測出的數(shù)據(jù)量比SVM算法多376條;DBN模型在Test-PMF-Maxmin上的整體檢測率相比基于BP神經(jīng)網(wǎng)絡(luò)的算法提高了5.37%。

三種算法在Test-PMF-Maxmin數(shù)據(jù)集上的檢測時間如下:SVM算法為2.14s,基于BP神經(jīng)網(wǎng)絡(luò)的算法為1.97s,DBN算法為2.44s。由于DBN模型比BP網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,和BP網(wǎng)絡(luò)的檢測相比,有一定的延遲,但與SVM算法的檢測時間相當(dāng)。由此可知,本文所選擇的DBN模型對未知類型攻擊具有較高檢測率的同時,對檢測的實時性無嚴重影響。

3.5 驗證選定的DBN模型的穩(wěn)定性

在對未知攻擊類型具有較高的檢測率的DBN模型上,使用表3中的驗證數(shù)據(jù)集作為已經(jīng)訓(xùn)練好的模型的輸入,統(tǒng)計其對已知類型的正確檢測率,判斷是否對已學(xué)習(xí)到的知識造成影響。驗證數(shù)據(jù)集上三種對比算法對于已知攻擊類型的正確檢測率如下:SVM算法為93.87%,基于BP神經(jīng)網(wǎng)絡(luò)的算法為91.22%,DBN算法為97.10%。DBN模型對已知攻擊類型的檢測率高于BP神經(jīng)網(wǎng)絡(luò)和SVM算法,表明對未知攻擊類型具有較高的檢測率的DBN模型沒有破壞已學(xué)習(xí)的知識,驗證了本文選擇的DBN模型的穩(wěn)定性。

4 結(jié)語

本文提出了一種基于優(yōu)化數(shù)據(jù)處理的DBN模型的入侵檢測方法,通過實驗驗證了不同數(shù)據(jù)處理能夠?qū)?shù)據(jù)的分布規(guī)律產(chǎn)生影響,采用經(jīng)過PMF編碼和Maxmin歸一化處理的數(shù)據(jù)應(yīng)用于DBN模型時,取得了相對較高的檢測率。通過和SVM及BP神經(jīng)網(wǎng)絡(luò)算法的對比可驗證,DBN對復(fù)雜數(shù)據(jù)具有良好的特征提取能力,能夠更好地發(fā)掘和學(xué)習(xí)數(shù)據(jù)之間的規(guī)律,在不影響對已知攻擊類型識別和檢測實時性的前提下,能夠提高對未知攻擊類型數(shù)據(jù)的識別率,目前可用于對變化多端的網(wǎng)絡(luò)數(shù)據(jù)進行入侵檢測。但由于DBN網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)的不確定性,檢測率會受到迭代次數(shù)和不同數(shù)據(jù)集等因素影響,因此如何確定高效的DBN模型參數(shù)和選擇合理的數(shù)據(jù)處理仍然是下一步有待解決的問題。

)

[1] 卿斯?jié)h,蔣建春,馬恒太,等.入侵檢測技術(shù)研究綜述[J].通信學(xué)報,2004,25(7):19-29.(QINGSH,JIANGJC,MAHT,etal.Researchonintrusiondetectiontechniques:asurvey[J].JournalofChinaInstituteofCommunications, 2004, 25(7): 19-29.)

[2] 潘志松.基于神經(jīng)網(wǎng)絡(luò)的入侵檢測研究[D].南京:南京航空航天大學(xué),2003:20-64.(PANZS.Researchonintrusiondetectionbasedonneuralnetwork[D].NanjingUniversityofAeronauticsandAstronautics, 2003:20-64.)

[3] 胡明霞.基于BP神經(jīng)網(wǎng)絡(luò)的入侵檢測算法[J].計算機工程,2012,38(6):148-150.(HUMX.IntrusiondetectionalgorithmbasedonBPneuralnetwork[J].ComputerEngineering, 2012, 38(6): 148-150.)

[4] 楊雅輝,姜電波,沈晴霓,等.基于改進的GHSOM的入侵檢測研究[J].通信學(xué)報,2011,32(1):121-126.(YANGYH,JIANGDB,SHENQN,etal.ResearchonintrusiondetectionbasedonanimprovedGHSOM[J].JournalonCommunications, 2011, 32(1): 121-126.)

[5] 楊雅輝,黃海珍,沈晴霓,等.基于增量式GHSOM神經(jīng)網(wǎng)絡(luò)模型的入侵檢測研究[J].計算機學(xué)報,2014,37(5):1216-1224.(YANGYH,HUANGHZ,SHENQN,etal.ResearchonintrusiondetectionbasedonincrementalGHSOM[J].ChineseJournalofComputers, 2014, 37(5): 1216-1224.)

[6] 毛國君,宗東軍.基于多維數(shù)據(jù)流挖掘技術(shù)的入侵檢測模型與算法[J].計算機研究與發(fā)展,2009,46(4):602-609.(MAOGJ,ZONGDJ.Anintrusiondetectionmodelbasedonminingmulti-dimensiondatastreams[J].JournalofComputerResearchandDevelopment, 2009, 46(4): 602-609.)

[7] 郭春.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)入侵檢測關(guān)鍵技術(shù)研究[D].北京:北京郵電大學(xué),2014:89-106.(GUOC.Researchonkeytechnologiesofnetworkintrusiondetectionbasedondatamining[D].Beijing:BeijingUniversityofPostsandTelecommunications, 2014: 89-106.)

[8] 饒鮮,董春曦,楊紹全.基于支持向量機的入侵檢測系統(tǒng)[J].軟件學(xué)報,2003,14(4):798-803.(RAOX,DONGCX,YANGSQ.Anintrusiondetectionsystembasedonsupportvectormachine[J].JournalofSoftware, 2003, 14(4): 798-803.)

[9] 羅敏,王麗娜,張煥國.基于無監(jiān)督聚類的入侵檢測方法[J].電子學(xué)報,2003,31(11):1713-1716.(LUOM,WANGLN,ZHANGHG.Anunsupervisedclustering-basedintrusiondetectionmethod[J].ActaElectronicaSinica, 2003, 31(11): 1713-1716.)

[10]HINTONGE,SALAKHUTDINOVRR.Reducingthedimensionalityofdatawithneuralnetworks[J].Science, 2006, 313(5786): 504-507.

[11]DONGY,LID.Deeplearninganditsapplicationstosignalandinformationprocessing[J].IEEESignalProcessingMagazine, 2011, 28(1): 145-154.

[12]ARELI,ROSEDC,KARNOWSKITP.Deepmachinelearning—anewfrontierinartificialintelligenceresearch[J].IEEEComputationalIntelligenceMagazine, 2010, 5(4): 13-18.

[13] 逯玉婧.基于深度信念網(wǎng)絡(luò)的入侵檢測算法研究[D].石家莊:河北師范大學(xué),2016:26-46.(LUYJ.Researchonintrusiondetectionalgorithmbasedondeepbeliefnetwork[D].Shijiazhuang:HebeiNormalUniversity, 2016: 26-46.)

[14]ALOMMZ,BONTUPALLIVR,TAHATM.Intrusiondetectionusingdeepbeliefnetworks[C]//Proceedingsofthe2015NationalAerospaceandElectronicsConference.Piscataway,NJ:IEEE, 2015: 339-344.

[15]GAON,GAOL,HEYY,etal.Intrusiondetectionmodelbasedondeepbeliefnets[J].JournalofSoutheastUniversity(EnglishEdition), 2015, 31(3): 339-346.

[16] 楊昆朋.基于深度學(xué)習(xí)的入侵檢測[D].北京:北京交通大學(xué),2015:31-47.(YANGKP.Intrusiondetectionbasedondeeplearning[D].Beijing:BeijingJiaotongUniversity, 2015: 31-47.)

[17] 安琪.基于深度置信網(wǎng)絡(luò)的入侵檢測研究[D].蘭州:蘭州大學(xué),2016:20-50.(ANQ.Researchonintrusiondetectionbasedondepthconfidencenetwork[D].Lanzhou:LanzhouUniversity, 2016: 20-50.)

[18]HINTONGE.Trainingproductsofexpertsbyminimizingcontrastivedivergence[J].NeuralComputation, 2002, 14(8): 1771-800.

[19]SAIDD,STIRLINGL,FEDEROLFP,etal.Datapreprocessingfordistance-basedunsupervisedintrusiondetection[C]//Proceedingsofthe2011NinthAnnualInternationalConferenceonPrivacy,SecurityandTrust.Piscataway,NJ: 2011: 181-188.

[20]SALEMM,BUEHLERU.Miningtechniquesinnetworksecuritytoenhanceintrusiondetectionsystems[J].InternationalJournalofNetworkSecurity&ItsApplications, 2012, 4(6): 167-172.

[21] 白雪.基于DBN的網(wǎng)絡(luò)流量分類的研究[D].呼和浩特:內(nèi)蒙古大學(xué),2015:18-30.(BAIX.ResearchonnetworktrafficclassificationbasedonDBN[D].Huhhot:InnerMongoliaUniversity, 2015: 18-30. )[22] DHANABAL L, SHANTHARAJAH S P. A study on NSL-KDD dataset for intrusion detection system based on classification algorithms [J]. International Journal of Advanced Research in Computer and Communication Engineering, 2015, 4(6): 446-452.

[23] HINTON G E. A practical guide to training restricted Boltzmann machines [M]// Neural Networks: Tricks of the Trade, LNCS 7700. Berlin: Springer, 2012: 599-619.

[24] 張春霞,姬楠楠,王冠偉.受限波爾茲曼機[J].工程數(shù)學(xué)學(xué)報,2015, 32(2): 159-173.(ZHANG C X, JI N N, WANG G W, et al. Restricted Boltzmann machine [J]. Chinese Journal of Engineering Mathematics, 2015, 32(2): 159-173.)

[25] 邱龍金,賀昌政.神經(jīng)網(wǎng)絡(luò)穩(wěn)定性的交叉驗證模型[J].計算機工程與應(yīng)用,2010,46(34):43-45.(QIU J L, HE C Z. Cross validation model for stability of neural networks [J]. Computer Engineering and Applications, 2010, 46(34): 43-45.)

[26] 范永東.模型選擇中的交叉驗證方法綜述[D].太原:山西大學(xué),2013:19-41.(FAN Y D. A summary of cross-validation in model selection [D]. Taiyuan: Shanxi University, 2013: 19-41.)

[27] CHANG C C, LIN C J. LIBSVM: a library for support vector machines [J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): 389-396.

[28] 賀其備.基于支持向量機的入侵檢測研究[D].長春:東北師范大學(xué),2013:29-44.(HE Q B. Research on intrusion detection based on support vector machine [D]. Changchun: Northeast Normal University, 2013: 29-44.)

This work is partially supported by the Science and Technology Research Project of Liaoning Education Department (LJYL052).

CHEN Hong, born in 1967, M. S., associate professor. Her research interests include information security.

WAN Guangxue, born in 1992, M. S. candidate. Her research interests include information security, deep learning.

XIAO Zhenjiu, born in 1968, M. S., associate professor. His research interests include information security.

Intrusion detection method of deep belief network model based on optimization of data processing

CHEN Hong, WAN Guangxue*, XIAO Zhenjiu

(SchoolofSoftware,LiaoningTechnicalUniversity,HuludaoLiaoning125105,China)

Those well-known types of intrusions can be detected with higher detection rate in the network at present, but it is very difficult to detect those new unknown types of network intrusions. In order to solve the problem, a network intrusion detection method of Deep Belief Network (DBN) model based on optimization of data processing was proposed. The data processing and method model were improved respectively without destroying the existing knowledge and increasing detection time seriously to solve the above problem. Firstly, the data processed by Probability Mass Function (PMF) encoding and MaxMin normalization was applied to the DBN model. Then, the relatively optimal DBN structure was selected through fixing other parameters, changing a parameter and the cross validation. Finally, the proposed method was tested on the benchmark NSL-KDD dataset. The experimental results show that, the optimization of data processing can improve the classification accuracy of the DBN model, the proposed intrusion detection method based on DBN has good adaptability and higher recognition ability of unknown samples. The detection time of DBN algorithm is similar to that of Support Vector Machine (SVM) algorithm and Back Propagation (BP) neural network model.

intrusion detection; optimization of data processing; deep learning; Deep Belief Network (DBN); unknown attack detection

2016- 11- 04;

2016- 12- 26。 基金項目:遼寧省教育廳科學(xué)技術(shù)研究項目(LJYL052)。

陳虹(1967—),女,遼寧阜新人,副教授,碩士,CCF會員,主要研究方向:信息安全; 萬廣雪(1992—),女,遼寧大連人,碩士研究生,主要研究方向:信息安全、深度學(xué)習(xí); 肖振久(1968—),男,內(nèi)蒙寧城人,副教授,碩士,CCF會員,主要研究方向:信息安全。

1001- 9081(2017)06- 1636- 08

10.11772/j.issn.1001- 9081.2017.06.1636

TP393.08

A

猜你喜歡
數(shù)據(jù)處理檢測模型
一半模型
認知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補與極大似然估計法*
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
ILWT-EEMD數(shù)據(jù)處理的ELM滾動軸承故障診斷
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應(yīng)用
主站蜘蛛池模板: 高清无码一本到东京热| 亚洲天堂成人| 国产在线91在线电影| 91黄色在线观看| 国产精品手机在线观看你懂的| 老司机午夜精品视频你懂的| 国产二级毛片| 91人妻日韩人妻无码专区精品| 97se亚洲综合| 精品福利国产| 秋霞午夜国产精品成人片| 欧美在线一二区| 成人无码区免费视频网站蜜臀| 无码视频国产精品一区二区| 日韩欧美中文亚洲高清在线| 999精品视频在线| 欧美va亚洲va香蕉在线| 国产乱肥老妇精品视频| 国模私拍一区二区| 日本久久免费| 国产精品任我爽爆在线播放6080 | 国产网站免费看| 热思思久久免费视频| 亚洲毛片在线看| 91成人在线免费视频| 精品久久人人爽人人玩人人妻| 99精品视频在线观看免费播放| 人妻丰满熟妇αv无码| 欧美激情视频在线观看一区| 91无码网站| 精品一区二区三区水蜜桃| 午夜精品区| 中文字幕 91| www.狠狠| 国产一级无码不卡视频| 国模极品一区二区三区| 欧美天堂久久| 香蕉视频国产精品人| 97在线观看视频免费| 久久久久久久久18禁秘| 免费看av在线网站网址| 色天天综合| 中文字幕永久在线看| 久久香蕉国产线看观| 97成人在线视频| 欧美va亚洲va香蕉在线| 国产一级小视频| AV无码无在线观看免费| V一区无码内射国产| www.91在线播放| 高潮毛片免费观看| 欧美成一级| 国产亚洲精| 亚洲手机在线| 久久永久精品免费视频| 国产哺乳奶水91在线播放| 91麻豆精品国产高清在线| 亚洲精品自产拍在线观看APP| 人人爱天天做夜夜爽| 亚洲成人网在线观看| 91精品国产麻豆国产自产在线| 国产自视频| 伊人久久精品无码麻豆精品 | 欧美成人h精品网站| 亚洲欧美日韩成人在线| 久久精品91麻豆| 亚洲国产看片基地久久1024 | 日韩AV无码免费一二三区 | 久精品色妇丰满人妻| 国产91视频免费| 精品午夜国产福利观看| 99成人在线观看| 欧美日韩另类国产| 国产亚洲精品自在久久不卡| 国产成人精品2021欧美日韩| 欧美一级视频免费| 欧美一区二区三区香蕉视| 亚洲精品手机在线| 一级毛片无毒不卡直接观看| 最新日本中文字幕| 亚洲中文无码av永久伊人| 成人日韩精品|