999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于決策樹和混合神經網絡的大數據攻擊增量檢測研究

2022-08-10 08:12:48
計算機應用與軟件 2022年7期
關鍵詞:深度檢測模型

譚 繼 安

(東莞職業技術學院 廣東 東莞 523808)

0 引 言

隨著5G時代的到來,信息網絡已深入國民經濟的各個環節,物聯網技術的發展也將人、物及商業進行了互聯。隨著物聯網技術在醫療、智能家居、智能穿戴等領域的普及,物聯網每日采集海量的數據,傳統的網絡安全機制則難以負擔海量的數據分析[1]。近年來深度學習技術在網絡安全領域取得了卓越的成果,但大數據的攻擊檢測問題是一種典型的不平衡數據分類問題,傳統的深度學習技術在此類場景下容易發生過擬合[2]。另外,大數據每天流入大量的新數據,而深度神經網絡模型的訓練效率較低,許多模型需要一天以上的訓練時間[3],難以滿足大數據實時攻擊檢測的需求。

近期許多研究者通過深度學習技術檢測網絡的攻擊,文獻[4]提出深度學習模型下多分類器的入侵檢測方法,該方法利用深度信念網絡提取低維的特征數據,在任意兩類特征數據之間構建一個梯度提升樹分類器,基于NSL-KDD數據集的仿真實驗表明其實現了較好的性能。而NSL-KDD數據集的數據量依然較小,且僅包含DoS、Probe、R2L和U2R等攻擊類型。與之相似,文獻[5-7]等深度學習技術也在部分公開的小規模數據集上進行了驗證實驗,但難以判斷其對于大數據的效果。

UNSW-NB15數據集[8]是近期一個測試入侵檢測的數據集,該數據集包含了100 GB以上的真實網絡流量數據。文獻[9]將自編碼器和前饋神經網絡結合,用于UNSW-NB15數據集的入侵檢測研究,該研究實現了較高的檢測準確率,但是網絡的訓練時間較長。文獻[10]將多層前饋神經網絡在UNSW-NB15數據集上進行了實驗驗證,該網絡出現了明顯的過擬合現象,且計算效率較低。

綜上所述,傳統的深度學習技術在特征提取過程中容易出現過擬合的情況,并且計算時間較長。為了解決該問題,本文提出了新的深度神經網絡模型,利用卷積神經網絡提取流量數據的特征,利用長短期記憶網絡(LSTM)學習特征之間的依賴關系,避免CNN發生梯度消失問題。對LSTM的連接設計了Dropout設計,一方面減少了特征關系學習過程的過擬合情況,另一方面也提高了網絡的計算效率。為了支持大數據動態演化的特點,本文設計了基于決策樹的增量學習模型,能夠動態地對新流入的數據進行學習和預測。

1 混合深度神經網絡設計

1.1 長短期記憶網絡結構

LSTM[11]是一種循環神經網絡結構,網絡包含一個記憶單元和輸入門、輸出門和遺忘門三個控制門。輸入門的數學式為:

it=σ(Wixt+Uiht-1)

(1)

遺忘門的數學式為:

ft=σ(Wfxt+Ufht-1)

(2)

輸出門的數學式為:

ot=σ(Woxt+Uoht-1)

(3)

式中:σ為激活函數;W和U為權重矩陣;xt是在時間步t的輸入向量。

在時間步t的記憶單元狀態ct為:

(4)

(5)

式中:“×”表示矩陣按元素相乘。

在時間步t的隱層狀態ht為:

ht=ot×tanh(ct)

(6)

LSTM通過記憶單元維護輸入特征之間的依賴關系,輸入門向記憶單元輸入一個新元素,遺忘門控制刪除記憶單元內的元素,輸出門基于記憶單元的內容計算網絡的輸出。正切函數和Sigmoid函數是兩個常用的激活函數。

1.2 權重正則化LSTM結構

設計了權重正則化的LSTM結構(Weight Regularization-LSTM,WRLSTM),提高網絡的計算效率,并且防止過擬合。WRLSTM對LSTM的連接進行Dropout正則化處理,并未采用傳統方案對輸出單元進行Dropout處理,通過該方式可增加激活和輸出向量的稀疏性。WRLSTM在訓練階段對LSTM的隱層權重進行隨機Dropout處理,防止發生過擬合的情況。LSTM的輸出可以總結如下:

yt=σ(Wxt+(M×U)ht-1)

(7)

式中:M是網絡連接的二值矩陣掩碼形式。在訓練階段通過修改M中的元素來更新每次迭代的網絡連接Dropout狀態。

1.3 CNN網絡模型

CNN每個神經元的輸出是一個關于輸入、權重和偏置的函數,每一層權重的更新計算式為:

(8)

式中:wi為神經元i的權重;α和r分別為正則參數和學習率;n為訓練樣本總量;m為動量;t為迭代次數;C為成本函數。

每一層偏置的更新計算式為:

(9)

式中:bi為神經元i的偏置;α為正則參數;n為訓練樣本總量;m為動量;t為迭代次數;C為成本函數。

CNN卷積運算的計算式為:

(10)

式中:xi為輸入向量;N為xi的元素數量;h為卷積層的filter;yi為輸出向量;n為yi的元素數量。

CNN的池化層可降低卷積層的維度,從而減少計算成本且防止過擬合,本文采用最大池化機制。

1.4 CNN和WRLSTM的混合網絡結構

為了同時利用深度CNN的特征學習能力及WRLSTM的記憶能力,將兩個網絡融合成一個高效的入侵檢測模型。圖1所示為混合深度神經網絡(Hybrid Deep Neural Networks,HDNN)的結構。

圖1 混合深度神經網絡的結構

HDNN由兩個卷積層、一個最大池化層、一個WRLSTM及一個全連接層構成,兩個卷積層的激活函數均為ReLU,其計算式為:

σ(x)=max(0,x)

(11)

式中:x為神經元的輸入。

最大池化層的輸出傳入WRLSTM層,WRLSTM學習所提取特征之間的依賴關系,隨機失活部分的權重。最終WRLSTM的輸出傳入全連接層,全連接層通過Softmax激活函數將流量數據分類。Softmax激活函數計算了每個流量類別的概率分布,其計算式為:

(12)

式中:n為流量的類別數量;x為輸入數據。

2 HDNN的增量學習模型

2.1 HDNN-tree的網絡結構

圖2所示為HDNN-tree的結構示意圖,每個節點為一個HDNN。根節點將流量數據分類為正常或異常,然后再傳入到下一層的節點,對數據類型進行深入的識別,最終在葉節點輸出流量數據的類型。HDNN-tree的每個葉節點與一個唯一類別相關聯。

圖2 HDNN-tree的結構

2.2 增量學習算法

(13)

似然矩陣的計算式為:

(14)

然后將LK×M排序產生一個列表S,S的數據結構具有三點性質。性質1:S共有M個對象,每個對象和一個新類相關聯。性質2:每個對象S[i]具有3個屬性值:(1)S[i].label:新類的標簽;(2)S[i].value:Softmax輸出值的Top-3;(3)S[i].nodes:Top-3值對應的3個輸出節點。性質3:列表S按S[i].value值降序排列。

列表S的排序處理保證了相似性最高的新類優先加入HDNN-tree,通過Softmax計算樣本和類標簽之間的似然,能夠更好地識別新樣本和已有類標簽之間的相似度。然后對S的第1個元素S[1](相似性最高的新類)進行以下三個判斷和操作:

假設v2是新類,v1和v3為已有類。

第1個判斷:如果v1-v2>α,那么新類和子節點n1關聯性較強,將新類加入n1中。

第2個判斷:如果新類和多個子節點具有高相似度,那么將幾個相似的節點組成一個新的子節點。數學模型為:如果v1-v2<α且v2-v3>β,那么將n2和n1合并,并將新類也將入n1中。

第3個判斷:如果新類和所有子節點相似度均較低,那么網絡為新類增加一個新的子節點。數學模型為:如果v1-v2<α且v2-v3<β,那么為新類創建一個新子節點。

算法1是增量學習算法的偽代碼。圖3所示為增量學習的一個實例,假設α=β=0.3,Chi4、Chi5和Chi6是三個新加入的節點。Chi4的v1-v2=0.95-0.26=0.69>0.3,因此Chi4加入Chi1;Chi5的v1-v2=0.2<α,且v2-v3=0.01<β,因此Chi5建立新節點;Chi6的v1-v2=0.93-0.18<α,因此Chi6加入Chi2。

算法1增量學習算法。

輸入:似然矩陣L,每個分支的最大子節點數量maxchi,根節點Rnode,新節點node。

1.S←createS(L,node,maxchi);

//創建S列表

2.whileS!=NULL do {

3.[classlabel,value,node]←S[1];

//提取S[1]屬性

/*第1個判斷*/

4.if (value[1]-value[2]>α) {

5.Rnode=inserttonode(Rnode,classlabel,node[1]);

//將新類加入node[1]

/*第2個判斷*/

6.} else if (value[2]-value[3]>β){

7.mergenode(Rnode,node[1],node[2]);

/*第3個判斷*/

8.} else {

9.Rnode←addnewnode(Rnode,classlabel);

10.}

/*重新創建S*/

11.S←createS(L,node,maxchi);

10.}

圖3 增量學習的實例

在創建HDNN-tree的過程中,如果根節點的分類數量達到了最大子節點數量,那么增加HDNN-tree的深度,每個深度所支持的最大子節點數量和tree的最大深度由用戶根據實際應用場景所設定,在本文系統中,根節點最大子節點數量為2(正常用戶類和異常用戶類),其他層的最大子節點數量為15,樹的最大深度為2。

當系統為新類分配了一個節點位置時,通過梯度下降法訓練受影響的節點,該機制避免了重新訓練全部的網絡,并且這部分的訓練處理可以離線完成,并不影響樹中其他HDNN的工作。在初始化階段,首先利用可用的數據訓練根節點,在之后的增量學習過程中,僅在根節點將輸入數據分配到特定分支的時候,該分支才被激活,因此不僅提高了流量檢測的精度,同時也保持了較低的處理時間。如果某個節點發生分類錯誤,那么該分支會為該類分配一個新節點,因此并不會影響已有節點中神經網絡的訓練。

3 仿真實驗與結果

3.1 實驗數據集

UNSW-NB15數據集是Moustafa研究小組收集的一個大規模IDS實驗數據集,該數據集包含了100 GB以上的真實網絡流量數據。該研究小組使用自動攻擊生成工具Perfect Storm[12]對幾個目標服務器進行真實的攻擊。數據集共包含2 540 044個標記樣本,共有九種攻擊類型,分別為:漏洞攻擊、DoS攻擊、后門攻擊、分析攻擊、滲透攻擊、通用攻擊、偵察攻擊、Shellcode注入攻擊、蠕蟲病毒。

將UNSW-NB15數據集中空記錄刪除,最終篩選出2 273 332個樣本,按照7 ∶3的比例將數據集分為訓練集和測試集。表1所示為實驗數據集的統計信息,表中顯示網絡流量的數據為不平衡分類,正常流量遠多于攻擊流量,因此傳統的機器學習分類器極易發生過擬合的情況,本文設計了HDNN結構來緩解過擬合,并且提高計算效率。

表1 實驗數據集劃分情況

續表1

為了兼容本文的神經網絡模型,將流量的特征由名詞轉化成獨立的編號數值,然后對數值進行歸一化處理,歸一化的計算式為:

(15)

式中:fi,j表示數據矩陣在(i,j)位置的值。

3.2 性能評價指標

通過以下4個廣泛應用的性能指標評價HDNN-tree的性能。

準確率A的計算式為:

(16)

式中:TP表示將正類預測為正類的數量;TN表示將負類預測為負類的數量;FP表示將負類預測為正類的數量;FN表示將正類預測為負類的數量。

精度P的計算式為:

(17)

召回率R的計算式為:

(18)

F1-score的計算式為:

(19)

3.3 實驗方法

因為本文針對大數據攻擊檢測問題提出了新的深度神經網絡結構HDNN,所以通過第1組實驗評價HDNN的性能,然后設計了第2組實驗評價增量學習方法HDNN-tree的有效性。

3.4 HDNN的性能實驗

1) HDNN的參數設置。HDNN的參數包括filter數量、epoch數量、學習率、WRLSTM隱層單元數量、dropout率p,批大小和最大池化長度。首先通過試錯法訓練HDNN,最終的網絡參數確定如下:epoch數量為40,學習率為0.004,輸出層大小為30,LSTM的dropout率p為0.2。第1個和第2個卷積層的filter數量分別為32和64,核大小為3,最大池化長度為2。

2) HDNN的性能結果。首先測試了本文模型對于異常流量的檢測能力,圖4(a)所示為模型所檢測正常流量和異常流量的ROC曲線,正常流量的ROC區域為0.92,異常流量的ROC區域為0.91,可以看出本文模型對于大規模數據依然實現了較高的檢測效果。圖4(b)所示為模型所檢測正常流量和異常流量精度、召回率和F1-score的性能,對正常流量、異常流量的檢測精度均高于0.95,對正常流量的召回率較高,但對異常流量的召回率略低。總體而言,本文模型對于大數據集實現了較高的異常流量檢測性能。

(a) ROC曲線

然后分析了本文模型對于異常流量的細粒度識別能力,圖5(a)所示為模型所檢測的不同異常流量類別的ROC曲線,后門攻擊、蠕蟲病毒和分析攻擊的ROC區域分別為0.54、0.56和0.57,這三種攻擊類型的特征顯著性較低,隱蔽性較強,因此對于這三種攻擊的識別效果不足。本文系統對于漏洞攻擊、滲透攻擊、通用攻擊、偵察攻擊及Shellcode注入攻擊均實現了較好的識別效果,ROC區域均超過了0.8。圖5(b)、(c)、(d)分別為模型所檢測的不同異常流量類別的精度、召回率及F1-score的性能。和ROC曲線的結果相似,后門攻擊、蠕蟲病毒和分析攻擊的識別效果較差,另外對于DoS攻擊的識別精度也較低。但本文系統對于漏洞攻擊、滲透攻擊、通用攻擊、偵察攻擊及Shellcode注入攻擊均實現了較好的識別效果,精度、召回率及F1-score均超過了0.6。

(a) ROC曲線

3) 對比實驗分析。選擇了5個近年來性能較好的大數據異常流量檢測算法與本文模型對比,分別為基礎CNN[13]、GoogLeNetInceptionCNN[14]、LSTM[15]、GRU[16]、AL模型[17]。因為本文模型是CNN和LSTM的混合網絡,所以通過基礎CNN和LSTM可以判斷本文模型是否有效。GoogLeNetInceptionCNN和GRU是兩個不同類型的深度學習模型。AL是一種自學習的非神經網絡模型,該模型的優勢是計算速度較快。

因為上述5個對比方法中主要提供了對于UNSW-NB15數據集的準確率結果,所以在此也主要比較了6個檢測算法的準確率指標,如圖6所示。可以看出GoogLeNetInceptionCNN和GRU均實現了較高的檢測準確率,且5種深度神經網絡模型的準確率均高于90%,僅AL模型的準確率略低于90%,由此可見深度神經網絡對于大規模不平衡數據的檢測性能較好。此外,本文模型的檢測準確率高于基礎CNN和LSTM,本文模型通過對神經網絡連接的dropout處理,緩解了深度神經網絡的過擬合,從而提高了對不平衡數據的分析效果。

圖6 異常檢測算法的準確率指標

本文的實驗環境為PC機:Intel i7- 9700 6核心處理器,16 GB內存,操作系統為64位 Windows 10。本文模型通過對神經網絡連接的dropout處理,緩解了深度神經網絡對大規模不平衡數據的過擬合問題,也提高了模型的計算效率。圖7所示是6個檢測算法對每個流量樣本的平均分類時間,GoogLeNetInceptionCNN采用GoogLeNet模型實現了多級CNN的深度網絡結構,因此計算效率較低。AL模型則是一種基于核函數的自動學習模型,該模型的計算效率較高,平均處理時間達到了0.003 ms左右,而本文模型的處理時間略低于AL模型,實現了最快的檢測速度。

圖7 每個樣本的平均處理時間

3.5 增量學習的性能實驗

實驗數據集的2 273 332個樣本篩選出一半數據作為初始化數據集,并且初始化數據集中僅包含一部分漏洞攻擊、DoS攻擊和后門攻擊的數據,其他均為正常數據。剩余的一半樣本隨機分成6個大小相等的子數據集,將子數據集依次輸入HDNN-tree進行識別,統計每個子數據集的識別準確率。圖8所示是增量學習的HDNN-tree演化示意圖。

圖8 增量學習的HDNN-tree演化示意圖

圖9所示為每次輸入子數據集的平均識別準確率結果,可以看出50%數據集的識別準確率約為78%,隨著增量加入新的子數據集,模型的識別準確率得以提升,最終達到約95%。增量學習的模型性能始終低于靜態訓練的模型。主要原因在于增量學習過程中僅受到影響的分支被重新訓練,未受影響的分支保持固定,所以影響了整體模型的識別性能,但是實現了增量學習的目標。

圖9 增量學習的平均識別準確率

4 結 語

為了提高大數據攻擊檢測的準確率和效率,通過卷積神經網絡提取數據的特征,然后基于長短期記憶網絡學習所提取特征之間的依賴關系,防止出現梯度消失問題。針對LSTM的連接設計了dropout設計,一方面減少特征關系學習過程的過擬合情況,另一方面也提高了網絡的計算效率。最終,設計了基于決策樹的神經網絡增量學習算法,能夠識別出數據的細粒度類標簽。實驗結果表明,混合神經網絡有效地緩解了過擬合問題,并提高了模型的計算效率,同時也驗證了增量學習的有效性。增量學習的神經網絡模型準確率隨著數據集的增加而提升,最終達到約95%,并且本文模型處理每個樣本的時間約為0.002 3 ms,有利于大數據的實時攻擊檢測。

猜你喜歡
深度檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
深度觀察
深度觀察
深度觀察
主站蜘蛛池模板: 国产成人禁片在线观看| 国产在线小视频| 伊人久久福利中文字幕| 亚洲男人的天堂久久精品| 亚洲成A人V欧美综合| 女人av社区男人的天堂| 亚洲IV视频免费在线光看| 国产无码在线调教| 曰韩人妻一区二区三区| 亚洲欧美日韩中文字幕一区二区三区| 奇米影视狠狠精品7777| 人妻丰满熟妇av五码区| 九色在线视频导航91| 国产精品jizz在线观看软件| 国产性爱网站| 久久女人网| 午夜丁香婷婷| 亚洲综合色在线| 高清色本在线www| 国产成人精品高清不卡在线| 精品一区二区无码av| 在线观看亚洲人成网站| 欧美中文字幕在线播放| 国产小视频网站| 午夜精品福利影院| 91精品在线视频观看| 伊在人亚洲香蕉精品播放| 国产精品欧美亚洲韩国日本不卡| 欧美一级在线| 亚洲av片在线免费观看| 欲色天天综合网| 本亚洲精品网站| 在线播放国产一区| 久久中文电影| 成人中文字幕在线| 国产精品白浆在线播放| 狠狠色成人综合首页| 中文字幕在线观看日本| 在线观看免费黄色网址| 久久久久夜色精品波多野结衣| 亚洲天堂久久久| 日本五区在线不卡精品| AV网站中文| 天天视频在线91频| 亚洲视频无码| 国产免费福利网站| 强奷白丝美女在线观看| 亚洲男人的天堂网| 国产日韩欧美精品区性色| 1769国产精品免费视频| 波多野结衣一区二区三区四区 | 国产欧美性爱网| 日韩无码黄色网站| 一级片免费网站| 欧美成a人片在线观看| 97无码免费人妻超级碰碰碰| 亚洲免费成人网| 色老头综合网| 国产精品成人啪精品视频| 午夜欧美在线| 99久久精品免费看国产免费软件| 成人免费视频一区| 人人91人人澡人人妻人人爽| 免费在线一区| 日韩免费毛片| 国产97区一区二区三区无码| 国产精品女主播| 亚洲无码视频图片| 波多野结衣AV无码久久一区| 国产成人资源| 国产精品尤物铁牛tv| 97国产精品视频自在拍| 国产视频一区二区在线观看| 无码一区二区波多野结衣播放搜索| 亚洲成AV人手机在线观看网站| 黄色福利在线| 国产情侣一区| 亚洲成AV人手机在线观看网站| 成人综合在线观看| 香蕉视频在线观看www| 精品久久久无码专区中文字幕| 真实国产乱子伦视频|