999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向不平衡數據和特征冗余的網絡入侵檢測

2023-11-01 02:49:46張翼英王德龍渠慧穎
天津科技大學學報 2023年5期
關鍵詞:特征提取特征檢測

張翼英,王德龍,渠慧穎,張 傲,張 磊

(天津科技大學人工智能學院,天津300457)

入侵檢測系統[1]能夠及時發現已知的網絡攻擊,是一種積極主動的網絡安全防御技術,在網絡安全領域備受關注,是該領域研究的熱點之一[2]。入侵檢測的關鍵是對網絡流量進行正常與異常的分類[3],并根據分類的結果采取相應的應對措施以保障網絡的安全運行,減少受害者的財產損失。

迄今為止,國內外學者和研究人員已經提出了大量的入侵檢測方法對網絡攻擊進行檢測,其中有兩個問題成為研究熱點,一是如何解決數據不平衡的問題以提高入侵檢測的準確率,二是如何進行特征提取才能更好地獲取數據的特征,從而提高對網絡攻擊識別的準確率。針對數據不平衡問題,羅文華等[4]首先利用KNN(K-nearest neighbor)算法選出了與多數類樣本距離最近的少數類樣本,之后使用 DBSCAN (density-based spatial clustering of applications,with noise)算法對選出的樣本進行聚類,形成新的數據集,提高了模型的召回率。汪祖民等[5]提出了一種基于DBSCAN_GAN_XGBoost 的入侵檢測模型,該方法對數量較少的攻擊樣本進行了擴充,并利用DBSCAN 算法對擴充后的樣本數據進行聚類,極大提高了稀有攻擊類別的檢測準確率,但對多數量的攻擊類型的檢測準確率較低。章縉等[6]在傳統隨機森林的基礎上加入了上采樣和加權投票等優化手段,大大提高了模型的檢測能力,但優化后的隨機森林(optimized random forest,ORF)依然存在模型訓練時間較長及檢測準確率不高的問題。Hamid 等[7]提出了一種基于人工神經網絡(artificial neural network,ANN)和小波變換(wavelet transform,WTF)的方法解決數據不完備的問題,提高了少量攻擊類別的檢測準確率。

針對特征提取,葛繼科等[8]利用多層卷積神經網絡對數據集進行特征選擇,去除了數據的冗余特征,之后使用sigmoid 激活函數對攻擊行為進行二分類預測,減少了檢測時間,提高了準確率。夏棟梁等[9]利用蟻群算法(ant colony optimization,ACO)對數據進行降維,提高了分類精度,減小了誤報率,但降維所用時間較長。劉輝[10]提出了一種基于主成分分析(principal component analysis,PCA)和多層感知機(multi-layer perceptron,MLP)的入侵檢測模型,該模型首先采用PCA 對數據進行降維,然后將降維后的數據送入MLP 神經網絡分類器,對網絡入侵行為進行分類,提高了入侵檢測系統的準確率,但PCA 只能進行線性降維,對非線性特征描述不夠全面,以至于誤報率較高。趙荷等[11]憑借深度信念網絡(deep belief network,DBN)對入侵特征進行提取,并利用遞歸特征(recursive feature addition,RFA)對影響模型檢測性能的特征進行選擇,有效降低了模型訓練時間。

上述方法雖然都解決了數據不平衡或者數據特征冗余的問題,但普遍存在檢測準確率不高及對網絡攻擊分類不夠精確的問題。基于此,本文提出一種結合 SMOTE(synthetic minority over-sampling technique)算法采樣的SDAE-LSTM(stacked deep autoencoder-long short term memory)入侵檢測模型,旨在解決攻擊類別不平衡的問題,降低數據的維度,提高準確率,實現對入侵行為的精準捕獲,為網絡入侵檢測提供一種行之有效的方法。

1 相關理論知識

1.1 SMOTE算法

SMOTE 算法的核心是通過線性變換函數在一些距離較近的少數類數據中獲得新數據,使原數據集類別間的數量相對平衡[12]。對少數類中的每個樣本x,計算歐氏距離,得到與其距離較近的K 條數據。之后,根據不平衡率對樣本集的采樣比例進行設置,然后確定采樣倍率N。接下來隨機選取樣本x 的K 近鄰中的多個樣本,記所選樣本為y。對于所選樣本y,按照式(1)利用原始樣本x 構造新樣本z。

其中rand(0,1)表示生成0~1 之間的隨機數。

1.2 堆疊式深度自編碼器原理

網絡入侵檢測數據具有維度高、數據量大的特 點[13],因此在構建入侵檢測模型時所要面臨的一個重要任務便是對所用數據集進行特征降維。自編碼器(auto-encoder,AE)擁有極強的非線性擬合能力,這使它能夠逼近任何擁有非線性特征的函數,除此之外,AE 還能夠自動學習數據特征。基于此,本文選擇堆疊式深度自編碼器(stacked deep auto-encoder,SDAE)進行特征降維,這樣既能自動進行深層特征提取,又同時保持了數據的一致[14],得到最有用的特征。

堆疊式深度自編碼器由多個自編碼器相互疊加構成[15],其憑借上一層隱藏層的表示作為下一層的輸入,獲得更加抽象的表示。圖1 為兩個稀疏自編碼器相互級聯而成的兩層堆疊式深度自編碼器。

圖1 堆疊式深度自編碼器Fig.1 Stacked deep auto-encoder

SDAE 是一種無監督的神經網絡模型,能夠通過不斷學習得到輸入數據的深層表示。將輸入層數據x進行轉換,便可以得到其隱藏層的表示h(x),之后由隱藏層對其進行重構,還原出新的輸入數據。使重構后的數據能夠盡量還原x 便是SDAE 的訓練目標。通常情況下會定義均方誤差描述SDAE 的損失函數,如式(2)所示。

式中:w 表示網絡權重系數,b 表示隱藏層偏置,c 表示輸出層偏置。

為了防止過擬合,通常會在損失函數上加權重衰減,如式(3)所示。

權重衰減的公式為

式中:||W||F為權重矩陣W 的F-范數,W*為W 的轉置矩陣,λ為權重衰減系數。模型的最優參數w、b、c通過梯度下降算法求解得出。

1.3 長短期記憶神經網絡

長短期記憶(long short term memory,LSTM)神經網絡是循環神經網絡(recurrent neural network,RNN)的一種優化模型,其單元結構如圖2 所示。LSTM 的關鍵是細胞(cell)的狀態Ct,為了刪除或增加cell 中的相關信息,LSTM 利用輸入門、輸出門和遺忘門控制信息的通過方式,并保護和控制cell 的 狀態。

圖2 LSTM單元結構Fig.2 LSTM unit structure

遺忘門cell 狀態中的信息是否需要刪除由一個sigmoid 層決定,計算方法如式(5)所示。對于輸入xt和ht-1,遺忘門會輸出一個值域為[0,1]的數字,并將其放入cell 狀態Ct-1中。當值為1 時,盡數保留;當值為0 時,則全部清除。

式中:xt為LSTM 神經網絡在t 時刻的輸入,ht為t 時刻隱藏層的狀態,ft為t 時刻遺忘門的輸出狀態,σ為sigmoid 激活函數,Wf為權重矩陣,bf為偏置向量。cell 通過兩個階段增加新信息。第一階段是決定信息的棄留,該階段由一個包含sigmoid 層的輸入門完成,計算過程見式(6)。第二階段LSTM 會為上一步保留的信息生成一個向量,對細胞狀態進行更新,此過程由tanh 函數實現,計算過程見式(7)。

在輸入門和遺忘門的基礎之上,按照式(8)將細胞狀態Ct-1進行更新。

式中:ft·Ct-1表示想要刪除的信息,表示新增加的信息。

LSTM 的輸出內容是由輸出門決定的,計算過程如式(9)和式(10)所示。首先利用sigmoid 函數決定要輸出的內容,然后用tanh 函數把cell 的狀態值轉換到-1~1 之間,并憑借sigmoid 函數的非線性作用得到最終輸出。

2 結合SMOTE采樣的SDAE-LSTM入侵檢測模型

針對傳統的網絡入侵檢測技術因數據不平衡及特征冗余而導致檢測準確率不高的問題,提出了一種結合SMOTE 采樣的SDAE-LSTM 入侵檢測模型,如圖3 所示。檢測流程共分為3 個階段:第一階段,針對數據不平衡問題,使用SMOTE 采樣方法,對數據中的低頻攻擊樣本進行增量處理,以達到各類別數據量平衡的目的,從而使入侵檢測數據能夠得到更加充分的訓練,憑借此解決數據在傳輸過程中出現的丟失問題;第二階段,利用堆疊式深度自編碼器對采樣后的數據進行特征降維,既能自動進行深層特征提取,又能夠保持數據的一致,得到最有用的特征;第三階段,將提取的深度特征送入LSTM 進行網絡異常檢測、特征識別、分類并將分類結果輸出。模型訓練流程如圖4 所示,具體如下:

圖3 結合SMOTE采樣的SDAE-LSTM入侵檢測模型Fig.3 SDAE-LSTM intrusion detection model combined with SMOTE sampling

圖4 模型訓練流程Fig.4 Model training process

(1)初始化SDAE 的權重參數w 和隱藏層偏置b。

(2)將經過預處理和SMOTE 平衡化后的數據x送入SDAE 模型。

(3)計算各層的輸出值,并通過誤差反向傳播方法對SDAE 進行微調。

(4)更新各層參數,直至達到最優。

(5)LSTM 訓練。

(6)對損失函數進行計算。

(7)觀察訓練結果并進行參數調整,直到模型效果達到最優。

訓練完成后,將測試集送入模型中進行網絡異常檢測,并得出分類結果。

3 實 驗

實驗所用數據集為UNSW-NB15,其擁有真實的網絡攻擊行為和正常行為,可以全方位地反映當前網絡攻擊的多樣性[16]。該數據集包含9 種攻擊類型和正常數據Normal,分為訓練集和測試集,各類數據分布見表1。

表1 UNSW-NB15數據集各類數據分布Tab.1 UNSW-NB15 datasets distribution of various data

3.1 模型評價指標

為合理評價本文入侵檢測模型的性能,本實驗采用準確率(A)、精確率(P)、召回率(R)、誤報率(F)和F1值作為本文模型的評價標準。精確率和召回率可以在一定程度上表征模型的查準率與查全率。準確率為預測正確的樣本個數占全部樣本個數的比例,其比值越大意味著模型的檢測能力越好。誤報率為所有誤報樣本占正常樣本的比例。

其中:NTP表示實例是正例并被預測為正例的數量,NFP表示實例是負例但被預測為正例的數量,NFN表示實例是正例但被預測為負例的數量,NTN表示實例是負例并被預測為負例的數量。

3.2 數據預處理

(1)屬性映射

網絡入侵檢測數據多為字符型[17],不能直接輸入,需要對其進行處理后才能使用。屬性映射便是將數據集中的符號特征轉換為數字型特征,使所有數據均為數值型,便于入侵檢測模型進行處理。UNSWNB15 數據集共有45 個特征屬性,其中state、proto、attack_cat 和service 是字符型特征,它們無法直接輸入,需要對其進行數值化處理。本實驗選用one-hot獨熱編碼對字符型特征進行數值化轉換。

(2)數據歸一化

入侵檢測數據集進行屬性映射后需要進行歸一化處理[18],以消除不同特征間的量綱給檢測結果帶來的負面影響,便于對模型進行綜合評價。例如dur的取值有0.655 618,而sload 的取值有124 104.4,如此巨大的量綱差異會對模型的訓練及收斂速度造成很大影響。此外,數據集經歸一化處理后能夠有效避免奇異樣本造成的不良影響。本文選取min~max 標準化方法進行數據歸一化處理,將數據映射到[0,1]區間內,如式(16)所示。

式中:x 為經過轉換后的數據,x′為經過歸一化處理后的數據,xmin和xmax分別為特征最小值和特征最大值。

3.3 SMOTE技術均衡訓練樣本

鑒于UNSW-NB15 數據集存在數據不平衡的問題,本研究選用SMOTE 采樣算法對數據集中的稀有攻擊類型樣本進行擴充,以使各類別樣本比例變得均衡[19]。采樣前后各類型訓練集樣本數對比見表2。

表2 采樣前后各類型訓練集樣本數對比Tab.2 Comparison of various types of data before and after sampling

3.4 實驗設置與結果分析

由于神經網絡模型中參數較多,故在進行實驗之前需要對參數進行設置,本實驗通過對比分析,將SDAE 的結構及LSTM 的參數進行設置。

SDAE 結構設置:本文所用SDAE 模型深度為4,每層神經元個數分別設置為128、64、64、32,激活函數為ReLU 函數。

LSTM 模型參數設置:本文所用LSTM 模型層數為兩層,每層節點個數為128,學習率為0.002,批大小為128,訓練次數為500,優化器選用Adam。

3.4.1 SMOTE 算法性能分析

為了驗證本文所用采樣方法的性能,實驗對稀有攻擊樣本采樣前后各類型的召回率和精確率進行了對比,結果如圖5 和圖6 所示。

圖5 稀有攻擊類型樣本采樣前后的召回率對比Fig.5 Comparison of recall before and after sampling rare attack samples

圖6 稀有攻擊類型樣本采樣前后的精確率對比Fig.6 Comparison of precision before and after sampling rare attack samples

實驗結果表明,對稀有攻擊類型樣本進行SMOTE 采樣后,Shellcode、Worms、Backdoor 和Analysis 的召回率及精確率都有明顯提高。攻擊類型Analysis 和Backdoor 在進行SMOTE 采樣之前,其召回率都普遍較低,這是因為二者樣本數量過少,數據不能充分學習,使其行為難以檢測,從而導致召回率較低。分別對稀有攻擊類型的數據樣本進行采樣,其樣本數量得到增加,提高了稀有攻擊類別數據的占比,使其能夠充分被分類器學習,從而使召回率得以提高。使用SMOTE 技術對所用樣本進行平衡化處理,能夠有效提高稀有攻擊類型的召回率和精確率,從而使模型獲得更優異的入侵檢測性能。

3.4.2 SDAE 特征提取模型性能分析

為了驗證堆疊式深度自編碼器SDAE 優異的深層特征提取能力,本文以UNSW-NB15 數據集為基礎,以準確率、召回率和誤報率為評價指標,在LSTM、BP、KNN 和 CNN 這 4 種分類器上,將SDAE、主成分分析(PCA)、深度信念網絡(DBN)和隨機森林(RF)這4 種特征提取模型的性能進行了對比,如圖7 所示。由實驗結果可知,當對某一種分類器進行固定時,以上4 種特征提取模型都表現出了較好的性能,分類準確率和召回率均較高,誤報率較小,但相比較而言SDAE 特征提取模型的準確率最高,其次是DBN 和RF,最差為PCA。SDAE 準確率之所以高是因為其具有強大的特征提取能力,使冗余特征被消除,留下的是數據最有用的特征,能夠讓分類器進行精準學習,使模型更好地識別出各種攻擊類型數據的類別,提高檢測準確率。

圖7 不同特征提取模型在不同分類器上的準確率、召回率和誤報率Fig.7 Accuracy,recall and false alarm of different feature extraction models on different classifiers

3.4.3 模型整體性能分析

為了進一步驗證本文所提出的結合SMOTE 采樣的SDAE-LSTM 模型在網絡入侵檢測方面的整體性能,本文選取文獻綜述中所提到的ORF[6]、ANNWTF[7]、PCA-MLP[10]、DBN-RFA[11]這4 種入侵檢測模型作為對比模型,以UNSW-NB15 數據集為基礎,以準確率、精確率、召回率和F1值為評價指標,對比結果見表3。

表3 不同入侵檢測模型的性能Tab.3 Performance of different intrusion detection models

由表3 可知:本文模型對網絡攻擊分類的準確率、精確率與F1值均高于其他模型。本文模型的召回率高于PCA-MLP 模型和ORF 模型,稍低于DBNRFA 模型與ANN-WTF 模型。DBN-RFA 和ANNWTF 兩種入侵檢測模型的總體性能優于PCA-MLP模型,但遜色于本文模型,那是因為雖然DBN 和ANN 都能夠對數據進行降維,但卻無法實現數據的深度特征提取,而SDAE 能夠對數據進行深度特征提取,使分類器可以精準學習,故而性能優于二者。在對比結果中,PCA-MLP 模型分類性能較差,一方面是因為PCA 只能進行線性降維,無法對非線性特征進行全面描述,另一方面是因為MLP 是單一的神經網絡模型,分類效果不及其他幾種模型,從而導致其性能較差。ORF 模型在5 種對比模型中性能最差,雖然作者對其進行了優化,但隨機森林仍存在一些分類能力較差的決策樹,使檢測模型的分類準確率變低。從以上5 種模型的對比結果可以看出,本文模型的精確率及對網絡攻擊識別的準確率較高,召回率稍有不足,總體上優于其他對比模型。

4 結語

本文提出一種結合 SMOTE 采樣的 SDAELSTM 入侵檢測算法,對網絡異常行為進行了檢測。針對數據不平衡問題,采用SMOTE 采樣方法,在少量攻擊類樣本點之間隨機插入樣本,增加其數量,以達到類間平衡的目的。針對特征冗余問題,利用堆疊式深度自編碼器進行數據降維,得到數據的主要特征,讓分類器進行精準學習,使模型更好地識別出各種攻擊類型數據的類別。最后,基于LSTM 神經網絡,精準捕獲網絡入侵特征,準確地實現入侵檢測。實驗結果表明,通過SMOTE 采樣與SDAE 深層特征提取,大大降低了數據的冗余度,模型準確率達到0.958,為網絡入侵檢測提供了一種行之有效的方法。

猜你喜歡
特征提取特征檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
小波變換在PCB缺陷檢測中的應用
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 国产精品亚洲片在线va| 国产成人精品第一区二区| 亚洲高清资源| 亚洲黄色视频在线观看一区| 一级一级特黄女人精品毛片| 99一级毛片| 亚洲精品成人福利在线电影| 在线亚洲精品自拍| 亚洲欧美成aⅴ人在线观看| 亚洲妓女综合网995久久 | 四虎影视无码永久免费观看| 深夜福利视频一区二区| 无码中文字幕精品推荐| 永久免费av网站可以直接看的| 国产超碰在线观看| 97视频免费在线观看| 又爽又大又黄a级毛片在线视频| 亚洲精品欧美重口| 99热国产在线精品99| 日韩在线永久免费播放| 欧美一级高清视频在线播放| 91网在线| 亚洲高清无码精品| 亚洲综合久久成人AV| 欧美综合区自拍亚洲综合绿色 | 26uuu国产精品视频| 人妻无码AⅤ中文字| 就去色综合| 国产美女自慰在线观看| 欧美精品色视频| 色综合五月| 午夜免费小视频| 亚洲中文无码h在线观看| 91九色视频网| 亚洲日韩每日更新| 欧美日韩在线亚洲国产人| 国产精品林美惠子在线播放| 国产男人的天堂| 青青草原国产av福利网站| av天堂最新版在线| 日韩免费毛片视频| 婷婷色狠狠干| 伊人网址在线| 深夜福利视频一区二区| 国产免费羞羞视频| 精品视频福利| 天天婬欲婬香婬色婬视频播放| 久久精品国产在热久久2019| 在线无码九区| 久久国产高清视频| 中文字幕在线播放不卡| 国产精品自在线拍国产电影| 精品综合久久久久久97超人| 黄色网页在线观看| 欧美日韩一区二区三区在线视频| 这里只有精品在线| 四虎国产在线观看| 亚洲欧美综合在线观看| 波多野结衣第一页| 伊人久久大线影院首页| 99久久亚洲综合精品TS| 57pao国产成视频免费播放| 国产美女精品一区二区| 免费aa毛片| www.av男人.com| 久久国产精品电影| 国产永久免费视频m3u8| 毛片免费在线视频| 日韩无码精品人妻| 九九这里只有精品视频| 精品在线免费播放| 一级黄色网站在线免费看| 久久久精品久久久久三级| 天天综合亚洲| 亚洲欧美一区二区三区图片| 精品精品国产高清A毛片| 伊人天堂网| 浮力影院国产第一页| 亚洲精品无码不卡在线播放| 国产女人在线观看| 国产福利影院在线观看| 麻豆AV网站免费进入|