基于M-DRN 多尺度特征提取的入侵檢測方法*

2021-04-20 01:36:54邵凌威鄭燦偉渠振華李世明

網絡安全與數據管理 2021年4期

邵凌威，鄭燦偉，渠振華，黃博，李世明，2

(1.哈爾濱師范大學計算機科學與信息工程學院，黑龍江哈爾濱150025；2.上海市信息安全綜合管理技術研究重點實驗室，上海200240)

0 引言

網絡攻擊行為檢測成為網絡安全的必備保障技術之一，而入侵檢測系統(Intrusion Detection System，IDS)已經成為一種重要的安全檢測技術，其能夠判別網絡中的異常流量數據，從而達到檢測網絡是否遭受入侵攻擊的目的。

目前，入侵檢測系統的研究技術較多[1]，本文主要基于深度學習網絡進行研究，經不完全調研，業界相關典型研究成果主要有：RNN-IDS 模型[2]，其性能優于傳統機器學習分類算法，但訓練時間較多；文獻[3]、[4]采用CNN 和LSTM 混合的入侵檢測方法提高模型性能；基于多尺度卷積神經網絡[5]的入侵檢測方法，其分類準確率達到93.05%，但模型中的參數無法達到最優化，對精度有一定的影響；對KNN 超參數調整和交叉驗證的入侵檢測系統[6]，提高了模型準確率，但是無法識別新型攻擊；文獻[7]針對DoS 攻擊采用更大的卷積核，表現出較高的性能；文獻[8]提出一種簡化的殘差網絡模型S-ResNet，更適合低維和小規模數據；文獻[9]提出一種帶有平均卷積層的CNN-MCL 模型學習流量的異常特征；文獻[10]通過GRU-MLP 模型識別網絡入侵，證明GRU 比LSTM 更適合作為存儲單元。綜合上述，多數方法在入侵檢測系統的性能和準確率方面均有提升，但神經網絡在入侵檢測系統中的應用仍停留在層數較少的模型上，隨著網絡層數增加退化現象越嚴重。

針對上述問題，本文提出一種基于M-DRN(Multiscale-Deep Residual Network)模型的入侵檢測方法，多尺度地提取數據特征。通過增加網絡深度和寬度提升網絡性能，減少池化層來降低特征圖像的縮小速度。實驗結果驗證了本文方法具有良好的效果。

1 相關工作

1.1 卷積神經網絡

卷積神經網絡(CNN)是在網絡的至少一層中使用卷積運算代替普通矩陣乘法運算的神經網絡[11]，多用于識別、檢測和分類任務。 CNN 的訓練通常是通過監督學習來完成的，與DNN 或MLP 等其他算法相比收斂更快。

CNN 中每個神經元的輸出都由其輸入和網絡結構中前幾層神經元的權重與偏差函數共同計算得出。每個層的權重和偏差可以分別使用式(1)和式(2)表示：

其中，wi和bi分別是神經元i的權重和偏差；a和r分別是正則化參數和學習率；n和m分別是訓練樣本總數和動量；t是更新的步驟；C代表成本函數。這些參數通過訓練過程進行更新和調整，以獲得模型最佳性能。

1.2 數據處理方法

在實驗前，需要對輸入數據進行預處理，實現輸入數據與卷積神經網絡的輸入需求格式相匹配，主要過程如下：

(1)數值化：在卷積運算時，若輸入數據中存在非數值型數據時，利用one-hot 編碼技術將其轉換為數值型數據。

(2)歸一化：為了消除不同量綱對特征提取的影響，用歸一化處理將每個屬性的數值范圍縮小在[0，1]內，如式(3)所示：

其中，f是屬性原始值，f′是歸一化值，maxj和minj分別是第j個屬性的最大值和最小值。

(3)圖像化：對于一維數據需要經過填充、合并、刪除方式，調整到適合卷積操作的二維數據結構。

1.3 殘差網絡

定義1殘差網絡(Residual Network，ResNet)[12]是一種基于卷積神經網絡模型的算法，網絡結構如圖1 所示。

圖1 殘差網絡

殘差網絡主要部分是由多個殘差塊構成的，殘差塊則是在堆疊的卷積層中加入了跳躍連接，目前多數情況使用二層或三層結構，如圖2 所示。

輸入數據x 通過跳躍連接和卷積后的輸出F(x)相加得到H(x)=F(x)+x，只要模擬殘差函數F(x)=0就可以保證特征的恒等不變性，即使堆疊很多層的殘差塊也不會使網絡出現退化現象[12]。二層結構殘差塊可由式(4)和式(5)表示：

圖2 Residual 結構

其中，x 為輸入向量，y 為輸出向量，σ 為激活函數，W為權重值，b 為偏置量。在多層殘差網絡中，深層L和淺層l的關系可用式(6)表示：

損失函數ε 關于xl的梯度如式(7)所示：

2 M-DRN 模型

2.1 算法設計

定義2密集多核殘差(Dense Multi-core Residual，DMR)：為在殘差塊中能夠同時采用多個不同感受野的卷積來提取數據的特征，在累加不同特征圖的最高維度后進行降維處理，并與輸入的x 求和，該模型為DMR。

在不考慮激活函數的情況下，數據x 經過一個卷積層計算后的輸出值y 可由式(8)所示：

其中W 和b 含義同式(4)，當x 同時經過n個不同大小的卷積核處理，得到的輸出y′可由式(9)和式(10)表示：

式(9)中運算符⊕表示最高維度的加運算，目的是在不改變特征本身的同時增加特征數量，可以提取更多的細節特征。為了保證數據輸入和輸出的維度相同，需要1×1 卷積核特征降維。進而根據式(4)和式(5)可得到計算DMR 的公式，如式(11)和式(12)所示：

其中W′和b′是降維卷積的權值和偏置。

2.2 模型設計

由于網絡流量數據和圖片數據的不同，經過圖像化后的流量圖像尺寸遠小于常規的圖片尺寸，能夠提取的數據特征也相對較少，因此常規深度學習網絡不能很好地提取流量特征。本文提出的M-DRN整體結構如圖3 所示。

圖3 M-DRN 網絡結構

2.2.1 特征提取流程

M-DRN 模型特征提取流程如下：

(1)經過1 個3×3 卷積核初步提取數據特征，在提升數據維度時能夠讓更深的網絡層學習到更多的特征；

(2)經過3 個DMR 堆疊的卷積層計算可進一步提取數據的細節特征；

(3)利用1 個最大池化層減少參數數量可加快網絡收斂速度；

(4)經過多個殘差塊、1 個池化層和2 個全連接層計算可將最終提取的特征轉換為一維特征向量，并利用softmax 進行流量分類。

在特征提取的過程中，只加入1 次池化操作，目的是降低特征圖像的縮小速度，方便加深網絡層數。

M-DRN 的網絡結構參數如表1 所示。

表1 M-DRN 網絡結構參數

其中每個卷積操作后都使用BN[13]算法加速收斂，在FC1 中采用Dropout 方法防止過擬合，FC2 的激活函數softmax，目的是完成流量分類，其余層激活函數均為ReLU 函數。 MaxPooling 在DMR 之后提取更為突出的特征，保證影響力大的特征不會消失；AvgPooling 用于FC(Fully Connected)之前，用于特征降維的同時保證特征整體傳播。

2.2.2 DMR 結構

為了適應流量數據圖像的小尺寸特點，本文模型中的DMR 采用1×1，3×3 和5×5 的卷積核。由于5×5 的卷積核計算量更大、參數更多，為了加快學習速度在DMR 中引入因子分解[14]思想，利用2 個3×3 卷積替代1 個5×5 卷積結構以減少參數數量。DMR 結構如圖4 所示。

圖4 采用的DMR 結構

3 實驗與結果

3.1 實驗環境

本文實驗環境如表2 所示。

3.2 數據集與預處理

本文實驗選用NSL-KDD 數據集，該數據集中的數據可以細分為5 類[15]，訓練集和測試集中包含每種類型數目如表3 所示。

表2 實驗環境

表3 NSL-KDD 數據集包含5 類數據的數量

每條流量數據包含41 個屬性和1 個標簽，在訓練模型之前需要預先對數據進行數值化、歸一化和圖像化處理。

3.3 評價指標

本文采用由混淆矩陣計算得出的正確率(Accuracy，AC)作為評價指標，混淆矩陣如表4 所示。

表4 混淆矩陣

AC 代表正確分類數占數據總數的比例，計算方法如式(13)所示：

3.4 實驗結果

實驗分別采用KDDTrain+、KDDTest-21 為訓練集和測試集，算法選用經典CNN 和ResNet 網絡進行對比，網絡結構參數設置如表1 所示，且所有卷積層后都加入BN 進行歸一化處理。隨著迭代次數的增加，各模型準確率如圖5 所示。

實驗表明，M-DRN 與CNN 和ResNet 網絡效果相近，精度都在40%～50%之間。經進一步分析發現，訓練集中R2L 和U2R 兩種攻擊數量占總數據量的0.8%，而在測試集中，這兩種數據占比為44.6%。因為訓練集的數據分布不同于測試集，模型訓練時更加偏向頻繁的數據，導致總體精度較低。

圖5 模型精確度和迭代次數

為對比各模型的特征提取效果，現將數據集按4：1 比例重新劃分并用于訓練集和測試集，新的數據集信息如表5 所示。

表5 劃分訓練集信息

各模型在NewTest 上的準確率如圖6 所示。

圖6 NewTest 測試準確率

如圖6 所示，CNN 模型在迭代9 次和12 次的時候出現大幅波動，M-DRN 和ResNet 在迭代3 次以后基本平穩，說明殘差結構在深層網絡中更穩定。在20 輪迭代之后，M-DRN 模型比ResNet 模型提升了3.35%的準確率。本文模型在訓練集KDDTrain+上的訓練時間與文獻[2]中的RNN-IDS 處理五分類問題時的訓練時間對比，結果如表6 所示。

經對比，雖然本文模型在訓練集上的準確率略低于RNN-IDS 模型，但是平均每輪訓練時間比RNN-IDS 模型少65.2%。

表6 訓練時間對比

4 結論

本文針對深度學習應用于入侵檢測中存在準確率低和模型易過擬合問題，提出了一種改進的殘差網絡模型。將流量數據轉換成圖像形式作為模型輸入，利用多尺度的卷積充分提取數據特征，用BN和Dropout 方法防止過擬合。通過實驗驗證，使用殘差結構能夠提高深層網絡的穩定性，有效防止過擬合；多尺度特征提取方法能夠提升分類效果；網絡收斂速度也有所提升。但是對于數據量少的攻擊類型，本文模型泛化能力較弱。接下來的工作，將利用下采樣、smote 等方法平衡數據集，進一步改進本文模型。