999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于CNN CBAM-BiGRU Attention 的加密惡意流量識別

2023-11-18 03:32:42劉朝暉歐陽燕陳建華
計(jì)算機(jī)工程 2023年11期
關(guān)鍵詞:特征提取特征模型

鄧 昕,劉朝暉,,歐陽燕,陳建華

(1.南華大學(xué) 計(jì)算機(jī)學(xué)院,湖南 衡陽 421001;2.南華大學(xué) 創(chuàng)新創(chuàng)業(yè)學(xué)院,湖南 衡陽 421001)

0 概述

近年來,隨著對隱私保護(hù)和數(shù)據(jù)安全需求的提高,越來越多的網(wǎng)絡(luò)應(yīng)用對流量進(jìn)行了加密處理。據(jù)《谷歌透明度報(bào)告》統(tǒng)計(jì)的數(shù)據(jù),截至2022 年9 月,在chrome 瀏覽器的所有流量中,https 加密流量占到了99%[1]。流量加密技術(shù)也為惡意流量提供了可乘之機(jī),惡意流量通過加密技術(shù)隱藏自己的惡意行為,從而躲避安全檢測,導(dǎo)致傳統(tǒng)的檢測方法失效。對加密后的網(wǎng)絡(luò)流量進(jìn)行解密,不僅需要消耗大量的計(jì)算資源和時(shí)間,而且難度較大,同時(shí)還存在侵犯隱私等問題。如何在不解密的前提下識別加密流量中的惡意流量,成為工業(yè)界與學(xué)術(shù)界的研究熱點(diǎn)與難點(diǎn)之一。

對流量進(jìn)行加密后,IP 報(bào)文的明文變成密文,很多特征都發(fā)生了變化,使得基于深度包檢測和基于深度流檢測的方法失去效果[2]。研究人員通過對惡意加密流量的特征進(jìn)行分析,發(fā)現(xiàn)正常加密流量與惡意加密流量的行為特征有明顯差異,機(jī)器學(xué)習(xí)方法可以利用這些特征將惡意與正常的加密流量區(qū)分開來,但是如何選取特征則依賴專家經(jīng)驗(yàn),且深層特征難以直接發(fā)現(xiàn)。深度學(xué)習(xí)能夠自動地從原始數(shù)據(jù)中提取和選擇特征,避免了繁瑣的特征工程,因此,在加密惡意流量識別問題研究中,大量學(xué)者開始使用深度學(xué)習(xí)方法。

本文提出一種加密惡意流量識別網(wǎng)絡(luò)模型,其使用1DCNN+CBAM(Convolutional Block Attention Module)[3]提取空 間特征,利 用BiGRU+Attention 提取時(shí)序特征,以改善現(xiàn)有方法存在的對加密流量特征表征能力不足等缺點(diǎn)。通過在公開數(shù)據(jù)集CTU-13和ISCX VPN-nonVPN 上進(jìn)行對比實(shí)驗(yàn),以驗(yàn)證該模型的有效性。

1 相關(guān)工作

現(xiàn)有的加密惡意流量識別方法主要分為機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法兩種。

機(jī)器學(xué)習(xí)方法需要先人工進(jìn)行特征選取,再從原始流量中提取這些特征,然后利用這些特征進(jìn)行分類。文獻(xiàn)[4]首次提出在不解密的情況下利用機(jī)器學(xué)習(xí)技術(shù)從加密的網(wǎng)絡(luò)流量中識別出具有惡意行為的網(wǎng)絡(luò)流量。文獻(xiàn)[5]通過分析加密正常流量與加密惡意流量的TLS 流、DNS 流和HTTP 流,選擇加密惡意流量與正常流量有明顯不同的地方作為特征,利用SVM 算法進(jìn)行識別。文獻(xiàn)[6]規(guī)避了流量的五元組信息,利用報(bào)文負(fù)載和流指紋來識別加密惡意流量。但是,基于機(jī)器學(xué)習(xí)的方法特征工程耗時(shí)耗力,不同的數(shù)據(jù)集中有效特征不同,在特征選取上非常依賴專家經(jīng)驗(yàn),特征選取的好壞直接影響結(jié)果。此外,惡意軟件的更新迭代速度非??欤粽呖梢酝ㄟ^更新代碼使部分特征失效,從而繞過檢測。

近年來,為了避免特征工程,研究人員開始在加密流量分類和惡意流量識別任務(wù)中使用深度學(xué)習(xí)這種端到端的方法來自動提取特征。文獻(xiàn)[7]將流量轉(zhuǎn)換為灰度圖,然后使用1D_CNN 模型與2D_CNN[8]進(jìn)行惡意流量與正常流量的二分類以及流量應(yīng)用類型的多分類,實(shí)驗(yàn)結(jié)果表明,1D_CNN 在加密流量分類中表現(xiàn)更好,這是在流量分類任務(wù)中首次嘗試端到端的表征學(xué)習(xí)方法,給加密流量分類和惡意流量識別引入了新的思路。文獻(xiàn)[9]使用CNN 和專家經(jīng)驗(yàn)特征混合神經(jīng)網(wǎng)絡(luò)來識別惡意TLS 流量。文獻(xiàn)[10]利用 Word2vec 對流量負(fù)載進(jìn)行詞嵌入,并通過多核一維卷積識別惡意軟件加密C&C 流量。文獻(xiàn)[11]利用堆棧式自動編碼器(SAE)模型進(jìn)行加密流量應(yīng)用類型的多分類。

上述方法只關(guān)注了空間特征,缺少對流量上下文時(shí)序信息的表征,在面對復(fù)雜網(wǎng)絡(luò)流量時(shí)識別效果可能會出現(xiàn)嚴(yán)重下降[12]。文獻(xiàn)[13]使用LSTM 模型提取網(wǎng)絡(luò)層的傳輸包序列和時(shí)間序列特征以識別流量行為,完成加密惡意流量識別的二分類任務(wù)。文獻(xiàn)[14]利用BiGRU 和注意力機(jī)制進(jìn)行HTTPS 流量分類。文獻(xiàn)[15]提出BotCatcher檢測框架,使用CNN和雙向LSTM 組合來進(jìn)行僵尸網(wǎng)絡(luò)檢測的二分類任務(wù)。文獻(xiàn)[16]提出CNN-LSTM 檢測模型,CNN 學(xué)習(xí)底層空間特征,LSTM 學(xué)習(xí)高階時(shí)序特征。文獻(xiàn)[17]使用CNN-SIndRNN 模型識別使用TLS 協(xié)議加密的惡意流量,在訓(xùn)練時(shí)間和檢測時(shí)間上有大幅提升。文獻(xiàn)[18]修改卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),用卷積層代替池化層提高對流量的表征能力。文獻(xiàn)[19]使用TextCNN+BiLSTM 捕獲時(shí)空特征,再利用多頭注意力機(jī)制提取關(guān)鍵特征以進(jìn)行惡意應(yīng)用流量識別。文獻(xiàn)[20]把Inception 與Vision Transformer 兩個(gè)模型結(jié)合起來,在未知流量上進(jìn)行實(shí)驗(yàn)。文獻(xiàn)[21]提出一種ET-BERT 模型,在大規(guī)模無標(biāo)記流量中使用多層注意力來學(xué)習(xí)流量上下文關(guān)系和流量間的傳輸關(guān)系,在特別場景下進(jìn)行微調(diào)以完成加密流量分類任務(wù)。

現(xiàn)有方法雖然效果良好,但是僅依靠神經(jīng)網(wǎng)絡(luò)模型提取特征,并未充分利用加密流量的時(shí)序和空間特征,導(dǎo)致對流量的表征有限。在現(xiàn)有研究的基礎(chǔ)上,本文提出一種同時(shí)考慮流量空間特征與時(shí)序特征的模型,并且在空間特征和時(shí)序特征提取中加入注意力機(jī)制來對重要特征進(jìn)行加權(quán),突出加密惡意流量與正常流量中差異性大的特征,從而提高識別的準(zhǔn)確性。

2 方法設(shè)計(jì)

本文提出的加密惡意流量檢測方法主要分為數(shù)據(jù)預(yù)處理、流量空間特征與時(shí)序特征提取、流量分類3 個(gè)步驟,模型結(jié)構(gòu)如圖1 所示。首先將原始流量數(shù)據(jù)預(yù)處理為灰度圖,然后再轉(zhuǎn)換為一維序列。特征提取層對輸入的序列自動提取時(shí)空特征:在空間特征提取模塊,選用不同大小的一維卷積核對輸入流量進(jìn)行特征提取,為了防止特征丟失,通過調(diào)整卷積層參數(shù)代替池化層進(jìn)行特征壓縮與去除冗余[22],再利用CBAM 注意力機(jī)制對提取到的不同尺度的空間特征進(jìn)行加權(quán)以提高分類準(zhǔn)確率;在時(shí)序特征提取模塊,選用雙層雙向GRU 網(wǎng)絡(luò),再利用注意力機(jī)制突出不同數(shù)據(jù)包之間的差異。流量識別是依靠不同類型流量之間的特征差異來判定的,因此,最后要把提取到的混合特征向量進(jìn)行融合,再利用Softmax 分類器進(jìn)行二分類和多分類。

圖1 加密惡意流量檢測模型結(jié)構(gòu)Fig.1 Structure of encrypted malicious traffic detection model

2.1 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理的目的是盡可能保留原始流量數(shù)據(jù)中特征差異最大的數(shù)據(jù),并把數(shù)據(jù)轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)模型輸入所要求的向量類型。

在流量粒度的選擇上,與單向流相比,通信雙方的雙向會話流含有更多的交互信息,選取流量所有層的信息能盡可能地保留原始流量[6]。預(yù)處理工作首先將原始pcap 文件按會話進(jìn)行拆分。原始數(shù)據(jù)集的每一類流量對應(yīng)一個(gè)pcap 文件,把原始數(shù)據(jù)按數(shù)據(jù)包進(jìn)行拆分,將一定時(shí)間內(nèi)具有相同五元組(傳輸協(xié)議,源端口號,源IP 地址,目的端口號,目的IP 地址)信息的數(shù)據(jù)包匯聚成流,再利用源IP 和目的IP將流組成會話,刪除空會話生成的空文件,相同會話生成的文件只保留一個(gè),同時(shí)刪除MAC 地址、IP 地址等會對模型造成偏差的信息。

由于模型只能輸入定長數(shù)據(jù),因此所有會話必須統(tǒng)一長度。參考文獻(xiàn)[7]的實(shí)驗(yàn)設(shè)計(jì),本文將清洗后的會話長度統(tǒng)一修剪為784 Byte,長度不足的會話在末尾用零補(bǔ)齊。加密惡意流量和正常加密流量的主要差異存在于前面握手階段,因此選取前784 Byte 主要包含握手階段的協(xié)商信息,784 也方便轉(zhuǎn)換為28×28 的灰度圖。

在統(tǒng)一長度后,每一個(gè)會話被轉(zhuǎn)化為灰度圖,網(wǎng)絡(luò)流量傳輸?shù)淖止?jié)在0~255 之間,把序列數(shù)據(jù)轉(zhuǎn)換成二維,生成png 格式的灰度圖,0 對應(yīng)黑色,255 對應(yīng)白色,通過灰度圖可以直觀感受到各類流量的不同,png 格式也方便讀入數(shù)據(jù)。在讀入數(shù)據(jù)后,為了提高模型的收斂速度,先將灰度圖轉(zhuǎn)換回一維序列,再利用Min-Max 標(biāo)準(zhǔn)化的方法對數(shù)據(jù)進(jìn)行歸一化。

在進(jìn)行時(shí)序特征提取之前,需要對會話的字節(jié)進(jìn)行向量化。文獻(xiàn)[23]采用One-hot 編碼,但這種編碼方式會導(dǎo)致生成的二維矩陣過于稀疏,影響模型的擬合效果。本文采用Embedding 詞嵌入,將原始流量的前784 Byte 編碼成784×64 的稠密向量。

2.2 特征提取

特征提取模塊分成空間特征提取模塊和時(shí)序特征提取模塊,2 個(gè)模塊直接對原始數(shù)據(jù)進(jìn)行特征提取。2 個(gè)模塊并行,可以更好地表征流量,避免由串行帶來的信息丟失,從而提高識別準(zhǔn)確率。

2.2.1 空間特征提取

網(wǎng)絡(luò)通信中客戶端與服務(wù)器的會話類似于現(xiàn)實(shí)中2 個(gè)人的對話,會話的流量可以類比于對話的句子。一維卷積更適用于序列處理,如果采用高維卷積,則需要把序列變成高維向量,轉(zhuǎn)換過程中有可能把原有流量的連續(xù)數(shù)據(jù)變成毫不相干的兩部分[10],破壞了流量的原始信息。因此,本文采用一維卷積來提取流量的空間特征,不會破壞流量數(shù)據(jù)原來的相對位置,避免了信息丟失給模型識別準(zhǔn)確性帶來的影響。傳統(tǒng)的CNN 結(jié)構(gòu)由卷積層與池化層相互交替組成,池化層通過使用最大值或平均值代替池化核內(nèi)的值進(jìn)行特征壓縮及去除冗余[22],從而簡化網(wǎng)絡(luò)復(fù)雜度。但是在流量數(shù)據(jù)中,相鄰的字節(jié)之間關(guān)聯(lián)性較弱,若使用最大池化或平均池化,容易導(dǎo)致特征的丟失。如圖2 所示,在TCP 頭部,SYN、FIN、ACK、PSH、RST、URG 的每種信息僅使用一個(gè)二進(jìn)制位來表示,與前一位的信息并無聯(lián)系。

圖2 TCP 頭部結(jié)構(gòu)Fig.2 Structure of the TCP header

加密流量的空間特征包含多種特征,如果只采用單一大小的卷積核,容易忽略某些空間特征,因此,本文選取多種大小不同的一維卷積核進(jìn)行空間特征提取。為了盡可能地保留不同尺度的空間特征,將卷積層后的池化層使用卷積層代替,通過調(diào)整卷積層中卷積核尺寸、步長、填充等參數(shù)得到和池化層同樣大小的輸出,卷積層可以通過參數(shù)學(xué)習(xí)來防止特征丟失,同時(shí)也能達(dá)到壓縮特征和去除冗余的目的。

識別惡意流量以及惡意流量種類需要依靠加密套件復(fù)雜程度、流量負(fù)載等特征,這些特征的差異度會有不同,差異度大的特征能幫助模型更好地識別出惡意流量。注意力機(jī)制能夠?qū)斎胩卣髻x予不同的權(quán)重,從而突出重要特征,提高分類的準(zhǔn)確性。CBAM 是一種輕量級的端到端注意力機(jī)制,由通道注意力模塊和空間注意力模塊串聯(lián)組成,有效結(jié)合了2 個(gè)模塊的優(yōu)勢。其中,通道注意力的作用是明確特征中什么是有意義的,空間注意力的作用是明確特征中重要的特征在哪里。CBAM 結(jié)構(gòu)如圖3所示。

圖3 CBAM 結(jié)構(gòu)Fig.3 CBAM structure

通道注意力結(jié)構(gòu)如圖4 所示。輸入的特征矩陣先同時(shí)進(jìn)行最大池化和平均池化,再經(jīng)過多層感知機(jī)處理得到2 個(gè)通道注意力的映射,最后把2 個(gè)結(jié)果相加再與原輸入相乘得到輸出。

圖4 通道注意力結(jié)構(gòu)Fig.4 Channel attention structure

空間注意力結(jié)構(gòu)如圖5 所示。輸入的特征矩陣先同時(shí)進(jìn)行最大池化和平均池化,把得到的矩陣先聚合再進(jìn)行一次激活函數(shù)為Sigmoid 的卷積,最后與原輸入相乘得到輸出。

圖5 空間注意力結(jié)構(gòu)Fig.5 Spatial attention structure

不同大小卷積核提取到的不同維度的空間向量,對于加密流量識別的重要性不同。為了能夠突出重要特征的作用,在卷積層后添加CBAM 模塊,通過對重要的特征賦予更高的權(quán)重,提高識別的準(zhǔn)確性,最后再經(jīng)過一層卷積層提取深層的空間特征。

2.2.2 時(shí)序特征提取

CNN 善于提取空間特征,但是難以捕捉流量的時(shí)序特征。網(wǎng)絡(luò)流量的字節(jié)-數(shù)據(jù)包-流量結(jié)構(gòu)可以類比于字-詞語-句子的結(jié)構(gòu)。字節(jié)、數(shù)據(jù)包、流量按時(shí)間順序排列,因此,網(wǎng)絡(luò)流量存在時(shí)間序列相關(guān)的特征。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是提取時(shí)序特征的常用方法,但是傳統(tǒng)的RNN 中由于后面的神經(jīng)元難以與前面輸入建立聯(lián)系,導(dǎo)致對長距離信息的學(xué)習(xí)能力較弱。LSTM 和GRU 能在一定程度上緩解傳統(tǒng)RNN 存在的梯度爆炸和梯度消失問題。與LSTM 相比,GRU 的結(jié)構(gòu)更簡單,參數(shù)更少,因此,本文模塊選取GRU 進(jìn)行時(shí)序特征提取。

單向GRU 只能將當(dāng)前輸入與歷史信息建立聯(lián)系,無法捕捉到未來輸入對當(dāng)前輸入的影響,然而流量數(shù)據(jù)會話中的某個(gè)數(shù)據(jù)包與前后數(shù)據(jù)包都存在時(shí)序聯(lián)系,因此,本文選擇使用雙向GRU(BiGRU)模型來提取流量的時(shí)序特征。雙向GRU 由正向GRU和反向GRU 連接而成,正反2 個(gè)方向互補(bǔ)能夠建立當(dāng)前輸入與前后狀態(tài)的聯(lián)系,更好地表征流量時(shí)序特征。時(shí)序特征提取模塊結(jié)構(gòu)如圖6 所示。

圖6 時(shí)序特征提取模塊結(jié)構(gòu)Fig.6 Temporal feature extraction module structure

本文先對輸入流量進(jìn)行詞嵌入,再使用雙向GRU 模型進(jìn)行時(shí)序特征提取,網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)為串聯(lián)的兩層雙向GRU,通過加深網(wǎng)絡(luò)層次來提取深層時(shí)序特征。由于在會話中每個(gè)數(shù)據(jù)包對加密惡意流量識別的重要性不同,因此最后針對時(shí)序特征向量使用Attention 模塊來突出重要時(shí)序特征。

2.3 流量識別

時(shí)序特征和空間特征是完全不同的特征,2 種特征在識別中起到的作用也不相同,因此,本文在進(jìn)行特征融合時(shí)定義如下:

其中:F是特征融合后的向量;fs是空間特征向量;ft是時(shí)序特征向量;w是一個(gè)超參數(shù),取值范圍為(0,1),用來調(diào)節(jié)各部分特征對最終結(jié)果的影響程度。最后,把融合的特征F輸入Softmax 分類器中。Softmax 分類器使用Softmax 激活函數(shù)得到識別為每種類別流量的概率,取最大值作為模型識別結(jié)果,其計(jì)算公式如式(2)所示:

其中:pi表示輸入的一次會話被識別為第i種流量的概率;xi為對應(yīng)流量類別的分?jǐn)?shù)。

3 實(shí)驗(yàn)驗(yàn)證

3.1 實(shí)驗(yàn)環(huán)境與設(shè)置

本文實(shí)驗(yàn)在Windows 操作系統(tǒng)中完成。在數(shù)據(jù)預(yù)處理階段,使用SplitCap 工具將原始數(shù)據(jù)以會話為單位進(jìn)行分割,使用numpy、PIL 等庫對會話進(jìn)行處理,生成灰度圖。在深度學(xué)習(xí)模型的搭建與訓(xùn)練階段,使用TensorFlow 和Keras2.7.0 框架進(jìn)行模型搭建與參數(shù)調(diào)優(yōu)。CPU 使用Intel 酷睿i7-12700F,內(nèi)存為32 GB,采用英偉達(dá)RTX3060 顯卡加速。為了增強(qiáng)實(shí)驗(yàn)的有效性,防止偶然性,取10 次實(shí)驗(yàn)結(jié)果的平均值作為最終結(jié)果,細(xì)粒度劃分實(shí)驗(yàn)進(jìn)行十折交叉驗(yàn)證,訓(xùn)練集、驗(yàn)證集、測試集的比例設(shè)置為8∶1∶1。

在模型網(wǎng)絡(luò)結(jié)構(gòu)中,空間特征提取模塊中2 個(gè)卷積層的卷積核分別設(shè)置為32 和64,代替池化作用的卷積層的卷積核與上一層卷積核個(gè)數(shù)相同,步長設(shè)置為5,使用ReLU 激活函數(shù),經(jīng)過CBAM 塊后再經(jīng)過一個(gè)Flatten 層與全連接層變成128 維向量。2 層時(shí)序特征提取部分的雙向GRU 的unite 分別設(shè)置為32和64,神經(jīng)網(wǎng)絡(luò)的每一層設(shè)置Dropout 為0.5。選用交叉熵?fù)p失函數(shù),Adam 算法優(yōu)化,學(xué)習(xí)率設(shè)置為10-3,batch_size 設(shè)置為64。

3.2 數(shù)據(jù)集

文獻(xiàn)[2]指出,可用于異常加密流量識別和加密攻擊流量識別的公開數(shù)據(jù)集非常少,很難找到既包含加密惡意流量又有正常加密流量且以pcap 格式存儲的公共數(shù)據(jù)集。因此,本文的惡意加密流量數(shù)據(jù)集選取CTU-13[24],正常加密流量數(shù)據(jù)集選用ISCX VPN-nonVPN[25]。

CTU-13 是由各種加密惡意流量組成的數(shù)據(jù)集,這些流量是由捷克理工大學(xué)開展的Malware Capture Facility 項(xiàng)目所收集的,本文從中選取10 種加密惡意流量,具體類型與數(shù)目如表1 所示。ISCX VPNnonVPN 是加密流量應(yīng)用和服務(wù)類型分類任務(wù)中常用的數(shù)據(jù)集,該數(shù)據(jù)集由7 種常規(guī)加密和7 種VPN 加密的應(yīng)用流量組成,本文從中選取10 種流量組成正常流量數(shù)據(jù)集,具體類型與數(shù)目如表2 所示。數(shù)據(jù)經(jīng)過預(yù)處理后,生成的部分流量灰度圖如圖7 所示,從圖7 可以直觀地感受到各種類型流量之間的差異。

表1 加密惡意流量數(shù)據(jù)集Table 1 Encrypted malicious traffic dataset

表2 正常加密流量數(shù)據(jù)集Table 2 Normal encrypted traffic dataset

3.3 評估指標(biāo)

實(shí)驗(yàn)使用準(zhǔn)確率(Accuracy)、查準(zhǔn)率(Precision)、查全率(Recall)、F1 值(F1)等常見指標(biāo)對模型性能進(jìn)行評估。各指標(biāo)的計(jì)算公式如式(3)~式(6)所示:

其中:TTP,k表示正確識別的k類流量的數(shù)量;TTN,k表示正確識別的非k類流量的數(shù)量;FFN,k表示k類流量識別為非k類流量的數(shù)量;FFP,k表示非k類流量識別為k類流量的數(shù)量。

3.4 結(jié)果分析

在卷積核的選擇上,本文選取4 種常用尺寸的卷積核組合,在二分類任務(wù)中進(jìn)行實(shí)驗(yàn),結(jié)果如表3所示。從表3 可以看出,選用3、5、7 這3 種大小尺寸組合時(shí)準(zhǔn)確率和F1 值最高,因此,本文選用3、5、7 這3 種不同大小的卷積核組合。

表3 不同卷積核組合的實(shí)驗(yàn)對比Table 3 Experimental comparison of different convolution kernel combinations

圖8 反映了訓(xùn)練過程中模型準(zhǔn)確率與訓(xùn)練迭代次數(shù)的關(guān)系。由圖8 可見,訓(xùn)練5 輪時(shí)驗(yàn)證集準(zhǔn)確率達(dá)到99%,訓(xùn)練15 輪時(shí)模型基本收斂,準(zhǔn)確率達(dá)到99.5%,說明本文模型收斂速度較快,能夠提取出惡意加密流量的有效特征并識別出惡意流量。

圖8 準(zhǔn)確率與迭代次數(shù)的關(guān)系Fig.8 Relationship between accuracy and number of iterations

在融合層的超參數(shù)w設(shè)置上,選取從0.1~0.9 且間隔為0.1 的9 個(gè)數(shù)進(jìn)行實(shí)驗(yàn),結(jié)果如圖9 所示。由圖9 可知,將w取為0.6 時(shí)模型效果最佳,在本數(shù)據(jù)集中流量的空間特征差異略大于時(shí)序特征。

圖9 不同參數(shù)w 下的F1 值Fig.9 F1 values under different parameters w

3.4.1 二分類消融實(shí)驗(yàn)

為了驗(yàn)證本文模型中各模塊的作用,進(jìn)行二分類消融實(shí)驗(yàn)。1DCNN 模型去除了時(shí)序特征提取模塊與CBAM 模塊,BiGRU 模型去除了空間特征提取模塊與Attention 模塊,1DCNN+BiGRU 模型是上述2 個(gè)模塊的拼接,1DCNN-BiGRU 去除了空間特征提取模塊中的CBAM 和時(shí)序特征提取模塊中的注意力部分。

為了更真實(shí)地模擬現(xiàn)實(shí)網(wǎng)絡(luò)場景,更好地驗(yàn)證模型的魯棒性,在二分類實(shí)驗(yàn)中,訓(xùn)練集由加密惡意流量數(shù)據(jù)集中的前5 類各1 000 條和加密正常流量數(shù)據(jù)集中的前5 類各1 000 條會話組成,測試集由兩部分?jǐn)?shù)據(jù)集的剩下類別各選1 000 條會話組成,這樣能夠保證測試集中的流量類型在訓(xùn)練集中都沒有出現(xiàn)過,可以檢驗(yàn)?zāi)P妥R別未知類型加密惡意流量的性能。

由表4 可以看出,本文模型的準(zhǔn)確率、召回率、F1 值均為5 種模型中最高的,說明本文模型在5 種模型中檢測惡意流量的能力最強(qiáng)。5 種模型的準(zhǔn)確率、召回率、F1 值都已達(dá)到94%以上,說明加密的惡意流量與正常流量在空間特征與時(shí)序特征上有較大差異,可以通過深度學(xué)習(xí)方法來進(jìn)行識別。從1DCNN 和BiGRU 的實(shí)驗(yàn)結(jié)果與CNN+BiGRU 和CNN-BiGRU的實(shí)驗(yàn)結(jié)果對比可以看出,同時(shí)考慮時(shí)序特征和空間特征的模型比只考慮單一特征的模型表現(xiàn)更好。從CNN+BiGRU 與CNN-BiGRU 的實(shí)驗(yàn)結(jié)果對比可以看出,本文模型的2 個(gè)模塊更適合并行,模塊并行能在一定程度上避免串行導(dǎo)致的部分特征丟失問題。本文模型在3 個(gè)指標(biāo)上都優(yōu)于CNN-BiGRU,說明注意力機(jī)制能夠提高模型對加密惡意流量的識別能力。

表4 二分類實(shí)驗(yàn)結(jié)果對比Table 4 Comparison of results of binary classification experiments %

3.4.2 十分類對比實(shí)驗(yàn)

在現(xiàn)實(shí)場景中,除了需要識別網(wǎng)絡(luò)中的惡意流量,還需要對惡意流量的類別進(jìn)行細(xì)粒度劃分,將結(jié)果提供給網(wǎng)絡(luò)維護(hù)人員以采取準(zhǔn)確的防御措施。因此,本文選取10 類加密惡意流量進(jìn)行實(shí)驗(yàn),為了避免數(shù)據(jù)不平衡對實(shí)驗(yàn)的影響,從每一類加密惡意流量中隨機(jī)選 取5 000 條會話 組成數(shù)據(jù)集,將1D_CNN[7]、CNN-BiGRU、BotCatcher[15]模型與本文模型進(jìn)行對比,以檢驗(yàn)?zāi)P妥R別加密惡意流量具體類別的性能。BotCatcher 由含有2 個(gè)卷積層并且每個(gè)卷積層后加入最大池化層的2 維CNN 與雙層雙向LSTM 組成。

圖10 所示為4 種模型的查準(zhǔn)率、召回率、F1 值以及整體準(zhǔn)確率。從圖10 可以看出:1D_CNN 由于缺乏對時(shí)序特征的表征,因此整體準(zhǔn)確率最低;本文模型在整體準(zhǔn)確率上比其他3 種模型分別高出4.20%、1.42%、0.12%,說明在此數(shù)據(jù)集中,本文模型對惡意加密流量的具體類型識別效果更好;與BotCatcher相比,本文模型對于提取到的特征經(jīng)過注意力層與特征融合層,更加有效地利用了加密流量的特征,因此,整體準(zhǔn)確率更好;CNN-BiGRU 由2 個(gè)模塊串聯(lián)組合而成,整體準(zhǔn)確率比本文模型低0.12%,在Zbot類別中查準(zhǔn)率比本文模型高2.5%,但是查全率和F1 值都低于本文模型,原因可能是串聯(lián)連接中前一個(gè)模塊的特征提取給后一個(gè)模塊造成了部分特征丟失;在Zbot 類別中,本文模型的識別效果相比其他3 種模型有明顯提升,在查準(zhǔn)率上分別提升5.57%、4.54%、4.05%,在F1 值上分別提升16.93%、5.41%、0.9%;在10 個(gè)類別的F1 值對比中,本文模型在Dridex、Miuref、Zbot、Htbot、Wannacry、TrickBot 這6 個(gè)類別中都大于等于其他3 種模型,剩下的4 類中比其他3 種模型中的最大值低不超過0.2%,說明本文模型在大多數(shù)類別中都有較好的穩(wěn)定性,能夠有效識別加密惡意流量的具體類型。

圖10 5 種分類模型的實(shí)驗(yàn)結(jié)果對比Fig.10 Comparison of experimental results of five classification models

本文模型某次實(shí)驗(yàn)的混淆矩陣如圖11 所示。結(jié)合圖10 可知,本文模型的查準(zhǔn)率在Dridex 類上低于CNN-BiGRU,在Zbot 類上高于其他3 種模型,查全率在Dridex 類上高于其他3 種模型,在Zbot 類上低于CNN-BiGRU,F(xiàn)1 值高于其他3 種模型。本文模型對Dridex 與Zbot 這兩類的混淆程度較高,查準(zhǔn)率和查全率比其他類別低,原因可能是這兩種流量行為相似,使得空間特征和時(shí)序特征差異不夠明顯。

圖11 測試集結(jié)果的混淆矩陣Fig.11 Confusion matrix of test set results

4 結(jié)束語

本文提出一種端到端的加密惡意流量識別方法,利用CNN 與雙向GRU 模型分別提取流量的空間特征與時(shí)序特征,在每個(gè)模塊中利用注意力機(jī)制突出特征的差異性。在空間特征提取中,采用更加適合序列的一維卷積,基于不同大小的卷積核提取多視野空間特征,為了防止池化操作帶來的特征丟失,通過調(diào)整卷積的參數(shù)代替池化操作對特征進(jìn)行壓縮和去除冗余,從而加強(qiáng)對流量的表征,利用CBAM 注意力機(jī)制對提取到的多視野空間特征進(jìn)行加權(quán),以提高準(zhǔn)確率。在時(shí)序特征提取中,使用雙層雙向GRU 神經(jīng)網(wǎng)絡(luò)來表征流量的上下文信息,利用注意力機(jī)制突出不同數(shù)據(jù)包的重要程度。實(shí)驗(yàn)結(jié)果表明,該方法能達(dá)到較高的識別精度。下一步工作將從3 個(gè)方面展開:本文模型參數(shù)較多,檢測實(shí)時(shí)性不強(qiáng),需要進(jìn)一步提高模型在時(shí)間維度的檢測效率;在實(shí)際的網(wǎng)絡(luò)攻擊中,攻擊與攻擊之間可能存在聯(lián)系,本文模型只考慮了會話內(nèi)部的特征,沒有考慮會話與會話之間的關(guān)系,從而忽略了攻擊之間的聯(lián)系,后續(xù)可以通過圖神經(jīng)網(wǎng)絡(luò)來建立會話與會話之間的關(guān)系;對特征聚合進(jìn)行深入研究,探索一種更優(yōu)的時(shí)序特征和空間特征融合方式,以更好地利用這2 種特征進(jìn)行加密惡意流量識別。

猜你喜歡
特征提取特征模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個(gè)特征
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
3D打印中的模型分割與打包
基于MED和循環(huán)域解調(diào)的多故障特征提取
主站蜘蛛池模板: 99人妻碰碰碰久久久久禁片| 日韩欧美国产另类| 成人91在线| 中文字幕有乳无码| 亚洲精品成人福利在线电影| 最新日韩AV网址在线观看| 国产www网站| 国产三级成人| 蝴蝶伊人久久中文娱乐网| 婷婷五月在线| 狂欢视频在线观看不卡| 亚洲aⅴ天堂| 国产精品亚洲一区二区三区z| 久久精品视频亚洲| 成年女人a毛片免费视频| 国产jizz| 国产精品夜夜嗨视频免费视频| 日韩av高清无码一区二区三区| 日韩AV无码免费一二三区 | 日韩欧美亚洲国产成人综合| 操美女免费网站| 国产美女在线观看| 色婷婷狠狠干| 精品欧美日韩国产日漫一区不卡| 色妞永久免费视频| 一级毛片在线播放免费| 在线不卡免费视频| 免费黄色国产视频| 国产视频a| 午夜福利亚洲精品| 成人在线综合| 亚洲欧美不卡视频| 日本成人在线不卡视频| 久久久波多野结衣av一区二区| 亚洲国产在一区二区三区| 午夜色综合| 国产福利拍拍拍| 国产欧美日韩va另类在线播放| 乱色熟女综合一区二区| 欧美色综合久久| 日韩高清中文字幕| 亚洲中文字幕手机在线第一页| 538国产在线| 全部免费特黄特色大片视频| 91香蕉视频下载网站| 国产成人精品一区二区不卡 | 婷婷亚洲最大| 一级毛片免费观看久| 九九久久99精品| 亚洲经典在线中文字幕| 71pao成人国产永久免费视频| 国内精品一区二区在线观看 | 国产欧美综合在线观看第七页| 精品久久蜜桃| 91探花国产综合在线精品| 亚洲色图欧美视频| 精品国产一区二区三区在线观看 | 亚洲日韩每日更新| 亚洲看片网| 伊人久久婷婷| 国产精品片在线观看手机版| 无码福利视频| 曰AV在线无码| 国产一区二区三区日韩精品 | 三级毛片在线播放| 谁有在线观看日韩亚洲最新视频 | 丁香婷婷激情综合激情| 欧美a在线| 亚洲女人在线| 欧美中文字幕一区二区三区| 欧美a网站| 亚洲成a人片在线观看88| 人人91人人澡人人妻人人爽| 欧美性久久久久| 91视频国产高清| 欧美成人精品高清在线下载| 日韩欧美国产中文| 99视频在线精品免费观看6| 欧美国产视频| 无码福利日韩神码福利片| 国产在线视频福利资源站| 2020亚洲精品无码|