999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于DCGAN 的網絡加密流量分類平衡方法*

2022-08-23 01:53:18丁要軍
通信技術 2022年7期
關鍵詞:分類方法模型

李 睿,丁要軍

(甘肅政法大學,甘肅 蘭州 730070)

0 引言

加密流量分類近年來已成為一個非常受歡迎的研究方向,因為它被應用于評估應用服務質量(Quality of Service,QoS)、流量工程、惡意軟件檢測等領域。然而,由于互聯網流量加密需求的增長,以及虛擬專用網絡(Virtual Private Network,VPN)和洋蔥路由(The Onion Router,TOR)使用的增加(這時用戶可以在互聯網上進行匿名交流),因此加密流量分類變得更加困難。在進行流量分類時,類別不平衡是個嚴重的問題。解決數據類不平衡[1]問題有欠采樣和過采樣、人工少數類過采樣法(Synthetic Minority Over-Sampling Technique,SMOTE)[2]、生成模型3 種方法。其中,生成模型可以增加訓練的數據量從而提高模型的泛化能力,還可以增加噪聲數據,提高模型的魯棒性。隨著機器學習進一步發展,Goodfellow 等人[3]引入了生成模型領域的一個新概念,即生成對抗網絡(Generative Ad-versarial Networks,GAN)。GAN 廣泛應用于圖像生成[4-5],同時也為解決數據不平衡提供了新的方法,但原始GAN 本身存在訓練困難和模式崩潰的問題。為了解決這些問題,Arjovsky 等人[6]提出了將Wasserstein 距離作為損失函數的WGAN 方法;Radford 等人[7]提出了深度卷積生成對抗網絡(Deep Convolutional Generative Adversarial Networks,DCGAN),引入了卷積神經網絡(Convolutional Neural Network,CNN)[8]替代原來的多層感知機;Deng 等人[9]引入了基于DCGAN 的半監督方法,解決了與建立大型加密流量數據集的實況標簽相關的挑戰,他們的方法在極少數標記樣本的情況下,實現了較高的準確度。這些研究表明,DCGAN 作為一種解決數據類不平衡的方法對于分類問題而言是個不錯的選擇。

本文基于王偉[10]提出的將原始流量解析出來的pcap 數據包預處理成字節流灰度圖的方法和Shapira等人[11]提出的將原始流量數據處理成包特征灰度圖的方法,使用DCGAN 模型來進行數據增強,最后使用經典深度模型作為分類器進行驗證。為驗證方法可行性,針對公開數據集ISCX VPN-nonVPN[12],分別使用SMOTE、GAN、WGAN 和DCGAN 方法對數據集進行平衡并分類。實驗證明,基于深度模型的加密流量分類器在使用DCGAN 進行數據平衡后的性能,相較于未平衡、傳統數據增強和DCGAN 只增強訓練集的方法,能夠獲得更好的分類效果。

1 生成對抗網絡

1.1 生成對抗網絡GAN

生成對抗網絡GAN 是GoodFellow 等人[3]開發的新的人工神經網絡,該模型由生成器G和判別器D兩個神經網絡組成。將這些神經網絡在對抗性環境中進行了訓練,GAN 通過多輪零和博弈后,生成器和判別器的性能不斷提升,最后趨于平衡。對于生成模型,要最小化目標函數ln(1-D(G(z)))(z為噪聲),D(G(z))的值越接近于1,目標函數的值越小。對于判別模型,要讓真實樣本盡量被判定為真實的,即最大化lnD(x),這意味著D(x)的值盡量接近于1;對于生成模型生成的樣本,盡量被判別為0,即最大化ln(-D(G(z)))。這樣優化的目標函數定義為:

式中:Pdata為真實的原始數據集;Pz為噪聲分布。兩部分相加要最大化,找一個最好的G,讓這個最大值最小,兩個分布之間的差異最小值表示為:

由式(1),可以計算出最佳鑒別器為:

由式(3)可得,當Pdata(x)=Pz(z)時,說明D無法分辨樣本的真假,D和G達到納什均衡[13],鑒別器輸出為0.5。

1.2 DCGAN

如圖1 所示,DCGAN 是CNN 和GAN 的結合,將卷積網絡引入生成模型,代替了GAN 的生成器和判別器并進行無監督訓練。該模型利用卷積網絡強大的特征提取能力,提高了生成網絡的學習效果。

圖1 DCGAN 結構

DCGAN 對生成器的判別的修改核心如下:

(1)使用指定步長的卷積層代替池化層。使用轉置卷積層替代空間池化層,這種替代只需要將卷積的步長設置為大于1 的數值,G網絡中使用轉置卷積進行上采樣,改進的意義是下采樣過程不再是固定地拋棄某些位置的像素值,而是可以讓網絡自己去學習下采樣方式。

(2)生成器和判別器中都使用批歸一化(Batch Normalization,BN)層。它是一種常用于卷積層后面的歸一化方法,能夠幫助網絡進行收斂。

(3)移除全連接層。全局均值池化有助于模型的穩定性,但是降低了模型的收斂速度。

(4)生成器中除了輸出層采用tanh,其余全部使用ReLU 作為激活函數。

(5)判別器所有層都使用LeakyReLU 作為激活函數。

DCGAN 模型的損失函數為:

式中:m為樣本個數。

為了驗證方法可行性,引入JS 和KL 散度[5],可得:

式中:C(G)為生成器的積分表達式。

根據散度定義可知,當噪聲樣本Pz(z)的數學分布等于真實數據分布時,KL=JS=0 時,G網絡的最小值都是-lg 4。同理可得JS 散度為2JS(Pdata||Pg)-lg 4。式中:Pg為噪聲分布。

由此可以證明,在判別器取最佳參數后,生成器也可以無限接近于最小值。這證明了在目標函數的限制條件下,可以達到納什平衡,因此DCGAN用于數據增強的方法是可行的。

2 網絡加密流量圖形化表示

2.1 二維包特征灰度圖

二維包特征灰度圖是為了增加訓練集的樣本數量,減少過擬合,將每個單向流劃分為相等大小的塊,然后從每個流中提取記錄,其中包含流中每個數據包的對、數據包大小和數據包到達時間的列表。然后,將相同流量類別和相同加密技術的所有列表合并為一個集合,并構建一個基于流的二維直方圖構建的圖像。該圖像可以被視為一組有效載荷大小分布(Packet Size Distribution,PSD)[14],其中每個PSD 屬于特定時間單向流的間隔。將X軸定義為數據包到達時間,將Y軸定義為數據包大小來繪制所有記錄對。絕大多數數據包大小不超過1 500 字節,即以太網最大傳輸單元(Maximum Transmission Unit,MTU)值,因此忽略所有大小大于1 500(小于所有數據包的5%)的數據包,并將Y軸限制在1 到1 500 之間。對于X軸,首先,通過減去流中第一個數據包的到達時間來標準化所有到達時間值;其次,將所有歸一化對插入二維直方圖,其中每個單元保存在具有相同時間間隔并具有相同大小的數據包中。這個過程的結果是一個1 500×1 500的直方圖,其中直方圖中的值之和等于原始時間窗口中的數據包總數(不包括忽略的數據包)。

2.2 二維字節流灰度圖

二維字節流灰度圖的生成流程如圖2 所示,具體的,先將獲取的原始流量數據切分為多個流量數據,輸入格式為pcap;然后將每個數據包的有效載荷轉化為規范化的字節序列,清理過的文件按照784 字節進行統一長度處理,少數小于784 字節的文件在后面補充0x00,選取784 字節是因為CNN模型的輸入需要統一長度。這樣做是因為流或者會話的前面部分一般都是用來建立連接和保留前一部分數據包的,應該更能反映流量特征,而之后的部分更多的是數據,并不能更好地體現流量類型特征。最后將統一長度后的文件按照二進制形式轉換為灰度圖片,即一個字節對應灰度像素值,例如0x00對應黑色,0xff 對應白色,輸出格式為png 格式。由于僅僅使用了會話或者流的前面幾百個字節,因此該方法比很多基于經典機器學習的流量分類方法更加輕量。

圖2 二維字節流灰度圖生成流程

3 網絡加密流量類別平衡化

3.1 基于DCGAN 的網絡加密流量平衡方法

用DCGAN 對抗生成的流量圖片都是具有真實圖像特征且多樣性較強的擴充數據,利用這些增強后的數據對原始不平衡數據進行數據擴充不僅能有效平衡數據集,而且還能防止數據樣本單一、訓練模型容易過擬合等問題的出現。DCGAN 加密流量分類流程如圖3 所示。

圖3 DCGAN 加密流量分類流程

判別網絡接收圖像時,DCGAN 使用卷積層和池化層對其進行下采樣,然后使用全連接分類層將圖像分類為真的或假的。生成網絡從潛在空間中獲取隨機噪聲向量,然后通過上采樣機制進行上采樣,最后生成一張圖像。隱藏層使用LeakyReLU 作為激活函數,并且使用系數介于0.4~0.7 的隨機失活來避免過擬合,根據給出的DCGAN 網絡結構模型,DCGAN 偽代碼如下:

平衡完成的數據和原始流量圖片高度相關而且具有多樣性。圖4 是基于包特征灰度圖生成的圖片進行平衡的結果,圖5 是基于字節流灰度圖生成的圖片進行平衡的結果,可以看出利用此方法可以生成能夠明確分辨的新圖像,且具有一定的多樣性。

圖4 包特征灰度圖基于DCGAN 方法生成的圖像

圖5 字節流灰度圖基于DCGAN 方法生成的圖像

3.2 分類模型介紹

為證明所提方法的可行性,使用常見的CNN模型[8]完成分類任務,旨在驗證不平衡數據實現平衡對模型的影響,不考慮模型內部的參數變化對結果的影響,所以這里不對模型做深入討論,只介紹模型結構。

分類器用的是LeNet-5[15]的CNN 結構,因為數據量比較少而且圖片大小較小,在模型訓練過程,輸入28×28 灰度圖像,利用Softmax 函數輸出各類別的概率。如果用復雜的分類器例如ResNet、VGG等,則容易造成過擬合的現象。LeNet-5 的損失函數采用了均方誤差(Mean-square Error,MSE),并添加了一個懲罰項[16],計算公式為:

網絡在前向傳播結束后,會進行反向傳播來更新參數,更新的方法是梯度下降。梯度下降,就是讓參數向最小化損失函數的方向移動。在加密流量分類時,訓練輪次2 000 次以上時,損失函數趨于最小值并達到穩定。學習率和損失函數選擇經典網絡初始設定的參數,批量大小選取64 是因為圖形處理器(Graphic Processing Unit,GPU)對批量大小為2 的冪次可以發揮更好的性能。CNN 模型參數如表1 所示。

表1 CNN 模型參數

4 實驗過程及分析

為了驗證平衡方法的可行性、差異性,設計了4 組對比實驗。本節介紹實驗模型的參數設置、實驗平臺等信息,并針對未增強的數據集,以及使用SMOTE、GAN、WGAN 和DCGAN 對數據集進行平衡并分類的方法進行了對比實驗。然后針對這4 種實驗結果進行分析對比。

4.1 數據集

使用來自紐布倫斯威克大學捕獲的pcap 文件的標記數據集,ISCX VPN-nonVPN 流量數據集[12]。對于數據集中包含的類別,都使用了非VPN 和VPN(適用于除瀏覽外的所有類別)2 種加密技術。數據集中每個文件對應一個特定的流量類別和加密技術。對原始數據集進行手動標記后,得到10 種流量數據,其中5 種為常規加密流量,另外5 種為經過VPN 協議封裝后的流量。但對于Browser 和VPN-Browser 兩類流量,例如Facebook_video 等文件,既可歸為Browser 又可歸為Streaming,因此決定不標注這些文件并刪除數量較少、分類不清晰的P2P 類別。標注后的數據如表2 所示,原始未平衡數據和平衡后的流量類別分布如表3 所示。

表2 標注后的VPN 數據集類別及內容列表

4.2 評價指標

為確保實驗的科學性,本節使用精確率P(Precision)、召回率R(Recal1)、F1 值來評價模型。P是分類器預測為某一類別的概率,R是分類器正確分類為某一類的概率,F1 值是精確率和召回率的調和平均,用來衡量模型的性能,則定義:

式中:TP為被模型預測為正類的正樣本;FP為被模型預測為正類的負樣本;FN為被模型預測為負類的正樣本。

4.3 實驗配置

實驗配置:CPU 為Intel(R)Core(TM)i7-10750H@ 2.60 GHz 2.59 GHz 處理器,內存為16 GB,GPU 為GeForce RTX2060(顯存6 GB),系統為Windows 10。

4.4 實驗結果分析

通過GAN、WGAN、DCGAN 圖像生成方法,在流量圖像階段,擴充原始不平衡數據集。完成擴充的數據集分別在CNN 分類器上進行測試,實驗結果對比如圖6、圖7 所示。

如圖6 所示,字節流灰度圖方法中VPNStreaming、VPN-Email、Chat 三類效果較差,其他均值可達80%以上。如圖7 所示,包特征灰度圖方法中有關VPN 的類別分類效果較差,其余分類精確率均可達到70%以上,接近80%。經過對比實驗可知,在相同訓練參數下,使用DCGAN 方法對網絡加密流量圖像化表示的數據集進行圖片平衡的分類效果,不僅比未經過平衡的數據集效果好,而且比其他數據平衡方法的效果有較小幅度的提升。字節流灰度圖實驗結果平均值統計結果如表4、表5 所示。

表4 字節流灰度圖實驗結果平均值

表5 包特征灰度圖實驗結果平均值

圖6 字節流灰度圖分類結果對比

圖7 包特征灰度圖分類結果對比

由表4、表5 可知,數據平衡對于分類結果有著重要的影響,能夠有效地解決數據匱乏問題,從而平衡數據,同時能夠提升分類模型的泛化能力和魯棒性。

在字節流灰度圖生成的數據集中,除少數類在訓練數據大幅度縮減后表現出的性能略微降低外,其余類型都有較明顯的提升,如DCGAN 平衡在F1均值上相較于SMOTE 提高了近3%,相較于GAN平衡提高了近4%,相較于WGAN 平衡提升了近4%。在包特征灰度圖生成的數據集中,DCGAN 平衡在F1 均值上,相較于SMOTE 提高了近3%,相較于GAN 平衡提高了近4%,相較于WGAN 平衡提升了近1%。對比結果驗證了本文方法的可行性。

5 結語

本文將原始流量數據進行圖形化表示,并把DCGAN 圖片生成的方法應用在加密流量分類方法中,實現數據增強,從而解決了分類任務中數據不平衡的問題。通過經典深度學習分類器CNN 實現分類任務,驗證了使用DCGAN 生成圖像來進行數據增強平衡數據,能夠有效地提升加密流量分類效果,并通過不同的數據增強方式來優化分類器的性能,以便于提高分類的準確率。DCGAN 可以解決普通GAN 網絡訓練不穩定、難以有效度量訓練效果等方面的問題。未來將尋求更好的方法優化DCGAN 網絡鑒別器和生成器模型結構,使其更好地應用在網絡加密流量分類任務中。

猜你喜歡
分類方法模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: a毛片在线| 久无码久无码av无码| 精品福利国产| 欧美在线中文字幕| 日韩毛片视频| 四虎永久在线| 暴力调教一区二区三区| 久久综合伊人 六十路| 综合色区亚洲熟妇在线| 国产97视频在线| 1769国产精品视频免费观看| 无码内射在线| 色悠久久久久久久综合网伊人| 亚欧美国产综合| 97视频在线精品国自产拍| 国内a级毛片| 91啪在线| 无码aⅴ精品一区二区三区| a级毛片网| 都市激情亚洲综合久久| 国产91成人| 国产尤物jk自慰制服喷水| 国产手机在线ΑⅤ片无码观看| 9啪在线视频| 欧美日韩成人| 91精品视频网站| 2020国产精品视频| 午夜a视频| 久久男人视频| 国产成人高清在线精品| 在线免费不卡视频| 亚洲成综合人影院在院播放| 在线观看国产精品一区| 性做久久久久久久免费看| 性网站在线观看| 啪啪永久免费av| 中文字幕在线看| 欧美亚洲综合免费精品高清在线观看| 日韩中文字幕免费在线观看| 91无码人妻精品一区| 亚洲国产欧美国产综合久久| 韩日免费小视频| 亚洲码一区二区三区| 97成人在线观看| 99视频精品全国免费品| 色婷婷狠狠干| 日韩黄色大片免费看| …亚洲 欧洲 另类 春色| 国产精品一线天| 亚洲欧美一级一级a| 色妞永久免费视频| 中文字幕av一区二区三区欲色| 国产乱子伦视频在线播放| 欧亚日韩Av| 国产欧美精品专区一区二区| 日韩专区欧美| 伊人中文网| yy6080理论大片一级久久| 国产精品爽爽va在线无码观看 | 欧美精品1区| 亚洲欧洲日韩国产综合在线二区| 国产精品一区在线观看你懂的| 亚洲AV无码不卡无码| 熟女视频91| 免费A级毛片无码无遮挡| 国产精品3p视频| 在线亚洲天堂| 无码精品国产dvd在线观看9久| 天天操天天噜| 国产成人永久免费视频| 国产亚洲成AⅤ人片在线观看| 18禁不卡免费网站| 成人亚洲视频| 亚洲欧美另类专区| 亚洲男人天堂2020| 亚洲无码四虎黄色网站| 欧美精品v日韩精品v国产精品| 亚洲天堂久久新| 国产青榴视频| 欧美成人区| 亚洲系列无码专区偷窥无码| 日韩午夜福利在线观看|