999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的加密網(wǎng)絡(luò)流量識別方法研究*

2021-01-26 04:00:34吉慶兵陳江濤
通信技術(shù) 2021年1期
關(guān)鍵詞:方法

吉慶兵,陳江濤,潘 煒

(1.中國電子科技集團公司第三十研究所,四川 成都 610041;2.西北工業(yè)大學網(wǎng)絡(luò)空間安全學院,陜西 西安 710072;3.西北工業(yè)大學計算機學院,陜西 西安 710072)

0 引言

隨著大眾網(wǎng)絡(luò)安全意識的穩(wěn)步提升,對于數(shù)據(jù)保護的意識也愈加強烈。根據(jù) Google 的報告,2019年10 月,Chrome 加載網(wǎng)頁中啟用加密的比例已經(jīng)達到了95%[1]。對于特定類型的流量,加密甚至已成為法律的強制性要求,加密在保護隱私的同時也給網(wǎng)絡(luò)安全帶來了新的隱患。攻擊者將加密作為隱藏活動的工具,加密流量給攻擊者隱藏其命令與控制活動提供了可乘之機。在面臨日益嚴重的網(wǎng)絡(luò)安全威脅和攻擊時,需要提出有效的識別方法。實現(xiàn)加密流量精細化管理,保障計算機和終端設(shè)備安全運行,維護健康綠色的網(wǎng)絡(luò)環(huán)境。

1 相關(guān)研究

當前對于加密網(wǎng)絡(luò)流識別的研究主要集中在機器學習相關(guān)的方法上。使用機器學習方法對網(wǎng)絡(luò)流量進行解析時,按使用的機器學習算法不同可以分為傳統(tǒng)機器學習算法(淺層學習)和深度學習[2]。傳統(tǒng)機器學習算法對加密網(wǎng)絡(luò)流量解析主要存在兩個問題:一個是需要對待分類的報文人工設(shè)計一個可以普遍反映流量特征的特征集;另一個就是傳統(tǒng)機器學習方法有很大的局限性,例如對復雜函數(shù)難以表示、容易陷入局部最優(yōu)解等。由于以上兩個原因,導致傳統(tǒng)機器學習方法對加密網(wǎng)絡(luò)流量解析的準確率不是很高。隨著計算方法的發(fā)展和計算能力的提高,深度學習的引入可以有效解決機器學習設(shè)計特征的問題。深度學習通過特征學習和分層特征提取的方法來替代手工獲取特征。深度神經(jīng)網(wǎng)絡(luò)擁有很高的擬合能力,可以逼近許多復雜的函數(shù),不易陷入局部最優(yōu)解。解決了傳統(tǒng)機器學習在加密網(wǎng)絡(luò)流量解析時存在的兩個關(guān)鍵問題。

深度學習是基于表示學習的眾多機器學習算法中的一員。目前使用最多的深度學習方法包括DBN(Deep Belief Nets)、CNN(Convolutional Neural Networks)、深度自編碼器(AutoEncoder,AE)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)以及基于RNN 的長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM),近年來這些方法被廣泛地應(yīng)用在加密流量解析中,并取得了不錯的成果。王偉[3]等人提出一種基于CNN 的異常流量檢測方法,該方法利用CNN 特征學習能力,準確地對流量的特征進行提取,將提取到的特征用于流量分類并取得了良好的結(jié)果,最終將該模型用于異常流量檢測。J.Ran[4]等人提出了一種將三維卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于無線網(wǎng)絡(luò)流量分類的方法,實驗結(jié)果表明該方法優(yōu)于一維和二維卷積神經(jīng)網(wǎng)絡(luò)。Jain[5]研究了由不同優(yōu)化器訓練的卷積神經(jīng)網(wǎng)絡(luò)對協(xié)議識別的影響,實驗結(jié)果表明,隨機梯度下降(Stochastic Gradient Descent,SGD)優(yōu)化器產(chǎn)生的識別效果最好。陳雪嬌[6]等利用卷積神經(jīng)網(wǎng)絡(luò)的識別準確率高和自主進行特征選擇的優(yōu)勢,將其應(yīng)用于加密流量的識別,測試結(jié)果表明該方法優(yōu)于DPI 方法。王勇等[7]設(shè)計了基于 LeNet-5 深度卷積神經(jīng)網(wǎng)絡(luò)的分類方法,通過不斷調(diào)整參數(shù)產(chǎn)生最優(yōu)分類模型,測試結(jié)果表明該方法優(yōu)于主成分分析、稀疏隨機映射等方法。Wu,Kehe[8]等人將網(wǎng)絡(luò)流量數(shù)據(jù)的121 個流統(tǒng)計特征作為數(shù)據(jù)集,并對比了一維和二維CNN 網(wǎng)絡(luò)、CNN網(wǎng)絡(luò)與傳統(tǒng)機器學習算法、CNN 網(wǎng)絡(luò)與RNN 網(wǎng)絡(luò)的分類準確性與計算量。J.Ren 等[9]提出了一種針對無線通信網(wǎng)絡(luò)的協(xié)議識別方法,首先利用一維卷積神經(jīng)網(wǎng)絡(luò)進行自動化的特征提取,然后基于SVM對應(yīng)用層協(xié)議進行分類。H.Lim[10]等提出了使用深度學習的基于數(shù)據(jù)包的網(wǎng)絡(luò)流量分類,該方法提取網(wǎng)絡(luò)會話中的前幾個數(shù)據(jù)包處理成等長的向量,然后利用CNN 和ResNet 進行訓練,進行流量分類。

在以往的基于深度學習的加密網(wǎng)絡(luò)流量解析研究中,數(shù)據(jù)預處理都是只針對原始的網(wǎng)絡(luò)流量數(shù)據(jù)進行變換處理[11],而忽略了數(shù)據(jù)包在傳輸過程中的時間特征。因此,在本研究中,將對加密網(wǎng)絡(luò)流量中的原始報文數(shù)據(jù)及數(shù)據(jù)包傳輸時間間隔進行綜合預處理,并采用CNN 網(wǎng)絡(luò)模型進行實驗驗證。

2 基于CNN 的加密網(wǎng)絡(luò)流量識別方法

本節(jié)將從流量采集、數(shù)據(jù)預處理、加密網(wǎng)絡(luò)流量識別模型等環(huán)節(jié)詳細介紹本文提出的基于深度學習的加密網(wǎng)絡(luò)流量解析方法。

2.1 流量采集

為了獲得更加接近實際使用場景下的網(wǎng)絡(luò)流量,我們在手機終端安裝了代理軟件,采集日常真實使用環(huán)境下的應(yīng)用網(wǎng)絡(luò)流量,并按照應(yīng)用名稱分別保存為不同的文件,共計14 類,16.81GB。

2.2 數(shù)據(jù)預處理

采集的網(wǎng)絡(luò)流量存儲為Pcap 格式的文件,該格式的文件除了流量數(shù)據(jù)外,還有該文件協(xié)議額外添加的其他信息,而這些信息有可能干擾分類結(jié)果。因此需要對該文件的格式進行解析,提取出有用的數(shù)據(jù)部分。

2.2.1 Pcap 格式介紹

Pcap 文件格式如圖1 所示,最開始的24 個字節(jié)為文件頭(Global Header),后面是抓取的包頭(Packet Header)和包數(shù)據(jù)(Packet Data)。此處的包頭為Pcap 文件格式的固定部分,描述了后面緊跟著的包數(shù)據(jù)的捕獲時間、捕獲長度等信息,原始網(wǎng)絡(luò)數(shù)據(jù)流量中不包含此部分信息。包數(shù)據(jù)為數(shù)據(jù)鏈路層到應(yīng)用層的所有數(shù)據(jù),包括每一層的包頭。

圖1 Pcap 文件格式

圖2 描述了Global Header 的具體內(nèi)容以及每部分的長度。

圖2 Global Header 格式

每個字段的含義如下:

(1)Magic:4Byte,標記文件開始,并用來識別文件自己和字節(jié)順序。0xa1b2c3d4 用來表示按照原來的順序讀取,0xd4c3b2a1 表示下面的字節(jié)都要交換順序讀取。考慮到計算機內(nèi)存的存儲結(jié)構(gòu),一般會采用0xd4c3b2a1,即所有字節(jié)都需要交換順序讀取。

(2)Major:2Byte,當前文件主要的版本號。

(3)Minor:2Byte,當前文件次要的版本號。

(4)ThisZone:4Byte,當?shù)氐臉藴蕰r間。

(5)SigFigs:4Byte,時間戳的精度。

(6)SnapLen:4Byte,最大的存儲長度。

(7)LinkType:4Byte,數(shù)據(jù)鏈路類型。

圖3 描述了Packet Header 的具體內(nèi)容以及每部分的長度。

圖3 Packet Header 格式

每個字段的含義如下:

(1)Timestamp:捕獲時間的高位,單位為秒。

(2)Timestamp:捕獲時間的低位,單位為微秒。

(3)Caplen:當前數(shù)據(jù)區(qū)的長度,單位為字節(jié)。

(4)Len:離線數(shù)據(jù)長度,網(wǎng)絡(luò)中實際數(shù)據(jù)幀的長度。

2.2.2 預處理方法

通過圖3 對Pcap 文件格式的介紹,我們發(fā)現(xiàn),Pcap 文件中除了原始流量數(shù)據(jù)之外還有Global Header 和Packet Header 這兩部分原始數(shù)據(jù)流量中不存在的部分。因此,在接下來的數(shù)據(jù)處理環(huán)節(jié)中,我們將剔除這部分數(shù)據(jù)或者對這部分數(shù)據(jù)進行轉(zhuǎn)換。預處理流程如下:

首先對采集到的Pcap 文件按協(xié)議進行過濾,提取出經(jīng)過加密的網(wǎng)絡(luò)流量,然后對提取出的流量按五元組進行劃分。劃分出來的每一個文件將在后續(xù)流程中轉(zhuǎn)化為一張圖片。對劃分出來的每一個Pcap 文件做如下處理。

設(shè)最后返回的字節(jié)數(shù)組為A,需要的長度為LEN。

(1)首先忽略前24 個字節(jié)。

(2)然后讀取16 個字節(jié)的Packet Header,將其中的時間轉(zhuǎn)換為整數(shù),利用其中的捕獲長度讀取Packet data,忽略掉數(shù)據(jù)鏈路層和網(wǎng)絡(luò)層的包頭,將傳輸層的包頭和payload 加入字節(jié)數(shù)組A。

(3)如果不是第一個數(shù)據(jù)包,則利用本數(shù)據(jù)包的捕獲時間減去上一個數(shù)據(jù)包的捕獲時間,得到時間差Δt,利用本數(shù)據(jù)包的捕獲長度L 除以Δt,向上取整得到N,向字節(jié)數(shù)組A 中加入N 個0xFF 字節(jié)。

(4)重復(2)(3)直到文件尾,或者A 的長度大于等于LEN。

(5)若讀取到文件尾之前,A 的長度大于等于LEN,則截斷到LEN 返回;若讀到文件尾,A 的長度仍小于LEN,則在末尾填充0x00 直到長度為LEN。

(6)將A 數(shù)組轉(zhuǎn)化為長、寬相同的單通道灰度圖片。

最終將生成好的圖片存儲為TFRecoder 格式,以便于后面的實驗驗證。預處理后每種應(yīng)用得到的圖片數(shù)目如圖4 所示。

圖4 每種應(yīng)用的對應(yīng)的圖片數(shù)量

2.3 加密網(wǎng)絡(luò)流量識別模型

本文采用了二維CNN 模型進行流量分類,為了對比不同輸入對實驗結(jié)果的影響,分別嘗試了圖片長寬為32、40、48、56、64,其中當長寬為32時效果最佳。下面介紹本文最終采用的CNN 模型。

在卷積神經(jīng)網(wǎng)絡(luò)中,大尺寸的卷積核可以帶來更大的感受視野,獲取更多的信息,但也會產(chǎn)生更多的參數(shù),從而增加網(wǎng)絡(luò)的復雜度[12]。為了減少模型的參數(shù),本文采用兩個連續(xù)的3*3 卷積層來代替單個的5*5 卷積層,可以在保持感受視野范圍的同時減少參數(shù)量。卷積層的Padding 方式使用SAME 方式,激活函數(shù)使用RELU,每一層的參數(shù)如表1 所示。

表1 網(wǎng)絡(luò)模型參數(shù)

3 實驗與結(jié)果分析

為了對上述加密網(wǎng)絡(luò)流量識別模型進行驗證,采用TensorFlow 深度學習框架,在NVIDIA TESLA K80 上進行了實驗驗證。

3.1 評價指標

本文采用準確率(accuracy)、精準率(precision)、召回率(recall)和F1-Measure 值(以下簡稱F1 值)四個評價指標來對實驗結(jié)果進行評估,其中準確率是對整體的評價指標,精準率和召回率是用來對某種類別流量識別的評價指標,而F1 值是對于精準率和召回率兩個指標的綜合評估。為了計算這四個指標,需要引入TP、FP、FN、TN 四個參數(shù),每個參數(shù)的意義如表2 混淆矩陣所示。

表2 混淆矩陣

每個指標的計算方法如公式(1)~(4)所示。

3.2 實驗結(jié)果

將處理好的數(shù)據(jù)按4:1 的比例分為訓練集和測試集,由于采集的數(shù)據(jù)不均衡,因此在訓練時對訓練數(shù)據(jù)采用過采樣的方法來縮小數(shù)據(jù)量之間的差異。采用了Adam 優(yōu)化器和動態(tài)學習率來提高模型的訓練速度。最終訓練好的模型在測試集上的結(jié)果如表3 所示。

為了驗證在預處理階段引入時間間隔對模型準確率的影響,還做了一組對比實驗。對比實驗在預處理階段不對時間間隔做特殊處理,直接舍棄該字段,最終結(jié)果如表4 所示。可以看出,利用時間間隔可以有效提高分類結(jié)果的準確率。

表3 測試集結(jié)果

表4 不同預處理方式對應(yīng)的實驗結(jié)果

4 結(jié)語

本文提出了一種基于深度學習的加密網(wǎng)絡(luò)流量識別方法,該方法對采集到的流量進行預處理,利用傳輸層數(shù)據(jù)及數(shù)據(jù)包之間的時間間隔,將時間間隔轉(zhuǎn)換為二進制數(shù)據(jù)中的特殊值,然后將解析后的數(shù)據(jù)轉(zhuǎn)換為灰度圖片,采用卷積神經(jīng)網(wǎng)絡(luò)對采集到的14 類應(yīng)用的加密流量進行分類,最終識別準確率為96.22%,可以滿足實際應(yīng)用。后續(xù)研究將關(guān)注流量類型的甄別,即對每種應(yīng)用流量中不同類型的流量進行識別,如視頻流量、文本流量、圖片流量等,進一步挖掘用戶行為。

猜你喜歡
方法
中醫(yī)特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數(shù)學教學改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學反應(yīng)多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學習方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 日韩欧美中文在线| 国产精品区视频中文字幕| 97综合久久| 91精品小视频| 国产午夜精品一区二区三区软件| 欧美一区日韩一区中文字幕页| 少妇精品网站| 久青草网站| 在线观看国产精品第一区免费 | 亚洲天堂网站在线| 日韩 欧美 小说 综合网 另类| 国产精品妖精视频| 丁香五月激情图片| 真实国产乱子伦高清| 丁香五月激情图片| 亚洲视屏在线观看| 欧洲亚洲一区| 亚洲精品成人片在线播放| 成年免费在线观看| 色婷婷综合激情视频免费看| 日本不卡在线播放| 国产成人h在线观看网站站| 国产成人精品2021欧美日韩| 五月天综合网亚洲综合天堂网| 国产免费一级精品视频 | 久久久国产精品无码专区| 国产成人高清在线精品| 99在线视频免费观看| 日韩精品成人在线| 欧美天堂在线| 色视频久久| 欧美成人午夜影院| 综合网天天| 精品日韩亚洲欧美高清a| 一本大道无码日韩精品影视| 九色视频一区| 性网站在线观看| 国产欧美日韩综合一区在线播放| 午夜视频日本| 欧美激情综合一区二区| 国产精品妖精视频| 操国产美女| 在线观看91精品国产剧情免费| 国产视频一二三区| 欧美日韩激情在线| 最新精品久久精品| 手机在线看片不卡中文字幕| 中文国产成人精品久久一| 国产精品网址你懂的| 国产精品免费电影| 又黄又湿又爽的视频| 亚洲一区二区三区国产精品| 国产h视频在线观看视频| 亚洲精品无码不卡在线播放| 日韩人妻少妇一区二区| 性视频一区| a欧美在线| 一级黄色片网| 亚洲美女一区| 国产亚洲精品精品精品| 日韩AV无码一区| 免费jizz在线播放| 国产资源站| 欧美精品一二三区| av尤物免费在线观看| 国产91麻豆免费观看| 色哟哟国产成人精品| 亚洲成a∧人片在线观看无码| 亚洲无线国产观看| 婷婷亚洲视频| 亚洲性影院| 日韩东京热无码人妻| 午夜成人在线视频| 波多野结衣第一页| 全色黄大色大片免费久久老太| 99久久亚洲综合精品TS| 毛片免费高清免费| 久久久久无码国产精品不卡 | 久久精品这里只有精99品| a级免费视频| 久久久噜噜噜| 秋霞午夜国产精品成人片|