999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于一維殘差卷積神經網絡的Tor匿名網絡流量識別模型設計

2022-11-25 04:38:36馮松松王斌君
現代計算機 2022年17期
關鍵詞:分類特征模型

馮松松,王斌君

(中國人民公安大學信息網絡安全學院,北京 100038)

0 引言

近年來,以Tor(the onion routing)為代表的匿名網絡因其出色的隱蔽性、安全性得到眾多用戶的青睞,除Tor外,I2P(invisible internet project)、Freenet、Tribler等匿名網絡也得到廣泛使用。匿名網絡旨在通過隱藏IP、隱藏瀏覽器指紋、最小化使用cookie、數據加密等技術來匿名化用戶身份,從而實現保護網絡安全和個人隱私的目的。匿名網絡是把“雙刃劍”,在帶來更高安全性的同時,也滋生了一系列重大犯罪,如毒品交易、個人信息買賣、洗錢等非法行為,給社會造成巨大危害。當前,如何準確檢測識別匿名網絡流量和其對應的應用程序對網絡運營商加強網絡環境監管、打擊非法行為具有重大實際意義。

匿名網絡,即第二代洋蔥路由系統(the second generation onion router,Tor)[1],其核心技術為洋蔥路由,最早由美國海軍研究實驗室成員研發,旨在保護美國情報通信。使用洋蔥網絡進行通信時,路由節點會對數據進行多層加密,并且通信電路是不固定的,數據包會在不同路由節點間隨機跳轉,以此確保中繼間的前向安全性。正因洋蔥網絡復雜的路由結構、高度的數據加密,導致通過端口號分析、特征字段匹配識別其流量見效甚微。

1 研究現狀

隨著學者的深入研究,SVM(support vector machine)、KNN(K-nearest neighbor)、Logistic Regression等機器學習算法已被應用于對以Tor為代表的匿名網絡流量進行特征提取和識別,取得了不錯的效果。2006年,Hinton等[2]正式提出深度學習(deep learning)概念,掀起深度學習研究熱潮,VGG[3]、ResNet[4]等卷積神經網絡模型取得重大成功,將卷積神經網絡等深度學習方法用在網絡流量識別上也取得了一定進展,本文按照時間線對與匿名網絡流量識別相關的文章進行梳理。

2008年,Bai等[5]通過采用提取網絡流量的特定字符串、數據包長度、發送時間頻率等指紋特征的方式,實現對匿名工具Tor和Web-Mix流量的識別。Turkett等[6]提出將支持向量機SVM與網絡流量包的頻譜表示相結合,用于對暗網流量進行識別。2012年,AlSabah等[7]提出基于機器學習的DiffTor,用于對實時的Tor加密流量分類。2014年,Ling等[8]設計了一個用于發現和分類Tor上惡意流量的系統:TorWard,可以實現對P2P、惡意軟件、DoS(拒絕服務)攻擊、垃圾郵件等200種已知惡意軟件流量的識別。He等[9]提出根據Tor加密流量推斷具體應用程序類型的方法。Patel等[10]提出根據第一、第二數字證書分別包含第一網絡設備的身份信息和分類信息的特性,對虛擬專用網絡流量進行分類識別。

2016年,Draper-Gil等[11]提出使用基于流的流量分類方法,僅使用與時間相關的特征來表征加密流量和VPN流量。Al-Naami等[12]利用數據包序列的依賴性來提取適合分類的特征,用于端節點加密網絡流量的識別。2017年,Lashkari等[13]提出了一種通過時間分析來檢測和表征Tor流量的方法。Wang等[14]將特征提取、特征選擇等集成在一個框架中,并使用一維卷積神經網絡端到端對加密流量進行識別。2018年,Saleh等[15]對Tor的去匿名化、路徑選擇、分析和性能改進等研究方向進行了總結、分析、分類和量化。2019年,Sonntag等[16]對Tor網絡中的惡意DNS流量進行了檢測分析,提出限制或延遲Tor電路上對IP和域名的查詢,減少通過Tor網絡的惡意流量。Montieri等[17]用分層的方法實現對Tor、I2P等匿名流量的識別。2020年,Lotfollahi等[18]提出深度包框架(deep packet),將網絡數據的特征提取和分類過程進行集成,使用堆疊自動編碼器(SAE)和卷積神經網絡(CNN)進行分類。Habibi等[19]提出使用二維卷積神經網絡檢測、識別暗網流量,取得了86%的準確率。2021年,梁曉萌等[20]提出一種基于人工蜂群算法的Tor流量在線識別方法,準確率為93%。

隨著技術的進步,對匿名網絡流量的識別取得了一定成功,但仍存在識別準確率低、實時性差、關鍵流量漏報率高等問題,尚未滿足實際使用需求。為此,本文根據匿名網絡數據各特征間相互獨立,無內在關聯的特性,采用一維卷積神經網絡設計了一個全新的匿名網絡流量識別模型1D-ResVGG,進一步提升了匿名網絡流量識別準確率,滿足了實際使用要求。

2 模型設計

卷積神經網絡CNN(convolutional neural networks)的初步實現最早可追溯到1980年Fukushima模擬生物視覺皮層機制提出的“neocognitron”深度神經網絡[21],可對輸入信息按設計的階層進行平移不變分類。當前,二維卷積神經網絡(2D-CNN)已在圖像識別、分類中取得較高準確率,鑒于圖像數據是二維或三維數據,而本文處理的流量數據是一維數據,相鄰數據點的數值并沒有如圖像數據那樣表示著邊緣、背景等特征的變化,故采用一維卷積神經網絡(1D-CNN)進行模型設計。

2.1 1D-VGG16

一維VGG16卷積神經網絡(1D-VGG16)是根據VGG網絡設計的,VGG網絡是由Karen等[3]提出的深度卷積神經網絡,獲得了2014年ILSVRC競賽的第二名,VGG網絡結構對后續深度卷積神經網絡的設計具有啟發性意義,由于本文處理的是一維數據,故將VGG16網絡中的卷積層、池化層替換成一維卷積和一維池化,詳細如圖1所示。

在1D-VGG16網絡結構中,卷積操作主要用來進行特征提取,并不改變特征維度,引入最大池化對卷積、激活后的特征進行篩選,保留關鍵特征的同時,降低了特征維度,該模型結構有利于對數據進行特征提取,但隨著網絡結構的加深,會增加訓練難度,出現梯度消失、梯度爆炸等問題。

2.2 1D-ResNet34

一維殘差卷積神經網絡(1D-ResNet)是根據殘差網絡設計的,ResNet由何愷明等人[4]設計,奪得了2015年ILSVRC競賽冠軍,作者在網絡結構中引入了跳躍連接(skip connection),用以解決神經網絡中的退化問題,同時也解決了層次過深,難以訓練的問題。ResNet網絡結構對后續深度卷積神經網絡結構上的設計具有啟發性意義。鑒于本文處理的不是圖像數據,而是一維網絡流量特征數據,故對原始ResNet網絡中的卷積層、批歸一化層、池化層進行替換,使之適應處理流量數據,詳細模型結構如圖2所示。

在1D-ResNet34網絡中,殘差模塊計算過程可用式(1)表示:

其中,xl表示輸入數據,xl+1表示輸出結果,wl表示與該層殘差單元相關的權重和偏差,f()表示激活函數。對于快捷連接h(x),當x與F(x)維度一樣,即圖2中加粗字體的參數s=1時,采用恒等映射,即h(x)=xl,這種快捷連接通過F(x)與x相加,并沒有引入額外參數,可操作性強。當x與F(x)維度不一樣,即圖2中加粗字體的參數s=2時,可通過參數矩陣Ws執行線性投影匹配維度,此時h(x)=Ws·xl,在模型中通過采用卷積核為1、步長為2的一維卷積和一維批歸一化實現。

2.3 1D-ResVGG

ResNet與VGG網絡結構已被廣泛應用在圖像識別、圖像分割、目標檢測等計算機視覺任務中,取得了較好的效果,在VGG網絡中,通過卷積、池化的多層堆疊進行特征提取、篩選,加深了網絡結構,提升了模型性能。在ResNet網絡中,引入跳躍連接解決深層網絡存在的退化問題,降低了訓練難度,使得模型可進一步加深,提高了準確率。為提升對Tor匿名流量識別的準確率,本文借鑒了ResNet網絡與VGG網絡的優點,設計了1D-ResVGG網絡。

圖3(a)展示了1D-ResVGG網絡中組成模塊(Block)的詳細結構,其計算過程見式(2):

其中xl表示輸入Block的數據,xl+1表示Block的輸出結果,wl表示與該層殘差單元相關的權重和偏差。在Block中使用了一維卷積、一維批歸一化、ReLU激活函數和一維最大池化,與圖2 1D-ResNet34網絡中使用核為1、步長為2的卷積實現線性投影匹配維度不同,在1D-ResVGG的跳躍連接中,使用了核為2、步長為2的非重疊卷積,在考慮更多特征的同時,能進一步解決因網絡結構加深而引起的退化問題,穩定提高模型性能。此外,也沒有使用核為3、步長為2的卷積將特征圖大小壓縮為原來的二分之一,而是采用核為2、步長為2的最大池化對卷積激活后的特征圖進行篩選,有利于去除無關特征,保留關鍵特征,便于后續識別,提高模型準確率。

3 實驗設計

為驗證設計的1D-ResVGG模型是否能夠提升對Tor匿名流量以及具體應用程序流量的識別準確率,便于進一步加強網絡監管、打擊網絡犯罪、凈化網絡環境,本文設計了實驗。

文中所有模型均是基于Pytorch 1.11.0+cu113框架和Scikit-learn 1.0.2機器學習庫實現的,實驗時,取數據集中70%的數據作為訓練集,余下30%的數據作為測試集,Batch設置為64,使用隨機梯度下降優化器(SGD),學習率(lr)設置為0.001,動量(momentum)為0.9,使用交叉熵損失函數(CrossEntropy Loss),訓練過程中,當測試集的準確率在某個Epoch達到最高,且此后連續50個Epoch測試集上的準確率都不再增加時,采用該Epoch在測試集上的準確率、精確率、召回率、F1分數等作為評價指標。

3.1 CIC-Darknet2020數據集介紹

數據集的選擇對匿名網絡流量識別至關重要,本 文 選 擇Habibi等[19]所 提 的CICDarknet2020數據集,它是將ISCXVPN2016[22]和ISCXTor2017[13]兩個數據集進行組合得到的全新Tor匿名網絡數據集,包含音頻、視頻、電子郵件、瀏覽器等八種類型,超二十種應用程序產生的流量,基本涵蓋了互聯網上的常用應用程序流量,多樣性強、真實性高,滿足實驗要求。

本文對CIC-Darknet2020原始數據進行清洗,將存在空值的流量數據包刪除,最終得到135141條可用流量數據,整體上可分為兩類:一類是常規網絡流量,具體由93310條Non-Tor流量和23861條Non-VPN流量組成;另一類是與匿名網絡應用服務相關的目標流量,它由1392條Tor流量和16578條VPN流量組成。其中17970條匿名網絡流量中又可細分為P2P、Chat、VOIP等八種類型、二十余種應用程序產生的流量,詳細組成見圖4。

在CIC-Darknet2020數據集中,作者提出了83個流量特征。根據實驗需要,本文對原文所提的83個特征進行篩選,首先將Flow ID、Src IP、Dst IP等特征刪除,這類特征大多為非數值特征,無法將其編碼轉換成數值,且與流量所屬類別無直接關聯。接著對余下特征的重要性進行排序,將Bwd PSH Flags、Active Mean、Active Std等數值一樣、不具有區分度以及區分度低的特征刪除,最后得到64個目標特征。

3.2 Tor匿名流量與非匿名流量識別

在本節實驗中,為驗證設計的1D-ResVGG模型是否能夠準確識別匿名流量與非匿名流量,滿足實際應用需要,將數據集整體分為兩類:一類是正常的網絡流量,另一類是與Tor匿名網絡服務相關的網絡流量。實驗中除1D-VGG16、1D-ResNet34模型外,還選擇了流量識別中常用的支持向量機(SVM)[23]、最鄰近算法(KNN)[24]、邏輯回歸(LR)[25]等機器學習算法作為對比。此外,因本文所使用的流量數據與文本數據具有一定相似性,故還選擇了文本分類中常用的循環神經網絡(RNN)[26]、長短期記憶網絡(LSTM)[27]、深度金字塔卷積神經網絡(DPCNN)[28]作為對比模型。

在流量識別領域中,還有學者將流量特征數據轉換為灰度圖像,并采用二維卷積神經網絡對其進行識別,本文也嘗試將流量特征數據轉換成灰度圖像,將64個特征轉換成分辨率為8×8的灰度圖像,采用VGG、ResNet34兩個經典圖像分類網絡進行分類識別。

實驗一共選擇了十二種模型,使用同一數據集,為降低訓練中出現梯度消失、梯度爆炸的風險,提升識別準確率,對每個特征的所有數據進行歸一化預處理,采用測試集上的準確率、精確率、召回率、F1-Score的宏平均值,以及非匿名流量、匿名流量的F1-Score值作為評價指標,具體實驗結果見表1。

表1 各模型對匿名流量與非匿名流量二分類識別結果 %

分析實驗結果可得,1D-ResVGG模型在各個評價指標上均優于其他模型,取得了98.55%的準確率。此外,還可以發現1D-VGG16、1DResNet34模型的準確率略低于1D-ResVGG,但都高于2D-VGG、2D-ResNet34模型。用于文本分類的RNN、LSTM、DPCNN模型也取得了較好的結果,但都低于一維和二維卷積神經網絡。SVM、KNN、LR、MLP模型之間的性能差異較大,整體上低于深度學習模型。除上述的準確率、F1-Score等評價指標之外,還采用了二分類任務中常用的Roc值、Roc曲線來證實采用一維卷積神經網絡識別網絡流量數據的可行性,對所用十二種流量分類模型繪制了Roc曲線,具體見圖5。

從圖5可以看出,采用一維卷積神經網絡設計 的1D-VGG16、1D-ResNet34、1D-ResVGG模型的Auc值接近,整體上優于其余模型,進一步證實了采用一維卷積神經網絡處理流量數據的可行性。

3.3 Tor、Non-Tor、VPN、Non-VPN流量分類

進入匿名網絡的方式整體上可分為兩種:一是通過VPN代理,使用Tor等專用瀏覽器間接訪問匿名網絡;二是主機作為匿名網絡中的路由、中繼等與匿名網絡直接相連。本文使用的CIC-Darknet2020數據集中包含這兩種流量,其整體可分為匿名流量與非匿名流量,詳細又可分為與匿名網絡服務相關的Tor流量、VPN流量,以及常規的Non-Tor、Non-VPN流量。本實驗嘗試對Tor、Non-Tor、VPN、Non-VPN四種流量進行分類,采用的實驗模型為支持向量機、最鄰近等12個模型,采用準確率、F1-Score宏平均和Tor、Non-Tor、VPN、Non-VPN四個類別的F1-Score作為評價指標,具體實驗結果參照表2和圖6。

表2 各模型對Tor、VPN、Non-Tor、Non-VPN流量四分類準確率

分析實驗結果可得,1D-ResVGG模型對Tor、VPN等流量的識別準確率為98.87%,優于圖中的常用經典模型,在Tor、VPN、Non-Tor、Non-VPN四個類別上的精確率、召回率、F1-Score值也均優于其余所有模型。

3.4 應用程序識別

在實際網絡監管、預防犯罪等任務中,僅識別該數據包是否為匿名流量并不能滿足實際需要,還需對具體應用類型進行精準識別,如通常被非法分子用來傳輸重要信息的網絡電話、電子郵件等應用程序,這類應用流量中通常包含用戶身份等重要信息,準確識別該類流量,對預防犯罪、加強網絡監管等有重大實際意義。本實驗仍采用3.2節實驗中所用到的12種模型,對Tor匿名網絡流量中八種應用類型的流量數據進行識別,采用識別的準確率、以及P2P、Browsing、Chat等八種應用類型的F1分數作為評價指標,實驗結果見表3和圖7。

表3 各模型對匿名流量中八種應用類型識別準確率

圖7中橫坐標表示實驗中采用的十二種模型,縱坐標表示F1分數、Accuracy值,從表3可以看出,所有模型中1D-ResVGG模型取得的最高識別準確率為96.14%,其余8條折線為十二種模型對八種應用程序流量分類的F1-Score值。分析可得,1D-ResVGG模型對八種應用程序流量分類的效果均優于其余十一種模型,其中對Audio、P2P、Chat的分類效果最好。

為進一步分析1D-ResVGG模型對每種應用程序的分類效果,繪制了該模型對八種應用類型分類的混淆矩陣,結果見圖8。根據混淆矩陣分析可得,1D-ResVGG對P2P、Chat、Audio、Email四種類型應用的分類效果較好,滿足實際應用需求;對Video、Browsing兩種應用類型識別效果較差,還有較大提升空間。

4 結語

匿名網絡的出現旨在造福互聯網用戶,保護個人隱私,但隨著時代的進步,匿名網絡在向萬千網民提供安全性服務的同時,也成為了非法分子逃避罪責的幫兇,憑借著匿名網絡的隱蔽性、安全性,犯罪分子在這里肆意進行著毒品、槍支、個人信息買賣等眾多犯罪行為。本文設計了一種全新的基于一維殘差卷積神經網絡的匿名網絡流量識別模型:1D-ResVGG,實驗表明,該模型對匿名網絡流量識別的準確率達到了98.87%,對匿名網絡上的具體應用程序識別準確率達到了96.14%,優于現有匿名網絡流量識別模型,達到了實際使用標準,滿足使用需求。

猜你喜歡
分類特征模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 国产精品流白浆在线观看| 欧美啪啪精品| 精品视频一区二区三区在线播| 日韩欧美国产三级| 国产精品刺激对白在线| 中国成人在线视频| 亚洲中文字幕在线一区播放| 国产亚洲精品资源在线26u| 日本一区二区三区精品视频| 色婷婷亚洲综合五月| 一级毛片无毒不卡直接观看 | 91热爆在线| jizz国产在线| 久久国产高清视频| 欧美性色综合网| www.国产福利| 干中文字幕| 色偷偷一区二区三区| 九九九久久国产精品| 国产成人亚洲精品色欲AV| 国产免费黄| 激情在线网| 日韩少妇激情一区二区| 国产成人综合久久精品尤物| 2020久久国产综合精品swag| 在线日韩一区二区| 国产本道久久一区二区三区| 欧美a在线看| 亚洲精品福利网站| 亚洲成av人无码综合在线观看| 免费在线国产一区二区三区精品| 日本人妻丰满熟妇区| 亚洲一区黄色| 午夜福利视频一区| 免费国产高清视频| 制服丝袜一区| 久久婷婷六月| 欧美日在线观看| 亚洲欧美一区二区三区图片| 国产原创演绎剧情有字幕的| 国产国拍精品视频免费看| 九色在线视频导航91| 国产91视频观看| 伊人色婷婷| 欧美亚洲一二三区| 亚洲精品男人天堂| 日韩国产精品无码一区二区三区| 超碰色了色| 91偷拍一区| aa级毛片毛片免费观看久| 亚洲日韩AV无码一区二区三区人| 好吊日免费视频| 9久久伊人精品综合| 国产午夜无码片在线观看网站| 五月婷婷综合在线视频| 无码中文字幕精品推荐| 亚洲欧美综合另类图片小说区| 久久a级片| 亚洲欧美不卡中文字幕| 国产欧美视频综合二区 | 久久黄色一级片| 91精品国产一区| 国产91视频免费| 国产91丝袜在线播放动漫| 亚洲日韩精品无码专区| 呦视频在线一区二区三区| 色欲色欲久久综合网| 国产无码精品在线播放| 日韩av无码DVD| 91美女视频在线| 香蕉eeww99国产精选播放| 四虎在线观看视频高清无码| 国产一级小视频| 国产麻豆va精品视频| 一本大道香蕉久中文在线播放| 国产午夜精品鲁丝片| 中文国产成人精品久久| 午夜影院a级片| 不卡视频国产| 欧美午夜视频在线| 亚洲成在人线av品善网好看| 高清免费毛片|