999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征融合的加密Tor 流量檢測方法

2024-06-29 02:43:46李常亮王俊峰方智陽孫賀
四川大學學報(自然科學版) 2024年3期

李常亮 王俊峰 方智陽 孫賀

摘 要: 匿名網(wǎng)絡是目前保護個人隱私的常用工具,結(jié)合混淆網(wǎng)橋組件后具備極強的隱私保護能力;信息對抗中的持續(xù)博弈使得在匿名網(wǎng)絡中運用加密代理成為數(shù)據(jù)安全敏感用戶實現(xiàn)隱私保護的主要手段. 匿名網(wǎng)絡和加密代理雙重保護讓流量檢測面臨以下兩個方面的挑戰(zhàn)和問題:(1) 代理匯聚:經(jīng)過加密代理之后的流量呈現(xiàn)單流特性,導致基于完整數(shù)據(jù)流的流量檢測方法失效;(2) 特征模糊:數(shù)據(jù)包混淆機制使得數(shù)據(jù)流特征稀疏化,導致基于低階統(tǒng)計特征的方法效果減弱. 本文提出了一種名為SETTDM 的流量檢測方法來應對上述兩種挑戰(zhàn). 具體而言,針對代理匯聚問題,采用基于滑動窗口的方式拆分數(shù)據(jù)子流,使得SETTDM 方法能應用于因代理產(chǎn)生的聚合數(shù)據(jù)流并盡可能地保留了原始數(shù)據(jù)流的特征空間;針對特征模糊問題,提出基于特征融合的特征提取方法:多角度的統(tǒng)計時序特征結(jié)合ResNet 提取的加密空間特征. 在實驗中采集了真實的二次加密Tor 流量、加密背景流量和未加密背景流量,并融合公開加密流量數(shù)據(jù)集ISCXVPN2016 組成實驗數(shù)據(jù)集;經(jīng)測試,SETTDM 方法可以達到99. 78% 的精確率,相比對比方法有著2. 30%~9. 29% 的提升.

關(guān)鍵詞: 加密流量; 匿名網(wǎng)絡流量; 隱私保護; 特征融合

中圖分類號: TP393. 3 文獻標志碼: A DOI: 10. 19907/j. 0490-6756. 2024. 032001

1 引言

隨著網(wǎng)絡技術(shù)的蓬勃發(fā)展,互聯(lián)網(wǎng)承載了日常生活中的大量信息傳輸[1]. 對隱私敏感的用戶傾向于使用隱私增強的技術(shù)來隱蔽自己的在線活動軌跡. 匿名網(wǎng)絡[2]是目前最受歡迎的隱私增強技術(shù)[3],一方面提供針對用戶的隱私保護方案,保護服務使用者的網(wǎng)絡行為隱私;另一方面提供針對隱藏服務的隱私保護方案,幫助隱匿隱藏服務提供方的出站流量,使得隱藏服務難以被追蹤溯源.后者常被一些不法分子用于非法活動,對網(wǎng)絡空間安全造成了極大的危害[4],站在監(jiān)控匿名網(wǎng)絡中非法行為的角度,對匿名網(wǎng)絡及其擴展組件的流量進行檢測都具有重要意義.

匿名網(wǎng)絡是基于互聯(lián)網(wǎng)之上建立的隱蔽網(wǎng)絡,旨在為網(wǎng)絡用戶提供了全方位的隱私保障. 第二代洋蔥網(wǎng)絡簡稱Tor[5],是目前應用最廣泛的匿名網(wǎng)絡,其融合了多級中繼路由、節(jié)點加密以及動態(tài)引入節(jié)點等設計思想,同時具備對服務使用者和服務提供者的隱私保護能力. 隨著信息對抗中的持續(xù)博弈,Tor 項目組也在為抵御新型流量檢測方法研發(fā)新的技術(shù),混淆網(wǎng)橋就是其中一種策略.混淆是指采用更難以被檢測到的流量混淆技術(shù)來給匿名網(wǎng)絡流量加殼,網(wǎng)橋則是指將采用了新的混淆技術(shù)的節(jié)點作為匿名網(wǎng)絡引入節(jié)點,以取代原來的普通入口節(jié)點. Obfs4[6]是Obfs 網(wǎng)橋迭代更新到第四代的版本,其引入了橢圓加密算法對流量載荷進行加密;使用數(shù)據(jù)包隨機填充方式偽裝普通流量以抵御基于數(shù)據(jù)包長度的流量檢測;在握手階段采用基于Ntor[7]的握手機制以防范中間人攻擊. 綜合來說,Obfs4 采用了多種流量混淆思路,為用戶提供了匿名性和安全性保障.

加密代理和匿名網(wǎng)絡有著相似的思想,都是通過中繼節(jié)點來實現(xiàn)用戶與目標網(wǎng)絡服務之間的數(shù)據(jù)傳輸. 不過,他們的部署方式和使用場景略有不同. 加密代理通常是由用戶自行部署的私人節(jié)點,用于加密數(shù)據(jù)并轉(zhuǎn)發(fā)到目標節(jié)點,主要用于繞過網(wǎng)絡封鎖、保護個人隱私等目的. 而匿名網(wǎng)絡則是由社區(qū)共同維護的公共節(jié)點組成,主要用于隱藏用戶的真實身份、保護用戶隱私等目的. 因此,匿名網(wǎng)絡的節(jié)點數(shù)量通常要比加密代理多得多,節(jié)點的流量吞吐量也更大,同時也更容易被監(jiān)管設備加入黑名單. 使用常見匿名網(wǎng)絡直接訪問Google 或YouTube 通常會被禁止訪問. 但是,可以通過在匿名網(wǎng)絡出口節(jié)點之后部署個人加密代理來解決這個問題. 這樣Google 或YouTube 就不會因為判定出匿名網(wǎng)絡的公用出口節(jié)點發(fā)送大量數(shù)據(jù)包而終止我們的網(wǎng)絡請求. 同時,使用加密代理也可以保護我們的隱私.

對于匿名網(wǎng)絡流量和加密代理的融合場景,本文選擇引入Obfs4 混淆網(wǎng)橋后的Tor 網(wǎng)絡和由Google 開源的Vmess 加密代理協(xié)議來進行介紹:Tor 流量在本地由Tor 瀏覽器生成,經(jīng)本地Obfs4網(wǎng)橋混淆加殼后轉(zhuǎn)發(fā)至本地加密代理,由本地加密代理加殼后轉(zhuǎn)發(fā)至遠程加密代理服務器,經(jīng)遠程加密代理服務器解密后與Tor 入口節(jié)點(Obfs4服務節(jié)點)進行通信建立連接,由此接入Tor 網(wǎng)絡. 整體流程圖如圖 1.

面對同時隱藏在匿名網(wǎng)絡混淆增強技術(shù)和加密代理下的網(wǎng)絡流量,流量檢測需要克服以下難點:(1) 代理匯聚:經(jīng)過加密代理之后的流量呈現(xiàn)單流特性,基于完整數(shù)據(jù)流的流量檢測方法失效;(2) 特征模糊:數(shù)據(jù)包混淆機制使得數(shù)據(jù)流特征稀疏化,導致基于低階統(tǒng)計特征的方法效果減弱.

在流量檢測領(lǐng)域,現(xiàn)有技術(shù)方案有以下3 種:(1) 基于端口的檢測方案[8];(2) 基于深度包特征的檢測方案[9-12];(3) 基于機器學習方法的檢測方案[13]. 基于端口的檢測方案使用IANA[14]分配的固有端口號來檢測流量中的特定協(xié)議. 基于深度包檢測的方案則采用提取流量有效載荷中的特定應用程序簽名的方式來檢測特定協(xié)議. 基于端口的檢測方法快速高效,僅需要應用協(xié)議的端口信息就能實現(xiàn)流量檢測,但隨著隱私增強技術(shù)的不斷發(fā)展,動態(tài)端口技術(shù)和加密代理的出現(xiàn),使得基于端口和基于深度包檢測的方案逐漸失效. 基于機器學習的檢測方案通常包含數(shù)據(jù)預處理、特征提取以及分類檢測等多個步驟,通過合理的手動篩選流量特征和機器學習模型自動篩選特征可以極大地提高檢測精度,但現(xiàn)實場景中大量的網(wǎng)絡流量需要處理,使得機器學習模型必須考慮實時性和準確性之間的平衡.

針對前文所述難點,結(jié)合目前常用的流量檢測方案,本文提出一種名為SETTDM(SecondaryEncrypted Tor Traffic Detection Method)的基于特征融合的二次加密Tor 流量檢測方法. 該方法針對代理匯聚問題采用基于滑動窗口的方法從聚合混合多條數(shù)據(jù)的數(shù)據(jù)流中切割出子流,解決經(jīng)加密代理轉(zhuǎn)發(fā)后流量由多流轉(zhuǎn)化為單流使得完整數(shù)據(jù)流分析失效的問題并最大限度保留了原始數(shù)據(jù)流的特征空間;而后針對特征模糊問題從多角度特征入手,先提取數(shù)據(jù)包低階時序特征,再使用ResNet[15]自動提取數(shù)據(jù)包級別和數(shù)據(jù)流級別協(xié)同的加密空間特征,充分挖掘流量表征信息;最后將提取出的兩種特征融合后使用DNN 網(wǎng)絡完成加密代理下匿名網(wǎng)絡流量的檢測. 在實驗環(huán)境采集時長為三周的數(shù)據(jù)流量融合ISCXVPN2016[16]中加密流量的數(shù)據(jù)集中進行測試,SETTDM 方法達到了99. 78% 的精確率,99. 86% 的F1-Score.

2 相關(guān)工作

匿名網(wǎng)絡技術(shù)在不斷迭代,我們將匿名網(wǎng)絡流量檢測研究依據(jù)檢測源的不同劃分為基于Tor自身缺陷的檢測方案和基于Tor 及其相關(guān)組件通信原理的檢測方案.

在基于Tor 自身缺陷的檢測方案中,由于Tor本身的一些技術(shù)性漏洞,通過對Tor 網(wǎng)絡部分外露節(jié)點IP 探測和基于統(tǒng)計特征的檢測方式,就能達到較好的效果. Ghafir 等[17]使用爬蟲定期爬取Tor入口節(jié)點IP,對網(wǎng)絡流量使用基于IP 比對和基于黑名單過濾的方式進行Tor 流量檢測,實現(xiàn)了對Tor 流量的高效檢測. 何高峰等[18]通過分析Tor 通信機制,提出了基于報文長度的檢測方案和基于TLS[19]握手指紋特征的檢測方案,在CAIDA 數(shù)據(jù)集上表明,兩種檢測方案都能成功檢測Tor 網(wǎng)絡流量. 但隨著混淆網(wǎng)橋等進一步增加流量隱蔽性組件的加入,流量特征難以提取,加密方式也不僅僅是TLS,上述兩種基于Tor 自身顯著缺陷的方法對現(xiàn)代Tor 網(wǎng)絡流量都失去檢測效果.

基于Tor 及其關(guān)聯(lián)組件通信原理的相關(guān)研究主要是在加入混淆網(wǎng)橋組件的場景下,使用機器學習方法對Tor 流量進行檢測. Obfs4 是使用最廣泛的混淆網(wǎng)橋,因此本文主要討論和Obfs4 相關(guān)的檢測方案. 本文基于特征選擇的不同又將目前針對Tor 網(wǎng)絡流量分類的機器學習研究分為兩種:(1) 基于完整數(shù)據(jù)流的檢測方案;(2) 基于數(shù)據(jù)流中部分關(guān)鍵信息的檢測方案.

在基于完整數(shù)據(jù)流的檢測方法中,He 等[20]和Liang 等[21]均采用了一種基于隨機性測試的方法,利用數(shù)據(jù)包中的數(shù)據(jù)熵值和字節(jié)分布特征判斷數(shù)據(jù)加密. He 等[20]將初篩判定加密的流量進行Obfs4 握手部分數(shù)據(jù)包重組,并根據(jù)其返回的確認包時序特征與其他流量進行細粒度的區(qū)分;然后提取16 種統(tǒng)計特征完成最后分類,并在其實驗室環(huán)境采集的數(shù)據(jù)集下達到了99% 的精確率. Wu等[22]在骨干網(wǎng)絡中采集了大量背景流量,將Obfs4流量融合到一起形成實驗數(shù)據(jù)集;對骨干網(wǎng)絡的流量進行采樣,并使用嵌套計數(shù)的布隆過濾器記錄采樣數(shù)據(jù)包的信息,通過特征值計算獲取采樣流量的特征;針對Obfs4 流量,手動提取了14 種統(tǒng)計特征,并利用隨機森林[23]對每個特征進行了重要性計算;在Obfs4 流量僅占0. 15% 的數(shù)據(jù)集里進行驗證,F(xiàn)1-Score 達到了90%. 基于完整數(shù)據(jù)流的檢測方法的不足之處是由于代理匯聚問題的存在,難以將原始多條數(shù)據(jù)流從混淆數(shù)據(jù)流中區(qū)分開來,并由于代理匯聚進一步放大了特征模糊問題,導致此類方法的效果急劇減弱;此外,由于采用完整數(shù)據(jù)流進行檢測所帶來的特征提取和模型預測時間開銷巨大使得此類方法實時性難以保證.

在基于部分數(shù)據(jù)包檢測的方法里,Wang 等[24]在分析Obfs4 流量過程中通過計算關(guān)鍵訪問信號得到了Obfs4 流量中具有區(qū)分度的TCP 包啟動下標和窗口大小,將該窗口內(nèi)的數(shù)據(jù)包用來提取表征該條流量的統(tǒng)計特征,在實驗環(huán)境自行構(gòu)造的數(shù)據(jù)集下可以達到90% 以上的準確率和召回率.此方法在特征提取上較為高效,能保證較高的實時性;但是關(guān)鍵信號的計算對原始數(shù)據(jù)包有著較高的依賴,如果少量的原始關(guān)鍵數(shù)據(jù)包丟失或未能捕獲到則整條異常數(shù)據(jù)流都不能被正確檢測出. Xu 等[25]采用了滑動窗口的機制來應對海量的數(shù)據(jù)包,在使用5 元組分割數(shù)據(jù)流后,繼續(xù)使用滑動窗口將整流劃分為子流;在子流上手工提取時間差和數(shù)據(jù)包長度等12 個特征輸入隨機森林和XGBoost[26]進行檢測,在實驗環(huán)境下,能以99% 的準確率和召回率檢測出隱藏在Meek[27]、FTE[28]和Obfs4 下的Tor 流量. 但此方法的不足之處在于僅使用了低階統(tǒng)計特征,而對流量雙重加密后的潛在空間特征未能利用,存在進步的空間. 不論是基于關(guān)鍵TCP 序列還是使用滑動窗口的方式,都有效減少了檢測時間. 相對而言,使用關(guān)鍵TCP 序列的方法,流量針對性較強,遷移能力較弱;而采用滑動窗口切分子流的方式具備更好的可復用性.

3 方法介紹

對于待測網(wǎng)絡流量,本文采用基于五元組和滑動窗口來進行兩階段的數(shù)據(jù)流切分. 對于切分后的每條數(shù)據(jù)流,分別提取低階統(tǒng)計特征和加密空間特征. 將上述兩種特征融合疊加,使用DNN網(wǎng)絡完成分類. 總體架構(gòu)如圖 2.

3. 1 數(shù)據(jù)流預處理

首先將原始輸入流量依據(jù)五元組規(guī)則進行切分得到初始數(shù)據(jù)流,接著使用滑動窗口將初始混合數(shù)據(jù)流切分為多條子流,便于后續(xù)特征提取. 使用五元組劃分數(shù)據(jù)流是為了將不同時刻屬于不同流的數(shù)據(jù)包劃分開來,雖然加密代理的引入會引發(fā)多流匯聚成單一流的現(xiàn)象,但在不同時間段內(nèi)的流量由于加密代理的動態(tài)端口機制會表現(xiàn)出多條流的特性,因此使用五元組初步劃分不同時間段的流是很有必要的. 而使用滑動窗口機制,則是為了應對在一個時間段內(nèi)由加密代理導致的多流匯聚成單一流,無法對單條混合流量進行檢測的問題. 通過調(diào)整滑動窗口的窗口大小和步長參數(shù),可以保證在切分后的子流中存在能表征流量的特征.

主站蜘蛛池模板: 国产成人精品亚洲77美色| 久久综合色视频| 在线网站18禁| 性色一区| 国产一线在线| 国产高潮视频在线观看| 啪啪啪亚洲无码| 91成人精品视频| 91久久天天躁狠狠躁夜夜| 亚洲人成网站在线观看播放不卡| 国产色图在线观看| 亚洲高清国产拍精品26u| 高清码无在线看| 国产免费久久精品99re不卡| 免费人欧美成又黄又爽的视频| 色网站在线视频| 成人午夜视频免费看欧美| 亚洲人人视频| 香蕉色综合| 日韩中文精品亚洲第三区| 综合五月天网| 欧美成人亚洲综合精品欧美激情| 精品成人一区二区| 国产99热| 欧美日韩福利| 亚洲最大看欧美片网站地址| 真实国产乱子伦视频| 欧美精品1区| 欧美日韩在线亚洲国产人| 99尹人香蕉国产免费天天拍| 成人福利免费在线观看| 精品国产乱码久久久久久一区二区| 国产亚洲成AⅤ人片在线观看| 久久精品人人做人人爽97| 亚洲va欧美va国产综合下载| 成年A级毛片| 人妻丝袜无码视频| 国产精品不卡片视频免费观看| 欧美日韩一区二区三区在线视频| 久久伊伊香蕉综合精品| 日本国产一区在线观看| 国产激情无码一区二区APP| 尤物亚洲最大AV无码网站| 久久精品午夜视频| 91视频99| 亚洲国产欧美国产综合久久| 国产主播在线一区| 日本91在线| 97成人在线观看| 亚洲第一成人在线| 欧美色视频在线| 国产区精品高清在线观看| 青青草原偷拍视频| 天天操精品| 91九色最新地址| 国产青青操| 亚洲综合二区| 国产成人亚洲日韩欧美电影| 亚洲成人福利网站| 日韩欧美91| 四虎国产永久在线观看| 欧美黄网站免费观看| 丰满人妻被猛烈进入无码| 专干老肥熟女视频网站| 国产尤物视频在线| 欧美激情视频一区二区三区免费| 一级毛片免费不卡在线视频| 毛片基地视频| 狠狠v日韩v欧美v| 一级高清毛片免费a级高清毛片| 久久96热在精品国产高清| 国产区人妖精品人妖精品视频| 欧美不卡视频一区发布| 亚洲AV无码久久精品色欲| 欧美激情视频二区| 日韩在线视频网站| 国产精品视频导航| 欧美亚洲欧美| 91香蕉国产亚洲一二三区 | 日韩色图在线观看| 国产成人高精品免费视频| 久久综合色视频|