999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

針對Tor匿名通信網(wǎng)絡(luò)的去匿名化技術(shù)研究

2023-04-27 04:00:42李兵
電腦知識與技術(shù) 2023年7期
關(guān)鍵詞:深度學(xué)習(xí)

李兵

關(guān)鍵詞:Tor匿名通信網(wǎng)絡(luò);去匿名化;深度學(xué)習(xí)

1 簡介

洋蔥路由(The Onion Router) 簡稱Tor,是一個用于實(shí)現(xiàn)匿名通信的免費(fèi)開源系統(tǒng)[1],可以隱藏用戶的位置和使用情況,避免被網(wǎng)絡(luò)監(jiān)視。研究人員一開始設(shè)計Tor的目的是用于保護(hù)美國軍方的在線情報通信。后來隨著Tor代碼的公開,Tor現(xiàn)在已經(jīng)成為最成功的公共匿名通信服務(wù),每天有超過200萬的用戶使用Tor系統(tǒng)進(jìn)行匿名通信。

Tor通過全球志愿者運(yùn)行的中繼網(wǎng)絡(luò)對通信進(jìn)行加密,然后隨機(jī)反彈。這些路由器以多層方式使用加密,來確保中繼節(jié)點(diǎn)之間的前向保密,從而為用戶提供網(wǎng)絡(luò)位置的匿名性。

Tor使其用戶能夠匿名上網(wǎng)、聊天和發(fā)送即時消息,通過保持其互聯(lián)網(wǎng)活動不受監(jiān)控來進(jìn)行保密通信,為持不同政見者、記者、告密者、企業(yè)、甚至普通用戶都提供了良好的隱私保護(hù)功能,是一個面向普通用戶的低延遲的匿名通信系統(tǒng)。

但是,由于Tor提供了匿名、防溯源的功能,是暗網(wǎng)(Dark Web) 的重要組成部分,通過使用Tor匿名通信技術(shù),暗網(wǎng)用戶的身份和位置保持匿名,無法追蹤,以致犯罪分子從事非法活動可以規(guī)避司法審查。2016年Tor匿名通信服務(wù)各類別占比如圖1所示。可以看出,Tor 上最常托管的內(nèi)容類型是各種非法內(nèi)容,包括非法藥物、非法色情、黑市武器交易、黑客攻擊等。

為了追蹤那些利用Tor擺脫監(jiān)控的犯罪分子,加強(qiáng)對網(wǎng)絡(luò)空間的安全控制,亟須對Tor匿名通信進(jìn)行深入分析和研究。近年來,對Tor匿名通信網(wǎng)絡(luò)的研究成為眾多學(xué)者關(guān)注的焦點(diǎn)。

雖然Tor能夠避免流量傳輸過程的分析,但卻不能阻止流量在輸入輸出時的確認(rèn)。Tor為了保證日常的網(wǎng)絡(luò)瀏覽具有低延遲的特性,沒有使用混淆流量特征等可能導(dǎo)致連接變慢的技術(shù),從而給了可乘之機(jī),人們可以通過特定的方法觀察用戶的輸入輸出流量,對Tor匿名通信網(wǎng)絡(luò)的流量進(jìn)行分析,進(jìn)一步識別用戶瀏覽的網(wǎng)頁,從而破壞Tor通信網(wǎng)絡(luò)的匿名性。

現(xiàn)有針對Tor通信網(wǎng)絡(luò)進(jìn)行流量分析,破壞匿名性的技術(shù)可以分為主動流量分析和被動流量分析兩種:1) 主動流量分析技術(shù)。根據(jù)特定模式改變流中數(shù)據(jù)包的時序,并在網(wǎng)絡(luò)的另一端尋找該模式,從而可以將一側(cè)的流鏈接到網(wǎng)絡(luò)的另一側(cè)并破壞它的匿名性,但是由于流量被改變,隱蔽性較差。2) 被動流量分析。從網(wǎng)絡(luò)一側(cè)的特定流的流量中提取特征,并在網(wǎng)絡(luò)的另一側(cè)尋找這些特征,雖然需要長期觀察和記錄大量的數(shù)據(jù),但具有較好的隱蔽性。根據(jù)流量位置的不同,被動流量分析又可以分為兩類:(1) 網(wǎng)站指紋分析。利用網(wǎng)站內(nèi)容的差異,通過網(wǎng)絡(luò)流量推斷出用戶訪問的網(wǎng)站,從而實(shí)現(xiàn)去匿名化。(2) 流量關(guān)聯(lián)分析。通過觀察并關(guān)聯(lián)進(jìn)入和離開Tor匿名網(wǎng)絡(luò)的流量,關(guān)聯(lián)兩端的流量,從而破壞Tor的匿名性。

近年來,研究人員利用傳統(tǒng)機(jī)器學(xué)習(xí)或深度學(xué)習(xí)算法,提出了一系列的網(wǎng)站指紋分析方法和流量關(guān)聯(lián)分析方法,并取得了較高的精度。

2 背景知識

2.1 Tor 匿名通信網(wǎng)絡(luò)

Tor是最受歡迎的匿名通信網(wǎng)絡(luò),該網(wǎng)絡(luò)由6000 多個中繼節(jié)點(diǎn)組成。

2.1.1 匿名原則

Tor匿名通信網(wǎng)絡(luò)包含三個代理服務(wù)器。需要匿名服務(wù)的用戶首先在本地運(yùn)行洋蔥代理服務(wù)器。洋蔥代理服務(wù)器負(fù)責(zé)通信鏈接建立和數(shù)據(jù)加密工作。它與目錄服務(wù)器進(jìn)行通信,獲得全球活動的中繼節(jié)點(diǎn)信息,然后隨機(jī)選擇三個節(jié)點(diǎn)(入口節(jié)點(diǎn)、中間節(jié)點(diǎn)和出口節(jié)點(diǎn))組成回路。用戶的流量經(jīng)過這三個節(jié)點(diǎn),最后到達(dá)目標(biāo)網(wǎng)站服務(wù)器。系統(tǒng)每隔10分鐘左右就會重新選擇三個節(jié)點(diǎn),每個節(jié)點(diǎn)只知道部分信息,這樣就能達(dá)到匿名的目的。

2.1.2 洋蔥服務(wù)

Tor 還可以為網(wǎng)站和其他服務(wù)器提供匿名性。配置為僅通過Tor 接收入站連接的服務(wù)器稱為洋蔥服務(wù)(Onion Services) 。洋蔥服務(wù)通過Tor 瀏覽器訪問,而不會透露服務(wù)器的IP 地址或網(wǎng)絡(luò)位置。Tor 網(wǎng)絡(luò)通過從網(wǎng)絡(luò)內(nèi)的分布式哈希表中查找它們對應(yīng)的公鑰和引入點(diǎn)來理解這些地址。由于洋蔥服務(wù)的流量完全通過Tor 網(wǎng)絡(luò)進(jìn)行路由,因此與洋蔥服務(wù)的連接是端到端加密的,很難成為竊聽的目標(biāo)。Tor為洋蔥服務(wù)和Tor用戶提供相互匿名,這意味著互相知道對方的IP地址。洋蔥服務(wù)和客戶端之間的默認(rèn)路徑有六個中繼站,通過洋蔥服務(wù)協(xié)議連接。

2.1.3 封閉世界/開放世界場景

Tor進(jìn)行實(shí)驗(yàn)測試通常在兩種場景下進(jìn)行:封閉世界場景和開放世界場景。1) 在封閉世界場景,假設(shè)用戶只能訪問攻擊者所監(jiān)控的網(wǎng)站。例如,如果攻擊者監(jiān)控了100個網(wǎng)站并提取了它們的網(wǎng)站指紋特征,那么用戶就只能訪問這100個網(wǎng)站。這種場景不夠現(xiàn)實(shí),因?yàn)楝F(xiàn)實(shí)世界中存在大量的網(wǎng)站,而且用戶的選擇范圍很廣。2) 在開放世界場景,用戶可以像在現(xiàn)實(shí)生活中一樣自由訪問任何網(wǎng)站,而不局限于被監(jiān)控的那一組,更加具有現(xiàn)實(shí)意義。

2.2 機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)(Machine Learning, ML) 是人工智能研究過程中的一個產(chǎn)物,它是一種可以學(xué)習(xí)的算法。機(jī)器學(xué)習(xí)可以劃分為幾個階段:1) 數(shù)據(jù)收集。數(shù)據(jù)能夠反映事物的特點(diǎn)和屬性;2) 模型訓(xùn)練。利用訓(xùn)練數(shù)據(jù)和對應(yīng)的標(biāo)簽對模型進(jìn)行訓(xùn)練,得到能夠預(yù)測未知的模型;3) 模型預(yù)測。把新的數(shù)據(jù)輸入到訓(xùn)練好的模型中,進(jìn)行預(yù)測。

根據(jù)預(yù)測值,機(jī)器學(xué)習(xí)可以分為分類模型和回歸模型。分類模型預(yù)測的結(jié)果是一個離散的值,如標(biāo)記是“好”或“壞”。回歸模型預(yù)測的結(jié)果是一個連續(xù)值,例如概率“99%”。本文研究的網(wǎng)站指紋攻擊和流量關(guān)聯(lián)分析利用的都是分類模型,只判斷用戶是否訪問某一個網(wǎng)站。

2.2.1 傳統(tǒng)機(jī)器學(xué)習(xí)

傳統(tǒng)的機(jī)器學(xué)習(xí)算法包括支持向量機(jī)(SupportVector Machine, SVM) 、k 最近鄰(k-Nearest Neighbor,k-NN) 和隨機(jī)森林(Random Forest, RF) 算法等。傳統(tǒng)的機(jī)器學(xué)習(xí)算法需要事先手動設(shè)置訓(xùn)練數(shù)據(jù)的特征。例如,為了識別貓的種類,需要手動設(shè)置貓的特征,包括眼睛、耳朵和頭發(fā)等。然后通過分析訓(xùn)練數(shù)據(jù)來訓(xùn)練模型。隨著數(shù)據(jù)數(shù)量的增加,模型的識別準(zhǔn)確率也會增加,但最終會趨于平緩,達(dá)到收斂效果。傳統(tǒng)的機(jī)器學(xué)習(xí)算法不適合大數(shù)據(jù)分析,因?yàn)樗鼈儾荒茏詣犹崛√卣鳌?/p>

2.2.2 深度學(xué)習(xí)

深度學(xué)習(xí)(Deep Learning, DL) 產(chǎn)生于20世紀(jì),當(dāng)時由于缺乏數(shù)據(jù),效果并不理想。隨著大數(shù)據(jù)時代的到來,深度學(xué)習(xí)的性能大幅度提升,在處理復(fù)雜對象如語音和圖像方面具有強(qiáng)大的性能。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個子集,本質(zhì)上是一個多層的神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)從大量數(shù)據(jù)中自動“學(xué)習(xí)”,試圖模擬人腦的行為。

深度學(xué)習(xí)可以自動提取特征,不再需要手動設(shè)置特征。特征是在自己的神經(jīng)網(wǎng)絡(luò)中逐層分析中獲得的。第一層的特征可能是模糊的,但經(jīng)過逐層訓(xùn)練,區(qū)分樣本類別的特征會越來越明顯。例如,有一組不同寵物的照片,我們想按動物種類進(jìn)行分類,深度學(xué)習(xí)可以自動確定哪些特征(例如耳朵)對于區(qū)分每種動物最重要。而在傳統(tǒng)機(jī)器學(xué)習(xí)中,這種特征層次結(jié)構(gòu)是由人類手動設(shè)置的。深度學(xué)習(xí)隨著數(shù)據(jù)量的增加,性能也會增加。

3 針對Tor 匿名通信網(wǎng)絡(luò)的去匿名化技術(shù)

Tor作為目前最流行的匿名通信網(wǎng)絡(luò),針對Tor去匿名化技術(shù)研究是學(xué)者們關(guān)注的焦點(diǎn)。針對Tor的去匿名化技術(shù)可以分為兩類:網(wǎng)站指紋分析技術(shù)和流量關(guān)聯(lián)分析技術(shù)。

3.1 威脅模型

3.1.1 網(wǎng)站指紋分析模型

網(wǎng)站指紋分析是利用網(wǎng)站內(nèi)容的差異,通過進(jìn)入Tor網(wǎng)絡(luò)入口的流量推斷出用戶訪問的網(wǎng)站。我們可以通過觀察數(shù)據(jù)包的序列特征(如數(shù)據(jù)包時間、方向等)獲得用戶訪問過哪個網(wǎng)站的信息。

具體來說,不同的網(wǎng)站有不同的流量模式,瀏覽某一組網(wǎng)站,從入口流量中提取網(wǎng)站的獨(dú)特指紋特征。然后利用機(jī)器學(xué)習(xí)方法進(jìn)行訓(xùn)練,訓(xùn)練得到一個分類器,它的輸入是用戶的入口流量,輸出是訪問對應(yīng)的網(wǎng)站概率。

當(dāng)用戶通過Tor匿名通信網(wǎng)絡(luò)瀏覽網(wǎng)站時,可以通過記錄下用戶和入口節(jié)點(diǎn)之間的流量,提取他們需要的網(wǎng)站指紋特征,然后與已知的網(wǎng)站指紋信息相匹配,獲得網(wǎng)站信息。

通過這種方式,可以知道用戶正在訪問的是哪個網(wǎng)站,成功地實(shí)現(xiàn)對Tor的去匿名化。網(wǎng)站指紋分析對Tor的匿名性構(gòu)成了巨大威脅。具體威脅模型如圖2所示。

3.1.2 流量關(guān)聯(lián)分析模型

流量關(guān)聯(lián)分析也被廣泛用于實(shí)現(xiàn)針對Tor匿名通信網(wǎng)絡(luò)的去匿名化。同時觀察記錄進(jìn)入和離開Tor匿名通信網(wǎng)絡(luò)的流量,然后通過關(guān)聯(lián)兩端的流量對Tor 進(jìn)行去匿名化。

圖3顯示了流量關(guān)聯(lián)分析的威脅模型。為了實(shí)現(xiàn)去匿名化,需要控制大量的惡意中繼節(jié)點(diǎn),或竊聽自治系統(tǒng)(Autonomous System, ASes) 和互聯(lián)網(wǎng)服務(wù)提供商(Internet Service Provider, ISP) ,從而可以在Tor連接的入口中繼和出口中繼處截獲流量。

由于Tor匿名通信網(wǎng)絡(luò)加密,無法通過檢查數(shù)據(jù)包的內(nèi)容來確定入口和出口流量是否有關(guān)聯(lián),所以需要通過流量特征(如數(shù)據(jù)包的時間、大小、方向等),將屬于同一用戶的流量在兩端關(guān)聯(lián)起來,從而確定特定用戶正在訪問哪個網(wǎng)站,實(shí)現(xiàn)針對Tor的去匿名化。

3.2 網(wǎng)站指紋分析

由不同信息形成的網(wǎng)站的流量會有不同的表現(xiàn),所以可以將網(wǎng)站流量信息作為網(wǎng)站的指紋。第一步是找出網(wǎng)站流量最容易區(qū)分的特征,例如,瀏覽網(wǎng)頁時發(fā)送的數(shù)據(jù)包的數(shù)量、大小、方向等。每個特征數(shù)據(jù)對應(yīng)一個網(wǎng)站標(biāo)簽,數(shù)據(jù)和標(biāo)簽作為訓(xùn)練數(shù)據(jù)集,訓(xùn)練網(wǎng)站指紋分類模型,使同一網(wǎng)站的數(shù)據(jù)屬于同一類別。訓(xùn)練好的分類模型在輸入待識別的網(wǎng)站特征數(shù)據(jù)時,能夠輸出每一個標(biāo)簽的概率,從而找到用戶在訪問哪一個網(wǎng)站。

現(xiàn)有網(wǎng)站指紋分析的工作主要分為兩類:一類是基于傳統(tǒng)機(jī)器學(xué)習(xí)的方案,一類是基于深度學(xué)習(xí)的方案。傳統(tǒng)機(jī)器學(xué)習(xí)的方案,不能處理大規(guī)模的數(shù)據(jù),性能有待提升。基于深度學(xué)習(xí)的方法可以充分利用數(shù)據(jù)的信息,最后的準(zhǔn)確率往往優(yōu)于基于傳統(tǒng)機(jī)器學(xué)習(xí)的方案。

3.2.1 基于傳統(tǒng)機(jī)器學(xué)習(xí)的網(wǎng)站指紋分析

現(xiàn)有基于機(jī)器學(xué)習(xí)的網(wǎng)站指紋分析工作廣泛采用SVM、k-NN、RF等算法訓(xùn)練網(wǎng)站指紋分類器。當(dāng)用戶瀏覽網(wǎng)站時,對流量信息進(jìn)行分析,判定在瀏覽哪一個網(wǎng)站。

針對Tor匿名通信網(wǎng)絡(luò)的網(wǎng)站指紋分析研究工作可以追溯到2009年,并在近幾年快速發(fā)展。但是,以往工作中使用的指紋特征往往是從網(wǎng)站的某個頁面提取的,而不是整個網(wǎng)站中提取的,所以稱之為“網(wǎng)頁指紋”更為恰當(dāng)。

文獻(xiàn)[2]指出網(wǎng)頁指紋識別是非常不可靠的,并首次將網(wǎng)頁指紋特征進(jìn)一步豐富為網(wǎng)站指紋特征。同時這項(xiàng)工作提出了一種新穎的網(wǎng)站指紋分析方法,具體來說,將網(wǎng)頁的加載過程抽象為一個特征,從而可以分析網(wǎng)頁痕跡的累積行為。

文獻(xiàn)[2]通過截取一段用戶流量,記錄了數(shù)據(jù)包的大小。在求和的過程中插入100個數(shù),從而得到一個固定長度的輸入特征。這個特征在擁堵、帶寬、頁面加載時間等方面表現(xiàn)出較大的穩(wěn)健性。文獻(xiàn)[2]采用了LibSVM算法訓(xùn)練得到分類模型,達(dá)到了比當(dāng)時最先進(jìn)的方法更高的識別準(zhǔn)確率。

由于網(wǎng)站指紋分析的性能往往與所使用的特征和分類器有關(guān),所以相關(guān)研究特別注重改進(jìn)所使用的數(shù)據(jù)特征和分類器。文獻(xiàn)[3]提出了一種新穎的指紋特征提取方法,該方法利用RF分類器對多種網(wǎng)站跟蹤特征進(jìn)行提取,生成固定長度的特征向量,其包含175個特征。RF算法由多個決策樹組成,每個決策樹選擇一個特征進(jìn)行分類,因此RF算法在特征選擇方面具有較大的優(yōu)勢。

然后文獻(xiàn)[3]采用k-NN分類器對特征向量進(jìn)行訓(xùn)練和分類,將特征數(shù)據(jù)與每個網(wǎng)頁標(biāo)簽進(jìn)行匹配,以找到最佳匹配標(biāo)簽。由于k-NN算法適合于分類任務(wù),該方法的性能與文獻(xiàn)[2]相似。文獻(xiàn)[3]模型特征提取和分類器訓(xùn)練階段利用了不同的機(jī)器學(xué)習(xí)算法,并發(fā)揮了每種算法的優(yōu)勢。文獻(xiàn)[3]還分析了以前工作中使用的各種特征,發(fā)現(xiàn)一些簡單的特征(如數(shù)據(jù)包的數(shù)量)比一些復(fù)雜的特征(如數(shù)據(jù)包到達(dá)時間)提供的信息更多。他們在正常頁面、部署了網(wǎng)站指紋防御的頁面以及洋蔥服務(wù)頁面上進(jìn)行了大量實(shí)驗(yàn)測試,實(shí)驗(yàn)結(jié)果表明,文獻(xiàn)[3]的準(zhǔn)確性優(yōu)于現(xiàn)有工作。

文獻(xiàn)[2-3]的數(shù)據(jù)特征是從Tor匿名通信網(wǎng)絡(luò)的入口和出口中繼節(jié)點(diǎn)處提取的,其中入口和出口中繼節(jié)點(diǎn)分別與客戶端和目的地直接相連。而Tor網(wǎng)絡(luò)通信過程除了經(jīng)過入口和出口中繼節(jié)點(diǎn),還需要經(jīng)過一個中間中繼節(jié)點(diǎn),而中繼節(jié)點(diǎn)的數(shù)據(jù)卻未被使用。

文獻(xiàn)[4]考慮到經(jīng)過中間中繼節(jié)點(diǎn)的數(shù)據(jù)特征也可以被提取出來,提出了一種新的方法,即對來自內(nèi)部-中間中繼節(jié)點(diǎn)特征進(jìn)行分析。文獻(xiàn)[4]認(rèn)為,中間中繼可以在不知道用戶和目的地IP地址的情況下提供大量有用的信息(如服務(wù)訪問時間、入口和出口中繼的位置等)。這種信息泄露給Tor匿名通信網(wǎng)絡(luò)帶來了巨大的潛在威脅。

文獻(xiàn)[4]采用RF算法檢測中繼節(jié)點(diǎn)的位置,然后利用k-NN構(gòu)造分類模型,可以有效地從中間中繼節(jié)點(diǎn)識別Tor匿名通信服務(wù)的網(wǎng)站指紋。文獻(xiàn)[4]雖然沒有用這種方法來實(shí)現(xiàn)去匿名化,但對中間中繼節(jié)點(diǎn)的網(wǎng)站指紋分析具有啟發(fā)意義。

3.2.2 基于深度學(xué)習(xí)的網(wǎng)站指紋分析

傳統(tǒng)的機(jī)器學(xué)習(xí)算法需要人為選擇特征,特征選擇的好壞與攻擊的成功率有很大關(guān)系。深度學(xué)習(xí)算法不需要人工設(shè)置特征,可以自己完成對特征的選擇。給定樣本數(shù)據(jù),深度學(xué)習(xí)算法先找到樣本的邊緣特征,然后往下逐層找到更深層次的特征。更深層次的特征分類效果更好,所以可以使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)、長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM) 等深度學(xué)習(xí)模型作為分類器,然后用訓(xùn)練好的模型對網(wǎng)站指紋進(jìn)行高準(zhǔn)確率的識別[5],實(shí)現(xiàn)去匿名化。

文獻(xiàn)[6]首次系統(tǒng)地探索了如何利用深度學(xué)習(xí)算法實(shí)現(xiàn)網(wǎng)站指紋分析,提出了堆疊的去噪自編碼器(Stacked Denoising Autoencoder, SDAE) 方案。文章評估了使用SDAE、CNN和LSTM三種深度學(xué)習(xí)模型時網(wǎng)站指紋分類器的性能,并與使用k-NN的文獻(xiàn)[2]進(jìn)行了比較。結(jié)果發(fā)現(xiàn)使用CNN和SDAE模型分類器的方案的識別準(zhǔn)確度明顯超過使用k-NN分類器的方案。由于LSTM獨(dú)特的遞歸結(jié)構(gòu),使用LSTM模型的方案受到其輸入單元大小的限制,在精確度上略遜一籌,但也正因如此,其性能隨時間下降是最慢的。此外,使用CNN的方案學(xué)習(xí)速度最快,在開放世界和較小的封閉世界中表現(xiàn)最好。文獻(xiàn)[6]所提出的SDAE則整體表現(xiàn)良好。

隨著網(wǎng)站指紋分析的發(fā)展,一些針對網(wǎng)站指紋分析的防御策略也被提出,使得現(xiàn)有基于網(wǎng)站指紋分析的去匿名化方案失效,研究人員提出了兩種輕量級的防御措施,WTF-PAD[7]和Walkie-Talkie[8]。但是由于帶寬等現(xiàn)實(shí)問題,這些防御措施無法真正應(yīng)用部署到現(xiàn)實(shí)世界中。

為了抵抗這些防御措施,文獻(xiàn)[9]提出了一個基于卷積神經(jīng)網(wǎng)絡(luò)CNN的網(wǎng)站指紋分析模型。文獻(xiàn)[9]的準(zhǔn)確率優(yōu)于文獻(xiàn)[2-3, 6]所提出的網(wǎng)站指紋分析方法,在封閉世界的準(zhǔn)確率超過98%。在部署了Walkie-Talkie防御系統(tǒng)的Tor匿名通信網(wǎng)絡(luò)上,文獻(xiàn)[9]的準(zhǔn)確率達(dá)到49.7%,在部署了WTF-PAD防御系統(tǒng)的Tor 匿名通信網(wǎng)絡(luò)上,文獻(xiàn)[9]的準(zhǔn)確率超過90%。實(shí)驗(yàn)結(jié)果表明,文獻(xiàn)[9]提出的網(wǎng)站指紋分析方案能夠抵抗現(xiàn)有的去匿名化防御策略。

3.3 流量關(guān)聯(lián)分析

流量關(guān)聯(lián)分析與網(wǎng)站指紋分析不同。流量關(guān)聯(lián)分析是同時觀察、截獲并記錄進(jìn)入和離開Tor匿名通信網(wǎng)絡(luò),通過對流量特征進(jìn)行分析,判定入口中繼和出口中繼的流量是否屬于同一用戶,從而確定特定用戶正在訪問哪個網(wǎng)站,通過關(guān)聯(lián)兩端的流量對Tor實(shí)現(xiàn)去匿名化。

傳統(tǒng)的流量關(guān)聯(lián)分析往往依賴于分析發(fā)送方和接收方TCP(Transmission Control Protocol) 的連接流量,而伴隨TCP流量產(chǎn)生的DNS(Domain Name System) 請求則往往被忽略。其中DNS是一個將域名和IP地址相互映射的分?jǐn)?shù)據(jù)庫,它使人們更容易訪問互聯(lián)網(wǎng)。

文獻(xiàn)[10]認(rèn)為雖然可以利用TCP流量進(jìn)行流量關(guān)聯(lián)分析,但DNS流量為流量關(guān)聯(lián)分析提供了更多的機(jī)會。文獻(xiàn)[10]量化了DNS和TCP流量的公開程度,并證明了無法觀察截獲到TCP流量的時候,仍有很多機(jī)會可以觀察并截獲DNS流量,比如谷歌的DNS根服務(wù)器。

在能夠觀察到TCP流量的情況下,進(jìn)一步使用這種額外的DNS流量可能對流量關(guān)聯(lián)分析的準(zhǔn)確性影響不大。但是在無法獲取到TCP流量的情況下,使用DNS流量可以大大提高流量關(guān)聯(lián)分析的效果。

文獻(xiàn)[10]整合網(wǎng)站指紋分析和流量關(guān)聯(lián)分析,提出了自己的攻擊模型。首先對入口中繼節(jié)點(diǎn)處截獲的流量進(jìn)行網(wǎng)站指紋分析,然后將匹配的網(wǎng)站與DNS 流量中的網(wǎng)站進(jìn)行關(guān)聯(lián)。值得一提的是,文獻(xiàn)[10]所提方案對不太流行的網(wǎng)站有很高的識別準(zhǔn)確率,因?yàn)檫@種網(wǎng)站關(guān)聯(lián)的DNS集往往是這個網(wǎng)站獨(dú)有的。

盡管流量關(guān)聯(lián)分析在針對Tor匿名通信網(wǎng)絡(luò)的去匿名化技術(shù)中占有很重要的地位,但在大規(guī)模應(yīng)用時需要長時間地觀察和捕獲流量,往往是不切實(shí)際的。

文獻(xiàn)[11]認(rèn)為基于統(tǒng)計算法的流量關(guān)聯(lián)分析技術(shù)無法捕捉到Tor匿名通信網(wǎng)絡(luò)中復(fù)雜的動態(tài)噪聲,所以往往識別的假陽率很高。文獻(xiàn)[11]訓(xùn)練了一個由兩層卷積和三層全連接層組成的神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)流量關(guān)聯(lián)分析。該模型的輸入是數(shù)據(jù)包之間的延遲和數(shù)據(jù)包的大小。在訓(xùn)練完成之后,模型的識別準(zhǔn)確率優(yōu)于當(dāng)時最先進(jìn)的流量關(guān)聯(lián)分析方法。與之前的流量關(guān)聯(lián)分析方法相比,文獻(xiàn)[11]可以在短時間觀察流量數(shù)據(jù)的情況下實(shí)現(xiàn)高精度的識別。在達(dá)到相同精度的情況下,比現(xiàn)有方法的識別速度更快。文獻(xiàn)[11]也提出了可能的防御方向:一是想辦法模糊流量特征;二是設(shè)計一個新的中繼器選擇機(jī)制來減少從中繼器處截獲流量的機(jī)會。

4 分析比較

本章系統(tǒng)比較了現(xiàn)有針對Tor匿名通信網(wǎng)絡(luò)的去匿名化技術(shù)。

4.1 理論攻擊技術(shù)

表1從不同角度比較了現(xiàn)有針對Tor匿名通信網(wǎng)絡(luò)的去匿名化技術(shù)。第一列是方案,第二列是威脅模型,包括網(wǎng)站指紋分析和流量關(guān)聯(lián)分析,第三列是攻擊算法是基于機(jī)器學(xué)習(xí)還是深度學(xué)習(xí),第四列是使用的去匿名化算法模型,第五列是去匿名化算法模型的輸入特征,最后一列是方案是否能夠抵抗當(dāng)時的防御策略。

在針對Tor匿名通信網(wǎng)絡(luò)的去匿名化技術(shù)相關(guān)研究中,很多工作采取了網(wǎng)站指紋分析的方法,而另一部分采用了流量關(guān)聯(lián)分析的方法。網(wǎng)站指紋分析與流量關(guān)聯(lián)分析有著不同的威脅模型在一定程度上是正交的。網(wǎng)站指紋分析主要是對網(wǎng)站進(jìn)行分類,通常使用傳統(tǒng)的機(jī)器學(xué)習(xí)算法,如k-NN 算法和SVM 算法。流量關(guān)聯(lián)分析的重點(diǎn)是將進(jìn)入與離開Tor網(wǎng)絡(luò)的流量關(guān)聯(lián)起來,以前通常使用基于統(tǒng)計學(xué)的算法,多利用深度學(xué)習(xí)算法。

網(wǎng)站指紋分析需要獲取的信息比流量關(guān)聯(lián)分析要少。網(wǎng)站指紋分析只需要從入口中繼處提取流量信息就可以進(jìn)行攻擊。流量關(guān)聯(lián)分析則必須同時從入口中繼和出口中繼提取流量信息才能夠進(jìn)行分析。

雖然流量關(guān)聯(lián)分析的難度更大,但這并不意味著其準(zhǔn)確性更高。在最先進(jìn)的工作中,網(wǎng)站指紋分析比流量相關(guān)攻擊更有效。但是,網(wǎng)站指紋分析只能分類出已經(jīng)訓(xùn)練過的網(wǎng)站,它不能識別以前沒有訓(xùn)練過的網(wǎng)站。而流量關(guān)聯(lián)分析則沒有這種困擾[11]。因?yàn)閺腡or 網(wǎng)絡(luò)離開的流量是不加密的,如果將相關(guān)的流量連接起來,就可以識別每一個網(wǎng)站。

4.2 封閉世界和開放世界性能

表2對比了不同方案在開放世界和封閉世界的一些結(jié)果,使用了三種評估指標(biāo):1) 準(zhǔn)確率。即去匿名化地識別準(zhǔn)確率;2) 真陽率TPR(true positive rate) ;真陽性樣本數(shù)除以所有真實(shí)陽性樣本數(shù);3) 假陽率(false positive rate) 。假陽性樣本數(shù)除以所有真實(shí)陰性樣本數(shù)。

封閉世界分析:在同樣的條件下,文獻(xiàn)[6]的去匿名化準(zhǔn)確性最低,文獻(xiàn)[9]的準(zhǔn)確率為98.3%,優(yōu)于其他方案。文獻(xiàn)[2-3, 12]在使用了較大規(guī)模數(shù)據(jù)集的情況下,準(zhǔn)確率相比使用較小數(shù)據(jù)集的準(zhǔn)確率提高了2%~4%。

開放世界分析:在開放世界中,不僅要根據(jù)被監(jiān)控的網(wǎng)站對流量跟蹤進(jìn)行分類,還要區(qū)分被監(jiān)控的網(wǎng)站和未監(jiān)控的網(wǎng)站。開放世界的去匿名化性能可以用TPR和FPR來評估。文獻(xiàn)[9]在TPR和FRR上始終表現(xiàn)最佳,TPR達(dá)到95.7%,F(xiàn)PR達(dá)到0.7%。文獻(xiàn)[12] 的TPR最差,只有55%,文獻(xiàn)[3]的FPR最差,為8%。

5 未來工作

5.1 提高去匿名化性能

網(wǎng)站指紋識別的準(zhǔn)確性很大程度上依賴于所選擇的特征和使用的分類算法。在未來的工作中,一方面,要不斷改進(jìn)提取指紋特征的方法,盡可能提取能夠更加易于分辨網(wǎng)站的穩(wěn)定的指紋特征,來應(yīng)對真實(shí)世界中數(shù)量龐大的網(wǎng)站和不斷變化的網(wǎng)站內(nèi)容。另一方面,由于深度學(xué)習(xí)相對于傳統(tǒng)的機(jī)器學(xué)習(xí)算法展現(xiàn)出了更好的性能,要不斷優(yōu)化現(xiàn)有的攻擊算法并探索新的基于深度學(xué)習(xí)的去匿名化方法。

現(xiàn)有針對Tor匿名通信網(wǎng)絡(luò)的去匿名化技術(shù)使用了不同的模型,可以考慮將這些模型結(jié)合在一起。例如,文獻(xiàn)[3]使用RF輸出作為網(wǎng)站的指紋,然后使用k-NN模型進(jìn)行分類。之后的工作可以先利用深度學(xué)習(xí)的模型,例如SDAE模型去提取特征,再利用其他深度學(xué)習(xí)算法進(jìn)行分類,這樣就能提高攻擊的準(zhǔn)確率。除了網(wǎng)站指紋之外,還可以對協(xié)議進(jìn)行分析,得到協(xié)議指紋,通過協(xié)議指紋去攻擊Tor匿名通信網(wǎng)絡(luò)。

5.2 有效防御機(jī)制

Tor匿名通信網(wǎng)絡(luò)去匿名化的不斷研究對Tor網(wǎng)絡(luò)的匿名性構(gòu)成了威脅,雖然有很多防御機(jī)制已經(jīng)被提出,比如BuFLO[13],Tamaraw[14]等,但它們往往要求高帶寬和高遲延,因此無法真正在現(xiàn)實(shí)中部署。WTFPAD和Wilkie-Talkie是輕量級的防御,但是文獻(xiàn)[9]在攻擊WTF-PAD 時已經(jīng)獲得了90% 的準(zhǔn)確率,其對WAlik-Takie的攻擊也表現(xiàn)出很高的準(zhǔn)確率。

現(xiàn)有的防御手段大多使用模糊流量特征的方法來應(yīng)對去匿名化分析,如何做好防御性能與帶寬、延遲等開銷之間的平衡是目前迫切需要解決的問題。因此可以設(shè)計一種新的中繼器選擇機(jī)制來減少去匿名化分析的機(jī)會,這種機(jī)制是未來工作中可以研究的方向。

6 結(jié)論

本文對Tor去匿名化技術(shù)從網(wǎng)站指紋分析和流量關(guān)聯(lián)分析兩個方面進(jìn)行了系統(tǒng)的介紹,并進(jìn)行了一系列的比較。基于深度學(xué)習(xí)的網(wǎng)站指紋分析的性能往往都優(yōu)于基于傳統(tǒng)機(jī)器學(xué)習(xí)的網(wǎng)站指紋分析。流量關(guān)聯(lián)需要必須同時從入口中繼和出口中繼截取流量,比網(wǎng)站指紋分析所需要的信息更多。未來工作可以著重于提高去匿名化性能和開發(fā)出有效的防御機(jī)制。

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠(yuǎn)程開放實(shí)驗(yàn)平臺構(gòu)建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學(xué)習(xí)的三級階梯
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
主站蜘蛛池模板: 国产成人精品免费视频大全五级| 国产精品浪潮Av| 国产又大又粗又猛又爽的视频| 老司机精品99在线播放| v天堂中文在线| 一级毛片免费观看不卡视频| 国产欧美日韩另类精彩视频| 2020久久国产综合精品swag| 国产裸舞福利在线视频合集| 欧美国产精品不卡在线观看| 精品人妻一区二区三区蜜桃AⅤ| 国产精品亚欧美一区二区三区 | 成人国产免费| 亚洲中文精品久久久久久不卡| 亚国产欧美在线人成| 国产精品第一区| 毛片一区二区在线看| 欧美性精品不卡在线观看| 欧美日韩va| 国产91小视频在线观看| 老司机久久精品视频| 91精品国产自产91精品资源| 亚洲天堂网在线视频| 人妻21p大胆| 性视频久久| 亚洲精品自拍区在线观看| 国产一级片网址| 天天做天天爱夜夜爽毛片毛片| 色偷偷男人的天堂亚洲av| 蜜桃视频一区| 国产精品对白刺激| 欧美成人区| 综合成人国产| 久久五月天综合| 91久久偷偷做嫩草影院电| 伊人久久大线影院首页| 亚洲精品久综合蜜| 伊人久久综在合线亚洲2019| 性69交片免费看| 国内熟女少妇一线天| 久久视精品| 在线欧美a| 国产欧美高清| 中文字幕永久在线看| 亚洲精品无码人妻无码| 99热国产这里只有精品9九| 片在线无码观看| a毛片免费在线观看| 亚洲香蕉伊综合在人在线| 国产国拍精品视频免费看| 大陆精大陆国产国语精品1024| 一区二区影院| 免费又爽又刺激高潮网址| 少妇精品久久久一区二区三区| 久久成人国产精品免费软件| 无码专区国产精品一区| 国产小视频在线高清播放| 国产一区二区丝袜高跟鞋| 国产无遮挡裸体免费视频| 国产99视频精品免费视频7| 999国产精品| 日韩毛片在线播放| 国产成人精品日本亚洲77美色| av在线无码浏览| 一级毛片在线播放免费观看| 亚洲欧美日韩中文字幕在线| 国产主播在线一区| 中国精品自拍| 国产女人18毛片水真多1| 精品一区二区三区视频免费观看| 精品久久久久成人码免费动漫| 精品无码一区二区在线观看| 在线欧美日韩| 亚洲69视频| 97在线观看视频免费| 国产午夜人做人免费视频中文| 美女潮喷出白浆在线观看视频| 日韩精品一区二区深田咏美| 国产高颜值露脸在线观看| 色成人综合| 日本不卡在线播放| 91探花国产综合在线精品|