林立鑫,楊 真
(1. 江西科技學(xué)院網(wǎng)絡(luò)信息中心,江西 南昌 330000;2. 華東交通大學(xué)網(wǎng)絡(luò)信息中心,江西 南昌 330000)
目前,隨著信息時(shí)代和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)上的空間數(shù)據(jù)也逐漸走向多樣化。用戶可隨意完成查詢、傳輸、儲(chǔ)存以及共享等操作,從海量數(shù)據(jù)中能夠快速查找到目標(biāo)信息。但越來(lái)越多的用戶使用同時(shí),也帶來(lái)了眾多安全隱患問(wèn)題,由于用戶的身份信息在后臺(tái)中是公開(kāi)展現(xiàn)的,很容易受到黑客入侵導(dǎo)致隱私信息泄漏,危害用戶的財(cái)產(chǎn)和隱私安全。為防止此類事件的發(fā)生,需要在發(fā)生泄漏的第一時(shí)間追蹤信息軌跡,在最大程度上降低泄漏影響。
在目前的網(wǎng)絡(luò)信息泄漏跟蹤研究領(lǐng)域中,應(yīng)用最為廣泛的有人工神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)、動(dòng)態(tài)密鑰以及小波包理論等方法。文獻(xiàn)[1]提出一種基于多編隊(duì)目標(biāo)先后判定的隱私信息泄漏跟蹤方法。引入了密度檢測(cè)機(jī)制,在所有用戶集中,選擇幾組身份信息完整和不完整的用戶,利用杰森高斯分量算法計(jì)算二者之間的相似屬性,通過(guò)模型概率進(jìn)行實(shí)時(shí)狀態(tài)更新,不斷查找存在相同屬性權(quán)重的位置點(diǎn),完整跟蹤。該方法只對(duì)公開(kāi)信息用戶具有效力,匿名用戶的跟蹤能力較差,實(shí)用性不強(qiáng);文獻(xiàn)[2]設(shè)計(jì)了一種基于改進(jìn)PSI協(xié)議的數(shù)據(jù)隱私保護(hù)跟蹤方法。通過(guò)布谷鳥(niǎo)哈希和隨機(jī)不經(jīng)意傳輸擴(kuò)展協(xié)議,將用戶信息按照特征進(jìn)行組合基因排列,判定序列中是否含有危險(xiǎn)因子,對(duì)存在威脅點(diǎn)的數(shù)據(jù)實(shí)施跟蹤。該算法所需運(yùn)算量較大,需要信息采集、組合、排列以及檢測(cè)等眾多步驟組合完成,計(jì)算過(guò)程復(fù)雜且誤差影響過(guò)大,跟蹤精準(zhǔn)度不高。
綜合上述問(wèn)題,提出一種基于動(dòng)態(tài)密鑰的隱私信息泄露深度跟蹤仿真方法??紤]到用戶特征量過(guò)多且較為復(fù)雜的因素,在進(jìn)行跟蹤前先對(duì)網(wǎng)絡(luò)社區(qū)中用戶個(gè)人隱私信息完成推測(cè),實(shí)現(xiàn)初步的隱私判定,降低后續(xù)誤差影響。構(gòu)建泄漏跟蹤模型,將用戶信息看作單個(gè)算子,通過(guò)隱私表的對(duì)照和得到的隱私信息特征,對(duì)較大泄漏風(fēng)險(xiǎn)的算子進(jìn)行狀態(tài)跟蹤。這種方法是從根源上查找泄漏點(diǎn),通過(guò)特征對(duì)照在最大程度上降低泄漏的誤判率,所需運(yùn)算量較小且過(guò)程簡(jiǎn)單、易實(shí)現(xiàn)。
網(wǎng)絡(luò)社區(qū)是由各個(gè)節(jié)點(diǎn)組成的群體結(jié)構(gòu),群體內(nèi)節(jié)點(diǎn)之間的存在較強(qiáng)的隱私關(guān)聯(lián)關(guān)系[3],而社區(qū)的群與群之間的隱私關(guān)聯(lián)又相對(duì)稀疏。將該關(guān)系具體定義為:設(shè)D2為網(wǎng)絡(luò)中的所有社區(qū);i表示社區(qū)中的任意一個(gè)節(jié)點(diǎn),i在社區(qū)中的占比度為

(1)
若社區(qū)中的節(jié)點(diǎn)i和節(jié)點(diǎn)j存在關(guān)聯(lián)關(guān)系,那么,Bij=1;反之,Bij=0,其中,Bij表示隱私關(guān)聯(lián)度。
若節(jié)點(diǎn)i存在社區(qū)S2中,此時(shí)D2社區(qū)就包含與社區(qū)內(nèi)S2節(jié)點(diǎn)存在連接關(guān)系的所有子集。在這種情況下,可將節(jié)點(diǎn)按照兩個(gè)社區(qū)的隱私特征[4]關(guān)系,分為

(2)
其中

(3)


(4)
若

(5)
那么,子社區(qū)[5]S2集就為原始網(wǎng)絡(luò)結(jié)構(gòu)中隱私特征最強(qiáng)的社區(qū)結(jié)構(gòu)。
若

(6)
那么,子社區(qū)S2集就為原始網(wǎng)絡(luò)結(jié)構(gòu)中隱私特征最弱的社區(qū)結(jié)構(gòu)。
一般情況下,在社交網(wǎng)絡(luò)中很多用戶的個(gè)人信息都是公開(kāi)的,因此,在進(jìn)行隱私信息泄漏跟蹤時(shí),對(duì)用戶的公開(kāi)和非公開(kāi)隱私信息進(jìn)行推測(cè)是非常有必要,可以將其作為后續(xù)泄漏跟蹤的基礎(chǔ)判定,公開(kāi)用戶且隱私含量越高的用戶,泄漏概率就越大。用社交用戶β進(jìn)行舉例,其好友之間組成的網(wǎng)絡(luò)關(guān)系為Gβ=(Cβ,Eβ);Cβ=Nβ為與用戶β存在關(guān)聯(lián)關(guān)系的集合;Eβ={i,j:j∈Vβ}為用戶β與好友之前的隱私關(guān)聯(lián)集[6]合。將Gβ分為Gβ,β=1,2,…,N,其中,N表示總社區(qū)數(shù)量。社區(qū)Gβ內(nèi)公開(kāi)信息的用戶為

(7)
式中,Aβ表示總用戶數(shù)量;Cβ表示公開(kāi)信息;|pubi|表示社區(qū)內(nèi)所有公開(kāi)信息的用戶數(shù)量。
為了保障隱私信息推測(cè)方法的準(zhǔn)確性,設(shè)定一個(gè)公開(kāi)用戶的保護(hù)閾值[7]θ,該值必須滿足以下條件
Cβ>θ
(8)
對(duì)于社區(qū)Gβ內(nèi)不公開(kāi)的用戶信息Eβ,β=1,2,…,M,計(jì)算得到

(9)


(10)

(11)
式中,μ表示非公開(kāi)用戶的保護(hù)閾值。將上述網(wǎng)絡(luò)社區(qū)中的公開(kāi)和非公開(kāi)用戶[8]信息關(guān)系運(yùn)用可視圖描述,便于理解,如圖1所示。
從圖1中可以看出,實(shí)線代表網(wǎng)絡(luò)社區(qū)內(nèi)的用戶信息是公開(kāi)的,允許被外界和內(nèi)部用戶訪問(wèn);虛線則代表網(wǎng)絡(luò)社區(qū)內(nèi)的用戶信息是非公開(kāi)的,只允許被好友和自身訪問(wèn),存在密鑰保護(hù)[9]。由此可看到,社區(qū)中用戶1、用戶2、用戶3、用戶4的個(gè)人信息是公開(kāi)的,存在較高的泄漏風(fēng)險(xiǎn),在滿足保護(hù)閾值的前提下,可推測(cè)出與之關(guān)聯(lián)的用戶5、用戶6也存在同種信息,存在一種關(guān)聯(lián)關(guān)系。

圖1 社區(qū)節(jié)點(diǎn)分布示意圖
基于網(wǎng)絡(luò)社區(qū)中用戶個(gè)人隱私信息關(guān)聯(lián)性的初步推測(cè)后,本節(jié)將采用動(dòng)態(tài)密鑰完成信息泄漏的精準(zhǔn)跟蹤。上述過(guò)程得到了網(wǎng)絡(luò)中公開(kāi)信息的用戶隱私信息泄漏風(fēng)險(xiǎn)更高的特點(diǎn),由此可得,這些用戶的密鑰保護(hù)安全性較低。建立一種由密鑰算子組成的信息泄漏跟蹤模型,計(jì)算非公開(kāi)用戶的密鑰參數(shù),以此作為模型算子[10],可用U(ζ)來(lái)描述。其中,ζ表示用戶的隱私信息表。根據(jù)用戶之間的關(guān)聯(lián)關(guān)系,將ζ看做初始值,將集合I、J看作參照值,得到以下關(guān)系

(12)
式中,ζ′表示ζ的對(duì)照組;〈X,Y〉表示敏感數(shù)據(jù)集合;〈Y,X〉表示特征屬性集合。該公式可以反映用戶的敏感屬性[11]標(biāo)識(shí)和特征標(biāo)識(shí),記錄在ζ中的分布情況,并進(jìn)行統(tǒng)計(jì)。
得到統(tǒng)計(jì)后的隱私數(shù)據(jù),如果U(ζ)輸出值為1,表明集合中信息出現(xiàn)泄露情況;若U(ζ)輸出值為0,則表明沒(méi)有出現(xiàn)泄露情況,具體描述如下

(13)
式中,X0表示待跟蹤數(shù)據(jù)集的總數(shù);Xi+1表示與X0存在特征關(guān)聯(lián)[12]的數(shù)據(jù)集;φ表示控制因子。若k=1,說(shuō)明存在特征關(guān)聯(lián)的數(shù)據(jù)集Xi+1中存在隱私泄露數(shù)據(jù);若k≠1,說(shuō)明存在特征關(guān)聯(lián)的數(shù)據(jù)集Xi+1中不存在隱私泄露數(shù)據(jù)。由此得到的隱私泄露情況只存在兩種k=1和k≠1,而在實(shí)際應(yīng)用中,可能取值很小時(shí),即k≠1時(shí)也會(huì)發(fā)生隱私泄露現(xiàn)象,針對(duì)這種情況,本文采用密鑰用戶匿名原理[13],將對(duì)取值進(jìn)行調(diào)整使其更符合網(wǎng)絡(luò)環(huán)境[14],表達(dá)公式為

(14)
式中,ψ2表示匿名密鑰閾值;KX0、KXi、KXi+1、KXj分別表示在原始0點(diǎn)、i、i+1、j得到的用戶往返位置信息,與ζ位置點(diǎn)進(jìn)行排列[15],即可求得用戶隱私信息泄漏跟蹤路徑。
為驗(yàn)證本文方法對(duì)隱私信息泄漏的有效性,選擇Mobile web移動(dòng)終端網(wǎng)絡(luò)作為本次的實(shí)驗(yàn)平臺(tái),該平臺(tái)中包含大量網(wǎng)絡(luò)數(shù)據(jù),容納量較大、覆蓋率較廣。將所有數(shù)據(jù)聚類在一起,形成一種終端網(wǎng)絡(luò)數(shù)據(jù)集,數(shù)據(jù)集中包括用戶的位置數(shù)據(jù)、通信記錄、傳輸記錄以及瀏覽記錄等。
為保證實(shí)驗(yàn)的準(zhǔn)確性,采用更為系統(tǒng)的方式描述用戶隱私信息通信行為,并將網(wǎng)絡(luò)中用戶所有行為類別進(jìn)行聚類,方便數(shù)據(jù)查找和分析,整體聚類結(jié)果如圖2所示。
在跟蹤過(guò)程中可能出現(xiàn)覆蓋通路、鏈路斷連、源碼錯(cuò)誤等現(xiàn)象,會(huì)影響實(shí)驗(yàn)進(jìn)程,實(shí)驗(yàn)前將對(duì)所有數(shù)據(jù)進(jìn)行歸一化管理,弱化現(xiàn)象出現(xiàn)的頻率。每位用戶在網(wǎng)絡(luò)中的位置信息和數(shù)據(jù)驗(yàn)證過(guò)程為:通過(guò)位置數(shù)據(jù)集求解得到用戶位置的權(quán)重矩陣B=(ω1,ω2,…,ωn),為保證實(shí)驗(yàn)數(shù)據(jù)的統(tǒng)一性和易管理性,將對(duì)求解到的數(shù)值進(jìn)行歸一化操作處理,表達(dá)公式為

圖2 用戶瀏覽和通信行為聚類

(15)
式中,ωn表示用戶隱私信息的權(quán)重值;B表示權(quán)重?cái)?shù)據(jù)集;Nor表示經(jīng)過(guò)歸一化后的統(tǒng)一表示。
本次實(shí)驗(yàn)將從整體隱私信息泄漏以及局部詳細(xì)隱私信息泄漏進(jìn)行泄漏跟蹤。將研究方法與文獻(xiàn)[1]提出的多編隊(duì)目標(biāo)無(wú)先驗(yàn)隱私信息跟蹤方法、文獻(xiàn)[2]提出的改進(jìn)PSI協(xié)議的隱私跟蹤方法進(jìn)行對(duì)比分析,結(jié)果如表1所示。

表1 三種算法軌跡跟蹤結(jié)果對(duì)比
針對(duì)表2中的不同方法對(duì)海量網(wǎng)絡(luò)數(shù)據(jù)中的隱私信息泄漏跟蹤結(jié)果進(jìn)行具體驗(yàn)證。將對(duì)信息泄漏的軌跡點(diǎn)位置進(jìn)行描述,并適當(dāng)弱化無(wú)用的軌跡點(diǎn)便于更加直觀詳細(xì)地分析泄漏跟蹤的效果。在可視化的軌跡視圖中,對(duì)每個(gè)位置信息泄漏的嚴(yán)重程度進(jìn)行標(biāo)識(shí),軌跡點(diǎn)越大,代表該位置泄漏越嚴(yán)重。以實(shí)驗(yàn)平臺(tái)中的某個(gè)體用戶為例,三種算法對(duì)其隱私信息泄漏的軌跡跟蹤如圖3所示。
從圖3中可以看出,其中隱私泄露權(quán)重大小不一,泄漏點(diǎn)3、4、5點(diǎn)的泄漏權(quán)重是最高的,按照隱私大小的排列順序來(lái)看,本文方法的跟蹤軌跡是所有方法中最符合實(shí)際情況,軌跡中包含了所有泄漏位置點(diǎn);而另外兩種方法只跟蹤到了部分泄漏位置點(diǎn),其中,泄漏點(diǎn)5、8、10點(diǎn)均未跟蹤到,與測(cè)試結(jié)果表達(dá)不相符,跟蹤誤差和錯(cuò)誤率較高。出現(xiàn)這種現(xiàn)象主要是因?yàn)?,二者方法在進(jìn)行泄漏跟蹤時(shí),過(guò)于注重隱私出現(xiàn)泄漏時(shí)的權(quán)重變化,忽略了隱私信息自身存在的噪聲和冗余數(shù)據(jù)影響,這些數(shù)據(jù)都會(huì)導(dǎo)致信息出現(xiàn)偽泄漏現(xiàn)象,導(dǎo)致算法出現(xiàn)較大跟蹤誤差,跟蹤軌跡與實(shí)際偏差較大。

圖3 用戶隱私信息泄漏權(quán)重軌跡可視化圖
為進(jìn)一步考察三種方法的泄漏跟蹤能力,將分別在存在不干擾和存在干擾兩種網(wǎng)絡(luò)環(huán)境下進(jìn)行實(shí)驗(yàn),結(jié)果如圖4、圖5所示。

圖4 不存在干擾環(huán)境下三種方法的相對(duì)誤差
從圖4、圖5中可以看出,無(wú)論是在哪種環(huán)境下本文方法的泄漏跟蹤相對(duì)誤差均為最小,曲線分布最低且整體誤差變動(dòng)幅度不大;相比之下,另外兩種方法在存在干擾環(huán)境下的相對(duì)誤差過(guò)大,曲線整體呈大幅度的上升趨勢(shì),隨著數(shù)據(jù)量的增加,波動(dòng)越來(lái)越大。說(shuō)明,文獻(xiàn)方法存在適應(yīng)能力較差的問(wèn)題,無(wú)法應(yīng)對(duì)較強(qiáng)的噪聲干擾,算法不具備管控能力。本文方法在各種環(huán)境下都能保證跟蹤精度,是因?yàn)椴捎昧颂卣鳂?biāo)識(shí),從根源上實(shí)施狀態(tài)跟蹤,通過(guò)特征查找在最大程度上降低誤差。

圖5 存在干擾環(huán)境下三種方法的相對(duì)誤差
本文主要針對(duì)一些開(kāi)放向的網(wǎng)絡(luò)共享平臺(tái)如社交網(wǎng)絡(luò)、共享網(wǎng)絡(luò)等來(lái)實(shí)現(xiàn)用戶隱私信息泄漏跟蹤,提出了一種基于動(dòng)態(tài)密鑰的隱私信息泄露深度跟蹤方法。為了使算法更具備精準(zhǔn)跟蹤和高效查詢的能力,在實(shí)施具體跟蹤前,先根據(jù)用戶屬性對(duì)網(wǎng)絡(luò)社區(qū)進(jìn)行劃分,預(yù)測(cè)社區(qū)中公開(kāi)用戶和非公開(kāi)用戶,得到公開(kāi)用戶隱私信息泄漏概率更高的特點(diǎn),為后續(xù)跟蹤做好充足準(zhǔn)備。跟蹤算法主要通過(guò)分析隱私用戶密鑰保護(hù)協(xié)議,建立一個(gè)跟蹤模型,將得到的公開(kāi)用戶屬性信息作為算子,通過(guò)不斷的更新查找捕捉到泄漏位置點(diǎn)。下一步的工作展望是考慮在存在外界干擾攻擊的情況下,實(shí)現(xiàn)跟蹤泄漏并加以保護(hù)。