王曉丹,王子喬,金山海*
(1. 延邊大學(xué)工學(xué)院,吉林 延吉 133002;2. 延邊大學(xué),吉林 延吉 133002)
社交網(wǎng)絡(luò)已經(jīng)成為人們生活中不可或缺的部分,其信息繁雜多樣、共享性強(qiáng),用戶的各種操作都極易造成數(shù)據(jù)信息的泄露,尤其是位置信息的泄露,威脅著用戶的人身安全和財(cái)產(chǎn)安全,是電子安全領(lǐng)域研究的重點(diǎn)問(wèn)題,現(xiàn)階段因用戶簽到而造成位置泄露風(fēng)險(xiǎn)預(yù)警的方法仍存在預(yù)警效果不佳、準(zhǔn)確率低等問(wèn)題,為了實(shí)現(xiàn)位置泄露風(fēng)險(xiǎn)預(yù)警的準(zhǔn)確預(yù)測(cè),需要研究社交網(wǎng)絡(luò)用戶簽到行為位置泄露風(fēng)險(xiǎn)預(yù)警方法,該方法的研究有望為公眾隱私保護(hù)帶來(lái)新的有效措施,具有重要現(xiàn)實(shí)意義[1-2]。
王竹等人[3]提出Android設(shè)備中基于流量特征的隱私泄露評(píng)估方案,計(jì)算用戶行為特征和業(yè)務(wù)相關(guān)性,通過(guò)凝聚層次聚類方法優(yōu)化業(yè)務(wù)相關(guān)性行為特征;基于流量特征模型,完成社交網(wǎng)絡(luò)用戶的位置信息泄露風(fēng)險(xiǎn)預(yù)警。該方法存在檢測(cè)準(zhǔn)確率低的問(wèn)題。朱唯一等人[4]提出基于EDLATrust算法的社交網(wǎng)絡(luò)信息泄露節(jié)點(diǎn)概率預(yù)測(cè)方法,采用信息種群傳播和線性傳播兩種模型;通過(guò)XGBoost算法預(yù)測(cè)關(guān)鍵信息節(jié)點(diǎn);通過(guò)預(yù)測(cè)模型完成社交網(wǎng)絡(luò)用戶的位置信息泄露風(fēng)險(xiǎn)預(yù)警。該方法存在預(yù)警錯(cuò)誤率高的問(wèn)題。范敏等人[5]提出基于字符級(jí)擴(kuò)張卷積網(wǎng)絡(luò)的Web攻擊檢測(cè)方法,對(duì)網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理并實(shí)行人工校驗(yàn),構(gòu)建擴(kuò)張卷積網(wǎng)絡(luò)層,通過(guò)模型完成社交網(wǎng)絡(luò)用戶的位置信息泄露風(fēng)險(xiǎn)預(yù)警。該方法存在風(fēng)險(xiǎn)預(yù)警時(shí)間長(zhǎng)、預(yù)警效果不佳的問(wèn)題。
為了解決上述方法中存在的問(wèn)題,提出社交網(wǎng)絡(luò)用戶簽到行為位置泄露風(fēng)險(xiǎn)預(yù)警方法。通過(guò)構(gòu)建攻擊者模型,采用K-means聚類算法獲取數(shù)據(jù)信息,采用敏感性、數(shù)據(jù)可見性、屬性公開性完成社交網(wǎng)絡(luò)用戶簽到行為位置泄露風(fēng)險(xiǎn)預(yù)警。
建立社交網(wǎng)絡(luò)用戶的位置攻擊者模型,分析其攻擊情況[6-7]。
攻擊者分為系統(tǒng)內(nèi)惡意位置服務(wù)提供商和系統(tǒng)外惡意攻擊者兩種情況。根據(jù)實(shí)際經(jīng)驗(yàn)列出攻擊者背景知識(shí)可能性如下:
1)攻擊者擁有全體用戶所處區(qū)域標(biāo)識(shí)。
2)用戶情況可被攻擊者獲取觀察。
3)攻擊者了解中間服務(wù)器的用戶隱私保護(hù)機(jī)制。
4)用戶歷史信息可被攻擊者獲取。
5)隱私保護(hù)機(jī)制的概率分布密度函數(shù)可被攻擊者獲取。
攻擊者可獲取社交網(wǎng)絡(luò)用戶個(gè)人資料信息和用戶歷史位置服務(wù)信息兩部分用戶背景知識(shí)。
針對(duì)位置信息的獲取,攻擊者可根據(jù)先驗(yàn)知識(shí)和用戶位置權(quán)限構(gòu)建用戶移動(dòng)信息。在R區(qū)域內(nèi),用戶u移動(dòng)軌跡序列可用Q×Q矩陣表示,其移動(dòng)概率值可用Pr(tk|to)表達(dá),tk、to表示用戶不同位置信息。受知識(shí)權(quán)限限制,攻擊者不能完成估算出用戶移動(dòng)軌跡序列中的全部位置情況,攻擊者通過(guò)馬爾科夫鏈建模用戶在R區(qū)域內(nèi)移動(dòng)軌跡從而獲取用戶轉(zhuǎn)移概率矩陣[8-9],其矩陣內(nèi)元素信息公式表達(dá)如下:

(1)
其中,t(y)、t(y-1)表示用戶移動(dòng)時(shí)刻信息。
攻擊者通過(guò)歷史信息進(jìn)一步推斷出用戶在y-1時(shí)刻的位置概率分布公式表達(dá)如下:
Pr(t(y-1))=Pr(to|u)
(2)
故攻擊者的位置攻擊受時(shí)刻概率分布和位置概率分布約束。
攻擊者可由觀察事件逆向推測(cè)用戶的真實(shí)事件,即用戶與位置區(qū)域關(guān)聯(lián)范圍,最終推導(dǎo)出用戶u在y時(shí)刻的位置公式表達(dá)如下:

(3)
其由用戶下一刻的轉(zhuǎn)移概率決定。
以此完成攻擊者位置攻擊行為分析。
構(gòu)建位置攻擊者模型后,通過(guò)數(shù)據(jù)挖掘的K-means聚類算法獲取用戶社交網(wǎng)絡(luò)數(shù)據(jù)信息[10-11]。
數(shù)據(jù)挖掘通過(guò)數(shù)據(jù)清洗、集成、選擇、變換、模式發(fā)現(xiàn)、評(píng)估與知識(shí)庫(kù)七個(gè)階段獲取用戶數(shù)據(jù)信息。
K-means算法被廣泛應(yīng)用于社交網(wǎng)絡(luò)用戶的數(shù)據(jù)挖掘中,通過(guò)聚類分析獲取用戶的數(shù)據(jù)信息[12]。
用F{x1,x2,…,xn}表示數(shù)據(jù)點(diǎn)集合,維度實(shí)數(shù)空間向量可用xo=(xo1,xo2,…,xot)表示,共n個(gè)數(shù)據(jù)點(diǎn)個(gè)數(shù)。
1)在數(shù)據(jù)集F中劃分l個(gè)數(shù)據(jù)點(diǎn)作為初始簇中心qk,其公式表達(dá)如下:

(4)
其中,Vk表示第k個(gè)簇,Co表示數(shù)據(jù)點(diǎn)中心,|Vk|表示簇的個(gè)數(shù)。
計(jì)算數(shù)據(jù)點(diǎn)到簇中心距離dist(xo,qk),其公式表達(dá)如下:


(5)
劃分?jǐn)?shù)據(jù)到簇中心,并重新計(jì)算每個(gè)簇中心,重復(fù)此過(guò)程,直至滿足以下條件中任意一個(gè),即終止迭代:
1)所有數(shù)據(jù)點(diǎn)被分配完成。
2)簇中心固定化。
3)誤差平方和(SSE)局部最小。
誤差平方和公式表達(dá)如下:

(6)
基于此,完成社交網(wǎng)絡(luò)簽到用戶數(shù)據(jù)信息的獲取。
獲取到用戶信息數(shù)據(jù)后,通過(guò)屬性敏感性、數(shù)據(jù)可見性、屬性公開性三個(gè)指標(biāo)完成社交網(wǎng)絡(luò)用戶簽到行為位置泄露風(fēng)險(xiǎn)預(yù)警。
位置泄露包含隱私參數(shù)、攻擊者推測(cè)、真實(shí)隱私信息和先驗(yàn)知識(shí)四種因素,根據(jù)此四種因素設(shè)置屬性敏感性、數(shù)據(jù)可見性和屬性公開性三個(gè)指標(biāo)以量化位置泄露信息風(fēng)險(xiǎn)程度。
屬性敏感性通過(guò)用戶隱私喜好設(shè)置量化位置泄露程度;數(shù)據(jù)可見性依據(jù)先驗(yàn)知識(shí)從用戶數(shù)據(jù)中獲取先驗(yàn)概率分布;屬性公開性依據(jù)攻擊者意圖推測(cè)量化推測(cè)屬性識(shí)別模式,其流程如圖1所示。

圖1 位置泄露風(fēng)險(xiǎn)預(yù)警流程
通過(guò)用戶隱私偏好矩陣的構(gòu)建,獲得社交網(wǎng)絡(luò)用戶屬性敏感性程度。


(7)
其中,tol表示用戶主觀屬性敏感性,d表示屬性數(shù)目,l表示第l個(gè)屬性。
使用皮爾遜相似度計(jì)算用戶主觀敏感性sbj-senol,其公式表達(dá)如下:

(8)
其中,r表示皮爾遜系數(shù)。
計(jì)算皮爾遜客觀敏感性obj-senl,其公式表達(dá)如下:

(9)
其中,m表示客觀屬性敏感性數(shù)目。
以此歸一化處理用戶屬性敏感性,排除主觀因素的影響,完成用戶屬性敏感性的量化處理。
可通過(guò)先驗(yàn)概率量化用戶隱私程度,從而獲得用戶數(shù)據(jù)曝光的程度,用戶位置泄露風(fēng)險(xiǎn)程度與數(shù)據(jù)可見性成正比。
分析獲取的用戶數(shù)據(jù)信息以評(píng)估用戶數(shù)據(jù)信息的可見性大小。計(jì)算用戶數(shù)據(jù)可見性數(shù)據(jù)Bodo,其公式表達(dá)如下:

(10)
其中,Pok表示獲取用戶信息概率,m表示用戶信息量。
由此推算出用戶數(shù)據(jù)可見性量化其位置信息泄露程度,攻擊者的攻擊成功可能性直接受此影響。
攻擊者通過(guò)用戶數(shù)據(jù)推測(cè)用戶屬性的確定程度稱為屬性公開性,用戶威脅泄露風(fēng)險(xiǎn)程度與屬性公開性成正比。攻擊者獲取簽到社交網(wǎng)絡(luò)用戶數(shù)據(jù)來(lái)推斷用戶屬性信息,從而造成位置泄露風(fēng)險(xiǎn)[14]。例如用戶的簽到信息經(jīng)常活動(dòng)在某范圍內(nèi),攻擊者則可推測(cè)出該用戶地址。
屬性公開性即攻擊者通過(guò)屬性識(shí)別模型獲取簽到用戶概率分布,可用信息熵來(lái)度量簽到用戶信息屬性公開性,信息熵越大則用戶屬性公開性越大。
設(shè)置用戶數(shù)據(jù)用隨機(jī)變量X表示,假設(shè)其隨機(jī)變量Y滿足均勻分布,其定義域用η表示,其待計(jì)算屬性attrl,屬性個(gè)數(shù)為|η|,極端屬性值的先驗(yàn)概率P(u)公式表達(dá)如下:

(11)
根據(jù)信息熵計(jì)算用戶屬性公開性cerol,其公式表達(dá)如下:

(12)
其中,J(U|C)表示屬性識(shí)別,P(u|c)表示確定條件概率,J(U)表示屬性值。
屬性公開性可量化攻擊者的位置信息攻擊情況,從而評(píng)估簽到行為引起的位置泄露風(fēng)險(xiǎn)情況。
根據(jù)用戶簽到行為存在的屬性敏感性、數(shù)據(jù)可見性和屬性公開性,從動(dòng)態(tài)、靜態(tài)兩個(gè)角度評(píng)估用戶位置泄露風(fēng)險(xiǎn)情況[15]。
用戶簽到引起的位置泄露可分為正常狀態(tài)和異常狀態(tài)兩種情況,判定位置泄露步驟如下:
計(jì)算主觀隱私評(píng)分,其公式表達(dá)如下:

(13)
計(jì)算客觀隱私評(píng)分,其公式表達(dá)如下:

(14)
從靜態(tài)角度,計(jì)算用戶隱私指數(shù),其公式表達(dá)如下:

(15)
其中,IU表示用戶合集。
從動(dòng)態(tài)角度,計(jì)算用戶隱私評(píng)分序列,其公式表達(dá)如下:
PSS=(sbj-Psyo,sbj-Psy2,…,sbj-Psyf)
(16)
其中,f表示時(shí)間窗口大小。
當(dāng)客觀隱私評(píng)分大于用戶隱私指數(shù)或主觀隱私評(píng)分時(shí),表示異常狀態(tài),否則為正常狀態(tài)。
設(shè)置閾值β和χ量化用戶位置泄露程度,其公式表達(dá)如下:

(17)
其中,PI表示隱私指數(shù)。
基于此,完成社交網(wǎng)絡(luò)用戶簽到行為的位置泄露風(fēng)險(xiǎn)預(yù)警。
為了驗(yàn)證社交網(wǎng)絡(luò)用戶簽到行為位置泄露風(fēng)險(xiǎn)預(yù)警方法(所提方法)的整體有效性,對(duì)其完成如下測(cè)試。
尋找在一個(gè)月前就正常使用社交網(wǎng)絡(luò)的實(shí)驗(yàn)用戶10名,實(shí)驗(yàn)用戶實(shí)驗(yàn)當(dāng)天在延邊大學(xué)工學(xué)院各個(gè)位置完成用戶簽到,并佩戴電子手表以記錄真實(shí)運(yùn)動(dòng)位置,同時(shí)采用多種攻擊方法攻擊實(shí)驗(yàn)用戶的應(yīng)用程序。
1)預(yù)警精度、查全率、F值
引入預(yù)警精度、查全率及預(yù)警精度和查全率調(diào)和均值F值來(lái)對(duì)位置泄露風(fēng)險(xiǎn)預(yù)警效果評(píng)估。
預(yù)警精度公式表達(dá)如下:

(18)
查全率公式表達(dá)如下:

(19)
F值公式表達(dá)如下:

(20)
其中,TP表示實(shí)際有泄露風(fēng)險(xiǎn),FP表示實(shí)際無(wú)泄露風(fēng)險(xiǎn),FN表示實(shí)際有泄露風(fēng)險(xiǎn)。
采用所提方法、基于流量特征的隱私泄露評(píng)估方案(參考文獻(xiàn)[3]方法)和基于EDLATrust算法的社交網(wǎng)絡(luò)信息泄露節(jié)點(diǎn)概率預(yù)測(cè)方法(參考文獻(xiàn)[4]方法)對(duì)其位置泄露風(fēng)險(xiǎn)預(yù)警測(cè)試,其結(jié)果如表1所示:

表1 三種方法的位置泄露風(fēng)險(xiǎn)預(yù)警評(píng)估指標(biāo)
分析表1可知,所提方法的預(yù)警精度為98.6%、查全率為97.6%以及F值為85.6%,均大于參考文獻(xiàn)[3]方法和參考文獻(xiàn)[4]方法,表明所提方法的行為位置泄露風(fēng)險(xiǎn)預(yù)警效果更好。
2)預(yù)警幅度頻率對(duì)比
在存在外界影響的情況下,采用不同方法對(duì)其實(shí)行位置泄露風(fēng)險(xiǎn)預(yù)警測(cè)試,觀測(cè)三種方法預(yù)警幅度波動(dòng)率是否平穩(wěn),三種方法的預(yù)警振動(dòng)頻率如圖2所示。

圖2 三種方法的預(yù)警振動(dòng)頻率
分析圖2可知,所提方法的預(yù)警振動(dòng)頻率波動(dòng)率保持在-50Hz~50Hz區(qū)間內(nèi),而參考文獻(xiàn)[3]方法、參考文獻(xiàn)[4]方法的預(yù)警振動(dòng)頻率波動(dòng)率均超過(guò)-50Hz~50Hz,表明所提方法的預(yù)警判定在存在外界干擾的情況下仍可獲得較為平穩(wěn)準(zhǔn)確的預(yù)警結(jié)果。
通過(guò)上述實(shí)驗(yàn)可知,所提方法通過(guò)攻擊者模型分析了攻擊者的位置攻擊方法情況,提高了位置泄露風(fēng)險(xiǎn)預(yù)警的精度;通過(guò)屬性敏感性、數(shù)據(jù)可見性、屬性公開性三個(gè)指標(biāo)的量化處理,提高了位置泄露風(fēng)險(xiǎn)預(yù)警的正確率,獲取了社交網(wǎng)絡(luò)用戶簽到行為的位置泄露風(fēng)險(xiǎn)預(yù)警效果。
社交網(wǎng)絡(luò)成為全民生活的必需品,在應(yīng)用過(guò)程中存在簽到行為,是泄露社交網(wǎng)絡(luò)用戶位置的主要行為。為了保證社交網(wǎng)絡(luò)用戶的信息安全,因此提出社交網(wǎng)絡(luò)用戶簽到行為位置泄露風(fēng)險(xiǎn)預(yù)警方法。通過(guò)構(gòu)建攻擊者模型;獲取簽到社交網(wǎng)絡(luò)用戶數(shù)據(jù)信息;通過(guò)對(duì)三個(gè)指標(biāo)的量化處理,完成社交網(wǎng)絡(luò)用戶簽到行為位置泄露風(fēng)險(xiǎn)預(yù)警。所提方法為社交網(wǎng)絡(luò)用戶的信息安全提供了保障,具有重要現(xiàn)實(shí)應(yīng)用意義。