陳嘉霖 周宏志 陳倩


摘 要 為解決在線用戶行為數據隱私泄露問題,本文提出一種隱私保護選擇聚合算法(PPSAA),通過采用BGN密碼系統和添加噪聲法對用戶的敏感數據進行加密,并支持在線用戶行為分析的選擇性聚合功能,將同態加密和差分隱私機制相結合,使個人隱私得到較好保護。最后,通過對真實在線行為數據集的跟蹤驅動,仿真表明,該算法有效地支持總體聚合查詢和各種選擇性聚合查詢,與僅添加噪聲算法相比,PPSAA算法具有較小的計算開銷。
【關鍵詞】在線用戶行為 選擇性聚合 隱私保護 PPSAA算法
1 引言
隨著在線用戶規模的日益擴大,在線行為數據分析已成為眾多領域的研究熱點,如經濟、學術以及社會事務等領域。通過分析用戶的在線行為,挖掘出用戶個人屬性和傾向,具有較大的商業價值。然而,數據聚合任務被外包給第三方聚合器進行,盡管第三方的分析員和聚合者帶來了巨大的收益與價值,但也造成用戶隱私的泄露,即在防止用戶隱私信息泄露的同時也犧牲了數據分析的能力。因此,如何高效準確的保護數據隱私和加強數據分析能力成為目前的研究熱點。
本文提出一種隱私保護選擇聚合算法(Privacy protection selection aggregation algorithm),通過采用BGN密碼系統和添加噪聲法對用戶的敏感數據進行加密,并支持在線用戶行為分析的選擇性聚合,將同態加密和差分隱私相結合,使用戶隱私得到較好保護。最后,通過真實數據集的跟蹤對其性能進行評估,結果表明,該算法有效地支持了總體聚合和各種選擇性聚合查詢,并與僅添加噪聲算法相比,PPSAA算法具有可接受的計算和通信開銷。
2 系統模型
2.1 模型建立
本文提出一個隱私保護數據聚合系統,該系統由n個用戶,一個中介和分析員組成,用戶部署在客戶端,主要收集數據,檢測并刪除異常值。中介負責從客戶端匯總用戶數據,計算并評估分析員發出的聚合查詢,分析員查詢用戶個人或機構的數據。
4 仿真分析
為評估算法性能,將使用加密庫(PBC)來實現BGN密碼系統,參數t=80,根據1000個全國用戶的人口統計數據和在線行為數據集進行跟蹤模擬。
4.1 準確性度量
如圖1 所示,顯示了樣本大小隨相對誤差的變化示意圖,隨著樣本大小的增加,相對誤差值逐漸減小。由于相對誤差是由附加噪聲所引起的,且取決于隱私參數ε和查詢的真實結果。因此,當ε=0.1時,相對誤差最小,準確性最優。
4.2 計算開銷分析
如圖2所示,顯示了PPSAA算法和PPOAA算法和直接添加噪聲算法(D-AN)在不同采樣量時的運行時間。隨著樣本量的增加,PPOAA算法消耗的時間幾乎為零,而PPSAA和D-AN算法的消耗時間為正比例增加。
5 結論
為解決在線用戶行為數據隱私泄露問題,本文提出一種隱私保護選擇聚合算法(PPSAA),通過采用BGN密碼系統對用戶的敏感數據進行加密,并支持在線用戶行為分析的選擇性聚合功能,將同態加密和差異隱私機制相結合,使個人隱私得到較好保護。最后,結果表明,該算法有效地支持總體聚合查詢和各種選擇性聚合查詢,并與僅添加噪聲算法相比,PPSAA算法具有可接受的計算和通信開銷。
(通訊作者:陳倩)
參考文獻
[1]楊善林,王佳佳,代寶等.在線社交網絡用戶行為研究現狀與展望[J].中國科學院院刊,2015,30(02):200-215.
[2]Chen D,Dong Y,Huang X,et al. A community finding method for weighted dynamic online social network based on user behavior[J]. International Journal of Distributed Sensor Networks,2015,2015:97.
[3]劉懷進,陳永紅,田輝等.一種可檢測數據完整性的安全數據聚合協議[J].計算機科學,2016,43(S1):353-356.
[4]Ebadi H,Sands D,Schneider G. Differential Privacy[J].Acm Sigplan Notices,2015,50(01):69-81.
作者簡介
陳嘉霖(1973-)男,云南省人。云南大學碩士。從事信息化研究。
陳倩(1994-),女,云南省人。碩士研究生。研究方向為數據安全。
作者單位
云南省能源投資集團有限公司 云南省昆明市 650500