◆喬 雨
(南京工業大學浦江學院 計算機與通信工程學院 江蘇 211200)
計算機技術的快速發展讓人們獲取信息的成本更低、方式更多樣化,而隨著信息的爆炸式增長,信息超載成為海量數據使用過程中的一大難題,為此產生了搜索引擎(如谷歌、百度等)和推薦系統(如電商平臺的“猜你喜歡”模塊、互聯網平臺中的廣告智能推送業務等)這兩種主流的信息過濾技術,它們對解決信息超載的問題做出了巨大的貢獻。這兩種技術最明顯的區別在于前者是由用戶主動輸入關鍵詞進行搜索,而后者則是主動向用戶推薦其可能需要的信息[1]。推薦系統(Recommender Systems)的實現原理是通過分析特定的數據(包括書籍、文章、電影、音樂、網站瀏覽記錄等)來定位用戶的信息需求,并生成相應的推薦結果幫助用戶做出選擇。但是,推薦系統能夠實現精確的推薦效果的前提是需要事先收集大量的用戶信息,通常信息越豐富,推薦結果的精確度就越高;從另一個角度來看,若對用戶數據進行深度挖掘和分析會對用戶的隱私造成嚴重的威脅。因此,出于對用戶隱私保護和數據安全的考慮,在推薦過程中加強對隱私數據的保護顯得格外重要,這也成為推薦系統領域一個迫切需要解決的問題,也受到相關學者和專家的關注和重視。
本文從隱私保護的技術實現角度出發,對該方向的研究進展和發展趨勢進行介紹和分析,首先闡述了兩種主流的推薦系統產生推薦的原理,再分別對協同過濾推薦系統和上下文推薦系統中的隱私保護策略進行歸納總結,為日后的進一步研究提供參考依據。
協同過濾的概念在1992 年首次提出后被應用到推薦系統中,經過多年理論研究和工業應用,協同過濾推薦已經成為推薦領域應用最廣泛的技術[2]。協同過濾推薦是通過收集用戶相關信息來建立用戶喜好模型;然后尋找與目標用戶相似的鄰居用戶,根據鄰居對項目的喜愛程度進行信息的協同過濾,進而產生推薦;這里的用戶相關信息是指用戶的歷史購買記錄、具體的評分值等能夠反映用戶偏好的行為信息。同時,“在線協同-離線過濾”是協同過濾的工作特點,“在線協同”是指通過線上的數據找到目標用戶可能喜歡的項目,“離線過濾”則是過濾掉一些不值得推薦的數據,例如用戶已經購買過的或者評分低的項目數據。
上下文推薦系統與傳統的推薦系統相比,融入了上下文維度的數據進行推薦,這一維度的信息包括位置、時間段、心情、使用的設備類型等場景信息,在建立用戶喜好模型時會充分考慮上下文狀態信息對用戶個性化需求的影響程度[3]?;谏舷挛牡耐扑]系統深入地挖掘了“用戶-項目-上下文”三者之間的潛在關系,利用用戶所在的上下文狀態來提高推薦的精確度和推薦的時效性,大大提升了用戶體驗。目前,上下文推薦系統已成為推薦系統領域重要的研究方向。
Westin 等人認為隱私是指個人或團體有權控制、編輯、管理并刪除關于自己的信息,自己有權決定在何時或者以何種方式將個人信息公開給他人[4]。該定義中強調了信息所有者對自我信息數據的控制權,應該讓用戶擁有控制自己信息數據的權利(如收集哪些數據、為什么收集這些數據、自己的數據將被如何使用等),但也并不是完全不能被第三方使用。文獻[5]認為隱私就是個人所擁有的,且他人無權搜集、保留和使用的權利的信息資料集合,它只能按照擁有者的意愿在特定時間、以特定方式、在特定程度上公開。該定義強調了隱私保護的主體實際上是對個人隱私的保護,其保護的目的則是防止個人的隱私數據被泄露或者被濫用。
然而,根據推薦系統產生推薦的三個主要步驟:(1)基于用戶的個人信息和行為信息挖掘出用戶可能的興趣點;(2)根據項目的內容信息或者被評價的信息提取項目的特征;(3)將用戶的興趣點與項目的特征點進行匹配,并將匹配程度最高的信息推薦給用戶。從這三個基本步驟的實現過程可以看出,這三個階段中都涉及到個人的隱私數據,如收集用戶的個人基本信息、個人興趣偏好、個人瀏覽行為和內容,并且在未經用戶許可的情況下對個人信息進行了處理、傳輸、存儲、計算等。所以,由于推薦系統的特殊性,一方面需要大量的用戶信息來保證推薦的精確度和高效性,而另一方面大量獲取和使用用戶的個人信息會增加用戶個人隱私泄露的風險[6]。因此,如何在推薦系統的高準確性要求和隱私保護的要求之間找到一定的平衡是目前推薦系統隱私保護問題研究的難點之一,即如何實現在幫助用戶獲得高效的個性化信息服務的同時,也能為用戶的隱私信息提供可信的保護,降低隱私泄露的風險。
隨著互聯網技術日益發展,作為互聯網中的主體----網民對于個人隱私的保護意識也不斷增強,因此,無論是人文方面還是商業應用方面都將隱私保護作為一項重要的研究議題。目前社會對隱私保護采取的主要措施是通過立法來完善隱私保護的法律法規;個體方面通過加強自我隱私保護的意識,不隨意向外界透露個人信息[7]來降低隱私泄露的風險;技術角度則是通過加密算法等手段對用戶的敏感信息進行隱藏,增強抵御外界的惡意攻擊能力,要求信息不容易被攻擊者獲取,同時還能夠將信息的丟失控制在一個較低的級別,從而實現數據價值的最大化利用。
(1)基于數據的模糊方法
協同過濾推薦系統中的隱私保護方法常用基于數據的模糊方法,比如隨機干擾方法[8]和匿名分組方法[9]。文獻[8]提出了運用隨機擾亂的數據變換技術,將經過隨機擾亂的數據發送到服務器進行運算,并利用協同過濾的方式產生推薦;在這種模式下,服務器獲取的并不是真實的用戶評分,而是被隨機修改后的數據,這種方式在一定程度上能夠保護用戶的隱私數據。Li 等人[9]提出了t 維漸進隱私保護方法,該方法的核心是在等價類中對敏感屬性的分布進行匿名處理,并且處理后的敏感屬性總體分布維數不能超過t,在保護分組中敏感信息的同時,還能保證它們在語義上的多樣性。
這兩種方法的核心思想是要求數據只有經過加工處理才能移交給推薦服務提供方進行使用,并產生對應的推薦;這實際上是將推薦服務提供方看作是不可信任的,利用隨機干擾方法雖然能夠有效保護用戶的真實行為信息,但也會增加推薦系統無法產生有效推薦結果的風險;匿名分組方法雖然能夠將個人的行為信息按照一定的規則泛化,但良好的泛化效果需要建立在用戶的信任關系上[10]。文獻[11]就是基于推薦服務提供方不可信的前提,提出了一種能夠實現隱私保護的協同過濾推薦框架,能夠為用戶提供自定義的代換密碼機制,實現了對重要信息的個性化加密效果,達到保護隱私的目的。
(2)數據加密方法
數據加密的方法就是使用加密技術對推薦過程涉及的數據進行加密,通過這樣的方式來保護數據不被輕易獲取和非法使用。文獻[12]在P2P(peer to peer)的應用場景下,設計了一個基于安全多方計算的協議,該協議通過加密技術對數據進行處理,使得用戶的隱私數據不用直接暴露地展示出來,并利用SVD 技術和極大似然技術產生推薦結果。文獻[13]在文獻[12]的基礎上進行了改進,優化了同態加密技術的復雜性,實現了增量計算的可能,進一步提高了算法實現效率。
(3)差分隱私保護法
DWork 團隊提出差分隱私的概念重點關注數據的安全性保護,他們首先提出完全安全的概念,又通過圖靈模型證明了完全保護是不可能實現的,進而引出了差分隱私保護的概念。差分隱私的主要目的是限制原始數據集的查詢結果與某條記錄相鄰數據集之間的差異級別,這樣攻擊者就無法根據數據集查詢的結果來判斷目標用戶在數據集中是否存在,即使所有的背景知識都是已知的情況,目標用戶的隱私也能夠受到保護。
MsSherry 等人[14]將差分隱私保護的方法在協同過濾推薦系統中進行使用,使用方式是在建立項目的相似度矩陣時,向矩陣中加入噪聲干擾,然后再分析項目之間的相似性,最后將數據應用到推薦系統產生推薦結果。文獻[15]則基于協同過濾推薦系統提出了一種基于差分隱私保護的k 近鄰算法,用于改善相似鄰居計算過程中所面臨的隱私泄露問題。此外,針對基于標簽的推薦系統,文獻[16]將差分隱私保護的思想應用于用戶畫像的構建,能夠在保證推薦準確度的同時達到保證用戶隱私的目的。但是,當數據量比較大時,使用該方法會引入大量的噪聲反而覆蓋了原來的數據,導致數據的可用性急劇下降。同時,差分隱私的計算復雜度較高,該缺點也限制了其在實際中的應用范圍[17]。
(1)數據加密方法
文獻[18]中提出的JPH(Jeckmans Peter and Hartel)協議,該協議分為線上和線下兩部分,分別在適當的時候對數據進行加密,然后再產生推薦;但仍有來自不可信的服務器、鄰居標簽和非鄰居標簽等方面的威脅;因此,該文獻中還采用了隨機加密策略,即在加密的過程中,通過隨機選取標簽值或者設置權重來減少上述不可信的威脅程度。因此,對用戶和項目數據進行加密的方法能夠在一定程度上保證數據的安全性,但是并不適用于用戶和項目數量規模較大的場景。
(2)基于數據模糊的方法
在上下文推薦系統中應用的數據模糊方法,與協同過濾推薦系統的應用原理類似,都是通過在原始數據中增加噪音來實現隱私數據的保護,這種方法一般不會有太復雜的處理過程,且效率較高;不同之處在于融合上下文信息的推薦系統中,在收集上下文數據時也要進行信息的模糊處理,以保護用戶的各方面隱私信息。但是,這類方法也存在著明顯的缺點,特別是在如何定義隱私保護的級別、如何評價數據模糊的程度等方面值得更深入地研究[19]。
(3)差分隱私保護。
文獻[20]將差分隱私引入到頻繁模式的挖掘過程中,使得自頂向下的樹狀劃分過程在支持top-n 頻繁模式挖掘的基礎上,也保護了原始數據中的敏感信息。文獻[21-22]中提出的DiffP-C4.5方法和Diff Gen 方法是將差分隱私保護技術與分類技術進行結合,同時考慮了樹型結構中各節點上屬性分割的問題來更好地進行數據預測和分析。
用戶的實時位置信息是基于上下文推薦系統中非常重要的影響因素之一,但是,位置信息若被泄露將嚴重影響著用戶的隱私安全。基于這一方面,文獻[23]中將位置因素納入上下文情景中來產生推薦,設計了一種基于敏感位置的隱私保護方法。位置推薦服務器首先對用戶發送的位置服務請求進行解析,然后生成初次的推薦結果;利用設置好的隱私保護級別對推薦結果進行敏感位置的匹配,再將匹配到的敏感位置進行隱藏。經過實驗證明,該方法能夠在保證推薦效率的基礎上實現對敏感位置數據的快速隱藏,從而起到隱私保護的作用。
隱私保護作為推薦系統中一項不可忽略的議題,近年來對其的研究還處于探索的階段,雖然出現了很多隱私保護的技術,但是若想要進行隱私保護的同時還能保持較好的推薦效果,未來還有待做進一步深入地研究。例如,保證用戶數據使用的透明性方面,如何通過技術手段讓用戶能夠清晰地看到自己的個人數據被使用的過程,以此來提升用戶與系統之間的互信程度;另一方面,不同的用戶對于不同種類的個人信息會持不同的態度,那么如何實現針對不同用戶,定制化地進行隱私保護策略的制定,使得系統能夠快速地適應各類用戶,從而實現真正的個性化服務。