技術宅
大數據時代 你的隱私是這樣泄露的
大家知道現在很多網站會收集用戶數據,比如會通過用戶的搜索關鍵字、購物習慣、經常訪問網站等來收集數據,然后結合這些大數據為用戶提供更為個性化的服務。比如淘寶,它會根據用戶購買和訪問店鋪的記錄,這樣用戶再次登錄淘寶的時候,它就會為用戶提供精準推薦購買服務(圖1)。
當然不僅僅是淘寶,類似百度、網易郵箱、優酷等這些大型服務商也在進行類似數據的收集,不過這些網站收集的數據可能會泄露我們的隱私。如很多研究報告,經常會將一些搜索數據作為分析數據,在引用數據的時候會將某用戶的搜索關鍵字如搜索地點、名稱等羅列出來。這樣雖然在研究文章里不會列出搜索用戶的實際名字,但是“有心人”結合這些公開的內容就可能找到實際的搜索用戶,帶來隱私泄露的問題。

非請勿看 服務商怎么保護我們的隱私
如上所述,隨著大數據技術的發展,我們在平常享受各種網絡服務的同時會無意泄露自己的隱私,那么作為常見的網絡服務商是怎么保護我們的隱私?
首先需要了解什么叫隱私。因為現在很多網站都會主動收集用戶信息,比如網易在隱私保護申明中就明確告訴用戶,網站會收集身份證、姓名、用戶來源途徑、訪問順序等信息(圖2)。
在這些信息中,一些公共屬性的如上述用戶來源途徑、訪問順序等并不屬于個人隱私,但是其中身份證、用戶姓名等私人屬性的信息則屬于個人隱私。因此網站在需要將收集的信息向大眾公布或者查詢的時候,就需要對個人隱私信息進行保護。目前主流的保護手段有k-anonymity(k-匿名化)、l-diversity(l-多樣化)、t-closeness和Differential Privacy(差分隱私)等。
這里我們以蘋果“Differential Privacy”(差分隱私技術)為例。大家知道全球蘋果用戶眾多,蘋果公司也通過不斷收集用戶使用習慣、輸入法、位置等信息來了解用戶的需求,并通過用戶反饋來改進自己的產品。那么蘋果如何保證在大規模收集用戶信息的前提下又不會泄露用戶隱私?其中的差分隱私保護就起到很好的保護作用。

差分隱私保護用算法加擾個人用戶數據,比如在數據中引入噪聲,通過對源數據進行干擾,使得研究者無法通過收集到或者公開的信息回溯到具體的個體。但是研究者可以對數據進行批量分析,得出大規模的趨勢規律。這樣通過差分隱私保護技術,既可以很好地保護用戶身份信息,同時可以提取機器學習所需的通用信息(圖3)。
舉個簡單的例子,在iPhone上使用QuickType輸入法的用戶都會發現,在我們輸入一些之前從未用過的網絡熱詞時,如鍵入“lanshouxiangg”,輸入法會自動預測用戶需要輸入的可能是“藍瘦香菇”,并將其排在首選位置以方便用戶輸入,無論你之前是否輸入過該詞(圖4)。

這個功能其實就是差分隱私技術在輸入法上的一個典型應用,當我們在iPhone上進行輸入的時候,蘋果服務器都會對用戶的輸入數據進行抓取,但是抓取的并不是某個用戶詳盡的輸入信息。比如iOS系統監測到北京的張三在iPhone 7短信中輸入“藍瘦香菇”一詞,iOS并不會將北京、張三、iPhone 7這些信息傳輸到服務器,而僅僅是將用戶輸入頻率較高的信息詞反饋到服務器,同時在傳輸信息時使用哈希加密,并在傳輸的信息中添加干擾噪音。這樣服務器可以根據大多數用戶的輸入習慣知道“藍瘦香菇”為當前熱詞,并將其推送到iPhone用戶輸入法屏幕上,但是服務器并不知道具體是哪個用戶輸入這些熱詞,可能是北京的張三,也可能是湖北的李四,甚至是你隔壁老王輸入的。蘋果需要的是某個用戶群體信息,而不是單個用戶具體信息(圖5)。


隱私保護 不僅僅靠網站
現在隱私的泄露已經越來越嚴重,每個人都希望在享受各種服務的同時不會泄露自己的隱私。從上面的介紹可以看到,為了保護用戶的隱私,各大網絡服務商也提供了很多的技術保護手段。不過隱私保護也不是僅靠網站,要做好隱私保護還需要加強自己的意識。
比如在實際網絡活動中,即使用戶沒有主動泄露過自己的隱私,但是可能通過無意泄露的照片(比如照片顯示自己小區的標志建筑、位置)、微博用戶、朋友圈等信息泄露自己的隱私,比如網上就流傳網友通過兩張照片找到某明星的實際住址的新聞(圖6)。因此,在網站提供各種保護技巧的前提下,我們自己也需要主動加強隱私保護意識,只有這樣才能更好地保護自己的隱私不被泄露!
