馬黛露絲,朱海萍,田鋒,馮沛,陳妍,計湘婷,李玉杰
(1.西安交通大學電子與信息學部,710049,西安;2.西安交通大學陜西省天地網技術重點實驗室,710049,西安;3.百度時代網絡技術(北京)有限公司,100085,北京;4.南京理工大學計算機科學與工程學院,210094,南京)
推薦算法在電商系統、學習平臺等的應用為用戶高效、便捷的使用提供了有力保障。但是,由于推薦的結果建立在用戶各類數據之上,推薦系統也存在隱私泄露的風險。以在線學習為例,根據推薦系統提供的推薦列表,攻擊者可以推測出不同學習者的偏好,再結合學習日志等輔助信息,甚至可以反向推測出特定偏好對應的學習者,從而獲取其姓名、學校、專業、學號、客戶端IP地址等真實身份信息[1]。雖然用戶的姓名、電話等信息往往不作為推薦系統使用的特征,不影響推薦精度,但是若攻擊者反推得到用戶偏好,進而反推得到對應該偏好的用戶,便會造成用戶真實身份信息及偏好數據的隱私泄露,相比于電商系統中的虛擬賬戶信息,此類包含真實身份的信息需要的隱私保護程度更高,因此在線學習平臺的隱私保護越來越受到公眾的關注。在線學習平臺大多缺少顯式評分,存在數據不平衡問題,并且大多使用基于隱式反饋的推薦系統,此類系統相比于顯式系統,在數據處理、用戶偏好建模等階段更為復雜,實施代價更大[2-4],因此如何在隱私保護程度與推薦精度之間均衡十分重要。
針對推薦系統的隱私保護安全問題,國內外學者的研究主要分為數據加密技術、基于數據模糊技術和差分隱私保護技術[5-6]。差分隱私保護技術在保證算法對特定統計結果的輸出概率不發生顯著變化的前提下,利用算法對數據集的統計結果隨機化處理,保護原始數據信息,其差分隱私保護參數能夠描述使用的隨機算法給出的最高隱私保護水平[7]。差分隱私已被應用到矩陣分解推薦模型中,評估隱私保護和推薦效率的權衡效果[8]。之后的研究將差分隱私技術與貝葉斯后驗采樣融合,能夠得到推薦準確率更高的差分隱私推薦框架[9]。Meng等通過在敏感和非敏感數據的訓練集中引入不同的噪聲強度,保護了社交推薦系統的隱私[10]。現有的針對在線學習平臺的基于鄰域的差分隱私保護推薦算法[11],在計算用戶或項目相似度矩陣時,會因稠密的矩陣臨時存儲表而占用相當的內存,而矩陣分解的推薦算法在訓練過程中不需要存儲與維護相關表,節省內存,如在包括4多萬用戶的Netflix Prize數據集中,使用基于鄰域的推薦方法,大約需要30 GB內存,而矩陣分解推薦方法只需要4 GB內存。
本文針對在線學習資源推薦平臺隱式反饋的性質,提出基于資源熱度負采樣算法,解決隱式反饋系統中數據不平衡的問題,使用差分隱私保護參數ε描述隱私保護程度分級,提出性能與隱私保護均衡的推薦算法,研究矩陣分解的差分隱私保護算法中隱私保護參數與推薦精度的關系。
在推理攻擊與重構攻擊[12]兩種攻擊模型的攻擊下,矩陣分解模型存在隱私泄露的風險。其中,推理攻擊通常被用于推斷某個模型的訓練集中是否包含某個體的評級;重構攻擊是根據目標受害者的一些背景信息,預測其敏感特征的準確值。當兩種攻擊結合起來[13],在基于矩陣分解的推薦過程中,攻擊者首先借助推理攻擊推斷數據集中是否包括目標攻擊用戶的評級,其次通過重構攻擊,利用已知的部分評級反向預測受害用戶的潛在特征,便能發現用戶的偏好信息以及其他潛在敏感信息[14]。
矩陣分解推薦模型中攻擊者的反向預測過程如文獻[15]所述,受害者用戶u1與攻擊者共享更新后的項目因子V,若攻擊者掌握的背景信息為受害者非敏感的偏好評級R12,則可以通過u1=v2R12-1反推出受害者向量u1,從而進一步根據R1i=u1V獲取受害者的其余敏感的偏好評級,造成用戶向量、偏好向量等隱私泄露。
根據上述對推薦中矩陣分解模型隱私泄露風險的分析,本文在所提出的性能與隱私保護均衡的推薦算法中,使用基于矩陣分解的差分隱私保護推薦算法[6]作為基礎推薦模型,分析其中隱私保護參數與推薦精度的關系,以在線學習資源推薦平臺為例,研究框圖如圖1所示。因矩陣分解的目標優化函數為非凸函數,對求解結果的敏感度較高,在輸出模塊引入噪聲會使預測結果的可用性大大降低,因此本文只分析矩陣分解模型中分別在數據輸入和模型訓練模塊引入差分隱私保護方法的結果。在數據準備部分,本文針對在線學習用戶數據的隱式反饋特點,提出基于資源熱度負采樣算法,對推薦模型的輸入數據進行樣本平衡處理。

圖1 性能與隱私保護均衡的推薦算法研究框架
基于輸入擾動的差分隱私矩陣分解推薦算法是基于差分隱私保護的原理,在推薦模型訓練之前對構建的隱式反饋評分引入噪聲,之后再構建矩陣分解模型。對于樣本平衡處理后得到的用戶項目偏好評分矩陣R使用下式引入噪聲,即
(1)
式中:Δf表示敏感度。根據差分隱私保護的性質,最終得到的偏好評分矩陣Λ(R)滿足ε差分隱私保護。
基于模型擾動的差分隱私矩陣分解保護推薦算法在梯度下降的每一步迭代中,對誤差函數進行Laplace噪聲的添加,此過程也稱梯度加擾[16]。同時,每一次迭代算法都滿足ε/e差分隱私,根據差分隱私保護的組合性質,則在e次迭代計算后,最終整個偏置項矩陣分解滿足ε=eε/e差分隱私保護。
隱式反饋推薦系統中只有用戶的操作歷史行為,缺少用戶的負反饋樣本,導致的樣本不平衡問題會影響到推薦精度,為此參考已有的引入負樣本的4種策略[13],結合湯普森采樣算法[17]在推薦系統中的應用,針對在線學習資源推薦系統,提出基于資源熱度負采樣算法,其中資源熱度與資源item出現的次數成正比,熱門資源是指資源熱度大于所設閾值的資源。使用基于資源熱度負采樣算法使得負采樣后的平衡數據滿足以下3點特征:
(1)對于每個學習者,負采樣后保證正負樣本的數目均衡;
(2)對于每個學習者,進行負樣本的選擇時,負樣本取自同一課程下的資源庫中;
(3)在進行負采樣的時候,在學習者沒有操作的熱門資源中,利用β分布隨機選取資源。
基于資源熱度負采樣算法的具體步驟如算法1所述,在同類課程下,item_list_all是所有視頻資源的列表,item_list則是代表學習者已經有過操作行為的資源視頻的集合。
算法1基于資源熱度負采樣算法:
輸入學習者編號user_id,學習者有操作行為的某課程視頻資源列表item_list,某課程所有視頻資源列表item_list_all
輸出正負樣本均衡的樣本數據sample
1: sample={}
2: for item in item_list do
3: sample[item]=user_item_rating
4: end for
5: candidate_list=Thompson(item_list_all)
∥在熱門資源中使用湯普森采樣獲得資源列表
6: for item in candidate_list do ∥負采樣
7: if item in sample then
8: continue
9: end if
針對旅游英語專業學生跨文化交際能力這一測試主體,筆者對我校旅游英語專業的80名學生進行了調查,并根據調查結果進行了定量分析。
10: sample[item]=0 ∥負樣本評分置零
11:n+=1
12: ifn=len(item_list) then
13: break ∥保證正負樣本數均衡
14: end if
15: end for
16: return sample
3.1.1 實驗數據集 本文主要依托西安交通大學網絡學院學習平臺(以下簡稱網絡學院),選取網絡學院計算機專業第4學期的《操作系統原理》《計算機網絡原理》《數據結構》《計算機組成原理》《編譯原理》和《Java語言》6門課程,分析在線學習者與視頻學習資源的交互行為,將其總結為學習者的視頻學習次數偏好、視頻學習時長偏好、視頻學習暫停拖動次數偏好3種操作行為,以三者的算數加權作為學習者對課程視頻的評分,具體表示如下
(2)
式中:α=1;β=5;γ=4[11];pf(ui,vk)∈[0,1]為視頻學習次數偏好,由學習者ui觀看視頻vk的累計次數f(ui,vk)計算得到;pd(ui,vk)∈[0,1]為視頻學習時長偏好;d(ui,vk)為累計時長;dvk為原始時長;ppd(ui,vk)∈[0,1]為視頻學習暫停拖動次數偏好[18];p(ui,vk)為ui暫停vk的累計次數;g(ui,vk)為ui拖動vk的累計次數。對于給定的學習者與給定課程,可以得到基于學習行為偏好的評分,從而得到基于學習者學習行為偏好的學習者課程視頻評分矩陣,以下統稱為學習者學習資源評分矩陣,并以此作為后續實驗的基礎。
3.1.2 實驗結果評價指標 依據所選取的網絡學院的99 732條視頻資源日志作為原始數據,計算得到學習者對資源的偏好評分矩陣,使用五折交叉驗證方法選取測試集與訓練集,實驗應用百度飛槳深度學習框架平臺完成。
本文實驗首先選取不同的隱私保護參數,計算最終算法得到的推薦精度,探討隱私保護參數與推薦精度的關系;其次,比較是否使用基于資源熱度負采樣算法進行數據處理的推薦精度,分析樣本平衡性對模型的影響。實驗采用的算法性能評測指標為均方根誤差r,這類指標常被用于評估推薦算法的預測評分精度(以下簡稱推薦精度)。r越小,預測的評分越準確,計算式如下
(3)

3.2.1 實驗設計 為驗證在輸入擾動模型下所提資源熱度負采樣算法的有效性,以及探討隱私保護參數與推薦精度的關系,采用的對比實驗有不添加噪聲的基于隨機梯度下降法求解的基本矩陣分解推薦算法(Clean MF)、不添加噪聲的偏置項矩陣分解推薦算法(Clean Biased MF),以及添加噪聲的基本矩陣分解推薦算法(INR MF)。其中,Clean MF用來對比偏置優化后的矩陣分解推薦算法與Clean Biased MF的推薦精度,INR MF用來與INR Biased MF對比在不同隱私保護參數下的推薦精度損失程度。
3.2.2 實驗結果分析 選取不同的隱私保護參數,根據Laplace噪聲的生成方法可視化其噪聲分布發現,當ε的取值越小,所添加的噪聲分布越分散且噪聲值大,此時算法的隱私保護程度比較高;反之,當ε取值越大,所添加的噪聲趨于0,此時算法所損失的效用性最小,但相應的隱私保護程度也降低。
(1)算法推薦精度與隱私保護參數的關系分析。分析在不同的隱私保護參數下推薦算法的推薦精度,其中參數設置如下:隱式分解維度為3,正則化參數為0.1,迭代次數為30,梯度下降學習速率為0.02。
實驗結果如圖2所示,其中紅色曲線明顯低于綠色曲線,表示在無噪聲添加的情況下,考慮用戶以及項目的偏置因素會使得推薦精度更高。在進行噪聲的添加后,如藍色與橘色曲線所示,在基于輸入擾動的情況下,偏置項矩陣分解對噪聲的敏感度更低。橘色曲線表示隨著ε的增加,帶偏置項矩陣分解的推薦r逐漸降低,并在ε=15時趨近于無噪聲的推薦精度,這與我們的理論分析也相符合,即r∝1/ε,因此針對不同的推薦系統隱私保護程度需求以及推薦精度要求,可以選取對應的ε。

圖2 平衡樣本中輸入擾動時不同算法的推薦精度比較
(2)樣本的平衡性對于算法推薦精度的影響。在未經過樣本平衡處理的原始評分矩陣上進行相同的推薦實驗,結果如圖3所示,與圖2所得均方根誤差曲線趨勢相同。

圖3 非平衡樣本中輸入擾動時不同算法的推薦精度比較
輸入擾動下平衡樣本與非平衡樣本上的實驗結果如圖4所示。由圖可知,無論是否添加噪聲擾動,平衡樣本下的推薦r都低于非平衡樣本下的,并且ε取值越大影響越明顯,說明在隱式反饋的矩陣分解推薦中進行樣本平衡處理是必要的。

圖4 輸入擾動下樣本平衡性對推薦精度的影響
3.3.1 實驗設計 為驗證在模型擾動算法下的結果,采用的對比實驗有Clean MF、clean Biased MF、添加噪聲的基本矩陣分解算法(MNR MF)、帶偏置項矩陣分解算法(MNR Biased MF)以及文獻[20]中的差分隱私保護全局平均值(Global average)和差分隱私保護項目平均值(Item average)兩種方法。
3.3.2 實驗結果分析
(1)算法推薦精度與隱私保護參數的關系分析。不同ε下推薦算法精度的比較如圖5所示。實驗中相關參數的設置如下:隱式分解維度為3,正則化參數為0.05,梯度下降學習速率為0.01。由圖5可知,當ε≥5時,本文所使用的MNR Biased MF推薦精度高于Global average和Item average的推薦精度。觀察圖5中MNR MF與MNR Biased MF的推薦精度與隱私保護參數的關系發現:ε=1時,推薦精度相近;ε<1時,即隱私保護程度比較高的時候,MNR MF算法推薦精度更高;ε>1時,MNR Biased MF算法推薦精度更高。這表示MNR Biased MF的矩陣分解對過高的噪聲引入敏感性較高,但在隱私保護程度適中(ε≥5)的情況下,推薦精度在不損失過多時遠高于MNR MF。

圖5 平衡樣本中模型擾動時不同算法的推薦精度比較
(2)樣本的平衡性對于算法推薦精度的影響。在未經過樣本平衡處理的原始評分矩陣上進行相同的推薦實驗,結果如圖6所示,與圖5所得均方根誤差曲線趨勢相同。

圖6 非平衡樣本下模型擾動時不同算法的推薦精度比較
樣本平衡與非平衡下的實驗結果如圖7所示。無論是MNR MF還是 MNR Biased MF,樣本平衡后的推薦精度都更高。對于MNR Biased MF,當ε≤4時樣本平衡處理的效果更加明顯,而對于MNR MF,ε≤2時樣本平衡處理的效果更加明顯。這表明樣本平衡性對于MNR MF的影響更顯著,因此實際中采用本節提出的MNR Biased MF能更好地均衡推薦精度與隱私保護程度。

圖7 模型擾動下樣本平衡性對推薦精度的影響
根據上述實驗中發現的ε越小隱私保護程度越高,r越小推薦精度越好,以及r與1/ε正相關的關系,可對min-max標準化后的兩個變量構造優化目標如下
min(w1r+w2ε),w1+w2=1
(4)
經實驗發現,當w1<0.6時,r精度差,ε傾向取最小值;當w1=0.6,輸入擾動下在ε=7時,模型擾動下在ε=3時,平衡樣本與樣本非平衡實驗場景下的推薦精度與隱私保護程度達到均衡最優。
同時對比分析發現:在不同的ε下,如表1所示,相同隱私保護程度下無論樣本平衡與否,在ε取值較小時,基于模型擾動的推薦精度優于基于輸入擾動的,但當ε取較大值(ε>5)時,基于輸入擾動的推薦精度優于基于模型擾動的。

表1 模型擾動算法與輸入擾動算法推薦預測評分精度比較
根據本文實驗結果可知,矩陣分解的差分隱私保護推薦方案中,無論是輸入擾動還是模型擾動,樣本平衡處理后推薦精度會提高,其對應的推薦精度與差分隱私保護參數的倒數均呈正比關系,特別地,輸入擾動與模型擾動分別在ε取值7和3時,推薦精度與隱私保護程度達到均衡。當隱私保護程度較高,即ε≤5時,基于模型擾動的差分隱私矩陣分解推薦在相同的隱私保護程度下,優于基于輸入擾動的;當隱私保護程度較低,即ε>5時,基于輸入擾動的差分隱私矩陣分解推薦在相同的隱私保護程度下,優于基于模型擾動的。根據模型擾動算法對系統模型維護有更高要求的特點可得,對于隱私保護程度要求很高的推薦系統,建議采用基于模型擾動的矩陣分解差分隱私推薦,對于隱私保護程度要求適中的推薦系統,建議采用維護成本較低的基于輸入擾動的矩陣分解差分隱私推薦算法。
目前,差分隱私保護與在線學習資源推薦相結合的研究還相對較少,本文所提出的方案是一次很有意義的嘗試,有較強的實際應用價值,但仍有優化和完善的空間,下一步的工作將研究在增量隱式反饋數據下推薦算法的隱私保護問題。