基于模糊核聚類和支持向量機的魯棒協同推薦算法

2017-08-16 11:02:44伊華偉張付志巢進波

電子與信息學報 2017年8期

伊華偉張付志巢進波

伊華偉①②③張付志*①②巢進波①②

①(燕山大學信息科學與工程學院秦皇島 066004)②(河北省計算機虛擬技術與系統集成重點實驗室(燕山大學) 秦皇島 066004)③(遼寧工業大學電子與信息工程學院錦州 121001)

該文針對現有推薦算法在面對托攻擊時魯棒性不高的問題，提出一種基于模糊核聚類和支持向量機的魯棒推薦算法。首先，根據攻擊概貌間高度相關的特性，利用模糊核聚類方法在高維特征空間對用戶概貌進行聚類，實現攻擊概貌的第1階段檢測。然后，利用支持向量機分類器對含有攻擊概貌的聚類進行分類，實現攻擊概貌的第2階段檢測。最后，基于攻擊概貌檢測結果，通過構造指示函數排除攻擊概貌在推薦過程中產生的影響，并引入矩陣分解技術設計相應的魯棒協同推薦算法。實驗結果表明，與現有的基于矩陣分解模型的推薦算法相比，所提算法不但具有很好的魯棒性，而且準確性也有提高。

魯棒推薦算法；托攻擊；矩陣分解；模糊核聚類；支持向量機

1 引言

協同過濾推薦系統作為電子商務快速發展的一個重要產物，能夠為人們提供精確又快速的推薦[1,2]。由于推薦系統的開放特性，一些商家為了個人利益蓄意偽造虛假用戶評分，并將其注入到系統中干擾正常的決策推薦過程，企圖影響正常的推薦結果，這種惡意行為被稱為托攻擊(shilling attacks)、推薦攻擊(recommendation attacks)或概貌注入攻擊(profile infection attacks)。根據攻擊的目的可將托攻擊分為推攻擊和核攻擊[3]。托攻擊的存在嚴重影響了系統的推薦質量以及用戶對系統的信任。因此，如何降低托攻擊的影響，確保系統推薦結果的可信性已成為亟待解決的問題。本文的主要目的就是設計一種抗攻擊能力強、推薦準確性高的魯棒推薦算法。

針對托攻擊問題，目前主要有兩種解決方法：一種是在推薦算法運行之前采用托攻擊檢測技術識別攻擊概貌并將其過濾掉，使其不進入推薦過程；另一種是采用魯棒推薦技術，提高推薦算法的魯棒性[4]。基于這兩種方法，人們提出了諸多魯棒推薦算法。

從攻擊檢測角度，Mehta等人[5]基于攻擊概貌間的高相關性提出了變量選擇-奇異值分解算法，首先使用主元方法檢測可疑用戶，然后在推薦模型構建過程中排除可疑用戶的干擾。Lee等人[6]提出了一種混合兩階段攻擊檢測方法，分別利用多維尺度和-means技術過濾和標識攻擊概貌。Bhaumik等人[7]利用-means技術把用戶概貌聚成兩類，將用戶概貌數量少的類判定為攻擊概貌所在類，并將該類中的全部用戶概貌都視為攻擊概貌。李聰等人[8]通過度量攻擊概貌的群體效應構建遺傳優化的目標函數，并在遺傳優化過程中融入貝葉斯推斷思想，提出了一種無監督檢測算法。Williams等人[9,10]基于用戶評分數據提取若干推薦攻擊特征，并訓練有監督機器學習算法生成分類器，然后用分類器對測試集中用戶概貌進行分類。He等人[11]在Williams等人提出的一系列攻擊特征基礎上，提出了一種基于粗糙集理論的托攻擊檢測方法。伍之昂等人[12]也同樣基于Williams等人提出的一系列攻擊特征，提出了一種基于特征選擇的托攻擊檢測方法，在一定程度上提高了針對特定攻擊類型的檢測效果。李文濤等人[13]從用戶選擇評分項目方式入手，提出了基于流行度分類特征和決策樹的托攻擊檢測算法。Zhang等人[14]針對有監督攻擊檢測方法精度低的問題，基于BP神經網絡和集成學習提出一種集成檢測模型。

為了提高推薦算法的魯棒性，文獻[15,16]對基于-means聚類、概率潛在語義分析、主成分分析和關聯規則的4種協同過濾推薦算法進行了研究。與傳統的-近鄰方法相比，在面對托攻擊時4種算法的魯棒性都有明顯提高，但是準確性會有所降低。Mehta等人[17]提出了基于M-估計量的魯棒推薦算法，但是該方法只適用于中小規模攻擊。Cheng等人[18]提出了一種基于最小截尾二乘估計量的魯棒矩陣分解算法，在梯度下降過程中通過丟棄殘差值較大的評分來抵制惡意攻擊的影響。Yi等人[19]提出了基于-距離與Tukey M-估計量的魯棒協同推薦算法，與文獻[17]和文獻[18]相比，在魯棒性和準確性方面都有提高。李聰等人[20]提出了用于魯棒協同推薦的元信息增強變分貝葉斯矩陣分解模型，將用戶嫌疑性及項類屬等原信息與貝葉斯概率矩陣分解模型相融合，有效提高了推薦系統的魯棒性。張燕平等人[21]結合協同過濾推薦領域內的隱語義模型并引入用戶聲譽系數，提出了基于用戶聲譽的隱語義模型魯棒協同算法，從人為攻擊和自然噪聲兩個方面對系統的魯棒性進行了改善，在準確性得到一定提升的情況下增強了系統抵御攻擊的能力。李改等人[22]將Sigmoid和Fidelity兩個成對損失函數分別與基于矩陣分解和基于最近鄰的協同過濾推薦算法進行結合，提出了兩個魯棒的單類協同排序算法，在含有大量噪聲數據點的真實數據集上進行實驗驗證，提出的算法在各個評價指標下均優于當前最新的單類協同排序算法。

已有的魯棒推薦算法具有一定的抗攻擊能力，但是存在一些不足，一是容易將真實概貌誤判為攻擊概貌，導致算法準確性受損；二是算法魯棒性的提高是以損失準確性為代價的。

為了解決上述問題，本文提出一種基于模糊核聚類和支持向量機的魯棒協同推薦算法(RCR- FKCSVM)。與現有魯棒推薦算法相比，本文算法綜合考慮了托攻擊檢測技術和魯棒推薦技術。首先基于托攻擊檢測技術，對攻擊概貌進行識別和標記；然后運用魯棒推薦技術，降低攻擊概貌對推薦結果的影響。本文的主要貢獻包括：(1)提出了一種基于模糊核聚類的攻擊概貌檢測算法。依據攻擊概貌之間的高度相關特性，利用模糊核聚類方法對用戶概貌進行聚類，實現攻擊概貌的第1階段檢測。(2)提出了一種基于支持向量機的攻擊概貌識別算法。利用支持向量機分類器對含有攻擊概貌的類進行分類，實現攻擊概貌的第2階段檢測。(3)將攻擊檢測結果融入矩陣分解模型，設計一種魯棒協同推薦算法，在MovieLens數據集上與現有相關算法從評分預測和top-推薦兩個方面進行對比實驗，對算法的準確性和魯棒性進行性能評價，以驗證所提算法的有效性。

2 基于模糊核聚類和支持向量機的魯棒協同推薦算法RCR-FKCSVM

本文提出的魯棒協同推薦算法RCR-FKCSVM框架如圖1所示。從圖1可以看出，算法主要由基于模糊核聚類的攻擊概貌檢測、基于支持向量機的攻擊概貌識別和基于矩陣分解模型的魯棒推薦3部分構成。

圖1 魯棒協同推薦算法RCR-FKCSVM框架圖

2.1基于模糊核聚類的攻擊概貌檢測

通常情況下，受生成模型的影響，攻擊概貌彼此之間具有較高的相似度。因此，根據概貌間的相似度，利用模糊核聚類對用戶概貌進行聚類，將用戶概貌聚為兩類，一類是真實概貌的類，一類是含有攻擊概貌的類。設含有個用戶概貌的數據集合，通過核函數將映射到高維特征空間，在中完成用戶概貌的聚類。本文采用高斯核函數，其中，為高斯核函數的寬度(本文取)。

基于模糊核聚類的攻擊概貌檢測算法(APD-FKC)如表1的算法1所示。

2.2 基于支持向量機的攻擊概貌識別

本節提出了基于支持向量機的攻擊概貌識別方法(API-SVM)，采用文獻[9]和文獻[10]提出的關于推薦攻擊的13個用戶概貌特征。將訓練集樣本表示為特征向量的形式，然后用特征向量組成的訓練集來訓練支持向量機生成SVM分類器。在識別過程中，首先對算法1得到的聚類結果進行類別判定，根據文獻[23]，將用戶概貌評分偏離度的平均值較小的類作為含有攻擊概貌的聚類，然后將該類作為待識別用戶概貌集，根據上面提到的13個概貌特征將其映射到特征空間，得到待識別用戶概貌集所對應的特征向量集，最后利用已訓練好的SVM分類器對其進一步識別攻擊概貌，排除部分真實用戶概貌，得到最終的攻擊概貌集合。

表1 APD-FKC算法

基于上述分析，給出基于支持向量機的攻擊概貌識別算法(API-SVM)如表2的算法2所示。

2.3基于矩陣分解模型的魯棒協同推薦算法

本節基于SVM分類器識別得到的攻擊概貌結果，結合矩陣分解模型[18]，設計魯棒協同推薦算法RCR-FKCSVM。算法的預測評分公式為，為了得到用戶特征向量和項目特征向量，通過梯度下降分別對和進行迭代更新：

(2)

(3)

表2 API-SVM算法

(5)

從式(1)和式(4)可以看出，在梯度下降過程中，如果是攻擊概貌，根據指示函數的取值，只對進行更新，保持不變，因此可以降低攻擊概貌對的影響，提高算法的魯棒性。最后得到用戶特征矩陣和項目特征矩陣，實現對用戶的魯棒推薦。

基于上述算法思想，給出基于模糊核聚類和支持向量機的魯棒協同推薦算法RCR-FKCSVM描述如表3的算法3。

3 實驗與評價

3.1 實驗數據集

本文實驗采用美國明尼蘇達大學Grouplens研究小組公布的Movielens 100K公共數據集。該數據集由943名用戶對1682部電影的10萬條評分數據組成，評分值為1~5之間的任一整數，評分值越大，說明用戶對該部電影的偏好程度就越大。為了驗證算法的性能，將整個數據集的80%用作訓練集，20%用作測試集。

3.2性能評價指標

為了評價評分預測算法的準確性和魯棒性，我們采用平均絕對誤差(Mean Absolute Error, MAE)和預測偏差(Prediction Shift, PS)作為各自的評價指標，計算公式為[24]

(7)

為了評價top-推薦算法的準確性和魯棒性，我們采用召回率(Recall)和命中率(Hit Ratio, HR) 作為各自的評價指標，計算公式為[25]

表3 RCR-FKCSVM算法

(9)

3.3 實驗結果與性能分析

為了評價本文算法RCR-FKCSVM的性能，我們將其與下面3種算法進行對比。(1) MMF: Mehta等人[17]提出的基于M-估計量的矩陣分解方法。(2) LTSMF: Cheng等人[18]提出的基于最小截尾二乘估計量的矩陣分解方法。(3)RCR-FKC：首先利用模糊核聚類對用戶概貌進行聚類，然后進行類別判斷，識別出含有攻擊概貌的類，并將該類中全部用戶概貌標識為攻擊概貌，最后進行基于矩陣分解的魯棒推薦。

3.3.1評分預測算法的準確性及魯棒性對比分析為了評價攻擊概貌存在情況下算法的預測準確性及魯棒性，向訓練集中分別注入均值攻擊和AOP攻擊這兩種不同類型的攻擊概貌，攻擊規模和填充規模如表4~表5中所示。各算法在不同的攻擊類型、攻擊規模和填充規模下的MAE值和PS值的實驗對比結果如表4~表5所示。實驗過程中注入的攻擊為推攻擊。

從表4和表5可以看出，在不同類型攻擊下，算法MMF和LTSMF的MAE值均在0.75以上，隨著攻擊規模和填充規模的增加，二者的MAE值波動范圍不大，說明算法的穩定性較好。算法RCR- FKC的MAE值在0.7360~0.7449之間，同算法MMF和LTSMF相比，MAE值偏小，原因是算法RCR-FKC在預測運行之前利用模糊核聚類方法將攻擊概貌聚到同一類內，將含有攻擊概貌的類內用戶概貌全部標識為攻擊概貌，從而在預測過程中排除攻擊概貌的影響，有效提高算法的預測準確性。算法RCR-FKCSVM的MAE值在0.7295~0.7358之間，在4種推薦算法中MAE值是最小的。相比算法RCR-FKC來說，算法RCR-FKCSVM在模糊核聚類之后，針對含有攻擊概貌的類利用SVM分類器再次對其進行攻擊概貌的識別，有助于保留部分真實概貌，進一步提高算法的預測準確性，也驗證了利用SVM分類器進一步識別攻擊概貌的必要性。因此，在系統被注入攻擊概貌的情況下，同算法MMF, LTSMF和RCR-FKC相比，本文算法RCR-FKCSVM的預測準確性最好。

從表4和表5可以看出，在均值攻擊下，算法MMF的PS值變化范圍在0.9057~1.7731之間，算法LTSMF的PS值變化范圍在0.7700~1.6167之間；在AOP攻擊下，算法MMF的PS值變化范圍在0.9595~1.8735之間，算法LTSMF的PS值變化范圍在0.8599~1.7193之間。由此可見，算法LTSMF的魯棒性要好于算法MMF，原因是算法LTSMF利用最小截斷二乘估計量對參數進行魯棒估計，通過排除殘差較大的攻擊概貌來提高算法的魯棒性。在AOP攻擊下，相比均值攻擊，算法MMF和LTSMF的PS值要偏大，原因是AOP攻擊選取一定比例的流行項目作為填充項，使攻擊概貌與真實概貌間具有很高的相似性，以致一些攻擊概貌被當作真實用戶概貌進入到預測過程中，導致預測偏差增大。對于算法RCR-FKC和RCR-FKCSVM來說，在均值攻擊和AOP攻擊下，算法的PS值變化范圍均在0.1以下，相比算法MMF和LTSMF的PS值來說要小很多，所以算法RCR-FKC和RCR-FKCSVM的魯棒性要優于算法MMF和LTSMF。而算法RCR- FKCSVM和RCR-FKC的PS值差別不是很大，說明在模糊核聚類之后，已經成功地將攻擊概貌聚到同一類內，從而驗證了模糊核聚類的有效性。綜上，算法RCR-FKCSVM的魯棒性最好，是因為首先通過模糊核聚類將用戶概貌映射到高維特征空間，放大用戶概貌之間的特征，使得用戶概貌間具有更好的分離性，能夠將攻擊概貌聚到同一類內，然后又利用SVM分類器對含有攻擊概貌類進一步識別，將攻擊概貌與類內真實概貌進行分離，最大限度地保留了真實用戶概貌，在提高算法魯棒性的同時提高預測準確性。

表4均值攻擊下各算法的MAE和PS對比

填充規模(%)攻擊規模(%) 1246810 353535353535 MMFMAE0.75380.75470.75300.75310.75300.75280.75240.75320.75420.75430.75340.7535 PS0.90570.94251.33471.35361.55861.57941.63361.64411.72241.67391.74941.7731 LTSMFMAE0.75100.75080.75080.75070.75140.75210.75000.75030.75090.75210.75030.7518 PS0.77000.85611.17731.20311.39391.40991.4581.49921.55051.52851.57981.6167 RCR-FKCMAE0.74250.74170.74210.74200.74190.74240.74060.74180.74100.74070.74160.7406 PS0.07130.06780.06590.0690.07160.13540.06960.06790.07640.13450.07890.1234 RCR-FKCSVMMAE0.73070.73150.73200.73180.73210.72960.73580.73150.73060.72970.73050.7314 PS0.06330.06880.06430.06860.07040.12870.06770.0660.07590.11210.07440.1107

填充規模(%)攻擊規模(%) 1246810 353535353535 MMFMAE0.75690.75470.75560.75310.75890.75580.75900.75620.75420.75630.75640.7555 PS0.95950.99811.44651.55621.67461.67821.84391.84671.82891.83521.9361.8735 LTSMFMAE0.75300.75080.75230.75150.75280.75210.75140.75270.75150.75330.75220.7528 PS0.85990.94641.30191.35651.50771.56541.67331.73471.66051.72751.71851.7193 RCR-FKCMAE0.74490.73970.73600.74200.74090.74240.73960.73980.74100.74070.74160.7406 PS0.0660.07430.06770.0780.06530.07430.07660.07570.06890.07230.06770.076 RCR-FKCSVMMAE0.73090.73190.72950.73100.73120.73230.73220.72950.73070.73200.73000.7313 PS0.06450.07070.06760.0720.06640.07230.06720.07650.06790.07080.06710.0756

3.3.2 top-推薦算法的準確性及魯棒性對比分析

為了檢驗推薦列表的長度對推薦準確性的影響，本文在未注入攻擊情況下，根據的不同取值情況，將各算法的召回率進行了對比，具體結果如圖2所示。

從圖2可以看出，隨著推薦列表長度的逐漸增大，4種算法的召回率也逐漸增大。由此可知，為目標用戶推薦的項目個數越多，其中包含用戶喜歡的項目也就越多。在同一推薦列表長度下，算法RCR-FKCSVM的召回率最高，算法RCR-FKC的召回率較高，算法LTSMF的召回率次之，算法MMF的召回率最低。正如3.3.1節中所述，本文提出的RCR-FKCSVM算法首先采用模糊核聚類對用戶概貌進行聚類，將攻擊概貌聚到同一類內，然后又利用SVM分類器進一步對攻擊概貌進行識別，最大限度地保留了真實用戶概貌，能夠有效提高算法的推薦準確性。

圖2 不同推薦列表長度下各算法的召回率變化情況

采用3.3.1節中所述的實驗設置方式，對攻擊概貌存在情況下各算法的推薦準確性及魯棒性進行了對比。在實驗過程中，我們選取推薦列表長度=70。各算法在不同的攻擊類型、攻擊規模和填充規模下的Recall值和HR值如表6和表7所示。

從表6和表7中的Recall值可以看出，在不同的攻擊類型、填充規模和攻擊規模下，算法RCR- FKCSVM的Recall值在4種算法當中是最大的，召回率越大，說明算法的推薦準確性越高，從而證明算法RCR-FKCSVM的推薦準確性是最好的。從表6和表7的HR值可以看出，對于算法MMF和LTSMF來說，在填充規模為3%和5%的情況下，當均值攻擊和AOP攻擊的攻擊規模超過1%時，HR值就已經接近1了，說明系統被注入攻擊概貌后，攻擊項幾乎出現在所有目標用戶的推薦列表當中，被推薦給目標用戶，因此說明這兩種算法的抗攻擊能力差，魯棒性弱。對于算法RCR-FKC和RCR- FKCSVM來說，在推薦列表長度被設置為70的情況下，兩種算法的HR值均為0，說明系統被注入攻擊概貌后，攻擊項并未出現在各用戶的推薦列表里，從而也說明了這兩種算法未受攻擊概貌的影響，魯棒性強。綜合上述分析，算法RCR-FKC和RCR- FKCSVM能夠抵制攻擊概貌影響系統的推薦結果，而算法RCR-FKCSVM相比RCR-FKC來說，能夠進一步保留真實用戶概貌，在保證系統推薦準確性的基礎上提高魯棒性。

表6均值攻擊下各算法的Recall值和HR值對比

填充規模(%)攻擊規模(%) 1246810 353535353535 MMFRecall(%)47.8247.1347.2548.0748.0746.9547.0047.8248.1947.6947.9446.87 HR000.98420.98730.98890.98890.98890.98890.98890.98890.98890.9889 LTSMFRecall(%)48.3248.4448.0748.9248.8848.1748.5048.0648.9148.9448.0047.20 HR0.001600.98100.98260.98890.98890.98890.98890.98890.98890.98890.9889 RCR-FKCRecall(%)49.3249.3448.9949.7849.7249.0249.0248.9149.3849.4549.0248.34 HR000000000000 RCR-FKCSVMRecall(%)50.8650.1249.9350.4951.1650.1850.9949.9850.0550.3749.9249.98 HR000000000000

填充規模(%)攻擊規模(%) 1246810 353535353535 MMFRecall(%)47.1248.9947.6846.8947.4547.5147.6347.0947.5747.2547.6948.12 HR00.00630.98890.98890.98890.98890.98890.98890.98890.98890.98890.9889 LTSMFRecall(%)48.1949.1148.3148.3148.1948.6948.1948.7648.1848.0748.3049.01 HR00.02060.98730.98890.98890.98890.98890.98890.98890.98890.98890.9889 RCR-FKCRecall(%)48.9050.0248.9549.6749.0049.2248.7949.1249.0248.9949.0149.89 HR000000000000 RCR-FKCSVMRecall(%)49.9150.9949.8650.8050.1750.3049.9350.1749.8050.0649.8750.90 HR000000000000

3.3.3算法運行時間對比分析為了評價算法的時間性能，將填充規模為5%和攻擊規模為6%的均值攻擊注入到訓練集中，并以該情況為例，分別運行文中提出的算法和對比算法，記錄各自的模型訓練時間和在線預測時間，對各算法進行時間性能對比分析。其中在線預測時間是指測試集中全部用戶預測評分時間的平均值。

從表8可以看出，對模型訓練時間來說，算法RRA-FKCSVM用時稍長一些，因為首先要進行模糊核聚類和SVM分類操作，然后再對用戶特征矩陣和項目特征矩陣進行迭代運算；其次是算法RRA-FKC，主要包括模糊核聚類操作以及對用戶特征矩陣和項目特征矩陣進行迭代運算；算法MMF和LTSMF用時相差不大，主要對用戶特征矩陣和項目特征矩陣進行迭代運算。對在線預測時間來說，4種算法用時幾乎沒有差別，時間都很短。結合3.3.1節和3.3.2節的實驗結果，本文算法RRA-FKCSVM在保證時間性能的前提下，算法的評分預測性能均優于其他3種對比算法。

表8各算法的時間性能對比

算法迭代次數模型訓練時間(s)在線預測時間(s) MMF6068.7910.231 LTSMF6067.2330.226 RRA-FKC5070.3860.212 RRA-FKCSVM5079.1020.229

4 結束語

如何使推薦系統不受惡意攻擊的影響是保障推薦質量的關鍵，本文在這方面進行了有益的探索和嘗試。提出了一種基于模糊核聚類的攻擊檢測方法，根據概貌間的相似度將攻擊概貌聚到同一類內。提出了一種基于SVM分類器的攻擊概貌檢測方法，進一步識別攻擊概貌。通過構造指示函數將攻擊概貌檢測結果融入到基于矩陣分解模型的推薦算法中，提出魯棒推薦算法RCR-FKCSVM。同現有的魯棒推薦算法相比，本文提出的算法在保證預測準確性和推薦準確性的前提下，提高了算法的魯棒性。下一步工作是提高SVM分類器的檢測性能，嘗試提出更有效的推薦攻擊特征來精準地識別攻擊概貌，減少誤判，提高算法的準確性。

[1] 孟祥武, 劉樹棟, 張玉潔, 等. 社會化推薦系統研究[J]. 軟件學報, 2015, 26(6): 1356-1372.

MENG Xiangwu, LIU Shudong, ZHANG Yujie,. Research on social recommendation systems[J]., 2015, 26(6): 1356-1372.

[2] CHEN L, CHEN G L, WANG F. Recommender systems based on user reviews: The state of the art[J].-, 2015, 25(2): 99-154. doi: 10.1007/s11257-015-9155-5.

[3] GUNES I, KALELI C, BILGE A,. Shilling attacks against recommender systems: A comprehensive survey[J]., 2014, 42(4): 767-799. doi: 10.1007/s10462-012-9364-9.

[4] O'MAHONY M, HURLEY N, KUSHMERICK N,. Collaborative recommendation: A robustness analysis[J]., 2004, 4(4): 344-377. doi: 10.1145/1031114.1031116.

[5] MEHTA B and NEJDL W. Attack resistant collaborative filtering[C]. Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Singapore, 2008: 75-82.

[6] LEE J and ZHU D. Shilling attack detection-a new approach for a trustworthy recommender system[J]., 2012, 24(1): 117-131. doi: 10.1287/ijoc.1100. 0440.

[7] BHAUMIK R, MOBASHER B, and BURKE R. A clustering approach to unsupervised attack detection in collaborative recommender systems[C]. Proceedings of the 7th International Conference on Data Mining, IEEE Computer Society, Washington: 2011: 181-187.

[8] 李聰, 駱志剛, 石金龍. 一種探測推薦系統托攻擊的無監督算法[J]. 自動化學報, 2011, 37(2): 160-167.

LI Cong, LUO Zhigang, and SHI Jinlong. An unsupervised algorithm for detecting shilling attacks on recommender systems[J]., 2011, 37(2): 160-167.

[9] WILLIAMS C A, MOBASHER B, BURKE R,. Detecting profile injection attacks in collaborative filtering: A classification-based approach[C]. Proceedings of the 8th Knowledge Discovery on the Web International Conference on Advances in Web Mining and Web Usage Analysis, Berlin, 2007: 167-186.

[10] WILLIAMS C, MOBASHER B, and BURKE R. Defending recommender systems: Detection of profile injection attacks [J]., 2007, 1(3): 157-170. doi: 10.1007/s11761-007-0013-0.

[11] HE F, WANG X, and LIU B. Attack detection by rough set theory in recommendation system[C]. 2010 IEEE International Conference on Granular Computing, Washington, 2010: 692-695.

[12] 伍之昂, 莊毅, 王有權, 等. 基于特征選擇的推薦系統托攻擊檢測算法[J]. 電子學報, 2012, 40(8): 1687-1693. doi: 10.3969/ j.issn.0372-2112.2012.08.031.

WU Zhiang, ZHUANG Yi, WANG Youquan,. Shilling attack detection based on feature selection for recommendation systems[J]., 2012, 40(8): 1687-1693. doi: 10.3969/j.issn.0372-2112.2012.08.031.

[13] 李文濤, 高旻, 李華, 等. 一種基于流行度分類特征的托攻擊檢測算法. 自動化學報, 2015, 41(9): 1563-1575.

LI Wentao, GAO Min, LI Hua,. An shilling attack detection algorithm based on popularity degree features[J]., 2015, 41(9): 1563-1575. doi: 10.16383/j.aas.2015.c150040.

[14] ZHANG F and ZHOU Q. Ensemble detection model for profile injection attacks in collaborative recommender systems based on BP neural network[J]., 2015, 9(1): 24-31. doi: 10.1049/iet-ifs.2013.0145.

[15] SANDVIG J J, MOBASHER B, and BURKE R. A survey of collaborative recommendation and the robustness of model-based algorithms[J]., 2008, 31(2): 3-13.

[16] SANDVIG J J, MOBASHER B, and BURKE R. Robustness of collaborative recommendation based on association rule mining[C]. Proceedings of the 2007 ACM Conference on Recommender Systems, Minneapolis, 2007: 105–112.

[17] MEHTA B, HOFMANN T, and NEJDL W. Robust collaborative filtering[C]. ACM Conference on Recommender Systems, Recsys, Minneapolis, MN, USA, 2007: 49-56.

[18] CHENG Z and HURLEY N. Robust collaborative recommendation by least trimmed squares matrix factorization[C]. Proceedings of the 22nd IEEE International Conference on Tools with Artificial Intelligence, Arras, France, 2010: 105-112.

[19] YI Huawei and ZHANG Fuzhi. A robust collaborative recommendation algorithm based on-distance and Tukey M-estimator[J]., 2014, 11(9): 119-130. doi: 10.1109/CC.2014.6969776.

[20] 李聰, 駱志剛. 用于魯棒協同推薦的元信息增強變分貝葉斯矩陣分解模型[J]. 自動化學報, 2011, 37(9): 1067-1076.

LI Cong and LUO Zhigang. A metadata-enhanced variational Bayesian matrix factorization model for robust collaborative recommendation[J]., 2011, 37(9): 1067-1076.

[21] 張燕平, 張順, 錢付蘭, 等. 基于用戶聲譽的魯棒協同推薦算法[J]. 自動化學報, 2015, 41(5): 1004-1012. doi: 10.16383/j. aas.2015.c140073.

ZHANG Yanping, ZHANG Shun, QIAN Fulan,. Robust collaborative recommendation algorithm based on user’s reputation[J]., 2015, 41(5): 1004-1012. doi: 10.16383/j.aas.2015.c140073.

[22] 李改, 李磊. 魯棒的單類協同排序算法[J]. 自動化學報, 2015, 41(2): 405-418. doi: 10.16383/j.aas.2015.c140231.

LI Gai and LI Lei. Robust ranking algorithms for one-class collaborative filtering[J]., 2015, 41(2): 405-418. doi: 10.16383/j.aas.2015.c140231.

[23] YI H and ZHANG F. Robust recommendation algorithm based on the identification of suspicious users and matrix factorization[J]., 2014, 11(13): 4769-4777. doi: 10.12733/ JICS20104307.

[24] RICCI F, SHAPIRA B, and ROKACH L. Recommender Systems Handbook[M]. New York, Springer US, 2015: 961-995. doi: 10.1007/978-1-4899-7637-6_28.

[25] DESHPANDE M and KARYPIS G. Item-based top-recommendation algorithms[J]., 2004, 22(1): 143-177.

Robust Collaborative Recommendation Algorithm Based on Fuzzy Kernel Clustering and Support Vector Machine

YI Huawei①②③ZHANG Fuzhi①②Chao Jinbo①②

①(,,066004,)②((),066004)③(,,121001,)

The existing collaborative recommendation algorithms have low robustness against shilling attacks. To solve this problem, a robust collaborative recommendation algorithm is proposed based on Fuzzy Kernel Clustering (FKC) and Support Vector Machine (SVM). Firstly, according to the high correlation characteristic between attack profiles, the FKC method is used to cluster user profiles in high-dimensional feature space, which is the first stage of the attack profile detection. Then, the SVM classifier is used to classify the cluster including attack profiles, which is the second stage of the attack profile detection. Finally, an indicator function is constructed based on the attack detection results to reduce the influence of attack profiles on the recommendation, and it is combined with the matrix factorization technology to devise the corresponding robust collaborative recommendation algorithm. Experimental results show that the proposed algorithm outperforms the existing methods in terms of both recommendation accuracy and robustness.

Robust recommendation algorithm; Shilling attacks;Matrix factorization; Fuzzy Kernel Clustering (FKC); Support Vector Machine (SVM)

TP391; TP311

1009-5896(2017)08-1942-08

10.11999/JEIT161154

2016-10-27；

改回日期：2017-04-19；

2017-05-11

張付志 xjzfz@ysu.edu.cn

國家自然科學基金(61379116)，河北省自然科學基金(F2015203046)，遼寧省教育廳科學研究項目(L2015240)

The National Natural Science Foundation of China (61379116), The Natural Science Foundation of Hebei Province (F2015203046), The Scientific Research Foundation of Liaoning Provincial Education Department (L2015240)

伊華偉：女，1978年生，副教授，研究方向為推薦系統、信息安全.

張付志：男，1964年生，教授，研究方向為智能網絡信息處理、網絡與信息安全、面向服務計算.

巢進波：女，1977年生，講師，研究方向為網絡與信息安全.