吳 祺 聶文惠
(江蘇大學計算機與通信工程學院 鎮江 212000)
隨著社會的發展和網絡技術的不斷進步,信息數據呈現爆發式增長,傳統的協同過濾推薦算法已經無法滿足人們日常的需求,人們無法從海量的數據中快速獲得自己想要的信息,即產生“信息過載”問題[1]。如何更準確更快速地幫助用戶獲取有效信息成為當前研究的熱點,個性化推薦也就應運而生。
協同過濾算法[2]是目前推薦系統中應用最為廣泛最為成熟的算法之一,它的核心思想是通過尋找擁有相同興趣愛好的用戶繼而通過相似用戶的興趣愛好為該用戶推薦可能感興趣的信息。隨著用戶數量和物品數量呈現指數型增長,用戶對物品的評分數據變得稀疏,傳統的協同過濾算法在處理稀疏矩陣時推薦準確率較低[3]。
用戶聚類是通過聚類算法將用戶對象的集合分成由類似對象組成的多個類的過程。K-means算法是常見的聚類算法之一,其將具有相同屬性特征的用戶歸為一類[4],這樣一方面使得無歷史行為的新用戶獲得推薦,即解決“冷啟動”問題,另一方面降低了矩陣稀疏程度和矩陣規模,提高隱語義模型預測的準確度。
針對數據稀疏性問題,國內外學者提出多種解決方法。Su、Khoshgoftaar 等[5]用線性回歸、均值填補和貝葉斯分類等多種方法以緩解用戶-評分矩陣的稀疏問題,但使用均值填補稀疏矩陣給用戶評分預測帶來較大的誤差;Hao、Li等[6]提出利用用戶評分偏好相似性和特征矩陣來預測商品評分,該方法當數據非常稀疏時,算法的穩定性和準確性下降。……