馮曉川 王正成
隨著各電子商務系統中用戶和項目數據的指數性增長,如何與用戶建立聯系并實時高效地推薦系統信息,從而實現信息消費者和商家的雙贏局面,越來越受到重視。但目前推薦評價數據稀缺,這嚴重影響到推薦系統的推薦精度,而且已經成為各類電子商務系統發展的瓶頸。要實現有效的個性化推薦必須解決好當前所面臨的兩大主要問題:數據稀疏性和算法有效性。
針對項目的具體屬性評價有效性數據稀疏這一問題,研究人員提出了不少增加有效性數據的方法,如缺省值填充法和預測值填充法等。在一定程度上,前者可以降低數據稀疏性,但沒有考慮到不同的項目和各個用戶之間的差異。后者為根據項目之間的相似性使用預測值填充的方法來初步預測用戶對未評分項目的評分[1],相應的預測方法有Slope One方法[2]、BP神經網絡[3]等。甚至一些學者提出通過刪除一些無效數據或無效評分項目來降低數據稀疏性,這雖然在一定程度上減少了標記稀疏矩陣,但是,被刪除的用戶或項目已經失去了推薦和被推薦的機會[4]。
比較經典傳統的個性化推薦算法是最近鄰協同過濾推薦算法。該算法需要在整個用戶空間搜索目標用戶的最近鄰居,采用一種混合加權預測填充算法。然而在現實中大型的專業電子商務推薦網站,因為用戶的項目評分矩陣稀疏性過高,導致系統項目中被用戶有效評分過的項目數量低于總數的 1%[5]。……