吳經(jīng)緯
摘要:互聯(lián)網(wǎng)的快速發(fā)展,每天都產生了大量的信息,信息過載[1-2]十分嚴重,解決該問題的常用方法有兩個,通過搜索引擎查詢自己所需要的信息,這種方式有一個很大的缺點是,很多可能會使得引發(fā)人們興趣的信息被埋沒了,而推薦系統(tǒng)是能很好解決該問題的有效方法,推薦系統(tǒng)常用的方法是協(xié)同過濾算法,本文對協(xié)同過濾算法常見問題做了一些研究。
關鍵詞:推薦系統(tǒng);協(xié)同過濾 ;個性化
中圖分類號:TP311? ? ? ? 文獻標識碼:A? ? ? ? 文章編號:1009-3044(2019)03-0020-02
1前言
我們所處時代的顯著特征是信息大爆炸,每天所產生新的信息量非常驚人,毋庸置疑,身處其中人們跟以前相比更能夠找到自己需要的信息,比如想購買的商品,想觀看的電影等,然而跟不上信息增長的速度。有些用戶喜歡看一些評分高的,還有就是熱門的電影,遺憾的是這些電影是非常有限的,而有很多類似的精彩電影未能呈現(xiàn)在用戶的眼前,既是資源的一種嚴重浪費,又沒能給用戶更好的享受。推薦系統(tǒng)是解決信息過載的很有用的方法,它最大的特點莫過于個性化,根據(jù)用戶產生的歷史數(shù)據(jù),進而分析這些數(shù)據(jù),挖掘出有用的東西,從而給用戶帶來更好的體驗。時常當我們在亞馬遜購物的時候,可能我們買了一本專業(yè)書,過一段時間你會發(fā)現(xiàn),跟這本書相似的書籍,該作者的其他作品也可能會出現(xiàn),還有就是買過這本書的人還買過什么,這方方面面無疑更有可能出現(xiàn)用戶想買的商品,極大地提高了用戶體驗。當我們觀看YouTube視頻的時候也會發(fā)生類似的情況,推薦系統(tǒng)具備發(fā)現(xiàn)用戶隱藏興趣的能力,既能給相關公司帶來巨大的收入,更能豐富人們的生活。本文主要對協(xié)同過濾算法的關鍵技術做了介紹以及其中的一些問題做了相應的分析。
2 基于用戶與物品的協(xié)同過濾算法
基于用戶的協(xié)同過濾算法利用用戶的相關信息,給用戶推薦相關內容或物品,比如當你在YouTube上觀看一些視頻的時候,它會給你推薦與你有相同興趣愛好的用戶他們喜歡的而你未曾看過的內容。而基于物品的協(xié)同過濾是利用物品之間的相似性進而推薦。
基于用戶的協(xié)同過濾算法,實現(xiàn)步驟:
1)找到與目標用戶有著相同興趣的用戶集合;
2)找到與目標用戶有相同興趣愛好的用戶他們喜歡的,而目標用戶未曾聽說過的物品和評分預測[3];
3)生成TOP-N推薦列表;
相似度的度量是該算法的最重要的部分,常見的度量相似度的方法如下:
3改進相似度的思路
3.1熱門電影的影響
以數(shù)據(jù)集MovieLence數(shù)據(jù)集為例,該數(shù)據(jù)集包含943名用戶對1682部電影的10000條評分,而有的用戶看的電影很少,有的用戶看的電影很多,可能他們都看了一些熱門電影,這不能說明兩者的相似度很大,大部分人都會看熱門電影,反而當他們看了一部冷門電影更能說明他們的興趣相似度,所以給用戶u和用戶v共同觀看電影中的熱門電影一個懲罰項,以降低熱門電影[5]對相似度的影響。
3.2共同評分項目數(shù)
由共同評分[6]項目定義的相似度公式
其中[N(j)]是指用戶i評分的數(shù)目,用戶之間共同觀看的電影數(shù)目占自己觀看電影數(shù)目的比例越高,越能夠說明彼此的興趣愛好很相似。
3.3歐幾里德距離
余弦相似度計算相似度有一個很大的問題是能很好地描述用戶們評分的習慣是否一樣,比如a用戶給五部電影評分都為5分,b用戶給這五部電影評分都為1分,如果利用余弦相似度的話,則該相似度為一,而他們的興趣愛好差別很大,如果在此基礎上加入歐幾里得距離,會有更好的效果,歐幾里德距離能夠刻畫出兩個向量的距離,能在某種程度上彌補余弦相似度的缺陷。歐幾里德距離[7]公式(4)
4結束語
本文主要介紹了協(xié)同過濾算法實現(xiàn)的基本過程,以及相似度改進的相關思路,使得推薦的效果更好。協(xié)同過濾算法應用廣泛,已經(jīng)應用到我們生活中的方方面面,當然協(xié)同過濾算法還存在數(shù)據(jù)稀疏[8]性,冷啟動[9],如何更好地實現(xiàn)實時推薦等等諸多問題。協(xié)同過濾算法中的優(yōu)缺點綜合起來值得好好研究。
參考文獻:
[1]? 劉建國,周濤,汪秉宏.個性化推薦系統(tǒng)的研究進展[J].自然科學進展,2009,19(1).
[2] 李建中,劉顯敏.大數(shù)據(jù)的一個重要方面:數(shù)據(jù)可用性[J].計算機研究與發(fā)展,2013(6)
[3] 李改,陳強,李磊. 基于評分預測與排序預測的協(xié)同過濾推薦算法[J].電子學報,2017(12).
[4] 彭石,周志彬,王國軍.基于評分矩陣預填充的協(xié)同過濾算法[J].計算機工程,2013(1).
[5] BreeseJ S,Heckerman D,Kadie C.Empirical Analysis of Predictive Algorithms for Collaborative Filtering[C]//Proceedings of the Fourteenth Conference on Uncertainty in Artificial Intelligence.1998:43-52
[6] 張曉琳,付英姿,褚培肖.杰卡德相似系數(shù)在推薦系統(tǒng)中的應用[J].計算機技術與發(fā)展,2015(4).
[7] 李榮,李明奇,郭文強.基于改進相似度的協(xié)同過濾算法研究[J].計算機科學,2016(12).
[8] 張學勝. 面向數(shù)據(jù)稀疏的協(xié)同過濾推薦算法研究[D].中國科學技術大學,2011.
[9] 孫冬婷,何濤,張福海.推薦系統(tǒng)中的冷啟動問題研究綜述[J].計算機與現(xiàn)代化,2012(5).
【通聯(lián)編輯:唐一東】