張伊 張軍霞 鄒雨純 徐丹陽 王麗婷


摘 要:當今,公園游玩已經是大眾日常休閑娛樂的普遍選擇,但由于公園種類繁多以及相關信息的冗雜和有效信息的缺乏,游客不易選擇適合自己出行計劃的公園。隨著互聯網的迅猛發展,推薦系統已經滲透到了互聯網的各個方面,協同過濾技術是目前應用最為廣泛和成功的技術。雖然協同過濾推薦技術取得了很大的成功,但傳統的算法本身還存在一些問題,包括數據稀疏問題、冷啟動性問題,這些問題都是協同過濾必須解決的問題。基于此背景,本文對協同過濾推薦算法中的數據稀疏和冷啟動問題做了深入的分析和探討,并將改進的方案運用到一個具有推薦功能的公園個性化推薦系統中,以解決人們日常的休閑娛樂需求。
關鍵詞:協同過濾;公園個性化推薦;數據稀疏;冷啟動
中圖分類號:TP391.3 文獻標識碼:A 文章編號:2096-4706(2018)04-0082-03
Abstract:Today,more and more people tend to play in the park at their leisure time. But the redundancy of the related information and the lack of effective information usually result in the aimlessness and restrictiveness of people's trip. With the rapid development of the internet,recommend system has been penetrated into all parts of the internet,and collaborative filtering is the most widely-used and successful technology currently. However,the traditional algorithm itself has some problems,including scalability problem and cold-start problem which are the problems need to be solved. This paper,based on this background,makes in-depth analysis and exploration in scalability problem and cold-start problem in collaborative filtering recommendation algorithm and applies the improved method to a park personalization recommendation system with a recommend function to solve people’s daily needs of leisure and entertainment.
Keywords:collaborative filtering;park personalization recommendation;data sparsity;cold-start
0 引 言
從公園進入公眾視野,學者們就不斷進行著公園評價體系的研究。2012年9月,周武忠等學者提取世界著名公園的核心成名要素,分別是獨特的地理區位、歷史文化、自然資源、花卉景觀、面積設施,對各個風景名勝區的相關指標進行了解析[1]。2016年,洪鑫晨等學者基于灰色統計理論深入研究了公園聲景,并提出五個主要元素,即水聲景、風聲景、動物聲景、娛樂聲景和人工聲景[2]。這些指標或籠統或具體,因此尚且沒有建立統一的關于公園游覽的評價體系。為解決信息過載問題,個性化推薦系統的研究也應運而生。目前,推薦系統中應用最為廣泛的推薦技術是協同過濾推薦技術[3]。張牧等學者在2011年就已經將混合推薦算法用在了旅游業中,他們研究出能夠在用戶登錄和評估各種旅行目的地和產品之后形成客戶的數據庫,以支持更準確的用戶信息挖掘,采用混合推薦算法,實現個性化旅游推薦[4]。
協同過濾推薦技術雖然取得了巨大的成功,但是暴露出以下問題:
(1)稀疏性問題(sparsity problem)。稀疏性問題是造成協同過濾推薦系統推薦質量下降的一個首要因素[5]。推薦系統往往提供很多項目,但用戶進行過評分的項目不會超過系統總項目數的1%,從而造成評價矩陣數據稀疏,難以找到用戶的最近鄰,從而導致推薦結果不佳。
(2)冷啟動問題(cold-start problem)。冷啟動問題也是協同過濾推薦算法的一個經典問題[6]。冷啟動問題分為新項目問題和新用戶問題。如果一個新項目沒有被評價過,這個項目就得不到推薦[7];同樣如果一個用戶沒有對項目發表評論,那么系統也不會給該用戶推薦項目。不管是項目冷啟動還是用戶冷啟動,都是因為其對應的評分數據為空,無法做出推薦。
本文通過對稀疏性問題和冷啟動問題的深入研究和探討提出了緩解稀疏性問題和冷啟動問題的方法,并將改進方案應用到實際中,構建了基于協同過濾推薦算法的公園個性化推薦系統。
1 基于用戶的協同過濾算法改進
稀疏性問題和冷啟動問題是協同過濾推薦算法中的兩個最典型的問題,也是影響協同過濾推薦精度和使用體驗最主要的問題[8],下文針對這兩個問題提出了相應的解決措施。
1.1 稀疏性問題的改進
由于評分矩陣的稀疏性,項目評分交集將變得很小甚至為空,這樣計算得到的相似度可能很小。但是兩個項目的共同評分集合為空不一定是完全不相似的[9]。
1.1.1 歐式距離
歐氏距離在計算中以用戶之間共同評價的項目為維度,建立多維空間,在由用戶的評價數據組成的坐標系中可定位該用戶的位置,即任意兩個位置之間的距離可以在一定程度上反映兩個用戶喜好的相似程度。歐式距離越小,用戶喜好相似度越大。
在歐式距離計算中,假設目標用戶為x,則需要依次計算該用戶與其他用戶y的距離,用戶x和用戶y共同評價一個公園i,評分分別為Rx,i、Ry,i,兩人共同評價過的公園集為Ix,y,如表1所示。
兩用戶間歐式距離的計算公式為:
本文對歐式距離的計算做出了改進,提高了推薦結果的準確性。改進后的樸素歐式距離公式為:
1.1.2 皮爾遜相關系數
Pearson相關系數在計算兩個向量的相似度時會忽略其平均值的差異。比如,雖然兩個用戶的評分標準不同,但實際上他們具有相同的愛好,因此他們的Pearson相關系數也會比較高。用戶1對三個公園的評分是X=(1,2,3),用戶2的評分是Y=(4,5,6),則X和Y的Pearson相關系數是0.865,相關性較高。如表2所示。
Step1:如果用戶i對公園j有評分,找出用戶i最相似的K個鄰居(采用Pearson相關系數)
Step2:用K個鄰居對公園j的評分加權平均來預測用戶i對公園j的評分。
預測用戶u對公園i的評分ru,i,用戶u對所有公園的平均得分為ru-,用戶x評分的公園集合為Ix,用戶y評分的公園集合為Iy,其并集為Ix,y。
采用Pearson相關系數計算用戶x和y的相似度。如公式(3)(4)所示。
其中U是用戶u的近鄰,z是歸一化因子,在計算用戶u的近鄰時充分考慮了用戶的評分習慣,減去平均值。
1.1.3 余弦相似度
余弦相似度是用向量空間中兩個向量夾角的余弦值作為衡量兩個個體間差異的大小的度量。如果兩個向量夾角接近零,那么這兩個向量就相近。余弦相似度的計算公式為。
余弦值越接近1,就表明夾角越接近0度,兩個向量越相似。
1.2 冷啟動問題的改進
針對冷啟動問題,在公園個性化推薦系統中,我們預先在數據庫里為各個公園設置標簽,通過讓新用戶在注冊后填寫問卷的形式,與數據庫中公園的標簽匹配,為其推薦滿足其需求的公園。若未能完全匹配到公園,系統會優先推薦滿足用戶選擇的公園類型和熱門公園。
2 基于協同過濾推薦算法的公園個性化推薦系統結構
公園個性化推薦系統的數據庫包括以下四個表。
(1)公園信息表:字段有公園編號、公園名、所屬區縣、地址、簡介、門票價格、開放時間、公園等級、公園類型、圖片、標簽。
(2)用戶信息表:字段有用戶編號、用戶名、密碼、郵箱、出生日期、頭像。
(3)用戶行為表:字段有用戶編號、公園編號、用戶評分。
(4)熱門公園表:字段有編號、熱門公園名。
3 實驗
本文以美國明尼蘇達州大學Group Lens研究小組提供的MovieLens l數據集進行實驗,包括672個用戶評價過的9125部電影,每個用戶具有20個以上的評價值,以誤差平均值(簡稱MAE)作為算法的推薦準確度評價標準。假設目標用戶為x,用戶x對電影的評價集為Rxi,通過歐式距離計算找出相似用戶(即較近鄰居),對目標用戶的做出電影評價的預測集為Rxi′,評價電影數為m,則MAE等于:
MAE的值越小,則預測的評分結果越準確,即算法的推薦準確度越高。[10]
比較余弦相似度、改進的余弦相似度、皮爾森相似度、改進的皮爾森相似度,得到下表所示不同鄰居數對應的MAE的值,如表3所示。
圖1為不同算法的MAE隨最近鄰居數變化而變動的曲線。可見改進的皮爾森相似度算法有較好的性能表現。
4 結 論
本文以協同過濾為研究對象,針對傳統算法中出現稀疏性問題和冷啟動問題進行了深入的研究,分析和探討了問題產生的原因,接著針對引發稀疏性問題和冷啟動問題采取了相應的解決辦法:通過對用戶行為設置權重并選取均值計算偏差值和通過給公園設置標簽讓新用戶進行答題匹配推薦來解決冷啟動問題。最后基于改進的算法構建了一個公園個性化推薦系統,將算法成功運用到實際生活中。實驗證明改進的算法在一定程度上解決了協同過濾存在的問題。
參考文獻:
[1] 周武忠,林寶榮,周康,等.世界公園評價指標體系初探 [J].中國名城,2012(9):34-38.
[2] HONG X C,LIN Z Y,ZHANG W,et al. Construction of a Comprehensive Soundscape Evaluation System in Forest Parks Based on Grey Statistical Theory [J]. Journal of Landscape Research,2016,8(6):25-28.
[3] 郭艷紅.推薦系統的協同過濾算法與應用研究 [D].大連:大連理工大學,2008.
[4] MU Z,JIE M,JING L,et al. Research on Personalized Recommendation Technology for Tourism Industry-A Perspective of a System Framework Design [J]. Advanced Materials Research,2011:1276-1280.
[5] Badrul Munir Sarwar. Sparsity,Scalability and Distribution in Recommender Systems [D]. Ph. Ddissertation,University of Minisota,2001:33-5813.
[6] 趙寧,王學軍.推薦系統中協同過濾技術的研究 [J].河北省科學院學報,2013,30(2):62-65.
[7] ScheinA.,PopescnlA.,UngarL.,and PennockD.,Methods and metrics for cold-start recommendations,Proceedings of the 25th annual international ACMSIGIR conference on Research and development in information retrieval,2002:112-225.
[8] David Goldberg,David Nichols,Brian M. Oki,et al. Using collaborative filtering to weave an information tapestry [J]. Communications of the ACM,1992,35(12):61-70.
[9] 季昀.基于協同過濾推薦算法電影網站的構建 [D].哈爾濱:哈爾濱工業大學,2009.
[10] 張莉,秦桃,滕丕強.一種改進的基于用戶聚類的協同過濾算法 [J].情報科學,2014,32(10):24-27+32.
作者簡介:張伊(1996.08-),女,漢族,北京人,本科。研究方向:信息管理與信息系統;張軍霞(1997.01-),女,漢族,河南人,本科。研究方向:信息管理與信息系統;鄒雨純(1996.02-),女,漢族,四川人,本科。研究方向:信息管理與信息系統;徐丹陽(1997.03-),女,漢族,河南人,本科。研究方向:信息管理與信息系統;王麗婷(1997.11-),女,漢族,河北人,本科。研究方向:信息管理與信息系統。