999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合協同過濾與用戶偏好的旅游組推薦方法

2018-11-05 09:13:10陳君同古天龍常亮賓辰忠梁聰
智能系統學報 2018年6期
關鍵詞:滿意度融合用戶

陳君同,古天龍,常亮,賓辰忠,梁聰

隨著信息技術和互聯網的發展,網絡正成為人們規劃旅游的重要信息來源[1]。人們逐漸從信息匱乏的時代走入了大數據的時代,在海量數據的背景下,如何快速找到對用戶最有價值的信息,顯得越來越重要,推薦系統便應運而生[2]。

以往的推薦系統主要關注于單個用戶,在電視節目[3]、音樂、電影、新聞等方面取得了很好的效果,但是對于旅游領域還沒有給出完善的推薦方案[4]。首先,和電影的數據相比,旅游評分的數據難以獲得;其次,用戶的評分矩陣比較稀疏;最后,旅游通常是多個用戶以群組的形式參與的,因此,結合所有成員偏好的組推薦系統將成為旅游推薦領域的一個研究熱點[5]?;趨f同過濾的組推薦系統中,在對單個用戶的預測階段,使用傳統的協同過濾算法計算用戶(項目)之間的相似度時,沒有考慮用戶共同評分的項目數和評分關聯程度對相似性造成的影響,例如,兩個興趣差別較大的游客,可能同時感興趣的景點比較少,當用戶的共同評分比較少時,傳統的協同過濾算法便無法準確地度量用戶之間相似性[6];在群組成員預測結果的融合階段,效果比較好的偏好融合策略中有均值策略和最小痛苦策略[7],均值策略把成員對項目的平均評分作為群組的得分,然而沒有考慮少數成員的不滿意度,最小痛苦策略選擇成員對項目最小的評分作為群組的得分,卻忽略了多數成員的偏好。

本文在組推薦過程中,首先改進了協同過濾算法,它結合相似性影響因子和關聯性因子,以解決旅游推薦中面臨的數據稀疏性問題;其次在組偏好建模階段,提出了一種新的融合策略——滿意度平衡策略,它同時考慮了組內成員的局部滿意度和整體滿意度;最后,通過在旅游數據集上的實驗分析,驗證了所改進的方法能夠有效地提高推薦的質量。

1 相關工作

1.1 協同過濾算法

協同過濾算法是電子商務推薦領域中一種最為成功的推薦算法[8]。它不需要用戶主動提供個人需求信息,而是根據他們已有的評分記錄,獲得用戶的潛在偏好。這種推薦算法能否取得良好的效果,很大程度上取決于用戶的評分數據。

1.2 組推薦關鍵技術

組推薦關鍵技術包括融合方法和融合策略。融合方法分為模型融合和推薦融合。模型融合根據群組成員的用戶偏好模型融合成群組偏好模型,然后基于群組偏好模型生成組推薦;推薦融合先根據傳統算法獲得每個用戶的預測評分后,再根據預測評分進行融合,也可以融合推薦項目列表得到群組的推薦列表[5,7]。兩種融合方法各有自己的不足:模型融合易受到評分稀疏性的影響,推薦融合忽略了群組成員之間的交互[5]。

組推薦系統中常用的融合策略有均值策略、最小痛苦策略、最開心策略[9]。文獻[10]通過一系列實驗評估,指出乘法策略、均值策略、最小痛苦策略以及痛苦避免均值策略較好。文獻[7]通過對組推薦系統的文獻研究分析,發現使用最普遍的策略有均值策略、痛苦避免均值策略及最小痛苦策略,但這些策略對于不同特征的群組適用性也不盡相同。

2 基于協同過濾的組推薦

協同過濾算法作為一種基本的方法常常被應用于組推薦系統中?;趨f同過濾的組推薦包括4個階段:相似性度量、選擇鄰居、預測評分、確定推薦項目[11]。

首先通過評分矩陣中用戶的評分計算兩兩用戶(項目)的相似度,然后根據K近鄰的方法預測當前用戶對未知項目的評分,最后通過融合策略結合所有組內成員的偏好生成組推薦列表。圖1為本文中用到的基于協同過濾的組推薦整體框架。

圖1 基于協同過濾的組推薦整體框架Fig. 1 The whole framework of group recommendation based on collaborative filtering

其中,協同過濾算法可以分為基于用戶的最近鄰推薦(user-based nearest neighbor recommendation)和基于項目的最近鄰推薦(item-based nearest neighbor recommendation)。

2.1 基于用戶的最近鄰推薦

基于用戶的最近鄰推薦假設當前用戶會喜歡與之有相似偏好的用戶喜歡的項目。目前比較常用的相似度計算方法有余弦相似度(cosine similarity)、皮爾森相關相似度(Pearson correlation coefficient)等[12-13]。本文主要選用相似度定義如式(1)所示。

2.2 基于項目的最近鄰推薦

基于項目的最近鄰利用用戶對項目的評分來計算相似度。本文選用的相似度如式(3)所示。

2.3 數據稀疏性問題及算法改進

相似度是協同過濾中的重要指標,決定著預測評分的好壞,同時由于在旅游領域,存在用戶自身的綜合因素使得旅游推薦不同于以往電子商務領域的推薦。例如,用戶可以每月看一場電影,但卻很少有人每年旅行很多次。因此在旅游推薦中,不可避免地會存在數據的稀疏性問題。傳統的相似度計算方法在評分數據豐富的情況下可以給出很好的效果,但是在旅游推薦中,傳統的推薦方法在計算用戶(項目)間的相似度時,可能會忽略用戶評分數據的稀疏程度對相似度計算結果造成的影響。如表1所示(0表示沒有評分),以基于用戶的相似度為例:

1)用戶A和用戶B共同評分的景點數量多于用戶C和D共同評分的景點數量,所以用戶A和用戶B的相似度應該比用戶C和用戶D的相似度更高。然而,用戶A和B的余弦相似度計算結果為0.838 1,用戶C和D的相似度結果為0.910 4(余弦相似度的范圍為[0,1])。顯然,傳統的相似度不能很好地計算他們之間的相似度。為了解決這一問題,本文利用用戶對景點共同評分的數目與用戶對景點評分總數目的關系來調整用戶之間的相似性,本文稱之為相似性影響因子,定義為

表 1 用戶評分矩陣Table 1 User rating matrix

2)用戶E和用戶F根據余弦相似度計算結果為0.854 2,表示他們的偏好很相似;根據皮爾森和修正余弦相似度計算結果為?1,表示他們的偏好完全相反(相似度的范圍為[?1,1])。實際上他們的相似度不應該完全相反,也不應該很相似,而是介于兩者之間。隨著用戶和評分矩陣規模的增加,類似這種情況也會影響推薦結果的準確性。為解決此類問題,本文利用用戶評分的關聯性來調整用戶之間的相似性,用戶的共同評分向量越接近,相似度的值可能越大,反之相似度的值可能越小。本文稱之為關聯性因子,定義為

相似度的計算是協同過濾中最重要的一步。旅游領域面臨的數據稀疏性問題,使得原有的相似度方法很難準確度量用戶之間的相似性。這是因為在用戶評分數據稀疏的情況下,傳統的方法主要考慮用戶共同評分之間的相似性,卻忽略了用戶在個別項目上的評分是相似的而在其他項目上不一定相似的現象,用戶只有在比較多的項目上評分相似時,他們的偏好才能認為是相似的;此外,傳統的相似度無法準確區分某些相似度相同但偏好差別很大的用戶之間的相似性。

同理,基于項目相似度的情況類似。

2.4 修正的偏好融合策略

在個人用戶對項目預測評分的基礎上,融合策略可以將組內成員的偏好進行融合,從而得到整個組對于項目的得分,根據得分的大小生成最終的推薦列表。由于群組中成員的偏好可能相同,也可能不同,此時單個成員的偏好不能作為整個組的偏好,因此如何獲取群組成員的共同偏好,緩解各成員間的偏好沖突,也是組推薦要解決的問題[7]。目前效果比較好的偏好融合策略有均值策略(average)和最小痛苦策略(least misery)。均值策略選擇成員對項目評分的平均值作為群組對于項目的得分,可以表示為

最小痛苦策略選擇成員對項目最小的評分作為群組對于項目的得分,可以表示為

均值策略只考慮群組成員的平均偏好程度,但可能忽略了少數成員的不滿意度;最小痛苦策略根據組內成員對項目的最小評分做參考,卻可能會忽略多數人的感受。如表2所示,根據均值策略,景點1和景點3對于包含用戶1、2、3和用戶4的群組是等價的,但對于景點1而言,均值策略顯然沒有考慮用戶4的感受,相比較來說,選擇景點3可能比景點1更好一些;根據最小痛苦策略,景點3、4和景點5對于群組是等價的,相對于景點3而言,組內成員對景點4或景點5更感興趣,此時少數人可能服從多數,組成員很可能會優先選擇景點5,最小痛苦策略只考慮了成員的最小滿意度卻忽略了大多數人的偏好。

為此,本文考慮了以上兩種策略的不足之處,定義一種修正的方法來平衡組成員局部滿意度與整體滿意度之間的關系,本文稱之為滿意度平衡策略(satisfaction balance),群組對景點i的得分用滿意度平衡策略表示為,定義如式(11)所示。

表 2 不同融合策略示例Table 2 Different aggregation strategies examples

3 實驗方案設計

3.1 數據獲取

目前旅游推薦領域還沒有公開實驗數據集,國內外學術研究使用的數據主要來自旅游網站或問卷的方式。采用調查問卷的方式獲取數據可能會存在一些不可避免的缺點:如果設計的問題太多往往會讓用戶失去耐心,太少反而不會獲取足夠的信息;可能會涉及到用戶隱私問題;用戶還可能會存在回憶誤差。本文數據集由攜程網(http://www.ctrip.com/)爬取桂林市的景點信息整理獲得,包括用戶ID,景點ID及用戶對景點的評分。最初獲取的數據集包括18 354個用戶對255個景點的48 473條評分,評分范圍為1~5分。

3.2 數據預處理

為了方便實驗,對獲取的數據進行以下處理:

刪除用戶重復的評分記錄;刪除沒有用戶評分的景點;刪除評分記錄小于3條的用戶。最終得到的旅游數據集如表3所示。

表 3 實驗數據Table 3 Experimental dataset

3.3 電影數據集

實驗中除了旅游數據集之外,還采用了目前在衡量推薦算法中常用的由美國Minnesota大學Grouplens項目提供的Movielens數據集。如表4所示,該數據集由943個用戶對1 682部電影的100 000條評分組成,每個用戶的評分記錄不少于20條,評分范圍為1~5分。

表 4 實驗數據Table 4 Experimental dataset

3.4 評價標準

平均絕對誤差[16](mean absolute error,MAE)和均方根誤差[8](root-mean-square error,RMSE)是衡量預測評分和真實評分之間相近程度的評價標準,本文使用MAE和RMSE對個人預測結果的準確性進行檢驗。如式(12)、(13)所示。

歸一化折損累計增益(normalized discounted cumulative gain,nDCG)是信息檢索中一種衡量推薦列表準確率的評價指標[5,17],本文使用nDCG對組推薦的結果進行檢驗。設為群組推薦項目的排名列表,則用戶的DCG和nDCG定義如式(14)、(15)所示:

4 實驗結果

4.1 傳統的協同過濾和改進的方法比較

圖2和圖3分別給出了2.1節中介紹的基于用戶的協同過濾(UBCF)和2.2節中介紹的基于項目的協同過濾(IBCF)、通過引入相似性影響因子與關聯性因子改進的基于用戶的協同過濾(imp-UBCF)和改進的基于項目的協同過濾(imp-IBCF)的折線圖。隨機選擇旅游數據集中80%的評分記錄作為訓練集,20%的評分記錄作為測試集,經多次實驗,取=0,觀察鄰居數目K從5~30每次增加5時,各個推薦算法的性能。圖2、3中可以看出,在相同鄰居數目的情況下,無論是使用基于用戶的協同過濾還是基于項目的協同過濾預測評分,基于改進方法的MAE和RMSE均低于傳統的方法,表明改進的方法在計算用戶或項目之間的相似性時可以起到更好的效果,進而提高用戶對項目預測評分的準確性。這是因為傳統的相似度方法(比如基于用戶的相似度)在評分矩陣稀疏的情況下,無法準確度量用戶共同評分的景點數量與用戶之間相似度的關系,而且在一定程度上也忽略了用戶對于不同景點的興趣差異。

圖2 不同推薦方法下的MAEFig. 2 MAE for different recommended methods

圖3 不同推薦方法下的RMSEFig. 3 RMSE for different recommended methods

4.2 改進的協同過濾方法檢驗

為了驗證改進的協同過濾方法在群組中的有效性,隨機選擇旅游數據集中的3人、4人、6人組成3類群組,重復進行10次實驗,取鄰居數目K=30。本節使用基于用戶的協同過濾和改進的基于用戶的協同過濾方法對每一個群組中所有用戶的預測評分進行檢驗,取10次實驗的平均值為最后結果,如圖4所示,群組中整體的MAE低于傳統的方法,表明改進的方法在給群組中所有成員對項目進行預測評分時,計算結果更加準確。

圖4 不同推薦方法下的MAEFig. 4 MAE for different recommended methods

4.3 滿意度平衡策略檢驗

4.3.1 偏好融合策略

在組偏好融合階段,常見的融合策略有均值策略(average)、最小痛苦策略(least misery)、乘法策略(multiplicative)[10]、最開心策略(most pleasure)[5]、痛苦避免均值策略(average without misery)[1]。其中,乘法策略通過將成員對項目的評分做乘法得到的結果作為整個組的得分,然后根據得分按照大小排序生成推薦列表;最開心策略選擇成員對項目的最高評分作為群組的得分;痛苦避免均值策略在排除單個成員評分低于某個閾值的項目后再根據成員對項目的平均評分作為群組的得分。

4.3.2 偏好融合策略對比與分析

在使用改進的協同過濾方法對群組成員預測評分的基礎上,本節實驗在旅游數據集上比較了本文提出的滿意度平衡策略(satisfaction balance)與常用的融合策略的實驗結果。由圖5可以看出,在群組的規模不同時,修正的偏好融合策略(satisfaction balance)表現的效果比較好。這是因為least misery是用少數成員的意見決定整個組的選擇,推薦的項目可能不是群組中所有用戶最喜歡的;average在給群組推薦項目時,只考慮了所有成員的整體滿意度,卻忽略了組內不同成員的感受;multiplicative是用所有成員的評分乘積作為群組結果,當某些成員之間的偏好差別較大時,群組的得分也可能比較高;most pleasure只考慮了成員的最大滿意度;而average without misery雖然排除了成員評分較小的項目,但在其他項目的推薦上仍然存在因少數成員的相對不滿意度使得群組得分較高的情況;而本文修正的融合策略考慮了用戶的整體滿意度和局部滿意度之間的關系,使得推薦的項目能夠更好地反應出整個群組的偏好,推薦結果更加準確。

圖5 不同融合策略下的nDCGFig. 5 nDCG for different aggregation strategies

4.4 不同數據集下的實驗結果

圖6 為在Movielens數據集上,UBCF、IBCF、imp-UBCF和imp-IBCF的折線圖??梢钥闯?,imp-IBCF在Movielens數據集上提高的效果最為明顯,和UBCF、IBCF相比,分別提高了5%和6.7%,同樣驗證了本文所提方法的有效性。

圖6 不同推薦方法下的MAEFig. 6 MAE for different recommended methods

5 結束語

本文針對組推薦系統在旅游推薦領域面臨的數據稀疏性問題,提出一種改進的協同過濾方法來提高對單個用戶預測評分的準確性;然后針對現有的融合策略——均值策略和最小痛苦策略忽略了局部滿意度或整體滿意度的問題進行了修正,修正的偏好融合策略同時考慮了兩者的不足之處。通過不同的實驗證明,本文提出的方法在一定程度上提高了預測的準確性和推薦的準確率。未來的工作是收集旅游領域的文本信息,對用戶進行廣度的偏好分析,進一步提高推薦的效率。

猜你喜歡
滿意度融合用戶
多感謝,生活滿意度高
工會博覽(2023年3期)2023-04-06 15:52:34
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
從創新出發,與高考數列相遇、融合
16城市公共服務滿意度排行
小康(2021年7期)2021-03-15 05:29:03
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
淺談如何提升脫貧攻堅滿意度
活力(2019年19期)2020-01-06 07:34:38
明天村里調查滿意度
雜文月刊(2019年15期)2019-09-26 00:53:54
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
主站蜘蛛池模板: 亚洲综合激情另类专区| 国产微拍一区二区三区四区| 亚洲精品自产拍在线观看APP| AⅤ色综合久久天堂AV色综合| yjizz国产在线视频网| 中国美女**毛片录像在线| 性激烈欧美三级在线播放| 久久精品波多野结衣| 欧美日韩中文字幕在线| 中文字幕2区| 欧美成人第一页| 久草美女视频| 国产人在线成免费视频| 伊人久久综在合线亚洲2019| 亚洲一区色| 欧美日韩第三页| 国产制服丝袜91在线| 国产一区免费在线观看| 免费无码网站| 最新亚洲av女人的天堂| 亚洲一区无码在线| 久久天天躁狠狠躁夜夜躁| 国产在线高清一级毛片| 一本一本大道香蕉久在线播放| 国产视频大全| 国产97公开成人免费视频| 国产丝袜精品| 精品久久久久久成人AV| 国产99欧美精品久久精品久久| 国产福利一区视频| 噜噜噜久久| 久久99国产视频| 日韩精品久久无码中文字幕色欲| 国产99精品久久| 国产精品真实对白精彩久久 | 伊人精品成人久久综合| 深夜福利视频一区二区| 欧美精品伊人久久| 亚洲国产成人精品无码区性色| 亚洲伦理一区二区| 精品少妇三级亚洲| 久久a毛片| 精品综合久久久久久97超人该| 啪啪永久免费av| 国产高潮视频在线观看| 久热精品免费| 亚洲色图在线观看| 国产激情无码一区二区APP| 国产精品久久久久久久久| 久久精品视频一| 精品视频一区二区观看| 黄色成年视频| 最新痴汉在线无码AV| 国产人人乐人人爱| 亚洲天堂自拍| 国产成人一区在线播放| 久久综合伊人 六十路| 在线欧美a| 美女毛片在线| 国产精品白浆在线播放| 国产精品主播| 国产女人在线观看| 亚洲美女久久| 亚洲第一网站男人都懂| 国产精品综合色区在线观看| 国产综合网站| 91免费精品国偷自产在线在线| 999国内精品久久免费视频| 欧美日韩中文国产| 亚洲高清在线播放| 亚洲美女高潮久久久久久久| 久久男人视频| 一区二区日韩国产精久久| 在线视频一区二区三区不卡| 日韩国产亚洲一区二区在线观看| 毛片手机在线看| 成人免费网站久久久| 色偷偷男人的天堂亚洲av| 欧美精品一二三区| 国产成人亚洲精品色欲AV| 在线国产欧美| 欧美一区二区丝袜高跟鞋|