999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

協同過濾推薦算法在大數據旅游推薦系統中的應用

2024-07-22 00:00:00孫俊玲王高平胡永坤
電腦知識與技術 2024年16期

關鍵詞: 基于用戶的協同過濾;基于項目的協同過濾;旅游推薦服務;爬蟲;旅游推薦系統

0 引言

隨著“互聯網+”的快速發展,旅游行業的互聯網化已經成為一種不可忽略的趨勢。伴隨著消費水平的上升,旅游市場亦在持續擴展,旅游數據也在不斷增加,同時旅游產品的種類和數量也在快速增加。這給用戶在選擇旅游目的地、產品和服務時帶來了巨大的挑戰。對于旅游服務提供商而言,如何利用人工智能推薦算法結合大數據,為用戶提供個性化、高效的旅游推薦服務,以吸引更多用戶并提高用戶留存率和轉化率[1],是提升競爭力的關鍵。

1 基于大數據的旅游推薦系統

基于大數據的旅游推薦系統是一個復雜的系統,涵蓋了多個方面。該系統需要收集、處理和分析大量的旅游景點和用戶數據,以提供有效的信息和決策支持。其主要任務和功能包括:

1) 利用網絡爬蟲技術收集數據。從互聯網上大規模爬取和篩選旅游景點信息,然后進行清洗和標準化處理。這一步驟確保了數據的質量和一致性,為后續分析和推薦的準確性奠定基礎。

2) 用戶個性化推薦。根據用戶的興趣及使用情況,采用推薦算法,為用戶提供最適合其需求的旅游服務,從而提升服務的精確度和用戶滿意度。

3) 數據的可視化與分析。利用數據可視化技術,將豐富的信息轉化為圖表與圖像,幫助用戶更好地了解當前市場趨勢、旅游景點的熱度和價格。見圖1。

通過這樣的系統架構,旅游推薦服務能夠更加智能化和高效地滿足用戶的需求,同時也為旅游服務提供商帶來了更多的客戶和業務增長。

2 數據爬取與清洗

2.1 數據爬取

使用WebMagic爬蟲從互聯網上爬取景點信息記錄,通過爬蟲工具從各旅游網站收集景點信息數據。這些數據包括景點名稱、等級、地址、介紹、熱度、價格、月銷量、經緯度、景點圖片、省份、城市、行政區等詳細信息。通過預處理和清洗操作,對收集的數據進行整理,形成一個全面的旅游大數據庫。

爬蟲流程如下:1) 使用requests 庫發送HTTP 請求。2) 獲取數據,服務器響應后,保存整個頁面信息。3) 解析HTML頁面,查找并提取所需數據。4) 存儲數據,將獲取的數據保存到文件中。

2.2 數據清洗

數據清洗的主要工作包括:1) 數據清理。刪除無關數據或錯誤數據,處理缺失值。2) 數據轉換。將數據轉換為適合計算和分析的格式或形式。3) 特征提取。將數據轉化為適用的向量等。

為了確保結果的準確性和可靠性,所收集的數據必須經過數據清理和標準化處理,以確保數據的完整性和一致性。具體工作流程包括:1) 讀取數據。2) 查找缺失值。3) 刪除缺失值很多的數據。4) 填補缺失值。5) 檢驗和更正錯誤數據。6) 刪除重復數據。7) 保存數據。

對旅游景點的指標數據進行篩選,過濾掉不符合數值規范的數據。主要流程如下:

1) 設置指標范圍字典。2) 遍歷每個旅游景點數據,對每個景點信息遍歷每個指標。3) 判斷數值是否符合規范,過濾不符合標準的數據。4) 將符合標準的數據加入過濾后的數據列表中。

清洗后的數據需要進行標準化,目的是將不同尺度的數據縮放到同一維度。使用MinMaxScaler函數進行數據縮放,將數據縮放到[0,1]的范圍內,這樣方便后續的加權計算和相似度計算。

3 推薦算法

3.1 基于用戶的協同推薦[2]

重點利用用戶的歷史行為數據,通過尋找與用戶興趣相似的其他用戶的行為來生成推薦。這種方法的核心思想是“人以群分”,即認為具有相似興趣的用戶會喜歡相似的物品。因此,它傾向于推薦那些與用戶歷史行為相似的其他用戶喜歡的物品。這種推薦方法的好處是可以充分利用用戶的歷史行為數據,為用戶提供個性化的推薦,而且對于新物品也有一定的推薦能力。然而,它也存在一些問題,比如可能會受到數據稀疏性和冷啟動問題的影響,即對于新用戶或者新物品,由于缺乏足夠的歷史行為數據,很難進行準確的推薦。

具體過程:1) 初始化相關參數,包括找到與目標用戶興趣相似用戶數(self.n_sim_user) 和為其推薦的景點數(self.n_rec_movie) 。2) 讀入數據集文件并將其劃分為訓練集和測試集。3) 計算用戶之間的相似度矩陣。首先,將數據集中的每個景點與看過該景點的用戶建立倒排索引表[3];然后,對于每一對用戶,計算它們在共同觀看景點的數量,進而計算這些用戶之間的相似性;對于目標用戶,可以根據上述方法找到最相似的K個用戶,并根據這些用戶對未觀看過的景點進行推薦。最終,返回N個值得推薦的景點。

根據推薦結果對推薦效果進行評價,推薦系統的效果評價主要通過以下指標進行:1) 準確率(Preci? sion) 。表示推薦的景點中有多少是用戶實際感興趣的景點。2) 召回率(Recall) 。表示用戶實際感興趣的景點中有多少被推薦出來。3) 覆蓋率(Coverage) 。表示推薦算法能夠覆蓋多少不同的景點。

這些指標能夠全面反映推薦系統的性能和用戶滿意度,幫助持續優化推薦模型,提升用戶體驗。

3.2 基于物品的協同過濾推薦

基于物品的協同過濾推薦主要側重利用用戶的歷史行為數據,通過計算物品之間的相似度來發現用戶的潛在興趣。它傾向于推薦與用戶之前喜歡過的相似物品,因此在推薦結果上可能具有較高的個性化和準確性。然而,這種推薦方法可能存在一定的局限性,例如它可能會導致信息閉環,即用戶只會接觸到與自己此前興趣相似的物品,缺乏多樣性。此外,對于新物品或者用戶行為數據稀疏的情況下,基于物品的協同過濾推薦的效果可能會受到影響。

基于物品的推薦算法通過計算景點之間的相似度,為目標用戶推薦一些可能感興趣的景點。具體算法過程如下:

1) 初始化參數。包括要找到的相似景點數量和要推薦的景點數量等。2) get_dataset。從文件中讀取數據集,將數據集劃分為訓練集和測試集。3) lcoaalcd__mfiloev。ie_讀sim取。文計件算景并點返之回間文的件相的似度每。一5)行 re。com4?) mend。為目標用戶推薦景點。6) evaluate。根據準確率、召回率和覆蓋率對推薦進行評估。

其中,calc_movie_sim方法[4]是該算法的核心,它通過計算訓練集中每一對景點之間的共同出現次數,使用余弦相似度得到景點之間的相似度。即,兩者之間的相似度等于它們共同被用戶評價的次數除以它們分別被評價次數的乘積。在相似度計算之前,該方法還計算了每個景點的受歡迎程度,以便在相似度計算中對景點的受歡迎程度進行加權。

recommend方法則是用于為目標用戶推薦景點的方法。它根據目標用戶已經看過的景點,找到與這些景點相似的K個景點,并從中選出評分最高的N個景點進行推薦。

evaluate方法用于評估該算法的準確率、召回率和覆蓋率[5]。

3.3 相似度計算與評分公式

推薦算法的核心在于相似度的計算。根據計算特征及數學原理,相似度計算方法大致分為兩類:一類是基于相似度指標,例如斯皮爾曼的相關性;另一類是基于距離指標,例如歐氏距離、曼哈頓距離等。斯皮爾曼的相關性見公式(1) 。

式中,x 和y 表示兩個向量,xi 和yi是向量x 和y 的分量,n是向量的維數。

余弦相似度既不屬于基于相似度指標的方法,也不完全屬于基于距離指標的方法。它通過測量兩個向量的夾角的余弦值來評估它們之間的相似程度。余弦相似度的取值范圍為-1~1,數值越接近1表示兩個向量越相似,數值越接近-1表示兩個向量越不相似,數值接近0表示兩個向量之間沒有明顯的相似性。余弦相似度特別適用于處理高維數據,因為它對向量的長度不敏感,只關注其方向。余弦相似度[6]的計算公式如下:

式中:x 和y 表示兩個向量,x·y 表示向量x 和向量y 的點積,||x||和||y||表示向量x 和向量y 的模長。xi和yi為向量x 和y 的分量,n為向量的維數。

協同過濾的評分公式是基于用戶的歷史行為數據和其他用戶的行為數據來預測用戶對商品的評分。通過計算用戶之間或商品之間的相似度或相關系數,可以找到與用戶興趣相似的其他用戶或商品,并利用這些相似用戶或商品的行為數據來預測目標用戶對目標商品的評分。這種方法可以幫助用戶發現他們可能感興趣的新商品或內容。加權預測評分公式[7]見公式(3) 。

式中:n 為影響因素的數量, Wkb為b 項目在k 因素中的權重,rka是a 項目在第k個因素的值,rib是i 用戶對b 項目的評分。

4 實驗結果對比分析

首先,將上述兩種算法:基于物品(ItemCF) 的推薦算法和基于用戶(UserCF) 的推薦算法,在公開的Mov? ielens 1M數據集上進行實驗驗證。ml-1m是推薦領域常用的測試數據集,很多有效的研究成果都是基于該數據集進行驗證的。該數據集包含943 個用戶、1 682個項目和100 000條評分。下載后的數據分別是users.dat、movies.dat、ratings.dat,另外還需要links和tags文件。

實驗結果統計表如表1所示:

根據實驗結果,可以看到ItemCF和UserCF的P、R值。P代表Precision,即正確結果占所有預測結果的比例。在此結果中,ItemCF 的P 值為0.261 4,UserCF的P值為0.281 8。這意味著在所有預測項目中,ItemCF 和UserCF 正確預測的項目占比分別為26.14%和28.18%。R代表Recall,表示預測正確的項目占所有真實項目的比例。在此結果中,ItemCF的R 值為0.0705,UserCF的R值為0.075 8。這意味著在所有真實項目中,ItemCF和UserCF正確預測的項目占比分別為7.05%和7.58%。

從Precision(P) 和Recall(R) 指標來看,UserCF 模型的性能略高于ItemCF模型。這意味著UserCF模型能夠更準確地預測用戶會喜歡的物品,并且能夠更全面地推薦物品。然而,從Coverage指標來看,ItemCF 模型的性能略高于UserCF模型。這意味著ItemCF模型能夠覆蓋更多的物品,從而為用戶提供更多的選擇。

綜合考慮這些指標,如果在進行景點推薦時更注重推薦的準確性和全面性,則UserCF模型可能更適合;如果注重推薦的覆蓋率,那么ItemCF模型可能更適合。在推薦系統中,使用UserCF模型對景點進行推薦,可以找到與目標用戶興趣相似的4個用戶,并為其推薦4個景點。通過讀取文件獲取“用戶-景點”數據,通過訓練集和測試集計算用戶的相似度,并將結果保存在用戶相似度矩陣中。在推薦系統中,同樣使用ItemCF模型對旅游景點進行推薦;綜合這兩種推薦方法,使用ItemCF推薦模型可以提高推薦景點的覆蓋率,而使用UserCF模型則可以提高推薦景點的準確性和全面性。綜合這兩種推薦方法可以得到使用戶更滿意的推薦結果。

5 結論

本文主要介紹了兩種協同過濾推薦算法,以及算法的思想和代碼實現。在公開數據集上對兩種算法進行了測試,并使用訓練集和測試集進行評估,通過準確率、召回率和覆蓋率三個指標來評估推薦結果。實驗結果表明,UserCF模型能夠更準確地預測用戶會喜歡的物品,并且能夠更全面地推薦物品,獲得了較高的準確率和召回率,但覆蓋率略低。ItemCF模型能夠覆蓋更多的物品,從而為用戶提供更多選擇。

主站蜘蛛池模板: 国产9191精品免费观看| 亚洲日本中文综合在线| 欧美日韩福利| 日本成人在线不卡视频| 欧美黄色网站在线看| 美女国产在线| 久久96热在精品国产高清 | 欧美精品二区| 国产在线无码av完整版在线观看| 久久亚洲欧美综合| 国产精品女同一区三区五区| 久久伊伊香蕉综合精品| 国产精品成人一区二区| 国产无码制服丝袜| 国产免费黄| 亚洲欧洲一区二区三区| 国产jizz| 黄网站欧美内射| 69av在线| 欧美性久久久久| 亚洲免费人成影院| 亚洲乱码在线播放| 国产一级妓女av网站| 亚洲高清在线天堂精品| 99re在线免费视频| 黄色网站不卡无码| 中文字幕人成人乱码亚洲电影| 国产成人精品第一区二区| 免费看的一级毛片| 日本一区中文字幕最新在线| 亚洲无码在线午夜电影| www亚洲精品| 成人一级免费视频| 欧美不卡视频一区发布| 国产网站一区二区三区| 无码中文字幕乱码免费2| 国产精品对白刺激| 波多野结衣在线se| 中文字幕色在线| 亚洲欧洲日韩久久狠狠爱| 午夜视频日本| 国产成人精品一区二区秒拍1o| 凹凸国产分类在线观看| 亚洲欧美精品日韩欧美| jizz亚洲高清在线观看| 久久国产亚洲欧美日韩精品| jizz亚洲高清在线观看| 久久天天躁狠狠躁夜夜躁| 中文毛片无遮挡播放免费| 日韩一区二区三免费高清| 97青草最新免费精品视频| 国产小视频免费| 亚洲开心婷婷中文字幕| 手机看片1024久久精品你懂的| 亚洲综合婷婷激情| 国产成人免费| 欧美综合在线观看| 国产在线精品美女观看| 毛片久久久| 这里只有精品国产| 久久久国产精品无码专区| 国产91精品最新在线播放| 在线国产毛片| 中文字幕在线一区二区在线| 狠狠色丁香婷婷综合| 香蕉久人久人青草青草| 自慰网址在线观看| 国产视频自拍一区| 在线欧美国产| 伊人色天堂| 99精品在线看| 日韩成人午夜| 亚洲欧洲日产国产无码AV| 日韩美一区二区| 欧美综合成人| 中文字幕免费在线视频| 亚洲精品视频免费看| 欧美成人精品在线| 国产迷奸在线看| 一级福利视频| 国产玖玖视频| 大香伊人久久|