999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于標簽挖掘和聚類算法的新用戶快速興趣建模

2023-05-14 08:05:12黃宇浩顧得豪胡炎林周子楚朱津毅宋爽
計算機時代 2023年5期

黃宇浩 顧得豪 胡炎林 周子楚 朱津毅 宋爽

摘? 要: 旅游網站上有著數不勝數的景點信息,但是對新用戶來說,網站缺少他們的瀏覽記錄、旅游經歷等數據,因此很難從眾多景點中精確推薦出適合他們的景點。本研究提出了一種通過標簽挖掘和聚類算法快速構建新用戶興趣模型的方法,以提高旅游推薦系統中新用戶的用戶體驗感。

關鍵詞: 旅游推薦; 冷啟動; 網絡文本挖掘; 用戶聚類

中圖分類號:TP391.1? ? ? ? ? 文獻標識碼:A? ? ?文章編號:1006-8228(2023)05-88-03

Fast user interest modeling for new users using tag mining

techniques and clustering algorithm

Huang Yuhao, Gu Dehao, Hu Yanlin, Zhou Zichu, Zhu Jinyi, Song Shuang

(Nanjing University of Technology,School of Computer Science and Technology, Nanjing, Jiangsu 211816, China)

Abstract: There are countless tourism information on various travel websites, however, the lack of user data such as browsing history or travel experience makes it difficult to recommend the right point of interest for new users. In this paper, a method to quickly build a new user interest model using tag mining techniques and clustering algorithm is proposed to improve the user experience of new users in the travel recommendation system.

Key words: tourism recommendation; cold start; online text mining; user clustering

0 引言

旅游業是一個熱門行業,但是由于缺少新用戶的數據,旅游網站往往只能根據景點名、評論數、用戶評分計算景點的陳列順序[1],導致推薦效果不理想,用戶體驗感差,不利于旅游服務的多樣化和個性化。

目前常見的新用戶興趣建模方法有兩種,第一種是問卷調查法,即采取問卷的形式獲取新用戶興趣,如提供由李克特五級量表構成的選項供用戶選擇[2]。但是,大量的文字題目會增加用戶的負擔,降低用戶體驗,所以不是最理想的手段。第二種是相關推薦法,即基于新用戶的個人信息和與其相似的老用戶的景點喜好實現推薦。這種方式無需用戶操作,但研究表明,如果年齡、性別等的人口統計學信息較為模糊,就不足以支持實現精細化、個性化推薦[3]。

綜合以上分析,本文提出一種基于標簽內容和聚類算法的快速興趣建模方法,通過讓新用戶選擇自己感興趣的景點,快速分析用戶的景點偏好,從而緩解新用戶的冷啟動問題。

1 系統設計

本系統總體分為用戶端和管理端,功能分類如圖1。

管理端實現了對用戶信息及景點信息的增刪改查操作;用戶端包括智能推薦模塊、熱門景點推薦模塊和景點評分模塊,可以查看景點推薦列表并對景點進行評分。用戶在注冊時,需要填寫個人信息,并在若干張預設圖片中選擇自己感興趣的景點,系統通過逆向挖掘相應景點的標簽,計算出新用戶的興趣。

2 初始化算法設計與實現

2.1 數據采集

本研究以南京市的旅游景點為對象,使用了Python語言,基于爬蟲技術從貓途鷹(www.tripadvisor.com)、去哪兒旅行網(www.qunar.com)、百度百科(www.baike.baidu.com)和攜程網(www.ctrip.com)采集所有相關數據。數據由三部分組成:①景點基本信息的文本數據,②景點評論及游記的文本數據,③景點的圖片數據。采集時間是2022年7月至9月,最終采集到295個有效景點,共計43531條評論和829張圖片。

2.2 標簽制作與提取

針對景點評論、景點簡介等文本數據,使用jieba分詞技術提取單詞后,去除停用詞,基于式⑴~式⑶計算TF-IDF值以構建景點-標簽庫[4]。

[TF-IDFi,t=TFi,t*IDFi,t]? ⑴

[TFi,t=ni,tnt]? ⑵

[IDFi,t=lgItI+1]? ⑶

其中,TFi,t表示景點i對標簽t的依賴程度,ni,t是景點i的文本數據中標簽t的出現次數,nt是標簽t在所有文本數據中的出現次數。IDFi,t表示標簽t的熱門程度,用于實現對出現次數過多的熱門標簽的懲罰,|I|是景點個數,|It|是包括標簽t的景點個數。最后,根據TF-IDF將標簽降序排列,并計算TF-IDF值的累積和,取累計和小于50%部分作為有效標簽。

2.3 基于聚類算法求初始化圖片

為了實現用盡量少的景點挖掘用戶對盡量多種類的標簽的依賴性,本研究采用如下方法對景點進行分類,并挑選每個類型的代表景點。

⑴ 對景點的每個標簽的TF-IDF值進行標準化和歸一化,使其值域為[0,1]。

⑵ 基于碎石圖決定景點類型數量k,具體步驟是:首先,基于K-means聚類算法[5]將景點分成k類(k=2,3,4,…),計算每種分類結果中,各景點到相應質心的距離,取最小值作為該分類的評價值,取所有類型評價值的平均值作為分成k類時的評價值,最后根據圖2中的坡度變化選取了k=9。

⑶ 基于k-means聚類算法將全部景點分成九類。

⑷ 選取每類的代表景點,該步驟設計思路如下:首先,用歐式距離公式計算每個景點i到對應分類c質心的距離sc,i;其次,對sc,i進行z-score標準化得到dc,i后,使用式⑷計算分類c中景點i的評價值rc,i;最后,取每個分類中評價值最高的景點作為代表。式⑷中,ni代表景點i所包含的標簽數。由于系統采用圖片展示景點,所以設置α值作為判斷景點是否具備圖片數據的權重,即若有圖片則置為1,否則為0。

[rc,i=α×nidc,i]? ⑷

3 算法效果評估

3.1 評估方法

本研究采用仿真實驗評估用戶興趣建模的效果。由于本實驗選出了九個景點并采用“喜歡”和“不喜歡”兩種選項,因此可以將用戶快速分成29=512種類型。本實驗分為以下兩個子實驗。

實驗1 考察不同類型用戶的推薦結果間是否存在差異,即:針對每種類型的用戶,基于標簽推薦算法計算出對應的景點推薦列表,在此基礎上,計算任意兩組推薦結果的斯皮爾曼順位相關系數;

實驗2 考察不同類型用戶的推薦結果是否合理,即:按照旅游網站上列舉的景點歷史評論數由高到低計算出景點的熱門度排序,計算任意推薦結果與熱門度排序間的順位相關系數。

3.2 結果與討論

本實驗使用了SPSS軟件對512種推薦結果進行雙變量相關性分析。

實驗1得到512×512組斯皮爾曼相關系數,并從中除去了自相關的512個數據和重復數據(如x和y的相關系數與y和x的相關系數),結果的平均值為0.718,方差為0.085。這說明任意組合的排序有一定的相似但是存在差異,即采用本方法可以實現多樣化的推薦。同時,結果中存在少量組合間的順位相關系數為1,這些組合對應的是僅有一個景點選擇不同的兩類用戶,造成該現象的原因可能是景點數量較少,沒有足夠的景點來體現少量標簽的差異,導致了標簽興趣不同的用戶獲得的推薦結果相同,后續可以嘗試增加景點數量加以應對。

實驗2得到512個相關系數,其平均值為0.827,方差為0.091,這說明本算法得出的推薦結果和熱門排序相具有一定的相似性,不是隨機推薦。同時,推薦結果與熱門度排序的差異體現了針對不同用戶可以獲得個性化的推薦結果。

雖然本方法能夠快速的將用戶分類,但本研究沒有檢查用戶興趣和每種分類間的映射關系,因此后續還需進行用戶評價實驗。此外,本系統采用了“喜歡”和“不喜歡”兩極化選項,若改為“喜歡-中性-不喜歡”等多級選項的話,可以實現更為細致的用戶劃分,對于選項設置對推薦結果的影響,還應進一步考察。

4 結束語

本文針對推薦系統無法快速、精準建立新用戶興趣模型的問題,提出了一種基于標簽挖掘和聚類算法的建模方法。經過多次測試評估推薦結果,本方法能夠有效的實現對用戶的快速分類,獲得多樣化的推薦結果,并且該結果可以兼顧個性化與熱門度。若將該方法運用在推薦系統中,可以在減少繁瑣的操作的同時獲得個性化的推薦景點,提升新用戶的使用體驗,有利于提升網站的用戶留存率和用戶評價。但是,本研究僅僅針對了新用戶的冷啟動問題進行了處理,若想要整體改善用戶間推薦結果雷同的問題,還可以進一步的加入協同過濾等推薦算法。

參考文獻(References):

[1] 劉艷,潘善亮.基于LBSN好友關系的個性化景點推薦方法[J].計算機工程與應用,2015,51(8):117-122

[2] 漆亞莉.城鎮居民鄉村文化旅游消費意愿影響因素研究——基于南寧市城鎮居民問卷調查數據[J].北京文化創意,2022(1):70-78

[3] 陳阿龍.推薦系統用戶冷啟動問題相關研究[D].碩士,國防科學技術大學,2016

[4] 熊中敏,郭懷宇,吳月欣.缺失數據處理方法研究綜述[J].計算機工程與應用,2021,57(14):27-38

[5] 李明媚.基于數據特征選擇的融合聚類方法研究[D].碩士,杭州電子科技大學,2022

主站蜘蛛池模板: 伊人久久大香线蕉aⅴ色| 久久情精品国产品免费| 欧美在线天堂| 国产成人高清精品免费| 亚洲免费福利视频| 91日本在线观看亚洲精品| 免费一级毛片在线观看| jizz亚洲高清在线观看| 91伊人国产| 免费 国产 无码久久久| 青青青视频91在线 | 日韩毛片视频| 中文无码影院| 91精品人妻一区二区| 日韩精品无码免费一区二区三区| 亚洲天堂伊人| 国产情精品嫩草影院88av| 免费激情网址| 国产三级精品三级在线观看| 91 九色视频丝袜| h网址在线观看| 日韩不卡高清视频| 欧美高清国产| 国产乱肥老妇精品视频| 国产成人精品亚洲日本对白优播| 2021国产精品自产拍在线观看| 高清久久精品亚洲日韩Av| 国产精品无码翘臀在线看纯欲| 19国产精品麻豆免费观看| 欧美在线视频不卡第一页| 欧美成人一级| 91av国产在线| 日韩A级毛片一区二区三区| 一级毛片免费不卡在线| 日韩成人高清无码| 亚洲综合精品香蕉久久网| 国产导航在线| 天堂网亚洲综合在线| 亚洲av无码片一区二区三区| jizz国产视频| 亚洲成人在线免费观看| 久久国产精品国产自线拍| 国产女人18毛片水真多1| 国产欧美在线观看一区| 亚洲欧美日韩成人在线| 黄色污网站在线观看| 女人av社区男人的天堂| 亚洲无码熟妇人妻AV在线| 日本少妇又色又爽又高潮| 免费毛片全部不收费的| 亚洲国产综合精品一区| 精品人妻无码中字系列| 成人亚洲天堂| 免费人成视频在线观看网站| 永久免费无码日韩视频| 国产乱子伦视频在线播放| 欧美精品亚洲精品日韩专区va| 三级视频中文字幕| 在线国产毛片手机小视频| 国产久操视频| 日韩精品亚洲人旧成在线| 亚洲Av综合日韩精品久久久| 欧美天天干| 中文字幕永久视频| 国产成人a毛片在线| 亚洲美女高潮久久久久久久| 91蜜芽尤物福利在线观看| 日本在线欧美在线| 九色免费视频| 欧美人与动牲交a欧美精品| 欧美区一区二区三| 爱色欧美亚洲综合图区| 久久婷婷综合色一区二区| 精品亚洲麻豆1区2区3区| 欧美19综合中文字幕| 国产XXXX做受性欧美88| 精品久久国产综合精麻豆| 国产在线观看精品| 亚洲天堂精品在线观看| 久久精品视频亚洲| 丁香婷婷综合激情| 欧美人人干|