999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隱語(yǔ)義模型推薦算法的優(yōu)化*

2023-01-06 05:40:02黃樹成
關(guān)鍵詞:用戶實(shí)驗(yàn)模型

孔 歡 黃樹成

(江蘇科技大學(xué)計(jì)算機(jī)學(xué)院 鎮(zhèn)江 212100)

1 引言

隨著大數(shù)據(jù)時(shí)代的來臨,人們已經(jīng)很難從這些海量的數(shù)據(jù)中找到自己感興趣的,這樣就出現(xiàn)了“信息過載(Information Overload)”問題[1],導(dǎo)致信息利用率降低。推薦系統(tǒng)的出現(xiàn)讓人們從“大數(shù)據(jù)”中看到了“曙光”。然而對(duì)于個(gè)性化推薦系統(tǒng)的核心,推薦算法的研究一直是國(guó)內(nèi)外的研究熱點(diǎn)。2006年10月,美國(guó)Netfilx公司舉行了一場(chǎng)100萬(wàn)美元的算法競(jìng)賽,競(jìng)賽的要求將RMSE降低到0.8572或更低。這極大地推動(dòng)了推薦算法的發(fā)展。

目前推薦算法中基于協(xié)同過濾的推薦應(yīng)用極其廣泛,協(xié)同過濾主要包括基于記憶的推薦和基于模型的推薦,基于記憶的推薦是通過計(jì)算物品之間的相似性為用戶推薦相似度較高的物品,而基于模型的推薦是通過分析用戶的歷史行為數(shù)據(jù)生成相應(yīng)的推薦模型。本文將通過融合用戶的情感因素和物品的熱門程度對(duì)傳統(tǒng)的LFM算法進(jìn)行改進(jìn),提出了一種基于動(dòng)量的學(xué)習(xí)算法(MO-B-LFM)并通過實(shí)驗(yàn)驗(yàn)證了算法的優(yōu)越性。

2 推薦算法簡(jiǎn)述

2.1 協(xié)同過濾推薦算法

Goldberg等最早在文獻(xiàn)[2]中提出了“協(xié)同過濾(Collaborative Filtering,CF)”這一詞,Tapestry是文獻(xiàn)[2]中提出來的第一個(gè)基于協(xié)同過濾的推薦系統(tǒng),該系統(tǒng)是電子文檔過濾系統(tǒng),根據(jù)用戶評(píng)價(jià)過的文檔給其他用戶推薦適合自己的文檔。

基于用戶的協(xié)同過濾旨在找到興趣相似的用戶,把他們歸結(jié)成為一類群體。并且以此為前提,分析得出目標(biāo)用戶的最近鄰居(最相似的若干用戶)對(duì)某個(gè)項(xiàng)目的評(píng)分進(jìn)而預(yù)測(cè)出目標(biāo)用戶對(duì)該項(xiàng)目的評(píng)分[3]。其中相似度可以通過Pearson、歐幾里德距離等去計(jì)算,由于歐幾里得距離計(jì)算相似度很有局限性,通常采用Pearson進(jìn)行計(jì)算。用戶i和j的相似度記為sim(i,j),其計(jì)算公式為[4]

基于模型的協(xié)同過濾通常采用數(shù)據(jù)分析,機(jī)器學(xué)習(xí)等方式,比如聚類算法,決策樹以及貝葉斯分類。該算法對(duì)用戶的行為數(shù)據(jù)進(jìn)行建模訓(xùn)練,最終使用該模型為用戶提供較為合理的推薦[5]。Bereese等在文獻(xiàn)[6]提出了一個(gè)基于概率的算法,其公式如下:

矩陣分解(Matrix Factorization,MF)是常見的基于模型的協(xié)同過濾算法。其中Shanideng等在文獻(xiàn)[7]中提出的潛在因子模型(Latent Factor Model,LFM)是本文主要研究的算法,該算法曾在Netfilx舉辦的推薦算法競(jìng)賽中奪冠。

2.2 其他推薦算法

文獻(xiàn)[8]提出了基于內(nèi)容的推薦算法,該模型通過分析一個(gè)用戶-物品表來為用戶做相應(yīng)的推薦。基于內(nèi)容推薦的思想是通過機(jī)器學(xué)習(xí)的方式將用戶有過行為的物品動(dòng)態(tài)的添加到用戶-物品表中,并對(duì)其進(jìn)行分析。

文獻(xiàn)[9]中提出了一種混合推薦算法,該算法思想通過吸取其他算法的優(yōu)點(diǎn)來彌補(bǔ)自身的不足,其中最常見的就是基于協(xié)同過濾和基于內(nèi)容推薦相結(jié)合,稱其為基于內(nèi)容的協(xié)同過濾(Content-Based Collaborative Filtering)。

3 LFM算法簡(jiǎn)述與改進(jìn)

3.1 LFM算法簡(jiǎn)述

假設(shè)Ru×i是用戶user對(duì)物品item的評(píng)分矩陣,LFM算法就是找到兩個(gè)矩陣Pu×k,Qk×i使得P·Q≈R。稱P,Q分別為user和item的特征矩陣,其中k是隱類的特征維度。最后計(jì)算出用戶對(duì)每個(gè)物品item的預(yù)測(cè)評(píng)分,計(jì)算公式如下:

下面是LFM的目標(biāo)函數(shù),其中rui為用戶user對(duì)物品item的真實(shí)評(píng)分:

求解上式最優(yōu)化問題可以使用交替最小二乘法(Alternating Least Square,ALS)[10]和梯度下降法,由于最小二乘法計(jì)算復(fù)雜這里使用隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD)。每次迭代單獨(dú)更新參數(shù)和其中α為學(xué)習(xí)率:

式(6)、(7)帶入式(5)得:

該算法很重要的影響的因素是P,Q初始值的選擇,一般選取P,Q初始為全0或1的矩陣和隨機(jī)數(shù)矩陣。大量實(shí)驗(yàn)證明,P,Q取隨機(jī)值時(shí)模型推薦效果更佳,本次實(shí)驗(yàn)在隨機(jī)值的基礎(chǔ)上除以。

3.2 算法改進(jìn)分析

上述算法沒有考慮到用戶的偏好,也沒有考慮到物品的冷門程度。假設(shè)用戶A偏向于打分很低,即使自己很喜歡的物品也只會(huì)給個(gè)中等分?jǐn)?shù),而用戶B偏向于打分很高,每個(gè)物品都給了較高的分?jǐn)?shù),LFM對(duì)于這種用戶的推薦的準(zhǔn)確率就會(huì)降低。同樣的,假定物品X屬于熱門產(chǎn)品,大多數(shù)用戶都對(duì)該物品有過行為,而物品Y屬于冷門產(chǎn)品,為極少數(shù)用戶所知。可能該物品某個(gè)用戶非常喜歡,但是沒有為該用戶進(jìn)行推薦,導(dǎo)致覆蓋率很低。

本文首先計(jì)算出所有評(píng)分的平均分μ,初始化用戶和物品的偏置矩陣bu,bi。給出改進(jìn)后的評(píng)分公式:

從而得到目標(biāo)函數(shù):

使用式(12)、(13)反復(fù)迭代訓(xùn)練出bu,bi。

以上訓(xùn)練方法訓(xùn)練時(shí)間過長(zhǎng),本文在更新P,Q前分別加入了用戶動(dòng)量M以及物品動(dòng)量N,其中M表示上一次更新時(shí)P的梯度的下降程度,N表示上一次更新時(shí)Q的梯度的下降程度,β為每次能夠接受的下降的程度。通過動(dòng)量M,N的添加能夠讓上一次梯度較大的地方下降的更快。同時(shí)梯度趨近與0的過程更加平緩,并且防止了過擬合和欠擬合的現(xiàn)象。通過實(shí)驗(yàn)證明準(zhǔn)確率和召回率有了明顯的提升,并且覆蓋率提升了近原來的兩倍。下面是算法的執(zhí)行過程:

上述介紹的算法訓(xùn)練出的模型,其在測(cè)試集的準(zhǔn)確率以及召回率有了明顯的提升,由于將用戶的偏好和物品的偏好也加入了訓(xùn)練,所以其在覆蓋率上更有了成倍的增長(zhǎng)。

4 實(shí)驗(yàn)分析

本文采用了控制變量法來對(duì)本文的算法進(jìn)行驗(yàn)證,主要有兩組實(shí)驗(yàn)。第一組實(shí)驗(yàn)使用加入用戶偏好和物品偏好的算法(B-LFM)與傳統(tǒng)的LFM算法進(jìn)行對(duì)比,其驗(yàn)證了將用戶偏好和物品偏好帶入訓(xùn)練會(huì)大大的提高推薦的覆蓋率。第二組實(shí)驗(yàn)使用加入動(dòng)量并融合用戶和物品的情感因素的算法(MO-B-LFM)與B-LFM進(jìn)行對(duì)比,其驗(yàn)證了加入梯度下降動(dòng)量訓(xùn)練模型不僅能夠加快訓(xùn)練速度,在準(zhǔn)確率上相比LFM算法有了明顯提升,在覆蓋率上相比B-LFM也有了可見的增長(zhǎng)。下面介紹實(shí)驗(yàn)的具體內(nèi)容。

4.1 數(shù)據(jù)集的選取

實(shí)驗(yàn)使用了MovieLens數(shù)據(jù)集[11],這是由GroupLens項(xiàng)目組創(chuàng)辦的一個(gè)包含大、中、小規(guī)模的推薦系統(tǒng)數(shù)據(jù)集[12~13]。其中小規(guī)模數(shù)據(jù)100k包含了1000個(gè)用戶對(duì)1700部電影的10000條評(píng)分記錄;中規(guī)模數(shù)據(jù)1M包含了6000個(gè)用戶對(duì)4000部電影的1000000個(gè)評(píng)分;大規(guī)模數(shù)據(jù)10M包含了72000個(gè)用戶對(duì)10000部電影的10000000個(gè)評(píng)分和100000個(gè)標(biāo)簽。實(shí)驗(yàn)使用了中、小規(guī)模兩個(gè)數(shù)據(jù)集對(duì)實(shí)驗(yàn)數(shù)據(jù)按照8:2劃分訓(xùn)練集與測(cè)試集并且保證了每個(gè)用戶都至少有20個(gè)評(píng)分?jǐn)?shù)據(jù)。

4.2 實(shí)驗(yàn)評(píng)測(cè)標(biāo)準(zhǔn)

評(píng)價(jià)一個(gè)推薦算法的性能一般使用平均絕對(duì)誤差(MAE)[14]和均方根誤差(RMSE)[11]兩種,但是推薦系統(tǒng)關(guān)注的是推薦的TopN中的準(zhǔn)確率以及召回率,對(duì)于實(shí)際應(yīng)用還應(yīng)考慮其覆蓋率。

文獻(xiàn)[15]給出了準(zhǔn)確率、召回率以及覆蓋率的定義。對(duì)于用戶u推薦的N個(gè)物品組成的集合記作R(u),用戶u在測(cè)試集上喜歡的物品組成的集合記作T(u)[16]。

4.3 實(shí)驗(yàn)分析

實(shí)驗(yàn)環(huán)境是Windows 10操作系統(tǒng),i7-9500H處理器,內(nèi)存24GB的CPU,使用的語(yǔ)言是Python,其版本是Python 3.7,編程工具使用了PyCharm。下面是實(shí)驗(yàn)中用于比較的算法。

算法1:傳統(tǒng)LFM算法

算法2:B-LFM算法:在傳統(tǒng)LFM算法基礎(chǔ)上添加了用戶偏好和物品偏好參與訓(xùn)練,其中bu,bi初始值為零矩陣。

算法3:MO-B-LFM算法:在算法2的基礎(chǔ)上添加用戶動(dòng)量M和物品動(dòng)量N,令β=0.65,M,N初始值為零矩陣。

采用兩組實(shí)驗(yàn)進(jìn)行對(duì)比,分別是算法1和算法2對(duì)比,以及算法2和算法3對(duì)比。

4.3.1 不同K值對(duì)實(shí)驗(yàn)的影響

LFM算法執(zhí)行的時(shí)間與隱類K有著直接的聯(lián)系,并且K值的選取也會(huì)影響算法的性能。實(shí)驗(yàn)固定α=0.02,λ=0.01正負(fù)樣本比例為1∶1分別研究K值取50,100,200,300,400的情況下推薦算法的準(zhǔn)確率,召回率以及覆蓋率,以求出最佳的K值。通過圖1表明,當(dāng)K=200時(shí)召回率和覆蓋率都是最高,故以下實(shí)驗(yàn)均基于K=200進(jìn)行。

圖1 不同K值下算法的準(zhǔn)確率和召回率

4.3.2 算法1與算法2對(duì)比試驗(yàn)

以上通過實(shí)驗(yàn)證明K值為200時(shí)算法性能最優(yōu),以下均使用K=200進(jìn)行試驗(yàn),B-LFM初始化bu,bi均為零矩陣。本文僅研究N取5,10,15,20,25時(shí)的情況,因?yàn)镹值取得過大,對(duì)于一個(gè)推薦系統(tǒng)就毫無意義。下圖是不同N值情況下算法的覆蓋率對(duì)比。實(shí)驗(yàn)結(jié)果如圖2所示,從圖可以看出,在N取何值時(shí),B-LFM算法的覆蓋率都遙遙領(lǐng)先于LFM算法,由此說明加入情感因素訓(xùn)練模型能極大地提高算法的覆蓋率。

圖2 不同N值下算法的覆蓋率

4.3.3 算法2與算法3對(duì)比試驗(yàn)

以上通過實(shí)驗(yàn)證明加入情境因素進(jìn)行訓(xùn)練可以極大提高算法的覆蓋率。下面研究在用戶動(dòng)量和物品動(dòng)量的加持下算法MO-B-LFM的準(zhǔn)確率以及召回率。通過圖3可知MO-B-LFM算法在準(zhǔn)確率和召回率都比B-LFM算法要高,進(jìn)而證明了加入動(dòng)量矩陣能夠有效地提升算法的性能。

圖3 BLFM與MO-B-LFM算法性能對(duì)比

5 結(jié)語(yǔ)

本文通過分析LFM算法的不足,融合了用戶和物品的情感因素,這不僅僅增加了算法準(zhǔn)確率和召回率,還極大地提升了算法的覆蓋率,使得冷門物品也能被推薦給更多的用戶,這樣就不會(huì)讓某個(gè)物品出現(xiàn)“餓死”現(xiàn)象。通過加入動(dòng)量參與模型的訓(xùn)練,不僅能夠縮短訓(xùn)練所需時(shí)間,也能夠大大提升算法的準(zhǔn)確率和召回率。

猜你喜歡
用戶實(shí)驗(yàn)模型
一半模型
記一次有趣的實(shí)驗(yàn)
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
404 Not Found

404 Not Found


nginx
主站蜘蛛池模板: 国产精品夜夜嗨视频免费视频| 国产综合欧美| 波多野结衣AV无码久久一区| 国产流白浆视频| 国产亚洲男人的天堂在线观看| 99热这里只有精品在线观看| 国产又粗又爽视频| 久久国产黑丝袜视频| 亚洲精品成人片在线观看| 亚洲成人一区二区| 国产欧美网站| 在线视频一区二区三区不卡| 精品视频在线一区| 欧美成人日韩| 日本亚洲成高清一区二区三区| 精品一区国产精品| 色爽网免费视频| 欧美中文字幕在线视频| 日韩麻豆小视频| 久久精品人人做人人| 亚洲精品久综合蜜| 亚洲一级毛片免费观看| 又黄又爽视频好爽视频| 国产精品久久久久久久久kt| 91福利在线看| 国产在线高清一级毛片| 国产在线观看91精品| 国产在线一二三区| 欧美日韩亚洲国产主播第一区| 国产乱子伦精品视频| 国产免费网址| 91在线无码精品秘九色APP| 精品无码一区二区三区电影| 2021国产在线视频| 日韩不卡高清视频| 国产综合无码一区二区色蜜蜜| 黄色三级毛片网站| 亚洲性日韩精品一区二区| 在线视频一区二区三区不卡| 99久久国产综合精品女同| 久久a毛片| 欧美啪啪一区| 欧美日韩在线成人| 国产日韩AV高潮在线| 国产91无码福利在线| 亚洲精品动漫| 青青草欧美| 亚洲欧美综合另类图片小说区| 日本一区二区不卡视频| 另类重口100页在线播放| 不卡无码网| 日本高清免费不卡视频| 国产特级毛片aaaaaaa高清| 亚洲福利视频一区二区| 呦视频在线一区二区三区| 毛片免费在线视频| 亚洲无码高清免费视频亚洲| 狠狠v日韩v欧美v| 精品夜恋影院亚洲欧洲| 青青草国产一区二区三区| 欧美午夜在线播放| 中文字幕丝袜一区二区| 亚洲天堂网2014| 国产成人乱码一区二区三区在线| 99在线免费播放| 欧洲欧美人成免费全部视频| 欧美日韩免费| 亚洲成人精品在线| 青草免费在线观看| 久久特级毛片| 天天摸天天操免费播放小视频| 日本免费a视频| 久久久久亚洲AV成人人电影软件 | 久久久久亚洲精品成人网| 丁香婷婷综合激情| 国产一区二区三区免费观看| 亚洲va欧美ⅴa国产va影院| 亚洲av日韩av制服丝袜| 91视频首页| 四虎精品免费久久| 永久毛片在线播| 中文字幕人成人乱码亚洲电影|