999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于用戶(hù)屬性的協(xié)同濾波混合推薦系統(tǒng)研究?

2019-07-10 08:17:50廖曉雅劉傳才徐曉峰彭甫镕
關(guān)鍵詞:用戶(hù)

廖曉雅 劉傳才 徐曉峰 彭甫镕

(南京理工大學(xué) 南京 210094)

1 引言

協(xié)同濾波是推薦算法的經(jīng)典算法,在機(jī)器學(xué)習(xí)異常火熱的今天,協(xié)通濾波以其良好的性能依然在推薦系統(tǒng)中發(fā)揮著重要作用。協(xié)同濾波通常會(huì)利用評(píng)分信息向用戶(hù)推薦可能感興趣的物品。而此處的核心預(yù)測(cè)算法就是利用用戶(hù)已經(jīng)評(píng)價(jià)過(guò)的物品的評(píng)分信息和其他用戶(hù)的評(píng)分信息計(jì)算出預(yù)計(jì)評(píng)分,從而預(yù)測(cè)出用戶(hù)的興趣向。現(xiàn)已有多種協(xié)同濾波算法[1~4]和改進(jìn)形式[5~7]由于系統(tǒng)并不知道評(píng)分達(dá)到多少才是用戶(hù)喜歡的物品,所以通常利用Top-N 算法,選擇估計(jì)值最高的N 個(gè)預(yù)測(cè)結(jié)果作為輸出。

常用的混合方式有加權(quán)混合、變換混合、分區(qū)混合和分層混合等。如將矩陣填充和自動(dòng)編碼機(jī)混合可以緩解冷啟動(dòng)問(wèn)題[8]。而將協(xié)同濾波與用戶(hù)推薦交互[9]或是聚類(lèi)方法[10]相混合也可以得到類(lèi)似的效果。本文提出了一種基于評(píng)分與用戶(hù)屬性的協(xié)同濾波的混合推薦算法(User Attribute-Based Hybrid Method,UABHM)。該算法先分別基于用戶(hù)評(píng)分和用戶(hù)屬性計(jì)算用戶(hù)間相似度,利用用戶(hù)間相似度求得用戶(hù)的近鄰,再根據(jù)近鄰用戶(hù)的評(píng)分分別得到基于用戶(hù)評(píng)分和用戶(hù)屬性協(xié)同濾波算法的預(yù)測(cè)值。此后選擇適當(dāng)?shù)幕旌戏绞綄?duì)結(jié)果進(jìn)行混合,得到新的預(yù)測(cè)結(jié)果作為最后的預(yù)測(cè)成果,再選出評(píng)分最高的N個(gè)預(yù)測(cè)結(jié)果作為此推薦系統(tǒng)的輸出。實(shí)驗(yàn)也表明,將基于用戶(hù)屬性的協(xié)同濾波不僅可以用來(lái)解決冷啟動(dòng)問(wèn)題,與傳統(tǒng)協(xié)同濾波方法結(jié)合時(shí)可以提高推薦系統(tǒng)的性能。

2 相關(guān)工作

基于用戶(hù)的協(xié)同濾波基于兩條假設(shè):1)有相似行為模式的用戶(hù)未來(lái)也會(huì)有相似的行為模式;2)用戶(hù)的行為模式是持續(xù)不變的。協(xié)同濾波的方法可以分為兩種:近鄰模型和潛在因子模型。近鄰模型通過(guò)用戶(hù)或者物品間相似度來(lái)做出預(yù)測(cè)[11~12]。潛在因子模型通過(guò)對(duì)已知評(píng)分進(jìn)行矩陣分解得到隱藏的行為模式,其中廣泛使用且技術(shù)成熟的奇異值分解(Single Value Discomposition,SVD)[13~14,16]。主要使用了基于用戶(hù)的協(xié)同濾波近鄰模型。

基于用戶(hù)的協(xié)同濾波的推薦方法可分為三步:計(jì)算用戶(hù)之間的相似度;選擇近鄰;做出預(yù)測(cè)。常用的相似度計(jì)算方法有相關(guān)相似性、余弦相似性、修正余弦相似性、Jaccard相似性等。

余弦相似性:余弦相似度通過(guò)計(jì)算兩個(gè)向量在內(nèi)積空間夾角的余弦值來(lái)判斷二者的相似性。兩個(gè)向量之間夾角越小,余弦值越大,相似性越高。在評(píng)分矩陣中,可以將用戶(hù)評(píng)分作為向量來(lái)計(jì)算用戶(hù)間余弦相似度。如果用戶(hù)對(duì)某以物品沒(méi)有評(píng)分,可使用0 作為缺省值填充。計(jì)算公式如下:

上式中,ru和rv分別表示用戶(hù)u和用戶(hù)v的評(píng)分向量。 ‖ ? ‖ 表示向量的模長(zhǎng)。

不同的用戶(hù)有不同的評(píng)分習(xí)慣。有人評(píng)分總體較高,有人偏低。為了表示擁護(hù)的評(píng)分尺度偏好,H.J. Ahn 提出了修正余弦相似性[21]。公式如下:

式(2)中,P表示所有物品的集合。如果用戶(hù)u對(duì)物品p∈P沒(méi)有評(píng)分,則用0填充。

Jaccard 相似性:Jaccard 系數(shù)又稱(chēng)為T(mén)animoto系數(shù),計(jì)算時(shí)只考慮兩個(gè)用戶(hù)之間共同評(píng)分物品的數(shù)量,所以共同評(píng)分物品數(shù)越多,用戶(hù)就越相似。Jaccard 相似度用于用戶(hù)評(píng)分相似性計(jì)算時(shí)不能利用到評(píng)分值的差距,所以并不是很適合。計(jì)算公式如下:式(3)中,Iu和Iv分別表示用戶(hù)u 和用戶(hù)v的評(píng)分物品集合。

3 基于用戶(hù)屬性與評(píng)分的協(xié)同濾波混合推薦

在以往的推薦系統(tǒng)中評(píng)分信息得到了充分的應(yīng)用,而對(duì)于新的用戶(hù),沒(méi)有足夠評(píng)分信息用于計(jì)算用戶(hù)間相似度的時(shí)候,便可以利用用戶(hù)屬性信息解決冷啟動(dòng)問(wèn)題[16~18]且有著不錯(cuò)的效果。所以用戶(hù)屬性和用戶(hù)行為模式之間存在著一定的相關(guān)度,至此如果將基于用戶(hù)屬性的協(xié)同濾波與傳統(tǒng)協(xié)同濾波方法相結(jié)合便可以得到混合模型用于實(shí)現(xiàn)推薦系統(tǒng)。

3.1 KNN近鄰模型

近鄰模型分為基于用戶(hù)的近鄰模型和基于項(xiàng)目的近鄰模型。基于用戶(hù)的近鄰模型根據(jù)用戶(hù)的評(píng)分模式做出預(yù)測(cè),其計(jì)算公式如下:

SNu是用戶(hù)的最近鄰結(jié)合,sim(u,v)是戶(hù)u和用戶(hù)v之間的相似度。

基于項(xiàng)目的協(xié)同過(guò)濾根據(jù)項(xiàng)目之間的評(píng)價(jià)模式做出預(yù)測(cè),其計(jì)算公式如下:

SNi是物品的最近領(lǐng)集合,sim(i,j)是物品i和物品j之間的相似度。基于項(xiàng)目的模型在物品數(shù)量比用戶(hù)少,用戶(hù)個(gè)性比較明顯的情況下較為適用。

3.2 基于用戶(hù)屬性與評(píng)分的協(xié)同濾波混合推薦

根據(jù)基于用戶(hù)的協(xié)同濾波的假設(shè),我們?cè)诖艘部梢宰龀鰞蓷l假設(shè):1)有相似屬性的用戶(hù)未來(lái)也會(huì)有相似的行為模式;2)用戶(hù)的行為模式是持續(xù)不變的。

相似地,基于評(píng)分與用戶(hù)屬性的協(xié)同濾波均勻混合推薦算法的步驟如下:

1)分別根據(jù)式(2)和式(3)計(jì)算目標(biāo)用戶(hù)u和其他用戶(hù)v之間的余弦相似度sim(u,v)cos和關(guān)于屬性的Jaccard相似度sim(u,v)Jaccard。

2)將用戶(hù)u與其他用戶(hù)的余弦相似度排序,選出相似度最大的Kc個(gè)近鄰。將用戶(hù)u與其他用戶(hù)的Jaccard 相似度排序,選出相似度最大的Ka個(gè)近鄰。

3)使用評(píng)分加權(quán)公式(4)分別計(jì)算用戶(hù)u基于余弦相似度的預(yù)測(cè),和基于用戶(hù)屬性Jaccard 似度的預(yù)測(cè)。

4)將得到的兩種預(yù)測(cè)分值相加得到新的預(yù)測(cè)值,將評(píng)分最高的Top-N個(gè)物品推薦給用戶(hù)。

4 實(shí)驗(yàn)與分析

為了驗(yàn)證本文提出的基于用戶(hù)屬性融合推薦的效果,我們使用了MovieLens 100k 和MovieLens 1M數(shù)據(jù)集對(duì)提出的方法進(jìn)行了驗(yàn)證。

MovieLens 100k數(shù)據(jù)集中有943位用戶(hù)對(duì)1682部電影總共100,000 條評(píng)分,數(shù)據(jù)集稠密度為6.30%,每個(gè)用戶(hù)平均評(píng)分?jǐn)?shù)為106.04條,其中評(píng)分最多的用戶(hù)有737 條評(píng)分,最少的為20 條。MovieLens 1M 數(shù)據(jù)集包括了6040 位用戶(hù)對(duì)3952 部電影,共計(jì)1,000,209 條評(píng)分,數(shù)據(jù)集稠密度為4.26%,每個(gè)用戶(hù)平均評(píng)分?jǐn)?shù)為165.59條,其中評(píng)分最多的用戶(hù)有2314 條評(píng)分,最少的為20 條。兩個(gè)數(shù)據(jù)集中評(píng)分?jǐn)?shù)值均為從1 到5 的整數(shù)。

在MovieLens 100k 和MovieLens 1M 數(shù)據(jù)集中,每個(gè)用戶(hù)都會(huì)有用戶(hù)id、年齡、性別、職業(yè)和郵編信息。用戶(hù)id 已經(jīng)去敏,職業(yè)已分別歸為21 和20 種類(lèi)別,郵編為真實(shí)數(shù)值。在實(shí)驗(yàn)中我們用到的主要有年齡、性別和職業(yè)信息。

4.1 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)

對(duì)于推薦系統(tǒng)不同的推薦方式有不同的評(píng)價(jià)標(biāo)準(zhǔn)。如對(duì)于預(yù)測(cè)用戶(hù)對(duì)于未評(píng)分物品的推薦方式通常計(jì)算預(yù)測(cè)評(píng)分與測(cè)試集中的真實(shí)評(píng)分的誤差,從而計(jì)算推薦的準(zhǔn)確率,如平均絕對(duì)誤差和均方根誤差[19~20]。而對(duì)于Top-N 推薦方式,通常計(jì)算系統(tǒng)的準(zhǔn)確率(Precision)與召回率(Recall)。

準(zhǔn)確率是推薦命中的個(gè)數(shù)占總推薦數(shù)的比例,召回率是推薦命中的個(gè)數(shù)占測(cè)試樣本個(gè)數(shù)的比例。其中n 為推薦命中個(gè)數(shù),TopN 為系統(tǒng)推薦個(gè)數(shù),|I|為測(cè)試集中樣本個(gè)數(shù)。

準(zhǔn)確率和召回率都是推薦系統(tǒng)的評(píng)價(jià)的重要標(biāo)準(zhǔn),且相互影響。所以可以利用F值綜合評(píng)價(jià):

參數(shù)β表示準(zhǔn)確率在評(píng)價(jià)標(biāo)準(zhǔn)中的重要性,取值范圍為[0,+∞)。β小于1 時(shí)F 值強(qiáng)調(diào)的是準(zhǔn)確率的重要性,β大于1 時(shí)F 值強(qiáng)調(diào)的是召回率的重要性。實(shí)驗(yàn)中常使用F1值。

在實(shí)驗(yàn)中,我們將數(shù)據(jù)集分為兩部分,每個(gè)數(shù)據(jù)集都隨機(jī)選擇20%的評(píng)分?jǐn)?shù)作為測(cè)試機(jī),余下的為訓(xùn)練集。

4.2 實(shí)驗(yàn)結(jié)果及分析

為了驗(yàn)證評(píng)分和用戶(hù)屬性特征融合后的效果,我們將本文提出的方法與經(jīng)典的基于用戶(hù)的實(shí)驗(yàn)修正余弦相似度的協(xié)同濾波方法進(jìn)行比對(duì)。實(shí)驗(yàn)中對(duì)于結(jié)果有兩個(gè)參數(shù)會(huì)有結(jié)果有較大的影響,一是K 近鄰算法中的近鄰數(shù)K,二是向用戶(hù)推薦物品的個(gè)數(shù)TopN。

4.2.1 K近鄰個(gè)數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響

實(shí)驗(yàn)考察了協(xié)同濾波和基于用戶(hù)屬性濾波推薦系統(tǒng)中不同K 值時(shí)系統(tǒng)的表現(xiàn),記基于用戶(hù)屬性協(xié)同濾波的近鄰數(shù)為Ka,協(xié)同濾波的近鄰數(shù)為Kc,由式(7)和式(8)可知,當(dāng)TopN 一定時(shí),召回率和準(zhǔn)確率之間只差一個(gè)常數(shù)項(xiàng),所以下圖只顯示準(zhǔn)確率。在MovieLens100k和MovieLens 1M數(shù)據(jù)集上傳統(tǒng)協(xié)同濾波(CF),基于用戶(hù)屬性的協(xié)同濾波(ABM)和本文提出的混合方法(UABHM)的結(jié)果分別如圖1、圖2所示。

觀察圖1、圖2 與表1、表2 可知,在MovieLens 100k 和MovieLens 1m 數(shù)據(jù)集上,隨著Ka的增大,基于用戶(hù)屬性的協(xié)同濾波準(zhǔn)確率明顯下降,隨著Kc的增大,協(xié)同濾波的準(zhǔn)確率也呈下降趨勢(shì),ABM的準(zhǔn)確率一直低于另兩種方法。當(dāng)K 值較大時(shí),利用的近鄰數(shù)比較多,易出現(xiàn)過(guò)擬合現(xiàn)象。相似地K值較小時(shí),利用的近鄰數(shù)比較少,易出現(xiàn)欠擬合現(xiàn)象。所以在數(shù)據(jù)量較小的Movie Lens 100k 數(shù)據(jù)集上,由于屬性的個(gè)數(shù)較少,特征較為簡(jiǎn)單,Ka較大時(shí)便發(fā)生了過(guò)擬合現(xiàn)象,Kc數(shù)都比較小時(shí)發(fā)生了欠擬合,所以出現(xiàn)了而在MovieLens 100k 數(shù)據(jù)集上,Ka>Kc時(shí),協(xié)同濾波的效果優(yōu)于UABEM,但是隨著Kc的增大,UABEM 的優(yōu)勢(shì)開(kāi)始顯現(xiàn),特別是在Ka>Kc時(shí)更為明顯。而在數(shù)據(jù)量較大的MovieLens 1m 數(shù)據(jù)集上,由于混合方法的存在UABEM的表現(xiàn)一直優(yōu)于協(xié)同濾波。

圖2 MovieLens 1m數(shù)據(jù)集

4.2.2 推薦個(gè)數(shù)TopN對(duì)實(shí)驗(yàn)結(jié)果的影響

隨著TopN 的增加,系統(tǒng)的準(zhǔn)確率會(huì)有一定的下降,召回率會(huì)上升。而召回率和準(zhǔn)確率都是評(píng)價(jià)推薦系統(tǒng)的重要標(biāo)準(zhǔn),所以需要將二者綜合起來(lái),利用F1值對(duì)系統(tǒng)進(jìn)行評(píng)價(jià)。

算法在MovieLens 100k 和Movie Lens 1m 數(shù)據(jù)集上召回率、準(zhǔn)確率和F1 值隨TopN 變化的結(jié)果如圖3~4所示。

由實(shí)驗(yàn)結(jié)果可見(jiàn),在MovieLens 100k 數(shù)據(jù)集上,UABHM 相對(duì)于傳統(tǒng)的協(xié)同過(guò)濾算法,在TopN小于13 時(shí)表現(xiàn)較好,且TopN 越小,優(yōu)勢(shì)越明顯,在TopN 等于3時(shí),召回率、準(zhǔn)確率和F1值分別提升了0.0633%、3.79%和0.934%。出現(xiàn)上述現(xiàn)象的原因應(yīng)該是因?yàn)镸ovieLens 100k 數(shù)據(jù)量本身比較小,所以在TopN 較大時(shí)出現(xiàn)了過(guò)擬合,而傳統(tǒng)的CF 因?yàn)檩^為簡(jiǎn)單,所以受到影響比較小。

圖3 在Ka=5,Kc=15時(shí),MovieLens 100k數(shù)據(jù)集結(jié)果

圖4 在Ka=10,Kc=7時(shí),MovieLens 1m數(shù)據(jù)集結(jié)果

而在MovieLens 1m 數(shù)據(jù)集上,UABHM 的性能有明顯提升,召回率增加了0.0174%至0.225%、準(zhǔn)確率增幅明顯,有1.37%至2.64%的提升,F(xiàn)1 值有00.475%至0.456%的提升。而隨著TopN 值的變化,系統(tǒng)準(zhǔn)確率降低,召回率上升,F(xiàn)1 值也有提升,沒(méi)有出現(xiàn)因TopN 值上升帶來(lái)的總體性能降低的情況。

通過(guò)在MovieLens 100k 和MovieLens 1m 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果分析可知,基于用戶(hù)屬性的協(xié)同濾波缺失能給傳統(tǒng)的系統(tǒng)濾波方法帶來(lái)性能上的提升,而UABHM 在MovieLens 1m 數(shù)據(jù)集上表現(xiàn)更好且優(yōu)勢(shì)明顯,也說(shuō)明數(shù)據(jù)集較小也會(huì)影響算法的性能。

5 結(jié)語(yǔ)

本文提出了基于用戶(hù)屬性的混合推薦方法,將基于用戶(hù)屬性的協(xié)同推薦與傳統(tǒng)協(xié)同推薦的結(jié)果相混合得到新的模型與結(jié)果。通過(guò)在MovieLens 100k 和MovieLens 1m 數(shù)據(jù)集上的實(shí)驗(yàn),可以看到僅僅使用基于用戶(hù)屬性的協(xié)同濾波效果并不好,但是和傳統(tǒng)協(xié)同濾波的結(jié)果相混合后性能得到了提升。且該算法在更為稀疏、數(shù)據(jù)量更大的MovieL-ens 1m數(shù)據(jù)集上表現(xiàn)更好。實(shí)驗(yàn)說(shuō)明數(shù)據(jù)量較小、系統(tǒng)較為復(fù)雜時(shí)易出現(xiàn)過(guò)擬合現(xiàn)象,而用戶(hù)屬性協(xié)同濾波方法的加入帶了新的屬性特征,兩個(gè)利用來(lái)了不同特征的模型的混合確實(shí)能夠?qū)?yōu)點(diǎn)結(jié)合起來(lái),有助于提高推薦系統(tǒng)的性能。

猜你喜歡
用戶(hù)
雅閣國(guó)內(nèi)用戶(hù)交付突破300萬(wàn)輛
您撥打的用戶(hù)已戀愛(ài),請(qǐng)稍后再哭
關(guān)注用戶(hù)
關(guān)注用戶(hù)
兩新黨建新媒體用戶(hù)與全網(wǎng)新媒體用戶(hù)之間有何差別
關(guān)注用戶(hù)
關(guān)注用戶(hù)
挖掘用戶(hù)需求尖端科技應(yīng)用
Camera360:拍出5億用戶(hù)
100萬(wàn)用戶(hù)
主站蜘蛛池模板: 全免费a级毛片免费看不卡| 成年A级毛片| 国产视频自拍一区| 亚洲中文在线视频| 日韩在线永久免费播放| 国产精品亚洲日韩AⅤ在线观看| 国产精品浪潮Av| 免费AV在线播放观看18禁强制| 国产精品成人一区二区| 国产麻豆精品在线观看| 五月婷婷激情四射| 香蕉精品在线| 欧美一级高清视频在线播放| 欧美国产中文| 色婷婷视频在线| 久久久久人妻一区精品色奶水| 韩国福利一区| 91精品国产综合久久香蕉922| 国产91蝌蚪窝| 无码人妻热线精品视频| 免费午夜无码18禁无码影院| 亚洲福利网址| 情侣午夜国产在线一区无码| 一区二区在线视频免费观看| 日韩欧美91| 亚洲国产综合精品一区| 国产91成人| 真人免费一级毛片一区二区| 久久婷婷六月| 五月综合色婷婷| 亚洲国产日韩视频观看| 999国内精品视频免费| 国产精品林美惠子在线播放| 国产综合无码一区二区色蜜蜜| 精品国产成人高清在线| 精品视频在线观看你懂的一区| m男亚洲一区中文字幕| 精品国产成人a在线观看| 中文字幕 日韩 欧美| 午夜视频免费试看| 久一在线视频| 在线观看亚洲成人| 精品国产aⅴ一区二区三区| 免费高清a毛片| 日韩一区二区在线电影| 国内精品视频区在线2021| 成人午夜在线播放| 91麻豆国产视频| 污视频日本| 99这里只有精品免费视频| 日本a∨在线观看| 国产欧美日韩另类精彩视频| 蜜桃臀无码内射一区二区三区 | 亚洲黄色成人| 伊人久久综在合线亚洲91| 国产SUV精品一区二区6| 国产第八页| 国产精品亚洲va在线观看| 久久这里只有精品23| 欧美日本在线观看| 国产精品亚洲一区二区在线观看| 91亚洲精选| 伦精品一区二区三区视频| 国产aaaaa一级毛片| 亚洲欧美日本国产专区一区| 久久香蕉欧美精品| 91福利片| 久久精品无码专区免费| 日本欧美成人免费| 国产成熟女人性满足视频| 国产主播在线观看| 在线欧美一区| 国产成人AV综合久久| 三级毛片在线播放| 亚洲男人的天堂在线| 亚洲永久色| 国产精品一区二区无码免费看片| 久久精品国产国语对白| 亚洲精品国产日韩无码AV永久免费网 | 亚洲成人在线网| 成人福利在线视频| 71pao成人国产永久免费视频|