999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx

基于用戶特征和相似置信度的協(xié)同過濾算法

2019-09-10 10:03:44
測控技術(shù) 2019年8期
關(guān)鍵詞:特征用戶

(河南理工大學(xué) 計算機科學(xué)與技術(shù)學(xué)院, 河南 焦作 454000)

網(wǎng)絡(luò)的普及提高了人們的生活質(zhì)量,每天在我們所生活的這個世界出現(xiàn)了大量的信息,信息的增長速度絕對是一件近乎恐怖的事情——我們稱之為“信息爆炸”[1]。面對如此多的信息,較快地獲取用戶想要的或感興趣的信息變得較為困難。推薦系統(tǒng)可以推薦給用戶有用的信息,減少了用戶獲取信息的時間和精力。協(xié)同過濾推薦技術(shù)是在推薦系統(tǒng)中應(yīng)用最早和最為成功的技術(shù)之一,因其可以充分利用信息間的聯(lián)系,執(zhí)行效率高,能夠得到較好的推薦結(jié)果,因而成為當(dāng)前研究的熱點[2]。

協(xié)同過濾一般采用最近鄰技術(shù),利用用戶的歷史喜好信息計算用戶之間的距離,再利用目標(biāo)用戶的最近鄰居用戶對商品評價的加權(quán)評價值來預(yù)測目標(biāo)用戶對特定商品的喜好程度,從而根據(jù)這一喜好程度來對目標(biāo)用戶進(jìn)行推薦[3]。對于新用戶而言是沒有歷史數(shù)據(jù)的,這就出現(xiàn)用戶冷啟動問題。針對此問題,魏琳東[4]等人采用了矩陣分解的方法和神經(jīng)網(wǎng)絡(luò)映射的知識各自對興趣向量進(jìn)行計算再融合。在現(xiàn)實生活中用戶并不是對每一個項目都進(jìn)行評分等行為,這就帶來評分?jǐn)?shù)據(jù)的稀疏性問題。針對此問題,王竹婷[5]等人用懲罰因子應(yīng)對共同評分項較少的用戶,并用依據(jù)自信息量所得的項目權(quán)值修正傳統(tǒng)的相似度計算方法。

為了緩解算法存在的問題,本文提出一種基于用戶特征和相似置信度的協(xié)同過濾算法(Attributes and Similar Confidence Collaborative Filtering,ASCCF)。將置信度和用戶特征按比例引入到用戶之間的相似性計算,得到較為可靠的用戶最近鄰居集合進(jìn)而計算預(yù)測評分,并將評分從大到小的前N個推薦給用戶。置信度可以避免兩個用戶共同評分項目很少時所帶來的虛假相似現(xiàn)象,用戶特征可以避免新用戶因沒有歷史數(shù)據(jù)所造成的推薦質(zhì)量較低的問題。

1 基礎(chǔ)協(xié)同過濾算法

推薦算法一般包括三步:建立用戶模型、尋找最近鄰居和產(chǎn)生推薦[6]。

1.1 用戶模型的建立

用戶對項目的評分信息一般用R表示,R是一個m×n的矩陣。m表示用戶的數(shù)量,n表示項目的數(shù)量,Rij表示用戶i對項目j的評分。評分在[1~5]之間,用戶的喜好程度與評分大小成正比。

表1 用戶評分矩陣

1.2 尋找最近鄰居集合

目標(biāo)用戶的最近鄰居通過相似度計算來尋找,相似度越大說明兩用戶之間越相似。最常用的相似度計算方法有皮爾遜(Pearson)相關(guān)系數(shù)、余弦(Cosine)相似度和修正的余弦(Adjust Cosine)相似度[7]。

(1) 皮爾遜(Pearson)相關(guān)系數(shù):首先會找出兩位用戶都曾評論過的項目,然后計算兩者的評分總和與平方和,并求得評分的乘積之和。

(1)

(2) 余弦(Cosine)相似度:用向量空間中兩個向量夾角的余弦值作為衡量兩個個體間差異的大小的度量。

(2)

式中,rai、rbi分別為用戶a和用戶b對項目i的打分;simcos(a,b)為兩用戶的余弦相似度。

(3) 修正的余弦(Adjust Cosine)相似度:考慮到每個用戶打分時都打分習(xí)慣的影響,經(jīng)用戶的評分去掉用戶的平均評分來均衡用戶的評分差異。

(3)

式中,rbi為用戶b在項目i上評論分?jǐn)?shù);Ia、Ib分別為兩用戶各自評論的項目集合;sima-cos(a,b)為用戶間調(diào)整的余弦相關(guān)性。

1.3 產(chǎn)生推薦

用以上任一種相似度計算方法進(jìn)行計算,獲取最近鄰居集合之后,利用式(4)對用戶沒有打分的項目進(jìn)行預(yù)測打分,并將預(yù)測分?jǐn)?shù)從大到小取前N個推薦給目標(biāo)用戶。

(4)

式中,Ua為目標(biāo)用戶a的最近鄰居集合;sim(a,b)為皮爾遜相關(guān)系數(shù);prea,i為目標(biāo)用戶a對沒有打分的任一項目i的預(yù)測打分。

2 算法改進(jìn)

2.1 基于置信度的相似度計算

并不是用戶對所有的項目都進(jìn)行評分,由于不同用戶的不同的興趣愛好,所以用戶的打分項目各種各樣,所得到的用戶評分矩陣稀疏度很大。在獲取用戶最近鄰居集合的時候,無法反映用戶的相似喜好,尤其是兩個用戶共同評價的項目只有一個的情況下,他們的相似度很高[8]。

因此,在計算用戶相似度時需要有一個置信度,本文將Jaccard函數(shù)[9]作為置信度的度量函數(shù),公式如下:

(5)

式中,I(a)、I(b)分別為用戶a和用戶b各自打分的項目集合;|I(a)∩I(b)|為兩用戶打分項目的交集數(shù)量;|I(a)∪I(b)|為兩用戶打分項目的總數(shù)量。

將式(5)引入到相似性計算公式(1)中,得到一個改進(jìn)的相似性度量公式,如下:

(6)

式中,S(a,b)為相似置信度。simi(a,b)在一定程度上緩解了兩用戶共同打分項目少時造成的相似虛假現(xiàn)象,提高了推薦的質(zhì)量。

2.2 基于用戶特征的相似度計算

用戶一般擁有用戶編號、年齡、性別、職業(yè)、郵編等基本的信息。這些基本特征在一定程度上會影響著用戶的興趣喜好,擁有相同特征的用戶可能會是相似用戶。這些信息可以分為三類:① 年齡;② 性別;③ 職業(yè)和郵編。在新用戶來臨沒有歷史數(shù)據(jù)的情況下,用戶特征顯得尤為重要,所以將用戶的基本特征引入到相似度的計算中,可以避免用戶冷啟動所帶來的推薦效果不好的問題。

(1) 用戶年齡特征。不同年齡的人喜好會有所不同,比如兒童喜歡動畫片,少年喜歡青春偶像劇,老年人喜歡經(jīng)典影視。兩用戶的年齡差距越小,其喜好相似性越大,超出一定范圍時相似度受年齡的影響微弱。本文中將這一范圍定為10,年齡特征的相似度計算如下:

(7)

式中,UAa、UAb分別為目標(biāo)用戶a和相似用戶b各自的年齡;simage(a,b)為兩用戶的年齡相似度。

(2) 用戶性別特征。性別相同的用戶喜好一般會相同,如女性比較喜歡化妝品,男性比較喜歡汽車等。性別的取值只有兩個,所以性別特征的相似計算公式如下:

(8)

式中,Sa、Sb分別為用戶a和用戶b各自的性別;simsex(a,b)為用戶間性別的相似度。

(3) 用戶標(biāo)稱特征。有相同職業(yè)的人可能有相同的喜好,如學(xué)生常看書籍,醫(yī)生常看病例等;有相同郵編的人說明所處地區(qū)相同,他們可能會對該區(qū)域內(nèi)的一些東西感興趣。對用戶的標(biāo)稱特征的相似計算公式如下:

(9)

式中,n為兩用戶間相同標(biāo)稱特征的數(shù)量;m為用戶標(biāo)稱特征的總數(shù)量;simother(a,b)為標(biāo)稱特征的相似程度。

通過上述所得的各種特征的相似性可以用公式(10)計算用戶a和用戶b在用戶特征上的整體相似度。

(10)

式中,c為用戶特征的分類數(shù);sima(a,b)為用戶特征的整體相似度。本文按用戶各類特征所占比例相同計算。

2.3 基于最終相似度的推薦

改進(jìn)的相似度計算能夠應(yīng)對數(shù)據(jù)稀疏性和用戶冷啟動,把基于用戶特征的相似計算公式與基于置信度的相似計算公式進(jìn)行結(jié)合:先計算基于用戶特征的相似度;再計算基于置信度的相似度;最后將單獨計算所得的兩個相似度按照前者w的比重,后者(1-w)的比重進(jìn)行相加得到最終的相似度。相似計算公式如下:

Fsim(a,b)=wsima(a,b)+(1-w)simi(a,b)

(11)

式中,Fsim(a,b)為用戶的整體相似度。整體相似度越高,說明兩用戶越相似,喜好也越接近,推薦給目標(biāo)用戶的結(jié)果也更符合用戶的需求。

2.4 改進(jìn)的算法描述

Input:用戶評分矩陣Rm×n,用戶特征信息,最近鄰居數(shù)K,目標(biāo)用戶a。

Output:目標(biāo)用戶a的Top-N推薦集。

① 將用戶評分信息轉(zhuǎn)化為用戶評分矩陣Rm×n,利用式(6)計算用戶間的相似程度,獲得simi;

② 利用用戶特征信息,獲取用戶的各類特征,并分別計算用戶間的年齡相似程度simage,性別相似性simsex,標(biāo)稱特征相似程度simother;

③ 將所得的各類特征相似程度代入到式(10)中,從而獲得用戶特征的整體相似程度sima;

④ 把第①步所得的結(jié)果和第③步所得結(jié)果利用式(11)進(jìn)行計算,取得最終用戶相似度,并得到目標(biāo)用戶a的最近鄰居集合Ua;

⑤ 根據(jù)目標(biāo)用戶a的最近鄰居集合Ua和式(4)對未打分的項目進(jìn)行預(yù)測打分,對分?jǐn)?shù)從大到小排序,形成Top-N集合進(jìn)行推薦。

2.5 算法分析

本文的相似度算法與傳統(tǒng)的相似度算法(余弦相似度)復(fù)雜度都為O(n2)。本文中每兩個用戶特征總相似度計算需2次加法,一次除法,開銷很小;計算置信度相似度計算時,在Pearson相關(guān)系數(shù)計算公式之后乘以一個置信度。而文獻(xiàn)[5]在計算相似度時,在Pearson相關(guān)系數(shù)計算公式中為每個項目增加權(quán)值。兩相比較知本文算法的開銷小于文獻(xiàn)[5]中算法的開銷。

3 實驗結(jié)果及分析

3.1 實驗數(shù)據(jù)

實驗選取的MovieLens數(shù)據(jù)集,是由GroupLens研究小組在明尼蘇達(dá)大學(xué)研究項目上收集的。其中包括943個用戶對1682部電影的100000條評分記錄[10]。用戶的打分最低為1,最高為5,所打的分?jǐn)?shù)與用戶的喜歡程度成正比。根據(jù)數(shù)據(jù)稀疏性公式可以計算該數(shù)據(jù)集的數(shù)據(jù)稀疏度[11]。

(12)

式中,Spa為數(shù)據(jù)集的稀疏程度;num為打分總數(shù)量;m為用戶的數(shù)量;n為項目的數(shù)量。用式(12)計算得到該數(shù)據(jù)集的稀疏程度為93.69%。

3.2 評測標(biāo)準(zhǔn)

推薦系統(tǒng)準(zhǔn)確性測量分為3類:預(yù)測準(zhǔn)確測量(如MAE、RMSE)、分類準(zhǔn)確測量(如ROC曲線)和排序準(zhǔn)確測量[12]。本文采用平均絕對誤差(Mean Absolute Error,MAE)作為度量標(biāo)準(zhǔn),MAE的定義如下[13]

(13)

3.3 實驗結(jié)果分析

在數(shù)據(jù)集中給出了5個訓(xùn)練集(u1.base,u2.base,u3.base,u4.base,u5.base)和5個測試集(u1.test,u2.test,u3.test,u4.test,u5.test)。隨機選取一個訓(xùn)練集和與其相對應(yīng)的測試集進(jìn)行實驗。

改進(jìn)的相似度計算是由基于置信度的相似計算公式與基于用戶特征的相似計算公式用一個因子w進(jìn)行結(jié)合得到的。對于新用戶而言,沒有歷史數(shù)據(jù)作為推薦的依據(jù),此時用戶的特征起到主要作用;對于老用戶而言,大量的歷史數(shù)據(jù)可以為用戶提供充足的依據(jù),此時用戶的特征作用會有所減小,所以理論上w取值在0~0.5之間。下面由實驗進(jìn)一步來確定w的最佳取值。

w的值從0開始取間隔為0.1,到1為止,w=0表示相似性計算公式中只有置信度,w=1表示相似性計算公式中只有用戶特征,不同w的取值所得的MAE值結(jié)果如圖1所示。從圖1可以看出w在取0.1時,MAE取值最小,算法效果最好。

圖1 不同w的取值與所得MAE

目標(biāo)用戶的最近鄰居數(shù)的不同取值對MAE也有一定的影響,最近鄰居數(shù)越小,用戶冷啟動的可能性越大。利用上述實驗所得結(jié)果,將w的值定為0.1,最近鄰居數(shù)從10開始間隔為10直到100為止,計算不同鄰居數(shù)下的MAE值大小,結(jié)果如圖2所示。從圖2中可以知道用戶最近鄰居數(shù)最小時MAE取值最小,這就說明改進(jìn)的協(xié)同過濾算法的推薦質(zhì)量在用戶冷啟動時有所提高。

圖2 不同最近鄰居數(shù)下的MAE取值

為更好地體現(xiàn)改進(jìn)的協(xié)同過濾算法的效果,將本文的改進(jìn)算法(ASCCF)與傳統(tǒng)的協(xié)同過濾算法(修正余弦相似度)和文獻(xiàn)[5]的改進(jìn)算法相比較。用戶最近鄰居數(shù)從10開始間隔為10依次增加到100 為止,比較不同鄰居數(shù)量下各自算法的MAE取值。所得的實驗結(jié)果如圖3所示。從圖3可知,最近鄰居很少時本文的算法結(jié)果最好,隨著最近鄰居數(shù)量的增加,本文改進(jìn)的協(xié)同過濾算法所得的MAE值雖然有所增大,在70點處與文獻(xiàn)[5]相同,80點處比文獻(xiàn)[5]好,最近鄰居數(shù)大于85時稍遜色與文獻(xiàn)[5],但依然比傳統(tǒng)算法的MAE值小,所以本文改進(jìn)的算法更適用于最近鄰居數(shù)小的情況。

圖3 3種方法的比較

4 結(jié)束語

本文針對算法中存在的數(shù)據(jù)稀疏和用戶冷啟動問題,對最初的傳統(tǒng)過濾算法進(jìn)行改進(jìn),提出一種基于用戶特征與相似置信度的協(xié)同過濾算法。置信度的引入讓兩用戶在共有打分項目較少情況下,減少了兩用戶間相似的假象,用戶相似度得到保證進(jìn)而提高了推薦的準(zhǔn)確性。用戶特征的加入,讓新用戶通過自身特征計算用戶間的相似程度,避免了冷啟動所帶來的困擾,進(jìn)而保證了推薦的質(zhì)量。再用一個因子將兩種相似度計算方法聯(lián)系起來,控制各自所占比重計算用戶間最終相似程度,獲取目標(biāo)用戶的K個最近鄰居集進(jìn)行預(yù)測打分,按照打分的高低形成Top-N推薦給目標(biāo)用戶。實驗表明,在評分矩陣稀疏和冷啟動的情況下,本文改進(jìn)的算法效果很好。但沒有考慮用戶的興趣會隨時間的變遷而發(fā)生變化,在最近鄰居數(shù)越大的情況下算法也有待改進(jìn),因此考慮用戶興趣的時間有效性和在較大最近鄰居數(shù)下提高推薦質(zhì)量將是本文的下一步研究。

猜你喜歡
特征用戶
抓住特征巧觀察
新型冠狀病毒及其流行病學(xué)特征認(rèn)識
如何表達(dá)“特征”
不忠誠的四個特征
抓住特征巧觀察
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
100萬用戶
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
主站蜘蛛池模板: 日韩亚洲高清一区二区| 2018日日摸夜夜添狠狠躁| 国产一区二区三区在线无码| 国产无码网站在线观看| 欧美精品成人| 国产剧情一区二区| 久操中文在线| 五月天久久婷婷| 日本成人福利视频| 午夜精品久久久久久久99热下载 | 欧美激情视频在线观看一区| 国产一二三区视频| 99久久精品国产精品亚洲| 亚洲久悠悠色悠在线播放| 91精品国产一区| 天堂在线亚洲| 97在线观看视频免费| 亚洲swag精品自拍一区| 欧美日韩激情在线| 天堂岛国av无码免费无禁网站| 国产99精品视频| 亚洲色图欧美视频| 激情国产精品一区| 丁香婷婷激情网| 欧美精品1区| 伊伊人成亚洲综合人网7777| 成人一级免费视频| 91亚洲免费视频| 国产精品成人不卡在线观看| 在线观看亚洲人成网站| 久久精品波多野结衣| 欧美A级V片在线观看| 91精品啪在线观看国产60岁| 人人看人人鲁狠狠高清| 国产在线视频自拍| 日韩一二三区视频精品| 老司国产精品视频91| 国产精品护士| 手机在线国产精品| 片在线无码观看| 手机看片1024久久精品你懂的| 精品1区2区3区| 中文字幕资源站| 欧美日韩午夜| 亚洲欧美成aⅴ人在线观看| 一级成人a做片免费| 日韩第九页| 熟女日韩精品2区| 在线视频97| 40岁成熟女人牲交片免费| 中国国语毛片免费观看视频| 亚洲视频四区| 无码国产偷倩在线播放老年人| 狠狠做深爱婷婷综合一区| 自拍偷拍一区| 美女一级毛片无遮挡内谢| 亚洲国产精品美女| 欧美成人a∨视频免费观看| 亚洲精品视频网| 国产香蕉97碰碰视频VA碰碰看| 国产成人综合在线观看| 久久精品国产999大香线焦| 欧美激情视频一区| 亚洲区一区| 久久久久人妻精品一区三寸蜜桃| 精品人妻一区无码视频| 强奷白丝美女在线观看| 中文成人在线视频| 国产欧美精品一区二区| 中文字幕无线码一区| 熟女成人国产精品视频| 中文字幕免费播放| 日韩在线永久免费播放| 久久精品91麻豆| 亚洲视频免费在线看| 久久国产香蕉| 国产国产人免费视频成18| 欧美国产在线看| 91无码国产视频| 亚亚洲乱码一二三四区| 99re视频在线| 在线观看热码亚洲av每日更新|