999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于TF-IDF與用戶聚類的推薦算法

2022-07-20 02:34:28林振榮黃虹霞舒偉紅劉承啟
計算機仿真 2022年6期
關鍵詞:特征用戶

林振榮,黃虹霞,舒偉紅,劉承啟

(南昌大學信息工程學院,江西 南昌 330031)

1 引言

在一些協同過濾算法中,物品或其他用戶之間的相似度系數計算常是影響推薦效果的重要因素。通常在數學研究中,余弦相似度和皮爾森系數是較為常用到的計算公式。但是由于用戶-物品矩陣存在數據稀疏等問題,使得上述相似度計算方法存在著相似度失真的現象,進而導致推薦結果不準確,很大程度上影響了用戶體驗。

為了提升用戶對推薦物品的體驗感,近年來,隨之提出對相似度計算改進的理論逐步增多。張俐提出的一種自適應局部和全局融合的協同過濾算法理論,通過增加自適應加權系數來提高用戶之間相似性度量的準確性。柯翔敏和陳江提出一種改進的基于興趣相似度的推薦算法,提出了逆流行度和共同興趣2個定義,通過對用戶興趣權重采用事物流行度進行分配,并將用戶共同偏好的事物數量運用到相似度計算中,建立一種新的推薦模型。程小林和熊焰將基于物品與基于用戶的兩種推薦方法進行融合,通過利用預測置信度進行加權得出結果,該模型的優點是使得推薦的準確度提高了,但同時也帶了時間等資源消耗的問題,在實際生活中難以運用。

綜上可以看出,很多推薦算法的研究都試圖從各個方面對相似度計算進行改進,但是對物品特征的考慮不足,即物品具有的特征對相似的程度是有影響的,不能夠單純只考慮用戶對物品的評價信息。例如在日常生活中,人們對于同一類商品中,不同品種的商品喜歡某一類是具有一定偏好的,比如在購物時,用戶對某一色彩更加喜愛,在選擇時往往偏向于購買該色彩的商品。基于上述的思考,本文將充分的利用物品的特征信息,建立相關模型。

本文在先介紹熟知的基于用戶的推薦算法之后,接著介紹提出的基于TF-IDF(term frequency-inverse document frequency,Inverse Document Frequency詞頻-逆文本頻率指數)與用戶聚類的推薦算法:通過介紹TF-IDF算法,用該算法計算得到用戶-物品-特征TF值矩陣,使用該矩陣與用戶身份屬性信息合并后進行聚類,產生較小的用戶數據集,緊接著計算物品特征的TF-IDF值,利用該值通過加權的方式修改評分數據用來改進相似度計算公式;最后,為用戶生成推薦列表。然后,進行相關的實驗去驗證所提出的算法模型。最后總結了本文的工作和研究展望。

2 基于用戶的協同過濾推薦算法

基于用戶的協同過濾算法的思路是通過收集目標用戶以往對物品進行過評價的數據,分析出目標用戶感興趣的項,并將此信息與其他用戶的此類信息進行比較,找出與目標用戶興趣相似的用戶,互相之間可以進行物品推薦。其算法步驟主要有2個:

1) 比較目標用戶與其他用戶興趣的相似程度,得到與目標用戶相似的用戶集合

2) 在相似用戶集合中,通過一定的比較方法,將相似用戶偏好的物品推薦給目標用戶。

2.1 數據集描述

為了更好的說明用戶之間的相似程度,將用戶對物品的感興趣程度具體轉化為評分指標。假設用戶-物品之間的關系

R

*如下表所示,表中

m

是用戶個數,

m

={

x

x

x

x

},

n

是物品數,

n

={

i

i

i

i

}。用戶-物品評分矩陣的數據表示用戶對物品的打分值,取值為區間[1,5]的整數值,值越高,意味著用戶對該項更加喜愛;0值則表示該用戶未進行評分,見表1。

表1 用戶-物品評分矩陣

2.2 相似度計算

在上文介紹到的算法中,找到興趣相似的用戶集合至關重要,普遍研究中,使用到的是余弦相似度計算。其計算公式使用下列式(1)所示。該公式需要篩選出需要進行比較的用戶x,y共同評分過的物品集合n,i表示物品集合中具體的某個物品,r,r分別表示兩者對物品i的評分值。

(1)

由于上式計算結果大小意味著兩用戶之間的相似程度高低,因此,對用戶集合通過相似度公式計算后得到的多個結果進行降序排序,并選取一定數量的用戶,便可以組成相似用戶集合m。

2.3 預測評分得出推薦物品給目標用戶

在得出相似用戶集合m后,定義

Δ

n為目標用戶需要預測評分的物品集合,

Δ

n={i,i,i……},使用下列式(2)將

Δ

n中的物品依次進行評分值預測。

(2)

式(2)中

sin

(x,y)為目標用戶x與用戶集m中用戶y之間的利用式(1)計算得到的值,r是相似用戶y對集合

Δ

n中物品i的實際評分值,結果值G是目標用戶預測值。目標用戶利用式(2)在對集合

Δ

n中所有項預測之后,預測評分值越高意味著目標更容易感興趣,將該值降序排序,其相對應的物品取排序較前的N個即TOP-N項進行推薦。

3 基于TF-IDF與用戶聚類的推薦算法

上文中在利用余弦相似度計算得出了相似用戶集時,該方法只考慮用戶對同一物品進行打分,而忽略了用戶之間身份屬性信息的相似度;并且在推薦某個物品時,沒有充分考慮到該物品特征的重要性,基于上述的問題,本文將提出相應的方法予以解決。

3.1 相關數據集

首先為建立用戶-物品-特征數據集,需要收集物品所擁有的全部特征及某用戶所評分過的物品所具有的特征。

假設收集到的全部物品所擁有的特征個數為F,用戶評分過n個物品;當該用戶評分過的物品不具有該特征時,值為0;值為1則表示物品具有該特征。

因此,某用戶所具有的用戶-物品-特征數據集可以用一個向量表來統計,其值如表2所示。

表2 用戶-物品-特征數據集

3.2 TF-IDF算法

TF-IDF是一種統計方法。TF是詞頻,表示在一份文章中統計某一個詞出現的頻率。求解某個關鍵詞w的TF值需要兩個重要參數:一是規定的關鍵詞w出現的次數;二是該文檔的總詞數。將這兩個參數相除便可以得到結果。其公式如下式(3)所示。

(3)

為了更好的將文檔之間類別進行區分,如果包含關鍵字w的文檔較少,則意味著關鍵字w具有良好的類別區分能力。用IDF(逆文本頻率指數)概念來解釋,該值的計算方法是假設在一個文檔庫中,統計包含關鍵字w的文章數目,并且也統計該文檔庫中文章總數,按照下列式(4)進行計算:

(4)

對于關鍵字w,如果其預測主題的能力越強,其權重也隨之增強,反之,一個較弱的關鍵詞所具有的權重就越低。由此計算一個詞的TF-IDF的式(5)如下所示

(

TF

-

IDF

)=

TF

*

IDF

(5)

根據上述TF-IDF的定義,在本文中為了充分利用用戶所評分過的物品所具有的特征,設S為某一物品所擁有的全部特征個數,對于某用戶評分過的所有物品中某一特征w的TF式(6)如下:

(6)

式中

num

(

w

)表示在用戶評分過的物品中,物品特征

w

出現的次數,∑

num

(

s

)表示物品全部的

S

個特征出現的次數之和。

TF

為物品特征

w

在所有評分過的物品中出現的次數除以用戶評分過的物品全部的

S

個特征出現的總次數,該值可用來表示目標用戶對于某一特征的偏好。

TF

值大小與用戶感興趣程度呈正相關。運用該式(6),結合上文所說的用戶-物品-特征數據集,由此便可以獲得用戶-物品-特征

TF

值矩陣。同樣對于目標用戶所評分過的所有物品中某一特征

w

IDF

定義式(7)如下:

(7)

該公式能得到物品的代表特征,更好地將物品之間做區分。計算方法是先統計某一用戶評分過的物品總數,在其中統計包含特征

w

的物品數,根據上述公式計算后便可以得到該特征的

IDF

的值。根據式(6)(7),對于某用戶來說,其所評分過的物品含有的特征的

TF

-

IDF

值式(8)如下

P

=

TF

*

IDF

(8)

式中

P

為特征

w

的TF值與IDF值乘積,根據以上公式,用戶評分過的物品特征都可以計算出該特征的

TF

-

IDF

P

3.3 融合物品特征TF值的用戶聚類

本文對用戶采用融合物品特征TF值的聚類方法去為目標用戶縮小需要比對用戶集合數目,做法如下:將用戶身份屬性信息及上文提到的用戶-物品-特征TF值矩陣合并,采用K-means算法進行聚類分析。

該算法的流程圖如圖1所示。

圖1 算法流程圖

3.4 改進相似度的算法

(9)

其中

β

*=∑

P

*

r

*在上式中,類似地,在

n

′中找到共同評分過的物品集合,該集合設為

n

″,

n

″={

i

i

i

…},

F

則表示集合

n

″中每個物品

i

所含有的特征個數,

F

={

f

f

f

…},

P

表示該物品每一個特征

TF

-

IDF

值。

β

*等于該物品所具有的每一個特征的

P

值求和,再乘上用戶的原始評分

r

*。同理可得用戶

y

的改進后

β

*。最后,在計算得出相似度值后,需要修改評分預測公式,將

P

值添加進上文的式(2),推出新的式(10)如下

(10)

new

sin(

x

y

)為上文式(9)所求得到的相似度值。同樣,選取

N

個排序較前的物品形成了TOP-N項,將TOP-N項進行推薦。

4 實驗分析與結果

4.1 實驗環境與數據集

本文的實驗環境如下:ASUA筆記本,8G內存,8核處理器,win10 64位系統旗艦版。

本文實驗采用的是Grouplens網站上發布的MovieLens-1M數據集,該數據集包括了users,movies,ratings.dat三個數據文件。在文件movie.dat文件中對電影的類型已經做好了類別區分,該分類有效的區分了各種電影,所以,可以將所有特征的IDF值都設為固定值。

4.2 實驗評價指標

1) 精確度(Precision)

精確度是指在TOP-N項中,將用戶所感興趣的物品個數與推薦物品個數N的相除計算得到。精確度值可以用來衡量推薦性能的高低,并且二者呈正相關。

精確度計算式(11)如下

(11)

式中,

l

由用戶感興趣的物品與TOP-N中取交集后產生的個數。

2) 召回率(Recall)

召回率是指在TOP-N項中,將用戶感興趣的物品數量與TOP-N項中用戶感興趣物品數量相除計算得到。并且召回率與推薦性能呈正相關。召回率計算式(12)如下:

(12)

式中,

N

表示在TOP-N項中,用戶感興趣的物品數。

3) F-Measure

在使用評價指標精確度和召回率時往往會出現相矛盾的情況,通常會分析F-Measure曲線來綜合考慮它們之間的關系。可用F-Measure來衡量推薦的性能高低,并且該值越大,說明推薦的性能越優。F-Measure的計算式(13)如下

(13)

通常使用的F1就是當參數a取值為1時,其式(14)如下

(14)

4.3 實驗分析

本文中實驗采用TOP-N方法進行推薦。實驗分為訓練集的60%和測試集的40%。

實驗過程主要分為二大類:

1) 參數對推薦模型的影響

利用K-means算法得到不同簇的情況下,相鄰用戶一定時K=35(這里K指與目標用戶相鄰的用戶個數),推薦列表的長度變化的影響。

圖2 簇為5的TOP-N折線圖

圖3 簇為15的TOP-N折線圖

圖4 簇為45的TOP-N折線圖

由圖2,圖3,圖4可知,在聚類所分簇數一定的情況下,隨著TOP-N的數目增加,精確度在不斷的下降,之所以產生這種現象,是因為隨著推薦數目的增多,系統將會把排序越后的物品也進行推薦,但該物品極有可能是目標用戶不喜歡的物品。但是,召回率在不斷上升。因此,采用觀察在所分簇數不同的情況下各圖F1值,由圖2,圖3,圖4可知均呈上升趨勢。由此可以推出,各簇的推薦準確度不斷上升。

如圖圖5是簇為5、簇為15和簇為45的情況下,各F1值比較圖線。由圖5可以推出,隨著聚類所分的簇數越多,所產生的F1值在推薦數目大于15個之后,逐漸上升,推薦效果越好。因此,可以得出通過用戶身份屬性及用戶-物品-特征的TF值矩陣所產生的聚類生成簇數越多的情況下,形成的比對用戶集中需要比對的數目越小,更能夠為目標用戶找到相似的用戶,再利用改進后的融合物品特征的相似度計算公式,其最終產生的推薦效果更優。

圖5 不同簇的F1折線圖

2) 與傳統協同過濾方法的比較

將比較本文提出的方法在不同簇的情況下與傳統的余弦相似度的方法進行F1值的比較。圖6中是聚類所分簇為5、簇為15和簇為45的F1值隨推薦數目不同的曲線與該情況下余弦相似度F1值得到的F1-cos 曲線。根據圖6可以得出,在TOP-N取值逐步上升時,本文所分簇類F1值均高于傳統的余弦相似度的計算。

圖6 不同簇的F1值與傳統協同過濾方法的比較折線圖

5 結束

通過實驗可以得出:本文提出的一種基于TF-IDF與用戶聚類的推薦算法,在相似度計算和使用聚類算法時充分利用物品的特征信息,能夠有效提高推薦的精確度。但在研究中,對于用戶不同時期的特征偏好,以及外部原因的影響,如社交媒體的宣傳,時尚流行度等,使得用戶對某一特征偏好的改變不能夠進行及時修正,下一步將進行完善研究。

猜你喜歡
特征用戶
抓住特征巧觀察
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 免费在线国产一区二区三区精品| 亚洲三级色| 色悠久久综合| 精品人妻无码区在线视频| 成人国产三级在线播放| 潮喷在线无码白浆| 亚洲成人77777| 美女免费精品高清毛片在线视| 国产一二三区在线| 国产精品久久久免费视频| 国产成人91精品免费网址在线| 国产精品欧美日本韩免费一区二区三区不卡| 久久亚洲天堂| 欧美第二区| 国产噜噜噜| 日韩成人在线视频| 亚洲成a人在线播放www| 一本大道无码日韩精品影视| 天堂av高清一区二区三区| 国产精品久久久久无码网站| 亚洲最新网址| 99在线观看视频免费| 成人在线不卡视频| 国产区91| 久久国产亚洲偷自| 视频一本大道香蕉久在线播放| 国产国语一级毛片| 最新国产精品鲁鲁免费视频| 国产日韩精品欧美一区喷| 无码aaa视频| 亚洲天堂视频网站| 欧美国产综合视频| 久久这里只有精品2| 亚洲欧洲AV一区二区三区| 久久www视频| 九九热视频精品在线| 国产欧美成人不卡视频| 思思热精品在线8| 国产成人盗摄精品| 日本黄色不卡视频| 伊在人亞洲香蕉精品區| 国产精品吹潮在线观看中文| 美女免费精品高清毛片在线视| 欧美激情二区三区| 亚洲欧美自拍一区| 午夜影院a级片| 国产一级视频在线观看网站| 伊人久久久大香线蕉综合直播| 日韩欧美高清视频| 丁香综合在线| 91福利片| 亚洲国产日韩视频观看| 久青草免费在线视频| 在线观看国产精品第一区免费| 精品国产福利在线| 日韩精品亚洲一区中文字幕| 999福利激情视频 | 亚洲欧美日韩中文字幕在线| 久爱午夜精品免费视频| 性网站在线观看| 人妻熟妇日韩AV在线播放| 国产成人亚洲综合A∨在线播放| 亚洲高清国产拍精品26u| 日本午夜视频在线观看| 911亚洲精品| 一区二区欧美日韩高清免费| 亚洲成年网站在线观看| 精品久久久久成人码免费动漫| 亚洲免费黄色网| 欧美亚洲激情| 国产一区二区三区夜色| 国产在线观看91精品| 99精品伊人久久久大香线蕉| 久久99热这里只有精品免费看| 国产99精品视频| 国产香蕉97碰碰视频VA碰碰看| 亚洲IV视频免费在线光看| 国产一级α片| 亚洲国产成人超福利久久精品| 不卡国产视频第一页| 亚洲精品福利视频| 亚洲国产在一区二区三区|