999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本聚類的用戶聚類在推薦系統中的應用

2016-08-07 04:54:28劉源耿瑞煥
大科技 2016年25期
關鍵詞:文本用戶

劉源 耿瑞煥

(鶴壁汽車工程職業學院 鶴壁 458030)

基于文本聚類的用戶聚類在推薦系統中的應用

劉源 耿瑞煥

(鶴壁汽車工程職業學院 鶴壁 458030)

協同過濾是推薦系統中最重要的技術之一。隨著電子商務用戶和商品數目的增加,在商品空間上用戶評分數據極端稀疏。本文提出一種基于文本聚類的用戶聚類方法,對用戶評論做文本聚類處理,再經過余弦相似性度量,得到用戶聚類,最終做出推薦。實驗結果表明,該方法可以反映用戶的真實興趣,有效的解決了稀疏性問題。

協同過濾;稀疏矩陣;文本聚類;用戶聚類

目前,個性化推薦的應用日益廣泛,已成為Web2.0時代的核心技術。本文提出一種基于文本聚類的用戶聚類方法,對用戶的評分做出預測,在一定的可靠性前提下解決了矩陣的稀疏性問題,提高推薦質量。

1 相關工作

文本聚類根據文檔的某種聯系或相關性對文檔集合進行有效的組織、摘要和導航,方便人們從文檔集中發現相關的信息。

協同過濾推薦算法基于這樣一個假設:

假設1:如果用戶對一些項目的評分比較相似,則他們對其他項目的評分也會比較相似。

基于用戶的協同過濾算法整個過程可以分為以下三步:

步驟1:找出目標用戶的最近鄰居,首先采用用戶-項陣Rm,n表示用戶評分信息,其中m行表示m個用戶,n列表示n個項目,Ri,j表示用戶i對項目j的評分值。

步驟2:計算用戶相似性,找出最近鄰居。

相似性度量方法有余弦相似性、修正的余弦相似性和相關相似性3種,我們選擇相關相似性方法。

相關相似性:設經用戶i和用戶j共同評分的項目集合用Iij表示,相似度 sim(i,j)為:

步驟3:根據相似用戶對同一商品評分相近的假設為目標用戶做出推薦。

2 基于文本聚類的用戶聚類方法

本文本文提出一種基于文本聚類的用戶聚類評分預測算法,以填充稀疏矩陣Rm,n。整個算法分為兩部分。

2.1 離線部分(用戶聚類)

(1)選取聚類中心用戶i;

(2)用余弦相似性度量計算得出同用戶i相似性最高的h-1個用戶與用戶i組成以i為中心,模為h的用戶簇NSi。

2.2 在線部分(評分預測)

若目標用戶i已經在離線階段生成用戶簇NSi,則只需將離線時獲得的用戶簇NSi中所有的h個用戶平均評分作為目標用戶評分預測,填充矩陣 Rm,n。

2.3 理論依據

文本聚類將聚類在一個文本簇的評價的所有發出者(用戶)認為為一個用戶簇Cluster。用類似于用戶-項矩陣Rm,n的用戶-簇矩陣Sm,k來表示用戶與用戶簇簇的關系:

表1

當目標用戶i不同時,NSi也會不同,將個別用戶單獨為中心進行聚類有更高的精確程度。這種聚類可以理解為預處理運算,它的實質是通過對文本聚類得到第一次用戶簇Cluster1~Clusterk,由于這個簇并不是我們需要的用戶簇NSi,所以我們需要進一步計算,以得到的用戶簇Cluster1~Clusterk作為維度進行余弦相似性的計算得到用戶簇NSi。

3 實驗結果及分析

3.1 數據集的選擇

用戶簇-文本簇的關系同論文引用的關系非常相似:每篇引用者論文都可以考慮為一個用戶,每篇被引用論文都可以考慮為一個文本簇。最終選用了一份關于論文引用的數據集,數據集包括了629814篇論文和3021489個引用關系,由于數據集提供者已經將外部引用關系刪除,所以這里所提到的引用,均指內部引用。因此這個數據集可以抽象為一個圖,圖中論文作為一個頂點,引用作為一條邊。將入度最高的12596個頂點的作為被引用論文,將從這些頂點出發的邊全部刪除;剩下的50385個頂點作為引用者論文,將從進入這些頂點的邊全部刪除。若將這些邊看做無向的,則圖變成一個二部圖。它的關聯矩陣即為Sm,k矩陣。其中被引用論文為Cluster,引用者論文為User。

3.2 驗證過程

(1)記成功次數 Ns=0,Nf=0。

(2)隨機抽取值為1的項,將其置0。

(3)根據矩陣 Sm,k求出用戶 i的用戶簇 NSi。

(4)遍歷NSi中除了i以外的所有用戶,統計他們屬于Clusterj的數量,如果超過了NSi的規模h的一半,則Ns+1,否則Nf+1

(5)反復進行步驟2-步驟4,進行k次。得到最終的Ns和Nf。成功率=

3.3 驗證結果及分析

由表2可以看出,當h=15或20時,精度達到了0.61以上,可以認為本文提出的基于文本聚類的用戶聚類方法能夠可靠的反應用戶的興趣聚類情況,當抽樣次數k>5000次時,精度基本穩定。

表2

4 結論

本文提出了一種基于聚類的評分預測模型,通過聚類技術術將具有相似興趣愛好的用戶分配到相同的簇中,用戶簇NSi產生之后,根據簇中其他用戶對商品的評價預測目標用戶對該商品的評價,從而填充稀疏矩陣Rm,n,提高了推薦的質量。實驗表明,這種基于文本聚類的用戶聚類方法是比較可靠的。

[1]姚清耘,劉功申.基于向量空間模型的文本聚類算法.計算機工程.2008,18:39~41

[2]王輝,高利軍.個性化服務中基于用戶聚類的協同過濾推薦.計算機應用,2007,5:1225~1227.

[3]趙 亮,胡乃靜.個性化推薦算法設計.計算機研究與發展,2002,39(8):986~991.

TP319

A

1004-7344(2016)25-0327-02

2016-8-20

劉源(1986-),男,漢族,河南鶴壁人,助教,碩士,主要從事網絡計算、物聯網方向的研究。

猜你喜歡
文本用戶
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 亚洲高清在线天堂精品| 色妺妺在线视频喷水| 国产SUV精品一区二区| 九九视频免费在线观看| 谁有在线观看日韩亚洲最新视频| 91成人试看福利体验区| 最新国产网站| 欧美一区二区自偷自拍视频| 久久国产热| 激情成人综合网| 国产特一级毛片| 在线视频亚洲色图| 2021精品国产自在现线看| 久久精品波多野结衣| 国产一级无码不卡视频| jizz亚洲高清在线观看| 国产精品免费露脸视频| 国产精品嫩草影院av| 精品国产免费观看一区| 国产精品伦视频观看免费| 欧美.成人.综合在线| 香蕉视频国产精品人| 草草影院国产第一页| 黑人巨大精品欧美一区二区区| 国产精品免费电影| 欧美成人手机在线视频| 91 九色视频丝袜| 精品视频一区二区三区在线播| 风韵丰满熟妇啪啪区老熟熟女| 国产成人在线无码免费视频| 99久久国产综合精品2023| 啦啦啦网站在线观看a毛片| 视频在线观看一区二区| 色综合色国产热无码一| 一级毛片在线直接观看| 99视频精品在线观看| 日韩二区三区无| 激情爆乳一区二区| 波多野衣结在线精品二区| 国产精品无码作爱| 在线国产91| 伊人激情久久综合中文字幕| 中日韩欧亚无码视频| 尤物亚洲最大AV无码网站| 国产主播在线一区| 精品国产成人三级在线观看| 免费无码又爽又黄又刺激网站| 国产一级毛片网站| 久久精品视频一| 免费av一区二区三区在线| 青草国产在线视频| 久久久精品无码一二三区| 天天躁夜夜躁狠狠躁图片| 精品午夜国产福利观看| 久久久久国产精品熟女影院| 97精品国产高清久久久久蜜芽 | 亚洲精品第五页| 国产成人精品2021欧美日韩| 国产欧美日韩18| 国产成人久视频免费| 日韩人妻少妇一区二区| 2021国产精品自产拍在线观看| AV熟女乱| 亚洲九九视频| 国产亚洲精品资源在线26u| 亚洲综合激情另类专区| 国产十八禁在线观看免费| 五月婷婷精品| 久久公开视频| 熟女成人国产精品视频| 欧美国产三级| 国产一区二区丝袜高跟鞋| 久久久亚洲国产美女国产盗摄| m男亚洲一区中文字幕| 国产在线观看一区精品| 在线无码九区| 国产精品女熟高潮视频| 欧美亚洲欧美| 色综合a怡红院怡红院首页| 91久久大香线蕉| 中文字幕在线播放不卡| 手机永久AV在线播放|