999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本聚類的用戶聚類在推薦系統中的應用

2016-08-07 04:54:28劉源耿瑞煥
大科技 2016年25期
關鍵詞:文本用戶

劉源 耿瑞煥

(鶴壁汽車工程職業學院 鶴壁 458030)

基于文本聚類的用戶聚類在推薦系統中的應用

劉源 耿瑞煥

(鶴壁汽車工程職業學院 鶴壁 458030)

協同過濾是推薦系統中最重要的技術之一。隨著電子商務用戶和商品數目的增加,在商品空間上用戶評分數據極端稀疏。本文提出一種基于文本聚類的用戶聚類方法,對用戶評論做文本聚類處理,再經過余弦相似性度量,得到用戶聚類,最終做出推薦。實驗結果表明,該方法可以反映用戶的真實興趣,有效的解決了稀疏性問題。

協同過濾;稀疏矩陣;文本聚類;用戶聚類

目前,個性化推薦的應用日益廣泛,已成為Web2.0時代的核心技術。本文提出一種基于文本聚類的用戶聚類方法,對用戶的評分做出預測,在一定的可靠性前提下解決了矩陣的稀疏性問題,提高推薦質量。

1 相關工作

文本聚類根據文檔的某種聯系或相關性對文檔集合進行有效的組織、摘要和導航,方便人們從文檔集中發現相關的信息。

協同過濾推薦算法基于這樣一個假設:

假設1:如果用戶對一些項目的評分比較相似,則他們對其他項目的評分也會比較相似。

基于用戶的協同過濾算法整個過程可以分為以下三步:

步驟1:找出目標用戶的最近鄰居,首先采用用戶-項陣Rm,n表示用戶評分信息,其中m行表示m個用戶,n列表示n個項目,Ri,j表示用戶i對項目j的評分值。

步驟2:計算用戶相似性,找出最近鄰居。

相似性度量方法有余弦相似性、修正的余弦相似性和相關相似性3種,我們選擇相關相似性方法。

相關相似性:設經用戶i和用戶j共同評分的項目集合用Iij表示,相似度 sim(i,j)為:

步驟3:根據相似用戶對同一商品評分相近的假設為目標用戶做出推薦。

2 基于文本聚類的用戶聚類方法

本文本文提出一種基于文本聚類的用戶聚類評分預測算法,以填充稀疏矩陣Rm,n。整個算法分為兩部分。

2.1 離線部分(用戶聚類)

(1)選取聚類中心用戶i;

(2)用余弦相似性度量計算得出同用戶i相似性最高的h-1個用戶與用戶i組成以i為中心,模為h的用戶簇NSi。

2.2 在線部分(評分預測)

若目標用戶i已經在離線階段生成用戶簇NSi,則只需將離線時獲得的用戶簇NSi中所有的h個用戶平均評分作為目標用戶評分預測,填充矩陣 Rm,n。

2.3 理論依據

文本聚類將聚類在一個文本簇的評價的所有發出者(用戶)認為為一個用戶簇Cluster。用類似于用戶-項矩陣Rm,n的用戶-簇矩陣Sm,k來表示用戶與用戶簇簇的關系:

表1

當目標用戶i不同時,NSi也會不同,將個別用戶單獨為中心進行聚類有更高的精確程度。這種聚類可以理解為預處理運算,它的實質是通過對文本聚類得到第一次用戶簇Cluster1~Clusterk,由于這個簇并不是我們需要的用戶簇NSi,所以我們需要進一步計算,以得到的用戶簇Cluster1~Clusterk作為維度進行余弦相似性的計算得到用戶簇NSi。

3 實驗結果及分析

3.1 數據集的選擇

用戶簇-文本簇的關系同論文引用的關系非常相似:每篇引用者論文都可以考慮為一個用戶,每篇被引用論文都可以考慮為一個文本簇。最終選用了一份關于論文引用的數據集,數據集包括了629814篇論文和3021489個引用關系,由于數據集提供者已經將外部引用關系刪除,所以這里所提到的引用,均指內部引用。因此這個數據集可以抽象為一個圖,圖中論文作為一個頂點,引用作為一條邊。將入度最高的12596個頂點的作為被引用論文,將從這些頂點出發的邊全部刪除;剩下的50385個頂點作為引用者論文,將從進入這些頂點的邊全部刪除。若將這些邊看做無向的,則圖變成一個二部圖。它的關聯矩陣即為Sm,k矩陣。其中被引用論文為Cluster,引用者論文為User。

3.2 驗證過程

(1)記成功次數 Ns=0,Nf=0。

(2)隨機抽取值為1的項,將其置0。

(3)根據矩陣 Sm,k求出用戶 i的用戶簇 NSi。

(4)遍歷NSi中除了i以外的所有用戶,統計他們屬于Clusterj的數量,如果超過了NSi的規模h的一半,則Ns+1,否則Nf+1

(5)反復進行步驟2-步驟4,進行k次。得到最終的Ns和Nf。成功率=

3.3 驗證結果及分析

由表2可以看出,當h=15或20時,精度達到了0.61以上,可以認為本文提出的基于文本聚類的用戶聚類方法能夠可靠的反應用戶的興趣聚類情況,當抽樣次數k>5000次時,精度基本穩定。

表2

4 結論

本文提出了一種基于聚類的評分預測模型,通過聚類技術術將具有相似興趣愛好的用戶分配到相同的簇中,用戶簇NSi產生之后,根據簇中其他用戶對商品的評價預測目標用戶對該商品的評價,從而填充稀疏矩陣Rm,n,提高了推薦的質量。實驗表明,這種基于文本聚類的用戶聚類方法是比較可靠的。

[1]姚清耘,劉功申.基于向量空間模型的文本聚類算法.計算機工程.2008,18:39~41

[2]王輝,高利軍.個性化服務中基于用戶聚類的協同過濾推薦.計算機應用,2007,5:1225~1227.

[3]趙 亮,胡乃靜.個性化推薦算法設計.計算機研究與發展,2002,39(8):986~991.

TP319

A

1004-7344(2016)25-0327-02

2016-8-20

劉源(1986-),男,漢族,河南鶴壁人,助教,碩士,主要從事網絡計算、物聯網方向的研究。

猜你喜歡
文本用戶
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 国产拍在线| 五月天在线网站| 欧美在线伊人| 91区国产福利在线观看午夜 | 色九九视频| 国产精品无码久久久久久| 亚洲成在人线av品善网好看| 少妇高潮惨叫久久久久久| 国产手机在线ΑⅤ片无码观看| 国产三级a| 亚洲AⅤ无码日韩AV无码网站| 国产亚洲视频免费播放| 97视频免费在线观看| 亚洲六月丁香六月婷婷蜜芽| 91麻豆国产在线| 538精品在线观看| 国产在线观看第二页| 88av在线看| 97在线免费视频| 亚洲va在线∨a天堂va欧美va| 波多野吉衣一区二区三区av| 97成人在线视频| 欧美精品色视频| www.91在线播放| 国产黑丝一区| 日本高清有码人妻| 国产精品一区二区国产主播| 婷五月综合| 中国一级特黄大片在线观看| 日韩精品亚洲一区中文字幕| 一区二区午夜| 欧美五月婷婷| 爆操波多野结衣| 国产老女人精品免费视频| 亚洲天堂网站在线| 国产成人亚洲综合A∨在线播放| 成年女人a毛片免费视频| 久久99国产乱子伦精品免| 婷婷六月色| 亚洲天堂自拍| 91年精品国产福利线观看久久 | 999精品视频在线| 亚洲香蕉伊综合在人在线| 亚洲综合激情另类专区| 国产精品久久久精品三级| 免费99精品国产自在现线| 国产浮力第一页永久地址| 蝌蚪国产精品视频第一页| 亚洲美女一区| 亚洲第一在线播放| 国产亚洲成AⅤ人片在线观看| 国产69囗曝护士吞精在线视频| 欧洲欧美人成免费全部视频| 国产伦片中文免费观看| 亚洲精品无码AV电影在线播放| 91人人妻人人做人人爽男同| 国产激情无码一区二区三区免费| 无码国内精品人妻少妇蜜桃视频 | 亚洲Aⅴ无码专区在线观看q| 国产亚洲高清在线精品99| 九九热这里只有国产精品| 欧美一区二区三区不卡免费| 亚洲大尺码专区影院| 日韩在线中文| 亚洲伊人天堂| 亚洲第一中文字幕| 婷婷午夜天| 极品私人尤物在线精品首页| 日本成人在线不卡视频| 三区在线视频| 伊大人香蕉久久网欧美| 无码精油按摩潮喷在线播放| 成人午夜亚洲影视在线观看| 亚洲国产第一区二区香蕉| 欧美日韩中文字幕在线| 中文字幕色在线| 国产精品亚洲一区二区三区z| 丰满少妇αⅴ无码区| 午夜激情婷婷| 99久久精彩视频| 美女无遮挡拍拍拍免费视频| 亚洲天堂视频网站|