999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于信任關(guān)系的微博信息個性化推薦算法

2016-10-21 03:21:11閆龍
電子技術(shù)與軟件工程 2016年5期

閆龍

摘 要 微博巨大的用戶數(shù)量和飛速增長的海量信息帶來了微博“信息過載”問題。而目前多數(shù)研究主要是解決微博用戶關(guān)系網(wǎng)絡(luò)中的用戶推薦問題,對于微博信息的推薦還沒有行之有效的解決方法。針對上述問題,提出了一種基于微博用戶信任關(guān)系的微博信息推薦算法,將微博用戶關(guān)系數(shù)據(jù)結(jié)構(gòu)化處理并計算用戶間信任程度,基于TF-IDF計算微博信息與用戶的話題相關(guān)度,結(jié)合上述因素對用戶的微博信息列表進行TopN推薦。實驗表明,該方法能夠有效解決微博中的“信息過載”問題,提高用戶的信息獲取效率。

【關(guān)鍵詞】微博信息推薦 信任度 話題相關(guān)度 信息過載

微博的興起,成為Web2.0 時代一個具有代表性的網(wǎng)絡(luò)現(xiàn)象,它讓人們通過虛擬的網(wǎng)絡(luò)來獲取海量實時的信息,但正是由于用戶獲取的信息是海量的,從而出現(xiàn)了一個很嚴重的問題,就是 “信息過載”問題。“信息過載”是指過量信息同時呈現(xiàn)使用戶很難從中獲取對自己有用的部分,使得信息使用效率降低。推薦系統(tǒng)作為解決信息過載問題的重要手段,是當前解決社交媒體中信息超載問題的最有效的方法之一[1]。

本文的主要工作如下:

(1)利用微博中的社會化標注計算用戶相似度,并計算用戶信任度。

(2)針對微博特點,提出了MB-StreamRank算法,結(jié)合用戶信任度、微博信息與用戶的話題相關(guān)度、用戶對微博的操作權(quán)重以及時間衰減因素,對用戶微博信息進行個性化排序,給出TopN推薦結(jié)果。

(3)通過在騰訊微博實際數(shù)據(jù)集上進行實驗,MB-StreamRank算法顯示出較好的微博信息推薦性能。

1 微博數(shù)據(jù)特征描述

微博結(jié)構(gòu)信息是指用戶關(guān)系結(jié)構(gòu)信息,包括用戶關(guān)注和粉絲信息,如圖1所示。

定義1:使用有向圖定義微博中的用戶關(guān)系,其中是頂點集合,代表所有用戶,是邊集合,中任一有向邊表示用戶關(guān)注,而定義了邊的權(quán)重,用來表示對的信任程度。

定義2:對于任意節(jié)點,定義為頂點指向的頂點集合,即用戶關(guān)注的用戶集合;定義為指向頂點的頂點集合,即用戶的粉絲集合。

定義3:定義帶權(quán)重的有向圖為轉(zhuǎn)發(fā)關(guān)系圖,集合中的任一邊表示用戶轉(zhuǎn)發(fā)了的微博信息,其權(quán)重定義了用戶轉(zhuǎn)發(fā)用戶的微博的次數(shù)。定義有向圖為關(guān)系圖,集合中的任一邊表示用戶了,其權(quán)重定義了用戶用戶的微博信息數(shù)目。

2 MB-StreamRank微博信息推薦算法

2.1 基于TF-IDF的話題相關(guān)性計算

Term Frequency-Inverse Document Frequency(TF-IDF)權(quán)重[2]是一種廣泛使用的對于簡單TF值進行改進的權(quán)重值。IDF是它的改進部分。TF-IDF在簡單的TF值上,乘上一個項目文檔頻度的倒數(shù),作為向量的權(quán)重。TF-IDF降低了那些停頓詞對權(quán)重的影響。

2.2 用戶行為時間衰減

2.3 結(jié)果

基于微博用戶信任關(guān)系的MB-StreamRank算法是通過對用戶信任程度、用戶相似度和時間衰減等因素的考量,從而獲得對用戶微博信息的個性化排序,得到其TopN推薦結(jié)果。

3 實驗與分析

3.1 數(shù)據(jù)集及預處理

本文以騰訊微博為實驗平臺,利用其開放平臺提供的API,采集了以2012年10月18日為起點的三個月的的數(shù)據(jù),并將采集到的數(shù)據(jù)分為4類:

(l)用戶信息,包括用戶ID、昵稱、地址等;

(2)微博結(jié)構(gòu)信息,即用戶的關(guān)系數(shù)據(jù),包括用戶的關(guān)注列表和粉絲列表;

(3)微博信息,即用戶的微博信息列表;

(4)轉(zhuǎn)發(fā)及評論列表,即采集到的微博信息的轉(zhuǎn)發(fā)及評論列表。共采集了1251個用戶的關(guān)注結(jié)構(gòu)信息以及約合625541條微博。

3.2 推薦算法評價方法

實驗一:確定用戶信任度的加權(quán)系數(shù)

為了確定用戶信任度的加權(quán)系數(shù),分別對且(精度為0.1)的84種可能取值情況對算法進行測試(時間衰減因子取值0.5)。為了更好地進行測試,本文從采集到的微博結(jié)構(gòu)信息中人工篩選了100位用戶及其關(guān)注和粉絲信息。以9:1的比例進行訓練和測試,并反復進行7次,測試信任度計算結(jié)果的值。其中為給用戶提供的推薦信息,是測試集中的真實數(shù)據(jù),即用戶微博列表中用戶感興趣的信息(用戶已轉(zhuǎn)發(fā)或評論的微博信息)。

3.3 實驗三:時間衰減因子

為了確定時間衰減因素中的衰減因子,本文從采集到的微博信息中人工篩選了50位用戶及其能夠獲取到的微博信息中的20000條數(shù)據(jù),反復7次以9:1的比例進行訓練和測試,計算推薦結(jié)果的值。實驗結(jié)果表明,當衰減因子=0.6時,取得最大值0.0586。因此,針對本文的數(shù)據(jù)集,衰減因子取值為0.6。

4 結(jié)束語

通過在采集到的騰訊微博數(shù)據(jù)集上進行實驗,驗證了算法效果。但由于算法部分內(nèi)容復雜度較高,所以算法還未能做到海量信息實時推薦。目前采取的是定周期離線推薦,這也是下一步要研究的一個重要問題。

參考文獻

[1]P.Resnick,H.R.Varian.Recommender systems,Commun.ACM,vol.40,iss.3, pp.56-58,1997.

作者單位

陜西省咸陽市渭城區(qū)清泰街郵局 陜西省咸陽市 712000

主站蜘蛛池模板: 亚洲嫩模喷白浆| 欧美日韩综合网| 一区二区三区毛片无码| 99er这里只有精品| 亚洲成aⅴ人在线观看| 日韩国产另类| 一区二区三区国产| 国产色网站| 国产国模一区二区三区四区| 国产在线精品网址你懂的| 色偷偷一区二区三区| 香蕉精品在线| 欧洲精品视频在线观看| 蜜桃视频一区二区三区| 亚洲国产亚洲综合在线尤物| aaa国产一级毛片| 黄色网址免费在线| 久草网视频在线| 99视频精品全国免费品| 国产人成网线在线播放va| 精品91在线| 青青久视频| 亚洲国产成人麻豆精品| 爆乳熟妇一区二区三区| 国产精品无码久久久久久| 九色视频在线免费观看| 特级aaaaaaaaa毛片免费视频| 五月天久久婷婷| aⅴ免费在线观看| 国产精品免费入口视频| 国产农村妇女精品一二区| 国产精品综合久久久| 欧美亚洲一二三区| 性视频久久| www.99在线观看| 最新亚洲人成网站在线观看| 91人妻在线视频| 日韩人妻精品一区| 久久久久国产一区二区| 欧美激情网址| 99999久久久久久亚洲| 秋霞一区二区三区| 亚洲人精品亚洲人成在线| 99热这里只有精品2| 无码中文字幕精品推荐| 97国内精品久久久久不卡| 亚洲av片在线免费观看| 亚洲精品综合一二三区在线| 久草中文网| 青青网在线国产| 最新国产高清在线| 亚洲AV无码精品无码久久蜜桃| 国产成人亚洲毛片| 国产白浆在线| 欧美视频免费一区二区三区 | 欧美va亚洲va香蕉在线| 亚洲精品成人片在线播放| 日韩欧美中文| 欧美日一级片| 美女扒开下面流白浆在线试听 | 东京热av无码电影一区二区| 精品国产美女福到在线直播| 国产亚洲精品va在线| 精品视频一区在线观看| 国产特级毛片| 高潮毛片无遮挡高清视频播放| 久久人搡人人玩人妻精品| 亚洲精品大秀视频| 国产成人一级| 91青青草视频在线观看的| 亚洲国产清纯| 久久久久久尹人网香蕉| 日韩123欧美字幕| 超碰aⅴ人人做人人爽欧美 | 中文字幕无码中文字幕有码在线 | 亚洲乱码在线视频| 一本二本三本不卡无码| 亚洲精品无码久久毛片波多野吉| 欧美成人区| 国产精品久久久久婷婷五月| 亚洲国产理论片在线播放| 欧美专区在线观看|