999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于協(xié)同過(guò)濾的個(gè)性化微博推薦算法研究

2017-05-12 23:34:23秦曉暉
軟件工程 2017年3期

摘 要:當(dāng)前,微博已經(jīng)成長(zhǎng)為世界上最有影響力的社交網(wǎng)絡(luò)服務(wù)之一。隨著微博的流行,微博上大量的數(shù)據(jù)也使得用戶無(wú)法快速獲取他感興趣的信息。推薦系統(tǒng)是通過(guò)研究用戶已有數(shù)據(jù)來(lái)發(fā)掘用戶興趣,從而為用戶推薦可能感興趣的對(duì)象,如產(chǎn)品、網(wǎng)頁(yè)、微博等。本文介紹了一種基于協(xié)同過(guò)濾推薦技術(shù)的微博推薦算法,從影響用戶興趣度的隱性因素,以及微博互聯(lián)網(wǎng)中的數(shù)據(jù)采集和預(yù)處理等角度對(duì)微博推薦進(jìn)行研究。使用矩陣分解對(duì)隱性因素建模,在已有用戶與微博、用戶與微博發(fā)布者影響因素的基礎(chǔ)上,提出微博與微博發(fā)布者影響因素,提高了原算法的準(zhǔn)確度。

關(guān)鍵詞:微博推薦;協(xié)同過(guò)濾;矩陣分解

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A

Abstract:Currently,micro-blog has become one of the most influential networking services throughout the world. Along with its increasing growth of popularity,the large number of information available on micro-blog has obstructed people from accessing the messages they are interested in.The micro-blog recommendation system picks out and recommends the objects (e.g.products,webpages,micro-blogs,etc.) via analyzing the existing data of the user.The paper proposes a micro-blog recommendation algorithm based on the collaborative filtering technique,explores some recessive factors which may influence user's interest and studies micro-blog recommendation from the perspective of data collecting and preprocessing on micro-blog networks.While the previous studies only focus on the relationship between the user and the publisher,and that between the user and the micro-blog post,this paper adopts matrix decomposition to model recessive factors and proposes the influence factors between the publisher and the micro-blog post.Finally,the experimental results show that the new algorithm significantly improves the accuracy of micro-blog recommendation.

Keywords:micro-blog recommendation;collaborative filtering;matrix decomposition

1 引言(Introduction)

目前被廣泛應(yīng)用的協(xié)同過(guò)濾算法[1]在推薦系統(tǒng)[2]中發(fā)揮著很重要的作用。隨著信息種類的豐富,我們需要對(duì)一些很難基于內(nèi)容來(lái)分析的信息,尤其是對(duì)一些復(fù)雜的甚至難以表達(dá)的概念進(jìn)行興趣分析,協(xié)同過(guò)濾算法表現(xiàn)出了一定的優(yōu)越性。矩陣分解算法[3]目前已經(jīng)被廣泛地應(yīng)用于推薦系統(tǒng)中,它作為隱語(yǔ)義模型中的一種方法取得了一定的成就。協(xié)同過(guò)濾算法一般可以分為基于相似鄰居的方法[4,5]和基于模型的方法[6,7]這兩大類,目前隱因子概率模型或者矩陣分解模型經(jīng)常被用來(lái)解決一些問(wèn)題。本文主要使用基于模型算法中的矩陣分解算法,具體使用隱因子模型來(lái)度量影響微博用戶喜好的一些隱性因素。

本文向用戶進(jìn)行微博推薦是通過(guò)用戶對(duì)微博的興趣度來(lái)分析的,那么就需要找出影響用戶對(duì)于微博興趣度的一些隱性因素,而矩陣分解作為一種隱含語(yǔ)義模型可以很好地幫我們找出這些隱性因素。因此在微博中并不需要指出微博具體的屬性類別,可以使用隱語(yǔ)義模型構(gòu)建矩陣:比如構(gòu)建一個(gè)user-tweet矩陣R見(jiàn)公式(1),其中Rij表示用戶i對(duì)微博j的興趣度,通過(guò)對(duì)矩陣R分解得到矩陣P和矩陣Q,其中f為影響用戶興趣度的隱性屬性,這個(gè)過(guò)程就稱為奇異值分解[7,8]。

從上述過(guò)程可以看出我們無(wú)需確定屬性的具體類別和屬性的個(gè)數(shù),只需要設(shè)置隱因子模型中的屬性個(gè)數(shù)值作為屬性分類的粒度即可,值越大即代表分類的粒度越細(xì)。通過(guò)隱因子模型,在不知道微博的類型和用戶喜歡的微博類別的前提下也可以得到用戶對(duì)每個(gè)類別的興趣度。

2 基于協(xié)同排序的微博推薦算法(Collaborative ranking method for tweet recommendation)

2.1 微博排序優(yōu)化準(zhǔn)則

本文研究用戶對(duì)微博喜好度的排序,我們使用協(xié)同排序算法,它是基于隱因子模型的協(xié)同過(guò)濾方法。首先定義表示低維向量,同時(shí)定義和來(lái)表示用戶和微博的屬性空間向量。那么就可以通過(guò)公式(3)來(lái)預(yù)測(cè)用戶u對(duì)微博i的喜好度:

2.2 基于矩陣的隱因子分解模型

本文中通過(guò)研究用戶、微博和微博發(fā)布者三者之間的隱性因素來(lái)預(yù)測(cè)用戶對(duì)微博的興趣度。因此可以將用戶—微博矩陣使用SVD方法拆分為三個(gè)矩陣,具體分解為用戶—微博矩陣、用戶—發(fā)布者矩陣、發(fā)布者—微博矩陣,矩陣分解的過(guò)程不僅極大地豐富了我們的模型,使得一些潛在影響因素被挖掘出來(lái),而且一定程度上緩解了由于轉(zhuǎn)發(fā)行為少而導(dǎo)致的矩陣稀疏問(wèn)題。

(1)用戶—微博主題偏好分解

由于用戶微博轉(zhuǎn)發(fā)次數(shù)導(dǎo)致數(shù)據(jù)稀疏的問(wèn)題,本文通過(guò)微博內(nèi)容信息來(lái)緩解該問(wèn)題,不同的主題可以使用不同的詞來(lái)代表,因此可以將微博的隱因子模型轉(zhuǎn)化為主題詞語(yǔ)的隱因子組合,于是轉(zhuǎn)化為分解模型(7):

其中,表示用戶—屬性矩陣,表示詞—屬性矩陣,矩陣中的每一個(gè)詞w都屬于微博i,Z為微博i中詞的個(gè)數(shù),乘以對(duì)每個(gè)詞的權(quán)重進(jìn)行歸一化。這樣的轉(zhuǎn)化由原來(lái)的用戶對(duì)一條微博的喜好度轉(zhuǎn)變?yōu)橛脩魧?duì)詞或主題的喜好度,從而緩解了矩陣稀疏問(wèn)題。

(2)用戶—發(fā)布者社會(huì)關(guān)系分解

除了微博內(nèi)容還可以將用戶與發(fā)布者的社會(huì)關(guān)系也考慮進(jìn)模型。如果用戶對(duì)發(fā)布者發(fā)布的微博主題感興趣的話,也就是用戶的興趣與該微博發(fā)布者的微博主題很相似,那么該用戶轉(zhuǎn)發(fā)該發(fā)布者的微博的可能性就比較高,因此通過(guò)用戶與微博發(fā)布者之間的隱性因子可以預(yù)測(cè)用戶轉(zhuǎn)發(fā)該條微博的概率,詳見(jiàn)公式(8):

公式(11)表示通過(guò)挖掘用戶、微博和發(fā)布者這三者中的兩兩之間的隱性因子度量用戶的興趣度,不僅全面地考慮了多種隱性因子豐富了模型,而且一定程度上緩解了數(shù)據(jù)稀疏的問(wèn)題。

(4)參數(shù)估計(jì)

本文使用線性加權(quán)的方法來(lái)預(yù)測(cè)用戶對(duì)微博的興趣度,其中α為發(fā)布者對(duì)微博影響因子的權(quán)重,β為發(fā)布者對(duì)微博主題影響因子的權(quán)重。2.1節(jié)中給出的目標(biāo)函數(shù)(6)是求解的對(duì)象,本文中使用梯度下降的方法得到最優(yōu)解即對(duì)目標(biāo)函數(shù)求導(dǎo)。首先對(duì)矩陣進(jìn)行初始化,這里我們使用隨機(jī)數(shù),然后通過(guò)對(duì)構(gòu)造的數(shù)據(jù)集D中的每一組元素計(jì)算梯度來(lái)不斷更新矩陣中的值直到循環(huán)終止得到最優(yōu)解。其中,梯度更新系數(shù)詳見(jiàn)公式(12)到公式(17):

算法中不停循環(huán)使得模型中的權(quán)重值不斷更新,向著梯度下降的方向直到循環(huán)終止得到最優(yōu)解。

3 實(shí)驗(yàn)(Experiment)

3.1 數(shù)據(jù)來(lái)源

本文根據(jù)特定的需求在新浪微博使用爬蟲(chóng)系統(tǒng)[9]獲取相關(guān)數(shù)據(jù),網(wǎng)絡(luò)爬蟲(chóng)作為搜索引擎的核心技術(shù)是一種自動(dòng)提取網(wǎng)頁(yè)信息的計(jì)算機(jī)程序或者自動(dòng)化腳本[10]。本文的實(shí)驗(yàn)數(shù)據(jù)通過(guò)隨機(jī)選取一個(gè)微博用戶,然后以發(fā)射狀不斷爬取該用戶的關(guān)注者的數(shù)據(jù),以及關(guān)注者的關(guān)注者的數(shù)據(jù),從爬取的數(shù)據(jù)中找出1024個(gè)關(guān)注者人數(shù)超過(guò)15的微博用戶的主頁(yè)信息作為實(shí)驗(yàn)數(shù)據(jù)。

3.2 評(píng)價(jià)標(biāo)準(zhǔn)

考慮到推薦結(jié)果中成功率的問(wèn)題,本文使用平均準(zhǔn)確率來(lái)評(píng)價(jià)預(yù)測(cè)結(jié)果的準(zhǔn)確度。模型的推薦結(jié)果是微博排序,同時(shí)還可以用準(zhǔn)確度關(guān)聯(lián)成功推薦的微博的排序位置從而使得推薦模型得到更準(zhǔn)確的評(píng)估,即成功推薦的微博排序越靠前,那么平均準(zhǔn)確率越高。如果系統(tǒng)沒(méi)有成功推薦的微博,那么準(zhǔn)確率記為0。評(píng)估公式詳見(jiàn)(19):

3.3 實(shí)驗(yàn)結(jié)果

本文通過(guò)與其他幾種方法的對(duì)比實(shí)驗(yàn)結(jié)果來(lái)驗(yàn)證算法的有效性。按照時(shí)間排序的方法是指所有微博按照時(shí)間排序不通過(guò)其他算法重排序,這種方法表現(xiàn)微博最直接、最原始的狀態(tài),但卻忽略了用戶興趣對(duì)微博排序的影響,與這種方法得到的結(jié)果相對(duì)比將有效地說(shuō)明本文中算法研究的意義和必要性。按相似度排序的方法是按照微博與用戶標(biāo)簽的相似性來(lái)排序的,這里使用余弦相似度來(lái)計(jì)算相似度,標(biāo)簽是指用戶歷史微博和轉(zhuǎn)發(fā)微博歷史里面的關(guān)鍵詞的集合。原始[11]方法在隱性因素方面只考慮主題層次和社會(huì)關(guān)系層次。矩陣分解模型算法SVD在原始算法的基礎(chǔ)上添加影響用戶興趣度的微博權(quán)威性隱性因素預(yù)測(cè)用戶興趣度。該算法也使用隨機(jī)梯度算法來(lái)估計(jì)實(shí)驗(yàn)參數(shù),實(shí)驗(yàn)中矩陣分解過(guò)程中使用到的K值取30準(zhǔn)確率最高。

4 結(jié)論(Conclusion)

按照時(shí)間序列排序的推薦方法依賴于用戶的登錄時(shí)間,用戶對(duì)登錄時(shí)間前后的微博轉(zhuǎn)發(fā)概率大,因此預(yù)測(cè)準(zhǔn)確度很低。按照相似度的排序只通過(guò)關(guān)鍵詞計(jì)算微博表面相似度,忽略了內(nèi)在語(yǔ)義。原始方法沒(méi)有考慮微博與微博發(fā)布者之間的隱性因素而低于SVD方法。

參考文獻(xiàn)(References)

[1] Shi Y,Larson M,Hanjalic A.Collaborative Filtering Beyond the User-Item Matrix:A Survey of the State of the Art and Future Challenges[J].ACM Computing Surveys (CSUR),2014,47(1):3.

[2] Yang X,et al.A Survey of Collaborative Filtering Based Social Recommender Systems[J].Computer Communications, 2014,41:1-10.

[3] Levy O,Goldberg Y.Neural Word Embedding as Implicit Matrix Factorization[C].Advances in Neural Information Processing Systems,2014:2177-2185.

[4] Sarwar B.,et al.Item-Based Collaborative Filtering Recommendation Algorithms[A].Hypermedia Track of the 10th International World Wide Web Conference,2001:285-295.

[5] Shi Y.,Larson M.,Hanjalic A.Exploiting User Similarity Based on Rated-Item Pools for Improved User-Based Collaborative Filtering[A].Third ACM Conference on Recommender Systems,2009:125-132.

[6] Koren Y.Factorization Meets the Neighborhood:a Multifaceted Collaborative Filtering Model[A].The 14th ACM SIGKDD International Conference on Knowledge,2008:426-434.

[7] Rendle S.The IEEE International Conference on Data Mining[C].Factorization machines,2010:995-1000.

[8] Cao Y.,et al.Adapting Ranking SVM to Document Retrieval[C].The 29th Annual International SIGIR Conference,2006:186-193.

[9] 孫立偉,何國(guó)輝,吳禮發(fā).網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的研究[J].電腦知識(shí)與技術(shù),2010,6(15):4112-4115.

[10] 高建煌.個(gè)性化推薦系統(tǒng)技術(shù)與成用[D].中國(guó)科學(xué)技術(shù)大學(xué),2010.

[11] Chen K.,et al.Collaborative Personalized Tweet Recommendation[A].The 35th International ACM SIGIR Conference on Research and Development in Information Retrieval,2012:661-670.

作者簡(jiǎn)介:

秦曉暉(1987-),女,碩士,助教.研究領(lǐng)域:中文信息處理,人工智能.

主站蜘蛛池模板: AV不卡无码免费一区二区三区| 在线观看国产精品第一区免费 | 久久伊人色| 亚洲成a人片7777| 国产特级毛片aaaaaa| 国产精品入口麻豆| 欧美精品v日韩精品v国产精品| 国产欧美日韩另类精彩视频| 精品一区二区三区四区五区| 日本高清免费不卡视频| 露脸真实国语乱在线观看| 久久久久亚洲精品成人网| 99re视频在线| 久久黄色影院| 2020精品极品国产色在线观看 | 男女男免费视频网站国产| 亚洲va在线∨a天堂va欧美va| 456亚洲人成高清在线| 亚洲综合婷婷激情| 国产对白刺激真实精品91| 亚洲天堂网在线观看视频| 欧美有码在线观看| 午夜色综合| 在线观看国产精品日本不卡网| 最近最新中文字幕在线第一页 | 国产噜噜噜| 亚洲国产日韩在线观看| 欧洲免费精品视频在线| 99精品在线看| 成人午夜精品一级毛片| 国产欧美日韩91| 国产一区免费在线观看| 久久五月天综合| 亚洲V日韩V无码一区二区| 国产白浆在线| 国产成人高清精品免费软件| 99热这里只有免费国产精品| 少妇被粗大的猛烈进出免费视频| 国产一区二区精品福利| 精品视频一区二区三区在线播| 国产黄色爱视频| 亚洲人成网站色7777| 又猛又黄又爽无遮挡的视频网站| 日韩二区三区| 欧美成在线视频| 精品福利网| 国产理论一区| 熟妇丰满人妻| 亚洲最大福利视频网| 国产极品美女在线观看| 国产啪在线91| 高清色本在线www| 在线观看国产精品第一区免费| 成年A级毛片| 久久人午夜亚洲精品无码区| 亚洲精品视频在线观看视频| 欧美在线天堂| 欧美一级片在线| 色播五月婷婷| 在线精品亚洲一区二区古装| 99久久精品国产精品亚洲| 一本一道波多野结衣一区二区 | 亚洲精品久综合蜜| 综合久久久久久久综合网| 精品国产99久久| 狠狠亚洲五月天| 特级精品毛片免费观看| 婷婷六月色| 欧美在线网| 91福利在线看| 国产精品毛片一区| 亚洲视屏在线观看| 精品91视频| 国产精品吹潮在线观看中文| 亚洲视屏在线观看| 中文天堂在线视频| аⅴ资源中文在线天堂| 男女精品视频| 婷婷久久综合九色综合88| 熟妇人妻无乱码中文字幕真矢织江| 原味小视频在线www国产| 狠狠综合久久久久综|