999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

混合貝葉斯個(gè)性化排序與內(nèi)容的推薦算法研究

2019-12-11 11:25:50文曉棠吳少?gòu)?qiáng)
現(xiàn)代計(jì)算機(jī) 2019年30期
關(guān)鍵詞:排序用戶

文曉棠,吳少?gòu)?qiáng)

(廣東財(cái)經(jīng)大學(xué)華商學(xué)院,廣州510000)

0 引言

當(dāng)今,數(shù)據(jù)量成指數(shù)級(jí)別增長(zhǎng),并且速度還在不斷攀升。面對(duì)如此龐大的數(shù)據(jù)海洋,如何從海量數(shù)據(jù)中獲取最想要的信息,這是一件很消耗時(shí)間和精力的事情。如今的搜索引擎很強(qiáng)大,根據(jù)輸入的關(guān)鍵字在全球海量數(shù)據(jù)中尋找到匹配度高的內(nèi)容,這在一定程度上解放了人類(lèi),但這一行為需要人們主動(dòng)的發(fā)起,并且未考慮到每個(gè)人單獨(dú)具備的特點(diǎn)。為了進(jìn)一步解決這一問(wèn)題,學(xué)者們提出了各具特點(diǎn)的推薦算法,根據(jù)每個(gè)人產(chǎn)生的行為記錄推斷其獨(dú)特的興趣并向其推送個(gè)性化信息。當(dāng)下,推薦系統(tǒng)在部分領(lǐng)域比較常見(jiàn),如電商平臺(tái)、多媒體傳播平臺(tái)等。但在知識(shí)共享平臺(tái),推薦用戶感興趣的內(nèi)容這一塊還有待提升,因此在個(gè)性化知識(shí)推薦方面很有必要尋找解決方案。

推薦算法[1]分為以下幾種:基于內(nèi)容、協(xié)同過(guò)濾和混合推薦等算法。Goldberg等人[2]第一次引入?yún)f(xié)同過(guò)濾思想。Resnick等人[3]提出基于評(píng)分的協(xié)同過(guò)濾推薦算法,通過(guò)收集用戶評(píng)分以獲取其偏好,基于聚類(lèi)算法分析用戶相似性,完成推薦。Huang[4]運(yùn)用Deep Structured Semantic Models(DSSM)模型構(gòu)建一個(gè)基于位置感知的個(gè)性化新聞推薦模型。

上述推薦算法中,協(xié)同過(guò)濾算法是當(dāng)前應(yīng)用最為廣泛的算法,該算法有一類(lèi)為矩陣因式分解,通過(guò)FunkSVD算法或者其他改進(jìn)算法等對(duì)矩陣進(jìn)行分解,得到兩個(gè)矩陣因子,從而用來(lái)預(yù)測(cè)用戶對(duì)于未知項(xiàng)目的評(píng)分,但其評(píng)分是全局評(píng)分優(yōu)化,不能單獨(dú)對(duì)用戶興趣點(diǎn)排序,從而不能從大量數(shù)據(jù)中選取興趣點(diǎn)較高的少量推薦項(xiàng)。

為了解決上述問(wèn)題,本文將貝葉斯個(gè)性化排序和基于內(nèi)容推薦結(jié)合,提出一種混合的推薦算法。主要貢獻(xiàn)概括如下:

(1)基于矩陣分解的貝葉斯個(gè)性化排序算法,對(duì)三元組訓(xùn)練集進(jìn)行訓(xùn)練,達(dá)到收斂,再通過(guò)計(jì)算用戶個(gè)人感興趣關(guān)鍵字與文章關(guān)鍵字匹對(duì)程度,來(lái)預(yù)測(cè)用戶對(duì)該文章的感興趣程度,兩種算法充分發(fā)揮各自長(zhǎng)處,形成混合的個(gè)性化知識(shí)推薦算法,以此來(lái)提高整體的推薦效果。

(2)在技術(shù)博文論壇,使用Kaggle上的公開(kāi)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),取得顯著推薦效果。

(3)基于混合的個(gè)性化知識(shí)推薦算法,設(shè)計(jì)個(gè)性化知識(shí)推薦模型,可使算法用于實(shí)踐,具有較高實(shí)用價(jià)值。

1 相關(guān)算法

1. 1 貝葉斯個(gè)性化排序算法(BPR)

該算法是一種排序推薦算法,按照用戶對(duì)物品的感興趣程度進(jìn)行排序,再選擇優(yōu)先級(jí)最高的物品推薦給用戶。

在該算法中,訓(xùn)練數(shù)據(jù)集為數(shù)據(jù)對(duì)即<u,i,j>,表示的是用戶u對(duì)于物品i比物品j更感興趣。且該算法基于貝葉斯個(gè)性化排序,因此用戶之間的喜好行為是相互獨(dú)立的,用戶對(duì)不同物品的偏好也相互獨(dú)立。同時(shí),BPR也基于矩陣分解模型,對(duì)于用戶集與物品集形成的預(yù)測(cè)排序矩陣,通過(guò)優(yōu)化分解得到矩陣

優(yōu)化目標(biāo)則為找到合適的矩陣因子V和W使得Xˉ和X最為相似。其中,V和W,通過(guò)最大后驗(yàn)估計(jì)優(yōu)化P(V,W|>u),其中>u代表的是用戶u對(duì)于物品的偏好關(guān)系。通過(guò)貝葉斯公式即可得到:

對(duì)該公式進(jìn)一步分解之后,通過(guò)梯度上升法,最終使得V和W都收斂,模型即訓(xùn)練完成。最后使用V和W 矩陣因子求得預(yù)測(cè)值:xˉui=Vu?Wi,并選擇排序值最高的n個(gè)進(jìn)行推薦。

1. 2 基于內(nèi)容推薦算法(CBR)

基于內(nèi)容推薦算法使用的數(shù)據(jù)包括用戶興趣關(guān)鍵字,及文章關(guān)鍵字。為了計(jì)算文章內(nèi)容的關(guān)鍵字,需要對(duì)文章進(jìn)行分詞等文本預(yù)處理,之后可以計(jì)算這些詞語(yǔ)的重要性。

本文基于TF-IDF算法[5]來(lái)評(píng)估詞語(yǔ)在文章中的重要性,本研究中將每篇文章文本處理后的詞語(yǔ)看作關(guān)鍵詞的集合,即1篇文章有n關(guān)鍵詞c1,c2,…,cn,其中1篇特定文章中詞頻分別是tf1,tf2,…,tfn。TF計(jì)算公式如下:

ni,j是關(guān)鍵詞在所在文章dj中的出現(xiàn)次數(shù),分母是所在文章dj中所有詞語(yǔ)出現(xiàn)次數(shù)之和。

若關(guān)鍵詞c在Dc中首篇文章出現(xiàn),Dc的值越大,詞語(yǔ)c在文章中區(qū)別于其他文章的作用就越小。如“大數(shù)據(jù)”在很多文章中出現(xiàn),出現(xiàn)頻率非常高,但它在文章中的區(qū)分度貢獻(xiàn)小。因此,可以給文章中的關(guān)鍵詞賦予一定的權(quán)重,如果它很少在文章中出現(xiàn),通過(guò)比較可以容易找到相似文章,在文章中用于區(qū)別其他文章作用就大,其權(quán)重也就越大,反之權(quán)重越小。

本文使用IDF逆向文本頻率指數(shù)計(jì)算文章中關(guān)鍵詞的權(quán)重,計(jì)算公式如下:

|D|表示語(yǔ)料庫(kù)中文章總數(shù)

|{j:t∈dj}|表示包含詞語(yǔ) ti的文章數(shù)目,若該詞語(yǔ)不在語(yǔ)料庫(kù)中,就會(huì)導(dǎo)致被除數(shù)為0,故一般情況下使用 1+|{j:t∈dj}|

假設(shè)文章數(shù)量D=1000篇,若“大數(shù)據(jù)”在所有文章中均出現(xiàn),則其 idf=log(1000/1000)=0,若“人工智能”在20篇文章中出現(xiàn),則其 idf=log(1000/20)=1.69897。

綜上所述,使用上述TF-IDF=tfi*idif的值可以評(píng)價(jià)某個(gè)關(guān)鍵詞在某篇首次出現(xiàn)的文章中的重要程度。計(jì)算某篇首次出現(xiàn)的文章所有組成的tf*idf和sim,可以評(píng)價(jià)文章之間的相似性。計(jì)算相似度公式如下:

依據(jù)上述公式,可以把用戶感興趣的詞語(yǔ)形成關(guān)鍵詞集合,然后在所有文章中計(jì)算這些關(guān)鍵詞的tf*idf的和,從而找出相似度高的文章。

至于用戶的喜好關(guān)鍵詞集合,則由其以往的行為記錄逐漸生成,同樣可以使用TF-IDF算法處理用戶閱讀過(guò)的內(nèi)容,從而形成用戶喜好關(guān)鍵詞集合。

2 混合貝葉斯個(gè)性化排序與內(nèi)容的推薦算法

本文提出的混合算法主要基于上述兩種算法,對(duì)技術(shù)博文進(jìn)行個(gè)性化知識(shí)推薦。在該算法中,收集的用戶信息包括用戶對(duì)文章的評(píng)論、是否贊同、訪問(wèn)次數(shù)和訪問(wèn)時(shí)長(zhǎng)等。對(duì)于收集到的信息會(huì)進(jìn)行加權(quán)求得用戶對(duì)文章的評(píng)分,形成評(píng)分矩陣S。

考慮相關(guān)性問(wèn)題以及矩陣稀疏等問(wèn)題,可使用聚集算法,形成用戶集群。或者通過(guò)計(jì)算用戶之間的相似度,直接取前n個(gè)鄰居。相似度的計(jì)算可通過(guò)余弦相似度公式。

使用本算法設(shè)計(jì)的個(gè)性化知識(shí)推薦模型如圖1所示。

圖1混合貝葉斯個(gè)性化排序與內(nèi)容的個(gè)性化知識(shí)推薦模型圖

本混合推薦算法的核心過(guò)程如下:

S1:獲取最近一段時(shí)間內(nèi)用戶所產(chǎn)生的行為記錄,包括評(píng)論、是否贊同、訪問(wèn)次數(shù)和訪問(wèn)時(shí)長(zhǎng)等。

S2:通過(guò)評(píng)分函數(shù)計(jì)算用戶對(duì)文章的評(píng)分,并最終形成評(píng)分矩陣,行表示用戶,列表示文章,并通過(guò)該矩陣抽取得到<u,i,j>三元組訓(xùn)練集。

S3:貝葉斯個(gè)性化排行對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,最終達(dá)到收斂,并通過(guò)模型對(duì)未交互過(guò)的文章進(jìn)行預(yù)測(cè),得到感興趣的文章排序列表。

S4:使用基于內(nèi)容推薦算法對(duì)推薦結(jié)果進(jìn)行部分糾正,計(jì)算用戶感興趣關(guān)鍵字與推薦文章的關(guān)鍵字的匹配分值,如果相似度高則對(duì)推薦結(jié)果進(jìn)行增強(qiáng),否則對(duì)其進(jìn)行削弱,得到最后的推薦結(jié)果。

其中,對(duì)于新注冊(cè)用戶,由于沒(méi)有過(guò)去所產(chǎn)生的行為記錄,無(wú)法得知其興趣愛(ài)好并對(duì)其推薦,則可使用熱點(diǎn)推薦以及全局基線方法為其進(jìn)行推薦。同時(shí),應(yīng)用系統(tǒng)同時(shí)會(huì)定期對(duì)用戶關(guān)鍵字進(jìn)行削弱,并更新文章關(guān)鍵字。

3 實(shí)驗(yàn)結(jié)果與分析

3. 1 數(shù)據(jù)集

使用Kaggle公開(kāi)數(shù)據(jù)集中的數(shù)據(jù),主要是用戶與文章交互的記錄。統(tǒng)計(jì)包括文章2987篇,用戶1895名。記錄形式如圖2所示。

圖2數(shù)據(jù)集記錄形式

行為記錄的數(shù)量時(shí)間分布圖如圖3,可將某個(gè)日期之前的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,后續(xù)數(shù)據(jù)作為驗(yàn)證數(shù)據(jù)集。

圖3行為記錄數(shù)量時(shí)間分布圖

其中,行為包括:查看、喜歡、收藏、評(píng)論、訂閱作者。各種類(lèi)型行為統(tǒng)計(jì)數(shù)如表1。

表1用戶行為-統(tǒng)計(jì)數(shù)量表

3. 2 實(shí)驗(yàn)結(jié)果

首次通過(guò)余弦相似度求得鄰居后,分別將鄰居對(duì)某篇文章的評(píng)分乘以相似度值,后求和,得出對(duì)文章的預(yù)測(cè)評(píng)分。但效果不佳。

將數(shù)據(jù)轉(zhuǎn)換為評(píng)分矩陣,并進(jìn)行歸一化處理。將模型通過(guò)訓(xùn)練后,部分預(yù)測(cè)排序值與真實(shí)數(shù)據(jù)評(píng)分的對(duì)比如圖4-圖5。

圖4初始推薦predict值

從實(shí)驗(yàn)結(jié)果可以看出,貝葉斯個(gè)性化排序推薦算法推薦效果比較明顯,均方誤差也達(dá)到了較小的程度。但實(shí)驗(yàn)未能完全實(shí)踐上使用基于內(nèi)容推薦算法對(duì)推薦結(jié)果優(yōu)化,理論上若完全實(shí)現(xiàn)混合算法,推薦效果要遠(yuǎn)優(yōu)于實(shí)驗(yàn)結(jié)果,這是筆者需要進(jìn)行的下一步工作。

圖5貝葉斯個(gè)性化排序算法predict值

圖6均方誤差

3. 3 總結(jié)

使用混合推薦算法,在一般規(guī)模的數(shù)據(jù)上,表現(xiàn)出較好的推薦效果。不過(guò)還有很多可以改進(jìn)的地方。當(dāng)數(shù)據(jù)規(guī)模達(dá)到一定程度時(shí),便需要將推薦系統(tǒng)部署在集群計(jì)算平臺(tái),以此來(lái)加快模型的訓(xùn)練等。并且在超大數(shù)據(jù)規(guī)模上,深度學(xué)習(xí)構(gòu)建的模型可能占據(jù)更大的優(yōu)勢(shì)。通過(guò)深度學(xué)習(xí)構(gòu)建神經(jīng)網(wǎng)絡(luò)對(duì)技術(shù)博文進(jìn)行推薦還有待研究,并且對(duì)用戶的評(píng)論也可進(jìn)行相應(yīng)的情感分析來(lái)輔助推薦。

猜你喜歡
排序用戶
排排序
排序不等式
恐怖排序
節(jié)日排序
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
關(guān)注用戶
關(guān)注用戶
關(guān)注用戶
Camera360:拍出5億用戶
100萬(wàn)用戶
主站蜘蛛池模板: 91精品啪在线观看国产60岁| 国产欧美日韩综合一区在线播放| 亚洲全网成人资源在线观看| 亚洲欧洲日产国产无码AV| 国产成人综合久久| 亚洲swag精品自拍一区| 欧美精品亚洲精品日韩专区| 真实国产乱子伦高清| 91最新精品视频发布页| 91视频青青草| 91精品综合| 午夜福利网址| 91外围女在线观看| 亚洲黄色激情网站| 午夜无码一区二区三区在线app| 欧美综合在线观看| 广东一级毛片| 国产成人精品日本亚洲| 亚洲精品国偷自产在线91正片| 亚洲AⅤ波多系列中文字幕| 91网红精品在线观看| 亚洲欧美成aⅴ人在线观看| 亚洲 欧美 中文 AⅤ在线视频| 伊人91在线| 日韩在线1| 人妻无码中文字幕第一区| 亚洲日本韩在线观看| 日韩毛片基地| 亚洲成人网在线观看| 97超级碰碰碰碰精品| 亚洲欧美另类日本| 这里只有精品在线| 久久国产免费观看| 国产男女免费完整版视频| 日韩午夜福利在线观看| 福利在线不卡一区| 无码国产偷倩在线播放老年人| 亚洲美女一区二区三区| 久久这里只有精品2| 91区国产福利在线观看午夜 | 在线观看热码亚洲av每日更新| 日韩欧美国产三级| 久久中文字幕不卡一二区| 欧美激情第一欧美在线| 久久性视频| 亚洲人成色在线观看| 热热久久狠狠偷偷色男同| 国产福利一区视频| 免费国产高清精品一区在线| 98精品全国免费观看视频| 青青草国产免费国产| 尤物精品国产福利网站| 亚洲大学生视频在线播放| 亚洲国产天堂久久综合226114| 国产99视频精品免费视频7| 亚洲日韩精品伊甸| 成人免费网站久久久| 色综合国产| 亚洲 日韩 激情 无码 中出| 欧美日韩亚洲国产| 日韩视频精品在线| 国产精品视频白浆免费视频| 九九视频在线免费观看| 熟妇无码人妻| 最新国产在线| 一级全免费视频播放| 午夜电影在线观看国产1区| 日本人真淫视频一区二区三区| 一本大道在线一本久道| 91国语视频| 最新国产精品鲁鲁免费视频| 亚洲日本中文字幕天堂网| 58av国产精品| 国产福利在线观看精品| 中文毛片无遮挡播放免费| 亚洲91在线精品| 国产无码网站在线观看| 九九香蕉视频| 国产女人在线观看| 91色爱欧美精品www| 亚洲欧洲天堂色AV| 刘亦菲一区二区在线观看|