999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種融合多因素社交活動個性化推薦模型

2020-01-14 06:32:42
計算機應(yīng)用與軟件 2020年1期
關(guān)鍵詞:用戶模型

陳 藝

(四川文理學(xué)院信息查詢與利用教研室 四川 達州 635000)

Probabilistic matrix decomposition

0 引 言

隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,社交媒體和電子商務(wù)等迅速發(fā)展,互聯(lián)網(wǎng)數(shù)據(jù)呈指數(shù)級增長。人們不僅是數(shù)據(jù)的制造者也是數(shù)據(jù)的消費者,如何從龐大的數(shù)據(jù)中篩選用戶感興趣的信息成為學(xué)者們亟需解決的問題。對于用戶而言,感興趣信息的獲取可通過搜索獲得,也可借助推薦算法推薦得到。與搜索引擎相比,推薦算法不需要用戶主動提供所需信息,而是根據(jù)少量信息構(gòu)建用戶興趣模型,進而利用數(shù)據(jù)挖掘獲得數(shù)據(jù)背后的信息。2006年DVD在線租賃商Netflix通過懸賞獎金的形式鼓勵學(xué)者們完善個性化推薦算法,期間大量針對傳統(tǒng)協(xié)同過濾推薦的改進算法被提出來。而協(xié)同過濾推薦過度依賴于“用戶-項目”評分?jǐn)?shù)據(jù),將其引入到社交興趣推薦中后難以獲得滿意的推薦效果。

針對社交大數(shù)據(jù)的特殊性,研究學(xué)者們提出了不同的解決方案。文獻[1]基于位置的社交網(wǎng)絡(luò)中用戶歷史興趣點,利用變階馬爾科夫算法來預(yù)測用戶未來到達的興趣點,算法提高了興趣點的推薦效果;文獻[2]將用戶物品圖引入信任機制建立用戶信任圖,在信任社交網(wǎng)絡(luò)中提出了一種基于圖熵的個性化推薦算法,不僅有效緩解了推薦的冷啟動問題還保持較高的推薦準(zhǔn)確率;文獻[3]挖掘項目間的全局項目相似信息,并將社交網(wǎng)絡(luò)用戶間的可靠度融入個性化推薦模型中,提出了一種改進的社交網(wǎng)絡(luò)個性化推薦算法,降低了冷啟動問題;文獻[4]引入時間函數(shù)推斷用戶的興趣向量,并利用聚類算法對用戶發(fā)布的微博內(nèi)容進行聚類分組,以用戶興趣向量篩選最佳匹配,并進行排序,取得了較好的推薦結(jié)果;文獻[5]對社會網(wǎng)絡(luò)推薦研究進行了系統(tǒng)述評,提出了一種融合項目特征和移動用戶信任關(guān)系;文獻[6]將用戶間的信任關(guān)系引入個性推薦模型中,以解決數(shù)據(jù)稀疏問題;文獻[7]通過優(yōu)化基于內(nèi)容的CF推薦模型,有效解決了個性推薦中的冷啟動問題;文獻[8]提出了一種結(jié)合社交關(guān)系和位置信息的地點推薦算法,緩解了數(shù)據(jù)稀疏和冷啟動問題;文獻[9]提出了基于多元社交信任的協(xié)同過濾推薦算法,利用用戶間的綜合信任關(guān)系選取推薦鄰居,算法有較高的推薦精度和較強的抗攻擊能力;文獻[10]提出了一種具有社交影響力的推薦算法,通過用戶的影響力不斷調(diào)解推薦的權(quán)重;文獻[11]提出了基于項目評分與用戶信任關(guān)系的CF推薦算法,通過評分用戶間的信任關(guān)系來挖掘用戶的社會關(guān)系與興趣偏好;文獻[12-14]利用位置信息來對用戶進行分類,借助其他屬性對類內(nèi)用戶進行信任預(yù)測或計算,從而完成個性化推薦。以上文獻研究中,文獻[2-3,6-7,9,11]都是在協(xié)同過濾的基礎(chǔ)上融合其他屬性來提高分類的精度;文獻[1,4-5,8,10]主要是在融合用戶興趣度、活動地理位置等影響因素的基礎(chǔ)上獲得較高的推薦效率。

針對社交平臺日益龐大的數(shù)據(jù)以及用戶個性的多樣化,學(xué)者們提出或改進的社交網(wǎng)絡(luò)個性化推薦算法,一定程度上提高了因數(shù)據(jù)稀疏性導(dǎo)致的推薦精度問題,但單一社交活動屬性的個性化推薦算法難以有效獲得高精度推薦結(jié)果。為此本文綜合用戶對活動興趣度、活動召集者影響力以及活動舉辦地點偏好等三方面因素形成一種新的個性化推薦模型。

1 模型描述

(1)

1.1 構(gòu)建用戶對活動興趣度的概率模型

用戶對社交活動內(nèi)容的興趣度是影響用戶是否參加活動的重要因素。本文利用LDA(Latent Dirichlet Allocation)文件主題模型求取用戶ui與其參加過的所有社交活動的主題分布,并用用戶ui的主題分布表征其興趣度。在LDA中,設(shè)ψs表示隱含主題s在單詞集合上的多項式分布,docui表示用戶ui∈U所有參加過的社交活動內(nèi)容形成的文件,對于docui可經(jīng)過LDA文件主題模型求取其中所有隱含主題的多項式分布,而用戶對社交活動的興趣度可以表示成文件docui的主題概率分布。若對某社交活動內(nèi)容的文件docui中含有Nk個隱含主題,則LDA對隱含主題的多項式分布求取過程:

Step1利用LDA分布函數(shù)Dirichlet(δ)對文件docui中的每個隱含主題s∈{1,2,…,Nk}生成隱含主題與單詞的概率分布ρs;

Step2利用LDA分布函數(shù)Dirichlet(γ)對文件docui中的每個文件生成文件與單詞的概率分布τdocui;

Step3利用LDA多項式分布函數(shù)Mult(τdocui)對文件docui中的第m單詞生成主題分配sdocui,m;

Step4利用LDA多項式分布函數(shù)Mult(ρsdocui,m)對文件docui中的第m單詞生成wdocui,m。

用戶文件docui的似然函數(shù)為:

f(sdocui,m|ηdocui)·f(ηdocui|γ)·f(Γ|δ)

(2)

式中:δ、γ為LDA分布函數(shù)的參數(shù),wdocui、Mdocui、ηdocui、Γ分別表示文件docui中所有單詞、單詞的數(shù)量、單詞的主題分配、單詞對應(yīng)的主題-單詞概率分布。

設(shè)在LDA文件主題模型中文檔間是相互獨立的,則M個文件的完全似然函數(shù)如下:

(3)

式中:W、S、Φ分別表示文件中所有單詞、主題的分布以及所有文件-主題詞概率分布。我們幾乎不可能從似然函數(shù)中推斷出參數(shù)Φ和Γ,并且難以直接從某一多變量概率分布中近似抽取樣本序列,因此,本文采用吉布斯采樣將隱含主題詞s從聯(lián)合的概率分布中采樣出來:

f(si=k|s-i,wi=z,w-i)∝

(4)

(5)

(6)

(7)

設(shè)用戶ui的文件為docui,社交活動aj的文件為docaj,兩者所對應(yīng)的主題分布為τdocui和τdocaj,為了求取用戶與社交社交活動的主題的相似度,本文引入庫爾貝克-萊布勒散度(Kullback-Leibler,KL)[15]和延森-香農(nóng)散度(Jensen-Shannon)[16]來計算兩者之間的相似度。延森-香農(nóng)散度定義為:

(8)

式中:KL(·)表示庫爾貝克-萊布勒散度。其定義為:

(9)

JS(ui‖aj)會隨著τdocui和τdocaj兩者主題分布的差別而增大,這里定義用戶ui對社交活動aj的興趣度Ii,j為:

Ii,j=1-JS(ui‖aj)

(10)

(11)

1.2 構(gòu)建用戶對召集者影響力概率模型

在基于活動的社交網(wǎng)絡(luò)中,用戶是否參加某項活動也跟活動召集者的影響力有關(guān),或者說一大部分用戶是慕名參加社交活動。本文認(rèn)為用戶參與某項社交活動受兩方面的影響:一是用戶對活動召集者的偏愛或慕名;二是用戶對社交活動本身的興趣或偏愛。這兩方面的影響很難直接獲得,本文將用戶參加某個召集者或某類社交活動的次數(shù)來量化影響力。設(shè)用戶ui參加某活動召集者ci組織的社交活動次數(shù)為cui,j,cui,j值越大說明召集者ci組織的活動對用戶ui的影響力越大。這里我們將構(gòu)建一個用戶與召集者間的影響力矩陣C,通過基于影響力的概率矩陣分解來對矩陣進行精確的分析,力求得到用戶基于召集者影響力參與社交活動的概率。

(12)

式中:λ(0≤λ≤1)為權(quán)重因子,EA表示所有結(jié)束的社交活動集合。將召集者ci所有曾經(jīng)組織的社交活動平均影響力來表示召集者ci的影響力:

(13)

式中:ENci表示召集者ci曾經(jīng)組織的社交活動集合。

影響力矩陣C條件分布如下:

Efcj),σ2)]Vi,j

(14)

式中:Ν(x|μ,σ2)表示均值μ方差σ2的高斯分布,當(dāng)用戶ui參加召集者ci組織的任何一場活動時Vi,j=1,否則為0。D、Q、Numu、Numc分別表示所有用戶和所有召集者的隱式特征矩陣以及用戶數(shù)量和召集者數(shù)量。針對用戶和召集者的隱式特征矩陣,這里利用均值μ=0的高斯先驗分布去求解:

(15)

(16)

對上進行取對數(shù),后驗分布可得:

(17)

式中:B表示隱式特征矩陣維度,Z為常量。將上式最大化可得一個等價目標(biāo)函數(shù),該函數(shù)由二次正則化項平方誤差和范數(shù)平方組成:

(18)

(19)

經(jīng)過模型的學(xué)習(xí)可以得到所有用戶和所有召集者的隱式特征矩陣D、Q,那么對于用戶與召集者間的影響力矩陣C中的缺失值可由下式進行估值:

(20)

(21)

1.3 構(gòu)建用戶因地理位置偏好的概率模型

基于活動的社交網(wǎng)絡(luò)具有線上交流線下活動的特點,所以活動舉辦地也是影響用戶是否參加活動的重要因素之一。針對地理位置偏好對用戶參加社交活動的影響度,學(xué)者們進行了大量的研究,得出的結(jié)論也大體一致:用戶參加的大多數(shù)活動與之常住位置距離不遠,并且該距離分布函數(shù)近似冪律分布[17-18]。本文基于活動舉辦地與用戶常住距離,以用戶參加活動的頻數(shù)來對用戶地理位置偏好建模。在學(xué)者研究成果的基礎(chǔ)上,將活動舉辦地與用戶常住距離的概率定義為:

p(Dis)=ν·Disζ

(22)

式中:Dis表示活動舉辦地與用戶常住地之間的距離,ν、ζ為冪律分布函數(shù)的參數(shù)。對式(22)取對數(shù)來估算參數(shù)ν、ζ的值:

logp(Dis)=logν+ζlog(Dis)

(23)

(24)

式中:Dis(gi,gaj)表示地理位置gi、gaj間的距離,那么用戶ui基于地理位置參加社交活動aj的概率為:

(25)

2 實驗數(shù)據(jù)與參數(shù)設(shè)置

2.1 實驗數(shù)據(jù)及評價標(biāo)準(zhǔn)

為了獲得較大的數(shù)據(jù)量,本文選取一線城市北京和上海作為社交活動舉辦地,社交數(shù)據(jù)采集豆瓣同城在2017年1月1日-2018年12月31日期間舉辦的所有社交活動,主要采集的信息為:用戶信息(用戶名、用戶ID、用戶的興趣、用戶參加過的所有社交活動、用戶所在的位置等),社交活動信息(社交活動類別、社交活動的內(nèi)容,社交活動召集者、社交活動舉辦地、社交活動ID等)。數(shù)據(jù)統(tǒng)計如表1所示。

表1 數(shù)據(jù)統(tǒng)計明細

仿真實驗將Top-N推薦算法推薦結(jié)果,采用Precision@N和Recall@N兩個評價指標(biāo)評估各算法推薦的性能:

(26)

(27)

式中:U表示用戶集合,Reui,N、Tui分別表示利用各算法按照Top-N推薦給用戶ui的社交活動以及用戶ui在測試集中所參與的活動集合,|*|為計算集合大小,這里設(shè)置N=1,3,5,7,10,本文默認(rèn)N=5。

2.2 參數(shù)設(shè)置

在LDA文件主題模型、召集者影響力概率矩陣分解模型中需要對參數(shù)進行優(yōu)化設(shè)置。各模塊參數(shù)設(shè)置如下:

(1) LDA文件主題模型參數(shù)設(shè)置。實驗采用自然語言處理框架Gensim實現(xiàn)LDA文件主題模型,在模型中設(shè)LDA分布函數(shù)參數(shù)γ=50/Nk,δ=0.01,為了獲得隱含主題s的最佳個數(shù)Nk,利用豆瓣同城北京和上海數(shù)據(jù)集測試LDA在不同的Nk下Precision@5和Recall@5,結(jié)果如圖1所示。

圖1 不同隱含主題個數(shù)下Top-5結(jié)果

可以看出:在豆瓣同城北京數(shù)據(jù)集上,Precision@5和Recall@5隨著隱含主題個數(shù)的增大而增大,在Nk≤70階段,推薦準(zhǔn)確度增加幅度較大,在70

圖2 不同隱式特征矩陣維度下Top-5結(jié)果

可以看出,在基于影響力的概率矩陣分解模型中,隨著隱式特征矩陣維度B值的增大,Top-5推薦評價指標(biāo)Precision@5和Recall@5波動變化。在豆瓣同城北京數(shù)據(jù)集上,隨著維度B值的增大,推薦評價指標(biāo)Precision@5和Recall@5值在振蕩減小;在豆瓣同城上海數(shù)據(jù)集上,在10≤B≤80階段,隨著維度B值的增大,推薦評價指標(biāo)Precision@5和Recall@5值在振蕩增大,在80

3 仿真實驗與對比分析

為驗證本文所提算法的性能,將本文算法與文獻[8,19]進行社交活動推薦效果對比分析。文獻[8]利用興趣度計算相似用戶,借助用戶歷史地點簽到記錄獲取位置偏好信息,融合兩者提出了一種推薦算法;文獻[19]利用相似關(guān)系、興趣偏好建立一個社交活動參與模型,利用依靠移動社交媒體,如射頻識別(RFID)、藍牙設(shè)備等建立社交活動臨近模型,然后將兩者融合以推導(dǎo)用戶的潛在偏好和潛在的社交關(guān)系。硬件環(huán)境為Intel(R) Core(TM) i7-7700U@3.6 GHz,RAM:8 GB。軟件環(huán)境為:Windows 7操作系統(tǒng),使用Python編程實現(xiàn)。利用網(wǎng)格搜索在豆瓣同城北京和豆瓣同城上海數(shù)據(jù)集上多次實驗得到參數(shù)α、β的最優(yōu)設(shè)置。在豆瓣同城北京數(shù)據(jù)集上β=0.3,α=0.6,在豆瓣同城上海數(shù)據(jù)集上β=0.35,α=0.45,其他參數(shù)按照2.2節(jié)進行設(shè)置。為了驗證本文個性推薦算法的優(yōu)越性,從兩個層面進行對比:一是將本文融合多因素推薦算法與單因素推薦算法進行推薦效果對比;二是將本文算法與同類推薦算法進行推薦效果對比。

3.1 推薦效果對比

本文算法綜合用戶對活動興趣度、召集者影響力及地理位置偏好等三方面的因素進行個性化推薦。為了對比綜合后的推薦效果,這里將三種單因素推薦算法與本文算法在兩個數(shù)據(jù)集上進行Top-N(N=1,3,5,7,10)推薦評價指標(biāo)對比。設(shè)基于用戶對活動興趣度的推薦算法為UIA,基于召集者影響力的推薦算法為CI,基于地理位置偏好的推薦算法為GLP,推薦效果如圖3所示。

圖3 各算法Top-N推薦評價指標(biāo)對比

如圖3所示,通過本文算法與其他三種算法在Top-N(N=1,3,5,7,10)下的推薦評價指標(biāo)對比可以看出,在豆瓣同城北京和上海數(shù)據(jù)集上,三個單因素個性推薦算法的推薦效果是有差異的。在北京數(shù)據(jù)集上UIA算法效果優(yōu)于其他兩個單因素推薦算法;而在上海數(shù)據(jù)集上CI效果優(yōu)于UIA和GLP兩個單因素推薦算法。但總體上看本文算法在綜合用戶對活動興趣度、召集者影響力及地理位置偏好等三方面的因素后,推薦效果遠遠好于三種單因素推薦算法。在準(zhǔn)確率上,本文推薦算法相較于三個單因素個性推薦算法至少提高了36.7%;在召回率上,本文推薦算法相較于三個單因素個性推薦算法至少提高了35.9%。

3.2 同類推薦效果對比

將三種算法對已有用戶社交活動的推薦結(jié)果進行對比分析,結(jié)果如圖4所示。

圖4 各算法Top-N推薦評價指標(biāo)對比

可以看出,本文提出的個性化推薦算法在不同N值下的推薦指標(biāo)明顯好于其他兩種推薦算法,說明本算法在綜合用戶興趣度、召集者影響力和地理位置信息后能夠取得較好的推薦結(jié)果。圖4(a)和圖4(b)為各算法在豆瓣同城北京數(shù)據(jù)集上的推薦結(jié)果,在Top-N(N=1,3,5,7,10)的推薦中,本文算法相較于文獻[8]和文獻[19]的準(zhǔn)確率至少提升了11.42%和18.18%,召回率至少提升了約14.71%和23.64%;圖4(c)和圖4(d)為各算法在豆瓣同城上海數(shù)據(jù)集上的推薦結(jié)果,本文算法相較于文獻[8]和文獻[19]的準(zhǔn)確率至少提升了8.77%和19.23%,召回率至少提升了約8.57%和12.52%。

4 結(jié) 語

本文綜合用戶對活動興趣度、活動召集者影響力以及活動舉辦地點偏好等三方面因素,采用不同權(quán)值配比綜合形成最終的社交活動個性推薦模型。對比實驗表明,本模型不論與三個單模塊個性推薦模型還是與其他兩個同類網(wǎng)絡(luò)社交活動推薦模型相比準(zhǔn)確率和 召回率都有一定的提高。推薦精度的提高可能要增加 時間和空間消耗,將本文模型并行化處理以降低時間 復(fù)雜度是后續(xù)研究的重點方向。

猜你喜歡
用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
Camera360:拍出5億用戶
100萬用戶
主站蜘蛛池模板: 中日韩一区二区三区中文免费视频| 亚洲精品自拍区在线观看| 激情综合图区| 亚洲中文久久精品无玛| 久久五月天国产自| 国产va欧美va在线观看| 97视频免费在线观看| 中国国产一级毛片| 婷婷综合在线观看丁香| AV老司机AV天堂| 久久精品视频一| 欧美19综合中文字幕| 午夜国产在线观看| 最新国产精品鲁鲁免费视频| 中文无码日韩精品| 亚洲欧美日韩成人在线| 亚洲第一成年网| 色丁丁毛片在线观看| аⅴ资源中文在线天堂| 亚洲无码91视频| 伊人久综合| 久草青青在线视频| 日韩欧美中文亚洲高清在线| 免费毛片全部不收费的| 97视频在线精品国自产拍| 欧美成在线视频| 欧美综合区自拍亚洲综合天堂| 老司机久久精品视频| 国产十八禁在线观看免费| 91福利片| 老司机精品一区在线视频| 中文精品久久久久国产网址 | 少妇极品熟妇人妻专区视频| 婷婷亚洲视频| 蜜臀AV在线播放| 福利片91| 中文字幕在线观| 欧美成人午夜影院| 成人久久18免费网站| 亚洲欧美另类日本| 免费人成网站在线观看欧美| 国产导航在线| 国产综合色在线视频播放线视| 国产精品久久久久久影院| 91在线中文| 亚洲色图欧美在线| 蜜臀av性久久久久蜜臀aⅴ麻豆| 午夜小视频在线| 国产精品思思热在线| 免费午夜无码18禁无码影院| 国产精品99在线观看| 国产日韩欧美一区二区三区在线| 国外欧美一区另类中文字幕| 亚洲最大综合网| 99ri精品视频在线观看播放| 一本大道香蕉中文日本不卡高清二区| 亚洲日韩欧美在线观看| 波多野结衣视频一区二区| 国内毛片视频| 国产在线麻豆波多野结衣| 在线另类稀缺国产呦| 国产成年女人特黄特色毛片免| 免费jizz在线播放| 亚洲天堂777| 久久一色本道亚洲| 国产精品漂亮美女在线观看| 国产成人你懂的在线观看| 欧洲免费精品视频在线| 色男人的天堂久久综合| 亚洲成人免费看| 国产手机在线观看| 亚洲黄网视频| jizz国产视频| 伊人久久大线影院首页| 香蕉精品在线| 欧美综合成人| 国产免费怡红院视频| 午夜在线不卡| 欧美激情,国产精品| 亚洲 欧美 日韩综合一区| 国产成人综合在线观看| 天堂av综合网|