999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于圖神經(jīng)網(wǎng)絡(luò)的推薦系統(tǒng)模型

2023-04-07 03:04:46邵新慧
關(guān)鍵詞:特征用戶信息

林 幸 邵新慧

(東北大學(xué)理學(xué)院 遼寧 沈陽 110819)

0 引 言

隨著科學(xué)技術(shù)的不斷進(jìn)步,用戶獲得和瀏覽信息的方式產(chǎn)生了翻天覆地的變化,信息量呈爆炸式增長,帶來了信息過載問題,這種問題使人們對(duì)有效信息的篩選變得十分困難。為解決以上難題,推薦技術(shù)的應(yīng)用逐步進(jìn)入了人們的生活,通過利用用戶與項(xiàng)目的歷史交互數(shù)據(jù),對(duì)用戶未觀測(cè)到項(xiàng)目的感興趣度進(jìn)行預(yù)測(cè),并對(duì)預(yù)測(cè)結(jié)果進(jìn)行排序,并推薦給相關(guān)用戶。

1994年基于商品的協(xié)同過濾算法首次由Resnick等[1]提出,其原理簡(jiǎn)單,效果顯著,是目前為止在推薦系統(tǒng)領(lǐng)域應(yīng)用最廣的技術(shù)。傳統(tǒng)的協(xié)同過濾算法主要分為基于用戶的協(xié)同過濾UserCF、基于物品的協(xié)同過濾ItemCF[2]和基于模型的協(xié)同過濾和依托于機(jī)器學(xué)習(xí)模型的協(xié)同過濾,通過對(duì)模型進(jìn)行離線訓(xùn)練和優(yōu)化,在線進(jìn)行推薦。盡管協(xié)同過濾算法在應(yīng)用領(lǐng)域已經(jīng)取得了巨大的成功,但是對(duì)于解決數(shù)據(jù)冷啟動(dòng)和數(shù)據(jù)稀疏性問題仍然面臨著巨大的挑戰(zhàn)。深度學(xué)習(xí)利用海量的數(shù)據(jù),挖掘并學(xué)習(xí)用戶和物品之間的深層交互信息,能夠提高推薦的準(zhǔn)確率。因此,目前研究基于深度學(xué)習(xí)的協(xié)同過濾方法成為了一個(gè)熱門的問題。

在2016年召開的ACM學(xué)術(shù)會(huì)議中,成功舉行了第一屆基于深度學(xué)習(xí)的推薦系統(tǒng)專題研究討論會(huì),提出深度學(xué)習(xí)的重要研究方向。近年來,深度學(xué)習(xí)與推薦相結(jié)合的學(xué)術(shù)論文在各個(gè)領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議中也逐漸增多[3-5]。由于傳統(tǒng)的推薦系統(tǒng)無法挖掘用戶與電影之間更深層次之間的關(guān)系,同時(shí)也無法解決數(shù)據(jù)稀疏性的問題,圖神經(jīng)網(wǎng)絡(luò)將用戶與物品之間的交互信息作為二部圖傳入到神經(jīng)網(wǎng)絡(luò)中可以更好地解決數(shù)據(jù)稀疏性的問題,且通過用戶與物品之間的連通關(guān)系能夠讓用戶與物品的特征表示更加的具體。

因此,本文提出一種結(jié)合注意力機(jī)制的圖神經(jīng)網(wǎng)絡(luò)模型來解決推薦算法中存在的問題。通過用戶與物品的歷史交互行為數(shù)據(jù),對(duì)用戶與物品之間建立二部圖,挖掘它們之間的高階連通性,并且在模型中引入注意力機(jī)制,對(duì)不同層之間的特征表示賦予不同的重要程度,使得用戶的特征表示包含了對(duì)不同層物品的偏好程度,而物品的特征表示也包含了對(duì)不同層用戶行為的偏好,豐富了特征表示,從而改善了模型的性能。

1 相關(guān)工作

在20世紀(jì)90年代首次在視覺圖像領(lǐng)域提出了注意力機(jī)制的概念,但是真正讓其變得熱門是在2014年Mnih等[6]提出了一個(gè)新的注意力視覺模型,它能夠?qū)⒁暰W(wǎng)膜集中在相關(guān)的區(qū)域上,并且忽略不重要的信息從而進(jìn)行圖像分類。Bahdanau等[7]將注意力機(jī)制應(yīng)用到機(jī)器翻譯中,是第一次將注意力機(jī)制應(yīng)用在自然語言處理領(lǐng)域中。注意力機(jī)制因其具有捕獲特征之間不同重要性的能力而被廣泛應(yīng)用在各個(gè)領(lǐng)域。同時(shí)2017年出現(xiàn)大量注意力機(jī)制與推薦系統(tǒng)相結(jié)合的論文,Wang等[8]將注意力機(jī)制應(yīng)用到新聞推薦中,將新聞的文本內(nèi)容作為輸入,考慮新聞數(shù)據(jù)具有的時(shí)序特點(diǎn),應(yīng)用注意力機(jī)制考慮了不同時(shí)間對(duì)新聞?dòng)胁煌挠绊懗潭?最終的輸出為是否會(huì)對(duì)該新聞進(jìn)行推薦。Seo等[9]提出基于局部和全局的雙層注意力機(jī)制的CNN模型,利用商品的評(píng)論和評(píng)分?jǐn)?shù)據(jù)進(jìn)行建模,最終得到推薦結(jié)果。Chen等[10]認(rèn)為用戶的正向反饋數(shù)據(jù)并不一定是對(duì)該項(xiàng)目的喜愛,例如朋友圈點(diǎn)贊數(shù)據(jù),可能僅僅是因?yàn)榇蠹叶键c(diǎn)贊所以用戶也進(jìn)行同樣的操作。根據(jù)上述的現(xiàn)象提出利用對(duì)不同層級(jí)的反饋分配不同的權(quán)重,根據(jù)用戶的喜好進(jìn)行建模。Zhou等[11]在阿里的商業(yè)廣告CTR預(yù)測(cè)中引入注意力機(jī)制來更精準(zhǔn)地捕獲用戶的興趣點(diǎn)。

近年來圖神經(jīng)網(wǎng)絡(luò)迅速發(fā)展,已經(jīng)成為了深度學(xué)習(xí)中最熱門的技術(shù)之一。Kipf等[12]在2017年的ICLR會(huì)議中首次提出GCN的概念,GCN是CNN的變體,用于處理基于圖的數(shù)據(jù)。基于圖表示的學(xué)習(xí)模型,通過堆疊多層卷積聚合運(yùn)算和非線性激活運(yùn)算得到最終特征表示。近兩年有很多的學(xué)者在基于協(xié)同過濾的推薦系統(tǒng)中,通過將用戶與物品之間的歷史交互行為視為二部圖,利用GCN捕獲了用戶與物品之間更高層次的協(xié)作信號(hào)。這些基于GCN的推薦系統(tǒng)與傳統(tǒng)的推薦系統(tǒng)相比,性能更加優(yōu)越。Rianne等[13]提出了一個(gè)圖自動(dòng)編碼器,其中包含了一個(gè)卷積層,通過在雙向用戶項(xiàng)上傳遞消息來構(gòu)建用戶和項(xiàng)目的嵌入。Ying等[14]提出結(jié)合圖卷積與隨機(jī)游走的方法,生成了同時(shí)包含項(xiàng)目與用戶節(jié)點(diǎn)特征的信息,進(jìn)一步改善了模型的魯棒性和收斂性。Wang等[15]設(shè)計(jì)了一個(gè)新的嵌入傳播層可以根據(jù)用戶與項(xiàng)目之間的高階連通性,捕獲它們之間的高階協(xié)作信號(hào)。但在通過卷積進(jìn)行信息聚合運(yùn)算后,沒有考慮到不同層輸出的表示特征之間的相關(guān)性。因此,本文引入注意力機(jī)制為不同層之間的信息賦予不同的重要性,在進(jìn)行卷積信息聚合后對(duì)不同層之間的特征進(jìn)行注意力層的操作才可以使節(jié)點(diǎn)的最終特征表示更加完善。

2 模型設(shè)計(jì)

2.1 特征初始化

本文的模型框架如圖1所示,分為特征初始化,嵌入傳播層和預(yù)測(cè)層。

圖1 模型整體框架圖

在大多數(shù)的推薦中直接將初始特征輸入到預(yù)測(cè)層,得到預(yù)測(cè)評(píng)分。而本文將ID信息作為初始特征,通過嵌入傳播層,可以更好地捕獲協(xié)同過濾信號(hào)。初始特征表示如下:

E0=[ea1,ea2,…,eaM,ei1,ei2,…,eiN]

(1)

式中:M表示用戶的數(shù)量;N表示項(xiàng)目的數(shù)量。

2.2 嵌入傳播層

我們將設(shè)計(jì)一種嵌入傳播層,用以捕獲在圖結(jié)構(gòu)中的協(xié)同過濾信號(hào),首先介紹單層嵌入傳播層,對(duì)于用戶-項(xiàng)目之間的信息傳遞表示為:

用戶對(duì)用戶本身之間的信息傳遞表示為:

通過匯總所有鄰居節(jié)點(diǎn)的特征表示完成最終的表示學(xué)習(xí),信息聚合的公式如下:

式中:ea為用戶a匯總鄰居節(jié)點(diǎn)的信息之后的特征表示,LeakyReLU為激活函數(shù),在信息傳遞過程中通過拉普拉斯范數(shù),使得不同的節(jié)點(diǎn)對(duì)同一用戶具有不同的重要程度,也使得信息傳遞過程中增強(qiáng)了模型的表示能力,使得模型性能得到提升。用矩陣的形式表示各層之間的信息傳遞,公式如下:

式中:El表示第l層的特征表示;El-1表示上一層的特征表示;L表示拉普拉斯矩陣;I為單位矩陣;A是鄰接矩陣;D是度矩陣。

本文設(shè)計(jì)一個(gè)注意力層,在模型中每一個(gè)嵌入傳播層都會(huì)輸出一個(gè)新的節(jié)點(diǎn)的表示特征,我們利用注意力機(jī)制對(duì)不同層之間的特征進(jìn)行加權(quán),然后再與原始特征進(jìn)行串聯(lián)操作。由實(shí)驗(yàn)結(jié)果可以看出進(jìn)行加權(quán)后的模型效果更好,可以學(xué)習(xí)到更好的表示特征。具體公式如下:

式中:

式中:

2.3 評(píng)分預(yù)測(cè)

對(duì)于推薦模型,最終用戶對(duì)電影的預(yù)測(cè)偏好由用戶-項(xiàng)目之間的交互特征表示。具體公式如下:

2.4 模型學(xué)習(xí)

由于數(shù)據(jù)是隱式數(shù)據(jù),對(duì)于同時(shí)出現(xiàn)的兩個(gè)項(xiàng)目,需要知道用戶會(huì)更傾向于哪個(gè)項(xiàng)目,也就是學(xué)習(xí)用戶對(duì)不同項(xiàng)目的偏好。對(duì)不同的項(xiàng)目一定存在不同的優(yōu)先級(jí),對(duì)于用戶有歷史交互行為的項(xiàng)目應(yīng)該比沒有歷史交互行為的項(xiàng)目得到的預(yù)測(cè)值要高。BPR是目前在推薦系統(tǒng)領(lǐng)域廣泛使用的基于成對(duì)數(shù)據(jù)的損失函數(shù)[16]。通過損失函數(shù)最小化的方法更新模型的參數(shù)。其表達(dá)式如下:

3 實(shí)驗(yàn)與結(jié)果分析

3.1 數(shù)據(jù)預(yù)處理

數(shù)據(jù)采用的是在推薦領(lǐng)域十分常見的公開數(shù)據(jù)集,即由UCI開發(fā)的MovieLens 1M用戶電影評(píng)分?jǐn)?shù)據(jù)集,并且保證了每個(gè)用戶對(duì)不同電影進(jìn)行評(píng)分的數(shù)據(jù)至少有20條。原始的數(shù)據(jù)中包含了用戶和電影編號(hào),用戶對(duì)電影的評(píng)分以及時(shí)間戳字段,其中評(píng)分?jǐn)?shù)據(jù)為1-5分,其中包含了3 952部電影,6 040個(gè)用戶和1 000209條評(píng)分?jǐn)?shù)據(jù),并且數(shù)據(jù)存放在csv文件中。由于本文只需考慮用戶對(duì)電影的歷史交互行為,所以對(duì)原始數(shù)據(jù)進(jìn)行處理,僅保留用戶編號(hào)、電影編號(hào)和評(píng)分?jǐn)?shù)據(jù),并且原始的評(píng)分?jǐn)?shù)據(jù)為顯式數(shù)據(jù),需要將評(píng)分?jǐn)?shù)據(jù)全部轉(zhuǎn)換為隱式數(shù)據(jù)。將所有評(píng)分為1-5分的電影評(píng)分轉(zhuǎn)換為1,而未進(jìn)行電影評(píng)分的數(shù)據(jù)記為0。其中0代表用戶沒有觀看過該電影,1代表用戶對(duì)電影進(jìn)行過評(píng)分。并且將數(shù)據(jù)的80%作為訓(xùn)練集,20%作為測(cè)試集。

3.2 實(shí)驗(yàn)環(huán)境

此次實(shí)驗(yàn)采用Linux操作系統(tǒng),PyTorch 1.1.0框架。平臺(tái)硬件參數(shù)如下:Intel Core i7- 8550處理器,內(nèi)存大小為16 GB,主頻2.0 GHz。

3.3 實(shí)驗(yàn)參數(shù)

在本文的實(shí)驗(yàn)中,采用小批量adam算法優(yōu)化模型[17],對(duì)于參數(shù)初始化使用的是Xavier,它具有計(jì)算效率高,能較好處理稀疏梯度等優(yōu)點(diǎn)。為了防止模型發(fā)生過擬合現(xiàn)象,在神經(jīng)網(wǎng)絡(luò)中添加了Batch Normalization和dropout。BN是指使在模型訓(xùn)練過程中,使得每一層的輸入均服從標(biāo)準(zhǔn)正態(tài)分布。dropout是指在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過程中,按照指定的比例從神經(jīng)網(wǎng)絡(luò)中將部分神經(jīng)元暫時(shí)舍棄。本文的batch size為4 096,embed size為64。超參數(shù)根據(jù)網(wǎng)格搜索的方法選取最優(yōu)值。dropout值在[0.1,0,2,0,3]之間進(jìn)行調(diào)整,取0.1時(shí)為最優(yōu);學(xué)習(xí)率在[0.000 1,0.000 5,0.001]中進(jìn)行調(diào)整,0.000 1為最優(yōu)選擇;L2正則化的系數(shù)在[10-5,10-4,10-3]之間進(jìn)行取值,為10-5時(shí)為最優(yōu)值。

3.4 結(jié)果評(píng)估指標(biāo)

對(duì)于實(shí)驗(yàn)結(jié)果評(píng)價(jià),采用三個(gè)評(píng)價(jià)指標(biāo)進(jìn)行模型效果評(píng)估。準(zhǔn)確率(Precision)和召回率(Recall)可以用來評(píng)判模型整體推薦結(jié)果的質(zhì)量。NDCG表示歸一化的折損累積增益,可以用來衡量推薦順序的質(zhì)量。三個(gè)指標(biāo)均是值越大代表推薦的效果越好。

(1) 準(zhǔn)確率的計(jì)算公式如下:

式中:K表示根據(jù)用戶a做出的推薦列表中有K項(xiàng),N表示用戶的總數(shù),d表示在給用戶a推薦的K個(gè)電影中,用戶對(duì)其有過觀看記錄的數(shù)量。

(2) 召回率表示在最終的推薦列表中存在評(píng)分行為的比例。計(jì)算公式如下:

式中:r表示測(cè)試集中用戶a有過觀看行為的數(shù)量,N表示用戶的總數(shù),d表示在給用戶a推薦的K個(gè)電影中,用戶對(duì)其有過觀看記錄的數(shù)量。

(3) NDCG可以用于衡量推薦結(jié)果順序的質(zhì)量,對(duì)于最終的推薦結(jié)果,考慮到進(jìn)行排序推薦時(shí)不同順序會(huì)對(duì)最終的推薦效果產(chǎn)生不同的影響,希望達(dá)到相關(guān)性大的結(jié)果排在前面,相關(guān)性小的結(jié)果排在后面,計(jì)算公式如下:

式中:K是推薦列表的長度,DCG是指推薦列表位置結(jié)果的相關(guān)性,DCG值越大代表相關(guān)性越高。由于我們需要對(duì)整個(gè)測(cè)試集中的用戶的推薦列表進(jìn)行評(píng)估,但DCG僅表示單個(gè)用戶的推薦列表的質(zhì)量,則需要進(jìn)行歸一化處理。

式中:IDCG表示用戶得到的按照相關(guān)性倒序排序后的最優(yōu)的推薦列表,其中DCG∈(0,IDCG]。

3.5 實(shí)驗(yàn)結(jié)果

NMF模型為一個(gè)由MLP和GMF組成的神經(jīng)網(wǎng)絡(luò)框架,它可以得到用戶與物品之間的非線性特征表示。GCMC模型是在二部圖結(jié)構(gòu)中應(yīng)用圖自動(dòng)編碼器。捕獲一階鄰居節(jié)點(diǎn)的特征。NGCF模型提出了利用用戶與項(xiàng)目之間的高階聯(lián)通性捕獲用戶和項(xiàng)目的嵌入信息,使得用戶和項(xiàng)目的特征表示更加的完整。實(shí)驗(yàn)采用Recall、Precision和NDCG三個(gè)指標(biāo)對(duì)模型進(jìn)行評(píng)估,其中推薦列表的長度為20個(gè)。由表1可以看出與NMF、GCMC和NGCF模型相比,提出的AttGCF的模型評(píng)估效果始終優(yōu)于其他的模型,其中召回率比NGCF模型提高了3.8%,準(zhǔn)確率提高了3%,NDCG提高了1.2%。這說明提出的AttGCF模型能夠更好地學(xué)習(xí)到用戶與項(xiàng)目之間的行為偏好,得到更好的推薦效果。

表1 模型效果對(duì)標(biāo)

對(duì)于推薦列表長度的評(píng)估,實(shí)驗(yàn)分別選取了推薦列表分別為20、40、60、80和100個(gè)項(xiàng)目時(shí)各個(gè)模型的評(píng)估結(jié)果。由圖2-圖4可以看出隨著推薦列表長度的增加,各個(gè)模型的召回率和NDCG值均有所增加,但是準(zhǔn)確率卻有所下降,所以最終選擇推薦列表長度為20時(shí)作為最優(yōu)的結(jié)果。

圖2 不同K的Recall比較

圖3 不同K的Precision比較

圖4 不同K的NDCG比較

下面分析嵌入傳播層的深度對(duì)模型的影響。從表2可以看出當(dāng)嵌入傳播層的深度為2時(shí),模型取得最優(yōu)的效果。結(jié)合多層鄰居信息的模型效果比僅考慮一階鄰居信息的推薦效果更好,當(dāng)改變嵌入傳播層數(shù)時(shí),AttGCF的結(jié)果均優(yōu)于NGCF模型。說明引入注意力機(jī)制的圖神經(jīng)網(wǎng)絡(luò)模型可以更好地學(xué)習(xí)到用戶和項(xiàng)目的特征表示,使得最終的推薦結(jié)果更好。

表2 傳播層層數(shù)對(duì)模型的影響

4 結(jié) 語

用戶和物品之間存在的協(xié)作信號(hào)問題是不能忽略的問題。從傳統(tǒng)的協(xié)同過濾算法到最近出現(xiàn)的基于深度學(xué)習(xí)的方法,現(xiàn)有的研究通常是通過用戶的編號(hào)等附加屬性來獲得用戶的嵌入。傳統(tǒng)的協(xié)同過濾算法只考慮物品之間和用戶之間的關(guān)系,從而忽略了用戶與物品之間存在的協(xié)作信號(hào)對(duì)協(xié)同過濾效果的影響。因此本文設(shè)計(jì)了一個(gè)結(jié)合注意力機(jī)制的圖神經(jīng)網(wǎng)絡(luò)模型來捕獲用戶與物品之間的協(xié)作信號(hào)。通過對(duì)用戶與物品之間建立二部圖,設(shè)計(jì)嵌入傳播層,并引入注意力機(jī)制對(duì)不同層輸出的表示特征賦予不同的權(quán)重,經(jīng)過實(shí)驗(yàn)驗(yàn)證本文提出的AttGCF模型的推薦效果更好。但實(shí)驗(yàn)也存在不足之處,將用戶與物品之間的內(nèi)積作為預(yù)測(cè)評(píng)分的方式,不能充分挖掘出兩者之間的關(guān)系。所以在接下來的工作中考慮使用非線性神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行預(yù)測(cè)評(píng)分。

猜你喜歡
特征用戶信息
如何表達(dá)“特征”
不忠誠的四個(gè)特征
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
展會(huì)信息
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 午夜在线不卡| 国产免费久久精品99re丫丫一| 久草中文网| 亚洲福利视频网址| 亚洲AV一二三区无码AV蜜桃| 丁香亚洲综合五月天婷婷| 欧美精品成人一区二区在线观看| 无码又爽又刺激的高潮视频| 婷婷色在线视频| 福利视频久久| 精品视频免费在线| 在线精品亚洲国产| 国产日韩欧美中文| 国产成人免费视频精品一区二区| 国产精品微拍| 99久久国产综合精品2023| 在线亚洲精品自拍| 91精品国产麻豆国产自产在线| 成人精品免费视频| 亚洲热线99精品视频| 久久特级毛片| 国产va在线观看| 97国产成人无码精品久久久| 内射人妻无码色AV天堂| 黄色在线网| 老司机精品99在线播放| 无码专区第一页| 99九九成人免费视频精品 | 久久中文电影| 99成人在线观看| 国产福利不卡视频| 成人在线视频一区| 日本一本在线视频| 人妻无码中文字幕一区二区三区| 免费毛片全部不收费的| 欧美另类第一页| 少妇精品在线| 五月婷婷伊人网| 日韩欧美视频第一区在线观看| 亚洲视频免费在线| 国产一区在线视频观看| 免费在线色| 国内丰满少妇猛烈精品播 | 午夜精品影院| 欧美日韩精品一区二区视频| 中文字幕av无码不卡免费| 国产成人高清在线精品| 高清免费毛片| 九色在线观看视频| 国产欧美日韩精品综合在线| 国产精鲁鲁网在线视频| 欧美专区日韩专区| 亚洲欧美另类视频| 四虎影院国产| 久久国产成人精品国产成人亚洲 | 日韩精品高清自在线| 成人伊人色一区二区三区| 国产高清在线精品一区二区三区| 成人免费视频一区| 国产第一页免费浮力影院| 1769国产精品视频免费观看| 丁香五月激情图片| 亚洲成人一区在线| 亚洲人人视频| 亚洲国产综合精品一区| 91丝袜乱伦| 亚洲成人网在线播放| 国产日本欧美亚洲精品视| 国外欧美一区另类中文字幕| 免费观看无遮挡www的小视频| 亚洲精品成人片在线观看| 女人18毛片一级毛片在线 | 亚洲视频在线观看免费视频| 国产区网址| 日本成人在线不卡视频| 国产一区亚洲一区| 国产综合网站| 波多野结衣无码中文字幕在线观看一区二区| m男亚洲一区中文字幕| 一区二区午夜| 国内精品伊人久久久久7777人| 综合社区亚洲熟妇p|