999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自監督學習的多密度圖會話推薦

2023-09-18 04:35:28劉曉黎王軼彤
計算機工程 2023年9期
關鍵詞:監督用戶方法

劉曉黎,王軼彤

(復旦大學 軟件學院,上海 200433)

0 概述

基于會話的推薦系統旨在根據匿名用戶在短時間內的歷史交互序列來預測下一個可能的點擊或消費項目,由于它在許多實際生產環境中的在線服務(如電子商務、音樂、新聞)中被廣泛使用,受到人們越來越多的關注[1-2]。目前的方法主要是通過對序列模式和項目之間的復雜關系進行建模。其中早期的工作主要集中在馬爾可夫鏈或循環神經網絡(Recurrent Neural Network,RNN)上。由于用戶的偏好并不像自然語言那樣嚴格有序,這些方法不足以捕捉會話中項目之間的復雜關系。最近,圖神經網絡(Graph Neural Network,GNN)引起了研究人員的廣泛關注,并在許多任務中取得了巨大進展,如基于會話的推薦,將會話轉換為多種有向圖,并在項目之間進行消息傳遞,以捕捉它們之間的復雜關聯關系。

在基于會話的推薦系統中,由于會話數據來自用戶與項目的互動,其中一小部分熱門商品獲得了大部分互動,大量項目的交互數據比較稀疏。然而,多數研究忽略了這一長尾分布現象,導致現有的模型偏向推薦熱門的項目,在長尾項目上的推薦性能表現不佳。最近,自監督學習(Self-Supervised Learning,SSL)被學術界廣泛研究,研究人員使用增強的訓練數據構建監督學習任務來提高模型的性能,一些研究[3-4]希望通過自監督學習改進推薦中的順序模式建模。

基于會話的推薦的另一個關鍵挑戰是通過捕捉項目之間的復雜關系來捕捉用戶意圖。目前,大多數工作集中于關注用戶的最后一次交互,并在相鄰項目之間建立連接[5]。在基于GNN 的方法中,一些研究[6-8]試圖在不相鄰的項目之間建立連接,例如考慮更大的粒度、構建快捷圖等。雖然這些工作注意到非相鄰項目之間的相關性,但沒有研究用戶意圖的遠距離項目的聯合影響。具體來說,用戶做出的決定可能會受到前k個相鄰項目的共同影響,即在同一會話中,一個項目與其前k個相鄰項目之間存在密切關聯。

本文構建一個多任務學習模型,同時兼顧推薦任務學習和長尾項目嵌入學習。其中會話推薦任務基于原始數據分布進行統一采樣,旨在學習會話推薦模式,輔助自監督學習任務基于所構建的反采樣器進行采樣,并對會話數據進行數據增強,以緩解數據稀疏性,增強對尾部數據進行建模。此外,設計多密度會話圖來對用戶意圖進行建模,隨著鄰域變大及圖的密度增加,用戶意圖可能直接受到更遠的項目的影響,因此通過引入虛擬節點來表示用戶的當前意圖,使用統一的圖神經網絡以更可解釋的方式學習會話的嵌入。

1 相關工作

1.1 會話推薦

傳統的基于會話的推薦方法通常基于馬爾可夫鏈,注重對相鄰項目的轉換模式進行建模。例如:文獻[9]提出分解個性化馬爾可夫鏈(Factorizing Personalized Markov Chain,FPMC)來捕捉相鄰點擊之間的順序行為;文獻[10]將播放列表建模為馬爾可夫鏈,并提出邏輯馬爾可夫嵌入來學習歌曲的嵌入以進行播放列表預測。然而,大多數基于馬爾可夫鏈的模型由于只考慮會話的最近點擊,無法捕捉復雜的高階順序模式。

近年來,基于神經網絡的模型在許多研究領域取得了長足的進步。作為序列數據建模的自然解決方案,RNN 被應用于基于會話的推薦。例如:文獻[11]提出的NARM 方法使用門控循環單元(Gated Recurrent Unit,GRU)對當前會話進行建模,并運用注意力機制來捕捉用戶的主要意圖;由于當前會話中包含的信息是有限的,因此文獻[12]提出的CSRM 方法將協作鄰域信息納入基于會話的推薦中。然而,基于會話的推薦問題不僅僅是一個序列建模任務,其對序列信號進行建模的基于RNN 的方法限制了模型的預測精度。

由于圖神經網絡在復雜關系建模方面的強大學習能力,它們在基于會話的推薦方面取得了巨大成功。文獻[13]提出一種SR-GNN 方法,基于項目的轉換關系將會話構建為有向圖,并使用門控圖神經網絡對會話進行建模。文獻[7]提出一種Lessr 方法,使用一個基于GRU 的邊順序保持聚合層和一個快捷圖來解決基于GNN 方法中的有損編碼問題和遠距離依賴問題。文獻[8]提出一種GCE-GNN 方法,融合所有會話中的項目轉換關系并由此構建全局圖,從而探索跨會話信息。文獻[6]提出的MSGIFSR 方法將連續的多個項目視為一個節點,并捕獲不同粒度意圖單元之間的交互。然而,這些基于GNN 的方法并沒有明確地對影響用戶意圖的鄰域大小進行建模,因此本文提出了一種多密度會話圖,以細粒度的方式對遠距離依賴進行建模。

1.2 長尾分布

長尾分布現象在現實世界中的各個領域廣泛存在,例如圖像分類、自然語言處理和推薦系統。一般來說,處理長尾分布問題的常用策略是重新采樣以平衡數據集,或者細化損失函數,例如為類/項目添加不同的權重/正則化。在推薦系統中,由于用戶反饋的稀疏性以及大量新物品的快速增加,造成項目的長尾分布現象非常明顯,因此學術界進行了廣泛的研究[14-17]。例如,文獻[15]提出對尾部項目進行聚類,對于尾部項目,根據聚類中的評分進行推薦。文獻[16]對頭部項目和尾部項目之間的語義聯系進行研究,通過元學習和課程學習進行知識遷移。然而,這些模型都不是為會話推薦這種具有序列模式數據的任務而設計的,加上缺少額外信息和用戶畫像,因此這些傳統的長尾推薦方法不適用于基于會話的推薦。在基于會話的推薦系統中,文獻[17]提出的TailNet 方法使用一種基于偏好機制對預測的分數進行調整,但其對尾部項目的性能改進損害了頭部項目的性能。

1.3 自監督學習

自監督學習的基本思想是通過各種數據增強來增強訓練數據,并構建監督任務來預測或重構原始示例作為輔助任務。自監督學習已廣泛應用于計算機視覺和自然語言處理領域。例如:文獻[18]提出對圖像進行隨機旋轉,并訓練一個模型來預測每個增強的圖像如何進行旋轉;文獻[19]提出的BERT模型引入掩碼語言任務,以幫助改進語言模型的預訓練。在圖嵌入學習領域,自監督學習最近也受到了相當大的關注。例如:文獻[20]提出的DGI 方法最大化局部塊和全局圖之間的互信息;文獻[21]提出InfoGraph 方法通過不同尺度的子結構(如節點、邊、三角形)之間嵌入的一致性來對圖數據進行編碼。在會話推薦領域,文獻[3-4]提出融合多個會話的數據,并分別構建為超圖和線圖,使用自監督學習增強會話建模。與上述工作不同,本文提出的自監督學習任務框架注重改進長尾項目的嵌入。

2 本文方法

本文提出的SMDG 模型架構如圖1 所示,其核心模塊是一個基于多密度會話圖的會話編碼模塊,以及基于此模塊所構建的會話推薦任務和輔助自監督學習任務。

圖1 SMDG 模型框架Fig.1 Framework of the SMDG model

2.1 問題定義

在基于會話的推薦中,I={i1,i2,…,i|I|}用于表示所有會話中涉及的項目的集合。匿名用戶的會話被定義為一個有序序列S=[vz1,vz2,…,vzn],其中,vzi?I(1 ≤i≤n),n是會話S的長度,不同會話的長度有可能不同。此外,會話S中的項目可能存在重復,即?vzi=vzj,1 ≤i

2.2 多密度會話編碼

多密度會話編碼(MDSE)主要有多密度圖構建以及圖嵌入學習兩個模塊組成。

2.2.1 多密度圖構建

對于會話S=[vz1,vz2,…,vzn],本文構建一個多密度會話圖來表示項目之間的復雜關系以及項目與當前意圖的聯系。

定義1(k-Neighbor 集) 對于會 話S=[vz1,vz2,…,vzn]中的一個項目vzi,其k-Neighbor 集表示為它在S中距離小于等于k的項目集合,其定義如下:

具體來說,會話S=[vz1,vz2,…,vzn]表示為一個多重異構圖節點由兩部分組成:第1 部分Vs={x1,x2,…,xm}表示會話S中所有不同的項目,稱為項目節點,請注意m≤n,因為會話中可能有重復的項目;第2 部分vt是新引入的虛擬目標節點,用它來表示用戶當前的意圖。為了表征用戶的當前意圖,傳統方法通常通過將最后一個項目作為查詢向量來聚合項目嵌入。通過引入虛擬目標節點,本文能夠通過統一的圖神經網絡以更可解釋的方式達到這一目的。

特別地,對于給定的k,可以通過提取多密度會話圖的部分邊獲得子圖,稱為k-DSG,k表示項目之間直接關聯的緊密程度。圖2所示為會話[v1,v2,v3,v2,v4,v5]構建的2-DSG 示例。從圖2 可以看出:2-DSG 捕獲項目之間的直接轉換關系,并且它非常稀疏,因為節點僅在會話中相鄰時才連接,這意味用戶意圖主要受相鄰項目的直接影響。隨著k的增加,遠距離項目之間建立直接連接,圖變得更加密集,從而能夠捕獲項目之間的遠距離依賴關系[15]。從另一個角度來看,意味用戶意圖直接受到更遠的項目的影響。

圖2 會話 [v1,v2,v3,v2,v4,v5]的2-DSG 示例Fig.2 Example of 2-DSG for session [v1,v2,v3,v2,v4,v5]

2.2.2 圖嵌入學習

通過一個類似GAT 的圖神經網絡,交替傳播聚合邊和項目邊上的信息來學習多密度會話圖上的節點嵌入。

1)嵌入初始化

初始化圖中節點和邊的嵌入:

其中:xi?Rd是項目節點i的d維嵌入,它直接取自項目嵌入I?RN×d。對于虛擬目標節點vt,使用一個特殊嵌入x t?Rd來表示,代表用戶沒有進行任何消費時的一般初始意圖,pi?Rd表示第i條聚合邊的嵌入。

2)項目邊信息傳播

對于Ei,k,本文應用雙向多頭注意力機制在兩個方向上傳播信息。給定一個節點xi及其in-鄰居集Nk,in,通過具有殘差連接的聚合機制更新節點的嵌入:

其中:p?Rd、q?R2d、Wk,1,Wk,2?Rd×d是可訓 練的參數;||表示連接操作,本文選擇LeakyReLU 作為激活函數σ。

類似地,可以通過基于其out-鄰居集Nk,out聚合節點的嵌入來獲得h←i,l+1。這兩個方向實際上是對項目之間的前向和后向關系進行建模。最后,將它們相加來 更新節 點的嵌 入此 外,本文利用最大池化的多頭注意力機制來穩定學習過程。具體來說,節點嵌入hi,l+1的第j維被定義如下:

3)聚合邊信息傳播

對于Ea,通過聚合項目節點的嵌入來更新虛擬目標節點vt的嵌入。參考文獻[4,8],本文認為每個項目節點對當前意圖的影響取決于它本身及其在會話中的位置。考慮到Gk是一個多重圖(同一個項目可能位于多個不同的位置),通過以下方式定義每條邊的權重:

其中:ei表示與虛擬目標節點連接的第i條邊;hei表示源項目節點的表示;Wk,4?R2d×d是可訓練參數。在獲得每條邊的權重后,通過線性聚合更新虛擬目標節點的嵌入:

4)交替更新策略

當前的方法通常使用讀出函數,通過最終聚合項目表示來獲得用戶意圖。本文認為這個過程不應該只執行一次,因此在聚合邊和項目邊上交替執行多層信息傳播。第1 次聚合意味假設用戶認為每個項目是獨立的。隨著交替更新的進行,每個項目聚合越來越多的關于其高階鄰居的信息,此時執行聚合意味假設用戶認為這些項目彼此密切相關。

基于上述假設,本文融合在每一層獲得的嵌入,以保留更豐富的用戶意圖信息:

其中:hlast為會話中最后一項的節點嵌入,表示用戶最近的行為;hk,g和hk,l分別表示會話的全局嵌入和局部嵌入。

2.3 多任務訓練

使用自監督學習任務輔助主要的會話推薦任務,聯合優化會話推薦任務和輔助自監督學習任務。

2.3.1 會話推薦任務

通過融合式(11)得到兩種嵌入,最終的會話嵌入(即用戶偏好嵌入)如下:

其中:Wk,5?Rd×2d是一個可訓練參數,將連接向量從 R2d轉換為Rd。本文對會話嵌入s和每個候選項目嵌入xi應用L2 歸一化來緩解會話推薦中的長尾分布現象所導致的流行度偏差問題[13]。之后,通過計算嵌入xi和會話嵌入s的內積預測項目vi的得分:

受到文獻[22]的啟發,本文考慮對用戶的重復行為和探索行為進行建模。具體來說,將項目集I劃分成兩個子集IS和I-IS。其中,IS表示當前會話S中出現的所有項目,I-IS表示其他剩余項目。對兩個子集中項目的分數分別進行歸一化:

此外,還訓練了一個判別器,計算用戶選擇這兩種行為的概率:

其中:W6?R2×d、W7?Rd×d、b7?Rd是可訓練的參數,本文選擇ReLU 作為激活函數σ。最后使用學習到的概率來對預測得分重新加權,根據該得分進行推薦:

注意到本文使用k-DSG 來建模用戶意圖,為了得到最終的推薦結果,對上述得分進行求和池化:

最后,采用通過標簽平滑[23]增強的交叉熵作為會話推薦任務損失函數:

2.3.2 基于反采樣器的輔助自監督學習任務

本文使用一個自監督學習任務來輔助原本的會話推薦任務,特別是增強對長尾項目的建模。首先定義一種反采樣器P:

其中:M表示數據集中會話的總數量;Pi表示采樣第i個會話概率,它與該會話中目標項目在數據集中出現的頻率ni成反比。根據反采樣器P重復多次有放回的抽樣,進而得到一個小批量的訓練數據。

然后對采樣得到的會話數據進行數據增強,從而創建自監督信號。本文采取一種常用的序列數據增強方式,即對于會話S,隨機地刪除其中一個項目,得到S′。由于這兩個會話非常接近,將它們視作正樣本對。對于一個批次中的N個樣本,通過數據增強得到2N個樣本,每個樣本有一個正樣本,剩余的2(N-1)個作為負樣本。使用式(11)中的hk,g作為會話嵌入并使用向量點積衡量兩個嵌入之間的相似性。對于一個正例對(i,j),其對比損失函數定義如下:

設在2N個樣本中,第k+N個樣本通過第k個樣本增強生成,則最終的自監督損失定義如下:

二是調解組織方面的問題。雖然,從機構建制和人員配置方面看,我國各級調解組織機構設置是很健全的,人員配置是比較充足的。但是,從專業素質和調解能力來看,還存在許多問題。“一站式”司法確認機制的運行,要求人民調解員完全按照訴訟程序的標準開展調解活動,按照訴訟案件的標準制作調解筆錄、收集各類資料和證據,按照法律規定的標準起草調解協議,對于法律專業素養不足的人民調解員來說,還是有很大難度的。這就需要主管部門在人員配備、素質培養等方面花大力氣。

2.3.3 聯合訓練

聯合兩個任務進行訓練,總的損失函數定義如下:

其中:β是一個平衡系數,用于控制輔助自監督任務的訓練速度,使用反向傳播算法來訓練所提出的模型。

3 實驗

3.1 數據集

為證明本文方法的有效性,在4 個真實的公開基準數據集上進行實驗:

1)Diginetica 來自CIKM Cup 2016,數據來自電子商務搜索引擎日志。遵循文獻[6-8],本文使用最后一周的會話(最新數據)作為測試數據。

2)Tmall 來自IJCAI-15 比賽,其中包含匿名用戶在天貓購物平臺上的購物日志。遵循文獻[8],本文認為用戶在同一天的事件屬于一個會話,最后一天的事件被用作測試數據。

3)Gowalla 是一個廣泛用于興趣點推薦的簽到數據集。遵循文獻[6-7],本文保留了前30 000 個最受歡迎的位置,通過將超過1 天的時間間隔作為分割點,將用戶的簽到記錄劃分為不相交的會話。使用最后20%的會話作為測試集。

4)Last.FM 是推薦任務中廣泛使用的數據集,它收集用戶的音樂收聽歷史。遵循文獻[6-7],本文保留了前40 000 名最受歡迎的藝術家,并將劃分間隔設置為8 h。與Gowalla 類似,最后20%的會話被用作測試集。

表1 數據集統計信息 Table 1 Dataset statistics

3.2 基線方法

本文將提出的方法與以下代表性基線方法進行對比:

Item-KNN[24]:通過計算會話中向量的余弦距離計算項目的相似度來進行推薦。

FPMC[9]:將馬爾可夫鏈和矩陣分解相結合用于會話推薦任務。

NARM[11]:使用門控循環單元(GRU)建模序列,并通過注意力機制來捕捉用戶的主要目的。

CSRM[12]:利用記憶網絡來提取當前會話和鄰域會話之間的協作信息。

Lessr[7]:引入了兩種會話圖來解決信息損失和長期依賴問題。

GCE-GNN[8]:通過對會話中的項目轉換進行建模來構建全局圖,從而學習全局項目嵌入。

S2-DHCN[3]:構造兩種類型的超圖來學習會話間和會話內信息。

COTREC[4]:將自監督學習與協同訓練相結合,以增強基于會話的推薦。

MSGIFSR[6]:學習多粒度用戶意圖單元以提取不同意圖粒度的會話信息。

TailNet[17]:根據點 擊頻率 將項目 分為流 行和長尾項目,并提出偏好機制對推薦進行軟調整。

Focal Loss(FL)[25]:通過動態縮放損失函數來緩解長尾問題。

Logit Adjustment(LG)[26]:通過調整模型預測的分數來增強模型對長尾數據的判別能力。

Over Sampling(OS)[27]:從尾部項中重復采樣以重新平衡訓練數據分布中的頭部項和尾部項。

3.3 評估指標

本文運用會話推薦中廣泛使用的指標命中率HR@K和平均倒數排名MRR@K來評估所有模型的性能:

1)HR@K。表示測試用例中目標項目在預測排名列表中位于top-k位置的比例:

其中:N代表測試數據的總數;nhit代表目標項目在排名列表中位于top-k位置的數量。

2)MRR@K。目標項目的排名倒數的平均值,它進一步反映了推薦的質量:

其中:Stest表示測試集中的所有目標項目;Rank(ilabel)表示該目標項目的預測排名,如果Rank(ilabel)大于K,該倒數將被置為0。

為了進一步衡量模型在長尾分布數據集上的性能,參考macro-F1 指標,本文提出一個新的指標宏命中率macro-HR(以下簡稱mHR):

其中:HHRt@K表示將it作為目標項目的所有會話所計算得到的HR@K。可以看到,這一指標將所有項目同等看待,提高了長尾項目在結果上的權重。

3.4 實驗設置

為了實驗的公平性,本文在所有實驗中將嵌入的維度固定為256,批次大小固定為512。從訓練集中隨機拆分10%的樣本作為驗證集,并選擇在驗證集上實現最佳性能的超參數。其中最大密度K在{2,3,4,5,6}中搜索,最佳標簽平滑參數?在{0.2,0.4,0.6,0.8}中搜索。遵循文獻[11,14,16],采用 Adam[28]優化器,初始學 習率為0.001,每 隔3 個 epoch 衰減0.1。本文根據命中率(HR)、宏命中率(mHR)和平均倒數排名(MRR)指標評估所有模型的性能。

3.5 整體性能

數據集的總體實驗結果如表2 所示,其中,粗體數字表示最優值,帶下劃線數字表示次優值。

表2 整體性能對比 Table 2 Comparison of overall performance %

從表2 可以看出:

1)與僅對項目相似性或項目轉換進行建模的傳統方法(例如Item-KNN 和FPMC)相比,基于神經網絡方法的性能有了很大進步,這證明了深度學習技術的有效性以及為會話建模復雜順序模式的價值。

2)在基于神經網絡的方法中,基于GNN 的方法比基于RNN 的方法表現更好,這證明了圖在建模項目之間的復雜關系方面的優越性。作為一種基于GNN 的方法,MSGIFSR 的表現次佳,但比其他基線方法好得多,因為它通過利用多粒度意圖并考慮重復消費來捕獲用戶偏好。

3)傳統的考慮長尾分布現象的方法(如LG、FL、OS)以及將項目集區分為流行和長尾項目的方法TailNet 的性能表現不佳。其中過采樣(OS)這種方式由于會使數據分布發生變化,從而導致了次優性能,這與過去的發現一致[29]。其余方法對預測得分或者損失進行加權,表現不佳的原因可能是對尾部項目性能的改進過度,損害了頭部項目的性能,并且都沒有充分考慮會話數據的順序模式特性。

4)本文所提出的方法SMDG 在4 個數據集上都取得了不錯的提升。特別是在Tmall 數據集上,分別在HR@20、mHR@20 和MRR@20 上實現 了5.88%、12.86%和9.71%的改進。當然,在部分情況下命中率的提升會導致平均倒數排名的下降,這是因為關注長尾項目對整體預測目標(特別是頭部項目)的排名有所影響。SMDG 對基線的改進主要來自2 個方面:(1)構建了一個多密度圖,以基于具有不同密度的鄰域圖來捕捉用戶意圖,同時建模項目之間的長期依賴關系;(2)使用自監督學習任務輔助主要的會話推薦任務,在不改變會話任務原始數據分布的同時,不僅緩解了數據稀疏性,而且還加強了對長尾項目的建模。

3.6 消融實驗

為了探究本文方法所提出的每個組件的有效性,本節進行消融研究以評估4 個變體的性能:

1)US:對于輔助自監督學習任務,不采用反采樣器,對會話數據進行均勻采樣。

2)-SSL:去掉輔助自監督學習任務。

3)-MD:不使用多密度圖,即設置最大密度K=1。

4)-LS:損失函數不使用label smoothing 增強。

消融實驗結果如表3 所示。從表3 可以看出,原始方法在4 個數據集上的性能均優于所有變體,這說明本文提出的各個組件對性能提升都起到了積極作用。對比SMDG 和US 可以看出,反采樣器相比于均勻采樣,提升效果更加顯著,說明反采樣器能夠更好地對長尾項目進行建模。對比US 和-SSL 可以看出,US 在Last.FM 數據集上會造成性能的損失。對比SMDG 和-SSL 可以看出,-SSL 的實驗性能下降很多,特別是在Tmall 數據集上,這說明本文提出的輔助自監督學習確實能夠有效緩解數據稀疏性問題,并且進一步增強長尾項目的建模。對比SMDG 和-MD 可以看出,由于-MD 無法對用戶的遠距離注意力建模,極大地損害了模型性能。此外,對比SMDG和-LS 可以發現,標簽平滑正則化對模型非常有用。本文認為主要原因是它通過軟目標緩解了傳統交叉熵損失過于嚴格的問題。由于用戶反饋存在一定的模糊性,通過使用軟目標平滑原始硬目標,可以體現用戶對大量未觀察到的項目的偏好,從而為基于會話的推薦帶來收益。

表3 消融實驗結果 Table 3 Results of ablation experiment %

3.7 頭尾項目性能對比

為了進一步探究模型在熱門項目和長尾項目上的效果,本文對訓練集中項目的出現頻率進行統計,并依據帕累托法則[30]作為分割標準,將項目劃分為頭項目(熱門項目)和尾項目(長尾項目)。本文模型在頭尾項目上的指標為HR@20、mHR@20 和MRR@20。

頭尾項目HR@20 和mHR@20 性能對比如表4和表5 所示。對比SMDG 和-SLL,可以看到自監督輔助任務在4 個數據集的2 個指標上都給長尾項目帶來巨大提升。對于熱門項目,自監督輔助任務給Diginetica 和Gowalla 造成了比較微弱的損害,但在Tmall 和Last.FM 數據集上依然是正向的效果。對比SMDG 和US 可以看到,在熱門項目上絕大部分情況都是正向收益,而在長尾項目上則全都是正向的效果。這說明了本文提出的輔助自監督學習任務以及反采樣器的有效性和魯棒性。

表4 頭尾項目HR@20 性能對比 Table 4 Performance comparison of HR@20 for head and tail items %

表5 頭尾項目mHR@20 性能對比 Table 5 Performance comparison of mHR@20 for head and tail items %

如表6 所示,對于MRR@20,輔助自監督學習任務對熱門項目的影響是比較負面的,但對長尾項目的影響稍顯正向,甚至在Diginetica 和Tmall 上有顯著提升。這說明對長尾項目的關注影響了其余項目(特別是熱門項目)在推薦結果中的排序位次。但考慮到實際的推薦應用分為召回和排序兩個階段,本文所提出的方法更加適用于召回階段,主要關注召回率,即命中率,因此可以接受一些排序性能的損失。即便如此,從表2 中可以看出,SMDG 在MRR@20 指標上的性能依然超過了絕大部分的基線方法,這再次說明了該方法的魯棒性。

表6 頭尾項目MRR@20 性能對比 Table 6 Performance comparison of MRR@20 for head and tail items %

3.8 密度參數K 對性能的影響

為了進一步驗證多密度對性能的影響,本文測試了將最大密度K設置為不同數值時的結果,結果如圖3 所示。從Diginetica 數據集可以看出,隨著K的增加,HR@20 和mHR@20 在開始時迅速增長,當K=3 時,性能幾乎達到最佳。在其他3 個數據集上也可以看到類似的現象。這表明高密度圖確實捕捉到了更多關于會話的信息,例如遠距離的依賴關系。同時,也說明多密度會話圖能夠更加精確完整地捕捉用戶的意圖。當K足夠大時,由于沒有更多有用的信息被引入,模型的性能也會停止增長,甚至略微有些下降,這是因為這4 個數據集會話的平均長度不是很長,當K被設置得過大時會給模型引入較多噪聲。一般來說,建議將K設置為3~4,在大多數情況下可以達到最佳性能。

圖3 多密度參數K 的影響Fig.3 The influence of the multi-density parameter K

4 結束語

針對現有的會話推薦方法在長尾分布現象中的局限性,本文提出一種基于自監督學習的方法,加強對長尾項目嵌入的學習,并緩解數據的稀疏性。此外,構建多密度圖以更加精確地捕捉用戶的當前意圖,并且采用帶有標簽平滑正則化的交叉熵作為目標函數來防止過擬合。在4 個真實數據集上的實驗結果表明,該方法能有效地增強會話推薦的性能,在幾乎不損害甚至提升熱門項目性能的前提下,使得長尾項目的性能得到了巨大的提升。本文主要利用了會話的序列信息進行建模,沒有考慮會話中項目所蘊含的豐富語義信息,未來將嘗試結合項目的語義信息,以進一步探究會話推薦問題中的長尾現象,從更多角度構建自監督學習任務。

猜你喜歡
監督用戶方法
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 欧美三级自拍| 午夜国产在线观看| 亚洲第一黄片大全| 精品国产免费观看一区| 真实国产乱子伦高清| 国产二级毛片| 免费观看精品视频999| 精品欧美一区二区三区在线| 亚洲日韩Av中文字幕无码| www.av男人.com| 亚洲成a人片77777在线播放| 国产欧美自拍视频| 狠狠亚洲婷婷综合色香| 国产综合精品日本亚洲777| 国产视频一区二区在线观看| 国产欧美精品一区aⅴ影院| 国产麻豆精品久久一二三| 久久精品只有这里有| 国产成人1024精品| 91精品伊人久久大香线蕉| 日本黄色a视频| 亚洲男人的天堂在线观看| 国产午夜福利亚洲第一| 99视频在线免费看| 亚洲大学生视频在线播放| 亚洲国产天堂久久综合226114| 动漫精品中文字幕无码| 亚洲无码免费黄色网址| 国产精品欧美激情| 九九九国产| 欧美不卡视频一区发布| 国产精品视频导航| 亚洲日韩精品伊甸| 中文字幕亚洲第一| 秋霞一区二区三区| 亚洲乱码在线视频| 国产精品无码在线看| 久久精品国产精品青草app| 永久免费av网站可以直接看的 | 国产成年无码AⅤ片在线 | 国产精品亚欧美一区二区三区| 欧美综合成人| 日韩欧美中文字幕在线精品| 欧美中文一区| 国产xx在线观看| …亚洲 欧洲 另类 春色| 成年人久久黄色网站| 永久毛片在线播| 色悠久久久久久久综合网伊人| 精品无码一区二区三区在线视频| 91精品国产91欠久久久久| 中文字幕人成人乱码亚洲电影| 国产一区二区色淫影院| 国产最爽的乱婬视频国语对白| 98精品全国免费观看视频| 99久久99视频| 日韩av资源在线| 真实国产乱子伦视频| 青青青视频免费一区二区| AV在线麻免费观看网站| 国产99在线| 国产小视频免费观看| 99一级毛片| 亚洲人成网18禁| 久久精品人人做人人爽97| 国产69精品久久| 免费高清a毛片| 亚洲欧美极品| 热这里只有精品国产热门精品| 欧美亚洲欧美| 在线观看欧美精品二区| 亚洲日本韩在线观看| 久久综合AV免费观看| 波多野结衣第一页| 欧美精品亚洲精品日韩专区| 一区二区三区四区精品视频| 亚洲成人www| 国产极品美女在线播放| 无码网站免费观看| 九九这里只有精品视频| 91精品国产综合久久香蕉922| 日韩高清成人|