999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

異策略模仿-強化學習序列推薦算法

2024-06-01 23:56:36劉珈麟賀澤宇李俊
計算機應用研究 2024年5期

劉珈麟 賀澤宇 李俊

摘 要:最近,強化學習序列推薦系統受到研究者們的廣泛關注,這得益于它能更好地聯合建模用戶感興趣的內動態和外傾向。然而,現有方法面臨同策略評估方法數據利用率低,導致模型依賴大量的專家標注數據,以及啟發式價值激勵函數設計依賴反復人工調試兩個主要挑戰。因此,提出了一種新穎的異策略模仿-強化學習的序列推薦算法COG4Rec,以提高數據利用效率和實現可學習的價值函數。首先,它通過異策略方式更新分布匹配目標函數,來避免同策略更新密集在線交互限制;其次,COG4Rec采用可學習的價值函數設計,通過對數衰減狀態分布比,模仿用戶外傾向的價值激勵函數;最后,為了避免模仿學習分布漂移問題,COG4Rec通過累積衰減分布比,強化用戶行為記錄中高價值軌跡片段重組推薦策略。一系列基準數據集上的性能對比實驗和消融實驗結果表明:COG4Rec比自回歸模型提升了17.60%,它比啟發式強化學習方法提升了3.25%。這證明了所提模型結構和優化算法的有效性。這也證明可學習的價值函數是可行的,并且異策略方式能有效提高數據利用效率。

關鍵詞:異策略評估; 模仿學習; 逆強化學習; 序列推薦

中圖分類號:TP391 文獻標志碼:A?文章編號:1001-3695(2024)05-010-1349-07

doi:10.19734/j.issn.1001-3695.2023.10.0447

Off-policy imitation-reinforcement learning for sequential recommendation

Abstract:Recently, reinforcement learning sequence recommender systems have received widespread attention because they can better model the internal dynamics and external tendencies of user interests. However, existing methods face two major challenges: low utilization of same-strategy evaluation data causes the model to rely on a large amount of expert annotation data and heuristic value incentive functions rely on costly repeated manual debugging. This paper proposed a new hetero-strategic imitation-reinforcement learning method to improve data utilization efficiency and achieve a learnable value function. Firstly, it updated the distribution matching objective function through different strategies to avoid the intensive online interaction limitations of same-strategy updates. Secondly, COG4Rec adopted a learnable value function design and imitated the value incentive function of outdoor tendencies through the logarithmic decay state distribution ratio. Finally, in order to avoid the problem of imitation learning distribution drift, COG4Rec strengthened the recommendation strategy for recombining high-value trajectory segments in user behavior records through the cumulative attenuation distribution ratio. The results of performance comparison experiments and ablation experiments on a series of benchmark data sets show that COG4Rec is 17.60% better than the autoregressive model and 3.25% better than the heuristic reinforcement learning method. This proves the effectiveness of the proposed COG4Rec model structure and optimization algorithm. This also proves that the design of a learnable value function is feasible, and the heterogeneous strategy approach can effectively improve data utilization efficiency.

Key words:off-policy evaluation; imitation learning; inverse reinforcement learning; sequential recommendation

0 引言

推薦系統對探索如何感知用戶真實興趣和解決信息爆炸問題具有重要意義[1]。在推薦任務中,用戶與系統的交互過程可以被表示為一個動態序列,該序列包含了用戶的反饋信息。一個典型的應用是電子商務[2],用戶在平臺的活動促銷頁面瀏覽、點擊、添加購物車,直到促銷選項滿足其興趣傾向進而購買該推薦選項。序列推薦系統[3~5]基于序列化的交互反饋信息挖掘用戶的興趣傾向,來提供滿足用戶個性化需求的服務,極大地改善了人們的平臺使用體驗,因而具有重要的潛在商業價值。

一般來說,序列推薦系統中存在短期互動和長期互動兩種不同類型的用戶-商品交互行為。短期互動反映了用戶當前的偏好,具有高度的動態性(內動態)[6],例如由最近點擊商品ID組成的交互序列;而長期互動反映了用戶在平臺交互歷史當中的興趣傾向[7,8],特點是時變緩慢相對穩定(外傾向),例如點擊、收藏、喜歡、購買等多種類型不同價值的反饋信號。近期研究工作指出,用戶興趣內動態方面的充分挖掘,短期來看有助于提升推薦的相關性,進而刺激用戶的活躍度,但忽略用戶外傾向方面的關注會降低推薦多樣性,進而減少用戶長期對平臺的黏住度。因此,聯合建模內動態和外傾向對實現個性化推薦既重要,又面臨諸多挑戰[9~11]。

經典序列推薦算法[6,12]有效提升了用戶內動態方面的挖掘。為了同時挖掘用戶的外傾向方面,最近的研究提出一系列基于強化學習的序列推薦算法[7,8,13,14],將外傾向定義為價值激勵的累積,并通過累積價值激勵函數最大化過程的同時學習用戶的外傾向反饋和序列內動態反饋(圖1)。雖然強化學習序列推薦算法有效地建立了聯合優化的序列推薦模型,但作為推薦策略網絡優化指導信號的價值激勵函數受任務驅動,需要反復工程調試才能平衡不同反饋信號的價值區分度需求和強化學習訓練過程的穩定性需求。由于系統數據庫積累了豐富的用戶歷史行為記錄,逆強化學習方法[15~17]提供了一種新的推薦范式,通過數據驅動價值激勵函數的學習,與啟發式設計的思路[7,14]相比,降低了任務復雜度(圖2)。同時,由于累積價值激勵函數最大化過程使得交互軌跡依照價值高低拆分成不同的軌跡片段,并重組成新的、更高價值的完整軌跡成為可能,故該類方法不需要假設用于學習價值激勵函數和最大化累積價值的歷史數據是完備的(即歷史數據完備性)[17~19]。文獻[20]指出“完備”的含義包括數量大和質量覆蓋高價值推薦模式兩個方面)。然而,基于逆強化學習的序列推薦算法通常需要密集的在線交互來評估當前推薦策略的性能(即同策略評估)。由于欠優化的待估策略與真實用戶的即時交互可能會導致直接的商業損失和潛在的用戶流失[8],所以同策略評估在序列推薦任務中的應用存在較大限制。同時,相比異策略評估(利用平臺數據庫中未知但較優的專家策略采集的歷史行為記錄數據評估當前推薦策略的更新方法),同策略評估方法數據利用效率較低[21]。

針對逆強化學習存在的問題,提出了一種異策略模仿-強化學習的序列推薦算法COG4Rec。鑒于啟發式激勵函數形式通常未知,而平臺容易積累用戶-系統交互行為模式(該行為演示模式由已部署的系統采集,采集系統πE通常未知),已有研究工作[19]指出,模仿學習在平臺數據完備條件下收斂到反映用戶真實行為模式的推薦策略,而強化學習在數據采集隨機非完備情況下,可以有效提高外傾向的累計價值函數。受該研究啟發,COG4Rec的核心思路是模仿真實用戶行為,并通過參數化可學習的模仿度(由對數衰減狀態分布比表示)作為隱式價值激勵函數,避免了啟發式設計過程。鑒于模仿學習過程假定用戶行為積累數據涵蓋最優行為策略(完備假設)且獨立同分布,COG4Rec從被模仿行為軌跡中挖掘高價值的片段重組以強化長時累計價值,在不損失內動態的建模條件下,累計價值反映了用戶的外傾向分布,該強化學習過程避免了模仿學習分布漂移問題。COG4Rec是一種基于衰減狀態分布匹配的逆強化學習方法。a)該方法通過匹配衰減狀態分布挖掘用戶外傾向,并通過自注意力機制學習用戶序列的內動態;b)Donsker-Varadhan展開將同策略更新的分布匹配目標函數轉換為異策略更新;c)COG4Rec的策略評價網絡Critic采用隨機混合集成[22],避免異策略評估的探索誤差[8]。COG4Rec的貢獻包括:提出了一種新的異策略模仿-強化學習序列推薦算法,避免強化學習啟發式價值激勵函數設計增加推薦任務復雜度的同時,聯合挖掘用戶的外傾向和內動態以提高綜合推薦性能。在序列推薦基準數據集上的總體性能對比和消融實驗分析證明了COG4Rec模型結構和優化算法的有效性。在真實場景的基準數據集上的實驗結果表明,與深度自回歸序列推薦模型相比,COG4Rec相對提升17.60%;與啟發式強化學習序列推薦模型相比,COG4Rec相對提升3.25%。

1 研究基礎和術語

1.1 術語

強化學習通常將序列推薦問題定義為馬爾可夫決策過程(S,A,P,R,ρ0,γ),其中:

最大化累積獎勵函數的過程是系統對用戶外傾向的挖掘,該過程彌補了深度序列模型僅挖掘內動態面的不足,故自適應的獎勵函數R直接影響強化學習在推薦系統中的成功應用。

1.2 研究基礎

序列推薦[3,23]作為推薦系統的重要研究分支,受到研究人員的廣泛關注,其研究思路經歷了深度學習時代前的協同濾波、深度序列推薦模型和強化學習序列推薦三個階段。本節首先總結了強化學習和模仿學習工作,兩者組成COG4Rec的研究基礎,最后詳細闡述了不同階段的研究工作進展。

1)逆強化學習

強化學習通過學習參數化的目標策略πθ(a|s)來最大化累積獎勵,該目標反映了用戶的長時外傾向:

其中:軌跡τ=(s0,a0,s1,a1,…,s|τ|,a|τ|)根據目標推薦策略πθ(a|s),與用戶及時在線交互采樣獲得。

逆強化學習的目標是根據專家演示集D={τexp1,…,τexp|D|},學習一個最優的價值激勵函數R*,使得

其中:價值激勵函數的一種實現方式是特征線性映射。

R(s)=wT(s)(3)

2)模仿學習

行為克隆[24]是模仿學習中較早提出的一類方法。其思路是根據專家演示集,最小化推薦策略πθ(a|s)在專家演示集上的交叉熵,來使得推薦策略與專家行為策略相似:

分布匹配的思路是利用衰減因子γ優化動作-狀態分布比,避免了式(4)面臨的分布漂移問題。推薦策略的衰減狀態分布dπθ(s,a)可定義為

其中:s0~p0(·),st~p(·|st-1,at-1),at~πθ(·|st)。

演示數據集Euclid Math OneDAp:={(st,at,st+1)k}Nk=1根據未知的專家策略πdata采集。衰減分布匹配方法(discounted stationary distribution ratio,DDR)[25]通過最小化dπθ和dD之間KL散度來學習πθ,該最小化過程可轉換為強化學習累積激勵最大化:

其中:式(6)的狀態分布比對應強化學習的激勵函數為

值得指出的是,式(7)既可以利用同策略強化學習,也可以通過異策略強化學習優化,但考慮到推薦任務對用戶隱私的保護[8],COG4Rec采用異策略評估的方法。

3)序列推薦系統

傳統推薦算法假設相似的用戶具有相似的喜好傾向,提出了基于矩陣分解的協同濾波算法,代表工作有BPR[26]、NCF[27]、FPMC[28]。BPR提出一種貝葉斯個性化排序推薦方法(成對型排序損失函數),使用一個有偏估計的分解矩陣作為推薦系統。針對有偏估計矩陣分解的問題,NCF首次提出使用深度神經網絡估計用戶-商品協同矩陣。FPMC方法則針對矩陣分解方法無法建模用戶-商品交互過程的問題,提出一種基于馬爾可夫鏈的協同過濾模型,將交互序列近似為一階馬爾可夫鏈,并在序列化增強的成對型排序損失上優化。上述方法無法建模高階用戶-商品交互過程。

傳統推薦算法的缺點在于無法建模高階用戶-商品交互過程。基于深度學習的推薦模型將用戶-商品交互過程建模為時序序列,模型的潛狀態向量通過模型學習可以挖掘用戶的高階動態興趣傾向。GRURec[29]應用序列化神經網絡預測下一時刻用戶的興趣傾向。為了解決循環神經網絡的梯度消散問題和計算效率問題,Caser[12]使用卷積神經網絡作為推薦骨干網絡。SASRec[6]受機器翻譯等序列化生成任務的啟發,使用Transformer結構作為推薦骨干網絡。由于序列推薦系統中存在多種用戶反饋信號,不同類型的反饋信號對系統具有不同的價值,深度模型的局限是沒有考慮不同反饋信號的價值。

基于強化學習的序列推薦旨在優化不同反饋信號的累積獎勵函數。已有工作可以分為:a)基于策略梯度的方法,考慮到推薦問題對實時用戶交互的限制,off-policy REINFOCE[30]采用異策略估計的方法實現YouTube平臺的視頻推薦,針對異策略估計需要對采樣行為策略樣本矯正的問題,該方法提出一種基于傾向性分數的重估方法;b)基于價值函數的方法,SQN模型[7]利用動作-狀態價值函數時序差分優化[31]來學習累積價值獎勵最大化,并通過聯合優化交叉熵時序預測來學習用戶的動態興趣變化趨勢,VPQ[14]在SQN的基礎上利用重采樣方法降低時序差分學習的方差;c)基于動作-評價結構的方法,SAC[7]利用動作-狀態價值函數作為樣本權重加權交叉熵時序預測。基于強化學習的序列推薦的激勵函數設計主要由任務導向,需要反復調試。基于強化學習的序列推薦系統需要依賴專家知識設計激勵函數,作為累積獎勵最大化過程的優化信號,而該設計任務驅動需要大量調試才能使強化學習訓練過程穩定。

受到上述研究工作啟發,本文提出一種基于衰減狀態分布匹配博弈(min-max)的激勵函數優化方法,并且通過Gumbel max算子保證激勵函數具有高區分度,從而避免了激勵函數的調試;同時,推薦策略網絡試圖降低推薦策略和專家行為策略的衰減狀態分布比來優化推薦策略,策略評價網絡試圖優化隱激勵函數(式(9))的估計來最大化累積獎勵函數,從而捕捉到不同反饋信號代表的價值信息。

2 異策略模仿學習方法

針對上述逆強化學習序列推薦方法存在的問題,本文提出了一種異策略模仿-強化學習的序列推薦算法COG4Rec(off-poliCy imitatiOn learninG):對于價值激勵函數設計的挑戰,通過對數衰減狀態分布比模仿用戶外傾向的價值激勵函數;對于同策略交互的挑戰,通過Donsker-Varadhan展開得到異策略更新的優化目標。同時,因為推薦問題缺乏公認的基準仿真器,COG4Rec提出了一種基于隨機混合集成[22]的策略評價網絡,以隨機性增加多樣性。

2.1 問題定義

序列推薦系統利用用戶-商品交互記錄來強化未來的推薦:給定用戶最近t個交互的商品序列(i1,i2,…,it)和用戶反饋類型(如點擊和購買),系統旨在利用平臺收集的歷史行為樣本作為專家演示集,將其表示為集合Euclid Math OneDAp,預測下一個候選的it+1,同時限制序列的最大長度為n,即t<n,如果長度短于n,采用右補齊的方式到最大長度。

2.2 框架概述

如圖3所示,COG4Rec包含用于推薦的推薦策略網絡actor和用于評估推薦的策略評價網絡critic兩個主要部分。推薦策略網絡actor首先用可學習的位置感知編碼將推薦項目空間映射到編碼空間,進而基于注意力機制編碼表示用戶狀態向量。策論評價網絡critic采用前饋神經網絡的結構,基于actor推薦動作和用戶狀態預測可能的累積獎勵,并使用多簇隨機混合集成彌補數據集Euclid Math OneDAp的多樣性不足。下一時刻的推薦候選項采用協同濾波的思路,通過actor注意力模塊輸出結果與用戶潛在狀態編碼向量的內積得到。

2.3 模型結構

為了實現式(8)提出的基于衰減狀態分布匹配的生成對抗學習過程,COG4Rec設計了一種基于actor-critic模型架構,如圖3所示。

2.3.1 推薦策略網絡actor

為了挖掘用戶的內動態傾向,推薦策略網絡actor采用了多頭自注意力模塊作為主干網絡,本節依次介紹網絡結構設計。

b)自注意力模塊。注意力機制計算的是取值按維度系數縮放的加權和,可定義為

其中:j∈{1,2,…}表示當前交互序列的前j項。為了增加actor的網絡深度從而學習更高階的用戶表征向量,COG4Rec采用了殘差連接和層歸一化增強,如圖3的self-attention所示。

c)預測層。為了預測用戶的候選推薦項,actor在自注意力模塊的基礎上,利用用戶編碼共享的商品編碼空間進行內積矩陣因式分解[6],得到相關預測分數:

ri,t=S(b)tETi(15)

其中:ri,t表示商品i與當前用戶狀態S(b)t的相關性,即成為下一個候選項的可能性。雖然共享用戶與商品編碼空間存在一致對稱過擬合的風險,但逐點前饋網絡(式(12)所示)引入的非線性能確保式(15)學習到非對稱的商品編碼轉換。

值得注意的是,雖然策略評價網絡critic和推薦策略網絡actor均可完成預測層任務,其中critic強調序列外傾向估值,actor關注序列內動態相關性,但是由于離線環境的限制,相關研究工作[7]指出,critic作為推薦預測端,會導致actor梯度估計方差上升。因此COG4Rec采用actor網絡進行推薦預測。

2.3.2 策略評價網絡critic

為了挖掘用戶歷史交互的外傾向,COG4Rec采用策略評價網絡critic最小化推薦策略分布和用戶行為記錄分布的狀態分布匹配差異,來最大化代表外傾向的累積價值激勵,網絡結構如圖3 critic所示。具體來說,critic在逐點前饋神經網絡的基礎上采用了C簇隨機混合集成[22],以隨機性緩解專家演示樣本Euclid Math OneDAp多樣性不足的問題,并通過集成方式,避免隨機混合引入的噪聲。具體來說,critic以當前狀態編碼向量和推薦項目編碼向量作為輸入:

綜上所述,圖4給出了COG4Rec模型的推薦流程,首先初始化參數模型,進而根據推薦結果是否得到正反饋(更新最大似然估計)和是否得到高價值正反饋(更新衰減匹配分布)來更新模型參數,并利用actor網絡通過貪心搜索的方式得到推薦列表,反復迭代得到完整的交互軌跡。

2.4 模型優化

為了解決有效利用作為專家演示的歷史記錄數據Euclid Math OneDAp,并聯合挖掘用戶興趣的內動態方面和外傾向方面,COG4Rec采用衰減狀態分布匹配的生成對抗優化過程:策略評價網絡critic最小化推薦策略分布和用戶行為記錄分布的狀態分布匹配差異,避免了強化學習啟發式設計價值激勵函數的過程;COG4Rec的推薦策略網絡actor最大化累積對數衰減狀態分布比,避免了模仿學習分布漂移的問題。

2.4.1 外傾向學習

為了挖掘用戶歷史交互的外傾向,COG4Rec提出了一種基于衰減狀態分布比的優化學習過程。具體來說,式(6)Donsker-Varadhan展開得到:

其中:r(s,a)通過對式(6)進行貝爾曼算子轉換得到

其中:策略評價網絡ν(s,a)作用相當于狀態-動作價值函數,充分優化學習后可近似對數衰減分布比(式(19)右側所示),貝爾曼算子定義為

其中:為簡化表示,將t+1時刻狀態動作表示為t′標記,代入貝爾曼算子得到優化目標JDDR。

其中:因為衰減狀態分布(式(19)所示)的引入使同策略的采樣(式(18)第二項)化簡為利用專家演示集進行的采樣(式(21)第二項),故式(21)是異策略的。

2.4.2 內動態學習

為了挖掘用戶當前序列的內動態傾向,COG4Rec采用最大似然估計(maximum likelihood estimation,MLE)作為內動態的學習目標,如下:

該目標基于當前交互歷史,自回歸地優化下一時刻的預測,因此,能夠使得模型向著挖掘內動態方向更新參數。

算法1 優化算法

2.4.3 整體優化目標

如算法1所示,用戶內動態和外傾向的整體優化如下:

其中:推薦策略網絡actor通過最大化衰減狀態分布比來逼近專家策略; 策略評價網絡critic通過最小化衰減狀態分布比來評估生成的策略。策略評價網絡critic收斂的解析最優解可以表示為(對式(21)兩側求導等于0可得)

值得指出的是,式(24)為同策略逆強化學習方法GAIL[15]及GCL[16]的顯式優化目標,直接估計式(23)的分布比需要大量同策略交互,故GAIL[15]和GCL[16]的策略更新數據利用率較異策略更新方法有所下降。

3 實驗結果及分析

為了驗證COG4Rec的有效性,實驗工作在兩個基準序列推薦數據集(Yoochoose和Retailrocket)上進行了廣泛的對比研究。首先,對COG4Rec與代表性的推薦系統基線方法比較了top-k推薦性能,以進行總體性能對比;然后,在Retailrocket數據集上,對COG4Rec進行詳細的消融實驗分析,以證明該算法關鍵設計對系統性能提升的貢獻。

a)實驗設置。基準序列推薦數據集Yoochoose和Retailrocket分別包含點擊和購買兩類交互反饋。為了保持不同推薦模型對比的一致性,實驗中遵照文獻[7]的預處理過程,刪除了Yoochoose和Retailrocket中互動次數少于三次的序列,得到的數據集統計結果如表1所示。實驗用于衡量推薦性能的兩個指標是:表征top-k排序性能(k∈{5,10,20})的歸一化折損累計增益NG;反映召回性能的命中率HR[7]。

b)對比基線。選擇了具有代表性的序列推薦算法:(a)深度自回歸序列推薦系統GRURec[29]、Caser[12]、SASRec[6],其自回歸網絡結構(GRU、CNN、Transformer)能有效地學習用戶內動態特性,其表現性能優于一階馬爾可夫協同分解[28];(b)基于強化學習的序列推薦模型,基于狀態-動作價值函數的VPQ[14]和SSQN[7]、基于“actor-critic”神經網絡架構的SSAC[7]和兩種離線強化學習方法作為骨干網絡的CQL[32]和UWAC[33]。

c)實現細節。兩個數據集采用的輸入序列長度均為10個當前時刻的近期交互,并使用數據集交互商品數作為右補齊的掩碼向量,編碼向量均采用64維,批量輸入(batch size)大小為128,實驗統一采用與VPQ相同的激勵函數設置方法(購買價值為1,點擊價值為0.2)。CQL超參數α設為0.5,VPQ的λ=20,UWAC的λ=1.6。VPQ、SSQN、SSAC和COG4Rec從actor網絡預測下一時刻推薦,CQL和UWAC的推薦策略采用maxaQ(s,a)的貪心搜索得到。COG4Rec采用了單頭兩層自注意力模塊,實現過程參考SASRec結構(SASRec代碼地址:https://github.com/kang205/SASRec)。推薦策略網絡actor的學習率為1E-4,策略評價網絡critic的學習率為1E-3,通過Adam執行模型反向傳播優化。actor網絡在自注意力模塊之后通過兩層前饋神經網絡(為了節省計算資源,實驗中采用兩層前饋神經網絡作為非線性映射)映射用戶狀態編碼和商品編碼(隱藏層64維),并通過內積函數式(24)預測相關分數r。策略評價網絡critic的折扣系數設為0.95,兩層前饋神經網絡(隱藏層64維,非線性函數為ReLU)映射后,通過15簇(C=15)隨機混合得到評價分數v,actor和critic同步更新。

3.1 總體性能對比

表2、3分別列出了Retailrocket和Yoochoose的性能比較,其中:最優結果粗體表示,次優結果下畫線表示,“*”表示雙邊t檢驗,p<0.05。a)與傳統序列推薦模型GRU4Rec、Caser和SASRec相比,COG4Rec的提升歸功于衰減狀態分布優化的同時建模了用戶的累計外傾向,而傳統模型則僅依賴用戶序列行為內動態,使得策略網絡缺失長時累計價值反饋的監督引導,因此只反映了序列動態轉移的用戶興趣傾向。由于深度自回歸模型存在梯度消散的問題,故模型本身無法有效建模長時興趣。b)與SSQN和SSAC相比,SSQN和SSAC的特點是均采用深度Q學習,Q學習依靠與環境交互來糾正異策略估計的偏差,而離線學習要求導致評估偏差會在當前任務中累積,從而阻礙這兩種方法有效學習用戶的外傾向,而COG4Rec將異策略估計偏差(表現為KL散度)作為critic網絡優化的學習目標。c)基于強化學習的序列推薦模型VPQ、CQL和UWAC通過Q函數的不確定性來估計預測方差,并使用乘性加權(VPQ、UWAC)或減性歸一化(CQL)的方法來消除不確定性,而不確定性由啟發式設計得到,因而缺乏自適應性。式(8)的收斂點等價于對數分布比形式的激勵函數式(9),因此actor最大化累積激勵的過程式(11)避免了啟發式設計,COG4Rec更具適應性。

綜上所述,COG4Rec通過異策略衰減狀態分布匹配學習的方式解決強化學習策略評估的及時交互挑戰,提高了數據使用效率,并通過收斂到對數分布比形式的價值激勵函數來避免啟發式設計激勵函數形式的挑戰。

3.2 消融實驗分析

為了驗證COG4Rec關鍵設計的有效性,本文在Retailrocket數據集上進行了消融實驗(表4給出k=20的結果,其他k值具備類似的統計趨勢)。表4第一行(“val-only”)表示僅基于 IDDR(r,v) 優化actor和critic兩個網絡,該策略強調對用戶外傾向的捕捉,與僅依靠 IMLE(r) 優化actor網絡去掉critic網絡的預測結果(“rel-only”)相比,它的性能有所下降,這是因為狀態-動作價值函數時序差分學習無法通過在線交互矯正異策略方差較大的問題,如前所述基于隱私安全性的考慮,欠優化的推薦系統與用戶的在線互動受到限制。用戶外傾向IDDR(r,v)和內動態IMLE(r)聯合優化的預測結果(“val+rel-rem”)效果更好,證明了COG4Rec優化目標(式(15))的有效性。引入隨機混合集成的聯合優化預測結果(“val+rel+rem”)進一步分散了數據樣本,從而實現了最佳性能。

綜上所述,進一步的消融實驗驗證了衰減狀態分布匹配的聯合優化目標(式(13)所示)和隨機混合集成方法(式(24)所示)對提升COG4Rec推薦性能的重要性。

4 結束語

本文提出了一種基于異策略衰減狀態分布匹配的新型序列推薦算法COG4Rec,在收斂到對數分布比形式的價值激勵函數的同時,保證了累積用戶反饋激勵最大化。此外,COG4Rec采用異策略更新的方式迭代推薦策略,因而提高了數據使用效率。值得指出的是,COG4Rec使用的隨機混合集成是增加演示數據多樣性的初步折中方案,而基于用戶模型因果建模的模仿學習則是未來進一步值得探索的方向。

參考文獻:

[1]Zangerle E, Bauer C. Evaluating recommender systems: survey and framework[J]. ACM Computing Surveys, 2022,55(8): 1-38.

[2]Zhao Xiangyu, Zhang Liang, Ding Zhuye, et al. Recommendations with negative feedback via pairwise deep reinforcement learning[C]//Proc of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM Press, 2018: 1040-1048.

[3]Fang Hui, Guo Guibing, Zhang Danning, et al. Deep learning-based sequential recommender systems:concepts, algorithms, and evaluations[M]//Bakaev M, Frasincar F, Ko I Y. Web Engineering. Cham: Springer, 2019: 574-577.

[4]張杰, 陳可佳. 關聯項目增強的多興趣序列推薦方法[J]. 計算機應用研究, 2023, 40(2): 456-462. (Zhang Jie, Chen Kejia. Item associations aware multi-interest sequential recommendation method[J]. Application Research of Computers, 2023,40(2): 456-462.)

[5]歐道源, 梁京章, 吳麗娟. 基于高斯分布建模的序列推薦算法[J]. 計算機應用研究, 2023,40(4): 1108-1112. (Ou Daoyuan, Liang Jingzhang, Wu Lijuan. Algorithm of sequential recommendation based on Gaussian distribution modeling[J]. Application Research of Computers, 2023,40(4): 1108-1112.)

[6]Kang W C, Mcauley J. Self-attentive sequential recommendation[C]//Proc of IEEE International Conference on Data Mining. Pisca-taway, NJ: IEEE Press, 2018: 197-206.

[7]Xin Xin, Karatzoglou A, Arapakis I, et al. Self-supervised reinforcement learning for recommender systems[C]//Proc of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2020: 931-940.

[8]Xiao Teng, Wang Donglin. A general offline reinforcement learning framework for interactive recommendation[C]//Proc of AAAI Confe-rence on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2021: 4512-4520.

[9]Xu Chengfeng, Zhao Pengpeng, Liu Yanchi, et al. Recurrent convolutional neural network for sequential recommendation[C]//Proc of the World Wide Web Conference. New York:ACM Press, 2019: 3398-3404.

[10]Duan Jiasheng, Zhang Pengfei, Qiu Ruihong, et al. Long short-term enhanced memory for sequential recommendation[J]. World Wide Web, 2023,26(2): 561-583.

[11]Xu Chengfeng, Feng Jian, Zhao Pengpeng, et al. Long-and short-term self-attention network for sequential recommendation[J]. Neurocomputing, 2021,423: 580-589.

[12]Tang Jiaxi, Wang Ke. Personalized top-n sequential recommendation via convolutional sequence embedding[C]//Proc of the 11th ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2018: 565-573.

[13]Bai Xueying, Guan Jian, Wang Hongning. A model-based reinforcement learning with adversarial training for online recommendation[C]//Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019: 10735-10746.

[14]Gao Chengqian, Xu Ke, Zhou Kuangqi, et al. Value penalized Q-learning for recommender systems[C]//Proc of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2022: 2008-2012.

[15]Ho J, Ermon S. Generative adversarial imitation learning[C]//Proc of the 30th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2016: 4572-4580.

[16]Finn C, Levine S, Abbeel P. Guided cost learning: deep inverse optimal control via policy optimization[C]//Proc of the 33rd International Conference on Machine Learning.[S.l.]: JMLR.org, 2016: 49-58.

[17]Fu J, Luo K, Levine S. Learning robust rewards with adverserial inverse reinforcement learning[EB/OL]. (2018-02-23). https://openreview.net/forum? id=rkHywl-A-.

[18]Kumar A, Hong J, Singh A, et al. When should we prefer offline reinforcement learning over behavioral cloning?[EB/OL]. (2022-04-12). https://browse.arxiv.org/abs/2204.05618.

[19]Rashidinejad P, Zhu Banghua, Ma Cong, et al. Bridging offline reinforcement learning and imitation learning: a tale of pessimism[J]. IEEE Trans on Information Theory, 2022,68(12): 8156-8196.

[20]Jing Mingxuan, Ma Xiaojian, Huang Wenbing, et al. Reinforcement learning from imperfect demonstrations under soft expert guidance[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 5109-5116.

[21]Kostrikov I, Agrawal K K, Dwibedi D, et al. Discriminator-actor-critic: addressing sample inefficiency and reward bias in adversarial imitation learning[EB/OL]. (2018-10-15). https://browse.arxiv.org/abs/1809.02925.

[22]Agarwal R, Schuurmans D, Norouzi M. An optimistic perspective on offline reinforcement learning[C]//Proc of the 37th International Conference on Machine Learning. [S.l.]: PMLR, 2020: 104-114.

[23]Zhang Shuai, Yao Lina, Sun Aixin, et al. Deep learning based recommender system: a survey and new perspectives[J]. ACM Computing Surveys, 2019, 52(1): article No. 5.

[24]Atkeson C G, Schaal S. Robot learning from demonstration[C]//Proc of the 14th International Conference on Machine Learning. San Francisco, CA: Morgan Kaufmann Publishers Inc., 1997: 12-20.

[25]Nachum O,Chow Y,Dai Bo,et al. Dualdice: behavior-agnostic estimation of discounted stationary distribution corrections[C]//Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc.,2019:article No.208.

[26]Rendle S, Freudenthaler C, Gantner Z, et al. BPR: Bayesian personalized ranking from implicit feedback[C]//Proc of the 25th Conference on Uncertainty in Artificial Intelligence. Arlington, Virginia: AUAI Press, 2009: 452-461.

[27]He Xiangnan, Liao Lizi, Zhang Hanwang, et al. Neural collaborative filtering[C]//Proc of the 26th International Conference on World Wide Web. Republic and Canton of Geneva, CHE: International World Wide Web Conferences Steering Committee. 2017: 173-182.

[28]Rendle S,Freudenthaler C,Schmidt-Thieme L. Factorizing personalized Markov chains for next-basket recommendation[C]//Proc of the 19th International Conference on World Wide Web. New York: ACM Press, 2010: 811-820.

[29]Hidasi B, Karatzoglou A, Baltrunas L, et al. Session-based recommendations with recurrent neural networks[EB/OL]. (2016-03-29). https://arXiv.org/abs/1511.06939.

[30]Chen Minmin, Beutel A, Covington P, et al. Top-k off-policy correction for a REINFORCE recommender system[C]//Proc of the 12th ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2019: 456-465.

[31]Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015,518(7540): 529-533.

[32]Kumar A, Zhou A, Tucker G, et al. Conservative Q-learning for offline reinforcement learning[C]//Proc of the 34th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2020: article No. 100.

[33]Wu Yue, Zhai Shuangfei, Srivastava N, et al. Uncertainty weighted actor-critic for offline reinforcement learning[EB/OL]. (2021-05-17). https://arxiv.org/abs/2105.08140.

主站蜘蛛池模板: 91国内外精品自在线播放| 制服丝袜国产精品| 又大又硬又爽免费视频| 天堂网国产| 午夜精品福利影院| 亚洲成人免费看| 久久香蕉国产线看精品| 91久久偷偷做嫩草影院免费看| 久久国产精品国产自线拍| 欧美国产在线看| 国产精品美乳| 国产精品丝袜视频| 精品综合久久久久久97| 亚洲第一香蕉视频| 99成人在线观看| 精品伊人久久大香线蕉网站| 青青草原国产免费av观看| 国产第八页| 超清无码一区二区三区| 久久亚洲美女精品国产精品| 成年免费在线观看| 亚洲成AV人手机在线观看网站| 国产黄色爱视频| 国产h视频在线观看视频| 99re这里只有国产中文精品国产精品| 国产欧美日韩在线一区| 少妇精品久久久一区二区三区| 无码一区中文字幕| 日韩精品亚洲人旧成在线| 一区二区三区国产精品视频| 99热国产这里只有精品无卡顿"| 国产高清精品在线91| 青青草原国产av福利网站| 无码AV高清毛片中国一级毛片| 国产色爱av资源综合区| 韩国v欧美v亚洲v日本v| 国产精品成人不卡在线观看| 欧美啪啪网| 亚洲va欧美va国产综合下载| 国产成人综合欧美精品久久| 国产一级毛片yw| 欧美www在线观看| h视频在线播放| 在线色综合| 亚洲成aⅴ人片在线影院八| 玩两个丰满老熟女久久网| 日韩一级毛一欧美一国产| 亚洲精品在线观看91| 一级全免费视频播放| 国产一区二区在线视频观看| 久草视频精品| 国产在线观看成人91| 波多野结衣国产精品| 白浆免费视频国产精品视频| 毛片在线播放网址| 亚洲国产日韩一区| 亚洲日韩高清无码| 国产亚洲欧美另类一区二区| 青青草a国产免费观看| 精品久久久久久成人AV| 亚洲区视频在线观看| 91在线无码精品秘九色APP| 99伊人精品| 国产产在线精品亚洲aavv| 91美女视频在线观看| 日韩av在线直播| 99精品一区二区免费视频| 亚洲AⅤ波多系列中文字幕| 色婷婷亚洲综合五月| 欧美成人一级| 国产美女91呻吟求| 亚洲中久无码永久在线观看软件| 99人妻碰碰碰久久久久禁片| 精品福利网| 国产欧美另类| 欧美精品伊人久久| 99精品免费欧美成人小视频| 91亚洲影院| 欧美精品伊人久久| 亚洲国产欧美中日韩成人综合视频| 欧美性猛交一区二区三区| 波多野结衣视频网站|