999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

異策略模仿-強化學習序列推薦算法

2024-06-01 23:56:36劉珈麟賀澤宇李俊
計算機應用研究 2024年5期

劉珈麟 賀澤宇 李俊

摘 要:最近,強化學習序列推薦系統受到研究者們的廣泛關注,這得益于它能更好地聯合建模用戶感興趣的內動態和外傾向。然而,現有方法面臨同策略評估方法數據利用率低,導致模型依賴大量的專家標注數據,以及啟發式價值激勵函數設計依賴反復人工調試兩個主要挑戰。因此,提出了一種新穎的異策略模仿-強化學習的序列推薦算法COG4Rec,以提高數據利用效率和實現可學習的價值函數。首先,它通過異策略方式更新分布匹配目標函數,來避免同策略更新密集在線交互限制;其次,COG4Rec采用可學習的價值函數設計,通過對數衰減狀態分布比,模仿用戶外傾向的價值激勵函數;最后,為了避免模仿學習分布漂移問題,COG4Rec通過累積衰減分布比,強化用戶行為記錄中高價值軌跡片段重組推薦策略。一系列基準數據集上的性能對比實驗和消融實驗結果表明:COG4Rec比自回歸模型提升了17.60%,它比啟發式強化學習方法提升了3.25%。這證明了所提模型結構和優化算法的有效性。這也證明可學習的價值函數是可行的,并且異策略方式能有效提高數據利用效率。

關鍵詞:異策略評估; 模仿學習; 逆強化學習; 序列推薦

中圖分類號:TP391 文獻標志碼:A?文章編號:1001-3695(2024)05-010-1349-07

doi:10.19734/j.issn.1001-3695.2023.10.0447

Off-policy imitation-reinforcement learning for sequential recommendation

Abstract:Recently, reinforcement learning sequence recommender systems have received widespread attention because they can better model the internal dynamics and external tendencies of user interests. However, existing methods face two major challenges: low utilization of same-strategy evaluation data causes the model to rely on a large amount of expert annotation data and heuristic value incentive functions rely on costly repeated manual debugging. This paper proposed a new hetero-strategic imitation-reinforcement learning method to improve data utilization efficiency and achieve a learnable value function. Firstly, it updated the distribution matching objective function through different strategies to avoid the intensive online interaction limitations of same-strategy updates. Secondly, COG4Rec adopted a learnable value function design and imitated the value incentive function of outdoor tendencies through the logarithmic decay state distribution ratio. Finally, in order to avoid the problem of imitation learning distribution drift, COG4Rec strengthened the recommendation strategy for recombining high-value trajectory segments in user behavior records through the cumulative attenuation distribution ratio. The results of performance comparison experiments and ablation experiments on a series of benchmark data sets show that COG4Rec is 17.60% better than the autoregressive model and 3.25% better than the heuristic reinforcement learning method. This proves the effectiveness of the proposed COG4Rec model structure and optimization algorithm. This also proves that the design of a learnable value function is feasible, and the heterogeneous strategy approach can effectively improve data utilization efficiency.

Key words:off-policy evaluation; imitation learning; inverse reinforcement learning; sequential recommendation

0 引言

推薦系統對探索如何感知用戶真實興趣和解決信息爆炸問題具有重要意義[1]。在推薦任務中,用戶與系統的交互過程可以被表示為一個動態序列,該序列包含了用戶的反饋信息。……

登錄APP查看全文

主站蜘蛛池模板: 久久精品国产国语对白| 51国产偷自视频区视频手机观看| 免费人成在线观看视频色| 久久无码av一区二区三区| 无码中字出轨中文人妻中文中| 亚洲欧美不卡中文字幕| 8090成人午夜精品| 久久久久人妻一区精品色奶水| 欧美三级不卡在线观看视频| 91福利在线看| 99视频精品全国免费品| 国产屁屁影院| 亚洲欧美一级一级a| 久久久精品久久久久三级| av在线手机播放| 亚洲无码高清免费视频亚洲| 动漫精品啪啪一区二区三区| 国产成人亚洲无吗淙合青草| 999精品色在线观看| 无码AV日韩一二三区| 高潮毛片无遮挡高清视频播放| 精品福利视频导航| www.91在线播放| 天天躁夜夜躁狠狠躁躁88| 99精品福利视频| 女人天堂av免费| 新SSS无码手机在线观看| 无码福利视频| 五月婷婷综合网| 国产小视频a在线观看| 欧美色99| 亚洲AV无码一区二区三区牲色| 久久久久久久97| 国产在线观看99| 色综合天天娱乐综合网| 国产成人免费观看在线视频| 夜夜操国产| 国产91熟女高潮一区二区| 国产理论最新国产精品视频| 又粗又大又爽又紧免费视频| 黄色在线网| 亚洲欧美综合另类图片小说区| 亚洲第一视频网| 欧美日韩国产成人高清视频| 青青草原偷拍视频| 3344在线观看无码| 国产综合精品一区二区| 丁香亚洲综合五月天婷婷| 色婷婷色丁香| 国产福利在线观看精品| 亚洲视屏在线观看| 国产精品久线在线观看| 欧美国产视频| 中文字幕波多野不卡一区| 国产乱人伦偷精品视频AAA| 在线看片中文字幕| 欧美一级高清片久久99| 国产成人精品2021欧美日韩| 亚洲欧美综合精品久久成人网| 亚洲手机在线| 国产成人精品无码一区二| 久久久久国色AV免费观看性色| 亚洲国产天堂久久综合| 高清无码一本到东京热| 国产成人综合网在线观看| 亚洲综合日韩精品| 国产高清精品在线91| 亚洲精品国偷自产在线91正片 | 一边摸一边做爽的视频17国产| 亚洲国产精品一区二区第一页免 | 欧美日韩亚洲国产| 在线色综合| 国产尤物视频网址导航| 91小视频在线播放| 91精品aⅴ无码中文字字幕蜜桃| 91在线免费公开视频| 99久久亚洲综合精品TS| 国产免费久久精品99re丫丫一| 国产精品偷伦视频免费观看国产| 精品视频一区二区观看| 成人福利在线视频| 欧美成人免费|