999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

異策略模仿-強化學(xué)習(xí)序列推薦算法

2024-06-01 23:56:36劉珈麟賀澤宇李俊
計算機應(yīng)用研究 2024年5期

劉珈麟 賀澤宇 李俊

摘 要:最近,強化學(xué)習(xí)序列推薦系統(tǒng)受到研究者們的廣泛關(guān)注,這得益于它能更好地聯(lián)合建模用戶感興趣的內(nèi)動態(tài)和外傾向。然而,現(xiàn)有方法面臨同策略評估方法數(shù)據(jù)利用率低,導(dǎo)致模型依賴大量的專家標注數(shù)據(jù),以及啟發(fā)式價值激勵函數(shù)設(shè)計依賴反復(fù)人工調(diào)試兩個主要挑戰(zhàn)。因此,提出了一種新穎的異策略模仿-強化學(xué)習(xí)的序列推薦算法COG4Rec,以提高數(shù)據(jù)利用效率和實現(xiàn)可學(xué)習(xí)的價值函數(shù)。首先,它通過異策略方式更新分布匹配目標函數(shù),來避免同策略更新密集在線交互限制;其次,COG4Rec采用可學(xué)習(xí)的價值函數(shù)設(shè)計,通過對數(shù)衰減狀態(tài)分布比,模仿用戶外傾向的價值激勵函數(shù);最后,為了避免模仿學(xué)習(xí)分布漂移問題,COG4Rec通過累積衰減分布比,強化用戶行為記錄中高價值軌跡片段重組推薦策略。一系列基準數(shù)據(jù)集上的性能對比實驗和消融實驗結(jié)果表明:COG4Rec比自回歸模型提升了17.60%,它比啟發(fā)式強化學(xué)習(xí)方法提升了3.25%。這證明了所提模型結(jié)構(gòu)和優(yōu)化算法的有效性。這也證明可學(xué)習(xí)的價值函數(shù)是可行的,并且異策略方式能有效提高數(shù)據(jù)利用效率。

關(guān)鍵詞:異策略評估; 模仿學(xué)習(xí); 逆強化學(xué)習(xí); 序列推薦

中圖分類號:TP391 文獻標志碼:A?文章編號:1001-3695(2024)05-010-1349-07

doi:10.19734/j.issn.1001-3695.2023.10.0447

Off-policy imitation-reinforcement learning for sequential recommendation

Abstract:Recently, reinforcement learning sequence recommender systems have received widespread attention because they can better model the internal dynamics and external tendencies of user interests. However, existing methods face two major challenges: low utilization of same-strategy evaluation data causes the model to rely on a large amount of expert annotation data and heuristic value incentive functions rely on costly repeated manual debugging. This paper proposed a new hetero-strategic imitation-reinforcement learning method to improve data utilization efficiency and achieve a learnable value function. Firstly, it updated the distribution matching objective function through different strategies to avoid the intensive online interaction limitations of same-strategy updates. Secondly, COG4Rec adopted a learnable value function design and imitated the value incentive function of outdoor tendencies through the logarithmic decay state distribution ratio. Finally, in order to avoid the problem of imitation learning distribution drift, COG4Rec strengthened the recommendation strategy for recombining high-value trajectory segments in user behavior records through the cumulative attenuation distribution ratio. The results of performance comparison experiments and ablation experiments on a series of benchmark data sets show that COG4Rec is 17.60% better than the autoregressive model and 3.25% better than the heuristic reinforcement learning method. This proves the effectiveness of the proposed COG4Rec model structure and optimization algorithm. This also proves that the design of a learnable value function is feasible, and the heterogeneous strategy approach can effectively improve data utilization efficiency.

Key words:off-policy evaluation; imitation learning; inverse reinforcement learning; sequential recommendation

0 引言

推薦系統(tǒng)對探索如何感知用戶真實興趣和解決信息爆炸問題具有重要意義[1]。在推薦任務(wù)中,用戶與系統(tǒng)的交互過程可以被表示為一個動態(tài)序列,該序列包含了用戶的反饋信息。……

登錄APP查看全文

主站蜘蛛池模板: 国产91熟女高潮一区二区| 成年片色大黄全免费网站久久| 国产精品视频观看裸模| 亚瑟天堂久久一区二区影院| 国产在线观看第二页| 99热这里只有免费国产精品| 岛国精品一区免费视频在线观看 | 精品超清无码视频在线观看| 日本三区视频| 亚洲高清在线播放| 国产亚洲精品精品精品| 波多野结衣二区| 四虎成人免费毛片| 亚洲一区二区三区在线视频| 成人综合网址| 亚洲日韩AV无码精品| 中国国产一级毛片| 福利国产微拍广场一区视频在线| 亚洲精品波多野结衣| 在线欧美国产| 波多野结衣无码视频在线观看| 久草美女视频| 国产欧美视频综合二区| 国产在线视频导航| 亚洲一区无码在线| 久热中文字幕在线观看| 91无码视频在线观看| 国产亚洲精品在天天在线麻豆| 久久鸭综合久久国产| 亚洲精品不卡午夜精品| 亚洲日本在线免费观看| 国产91精品久久| 自偷自拍三级全三级视频| 亚洲无码高清免费视频亚洲| 理论片一区| 国内精品久久久久久久久久影视| 人妻无码一区二区视频| 国产男人的天堂| 91丨九色丨首页在线播放| 欧美综合激情| 国产美女久久久久不卡| 国产亚洲精品精品精品| 久久99国产精品成人欧美| 欧美 亚洲 日韩 国产| 国产福利一区二区在线观看| 久久夜夜视频| 国产99视频免费精品是看6| 99在线观看视频免费| 国产内射一区亚洲| 夜夜操国产| 国产一级做美女做受视频| 视频二区中文无码| 综合久久久久久久综合网| 欧美综合区自拍亚洲综合绿色| 欧洲精品视频在线观看| 人人91人人澡人人妻人人爽| 三上悠亚精品二区在线观看| 精品亚洲国产成人AV| 国产精品护士| 国内自拍久第一页| 人妻少妇久久久久久97人妻| 日韩欧美中文亚洲高清在线| 91福利在线观看视频| 久久青青草原亚洲av无码| 潮喷在线无码白浆| 一级在线毛片| 99热亚洲精品6码| 婷婷激情亚洲| 精品久久高清| 欧美成人一区午夜福利在线| 欧美一区精品| 亚洲区第一页| 日韩av电影一区二区三区四区| 成人午夜视频网站| 亚洲中文久久精品无玛 | 国产一在线观看| 在线观看国产精品一区| 久久特级毛片| 91探花在线观看国产最新| 久久6免费视频| 亚洲午夜福利精品无码不卡| 亚洲欧美不卡中文字幕|