張宇奇,黃曉雯,桑基韜
1. 北京交通大學計算機與信息技術學院,北京 100044;
2. 交通數據分析與挖掘北京市重點實驗室,北京 100044
隨著網絡的快速發展,信息過載問題越來越嚴重,人們難以及時有效地從海量數據中找到感興趣的物品和信息。為了緩解信息過載問題,推薦系統應運而生。傳統的推薦系統往往采用單步推薦的方式,導致推薦系統無法在推薦過程中動態學習用戶的偏好。為了解決該問題,交互式推薦系統[1]被提出,并在近幾年吸引了越來越多研究人員的關注。交互式推薦系統采用多步推薦的方式,在一次會話內進行多次推薦,并依據用戶的反饋動態調整自身的推薦策略,從而為用戶提供更準確的推薦結果。
由于深度強化學習在決策時關注動作的長期獎勵,在動態環境中體現了較強的決策能力,因此,研究人員開始使用深度強化學習模型建模交互式推薦系統。Mahmood T等人[2]構建的基于modelb a s e d強化學習的交互式推薦系統和近些年提出的基于深度Q網絡(deep Q network,DQN)的交互式推薦系統[3]都取得了不錯的效果。基于深度強化學習的交互推薦系統能在推薦過程中靈活地調整推薦策略,提升推薦系統的準確率,并使用戶長期獲得良好的推薦體驗。
盡管將深度強化學習技術應用到交互式推薦系統中取得了不錯的進展,但基于深度強化學習的交互式推薦系統在實際應用中仍然面臨巨大的挑戰。深度強化學習的引入要求交互式推薦系統在與在線用戶交互的過程中進行學習,從而避免離線學習的估計偏差問題。……