熊蓉玲,段春怡,冉華明,楊 萌,馮旸赫
(1.中國西南電子技術研究所,成都 610036;2.西南交通大學 數學學院,成都 611756;3.國防科技大學 系統工程學院,長沙 410003)
強化學習通過智能體和環境不斷試錯交互的方式學習到能夠使獎勵最大化的最優策略[1]。深度強化學習結合神經網絡強大的表征能力來擬合智能體的策略模型和價值模型,求解復雜問題的能力大幅提升,近年來在各類智能決策問題上取得了巨大的進步,成為人工智能領域發展迅猛的一個分支[2]。實時策略類游戲作為典型的時序決策問題,成為國內外學者研究深度強化學習的試金石。Mnih 等[3]提出深度Q網絡(Deep Q Network,DQN)算法解決Atari2600游戲,在6個游戲中的表現優于以前的方法,在3個游戲中的表現優于人類專家。但Atari2600游戲的任務場景較為簡單,決策時序較短,決策空間較小,問題復雜性不高。Vinyals等[4]針對星際爭霸游戲問題,采用了強化學習和模仿學習相結合的方式,解決了非完全信息下的即時策略游戲問題。Jaderberg等[5]針對雷神之錘游戲問題,利用雙層流程來優化智能體的內部獎勵機制,再通過這些獎勵來優化強化學習模型,通過并行訓練多個不同的智能體集群相互配合,實現了完全無監督的自學機制。與Atari2600游戲相比,星際爭霸和雷神之錘的任務場景復雜,決策難度大幅提升,文中設計的算法架構復雜,計算資源需求大,訓練時間長,難以應用到其他任務場景中。
針對傳統深度強化學習方法難以快速解決長時序復雜任務的問題,本文提出一種引入歷史信息和人類知識的深度強化學習方法。……