摘要:在未知環境中,關于agent的學習行為是一個既充滿挑戰又有趣的問題,強化學習通過試探與環境交互獲得策略的改進,其學習和在線學習的特點使其成為機器學習研究的一個重要分支。介紹了強化學習在理論、算法和應用研究三個方面最新的研究成果,首先介紹了強化學習的環境模型和其基本要素;其次介紹了強化學習算法的收斂性和泛化有關的理論研究問題;然后結合最近幾年的研究成果,綜述了折扣型回報指標和平均回報指標強化學習算法;最后列舉了強化學習在非線性控制、機器人控制、人工智能問題求解、多agent系統問題等若干領域的成功應用和未來的發展方向。
關鍵詞:強化學習;多智能體;馬爾可夫決策過程
中圖分類號:TP181 文獻標志碼:A 文章編號:1001-3695(2010)08-2834-05