摘要:針對不確定環境的規劃問題,提出了基于預測狀態表示的Q學習算法,將預測狀態表示方法與Q學習算法結合,用預測狀態表示的預測向量作為Q學習算法的狀態表示,使得到的狀態具有馬爾可夫特性,滿足強化學習任務的要求,進而用Q學習算法學習智能體的最優策略,可解決不確定環境下的規劃問題,仿真結果表明,在發現智能體的最優近似策略時,算法需要的學習周期數與假定環境狀態已知情況下需要的學習周期數大致相同。
關鍵詞:不確定環境規劃;預測狀態表示;Q學習算法;奶酪迷宮
中圖分類號:TP181 文獻標識碼:A 文章編號:0253-987X(2008)12-1472-04