摘 要:將預測分析技術和強化學習技術有機結合,使多Agent系統中的各Agent,不僅具有了高度反應自適應性,而且擁有了高效而準確的預測分析能力;使Agent的行為更具有針對性,盡可能地減少錯誤,保證學習的正確方向,提高Agent間進行信息共享,融合單個Agent的Q值表。相當于相同情況下增加了學習次數,不僅盡可能地消除策略中的冗余動作,以高效的方式實現最終目標,而且提高多Agent系統執行效率和收斂速度及性能。本文提出了一種改進的多Agent間協作學習方法,適用于環境不完備的復雜情況。以追捕問題作為仿真實驗。結果表明所提方法能夠有效地促進多智能體系統中各Agent間協作學習能力。
關鍵詞:多智能體系統 強化學習 協作學習 預測分析技術 追捕問題 黑板模型
中圖分類號:TP18 文獻標識碼:A 文章編號:1674-098X(2011)03(c)-0253-02
1 引言
近年來,分布式人工智能研究者對多Agent協作完成任務的研究越來越多。這是因為隨著計算機網絡,分布式計算技術等不斷發展和完善,所要研究的系統往往異常復雜龐大,并且呈現動態多變的分布式特性,要解決問題單憑單Agent所擁有的有限的資源和能力是無法完成的,或者完成任務的效益不是理想的,同時,成本也很高。因此,對多Agent間的協作學習方法的研究是十分必要的,也是非常重要的,更是多Agent系統發展的必然趨勢。學習可以使多Agent能夠在開放、復雜、動態的環境中提高自反應適應性,更是學習機制可能有效地實現多Agent間的協作。反之,為多Agent系統增加協作學習機制也能起到加速多Agent的學習進程。……