動態環境下多智能體協作學習方法的研究

2011-12-31 00:00:00王全武胡曉輝

科技創新導報 2011年9期

摘要:將預測分析技術和強化學習技術有機結合，使多Agent系統中的各Agent，不僅具有了高度反應自適應性，而且擁有了高效而準確的預測分析能力;使Agent的行為更具有針對性，盡可能地減少錯誤，保證學習的正確方向，提高Agent間進行信息共享，融合單個Agent的Q值表。相當于相同情況下增加了學習次數，不僅盡可能地消除策略中的冗余動作，以高效的方式實現最終目標，而且提高多Agent系統執行效率和收斂速度及性能。本文提出了一種改進的多Agent間協作學習方法，適用于環境不完備的復雜情況。以追捕問題作為仿真實驗。結果表明所提方法能夠有效地促進多智能體系統中各Agent間協作學習能力。

關鍵詞:多智能體系統強化學習協作學習預測分析技術追捕問題黑板模型

中圖分類號:TP18 文獻標識碼:A 文章編號:1674-098X(2011)03(c)-0253-02

1 引言

近年來，分布式人工智能研究者對多Agent協作完成任務的研究越來越多。這是因為隨著計算機網絡，分布式計算技術等不斷發展和完善，所要研究的系統往往異常復雜龐大，并且呈現動態多變的分布式特性，要解決問題單憑單Agent所擁有的有限的資源和能力是無法完成的，或者完成任務的效益不是理想的，同時，成本也很高。因此，對多Agent間的協作學習方法的研究是十分必要的，也是非常重要的，更是多Agent系統發展的必然趨勢。學習可以使多Agent能夠在開放、復雜、動態的環境中提高自反應適應性，更是學習機制可能有效地實現多Agent間的協作。反之，為多Agent系統增加協作學習機制也能起到加速多Agent的學習進程。……

登錄APP查看全文

科技創新導報 2011年9期

科技創新導報的其它文章: 西藏某燃機電廠采暖系統設置方式的分析; 基于建設國家級循環經濟示范區開發曹妃甸工業旅游的思考; 高職英語教學中湖湘特色旅游職業技能滲透實踐特色探析; 淺談如何激發學生對高等數學的學習興趣; 精密儀器廠房通風空調節能設計; 中職數學學生厭學的原因分析及對策