馬 磊, 張文旭, 戴朝華
(西南交通大學電氣工程學院,四川成都610031)
多機器人系統強化學習研究綜述
馬 磊, 張文旭, 戴朝華
(西南交通大學電氣工程學院,四川成都610031)
強化學習是實現多機器人對復雜和不確定環境良好適應性的有效手段,是設計智能系統的核心技術之一.從強化學習的基本思想與理論框架出發,針對局部可觀測性、計算復雜度和收斂性等方面的固有難題,圍繞學習中的通信、策略協商、信度分配和可解釋性等要點,總結了多機器人強化學習的研究進展和存在的問題;介紹了強化學習在機器人路徑規劃與避障、無人機、機器人足球和多機器人追逃問題中的應用;最后指出了定性強化學習、分形強化學習、信息融合的強化學習等若干多機器人強化學習的前沿方向和發展趨勢.
多機器人系統;強化學習;馬爾科夫決策過程;計算復雜度;不確定性
多機器人合作是近年自動化與控制領域發展的前沿方向[1].多機器人的研究與應用體現出了廣泛的學科交叉,涉及眾多的課題,目前已在工業、農業、商業、太空與海洋探索、環境監測、災害救險、國防等領域獲得越來越多的關注與應用.
要實現多機器人靈活和有效的行為選擇能力,保證它們之間的協作關系,僅依靠設計者的經驗和知識,很難獲得多機器人系統對復雜和不確定環境的良好適應性[2].為此,必須在機器人的規劃與控制中引入學習機制,使機器人能夠在與環境的……