

















摘要: 為提高多無人船編隊系統(tǒng)的導(dǎo)航能力, 提出了一種基于注意力機制的多智能體深度確定性策略梯度(ATMADDPG: Attention Mechanism based Multi-Agent Deep Deterministic Policy Gradient) 算法。該算法在訓練階段, 通過大量試驗訓練出最佳策略, 并在實驗階段直接使用訓練出的最佳策略得到最佳編隊路徑。仿真實驗將4 艘相同的“百川號冶無人船作為實驗對象。實驗結(jié)果表明, 基于ATMADDPG 算法的隊形保持策略能實現(xiàn)穩(wěn)定的多無人船編隊導(dǎo)航, 并在一定程度上滿足隊形保持的要求。相較于多智能體深度確定性策略梯度(MADDPG: Multi鄄Agent Depth Deterministic Policy Gradient)算法, 所提出的ATMADDPG 算法在收斂速度、隊形保持能力和對環(huán)境變化的適應(yīng)性等方面表現(xiàn)出更優(yōu)越的性能, 綜合導(dǎo)航效率可提高約80%, 具有較大的應(yīng)用潛力。
關(guān)鍵詞: 多無人船編隊導(dǎo)航; MADDPG 算法; 注意力機制; 深度強化學習
中圖分類號: TP301 文獻標志碼: A
O 引言
隨著科學技術(shù)的迅速發(fā)展,多無人船編隊在海洋科學研究、環(huán)境監(jiān)測、漁業(yè)資源調(diào)查和軍事偵察等領(lǐng)域發(fā)揮著越來越重要的作用。近年來,深度強化學習(DRL:Deep Reinforcement Learning)在機器人、自動駕駛等領(lǐng)域取得了顯著的成功,也證明了強化學習和深度網(wǎng)絡(luò)的結(jié)合在解決復(fù)雜系統(tǒng)的控制問題上具有很大的潛力。其中多智能體深度確定性策略梯度(MADDPG:Multi-Agent DepthDeterministic Policy Cradient)算法,由于其兼具分布式采樣和集中式訓練的優(yōu)點,因此具有較強的應(yīng)對復(fù)雜環(huán)境和實現(xiàn)協(xié)同決策的能力,成為廣受關(guān)注的一種基于深度強化學習的多智能體協(xié)同控制方法。
目前,多智能體編隊已成為控制領(lǐng)域的研究熱點,并且人們已經(jīng)提出了多種控制設(shè)計方法,其中較為成熟的編隊控制方法包括領(lǐng)航一跟隨者方法、基于行為法、虛擬結(jié)構(gòu)法、基于圖論法和人工勢場法等。……