劉 鵬,趙建新,張宏映,高騰飛,閆 濤
(北方自動控制技術研究所,太原 030006)
隨著軍事科技的發展,作戰方式愈發復雜多樣,作戰指揮決策往智能化的方向進一步發展。對于復雜多變的作戰場景,如何準確高效地進行戰場指揮和任務決策,這對作戰指揮人員的要求越來越高。強化學習在軍事指揮控制領域也有了一定的發展。
目前強化學習在單智能體的競爭、多智能體的協同與對抗的決策,以及擴展運用包括在無人機、機器人控制等方面都有較為廣泛的運用[1-4],在軍事上的運用也得到進一步的研究。在作戰指揮過程中為使作戰裝備發揮更大效能,文東日等將深度強化學習應用在裝備組合運用問題上,為多裝備的使用提供指揮和決策支持[5]。陳希亮等針對陸軍分隊作戰的戰術決策問題引入了深度強化學習作為智能決策支持[6],并給出了基于深度Q 網絡(deep Q network,DQN)的陸軍分隊戰術決策的求解框架。在空戰對抗中紅藍雙方的機動決策問題上,馬文等將深度強化學習與博弈結合得到戰機最優的機動決策方法[7]。上述的研究都是處于合作或者對抗單一場景中的,未考慮在合作與對抗混合場景下多智能體決策的影響。
多智能體強化學習(multi-agent reinforcement learning,MARL)在多智能體場景下使得各個智能體協同完成指定軍事任務的情況更為復雜,各個智能體間決策的策略相互影響,使算法難以收斂[8]。在MARL 領域下,多智能體深度確定性策略梯度(multiagent deep deterministic policy gradient,MADDPG)[9]已經運用在復雜的多智能體協同合作與競爭場景中?!?br>