郭洪宇,初 陽,劉 志,周玉芳
(江蘇自動化研究所,江蘇 連云港 222061)
近年來,AlphaGo、Alpha Star等智能體在圍棋、“星際爭霸”等各類游戲中不斷戰勝人類的頂尖選手,人工智能技術的迅猛發展和廣泛應用,已經成為新一輪科技革命的主導因素,世界主要的軍事大國紛紛制定人工智能發展戰略與規劃,加快軍事智能化的發展。在戰術層面的決策博弈領域,由于作戰環境、對手、目標、手段、方式都相對確定,通過人工智能技術能夠逐步實現作戰智能指揮決策,給指揮員在復雜現代戰爭中的指揮決策提供建議,幫助指揮員做出更好的決策判斷。
與作戰智能指揮決策過程具有一定相似性的是“星際爭霸”游戲的決策問題。“星際爭霸”智能體的訓練技術可以在戰場數據生成機理、戰略戰術算法開發和驗證方面,為作戰指揮決策智能體的構建提供理論指導和技術支撐。目前,人們對深度強化學習算法在軍事智能決策上的應用進行了廣泛的探索。文獻[3]針對高度復雜且行為連續的戰場環境,提出了一種改進的深度確定策略梯度(DDPG)算法, 提高算法收斂速度,設計了一種混合雙噪聲的探索策略,從而實現復雜且連續的軍事決策控制行為;文獻[4]針對多機協同空戰,研究利用深度強化學習實現多機協同的方法,提出了集中式訓練-分布式執行架構,并對近端策略優化算法設計了四種算法增強機制,利用兵棋推演平臺進行了驗證;文獻[5]針對作戰仿真推演系統,提出……