

















摘 要:計(jì)算機(jī)模擬是未來智能空戰(zhàn)研究的關(guān)鍵途徑,但現(xiàn)有的空戰(zhàn)模擬系統(tǒng)往往存在不開源、開發(fā)難度大、可視化效果差以及難以融合先進(jìn)人工智能技術(shù)等問題,限制了智能空戰(zhàn)的深入研究。提出了一種基于NetLogo 3D平臺和HubNet模塊的3D空戰(zhàn)模擬系統(tǒng)。首先在NetLogo 3D環(huán)境中構(gòu)建包含地形、飛機(jī)和導(dǎo)彈的靜態(tài)模型,并通過封裝函數(shù)實(shí)現(xiàn)飛機(jī)機(jī)動和導(dǎo)彈攻擊等動態(tài)行為。系統(tǒng)不僅支持專家算法,還通過Python擴(kuò)展引入了DDQN強(qiáng)化學(xué)習(xí)算法,實(shí)現(xiàn)智能體的機(jī)動及攻擊決策。利用HubNet模塊構(gòu)建了具有C-S架構(gòu)的空戰(zhàn)環(huán)境,支持人人對抗、人機(jī)對抗和機(jī)機(jī)對抗多種形式的模擬。實(shí)驗(yàn)結(jié)果驗(yàn)證了系統(tǒng)的有效性和穩(wěn)定性,同時(shí)實(shí)現(xiàn)了實(shí)時(shí)可視化功能并展現(xiàn)出快速集成智能算法的技術(shù)優(yōu)勢。
關(guān)鍵詞:空戰(zhàn)模擬;HubNet;C-S架構(gòu);DDQN算法
中圖分類號:TP18;TP391.9 文獻(xiàn)標(biāo)志碼:A DOI:10.3969/j.issn.1673-3819.2025.02.017
Multi-agent air combat simulation based on NetLogo
JIA Honggang, WANG Wei, CHENG Nan
(School of Communication Engineering, Xidian University, Xian 710071, China)
Abstract:Computer simulation is a crucial approach for advancing research in intelligent aerial combat. However, existing aerial combat simulators are often non-open-source, challenging to develop, poorly visualized, and difficult to integrate with advanced AI technologies. This paper introduces a 3D aerial combat simulation system based on NetLogo 3D and HubNet. The system constructs static models of terrain, aircraft, and missiles in NetLogo 3D, and encapsulates functions to implement dynamic behaviors such as aircraft maneuvers and missile attacks. The system not only supports expert algorithms but also integrates DDQN reinforcement learning algorithm via Python extensions, enabling intelligent agents to make maneuver and attack decisions. A C-S architecture is employed via HubNet to support various simulation scenarios, including human-human, human-machine, and machine-machine engagements. Experimental results validate the systems effectiveness and stability, highlighting its real-time visualization capabilities and rapid integration of AI algorithms.
Key words:air combat simulation; HubNet; C-S architecture; DDQN algorithm
國際社會普遍渴望和平與穩(wěn)定。然而,巴以沖突[1]和持續(xù)的俄烏沖突[2]提醒我們,全球戰(zhàn)爭風(fēng)險(xiǎn)依然存在。智能科技的迅猛發(fā)展正深刻改變著現(xiàn)代戰(zhàn)爭的形態(tài)。信息感知、算法輔助和精確控制成為主導(dǎo),軍事力量向小型化、現(xiàn)代化和自主化方向發(fā)展,作戰(zhàn)方式也轉(zhuǎn)向分布式打擊和群體協(xié)同[3]。面對新的戰(zhàn)爭形態(tài),傳統(tǒng)空戰(zhàn)模擬因其資源消耗大、評估效果差等問題面臨挑戰(zhàn)。計(jì)算機(jī)技術(shù)驅(qū)動的空戰(zhàn)模擬系統(tǒng)以其經(jīng)濟(jì)高效和模擬精準(zhǔn)的優(yōu)勢,逐漸成為軍事研究的關(guān)鍵。
對于空戰(zhàn)模擬系統(tǒng),郝玲玲[4]設(shè)計(jì)了一種基于DDS的空戰(zhàn)模擬仿真系統(tǒng),該系統(tǒng)旨在解決多個仿真節(jié)點(diǎn)間的數(shù)據(jù)共享和互通問題,重點(diǎn)探討了基于DDS的數(shù)據(jù)分發(fā)機(jī)制,系統(tǒng)具有較高的設(shè)計(jì)難度和實(shí)現(xiàn)復(fù)雜性。白金鵬等人[5]開發(fā)的空戰(zhàn)模擬系統(tǒng)采用結(jié)構(gòu)化方法管理各功能模塊。該方法提高了系統(tǒng)的模塊化程度,但在靈活性方面存在一定局限,且系統(tǒng)的具體實(shí)現(xiàn)細(xì)節(jié)有待進(jìn)一步完善。張燦[6]利用Rust語言以及Rocket框架、MongoDB數(shù)據(jù)庫等技術(shù)方案設(shè)計(jì)了一款支持瀏覽器訪問的多無人機(jī)協(xié)同任務(wù)規(guī)劃的仿真系統(tǒng)。該系統(tǒng)允許用戶自行設(shè)計(jì)無人機(jī)控制算法,具有良好的可擴(kuò)展性。然而,系統(tǒng)的可視化效果有待提高。王國強(qiáng)等[7]基于VR-Forces仿真引擎開發(fā)了一種多無人機(jī)協(xié)同空戰(zhàn)任務(wù)規(guī)劃仿真系統(tǒng)。該系統(tǒng)支持多種對抗方式,可集成不同的控制算法,并具有出色的可視化效果。但由于采用專有軟硬件設(shè)施,系統(tǒng)的開放性受限,且對用戶的編程能力要求較高。
智能決策算法在空戰(zhàn)領(lǐng)域取得了顯著進(jìn)展。馬文等人提出的結(jié)合博弈論與深度強(qiáng)化學(xué)習(xí)的算法,能夠?qū)崟r(shí)選擇有利的機(jī)動動作并占據(jù)優(yōu)勢[8]。高昂等人對比分析了深度強(qiáng)化學(xué)習(xí)與經(jīng)典智能優(yōu)化方法,并提出基于智能優(yōu)化的進(jìn)化神經(jīng)網(wǎng)絡(luò)決策模型及其求解方法[9]。未來研究重點(diǎn)在于設(shè)計(jì)高效實(shí)用的算法,平衡實(shí)時(shí)性、多樣性、靈活性和實(shí)戰(zhàn)適用性。
NetLogo作為一款用于模擬復(fù)雜系統(tǒng)的多智能體建模平臺,在教育學(xué)、生態(tài)學(xué)、社會科學(xué)和經(jīng)濟(jì)學(xué)等多個領(lǐng)域得到廣泛使用[10-13]。本文基于NetLogo 3D平臺和HubNet模塊,結(jié)合DDQN算法[14]進(jìn)行空戰(zhàn)模擬,成功實(shí)現(xiàn)了3D空戰(zhàn)對抗仿真環(huán)境構(gòu)建和智能決策的創(chuàng)新。該平臺在空戰(zhàn)模擬方面具有以下優(yōu)勢:
(1) 開發(fā)工具及環(huán)境開源,無版權(quán)限制;
(2) 可視化效果好,NetLogo內(nèi)置的三維渲染引擎能實(shí)時(shí)、清晰地呈現(xiàn)空戰(zhàn)過程中飛行器的運(yùn)動狀態(tài);
(3) 開發(fā)工作量小,開發(fā)難度低,NetLogo采用面向?qū)ο蟮木幊谭妒剑庋b了豐富的智能體控制原語,便于非計(jì)算機(jī)背景的領(lǐng)域?qū)<铱焖贅?gòu)建模型;
(4) 靈活度高,擴(kuò)展性好,尤其支持Python接口調(diào)用,便于集成各種先進(jìn)算法;
(5) 多用戶支持,HubNet模塊支持多用戶作為獨(dú)立智能體參與交互式仿真。
1 NetLogo平臺及關(guān)鍵技術(shù)概述
1.1 NetLogo基礎(chǔ)功能簡介
NetLogo是一款強(qiáng)大的基于代理的建模工具,通過簡潔的命令語言和豐富的編程功能,如自定義函數(shù)、變量管理和遞歸等,使使用者能夠構(gòu)建復(fù)雜的模擬系統(tǒng)。其擴(kuò)展版本NetLogo 3D將建模能力進(jìn)一步拓展到三維空間,顯著提升了模擬的可視化表現(xiàn)。
HubNet是NetLogo的一個重要擴(kuò)展模塊,允許開發(fā)者輕松創(chuàng)建多人在線活動。通過HubNet,可以監(jiān)控用戶的加入和退出,處理用戶輸入并執(zhí)行相應(yīng)的操作。服務(wù)器能夠?qū)⒈匾男畔V播給客戶端,從而實(shí)現(xiàn)實(shí)時(shí)交互。
1.2 Python擴(kuò)展調(diào)用方法
NetLogo可以通過擴(kuò)展功能與其他工具和語言進(jìn)行交互,例如Arduino、Array、CSV和Python等。本文主要使用Python擴(kuò)展,具體調(diào)用方法如圖1。
2 靜態(tài)模型構(gòu)建
空戰(zhàn)過程中需要考慮的關(guān)鍵因素包括直接參與對抗的元素(如操作者、戰(zhàn)機(jī)、導(dǎo)彈)和環(huán)境因素(如地形、氣象、重力、阻力等)。本空戰(zhàn)模擬系統(tǒng)聚焦于飛機(jī)機(jī)動過程,采取了針對性的簡化策略。忽略了氣象因素的影響,并利用NetLogo的離散時(shí)間特性,僅考慮單位時(shí)刻的飛機(jī)狀態(tài),省略了重力和空氣動力學(xué)效應(yīng)的復(fù)雜計(jì)算。同時(shí)引入簡化的地形元素增強(qiáng)模擬的真實(shí)感。
根據(jù)前述簡化策略,本系統(tǒng)巧妙應(yīng)用NetLogo的核心概念來構(gòu)建空戰(zhàn)模擬系統(tǒng)。具體而言,采用“海龜”作為可移動的代理,以模擬戰(zhàn)機(jī)以及導(dǎo)彈的行為和交互過程。同時(shí),使用“補(bǔ)丁”表示空戰(zhàn)場景的環(huán)境特征。為“海龜”和“補(bǔ)丁”賦予特定的屬性,這種抽象有效簡化了復(fù)雜的空戰(zhàn)系統(tǒng)。
2.1 飛機(jī)模型
建立飛機(jī)模型時(shí)選取空戰(zhàn)過程中最為關(guān)鍵的屬性進(jìn)行抽象(見表1)。其中,shape表征飛機(jī)形態(tài),color用于區(qū)分?jǐn)澄摇oll、pitch和heading反映了飛機(jī)的三維姿態(tài),直接影響其機(jī)動能力。初始位置和姿態(tài)的隨機(jī)設(shè)置旨在模擬真實(shí)空戰(zhàn)中的不確定性。speed設(shè)定為0.12、size設(shè)定為3.0是根據(jù)NetLogo 3D環(huán)境的比例進(jìn)行調(diào)整的。live和missile屬性則表示飛機(jī)的耐受能力和火力。這些屬性模擬現(xiàn)代戰(zhàn)斗機(jī)的一般特性,但進(jìn)行了簡化。
2.2 導(dǎo)彈模型
導(dǎo)彈模型的設(shè)計(jì)基于空戰(zhàn)對抗中導(dǎo)彈的追蹤和打擊行為,并結(jié)合簡化的物理原理進(jìn)行抽象(見表2)。模型利用shape和color屬性區(qū)分導(dǎo)彈與飛機(jī),size設(shè)為1、speed設(shè)為1,體現(xiàn)導(dǎo)彈體積更小、速度更快的特性。live屬性設(shè)為30,代表導(dǎo)彈的最大飛行時(shí)間,模擬導(dǎo)彈射程有限的特性。
基于這些屬性,模型通過以下策略模擬導(dǎo)彈的追蹤與打擊效果:
(1)目標(biāo)探測與標(biāo)記:導(dǎo)彈的探測范圍抽象為一個錐形區(qū)域,模擬導(dǎo)彈的“不可逃逸區(qū)”[15]。一旦敵機(jī)進(jìn)入該區(qū)域,即被標(biāo)記為攻擊目標(biāo),向我方提供攻擊指示。
(2)導(dǎo)彈追蹤:導(dǎo)彈發(fā)射后會持續(xù)追蹤被標(biāo)記的敵機(jī)。同時(shí),敵機(jī)具備一定的逃逸能力,模擬真實(shí)空戰(zhàn)中的對抗博弈。
(3)打擊效果:當(dāng)導(dǎo)彈與目標(biāo)的距離小于1個單位時(shí),判定為命中。命中后,目標(biāo)飛機(jī)的生命值將相應(yīng)減少。
2.3 地形模型
雖然地形在真實(shí)空戰(zhàn)中扮演重要角色,影響著飛行高度、機(jī)動性以及戰(zhàn)術(shù)選擇,但為了簡化空戰(zhàn)模擬過程,本系統(tǒng)暫不考慮崎嶇地形復(fù)雜環(huán)境因素對飛行操作的影響。地面模型的主要作用是提供一個基本的視覺參考,提升仿真環(huán)境的空間感和真實(shí)感,而不直接參與空戰(zhàn)過程中的戰(zhàn)術(shù)決策。
3 動態(tài)行為模塊
基于構(gòu)建的飛機(jī)、導(dǎo)彈和地形空戰(zhàn)要素模型,為實(shí)現(xiàn)動態(tài)空戰(zhàn)模擬并支持人人對抗、人機(jī)對抗以及算法間對抗等多種模式,系統(tǒng)設(shè)計(jì)了手動控制和智能決策算法控制兩種方式來操控飛機(jī),以滿足不同的模擬需求。
3.1 手動控制模式
3.1.1 手動控制理論基礎(chǔ)
飛機(jī)的機(jī)動行為模擬采用了文獻(xiàn)[16]中提出的27種基礎(chǔ)動作模型,并在NetLogo環(huán)境中開發(fā)了相應(yīng)的函數(shù)實(shí)現(xiàn),此處不對該模型的具體原理進(jìn)行深入探討。
首先構(gòu)建飛機(jī)的控制矢量W={K,L,w},其中K表示推阻合力,L表示升力,w表示滾轉(zhuǎn)角,各參量對于飛機(jī)飛行動作具有表3所示的控制關(guān)系。
設(shè)計(jì)了六種函數(shù)用于模擬飛機(jī)的動作。用戶可以通過圖2所示的GUI與這些函數(shù)進(jìn)行交互,通過點(diǎn)擊控制界面上的按鈕來調(diào)用不同函數(shù),從而實(shí)現(xiàn)特定動作。
通過模擬油門操作,飛行員可以調(diào)整飛機(jī)的速度,例如加速追擊敵人或減速進(jìn)行防御,以適應(yīng)不同的戰(zhàn)斗場景需求。飛機(jī)的姿態(tài)控制通過駕駛桿實(shí)現(xiàn),包括爬升和俯沖操作,改變飛機(jī)的俯仰角來獲得高度優(yōu)勢或躲避攻擊;轉(zhuǎn)向操作,調(diào)整飛機(jī)的橫滾角,使飛機(jī)能夠快速靈活地改變方向和姿態(tài),從而占據(jù)有利的攻擊位置或規(guī)避敵方火力。未進(jìn)行任何操作,飛機(jī)將保持穩(wěn)定的飛行狀態(tài),模擬油門和駕駛桿處于中立位置的情形,確保飛行的平穩(wěn)性。
3.1.2 手動控制效果展示
在NetLogo 3D仿真環(huán)境中,用戶執(zhí)行飛機(jī)控制動作時(shí),可以看到圖3所示的可視化效果。圖中展示了飛機(jī)執(zhí)行爬升、右轉(zhuǎn)、攻擊動作時(shí)的視覺效果。同樣,俯沖、左轉(zhuǎn)以及加減速等動作也會在模擬環(huán)境中以類似的方式展現(xiàn)出來。
3.2 專家算法控制模式
專家算法的設(shè)計(jì)以結(jié)構(gòu)簡潔為核心,將狀態(tài)判斷與條件控制相結(jié)合,指導(dǎo)飛行器的智能決策過程。其顯著特點(diǎn)是將復(fù)雜的決策過程分解為簡單的規(guī)則和條件,從而形成一個清晰的決策流程圖。這種方法能有效應(yīng)對各種飛行狀態(tài)和環(huán)境變化,確保飛行器在不同情況下都能做出合理的響應(yīng)。以我方戰(zhàn)機(jī)為研究對象,可以設(shè)計(jì)如圖4所示的專家算法執(zhí)行流程。圖中p是一個隨機(jī)生成的0~1范圍內(nèi)的數(shù)字。
3.3 DDQN算法控制模式
由于狀態(tài)的連續(xù)性、龐大的狀態(tài)空間以及動作的離散性等特點(diǎn),DQN算法非常適合用于本系統(tǒng)。而DDQN算法通過減少Q(mào)值估計(jì)偏差,能進(jìn)一步提高DQN算法性能,成為本系統(tǒng)的最佳選擇。
3.3.1 訓(xùn)練流程設(shè)計(jì)
在深度強(qiáng)化學(xué)習(xí)領(lǐng)域,智能體通過與環(huán)境不斷交互來學(xué)習(xí)和積累經(jīng)驗(yàn)[17]。每次交互都會生成數(shù)據(jù),包括當(dāng)前狀態(tài)(s)、采取的行動(a)、下一狀態(tài)(s_)、即時(shí)獎勵(r)和是否結(jié)束的標(biāo)志(done)。
獎勵函數(shù)的設(shè)計(jì)對于解決獎勵函數(shù)的稀疏性、任務(wù)相關(guān)性、局部最優(yōu)性和安全性等問題至關(guān)重要[18]。為了提高智能體在空戰(zhàn)模擬環(huán)境中的訓(xùn)練效率和效果,本文在兼顧模擬準(zhǔn)確性、計(jì)算資源和成本等因素的情況下,對標(biāo)準(zhǔn)DDQN算法流程進(jìn)行了改進(jìn)。具體改進(jìn)包括:結(jié)合離線學(xué)習(xí)與在線學(xué)習(xí),加速學(xué)習(xí)過程;在離線學(xué)習(xí)的數(shù)據(jù)采集過程中,采用頻繁隨機(jī)初始化智能體狀態(tài)的機(jī)制,幫助智能體探索更廣泛的狀態(tài)空間。
3.3.2 狀態(tài)與動作設(shè)計(jì)
如表4,狀態(tài)與動作設(shè)計(jì)主要考慮以下幾個方面:
(1)dx、dy、dz表示兩架飛機(jī)的相對位置;
(2)p1、h1分別表示我方戰(zhàn)機(jī)的pitch和heading;
(3)瞄準(zhǔn)敵機(jī)時(shí),“s”參數(shù)由0變?yōu)?0;
(4)對“s”以外的參數(shù)合理標(biāo)準(zhǔn)化;
(5)取消“加、減速”動作,僅保留左右轉(zhuǎn)向、抬升俯沖和攻擊5個動作效果更佳。
3.3.3 獎勵函數(shù)設(shè)計(jì)
本文設(shè)計(jì)了基于態(tài)勢評估的獎勵函數(shù)。計(jì)算過程主要分為三步:
第一步,計(jì)算態(tài)勢Rh,其與我方戰(zhàn)機(jī)的heading以及雙方戰(zhàn)機(jī)水平相對位置有關(guān)。
第二步,計(jì)算態(tài)勢Rp,其與我方戰(zhàn)機(jī)的pitch參數(shù)以及雙方戰(zhàn)機(jī)豎直相對位置有關(guān)。
第三步,綜合Rh與Rp得到每一個時(shí)刻的態(tài)勢,然后通過綜合處理相鄰兩個時(shí)刻的態(tài)勢來計(jì)算動作獎勵。
對非射擊動作的獎勵值進(jìn)一步進(jìn)行四舍五入處理,簡化了學(xué)習(xí)信號,使數(shù)據(jù)更穩(wěn)定、易于區(qū)分,有效減少過擬合,提升神經(jīng)網(wǎng)絡(luò)的穩(wěn)定性和泛化能力。
3.3.4 模型訓(xùn)練
本系統(tǒng)采用的離線訓(xùn)練和常規(guī)的DDQN在線訓(xùn)練方式有所不同,具體對比見圖5。
說明:
(1)在線訓(xùn)練中,Python和NetLogo環(huán)境協(xié)同工作,訓(xùn)練完成后,經(jīng)驗(yàn)回放緩沖區(qū)通常被清空。離線訓(xùn)練將兩個環(huán)境解耦,NetLogo環(huán)境收集大量樣本數(shù)據(jù)并本地持久化,隨后在Python環(huán)境中進(jìn)行模型訓(xùn)練。本地?cái)?shù)據(jù)存儲便于異常值檢測和數(shù)據(jù)清洗。
(2)離線訓(xùn)練數(shù)據(jù)采集過程中,動作選擇時(shí)采用純隨機(jī)采樣。這種方法在相似狀態(tài)序列中可以探索更多樣化的動作,增加了智能體發(fā)現(xiàn)最優(yōu)動作的概率。
(3)兩種訓(xùn)練方式在神經(jīng)網(wǎng)絡(luò)的參數(shù)優(yōu)化方式上保持一致,詳見圖6。
(4)在離線訓(xùn)練時(shí),狀態(tài)和動作將分別作為神經(jīng)網(wǎng)絡(luò)的輸入輸出,其余參數(shù)如表5。
為了提高網(wǎng)絡(luò)的泛化能力并防止過擬合,在兩個隱藏層之間引入了dropout[19]層(p=0.3)。
本地?cái)?shù)據(jù)總量為146 953(數(shù)據(jù)篩選之后),訓(xùn)練循環(huán)次數(shù)設(shè)定為7 000次。每次訓(xùn)練時(shí)使用的樣本批量大小為256,折扣因子γ為0.95。優(yōu)化器選擇Adam,學(xué)習(xí)速率參數(shù)為0.001。網(wǎng)絡(luò)訓(xùn)練loss(歸一化之后)收斂情況見圖7。
經(jīng)過4 000次訓(xùn)練后,模型參數(shù)趨于穩(wěn)定。在模型訓(xùn)練前后指導(dǎo)智能體進(jìn)行對抗,智能體累積獎勵見圖8。模型訓(xùn)練前智能體未能快速擊敗對方,截取連續(xù)200步觀察獎勵情況,整體呈現(xiàn)下降趨勢。訓(xùn)練后進(jìn)行5輪對抗測試并記錄獎勵,觀察到明顯的性能提升。在線訓(xùn)練時(shí),實(shí)驗(yàn)發(fā)現(xiàn)效果提升有限,本系統(tǒng)采用離線訓(xùn)練后的模型進(jìn)行進(jìn)一步測試和評估。
4 實(shí)驗(yàn)與結(jié)果分析
4.1 系統(tǒng)工作流程展示
為了構(gòu)建一個多模式空戰(zhàn)對抗環(huán)境,首先需要將人工操作模式、DDQN算法和專家算法決策模式與HubNet的工作流程無縫融合,形成一個完整的代碼塊。接下來,精心設(shè)計(jì)服務(wù)器端和客戶端的操作界面,以確保用戶體驗(yàn)的流暢性和直觀性。以下是本系統(tǒng)工作流程的一個完整示例。
(1)首先初始化環(huán)境。啟動HubNet控制中心和3D界面,加載預(yù)先訓(xùn)練好的DDQN算法模型,等待用戶的加入。
(2)測試時(shí)加入兩個本地用戶。在3D視圖中實(shí)例化兩架飛機(jī)(紅色與藍(lán)色),雙方的初始生命值設(shè)定為1 000,子彈數(shù)量為1 000。每次遭受攻擊時(shí),生命值減少10。
(3)用戶可以選擇三種模式之一進(jìn)行對抗。 “off”代表手動操作模式,“machine”代表由DDQN算法控制,“master”代表由專家算法主導(dǎo)。在本次實(shí)驗(yàn)時(shí),藍(lán)色方選擇“master”模式,而紅色方選擇“machine”模式。
(4)開始對抗。3D界面渲染對抗過程,服務(wù)器實(shí)時(shí)更新飛機(jī)的生命值、子彈數(shù)量等關(guān)鍵參數(shù)。
(5)對抗結(jié)束。服務(wù)器廣播對抗結(jié)果,對抗雙方同步顯示最終結(jié)果。
4.2 人機(jī)對抗實(shí)驗(yàn)
在設(shè)計(jì)的系統(tǒng)中進(jìn)行人機(jī)對抗實(shí)驗(yàn),如圖12所示。實(shí)驗(yàn)中,紅方由人工操作,藍(lán)方則由DDQN算法控制,同時(shí)記錄對抗過程中的軌跡。人機(jī)對抗(3)中,由于NetLogo 3D環(huán)境所提供的三維空間具備“wrap-around”特性,即導(dǎo)彈智能體穿越空間邊界后會在對側(cè)重新出現(xiàn)。
4.3 算法對抗實(shí)驗(yàn)
如圖13所示,紅方由專家算法控制,藍(lán)方由DDQN算法控制。由于仿真實(shí)驗(yàn)的初始狀態(tài)是隨機(jī)生成的,實(shí)驗(yàn)過程中觀察到了多種對抗情景。其中,智能對抗(1)—(2)展示了初始時(shí)刻一方具有明顯優(yōu)勢的情況,而智能對抗(3)—(6)則展示了初始狀態(tài)均勢條件下的對抗實(shí)驗(yàn)。該系統(tǒng)能夠完整展示對抗過程,并直觀地對其進(jìn)行可視化,從而使算法行為更加透明。系統(tǒng)有效揭示了DDQN算法與專家算法在策略選擇和性能表現(xiàn)等方面的差異,為深入理解這兩種算法提供了新的視角。
5 結(jié)束語
本文提出了一種基于NetLogo 3D平臺和HubNet模塊的3D空戰(zhàn)模擬系統(tǒng)。該系統(tǒng)不僅支持人工操作,還集成了DDQN強(qiáng)化學(xué)習(xí)算法和專家算法,實(shí)現(xiàn)了智能決策。通過構(gòu)建具有C-S架構(gòu)的空戰(zhàn)環(huán)境,系統(tǒng)支持多種形式的對抗實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果初步驗(yàn)證了系統(tǒng)的有效性和穩(wěn)定性,展示了其在智能空戰(zhàn)研究領(lǐng)域的潛力。未來,將考慮增加對抗環(huán)境的復(fù)雜性,引入更多的對抗者實(shí)現(xiàn)團(tuán)隊(duì)作戰(zhàn)模式,并比較更多智能算法的性能,以進(jìn)一步提升系統(tǒng)的應(yīng)用范圍。
參考文獻(xiàn):
[1] 張乃千, 張帆. “小身軀”里蘊(yùn)含大能量——從巴以沖突看以色列戰(zhàn)爭動員體系[J]. 軍事文摘, 2024(7): 37-42.
ZHANG N Q, ZHANG F. \"small body\" contains great energy—the Israeli war mobilization system from the perspective of the Israeli-Palestinian conflict[J]. Military Digest, 2024(7): 37-42.
[2] 趙國柱, 陳祎璠. 俄烏沖突中人工智能技術(shù)應(yīng)用典型場景研究[J]. 戰(zhàn)術(shù)導(dǎo)彈技術(shù), 2022(6): 111-115,127.
ZHAO G Z, CHEN Y F. Research on typical application scenarios of artificial intelligence technology in the Russia-Ukraine conflict[J]. Tactical Missile Technology, 2022(6): 111-115,127.
[3] 蘇得苗. 準(zhǔn)確把握現(xiàn)代戰(zhàn)爭形態(tài)新變化努力提高政治工作對備戰(zhàn)打仗貢獻(xiàn)率[J]. 政工學(xué)刊, 2021(11): 24-25.
SU D M. Accurately grasp the new changes in the form of modern warfare and strive to improve the contribution rate of political work to combat readiness[J]. Journal of Political Work, 2021(11): 24-25.
[4] 郝玲玲. 基于DDS的空戰(zhàn)模擬仿真系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 西安:西安工業(yè)大學(xué), 2020.
HAO L L. Design and implementation of air combat simulation system based on DDS[D]. Xian:Xian Technological University, 2020.
[5] 中國航空工業(yè)集團(tuán)公司沈陽飛機(jī)設(shè)計(jì)研究所. 空戰(zhàn)模擬系統(tǒng): CN201811408401.5[P]. 2019-04-19.
Aviation Industry Corporation of China, Shenyang Aircraft Design and Research Institute. Air Combat Simulation System: CN201811408401.5[P]. 2019-04-19.
[6] 張燦. 多無人機(jī)協(xié)同任務(wù)規(guī)劃的仿真系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 南京:南京郵電大學(xué), 2019.
ZHANG C. Design and implementation of simulation system for multi-UAV cooperative mission planning[D]. Nanjing: Nanjing University of Posts and Telecommunications, 2019.
[7] 王國強(qiáng), 陳宇軒, 馬瀅瀅, 等. 多無人機(jī)協(xié)同空戰(zhàn)任務(wù)規(guī)劃仿真系統(tǒng)[J]. 兵器裝備工程學(xué)報(bào), 2023, 44(9): 1-10.
WANG G Q, CHEN Y X, MA Y Y, et al. Simulation system for multi-UAV cooperative air combat mission planning[J]. Journal of Ordnance Equipment Engineering, 2023, 44(9): 1-10.
[8] 馬文, 李輝, 王壯, 等. 基于深度隨機(jī)博弈的近距空戰(zhàn)機(jī)動決策[J]. 系統(tǒng)工程與電子技術(shù), 2021, 43(2): 443-451.
MA W, LI H, WANG Z, et al. Maneuver decision-making in close air combat based on deep stochastic game[J]. Systems Engineering and Electronics, 2021, 43(2): 443-451.
[9] 高昂, 董志明, 李亮, 等. 面向LVC訓(xùn)練的藍(lán)方虛擬實(shí)體近距空戰(zhàn)決策建模[J]. 系統(tǒng)工程與電子技術(shù), 2021, 43(6): 1 606-1 617.
GAO A, DONG Z M, LI L, et al. Modeling of blue force virtual entity close air combat decision-making for LVC training[J]. Systems Engineering and Electronics, 2021, 43(6): 1 606-1 617.
[10]周艷玲, 曹晶, 張?jiān)葡? 基于NetLogo平臺的幽靈堵車現(xiàn)象仿真研究[J]. 咸陽師范學(xué)院學(xué)報(bào), 2022, 37(6): 13-17.
ZHOU Y L, CAO J, ZHANG Y X. Simulation study of phantom traffic jam phenomenon based on NetLogo platform[J]. Journal of Xianyang Normal University, 2022, 37(6): 13-17.
[11]劉夢娟, 顧峻鳴, 馮小萌. 基于Netlogo仿真的電力企業(yè)在碳交易市場的博弈行為研究[J]. 產(chǎn)業(yè)創(chuàng)新研究, 2023(15): 136-138.
LIU M J, GU J M, FENG X M. Research on the game behavior of power enterprises in the carbon trading market based on Netlogo simulation[J]. Industrial Innovation Research, 2023(15): 136-138.
[12]錢欣. 基于Netlogo的高校輿情網(wǎng)絡(luò)信息傳播演化機(jī)制研究[J]. 新聞研究導(dǎo)刊, 2023, 14(4): 40-44.
QIAN X. Research on the evolution mechanism of university public opinion network information dissemination based on Netlogo[J]. Journal of News Research, 2023, 14(4): 40-44.
[13]馮祥林. 基于NetLogo的高中生物學(xué)仿真模型的開發(fā)與應(yīng)用研究[D]. 南昌:江西師范大學(xué), 2023.
FENG X L. Development and application research of high school biology simulation model based on NetLogo[D]. Nanchang: Jiangxi Normal University, 2023.
[14]VAN HASSELT H, GUEZ A, SILVER D. Deep reinforcement learning with double Q-learning[EB/OL]. 2015: 1509.06461.https://arxiv.org/abs/1509.06461v3
[15]邵彥昊, 朱榮剛, 賀建良, 等. 基于深度學(xué)習(xí)的不可逃逸區(qū)內(nèi)的規(guī)避決策研究[J]. 電光與控制, 2019, 26(11): 60-64.
SHAO Y H, ZHU R G, HE J L, et al. Research on evasion decision-making in inescapable zones based on deep learning[J]. Electro-Optic and Control, 2019, 26(11): 60-64.
[16]周思羽, 石瑜, 楊文奇, 等. 基于Cook-Seiford群決策算法的多機(jī)協(xié)同空戰(zhàn)機(jī)動決策[J]. 指揮控制與仿真, 2023, 45(4): 44-51.
ZHOU S Y, SHI Y, YANG W Q, et al. Multi-aircraft cooperative air combat maneuver decision-making based on cook-seiford group decision algorithm[J]. Command Control and Simulation, 2023, 45(4): 44-51.
[17]劉全, 翟建偉, 章宗長, 等. 深度強(qiáng)化學(xué)習(xí)綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2018, 41(1): 1-27.
LIU Q, ZHAI J W, ZHANG Z C, et al. A review of deep reinforcement learning[J]. Journal of Computer Research and Development, 2018, 41(1): 1-27.
[18]楊惟軼, 白辰甲, 蔡超, 等. 深度強(qiáng)化學(xué)習(xí)中稀疏獎勵問題研究綜述[J]. 計(jì)算機(jī)科學(xué), 2020, 47(3): 182-191.
YANG W Y, BAI C J, CAI C, et al. A review of sparse reward problems in deep reinforcement learning[J]. Computer Science, 2020, 47(3): 182-191.
[19]SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[DB/OL]. (2014)[2024-06-08]. https://jmlr.org/papers/v15/srivastava14a.html.
(責(zé)任編輯:許韋韋)