基于改進(jìn)DDPG的空戰(zhàn)行為決策方法

2022-02-25 05:09:00殷宇維胡劍秋

指揮控制與仿真 2022年1期

殷宇維，王凡，吳奎，胡劍秋

(江蘇自動(dòng)化研究所,江蘇連云港 222061)

空戰(zhàn)行為決策是指我機(jī)根據(jù)戰(zhàn)場(chǎng)實(shí)時(shí)態(tài)勢(shì)采取行為策略以對(duì)敵方構(gòu)成作戰(zhàn)威脅、實(shí)施有效打擊。在戰(zhàn)機(jī)性能快速提升,空戰(zhàn)對(duì)抗異常激烈的現(xiàn)代戰(zhàn)場(chǎng)環(huán)境中,飛行員很難根據(jù)急劇變化和充滿不確定性的戰(zhàn)場(chǎng)態(tài)勢(shì)進(jìn)行快速有效的自主決策。因此,研究能根據(jù)戰(zhàn)場(chǎng)實(shí)時(shí)態(tài)勢(shì)進(jìn)行智能決策的空戰(zhàn)行為決策方法具有重大意義。

目前，空戰(zhàn)決策方法主要分為數(shù)學(xué)推算、機(jī)器搜索和數(shù)據(jù)驅(qū)動(dòng)三類(lèi)。第一類(lèi)基于數(shù)學(xué)推算的決策方法主要有微分對(duì)策法、最優(yōu)控制等,雖然該方法具有可解釋性強(qiáng)的優(yōu)點(diǎn),但其需要嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)邏輯證明,且僅能對(duì)追逐、規(guī)避這類(lèi)簡(jiǎn)單的空戰(zhàn)形式進(jìn)行有效建模,因此，在實(shí)際工程中實(shí)現(xiàn)困難,適用范圍有限。第二類(lèi)基于機(jī)器搜索的決策方法主要有影響圖、蒙特卡洛搜索、決策樹(shù)和近似動(dòng)態(tài)規(guī)劃等。這些方法主要邏輯為根據(jù)設(shè)計(jì)的態(tài)勢(shì)評(píng)估函數(shù)對(duì)當(dāng)前戰(zhàn)場(chǎng)態(tài)勢(shì)進(jìn)行評(píng)估,然后，使用優(yōu)化算法對(duì)最優(yōu)策略進(jìn)行搜索,但是這類(lèi)方法存在的問(wèn)題是:空戰(zhàn)戰(zhàn)場(chǎng)態(tài)勢(shì)復(fù)雜,存在大量不確定性因素,態(tài)勢(shì)評(píng)估函數(shù)設(shè)計(jì)困難,與此同時(shí)，空戰(zhàn)節(jié)奏快,低效率的優(yōu)化算法搜索難以滿足根據(jù)實(shí)時(shí)態(tài)勢(shì)進(jìn)行快速?zèng)Q策的需求。第三類(lèi)基于數(shù)據(jù)驅(qū)動(dòng)的決策方法與機(jī)器搜索無(wú)本質(zhì)上的區(qū)別,例如文獻(xiàn)[12],雖然提到了強(qiáng)化學(xué)習(xí)的概念,但實(shí)質(zhì)上僅利用神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)能力,為最優(yōu)策略的搜索提供啟發(fā)式經(jīng)驗(yàn)?！?br>

登錄APP查看全文