999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學(xué)習(xí)的多發(fā)導(dǎo)彈協(xié)同攻擊智能制導(dǎo)律

2021-09-23 09:14:46陳中原韋文書陳萬春
兵工學(xué)報 2021年8期
關(guān)鍵詞:設(shè)計

陳中原, 韋文書, 陳萬春

(1.北京航空航天大學(xué) 宇航學(xué)院, 北京 100191; 2.中國運載火箭技術(shù)研究院, 北京 100076)

0 引言

近年來,為提升打擊效能,協(xié)同制導(dǎo)技術(shù)得到越來越多的關(guān)注[1-5]。協(xié)同制導(dǎo)的多發(fā)導(dǎo)彈可以看作是僅基于簡單控制律即可相互協(xié)作以實現(xiàn)任務(wù)目標的多智能體系統(tǒng)[6]。多發(fā)導(dǎo)彈協(xié)同作戰(zhàn)在效能上要優(yōu)于單個高技術(shù)和高成本的飛行器。此外,多發(fā)導(dǎo)彈構(gòu)成的多智能體系統(tǒng)也會比單個飛行器具有更強的作戰(zhàn)能力[7]。其中,多發(fā)處于不同初始條件的導(dǎo)彈實現(xiàn)對目標的同時打擊是一個極具挑戰(zhàn)的問題[8-9]。

目前,多彈同時攻擊協(xié)同制導(dǎo)律可以分為兩類:

1) 第1類是為協(xié)同制導(dǎo)系統(tǒng)指定期望的攻擊時間。Cho等[10]提出了一種非奇異滑模制導(dǎo)律使導(dǎo)彈在指定的時間打擊目標;Liu等[11]基于自適應(yīng)滑模設(shè)計了一種指定攻擊時間和攻擊角度的制導(dǎo)律。然而,為處于不同初始條件下的多發(fā)導(dǎo)彈指定同一個攻擊時間顯然是有困難的。此外,各發(fā)導(dǎo)彈間沒有交互,降低了多彈協(xié)同制導(dǎo)系統(tǒng)對環(huán)境的感知能力。

2) 另一類是由系統(tǒng)中的各發(fā)導(dǎo)彈相互協(xié)調(diào),對齊攻擊時間。Jeon等[7]對比例導(dǎo)引制導(dǎo)律(簡稱PN制導(dǎo)律)進行拓展,設(shè)計了多彈協(xié)同攻擊制導(dǎo)律。然而,該制導(dǎo)律要求每發(fā)導(dǎo)彈都要有整個系統(tǒng)的全局信息,為集中式控制,通訊負擔(dān)較重。此后,Zhou等[12]基于李雅普諾夫理論設(shè)計了有限時間收斂的分布式協(xié)同攻擊制導(dǎo)律。Sinha等[13]設(shè)計了一種超螺旋滑模制導(dǎo)律,使制導(dǎo)指令更加平滑。李文等[14]基于一致性理論,選取飛行器與目標的相對距離和接近速度為協(xié)調(diào)變量,設(shè)計了無動力飛行器在速度時變情況下的分布式時間協(xié)同三維制導(dǎo)方法。

在導(dǎo)彈制導(dǎo)方面,Cottrell等[17]設(shè)計了神經(jīng)網(wǎng)絡(luò)最優(yōu)攔截制導(dǎo)律,減小了燃料消耗,有利于實現(xiàn)攔截器的小型化。然而,基于神經(jīng)網(wǎng)絡(luò)或深度學(xué)習(xí)網(wǎng)絡(luò)[18]的制導(dǎo)律需要最優(yōu)化樣本進行訓(xùn)練,樣本數(shù)量一定程度上決定了智能制導(dǎo)律可應(yīng)用的交戰(zhàn)環(huán)境,即某些不在樣本中的交戰(zhàn)環(huán)境可能使制導(dǎo)律失效。

為了簡化制導(dǎo)律設(shè)計,提高制導(dǎo)律魯棒性,Gaudet等[19]基于元強化學(xué)習(xí)設(shè)計了攔截器末制導(dǎo)律。南英等[20]對傳統(tǒng)深度Q網(wǎng)絡(luò)(DQN)的記憶池生成方法進行改進,提出了一種基于Markov決策過程的彈道導(dǎo)彈中段突防控制模型。強化學(xué)習(xí)技術(shù)不需要深度學(xué)習(xí)所需要的樣本,也無需設(shè)計控制器的結(jié)構(gòu),可自主探索實現(xiàn)獎勵值最大的動作。然而,上述智能制導(dǎo)律僅針對單個彈,而不是“彈群”。胡仕友等[21]總結(jié)了導(dǎo)彈武器智能精確制導(dǎo)技術(shù)的發(fā)展現(xiàn)狀并對發(fā)展趨勢做了分析,指出開展多彈間信息交互與協(xié)同處理技術(shù)研究,實現(xiàn)群體的分布式智能化協(xié)作,是未來導(dǎo)彈武器智能精確制導(dǎo)技術(shù)發(fā)展的重要方向。

基于深度確定性策略梯度(DDPG)的強化學(xué)習(xí)算法,引入Actor和Critic神經(jīng)網(wǎng)絡(luò)用于動作的選取和獎勵值的逼近,用于解決復(fù)雜連續(xù)的控制問題[22-23]。本文基于DDPG設(shè)計了多彈同時攻擊協(xié)同制導(dǎo)律。為了降低協(xié)同制導(dǎo)系統(tǒng)的通訊負擔(dān),利用多智能體思想,使協(xié)同制導(dǎo)系統(tǒng)中的每發(fā)導(dǎo)彈只需與自己的鄰居進行通訊,實現(xiàn)了分布式協(xié)同制導(dǎo)。此外,本文方法不再假設(shè)初始航向角誤差為小角度[7,10],因而具有更廣的應(yīng)用范圍。

1 問題描述

1.1 平面交戰(zhàn)幾何模型

考慮如圖1所示的n發(fā)導(dǎo)彈和一個靜止目標間的平面交戰(zhàn)幾何關(guān)系,圖1中:vmi為第i發(fā)導(dǎo)彈的速度;θi為彈道傾角;ri為第i為導(dǎo)彈和目標的相對距離;λi為彈目視線角;σi為第i發(fā)導(dǎo)彈的航向角誤差;ami為導(dǎo)彈指令加速度。系統(tǒng)的非線性交戰(zhàn)動力學(xué)方程為

圖1 多彈協(xié)同制導(dǎo)平面交戰(zhàn)幾何關(guān)系Fig.1 Planar engagement geometry

(1)

需要說明的是,這里假設(shè)各發(fā)導(dǎo)彈的速度大小為常值,導(dǎo)彈加速度的方向垂直于導(dǎo)彈速度。

由于本文所研究的是氣動控制的導(dǎo)彈,也就是只有速度方向可被氣動力控制,而導(dǎo)彈的軸向速度是不可控的。因此,制導(dǎo)指令垂直于速度方向。另外,導(dǎo)彈末制導(dǎo)階段飛行距離和制導(dǎo)時間較短,目標為靜止目標,可忽略導(dǎo)彈速度大小變化,因此導(dǎo)彈速度假設(shè)為常值。

(2)

(3)

式中:Ni為比例導(dǎo)引常數(shù)。然而小角度假設(shè)不能夠接近實際,因此本文中考慮初始航向角誤差較大時,剩余飛行時間由(4)式估計,即

(4)

1.2 圖論

隨著協(xié)同制導(dǎo)系統(tǒng)中導(dǎo)彈數(shù)量的增加,圖論成為描述導(dǎo)彈間信息交互關(guān)系的有力工具。考慮一個有n發(fā)導(dǎo)彈的協(xié)同制導(dǎo)系統(tǒng),系統(tǒng)拓撲可以表達為Gs=(Vs,Es,As),其中:Vs={1,2,…,n}為拓撲圖形中頂點的集合,代表每發(fā)導(dǎo)彈的位置;Es?Vs×Vs拓撲圖形中邊的集合;As=[aij]是拓撲圖形Gs的鄰接矩陣[24]。頂點i和頂點j的邊由(j,i)∈Es來表達,代表第i發(fā)導(dǎo)彈可以獲取第j發(fā)導(dǎo)彈的信息。鄰接矩陣As定義為:當(dāng)且僅當(dāng)(j,i)∈Es時,aij=1,如果(j,i)?Es則aij=0.此外,鄰居的集合定義為Ni={j∶(j,i)∈Es}.第i個頂點的自由度由di來表示,di為第i發(fā)導(dǎo)彈鄰居的個數(shù)。拓撲圖形Gs的自由度矩陣可以表達為Δ=diag{di},i∈[1,2,…,n].拓撲圖形Gs的拉普拉斯矩陣La定義為

La=Δ-As,

(5)

La代表了多彈協(xié)同制導(dǎo)系統(tǒng)中導(dǎo)彈間的信息交互關(guān)系。

根據(jù)文獻[25-27]:若多導(dǎo)彈協(xié)同制導(dǎo)拓撲的基礎(chǔ)圖是固定且無向的,當(dāng)且僅當(dāng)拓撲圖連通時,多發(fā)導(dǎo)彈可實現(xiàn)到達時間的一致;若拓撲的基礎(chǔ)圖為有向圖,當(dāng)且僅當(dāng)拓撲圖含有一個生成樹時,利用強化學(xué)習(xí)算法,多發(fā)導(dǎo)彈可實現(xiàn)到達時間的一致。

1.3 擬解決的問題

針對多導(dǎo)彈協(xié)同制導(dǎo)系統(tǒng), 需設(shè)計一個分布式協(xié)同制導(dǎo)方案,使多發(fā)導(dǎo)彈在不同初始條件下實現(xiàn)同時打擊目標。根據(jù)(2)式,若各發(fā)導(dǎo)彈的剩余飛行時間達到一致,那么多發(fā)導(dǎo)彈即可實現(xiàn)對目標的同時打擊。定義剩余飛行時間估計的一致性誤差為

(6)

即第i發(fā)導(dǎo)彈與其鄰居間估計剩余飛行時間的誤差。

因此,需要設(shè)計一個協(xié)同制導(dǎo)律來實現(xiàn)下面3個目標:

1) 所有導(dǎo)彈都要擊中目標,即脫靶量為0 m;

2) 所有導(dǎo)彈剩余飛行時間估計的一致性誤差要變?yōu)? s,實現(xiàn)同時攻擊;

3) 當(dāng)剩余飛行時間估計的一致性誤差為0 s時,各發(fā)導(dǎo)彈可利用簡單的制導(dǎo)律繼續(xù)飛行,當(dāng)有剩余飛行時間誤差時,繼續(xù)進行調(diào)整。

由于傳統(tǒng)方法在設(shè)計制導(dǎo)律時需要仔細調(diào)整制導(dǎo)律中的各個參數(shù),來實現(xiàn)期望的性能。本文將嘗試應(yīng)用強化學(xué)習(xí)技術(shù)來設(shè)計制導(dǎo)律,無需關(guān)心制導(dǎo)律結(jié)構(gòu)及參數(shù)設(shè)計,實現(xiàn)智能協(xié)同制導(dǎo)。

2 協(xié)同攻擊制導(dǎo)律設(shè)計

2.1 協(xié)同制導(dǎo)律的結(jié)構(gòu)

受文獻[25]的啟發(fā),協(xié)同制導(dǎo)律的結(jié)構(gòu)設(shè)計為

(7)

(8)

2.2 基于強化學(xué)習(xí)的協(xié)同制導(dǎo)律

如1.1節(jié)所述,剩余飛行時間的估計表達式為

(9)

其對時間的1階導(dǎo)數(shù)為

(10)

那么多彈協(xié)同制導(dǎo)系統(tǒng)剩余飛行時間一致性誤差對時間的導(dǎo)數(shù)可等效為如(11)式所示的非線性系統(tǒng):

(11)

(12)

式中:q(x(t))為脫靶量和一致性誤差的函數(shù)。

本文目標就是尋找一個狀態(tài)反饋控制器u*=Φ(x),使得非線性系統(tǒng)式的性能指標式達到最小化。求解該問題的一種常用方法就是將該最優(yōu)控制問題轉(zhuǎn)化為Hamilton-Jacobi-Bellman方程,即

(13)

式中:J*(x)為一個值函數(shù),其表達式為

(14)

若求解出Hamilton-Jacobi-Bellman方程,則最優(yōu)控制量的表達式為

(15)

然而,對于非線性系統(tǒng),得到Hamilton-Jacobi-Bellman方程的解析解是極其困難的,尤其是問題的維度比較高時[28-29]。隨著人工智能技術(shù)的發(fā)展,上述問題的性能指標函數(shù)可采用策略梯度法進行優(yōu)化[30]。

本文采用的是基于策略梯度下降的深度神經(jīng)網(wǎng)絡(luò)DDPG強化學(xué)習(xí)算法,該算法是一個不基于模型、在線、異步策略的強化學(xué)習(xí)方法。DDPG算法利用Actor-Critic神經(jīng)網(wǎng)絡(luò)來生成使長期回報最大化的最優(yōu)動作。Actor網(wǎng)絡(luò)基于當(dāng)前的觀測給出最佳動作,Critic網(wǎng)絡(luò)基于當(dāng)前的觀測和動作給出獎勵值估計。DDPG的觀測量可以為連續(xù)或離散的,而動作空間是連續(xù)的。Critic網(wǎng)絡(luò)并不需要評價所有動作來選出最佳動作,只關(guān)注當(dāng)前Actor網(wǎng)絡(luò)生成的動作。

圖2 DDPG算法的結(jié)構(gòu)Fig.2 Structure of DDPG algorithm

2.2.1 狀態(tài)空間設(shè)計

為實現(xiàn)多發(fā)導(dǎo)彈的協(xié)同打擊,各發(fā)導(dǎo)彈的脫靶量要盡量小,且每發(fā)導(dǎo)彈的攻擊時間要一致。因此,強化學(xué)習(xí)算法的狀態(tài)空間設(shè)計為

S=[r1…ri…rnξ1…ξi…ξn]T.

(16)

2.2.2 動作空間設(shè)計

動作空間定義為制導(dǎo)律(7)式中的協(xié)同控制項,即

(17)

2.2.3 獎勵函數(shù)設(shè)計

如1.3節(jié)所述,需要讓脫靶量和剩余飛行時間的誤差盡量小。當(dāng)脫靶量小于1 m時,獎勵值加10;且當(dāng)剩余飛行時間誤差小于0.02 s時,獎勵值加10.因此,獎勵函數(shù)設(shè)計為

(18)

2.2.4 行為策略設(shè)計

如圖2所示,DDPG算法中包含了4個函數(shù)估計器,即:

1) Actor網(wǎng)絡(luò)μ(S):輸入為觀測S,輸出為使長期回報最大化的動作。

2) 目標Actor網(wǎng)絡(luò)μ′(S′):為了提高優(yōu)化的穩(wěn)定性,算法基于最新的Actor網(wǎng)絡(luò)參數(shù)值周期性地更新目標Actor網(wǎng)絡(luò)。

3) Critic網(wǎng)絡(luò)Q(S,A):輸入為觀測S和動作A,輸出相應(yīng)的長期回報的期望。

4) 目標Critic網(wǎng)絡(luò)Q′(S′,A′):為了提高優(yōu)化的穩(wěn)定性,算法基于最新的Critic網(wǎng)絡(luò)參數(shù)值周期性地更新目標Critic網(wǎng)絡(luò)。

需要指出的是,μ(S)和μ′(S′)有相同的結(jié)構(gòu)和參數(shù),Q(S,A)和Q′(S,A)有相同的結(jié)構(gòu)和參數(shù)。當(dāng)訓(xùn)練結(jié)束時,訓(xùn)練好的最優(yōu)策略存儲于Actor網(wǎng)絡(luò)μ(S)中。

DDPG算法的訓(xùn)練過程中會在每個步長都更新Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò),具體算法如下:

1) 用隨機參數(shù)θQ初始化Critic網(wǎng)絡(luò)Q(S,A),并用同樣的參數(shù)初始化目標Critic網(wǎng)絡(luò)Q′(S′,A′), 即θQ=θQ′.

2) 用隨機參數(shù)θμ初始化Actor網(wǎng)絡(luò)μ(S),并用同樣的參數(shù)初始化目標Actor網(wǎng)絡(luò)μ′(S′),即θμ=θμ′.

3) 對于訓(xùn)練中的每個步長:

(1) 對于當(dāng)前的觀測S,選擇動作A=μ(S)+w,其中w為噪聲模型中的隨機噪聲。

(2) 執(zhí)行動作A.觀測獎勵R及后續(xù)的觀測S′.

(3) 在經(jīng)驗池中存儲經(jīng)驗(S,A,R,S′)。

(4) 從經(jīng)驗池中隨機取出一小批M個經(jīng)驗(Sk,Ak,Rk,S′k),k=1,2,3,…,M.

(5) 如果S′k是最終狀態(tài),則設(shè)置值函數(shù)目標yi=Ri.否則,

yi=Ri+γQ′(S′k,μ′(S′k|θμ)|θQ′)。

(19)

值函數(shù)目標是經(jīng)驗獎勵Rk和折扣未來回報的和。為了計算累計獎勵,DDPG算法首先將后續(xù)的觀測S′k從經(jīng)驗池中傳到目標Actor網(wǎng)絡(luò)來生成下一步的動作。然后算法將下一步的動作傳到目標Critic網(wǎng)絡(luò)得出累計獎勵。

(6) 通過使經(jīng)驗值損失L最小化更新Critic網(wǎng)絡(luò)參數(shù):

(20)

(7) 利用下面的采樣策略梯度使期望的折扣獎勵最大化來更新Actor網(wǎng)絡(luò)參數(shù):

(21)

(22)

(23)

式中:Gai為Critic網(wǎng)絡(luò)相對于Actor網(wǎng)絡(luò)輸出動作的梯度;Gμi為Actor網(wǎng)絡(luò)輸出動作相對于Actor網(wǎng)絡(luò)參數(shù)的梯度。本文中,采用隨機梯度下降法進行梯度更新。

(8) 基于如下目標網(wǎng)絡(luò)參數(shù)更新方法來更新Actor和Critic網(wǎng)絡(luò)參數(shù):

① 平滑:每個時間步長利用平滑因子τ來更新目標網(wǎng)絡(luò)參數(shù),即:

目標Critic網(wǎng)絡(luò)參數(shù)更新

θQ′=τθQ+(1-τ)θQ′;

(24)

目標Actor網(wǎng)絡(luò)參數(shù)更新

θμ′=τθμ+(1-τ)θμ′.

(25)

② 周期性更新:不進行平滑處理時周期性地更新目標參數(shù),即平滑因子τ=1.

③ 周期性平滑:周期性地更新目標參數(shù),并進行平滑處理。

Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)在完成訓(xùn)練后,實際在線使用時,輸入為彈目相對距離和剩余飛行時間估計的一致性誤差,輸出為2.1節(jié)(7)式中所涉及的協(xié)同控制項,從而實現(xiàn)多發(fā)導(dǎo)彈的協(xié)同制導(dǎo)。

3 仿真實驗

3.1 決策優(yōu)化

考慮交戰(zhàn)場景中有2發(fā)不同初始條件的導(dǎo)彈和一個靜止目標,決策優(yōu)化過程中,交戰(zhàn)場景的初始條件設(shè)置如表1所示。

如表1所示,導(dǎo)彈1和導(dǎo)彈2的初始位置和速度均不相同,目標垂直位置坐標隨機從1 000 m、1 500 m、2 000 m中隨機選取,這樣導(dǎo)彈初始的航向角誤差也會隨著變化,使DDPG算法不會僅僅學(xué)習(xí)一條彈道,能夠適應(yīng)更廣范圍的交戰(zhàn)初始條件。

表1 決策優(yōu)化的初始條件Tab.1 Initial conditions for policy optimation

DDPG算法訓(xùn)練過程中的Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)學(xué)習(xí)率分別設(shè)置為α1=0.000 1和α2=0.001,折算因子設(shè)置為γ=0.99.訓(xùn)練停止條件設(shè)置為訓(xùn)練次數(shù)達到915次。

訓(xùn)練過程中每次仿真的獎勵值及最近5次仿真獎勵值的平均值如圖3所示。從圖3中可以看到,隨著訓(xùn)練的進行,獎勵值波動上升,訓(xùn)練500次后,獎勵值穩(wěn)定在500左右,勵值期望也在逐漸收斂。

圖3 DDPG算法策略優(yōu)化訓(xùn)練過程Fig.3 Training progress of policy optimation of DDPG algorithm

3.2 決策測試

算法測試過程中目標初始垂直坐標取為1 000~1 500 m,以0.5 m為間隔,進行1 000次仿真,統(tǒng)計每次交戰(zhàn)的脫靶量及攻擊時間誤差,評價強化學(xué)習(xí)協(xié)同制導(dǎo)律的制導(dǎo)效果。

以目標垂直坐標為1 500 m為例,比例導(dǎo)引系數(shù)N=4,PN制導(dǎo)律、傳統(tǒng)協(xié)同比例(CPN)制導(dǎo)律[7]、強化學(xué)習(xí)協(xié)同比例導(dǎo)引(RL-CPN)制導(dǎo)律的彈道如圖4所示。由圖4可見:PN制導(dǎo)律的彈道比較平滑,但是2發(fā)導(dǎo)彈的攻擊時間分別為5.26 s和5.36 s,有0.1 s的差別,即未實現(xiàn)同時攻擊;CPN制導(dǎo)律實現(xiàn)了2發(fā)導(dǎo)彈的同時攻擊,攻擊時間均為5.35 s,但彈道轉(zhuǎn)彎次數(shù)較多,說明導(dǎo)彈在交戰(zhàn)過程中不斷調(diào)整制導(dǎo)指令來對齊剩余飛行時間;RL-CPN制導(dǎo)律為了實現(xiàn)同時打擊,相應(yīng)的彈道在制導(dǎo)初期開始進行必要的機動來對齊剩余飛行時間,轉(zhuǎn)彎機動次數(shù)較少,最終2發(fā)導(dǎo)彈均在5.35 s實現(xiàn)了對目標的同時攻擊。RL-CPN和CPN制導(dǎo)律的指令加速度如圖 5所示,可見在交戰(zhàn)結(jié)束時,制導(dǎo)指令并沒有飽和,因此導(dǎo)彈有能力精確命中目標。但本文中獎勵函數(shù)未考慮燃料消耗,因此RL-CPN制導(dǎo)律的制導(dǎo)指令幅值較大,在后續(xù)工作中需要進一步探索燃料最優(yōu)的RL-CPN制導(dǎo)律。

圖4 二維協(xié)同打擊的彈道對比Fig.4 Comparative trajectories of 2-D engagement

圖5 RL-CPN和CPN制導(dǎo)律的導(dǎo)彈指令加速度Fig.5 Commands acceleration of CPN and RL-CPN

1 000次仿真的統(tǒng)計結(jié)果如表2所示。從表2中可以看出:RL-CPN制導(dǎo)律的攻擊時間誤差平均值為0.001 s,而PN制導(dǎo)律的攻擊時間誤差為0.101 219 8 s,二者相差了兩個數(shù)量級;與CPN制導(dǎo)律相比,RL-CPN制導(dǎo)律的脫靶量和攻擊時間誤差也相對較小,也就是說,RL-CPN制導(dǎo)律的制導(dǎo)精度更高。

表2 制導(dǎo)律性能的對比Tab.2 Comparation of guidance laws

3.3 拓展交戰(zhàn)場景下的決策測試

為了進一步驗證RL-CPN制導(dǎo)律的有效性,本文一些未在訓(xùn)練中使用的數(shù)據(jù)將用來進行測試。設(shè)置目標垂直位置2 000~2 500 m,以0.5 m為間隔,進行1 000次仿真,統(tǒng)計每次交戰(zhàn)的脫靶量及攻擊時間誤差,評價RL-CPN制導(dǎo)律的制導(dǎo)效果。

仿真結(jié)果如表3所示,從中可見RL-CPN制導(dǎo)律的脫靶量依然小于PN制導(dǎo)律和CPN制導(dǎo)律的脫靶量。此外,RL-CPN制導(dǎo)律的脫靶量標準差也比PN制導(dǎo)律和CPN制導(dǎo)律的小,說明RL-CPN制導(dǎo)律的性能更加穩(wěn)定。RL-CPN制導(dǎo)律的攻擊時間誤差為0.006 239 s,依然較PN制導(dǎo)律的小一個量級。盡管RL-CPN制導(dǎo)律的攻擊時間誤差在本仿真場景中略大于CPN制導(dǎo)律,但是其脫靶量僅為CPN制導(dǎo)律的約1/3,對于同時打擊而言更具有實戰(zhàn)意義。

表3 拓展交戰(zhàn)場景進行制導(dǎo)律性能的對比Tab.3 Comparation of guidance laws in extended engagement scenarios

圖6、圖7、圖8分別為對RL-CPN制導(dǎo)律、CPN制導(dǎo)律和PN制導(dǎo)律的脫靶量進行了直方圖統(tǒng)計。由圖6、圖7、圖8可以看出:RL-CPN制導(dǎo)律脫靶量集中在0~1 m;而PN制導(dǎo)律的分布則比較均勻,出現(xiàn)較大脫靶量的次數(shù)更多;CPN制導(dǎo)律的脫靶量在3.5~4.0 m區(qū)間出現(xiàn)的頻次則更多,這也說明了RL-CPN制導(dǎo)律的制導(dǎo)精度更高。這是因為本文所考慮的是非線性交戰(zhàn)動力學(xué)模型,剩余飛行時間的估計和制導(dǎo)律的設(shè)計不再基于文獻[7]所考慮小角度假設(shè)下的線性動力學(xué)模型。強化學(xué)習(xí)算法中的神經(jīng)網(wǎng)絡(luò)理論上可以擬合任何非線性函數(shù),因此本文制導(dǎo)律可獲得較高的制導(dǎo)精度。

圖6 RL-CPN制導(dǎo)律的統(tǒng)計直方圖Fig.6 Miss distance histogram of RL-CPN

圖7 CPN制導(dǎo)律的統(tǒng)計直方圖Fig.7 Miss distance histogram of CPN

圖8 PN制導(dǎo)律的統(tǒng)計直方圖Fig.8 Miss distance histogram of PN

另外,考慮目標運動狀態(tài)的不確定性也是一項值得研究的工作。若考慮目標機動的不確定性,強化學(xué)習(xí)算法在訓(xùn)練時就要給定一些目標機動的場景,如目標做常值機動、Bang-Bang機動、正弦機動等,隨機選取機動幅值的大小和頻率來構(gòu)造訓(xùn)練環(huán)境,算法收斂后,令目標執(zhí)行一些訓(xùn)練未遇到的機動幅度大小和頻率,對算法進行測試。最后,結(jié)合仿真結(jié)果來評價考慮目標機動的不確定性時強化學(xué)習(xí)協(xié)同制導(dǎo)律的效果。

4 結(jié)論

本文設(shè)計了一種基于強化學(xué)習(xí)算法的協(xié)同制導(dǎo)律,可以實現(xiàn)多發(fā)導(dǎo)彈對目標的同時打擊。通過仿真實驗,得出主要結(jié)論如下:

1) RL-CPN制導(dǎo)律實現(xiàn)了分布式協(xié)同,不再需要提前指定某攻擊時刻,而是各發(fā)導(dǎo)彈根據(jù)剩余飛行時間誤差這一協(xié)調(diào)變量生成制導(dǎo)指令,進而實現(xiàn)剩余飛行時間的一致性,達到同時打擊的目的。利用圖論理論,各發(fā)導(dǎo)彈不需要“彈群”的全局信息,只需與其鄰居進行通訊,降低了通訊負擔(dān)。

2) RL-CPN制導(dǎo)律脫靶量較小,各發(fā)導(dǎo)彈之間的剩余飛行時間誤差較小,制導(dǎo)精度高,能夠適應(yīng)線下學(xué)習(xí)未訓(xùn)練的交戰(zhàn)場景。

3) 基于強化學(xué)習(xí)算法設(shè)計制導(dǎo)律,極大簡化了制導(dǎo)律設(shè)計過程,無需考慮控制器的結(jié)構(gòu),也免去了控制器的調(diào)參過程,縮短了制導(dǎo)律的設(shè)計周期。

4) 由于未考慮導(dǎo)彈的燃料消耗因素,RL-CPN制導(dǎo)律燃料消耗較大,在后續(xù)工作中可以進一步優(yōu)化。

本文后續(xù)工作可進一步拓展智能協(xié)同制導(dǎo)的應(yīng)用場景,考慮導(dǎo)彈速度是時變的以及導(dǎo)彈軸向速度可控的情況,以提高多彈同時攻擊的制導(dǎo)精度。此外,可將本文方法擴展為三維協(xié)同制導(dǎo),除考慮燃料消耗最優(yōu)需求外,也可考慮攻擊角度約束及避障、避撞等約束,實現(xiàn)多發(fā)導(dǎo)彈在多約束條件下的智能協(xié)同制導(dǎo)。

猜你喜歡
設(shè)計
二十四節(jié)氣在平面廣告設(shè)計中的應(yīng)用
河北畫報(2020年8期)2020-10-27 02:54:06
何為設(shè)計的守護之道?
《豐收的喜悅展示設(shè)計》
流行色(2020年1期)2020-04-28 11:16:38
基于PWM的伺服控制系統(tǒng)設(shè)計
電子制作(2019年19期)2019-11-23 08:41:36
基于89C52的32只三色LED搖搖棒設(shè)計
電子制作(2019年15期)2019-08-27 01:11:50
基于ICL8038的波形發(fā)生器仿真設(shè)計
電子制作(2019年7期)2019-04-25 13:18:16
瞞天過海——仿生設(shè)計萌到家
設(shè)計秀
海峽姐妹(2017年7期)2017-07-31 19:08:17
有種設(shè)計叫而專
Coco薇(2017年5期)2017-06-05 08:53:16
從平面設(shè)計到“設(shè)計健康”
商周刊(2017年26期)2017-04-25 08:13:04
主站蜘蛛池模板: 亚洲精品在线91| 欧美国产中文| 免费不卡在线观看av| 国产亚洲欧美在线专区| 久久五月视频| 日韩欧美中文| h网址在线观看| 日韩国产综合精选| 真实国产精品vr专区| 日韩精品一区二区三区大桥未久 | 曰韩人妻一区二区三区| 精品无码日韩国产不卡av | 尤物国产在线| 欧美午夜精品| 亚洲中文字幕在线一区播放| 九九免费观看全部免费视频| 亚洲男人的天堂网| 亚洲国产午夜精华无码福利| 国产浮力第一页永久地址| 欧美一区二区啪啪| 无码精油按摩潮喷在线播放| 波多野结衣视频网站| 亚洲无码日韩一区| 永久天堂网Av| 亚洲人成网站在线观看播放不卡| 99在线观看视频免费| 欧美亚洲综合免费精品高清在线观看| 黄色三级网站免费| 免费国产一级 片内射老| 精品国产aⅴ一区二区三区| 中文字幕亚洲精品2页| 波多野结衣中文字幕一区| 亚洲一级毛片| 中国一级毛片免费观看| 在线观看无码a∨| 亚洲浓毛av| 欧美三级不卡在线观看视频| 特级精品毛片免费观看| 天天躁狠狠躁| 在线国产三级| 91九色最新地址| 欧美成人手机在线视频| 成人国产一区二区三区| 永久毛片在线播| 久久久精品久久久久三级| 国产精品第一区| 香蕉视频在线观看www| 99re在线视频观看| 欧美日韩精品一区二区在线线| 色天堂无毒不卡| 性视频一区| 欧美日韩在线观看一区二区三区| 亚洲av无码牛牛影视在线二区| 久久国产毛片| 亚洲欧美日韩成人高清在线一区| 久久国产精品嫖妓| 99人妻碰碰碰久久久久禁片| 91麻豆精品国产高清在线| 亚洲欧美日韩综合二区三区| 国产探花在线视频| 亚洲精品少妇熟女| 波多野衣结在线精品二区| 欧美性色综合网| 欧美区一区| 囯产av无码片毛片一级| 日韩欧美国产成人| 一本一道波多野结衣一区二区| 国产真实乱子伦精品视手机观看| 国产成人午夜福利免费无码r| 日韩福利视频导航| 一本久道久综合久久鬼色| 亚洲最大情网站在线观看| 青青草原偷拍视频| 久久香蕉国产线看精品| 亚洲色图在线观看| 国产jizz| 亚洲国产中文综合专区在| 男女男精品视频| 尤物成AV人片在线观看| 中文字幕永久在线观看| P尤物久久99国产综合精品| 国产美女一级毛片|