陳燦,莫靂,鄭多,*,程子恒,林德福
1. 北京理工大學(xué) 宇航學(xué)院,北京 100081 2. 北京理工大學(xué) 無(wú)人機(jī)自主控制技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100081
隨著單體無(wú)人機(jī)技術(shù)的快速發(fā)展和成熟應(yīng)用,無(wú)人機(jī)的協(xié)同作戰(zhàn)已經(jīng)成為可能,多無(wú)人機(jī)間的協(xié)同攻防對(duì)抗逐漸成為未來(lái)空戰(zhàn)的重要模態(tài)。多無(wú)人機(jī)通過(guò)環(huán)境感知,判斷周?chē)鷳B(tài)勢(shì),依據(jù)一定的攻防策略,采取攻擊、避讓、分散、集中、協(xié)作、援助等行為,實(shí)現(xiàn)攻防對(duì)抗。多無(wú)人機(jī)間的協(xié)同攻防對(duì)抗可以描述為復(fù)雜多約束條件下的最優(yōu)決策問(wèn)題,包含追逃博弈和領(lǐng)土防御博弈兩個(gè)子問(wèn)題。在追逃博弈中,追逃雙方通過(guò)采取最優(yōu)化的策略來(lái)快速接近或遠(yuǎn)離對(duì)手,態(tài)勢(shì)變化迅速;在領(lǐng)土防御博弈中,態(tài)勢(shì)優(yōu)劣取決于入侵者、防御者和目標(biāo)三者之間的幾何關(guān)系,策略求解空間大。而結(jié)合了領(lǐng)土防御和追逃博弈的無(wú)人機(jī)攻防對(duì)抗問(wèn)題狀態(tài)空間維數(shù)高,態(tài)勢(shì)復(fù)雜多變,攻防策略多樣,導(dǎo)致求解的難度急劇增大,需要更加高效的決策算法。
追逃博弈和領(lǐng)土防御博弈是空戰(zhàn)、搜索和安防等領(lǐng)域中的核心科學(xué)問(wèn)題,一直是學(xué)者們爭(zhēng)相研究的難點(diǎn)和熱點(diǎn)。面向此類(lèi)問(wèn)題,傳統(tǒng)的研究主要在一對(duì)一條件下,依托于微分博弈理論和最優(yōu)控制理論,對(duì)追逃博弈和領(lǐng)土防御博弈的決策問(wèn)題進(jìn)行研究。其思想是將微分博弈問(wèn)題的求解轉(zhuǎn)化為變分問(wèn)題[1-2],進(jìn)而通過(guò)求解哈密頓-雅克比方程,求得最優(yōu)策略的解析解。早在20世紀(jì)60年代,Isaacs[1]就從數(shù)學(xué)的角度分析了追逃博弈和領(lǐng)土防御博弈等雙人零和博弈問(wèn)題的特性,提出了最優(yōu)策略的解析解法。文獻(xiàn)[3]基于變分學(xué)研究了導(dǎo)彈的制導(dǎo)問(wèn)題,推導(dǎo)得比例導(dǎo)引律。文獻(xiàn)[4]則基于極大極小值原理提出了一種哈密頓-雅克比方程的廣義求解方法,研究了一對(duì)一的追逃博弈問(wèn)題。攻防對(duì)抗最優(yōu)解的解析解通常存在求解難度大,甚至無(wú)解的問(wèn)題。而數(shù)值方法可以利用計(jì)算機(jī)的強(qiáng)大計(jì)算能力,迭代求解最優(yōu)策略。例如,有學(xué)者將牛頓法[5]和梯度法[6]應(yīng)用于微分對(duì)策數(shù)值解的求解。文獻(xiàn)[7]則采用自適應(yīng)動(dòng)態(tài)規(guī)劃算法在線求解哈密頓-雅克比方程。
考慮攻防雙方機(jī)動(dòng)能力之間的差異,低機(jī)動(dòng)能力的一方需要通過(guò)增加數(shù)量來(lái)彌補(bǔ)個(gè)體能力差異。已經(jīng)有文獻(xiàn)研究了多個(gè)追蹤者和單個(gè)逃逸者的追逃博弈問(wèn)題,以及多個(gè)防御者和單個(gè)入侵者的領(lǐng)土防御博弈問(wèn)題。在多對(duì)一的博弈中,基于微分博弈理論和最優(yōu)控制理論的方法一般通過(guò)一些規(guī)則和假設(shè),建立微分博弈模型以求解最優(yōu)策略。如文獻(xiàn)[8]基于導(dǎo)彈的命中順序的假設(shè)研究了兩個(gè)導(dǎo)彈攔截單個(gè)目標(biāo)的最優(yōu)制導(dǎo)律。文獻(xiàn)[9]則基于兩個(gè)追蹤者與單個(gè)逃逸者的幾何關(guān)系,通過(guò)坐標(biāo)轉(zhuǎn)換建立微分博弈模型,求解最優(yōu)協(xié)同追蹤策略。
當(dāng)無(wú)人機(jī)數(shù)量增多時(shí),微分博弈的建模過(guò)程趨于復(fù)雜,所需的規(guī)則或假設(shè)增多,求解最優(yōu)的協(xié)同對(duì)抗策略的難度將顯著增加。針對(duì)該問(wèn)題,現(xiàn)有文獻(xiàn)提出了不依賴微分博弈模型的決策方法,包括基于仿生學(xué)[10-12]和幾何學(xué)[13-14]的決策方法、基于模糊控制理論的決策方法[15]以及基于強(qiáng)化學(xué)習(xí)的決策方法[16-19]等。基于仿生學(xué)和幾何學(xué)的決策方法受到自然界中捕獵和覓食現(xiàn)象的啟發(fā),提出基于攻防雙方幾何關(guān)系的變化,設(shè)計(jì)控制策略。如Isler等[10]將隨機(jī)策略與獅子的追捕策略相結(jié)合,研究了兩個(gè)追蹤者對(duì)一個(gè)高速運(yùn)動(dòng)的逃逸者的協(xié)同追捕;Yamaguchi[11]研究了多對(duì)一的追逃博弈,模擬捕獵行為提出了一種帶反饋的分布式控制器;文獻(xiàn)[12]研究了多追蹤者具有轉(zhuǎn)彎速率約束時(shí),多對(duì)一的追逃博弈,提出了一種受魚(yú)類(lèi)覓食行為啟發(fā)的協(xié)同追捕策略;文獻(xiàn)[13]研究了多對(duì)一的平面追逃問(wèn)題,提出了基于泰森多邊形的協(xié)同追捕策略;文獻(xiàn)[14]則提出了基于阿波羅圓的多對(duì)一協(xié)同追捕策略。基于模糊控制理論[15]的方法依據(jù)專家知識(shí)和對(duì)抗規(guī)則離散化博弈狀態(tài)和行為策略,簡(jiǎn)化博弈模型。如文獻(xiàn)[15]利用模糊規(guī)則離散化多無(wú)人機(jī)空戰(zhàn)問(wèn)題,并采用粒子群算法求解納什均衡策略。而在強(qiáng)化學(xué)習(xí)[16,18]和模糊控制與強(qiáng)化學(xué)習(xí)相結(jié)合[17,19-20]的方法中無(wú)需微分博弈模型,智能體可以通過(guò)與環(huán)境的交互、學(xué)習(xí)和優(yōu)化對(duì)抗策略。如文獻(xiàn)[16]提出將Q學(xué)習(xí)算法與基于運(yùn)動(dòng)模式的反應(yīng)式控制結(jié)構(gòu)相結(jié)合,研究了在有障礙的環(huán)境中,多個(gè)追蹤者對(duì)單個(gè)有速度優(yōu)勢(shì)的逃逸者的協(xié)同追捕;文獻(xiàn)[17]提出了基于模糊Actor-Critic算法的分布式控制器用于研究多追蹤者單逃逸者的追逃博弈問(wèn)題;加拿大卡爾頓大學(xué)的團(tuán)隊(duì)[18-19]研究了Minimax-Q[21]算法、狼爬山策略學(xué)習(xí)(Wolf Policy Hill Climbing, Wolf-PHC)[22]算法、模糊Q學(xué)習(xí)[20]和模糊Actor-Critic算法[17]在一對(duì)一和二對(duì)一的領(lǐng)土防御博弈中的應(yīng)用。
隨著無(wú)人機(jī)協(xié)同技術(shù)的發(fā)展和應(yīng)用,未來(lái)戰(zhàn)爭(zhēng)中無(wú)人機(jī)的攻防對(duì)抗將以復(fù)雜環(huán)境下雙方能力非對(duì)稱的多對(duì)多博弈的形式出現(xiàn),現(xiàn)有的針對(duì)一對(duì)一、多對(duì)一博弈問(wèn)題的研究方法將難以適用。
本文面向未來(lái)空中作戰(zhàn)任務(wù)需求,研究了存在障礙區(qū)和隱蔽區(qū)約束的復(fù)雜環(huán)境下,高機(jī)動(dòng)能力的進(jìn)攻無(wú)人機(jī)與低機(jī)動(dòng)能力的防御無(wú)人機(jī)之間的非對(duì)稱條件下多對(duì)多協(xié)同攻防對(duì)抗問(wèn)題。由于約束條件多、個(gè)體-群體交叉耦合以及雙方態(tài)勢(shì)交替演化、復(fù)雜多變等因素,難以求得無(wú)人機(jī)協(xié)同攻防策略的解析解。因此,本文提出基于多智能體強(qiáng)化學(xué)習(xí)算法[23],通過(guò)無(wú)人機(jī)與環(huán)境的不斷交互,使無(wú)人機(jī)自主地學(xué)習(xí)和優(yōu)化協(xié)同對(duì)抗策略。為了兼顧算法收斂性能與決策效率,文中將多智能體自主學(xué)習(xí)特性與神經(jīng)網(wǎng)絡(luò)的強(qiáng)大擬合能力相結(jié)合,利用輸入全局信息的集中式評(píng)判來(lái)提升無(wú)人機(jī)學(xué)習(xí)能力和保證訓(xùn)練收斂,利用輸入局部感知信息的分布式執(zhí)行滿足在線實(shí)時(shí)決策。在此基礎(chǔ)上,建立高擬真的對(duì)抗環(huán)境,基于相同的決策架構(gòu),通過(guò)構(gòu)造不同的獎(jiǎng)懲機(jī)制,充分考慮多維環(huán)境變量進(jìn)行攻防雙方對(duì)抗訓(xùn)練,以提升分布式?jīng)Q策算法的泛化能力,賦予無(wú)人機(jī)在多約束、高動(dòng)態(tài)和強(qiáng)對(duì)抗復(fù)雜環(huán)境的強(qiáng)自適應(yīng)能力。
多無(wú)人機(jī)協(xié)同攻防對(duì)抗問(wèn)題可描述為有限任務(wù)區(qū)域內(nèi),多無(wú)人機(jī)圍繞特定目標(biāo)的攻防博弈。無(wú)人機(jī)通過(guò)機(jī)載導(dǎo)航裝置可以測(cè)量自身的位置和速度,通過(guò)機(jī)載探測(cè)雷達(dá)可以感知與其他無(wú)人機(jī)、障礙物和隱蔽區(qū)的相對(duì)位置。如圖1所示,環(huán)境中包括任務(wù)目標(biāo)、若干障礙物和隱蔽區(qū),當(dāng)無(wú)人機(jī)進(jìn)入隱蔽區(qū)將無(wú)法被感知到其位置。其中,(xi,yi)為第i架無(wú)人機(jī)的位置坐標(biāo),(xT,yT)為任務(wù)目標(biāo)中心點(diǎn)的位置坐標(biāo),(xl,yl)為障礙物中心點(diǎn)的位置坐標(biāo),(xs,ys)為隱蔽區(qū)中心點(diǎn)的位置坐標(biāo)。攻防對(duì)抗包含兩個(gè)博弈子問(wèn)題:
1) 目標(biāo)攻防(領(lǐng)土防御博弈)
進(jìn)攻無(wú)人機(jī)攻擊目標(biāo),而防御無(wú)人機(jī)負(fù)責(zé)保護(hù)目標(biāo),攔截進(jìn)攻無(wú)人機(jī)。
2) 追逃博弈
在限定區(qū)域內(nèi),防御無(wú)人機(jī)追捕進(jìn)攻無(wú)人機(jī),進(jìn)攻無(wú)人機(jī)躲避防御無(wú)人機(jī)的追捕。
本文一體化考慮兩個(gè)博弈子問(wèn)題定義了攻防雙方的獎(jiǎng)勵(lì)反饋,令每個(gè)防御無(wú)人機(jī)在捕獲一個(gè)進(jìn)攻無(wú)人機(jī)后獲得獎(jiǎng)勵(lì),在目標(biāo)被入侵后獲得懲罰;而每個(gè)進(jìn)攻無(wú)人機(jī)被捕獲后獲得懲罰,在入侵目標(biāo)后獲得獎(jiǎng)勵(lì)。
(1)
(2)
式中:Rr和Rb分別為防御無(wú)人機(jī)和進(jìn)攻無(wú)人機(jī)的個(gè)體獎(jiǎng)勵(lì)。進(jìn)攻無(wú)人機(jī)和防御無(wú)人機(jī)的博弈狀態(tài)近似使用對(duì)抗雙方無(wú)人機(jī)之間的歐式距離和進(jìn)攻無(wú)人機(jī)與目標(biāo)之間的歐式距離表示。進(jìn)攻無(wú)人機(jī)與防御無(wú)人機(jī)的歐式距離可表示為
(3)
進(jìn)攻無(wú)人機(jī)與目標(biāo)的歐式距離表示為
(4)
式中:pr為防御無(wú)人機(jī)的位置;pb為進(jìn)攻無(wú)人機(jī)的位置;pT為目標(biāo)中心的位置。防御無(wú)人機(jī)成功攔截進(jìn)攻無(wú)人機(jī)需滿足的條件為二者的歐式距離

圖1 多無(wú)人機(jī)攻防對(duì)抗問(wèn)題Fig.1 Multi-UAV attack-defense game
小于防御無(wú)人機(jī)捕獲半徑:
(5)
同理,進(jìn)攻無(wú)人機(jī)成功入侵目標(biāo)需滿足的條件為
(6)
式中:er為防御無(wú)人機(jī)的捕獲半徑;eb為進(jìn)攻無(wú)人機(jī)的攻擊半徑;eT為目標(biāo)區(qū)域半徑。
本文以多旋翼無(wú)人機(jī)為研究對(duì)象,其個(gè)體無(wú)人機(jī)的運(yùn)動(dòng)學(xué)模型可以簡(jiǎn)化為

(7)
式中,p為無(wú)人機(jī)的位置;v為速度矢量;a為加速度控制量;λ為無(wú)人機(jī)的阻力加速度。本文考慮多旋翼無(wú)人機(jī)的氣動(dòng)特性和動(dòng)力系統(tǒng)的限制,確定了無(wú)人機(jī)的最大飛行速度vmax和最大加速度amax。其中,攻防雙方機(jī)動(dòng)能力不同,即非對(duì)稱機(jī)動(dòng)能力,故:
1) 進(jìn)攻無(wú)人機(jī)具有速度快、機(jī)動(dòng)性強(qiáng)的優(yōu)勢(shì),其最大速度為vmax=15 m/s,最大加速度為amax=4.5 m/s2。
2) 防御無(wú)人機(jī)的速度較慢,機(jī)動(dòng)性較弱,其最大速度為vmax=10 m/s,最大加速度為amax=3 m/s2。
受多智能體強(qiáng)化學(xué)習(xí)理論的啟發(fā),本文將單個(gè)無(wú)人機(jī)描述為具有感知、判斷和執(zhí)行能力的智能體,多無(wú)人機(jī)系統(tǒng)描述為一個(gè)多智能體系統(tǒng),無(wú)人機(jī)多智能體系統(tǒng)通過(guò)與環(huán)境的不斷交互,學(xué)習(xí)協(xié)同攻擊和防御策略,涌現(xiàn)協(xié)同智能。
在單智能體強(qiáng)化學(xué)習(xí)中,智能體通過(guò)與環(huán)境的交互學(xué)習(xí)行為策略。如圖2所示,多無(wú)人機(jī)強(qiáng)化學(xué)習(xí)在此基礎(chǔ)上,使無(wú)人機(jī)在訓(xùn)練時(shí)不僅與環(huán)境交互,還與其他無(wú)人機(jī)交互,從而學(xué)習(xí)協(xié)同對(duì)抗策略。

圖2 多無(wú)人機(jī)強(qiáng)化學(xué)習(xí)基本框架Fig.2 Multi-UAV reinforcement learning framework
多無(wú)人機(jī)強(qiáng)化學(xué)習(xí)的過(guò)程屬于部分可觀測(cè)馬爾科夫決策過(guò)程(POMDP)。POMDP可以通過(guò)
1)n為無(wú)人機(jī)的個(gè)數(shù)。


4) 所有無(wú)人機(jī)的運(yùn)動(dòng)學(xué)共同構(gòu)成多無(wú)人機(jī)系統(tǒng)的狀態(tài)轉(zhuǎn)移函數(shù)T。



(8)
式中:γ為折扣因子,代表某一時(shí)刻獎(jiǎng)勵(lì)的權(quán)重。本文利用由累積總回報(bào)定義的狀態(tài)-動(dòng)作值函數(shù)來(lái)評(píng)估每個(gè)無(wú)人機(jī)的行為策略:
(9)


圖3 強(qiáng)化學(xué)習(xí)過(guò)程Fig.3 Reinforcement learning process
僅依賴于局部信息的分布式執(zhí)行,可以增強(qiáng)無(wú)人機(jī)決策的實(shí)時(shí)性,降低其對(duì)通信的依賴,提升系統(tǒng)的魯棒性。然而,若訓(xùn)練時(shí)僅使用局部信息會(huì)導(dǎo)致策略梯度估計(jì)的高方差,且會(huì)由于缺少對(duì)整體態(tài)勢(shì)的評(píng)估,使無(wú)人機(jī)難以學(xué)習(xí)高效的協(xié)同對(duì)抗策略。因此本文提出集中式評(píng)判和分布式執(zhí)行的算法架構(gòu),使每個(gè)無(wú)人機(jī)在訓(xùn)練時(shí)使用所有無(wú)人機(jī)的觀測(cè)和行為信息,而在執(zhí)行時(shí)僅使用無(wú)人機(jī)自身的觀測(cè)信息,這樣做可以降低梯度估計(jì)的方差,保證算法穩(wěn)定收斂,同時(shí)兼顧無(wú)人機(jī)決策的效率與性能。
本文提出的算法受到執(zhí)行-評(píng)價(jià)(Actor-Critic)算法的啟發(fā),其可分為評(píng)判模塊和執(zhí)行模塊兩部分:執(zhí)行模塊表示無(wú)人機(jī)的行為策略,輸入為無(wú)人機(jī)自身的觀測(cè)信息;評(píng)判模塊表示無(wú)人機(jī)的集中式狀態(tài)-動(dòng)作值函數(shù),輸入為多無(wú)人機(jī)系統(tǒng)的全局信息。本文在同一個(gè)多無(wú)人機(jī)系統(tǒng)中將攻防雙方無(wú)人機(jī)一體化考慮,雙方基于各自的任務(wù)目的使用不同的獎(jiǎng)懲機(jī)制,因此每個(gè)無(wú)人機(jī)都獨(dú)立地訓(xùn)練一個(gè)集中式的狀態(tài)-動(dòng)作值函數(shù),從而構(gòu)造一種多無(wú)人機(jī)的集中式評(píng)判-分布式執(zhí)行決策算法。算法基本架構(gòu)如圖4所示,每個(gè)無(wú)人機(jī)包含一個(gè)對(duì)抗策略π和評(píng)判模塊Q,在執(zhí)行時(shí)僅使用π依據(jù)感知信息輸出動(dòng)作,而在訓(xùn)練中則利用Q對(duì)策略進(jìn)行評(píng)價(jià)并引導(dǎo)策略優(yōu)化。
將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合,并借鑒深度Q學(xué)習(xí)(Deep Q-learning Network, DQN)[24]算法的思想,利用神經(jīng)網(wǎng)絡(luò)提升無(wú)人機(jī)對(duì)攻防態(tài)勢(shì)的預(yù)測(cè)能力[25]和復(fù)雜情況下的決策能力。通過(guò)引入目標(biāo)神經(jīng)網(wǎng)絡(luò)和經(jīng)驗(yàn)回放機(jī)制,改善神經(jīng)網(wǎng)絡(luò)訓(xùn)練難以穩(wěn)定收斂的問(wèn)題。對(duì)于第i架無(wú)人機(jī),其學(xué)習(xí)算法的組成及訓(xùn)練流程如圖5所示。無(wú)人機(jī)的執(zhí)行模塊依據(jù)在訓(xùn)練環(huán)境中T時(shí)刻的觀測(cè)來(lái)執(zhí)行決策,將訓(xùn)練環(huán)境返回的狀態(tài)、行為、獎(jiǎng)勵(lì)等信息存入到經(jīng)驗(yàn)存儲(chǔ)單元中。評(píng)判模塊和執(zhí)行模塊均包含主神經(jīng)網(wǎng)絡(luò)和目標(biāo)神經(jīng)網(wǎng)絡(luò),其訓(xùn)練數(shù)據(jù)來(lái)自對(duì)經(jīng)驗(yàn)存儲(chǔ)單元的隨機(jī)采樣,即經(jīng)驗(yàn)回放。主神經(jīng)網(wǎng)絡(luò)的參數(shù)通過(guò)優(yōu)化函數(shù)模塊更新,而目標(biāo)神經(jīng)網(wǎng)絡(luò)的參數(shù)通過(guò)復(fù)制主神經(jīng)網(wǎng)絡(luò)的參數(shù)獲得,且復(fù)制滯后于主神經(jīng)網(wǎng)絡(luò)的參數(shù)更新。當(dāng)訓(xùn)練收斂后,即完成策略優(yōu)化,每個(gè)無(wú)人機(jī)可以僅通過(guò)將自身的感知信息輸入策略神經(jīng)網(wǎng)絡(luò)來(lái)輸出動(dòng)作指令,進(jìn)行決策。

圖4 多無(wú)人機(jī)執(zhí)行-評(píng)判算法框架Fig.4 Multi-UAV actor-critic algorithm framework

圖5 無(wú)人機(jī)i攻防決策學(xué)習(xí)算法Fig.5 Decision making and training algorithm of UAVi
2.2.1 評(píng)判模塊:集中式值函數(shù)

(10)
L(ω)=Ext,at,rt,xt+1[(Qi(xt,at|ωM)-yi)2]
(11)
式中:t表示樣本數(shù)據(jù)的時(shí)間戳;ωT為目標(biāo)神經(jīng)網(wǎng)絡(luò)遲滯更新的權(quán)重參數(shù)矩陣;ωM為主神級(jí)網(wǎng)絡(luò)實(shí)時(shí)更新的權(quán)重參數(shù)矩陣。
為了擬合值函數(shù),建立含有4層全連接層的神經(jīng)網(wǎng)絡(luò),如圖6所示。通過(guò)隨機(jī)梯度下降優(yōu)化式(11) 中的損失函數(shù)來(lái)更新網(wǎng)絡(luò)參數(shù)。神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的具體參數(shù)如表1所示。

圖6 值函數(shù)神經(jīng)網(wǎng)絡(luò)Fig.6 Neural network of value function
2.2.2 執(zhí)行模塊


表1 值函數(shù)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)Table 1 Neural network of value function structure parameters
J(θi)=Ex~pπ,a~πθ[Gi]
(12)
根據(jù)之前定義的狀態(tài)-動(dòng)作值函數(shù),對(duì)于隨機(jī)性策略,目標(biāo)函數(shù)的梯度[26]為
(13)


根據(jù)Silver在確定性策略梯度(Deterministic Policy Gradient, DPG)算法的論文[26]中給出的確定性策略的存在性證明,在使用經(jīng)驗(yàn)回放機(jī)制時(shí),目標(biāo)函數(shù)的策略梯度如式(15)所示:
(14)
(15)
式中:D表示無(wú)人機(jī)的經(jīng)驗(yàn)存儲(chǔ)單元。
目標(biāo)函數(shù)J(θi)是狀態(tài)-動(dòng)作值函數(shù)的無(wú)偏估計(jì)量,本文直接使用評(píng)判模塊的主神經(jīng)網(wǎng)絡(luò)輸出的狀態(tài)-動(dòng)作值函數(shù)替代J(θi),定義策略神經(jīng)網(wǎng)絡(luò)的損失函數(shù)L(θi), 根據(jù)策略梯度可計(jì)算損失函數(shù)的梯度,從而優(yōu)化策略參數(shù)。
(16)
式中:ki為第i架無(wú)人機(jī)的動(dòng)作空間大小;第2項(xiàng)是各個(gè)無(wú)人機(jī)動(dòng)作空間的正則化,用于降低攻防兩類(lèi)無(wú)人機(jī)的動(dòng)作空間大小差異對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的影響;c為正則化系數(shù)。
探索和利用是強(qiáng)化學(xué)習(xí)的主要矛盾之一,探索是嘗試不同的行為從而收集更多的數(shù)據(jù)樣本來(lái)進(jìn)行學(xué)習(xí),利用則是指基于當(dāng)前信息做出最優(yōu)決策。為提高學(xué)習(xí)算法的探索能力,使用高斯分布在無(wú)人機(jī)的動(dòng)作和估計(jì)其他無(wú)人機(jī)的動(dòng)作中加入隨機(jī)性。因此,策略神經(jīng)網(wǎng)絡(luò)和目標(biāo)策略神經(jīng)網(wǎng)絡(luò)的輸出分為兩部分:具體的動(dòng)作值(平均值μ)和方差σ,執(zhí)行模塊的神經(jīng)網(wǎng)絡(luò)輸出的動(dòng)作值為
(17)
式中:N(0,1)為標(biāo)準(zhǔn)正態(tài)分布。

圖7 策略神經(jīng)網(wǎng)絡(luò)Fig.7 Policy neural network
如果在攻防對(duì)抗的訓(xùn)練中,無(wú)人機(jī)只有最終回報(bào),會(huì)使得訓(xùn)練過(guò)程缺乏環(huán)境反饋引導(dǎo),導(dǎo)致策略的學(xué)習(xí)過(guò)程緩慢。因此,此處設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)提供額外的回報(bào)來(lái)提高學(xué)習(xí)效率。下面分別對(duì)進(jìn)攻和防御無(wú)人機(jī)的獎(jiǎng)勵(lì)函數(shù)進(jìn)行描述:
1) 進(jìn)攻無(wú)人機(jī)的獎(jiǎng)勵(lì)函數(shù)包括基于目標(biāo)距離的獎(jiǎng)勵(lì)、被捕獲懲罰和越界懲罰3部分,可描述為
Rb=Rd+Pb+Pc
(18)
獎(jiǎng)勵(lì)Rd表示為
(19)

懲罰函數(shù)表示為
(20)
(21)
式中:τ為二維正方形任務(wù)區(qū)域的邊界值;R為場(chǎng)景內(nèi)防御無(wú)人機(jī)的集合。
2) 防御無(wú)人機(jī)的獎(jiǎng)勵(lì)函數(shù)包括防御無(wú)人機(jī)與距離最近的進(jìn)攻無(wú)人機(jī)的距離,以及目標(biāo)被攻擊的懲罰,表示為
(22)

本文將多無(wú)人機(jī)協(xié)同攻防對(duì)抗問(wèn)題離散化,取定仿真步長(zhǎng)1 s,任務(wù)區(qū)域?yàn)?00 m×200 m的正方形區(qū)域,訓(xùn)練中多無(wú)人機(jī)協(xié)同攻防場(chǎng)景的參數(shù)見(jiàn)表2,其中障礙區(qū)和隱蔽區(qū)分別為半徑15 m和半徑25 m的圓域。
多無(wú)人機(jī)強(qiáng)化學(xué)習(xí)算法的訓(xùn)練中,取優(yōu)化函數(shù)模塊的學(xué)習(xí)率α=0.01,折扣因子γ=0.95,單回合最大步數(shù)為50,單次采樣樣本量為1 024組,采樣周期為100步,正則化系數(shù)c=0.001。

表2 仿真環(huán)境設(shè)置Table 2 Parameters of simulation environment
通過(guò)所有無(wú)人機(jī)的平均單回合總回報(bào)評(píng)估算法,每隔1 000個(gè)回合計(jì)算一次平均總回報(bào),一個(gè)回合即一次攻防對(duì)抗。訓(xùn)練過(guò)程中所有無(wú)人機(jī)、防御無(wú)人機(jī)和進(jìn)攻無(wú)人機(jī)的平均每回合總回報(bào)曲線如圖8所示,由圖可知整個(gè)多無(wú)人機(jī)系統(tǒng)中,攻防雙方先后學(xué)習(xí)到了有效的防御策略和進(jìn)攻策略。約35 000回合后,訓(xùn)練開(kāi)始收斂。
在訓(xùn)練20 000回合后測(cè)試了訓(xùn)練效果,測(cè)試場(chǎng)景設(shè)置與訓(xùn)練場(chǎng)景設(shè)置相同。圖9分別展示了無(wú)人機(jī)在20 000回合的訓(xùn)練后學(xué)習(xí)到的進(jìn)攻策略和防御策略。圖中,曲線表示無(wú)人機(jī)的運(yùn)動(dòng)軌跡,箭頭表示無(wú)人機(jī)每一時(shí)刻的速度矢量。分析圖9可知,防御無(wú)人機(jī)和進(jìn)攻無(wú)人機(jī)可以完成進(jìn)攻或防御任務(wù),但是完成效率較低,協(xié)同對(duì)抗策略不完善。

圖8 學(xué)習(xí)過(guò)程Fig.8 Learning process


圖9 訓(xùn)練測(cè)試結(jié)果Fig.9 Test result during training
首先對(duì)攻防雙方采用集中評(píng)判-分布執(zhí)行算法結(jié)構(gòu)的兩組仿真算例進(jìn)行仿真,分別體現(xiàn)協(xié)同進(jìn)攻策略和協(xié)同防御策略。
1) 協(xié)同進(jìn)攻


圖10 無(wú)人機(jī)協(xié)同進(jìn)攻的功防軌跡和態(tài)勢(shì)演化Fig.10 Trajectory and situation evolution of UAVs cooperative attack
由圖10可知,對(duì)抗開(kāi)始后,防御無(wú)人機(jī)1和防御無(wú)人機(jī)2共同追蹤進(jìn)攻無(wú)人機(jī)1和進(jìn)攻無(wú)人機(jī)2至右上角區(qū)域,形成了協(xié)同追捕的態(tài)勢(shì)。之后,進(jìn)攻無(wú)人機(jī)2采取“分散”的策略,向與之前相反的逃逸方向快速機(jī)動(dòng)。最后,進(jìn)攻無(wú)人機(jī)2利用速度和加速度的優(yōu)勢(shì)從防御無(wú)人機(jī)追捕的空隙中突防,成功入侵目標(biāo),測(cè)試結(jié)果體現(xiàn)了訓(xùn)練后進(jìn)攻無(wú)人機(jī)的協(xié)同智能。再分析圖11可知,進(jìn)攻無(wú)人機(jī)和防御無(wú)人機(jī)均滿足各自最大速度和最大加速度約束條件,進(jìn)攻無(wú)人機(jī)充分利用自身的機(jī)動(dòng)能力優(yōu)勢(shì)突防。
2) 協(xié)同防御
分析圖12可知,對(duì)抗開(kāi)始后的第1階段,進(jìn)攻無(wú)人機(jī)向一側(cè)運(yùn)動(dòng),防御無(wú)人機(jī)1和2開(kāi)始追蹤進(jìn)攻無(wú)人機(jī),而防御無(wú)人機(jī)3低速運(yùn)動(dòng)。在第2階段,進(jìn)攻無(wú)人機(jī)做快速轉(zhuǎn)彎?rùn)C(jī)動(dòng),進(jìn)攻無(wú)人機(jī)1向相反方向運(yùn)動(dòng),無(wú)人機(jī)2向下方運(yùn)動(dòng)。第3階段,防御無(wú)人機(jī)1和2繼續(xù)追蹤進(jìn)攻無(wú)人機(jī)1,而防御無(wú)人機(jī)3預(yù)判了進(jìn)攻無(wú)人機(jī)2的行為,成功將其攔截。最后,防御無(wú)人機(jī)1和2追蹤進(jìn)攻無(wú)人機(jī)1至任務(wù)區(qū)域右上角,并形成了“上下夾擊”的態(tài)勢(shì),進(jìn)攻無(wú)人機(jī)均被成功捕獲。測(cè)試結(jié)果體現(xiàn)了訓(xùn)練后防御無(wú)人機(jī)的協(xié)同智能。結(jié)合圖13分析可知,在進(jìn)攻和防御無(wú)人機(jī)均滿足各自最大速度和最大加速度約束的條件下,防御無(wú)人機(jī)通過(guò)協(xié)同策略彌補(bǔ)了低機(jī)動(dòng)能力的劣勢(shì)。


圖11 無(wú)人機(jī)速度和加速度曲線(協(xié)同進(jìn)攻)Fig.11 Velocity and acceleration of UAVs (cooperative attack)


圖12 無(wú)人機(jī)協(xié)同防御的軌跡和態(tài)勢(shì)演化Fig.12 Trajectories and situation evolution of UAV cooperative defense
為了測(cè)試研究提出的無(wú)人機(jī)協(xié)同對(duì)抗算法性能,將本文提出的利用全局信息集中評(píng)判(即集中評(píng)判)與僅依賴個(gè)體無(wú)人機(jī)觀測(cè)信息和動(dòng)作信息評(píng)判(即局部評(píng)判)訓(xùn)練得到的策略神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對(duì)抗。經(jīng)過(guò)1 000回合對(duì)抗仿真,統(tǒng)計(jì)結(jié)果如表3所示。其中,成功率為無(wú)人機(jī)達(dá)成目標(biāo)的回合數(shù)所占比例,限時(shí)未分勝負(fù)率表示限定時(shí)間內(nèi)不分勝負(fù)的回合數(shù)所占比例。


圖13 無(wú)人機(jī)速度和加速度曲線(協(xié)同防御)Fig.13 Velocity and acceleration of UAVs (cooperative defense)

表3 1 000回合攻防對(duì)抗仿真結(jié)果統(tǒng)計(jì)
根據(jù)表3可知,當(dāng)攻防雙方均采用本文提出的集中評(píng)判算法結(jié)構(gòu)訓(xùn)練個(gè)體無(wú)人機(jī)時(shí),攻防成功率差距較小。而當(dāng)攻防雙方,一方采用集中評(píng)判算法結(jié)構(gòu),另一方采用局部信息評(píng)判算法結(jié)構(gòu)訓(xùn)練個(gè)體無(wú)人機(jī)時(shí),集中評(píng)判結(jié)構(gòu)的成功率明顯高于局部信息評(píng)判結(jié)構(gòu)的成功率,成功率相差達(dá)到2倍以上。因此,相比于僅依賴局部信息訓(xùn)練的局部評(píng)判算法結(jié)構(gòu),本文提出的集中評(píng)判-分布執(zhí)行算法結(jié)構(gòu)可令無(wú)人機(jī)評(píng)判模塊在訓(xùn)練時(shí)評(píng)估策略對(duì)攻防雙方整體態(tài)勢(shì)的影響,使無(wú)人機(jī)可以預(yù)測(cè)整體態(tài)勢(shì)的變化,從而獲得更高效的協(xié)同對(duì)抗策略。
本文針對(duì)有限空域內(nèi)多旋翼無(wú)人機(jī)的協(xié)同攻防對(duì)抗問(wèn)題,考慮對(duì)抗雙方不同的機(jī)動(dòng)能力約束,提出了一種基于集中式評(píng)判訓(xùn)練和分布式執(zhí)行的多無(wú)人機(jī)強(qiáng)化學(xué)習(xí)算法,兼顧學(xué)習(xí)速度與執(zhí)行效率,賦予無(wú)人機(jī)自學(xué)習(xí)和進(jìn)化的協(xié)同對(duì)抗決策能力,主要結(jié)論如下:
1) 集中式評(píng)判和分布式執(zhí)行的算法架構(gòu)能夠保證學(xué)習(xí)算法訓(xùn)練的快速穩(wěn)定收斂,文中提出的多無(wú)人機(jī)強(qiáng)化學(xué)習(xí)算法賦予無(wú)人機(jī)在與環(huán)境不斷交互中的自學(xué)習(xí)和進(jìn)化能力。
2) 集中式評(píng)判和分布式執(zhí)行的算法架構(gòu)使無(wú)人機(jī)能通過(guò)集中式評(píng)判學(xué)習(xí)高效率的協(xié)同攻防策略,同時(shí)實(shí)現(xiàn)了多無(wú)人機(jī)的分布式?jīng)Q策,使無(wú)人機(jī)能夠僅依靠個(gè)體局部感知信息,實(shí)現(xiàn)多對(duì)多協(xié)同攻防對(duì)抗,涌現(xiàn)群體智能。
3) 高動(dòng)態(tài)對(duì)抗仿真算例表明,研究提出的多無(wú)人機(jī)強(qiáng)化學(xué)習(xí)算法在攻防過(guò)程中能夠適時(shí)地避障、躲藏,增加無(wú)人機(jī)復(fù)雜環(huán)境的動(dòng)態(tài)適應(yīng)能力。低機(jī)動(dòng)能力無(wú)人機(jī)通過(guò)彼此協(xié)作,可以彌補(bǔ)機(jī)動(dòng)能力劣勢(shì),實(shí)現(xiàn)“以智勝?gòu)?qiáng)”。
4) 文中提出的集中式評(píng)判和分布式執(zhí)行多無(wú)人機(jī)強(qiáng)化學(xué)習(xí)算法兼顧分布式?jīng)Q策的要求與策略性能,賦予無(wú)人機(jī)高效的學(xué)習(xí)能力和協(xié)同協(xié)作能力,為復(fù)雜環(huán)境下空中多無(wú)人機(jī)協(xié)同攻防推演和決策提供了一種智能化的方法,亦為空中無(wú)人系統(tǒng)對(duì)抗研究提供了一種新思路。