999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LSTM-PPO算法的無人作戰(zhàn)飛機近距空戰(zhàn)機動決策

2022-07-13 06:04:30丁達理譚目來呂丞輝
空軍工程大學學報 2022年3期
關鍵詞:策略實驗

丁 維, 王 淵, 丁達理, 謝 磊, 周 歡, 譚目來, 呂丞輝

(空軍工程大學航空工程學院,西安,710038)

隨著無人作戰(zhàn)飛機(unmanned combat aerial vehicles,UCAV)的自主化、智能化水平不斷提高,由其自主完成空戰(zhàn)任務獲取制空權已成為未來戰(zhàn)場發(fā)展的必然趨勢。其中,空戰(zhàn)機動決策方法一直是自主空戰(zhàn)領域研究的重要一環(huán)[1-2]。目前無人機空戰(zhàn)機動決策常用方法主要分為兩類,一類是基于對策理論的方法,另一類是基于數(shù)據(jù)驅(qū)動的方法。基于對策理論的方法應用在近距空戰(zhàn)機動決策上主要有微分對策法[3]、矩陣對策法和影響圖法[4],基于數(shù)據(jù)驅(qū)動的近距空戰(zhàn)機動決策方法主要有神經(jīng)網(wǎng)絡及強化學習方法。

文獻[5]將微分對策法應用于空戰(zhàn)追逃問題,構(gòu)建了微分對策模型,現(xiàn)階段雖然應用較為廣泛,但其計算量太大、實時性差,且其目標函數(shù)設定非常困難,因此不適用于復雜的空戰(zhàn)環(huán)境;文獻[6]應用矩陣對策法獲得我機最優(yōu)選擇策略的大致范圍,雖然算法容易理解,但是其結(jié)果精度不高且實時性較差,因此較難應用于無人機自主空戰(zhàn)中;文獻[7]將影響圖法應用于機動決策,雖然能有效引導UCAV戰(zhàn)斗,但是模型結(jié)構(gòu)復雜,計算繁瑣且實時性較差,很難求解出較復雜的決策問題。對于基于數(shù)據(jù)驅(qū)動空戰(zhàn)機動決策方法而言,文獻[8]應用神經(jīng)網(wǎng)絡方法,雖然魯棒性強、實時性好,但是需要大量樣本進行訓練且產(chǎn)生的數(shù)據(jù)不真實;文獻[9]運用強化學習方法由環(huán)境反饋出的信息來展開學習,雖然無需提供訓練樣本,但是卻存在訓練時間長、執(zhí)行效率低的缺點。

針對UCAV近距空戰(zhàn)機動決策問題,本文首先在UCAV三自由度模型的基礎上構(gòu)建飛行驅(qū)動模塊,以此來實現(xiàn)深度強化學習過程中與環(huán)境的不斷交互,并形成一種狀態(tài)轉(zhuǎn)移更新機制。在算法層面,針對現(xiàn)有常用方法存在的無法滿足實時性、收斂速度慢、容易陷入局部最優(yōu)等不足,本文以近端策略優(yōu)化(proximal policy optimization,PPO)算法[10]為基礎,充分發(fā)揮神經(jīng)網(wǎng)絡離線訓練的可塑性和在線使用的實時性,通過引入OU隨機噪聲進一步提升算法在訓練過程中的探索性能,引入長短時記憶網(wǎng)絡(long short term memory,LSTM)[11]將空戰(zhàn)狀態(tài)轉(zhuǎn)化為高維感知態(tài)勢,加強網(wǎng)絡對時序性空戰(zhàn)數(shù)據(jù)的學習能力,從而提出基于長短時記憶-近端策略優(yōu)化(long short term memory-proximal policy optimization, LSTM-PPO)算法的UCAV近距空戰(zhàn)機動決策方法。通過設計不同的近距空戰(zhàn)仿真實驗,并與PPO算法作性能對比,驗證該方法的有效性和優(yōu)越性。

1 空戰(zhàn)環(huán)境設計

1.1 UCAV三自由度模型設計

UCAV三自由度模型是對UCAV運動狀態(tài)的具體描述,為了降低控制量之間的耦合關系,并充分考慮平臺氣動特性對飛行狀態(tài)的影響,使模型更加貼近實際,飛行軌跡更為真實,增加其工程利用價值,其三自由度質(zhì)點運動、動力學模型如下:

(1)

式中:(x,y,z)分別代表速度v在坐標系各個軸上的分量;γ為航跡傾角;ψ為偏航角;m為UCAV總體質(zhì)量;g為重力加速度;(α,μ,T)為模型的控制量,分別表示當前時刻UCAV的攻角、滾轉(zhuǎn)角及推力;L和D分別表示升力參量和阻力參量,具體可以表示為:

(2)

1.2 狀態(tài)轉(zhuǎn)移更新機制設計

為實現(xiàn)算法與空戰(zhàn)環(huán)境不斷交互,從而輸出控制量對UCAV的運動進行控制,將上述三自由度模型設置成飛行驅(qū)動模塊。假設UCAV與敵機使用相同的平臺模型,通過飛行驅(qū)動模塊實現(xiàn)敵我雙方空戰(zhàn)狀態(tài)的更新,即通過當前時刻狀態(tài)與控制量實時計算出下一時刻UCAV與敵機所處的新狀態(tài),以此形成一種狀態(tài)轉(zhuǎn)移更新機制,見圖1。

圖1 狀態(tài)轉(zhuǎn)移更新機制

1.3 獎勵函數(shù)設計

基于強化學習的近距空戰(zhàn)機動決策的目標是找到一個最優(yōu)機動策略使UCAV完成攻擊占位,從而使完成當前任務的累計獎勵最大。獎勵是評價策略的唯一量化指標,決定智能體最終學到策略的優(yōu)劣,并直接影響算法的收斂性和學習速度。UCAV通過深度強化學習進行空戰(zhàn)決策時,除完成任務的獎勵外,中間過程無法獲得獎勵,存在著稀疏獎勵[12]的問題,因此在復雜的空戰(zhàn)任務中不僅需要設計完成任務的勝負獎勵,對于每一回合中每一步的輔助獎勵設計也至關重要。為了有助于驗證算法的有效性,本文以機動決策難度較大的使用近距空空導彈后半球攻擊策略為例,分別設計角度、高度、距離獎勵函數(shù)。

1.3.1 角度獎勵函數(shù)

(3)

1.3.2 距離獎勵函數(shù)

(4)

式中:相對距離

1.3.3 高度獎勵函數(shù)

高度獎勵的設置應充分考慮不同武器的作戰(zhàn)性能,主要體現(xiàn)為通過高度獎勵使UCAV與敵機的高度差保持在理想范圍內(nèi),充分發(fā)揮武器性能。設計高度獎勵函數(shù)rH如下:

(5)

式中:ΔH代表UCAV與目標的相對高度;ΔHup和ΔHdown分別表示理想高度差的上下限。

1.3.4 勝負獎勵函數(shù)

空戰(zhàn)勝負判定主要分為3種情況:①飛行高度過低導致墜毀;②態(tài)勢占據(jù)劣勢被敵機擊中回合失敗;③占據(jù)態(tài)勢優(yōu)勢滿足導彈發(fā)射條件,空戰(zhàn)勝利。

勝負回報獎勵函數(shù)設計如下:

(6)

其中end為UCAV勝負判定結(jié)果,可以表示為:

(7)

1.3.5 單步綜合獎勵設計

空戰(zhàn)中需要綜合考慮角度、距離、高度對空戰(zhàn)態(tài)勢的影響,即在空戰(zhàn)中設置每一步的綜合獎勵。綜合獎勵的設計是將角度、距離、高度等因素設置權重值,并與勝負獎勵函數(shù)相加計算單步綜合獎勵。具體設計如下:

rtotal=W1rA+W2rR+W3rH+rend

(8)

式中:W1、W2、W3分別表示角度、距離、高度獎勵對應的權重,在近距空空導彈后半球攻擊策略中由于對角度獎勵要求較高,因此設置W1=0.5,W2+W3=0.5。

2 LSTM-PPO算法

2.1 PPO算法

PPO算法是由學者Schulman提出的一種新型的深度強化學習算法,在策略梯度算法的基礎上以演員-評論家(actor-critic,AC)算法為架構(gòu)演化而來,可以應用在連續(xù)的狀態(tài)和動作空間中[14]。它和其他基于深度強化學習算法相比優(yōu)勢如下:①將新舊策略的更新步長限制在一個合理區(qū)間上,讓其策略變化不要太劇烈,這樣就解決了策略梯度算法無法解決的步長難以選擇的問題;②PPO算法的參數(shù)更新方式能夠保證其策略一直上升即在訓練過程中值函數(shù)單調(diào)不減;③利用重要性采樣原理來離線更新策略,避免浪費更新完的數(shù)據(jù)。

PPO算法的目標函數(shù)為:

(9)

其中:

(10)

2.2 LSTM網(wǎng)絡

LSTM網(wǎng)絡的每個單元可以被劃分為遺忘門ft、輸入門it、以及輸出門ot[15]見圖2所示。

鄉(xiāng)土樹種具有適應當?shù)貧夂驐l件,成活率高、生長快,充分代表了當?shù)氐奈幕厣偷赜蛱厣亦l(xiāng)土樹種是經(jīng)過長時間沉淀積累下來的適宜本土生長的植物種類;鄉(xiāng)土樹種運輸費用以及種植費用低,維護管理成本也低。為此在綠化樹種選擇上,要堅持以鄉(xiāng)土樹種為主,實踐得知,美麗鄉(xiāng)村綠化綠化鄉(xiāng)土樹種占綠化苗總量應把握在65%左右。除此之外,為增加生物多樣性及觀賞性,適當引進一些優(yōu)良適生樹種,豐富植物種類。

圖2 LSTM單元結(jié)構(gòu)圖

其中,遺忘門主要利用sigmoid函數(shù),決定上一時刻網(wǎng)絡的輸出ht-1和上一時刻網(wǎng)絡的單元狀態(tài)Ct-1是否繼續(xù)存在于當前時刻網(wǎng)絡的單元狀態(tài)Ct中。遺忘門計算公式如下:

ft=σ(Wf·g[ht-1,xt]+bf)

(11)

式中:Wf為權值矩陣;bf為偏置量;xt為當前網(wǎng)絡的輸入;g表示向量拼接。

輸入門利用sigmoid函數(shù)輸出的信息與tach函數(shù)輸出的信息相乘,決定當前時刻的輸入xt有多少要傳到單元狀態(tài)Ct中。輸入門計算公式如下:

it=σ(Wi·g[ht-1,x1]+bi)tach(Wc·g[ht-1,xt]+bc)

(12)

輸出門也是利用sigmoid函數(shù)與tach函數(shù)輸出的信息相乘,決定單元狀態(tài)Ct中有多少可以傳到當前輸出ht中。輸出門的計算公式如下:

ht=σ(W0·g[ht-1,xt]+b0)·tach(Ct)

(13)

2.3 OU隨機噪聲

在訓練過程中,平衡算法的探索能力和開發(fā)能力至關重要,探索的目的在于尋找到更優(yōu)的策略。作為引入的隨機噪聲,OU噪聲在時序上具備較高斯噪聲更好的相關性,能夠較好地探索具備動量屬性的環(huán)境,在進一步提升動作決策隨機性的同時可以更好地約束探索的區(qū)間,減少超出閾值機動的產(chǎn)生。圖3為基于OU隨機噪聲探索策略示意圖。OU噪聲的微分方程形式如下:

圖3 基于OU噪聲探索策略

dxt=-θ(xt-μ)dt+σdWt

(14)

式中:xt表示狀態(tài);Wt代表維納過程;θ、μ、σ均為參數(shù)。

2.4 LSTM-PPO算法

為了增強PPO算法的探索性,本文通過在輸出動作上加入OU隨機噪聲來提升UCAV對未知狀態(tài)空間的探索能力。又因為空戰(zhàn)環(huán)境具有高動態(tài)、高維度的博弈性和復雜性,因此單純采用PPO算法中的全連接神經(jīng)網(wǎng)絡來逼近策略函數(shù)和價值函數(shù)已無法滿足其復雜性的需求。本文的策略網(wǎng)絡及價值網(wǎng)絡使用LSTM網(wǎng)絡架構(gòu),首先引入LSTM網(wǎng)絡從高維空戰(zhàn)態(tài)勢中提取特征,輸出有用的感知信息,增強對序列樣本數(shù)據(jù)的學習能力,再通過全連接神經(jīng)網(wǎng)絡來逼近策略函數(shù)及價值函數(shù)。LSTM-PPO算法的架構(gòu)見圖4。

圖4 LSTM-PPO算法架構(gòu)圖

2.4.1 策略網(wǎng)絡設計

針對策略網(wǎng)絡部分,輸入層設置12個節(jié)點,對應著UCAV和敵機的12個狀態(tài)量s=[x,y,z,v,γ,ψ,xe,ye,ze,ve,γe,ψe],其中(x,y,z)表示UCAV的坐標,v為UCAV的速度,γ、ψ分別代表UCAV的航跡傾角及偏航角,(xe,ye,ze)表示敵機的坐標,ve為敵機的速度,γe、ψe分別表示敵機的航跡傾角及偏航角;隱藏層分別設置LSTM網(wǎng)絡層及全連接層,LSTM網(wǎng)絡層設置3個網(wǎng)絡單元,全連接層設計為3層,均采用tach為激活函數(shù);輸出層有3個節(jié)點,分別對應著UCAV滾轉(zhuǎn)角變化量Δμt、攻角變化量Δαt及推力變化量ΔTt,采用softmax為激活函數(shù)。策略網(wǎng)絡結(jié)構(gòu)圖見圖5。

圖5 策略網(wǎng)絡結(jié)構(gòu)圖

2.4.2 價值網(wǎng)絡設計

針對價值網(wǎng)絡部分,輸入層設置了15個節(jié)點,對應著UCAV和敵機的12個狀態(tài)量s=[x,y,z,v,γ,ψ,xe,ye,ze,ve,γe,ψe]及當前策略網(wǎng)絡生成的控制量變化量at=[Δμ,Δα,ΔTt]的合并;隱藏層中的LSTM網(wǎng)絡層設置3個網(wǎng)絡單元,全連接層設計為3層,均采用tach為激活函數(shù);輸出層設置一個節(jié)點,對應著狀態(tài)值函數(shù),采用Linear為激活函數(shù)。價值網(wǎng)絡結(jié)構(gòu)圖見圖6。

圖6 價值網(wǎng)絡結(jié)構(gòu)圖

3 仿真實驗

3.1 場景設計

本文以UCAV與敵機一對一近距空戰(zhàn)為背景進行仿真分析,設置3組仿真實驗,分別為敵機采取隨機機動策略,基于專家規(guī)則庫的機動策略和基于優(yōu)化算法的機動策略。設每個epoch包含200個訓練回合,每回合的仿真步長設為30步,每一步的決策時間為0.05 s,UCAV與敵機對抗900個epoch后停止學習。UCAV的速度為300 m/s,航跡傾角和航跡偏角均為0°,敵機的速度為250 m/s,航跡傾角為0°,航跡偏角為180°。參數(shù)設置如表1所示,利用表1中的參數(shù)結(jié)合LSTM-PPO算法對所設計的空戰(zhàn)場景進行仿真。

表1 參數(shù)設置

3.2 仿真結(jié)果

3.2.1實驗1:敵機采取隨機機動策略

該策略下,針對敵機選擇緩慢向上爬升的隨機機動動作,UCAV首先平飛再通過緩慢爬升接近敵機,形成后半球攻擊態(tài)勢并使敵機進入我機導彈攻擊區(qū),進而取得空戰(zhàn)勝利。圖7為UCAV與敵機空戰(zhàn)對抗軌跡圖。

圖7 空戰(zhàn)對抗軌跡圖(實驗1)

圖8為反映兩機對抗相對優(yōu)勢的累計獎勵曲線,橫坐標每個epoch包含了200個訓練回合,縱坐標為200個訓練回合所獲得累計獎勵的平均值。從圖中可以看出,訓練初期由于UCAV學習不到任何有效策略導致墜毀或被敵機擊落,使得累計獎勵不斷減小,到了訓練中期由于我機能夠保持平飛,避免了訓練前期墜毀的情況,因此累計獎勵值逐步增大,最終在約400個epoch的訓練下能夠?qū)W習到有效的機動動作,形成后半球攻擊態(tài)勢,此時累計獎勵值收斂。

圖8 累計獎勵曲線(實驗1)

3.2.2實驗2:敵機采取基于專家規(guī)則庫的機動策略

該策略下,針對敵機采取迂回盤旋機動動作[16],我方UCAV首先通過緩慢爬升接近敵機,再采取突然俯沖機動跟隨敵機,當敵機采取左轉(zhuǎn)緩慢俯沖動作欲完成逃逸時,UCAV通過小過載爬升機動形成后半球攻擊態(tài)勢,并使敵機進入我機導彈攻擊區(qū)進而取得空戰(zhàn)勝利。圖9為該場景下的空戰(zhàn)對抗軌跡圖。

圖9 空戰(zhàn)對抗軌跡圖(實驗2)

從圖10的累計獎勵曲線中可以看出,初始階段由于我機對環(huán)境認知不足,學習不到較好策略導致出現(xiàn)高懲罰值行為,之后通過訓練逐步掌握了能夠尾隨敵機的策略,最終在約600個epoch的訓練下策略不再大幅變化,此時獎勵值收斂。

圖10 累計獎勵曲線

3.2.3實驗3:敵機采取基于優(yōu)化算法的機動策略

由于敵機具有一定的策略[17],因此對抗博弈程度較實驗1劇烈很多。開始由于UCAV高度處于劣勢,因此敵機欲采取筋斗機動完成逃逸,此時UCAV交替執(zhí)行平飛與爬升機動接近敵機并與敵機搶占高度優(yōu)勢。當敵機抵達最高點開始向下俯沖,UCAV完成爬升獲得高度優(yōu)勢后,UCAV跟隨敵機進行俯沖,從而在獲得后半球角度優(yōu)勢的情況下達到武器發(fā)射條件,最終取得空戰(zhàn)勝利。圖11為該場景下的空戰(zhàn)對抗軌跡圖。

圖11 空戰(zhàn)對抗軌跡圖(實驗3)

從圖12的曲線變化趨勢可以看出由于敵機飛行具有一定的策略,因此收斂速度比較慢且獎勵值曲線波動較為劇烈,體現(xiàn)出了空戰(zhàn)任務的復雜性,在大約720個epoch的訓練下累計獎勵值收斂,完成學習。

圖12 累計獎勵曲線(實驗3)

3.3 算法對比分析

將PPO算法和LSTM-PPO算法設置相同的超參數(shù),并使用相同的空戰(zhàn)環(huán)境,經(jīng)過900個epoch訓練后選取前800個epoch進行測試。以平均獎勵值、收斂時間、空戰(zhàn)獲勝概率作為衡量兩種算法性能的重要指標,進行兩種算法在實驗1和實驗2下的性能對比分析,見表2~3。可以看出,LSTM-PPO算法平均獎勵值和獲勝概率均大于PPO算法,收斂速度LSTM-PPO算法快于PPO算法。

表2 實驗1算法性能的對比

表3 實驗2算法性能的對比

4 結(jié)語

由于空戰(zhàn)環(huán)境復雜、格斗態(tài)勢高速變化,因此本文針對UCAV與敵機一對一近距空戰(zhàn)引入了基于LSTM-PPO算法的UCAV機動決策方法,設計了敵機采取隨機機動策略、基于專家規(guī)則庫的機動策略和基于優(yōu)化算法的機動策略3組仿真實驗。3組實驗下的結(jié)果表明,不論敵機采取何種機動策略,UCAV均可以很好地感知空戰(zhàn)態(tài)勢,做出合理的機動動作,進而取得空戰(zhàn)勝利。與PPO算法作性能對比也可以發(fā)現(xiàn),基于LSTM-PPO算法的UCAV空戰(zhàn)機動決策方法具有獲得平均獎勵值大、收斂速度快、獲勝概率高的優(yōu)點。

猜你喜歡
策略實驗
記一次有趣的實驗
微型實驗里看“燃燒”
基于“選—練—評”一體化的二輪復習策略
求初相φ的常見策略
例談未知角三角函數(shù)值的求解策略
做個怪怪長實驗
我說你做講策略
高中數(shù)學復習的具體策略
NO與NO2相互轉(zhuǎn)化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 国产精品美女自慰喷水| 91亚洲精品国产自在现线| 人妻丰满熟妇av五码区| 国内精品久久久久久久久久影视| 欧美日本不卡| 亚洲中文字幕在线一区播放| 免费在线a视频| 91小视频在线观看免费版高清| 久久久国产精品无码专区| 幺女国产一级毛片| 无码专区国产精品一区| 国产小视频在线高清播放| 欧美成一级| 亚洲va在线观看| 欧美yw精品日本国产精品| 国产精品人人做人人爽人人添| 国产理论精品| 日韩成人在线视频| a毛片在线播放| 综合网天天| 欧美精品影院| 狂欢视频在线观看不卡| 黄色成年视频| 日韩 欧美 小说 综合网 另类| 亚洲国产理论片在线播放| 久久精品中文字幕免费| 国产主播福利在线观看 | 亚洲av无码成人专区| 美女内射视频WWW网站午夜| 国产杨幂丝袜av在线播放| 国产美女91视频| 91在线播放国产| 欧美一区国产| 亚洲国产AV无码综合原创| 日本91视频| 国产精品主播| 一级毛片免费不卡在线视频| 欧美日韩高清在线| 农村乱人伦一区二区| 国产精品私拍在线爆乳| 亚洲国产天堂久久综合226114| 国产精品9| 日韩毛片基地| 麻豆精品国产自产在线| 丝袜国产一区| 欧美成人午夜影院| 久久综合九九亚洲一区| 午夜精品久久久久久久无码软件 | 国产玖玖玖精品视频| av色爱 天堂网| 国产女同自拍视频| 五月天天天色| 男女男精品视频| 国产亚洲精品yxsp| 亚洲,国产,日韩,综合一区| 中文字幕在线欧美| 亚洲男人在线天堂| 国产中文一区a级毛片视频 | 再看日本中文字幕在线观看| 亚洲男人天堂2018| 亚洲愉拍一区二区精品| 国产视频一区二区在线观看| 日本免费高清一区| 香蕉国产精品视频| 国产无码精品在线播放| 福利在线不卡| 国产网站免费观看| 国产91视频免费观看| 日韩无码白| 亚洲视频在线观看免费视频| 国产精品成| 亚洲中文无码av永久伊人| 精品三级网站| 亚洲黄色高清| 亚洲最大福利网站| 无码精品国产dvd在线观看9久| 青青国产视频| 妇女自拍偷自拍亚洲精品| 成人免费午间影院在线观看| 亚洲人成网站18禁动漫无码| 2048国产精品原创综合在线| 亚洲欧美另类专区|