李銀通,韓 統,孫 楚,魏政磊
(1.空軍工程大學航空工程學院,西安 710038;2.解放軍94019 部隊,新疆 和田 848099)
空戰態勢評估指基于感知的環境信息,評估當前所處態勢并預測態勢發展[1],是現代戰斗機輔助決策系統的核心,也是UCAV 空戰決策的重要組成部分[2],對飛行器的作戰使用及性能發揮有重要影響。
空戰態勢評估本質是建立從感知空戰態勢信息到態勢值的復雜非線性映射關系。空戰態勢評估中,由UCAV 及所攜帶武器自身性能所決定的客觀判斷條件易于實現,如武器發射條件、飛行高度、飛行速度等是否滿足;但高度、速度、角度、距離態勢的權重分配,以及態勢評估函數中參數的選取等非客觀判斷條件不易實現,一般做法是根據對實際空戰情況的理解分析建立模型。目前,空戰態勢評估的常用方法主要有參量法與非參量法[1]。文獻[3]提出基于動態威力場的空戰態勢評估方法,以戰斗機的各項性能指標構建勢場模型,解決了非參量法對動態環境處理能力不足的問題;文獻[4]是典型的參量法,通過Bayes 方法分析目標特征的概率分布,以我機平均風險最小或完成任務概率最大為決策準則進行態勢評估;文獻[5]改進傳統的評價指標,利用粗糙集理論建立了多指標綜合評價模型。文獻[3-5]均要求對實際空戰過程有深入理解,并進行精確分析,例如貝葉斯方法中先驗概率的選取、基于指標評估方法中的優勢函數構造等。以上3 種方法過于依賴設計者個人對實際空戰情況的片面理解,參數選取缺乏說服力,雖在特定的條件下能夠取得較好的決策效果,卻難以適應實際中復雜多變的空戰態勢。
本文提出的基于空戰樣本的態勢評估較好地解決了上述問題:逆強化學習可以實現對大量空戰樣本數據的知識提取,從而逼近從參數信息到態勢值的復雜映射關系,回避了態勢評估函數中非客觀判斷條件的復雜設計,解決了傳統態勢評估函數設計中受人為因素影響過大的弊端。
本例以逆強化學習(Inverse Reinforcement Learning)為基礎分析空戰樣本數據,進而得到態勢評估函數,再通過強化學習(Reinforcement Learning)以改進策略,將其應用于UCAV 空戰態勢評估中,可充分發掘空戰數據中的態勢信息,再通過粒子群算法以及Sigmoid 函數處理態勢信息,以實現對態勢評估函數參數的優化。整體結構如圖1 所示。

圖1 態勢評估函數設計結構
采用逆強化學習方法提取態勢評估函數時,若將態勢參數信息到態勢值的映射關系作為黑箱系統考慮,計算復雜,無法充分利用已有的先驗知識,同時結果的可解釋性較差。但是,若將已知的信息進行公式化表示,公式化表示過程中只保留難以確定的參數作為未知量,便將對整體態勢函數的優化問題簡化為對部分參數的優化問題,簡化了計算過程。
依據文獻[6-10]中對空戰態勢評估的研究成果,將態勢評估函數分為角度優勢函數、速度優勢函數、高度優勢函數、距離優勢函數以及效能優勢函數。對由飛機系統性能確定的固有判斷條件,直接給出確定結果。
1.1.1 角度優勢函數
設雷達最大搜索方位角為φR,導彈最大離軸發射角為φM,不可逃逸區圓錐角為φK。設計角度優勢函數為:

1.1.2 速度優勢函數
設vrm為本機最佳空戰速度,vr,vb分別為本機、敵機的速度,設計速度優勢函數為:
當vrm>1.5vb時

當vrm≤1.5vb時

1.1.3 高度優勢函數
設hrm為本機最佳空戰高度,hr,hb分別為本機、敵機飛行高度,設計高度優勢函數為:

1.1.4 距離優勢函數
設雷達最大搜索距離為dR,導彈最大攻擊距離為dM,導彈最大不可逃逸距離為dKmax,導彈最小不可逃逸距離為dKmin。設計距離優勢函數為:

1.1.5 效能優勢函數
空戰效能由飛行器及攜帶武器的性能決定,不需進行估計與優化,令TE表示空戰效能優勢。

當我機導彈滿足發射條件時rc=10,當敵機滿足導彈發射條件時rc=-10,否則rc=0;當滿足條件:h>20 000 m 或h<200 m 或v>300 m/s 或v<50 m/s時,re=-10;其余條件下re=0。
為提升態勢評估函數對復雜空戰環境的適應能力,本例并非直接將各個態勢值的和作為總體態勢評估函數,而是利用帶權重ωr,βr的Sigmoid 函數對態勢評估函數進行優化,均衡了rA,rV,rH,rD之間的差異,使各個態勢值保持在一定的范圍,避免因單個態勢值差異過大而影響整體評估效果。帶權重ωr,βr的Sigmoid 函數為:

將rA,rV,rH,rD作為Sigmoid 函數的自變量輸入,可得到參數可調的態勢評估函數分別為:

其中,ωri,βri,i=1,2,3,4 為待優化參數。式(8)~式(11)中分子為原態勢值,其限制了Sigmoid 函數對整體態勢值的壓縮作用,避免了態勢值在接近0 時導致態勢的累加效應不明顯,降低了其對不同態勢的區分度。綜上,整體態勢評估函數可表示為:

解出最優ωri,βri,即實現對態勢評估函數優化。
逆強化學習以輸出的效用值V(xt)作為輸入狀態xt的評價指標,所以必須提取從xt到V(xt)的映射關系。本文應用的重點在于計算效用值V(xt),考慮到RBF 神經網絡非線性逼近能力強,結構簡單的特點,故選用它來進行效用值函數的逼近。
逆強化學習所用樣本為空戰中狀態序列,輸入RBF 神經網絡后輸出估計效用值,并依據誤差不斷修正網絡參數,直到滿足條件。采用訓練完成的網絡計算所有樣本的效用值序列,依據時序差分學習的值函數更新規則

式中,γ 為折扣率,設定為γ=0.9,在各個狀態的效用值序列已知時,即可求出所有狀態對應的態勢值rt。最后計算態勢評估函數中的未知參數,使其對狀態的評估值與態勢值r 的誤差在允許范圍內,即完成了對態勢評估函數的優化。
對式(13),在逆強化學習中rt未知,導致無法更新效用值序列,因此,無法在單一樣本下訓練該RBF 神經網絡。本文設置兩類樣本:正例樣本集與反例樣本集。訓練完成的RBF 網絡可以實現:對正例樣本集的估計效用值大于對反例樣本集的估計效用值。
空戰樣本數據為特定的決策與機動動作序列,若空戰中決策進行n 步,則樣本軌跡S 可表示為:

其中,xi表示狀態,ai表示在狀態xi下采取的機動決策動作。
正例樣本集:擊落敵機的決策軌跡,記為S1;反例樣本集:被敵機擊落的決策軌跡,記為S0。

其中,si與si'分別表示一次空戰的決策軌跡。由于逆強化學習輸入僅為狀態序列x,所以忽略樣本集中決策軌跡動作,僅記錄狀態:

對于決策軌跡狀態集S1與S0,記RBF 神經網絡對其效用值的估計為:




本文逆強化學習方法基于多輸入單輸出RBF網絡,主要完成由狀態x 到效用值V(x)的映射關系,基本結構如圖2 所示。

圖2 多輸入單輸出RBF 網絡結構
輸入層到隱層的非線性映射采用高斯函數為基函數,含有q 個隱層節點的RBF 網絡可表示為:

其中,x 為輸入狀態變量,ci為第i 個基函數的中心,σi為基函數中心的寬度。
設RBF 神經網絡輸出值為y,輸出層的線性映射表示為:

其中,wi表示各個隱層連接節點的權重。
本文僅以輸出層的各個連接節點的權重wi為例,推導滿足式(16)的RBF 神經網絡參數更新公式。設RBF 神經網絡輸出估計效用值V(xt),由式(17)、式(18),樣本集S1與S0的平均效用值可表示為:


設學習率為ηw,對E 求關于wi的負導數,wi的更新公式可表示為:

其中,

同理可以得到參數βi與向量ci的更新公式為:

其中,ηβ與ηc為對應參數的學習率。

當評價指標E 滿足式(16)時,RBF 神經網絡訓練完成。
依據式(17)~式(27),可對RBF 神經網絡進行訓練,得到樣本的效用值序列,由式(13),可計算每個狀態瞬時態勢值rt,表示為:

設樣本瞬時態勢值序列的集合為:

其中,

將樣本中的狀態序列輸出作為態勢評估函數,同樣可以得到每個樣本的態勢評估值。當由態勢評估函數得到的態勢評估值與通過逆強化學習方法提取的態勢值相差較小時,表明態勢評估函數的性能較好;反之,如果兩者差異過大,則說明態勢評估函數誤差過大,需要進行參數更新。
綜上,態勢評估函數的優化問題可表述為:對函數T,修正其中的ωri,βri,使其對S1與S0的輸出值滿足

對于式T=TA+TV+TH+TD+TE的參數優化問題,由于缺乏ωri,βri的先驗知識,所以初值設定比較困難。但考慮到該問題維度不高,且目標函數比較簡單,故本文采用自適應粒子群算法進行態勢評估函數優化問題中的最優參數求解。由于篇幅限制,不再贅述該算法相關原理。
本文選擇了兩組典型的空戰機動動作:后置跟蹤滾轉機動與高速Yo-Yo 機動作為樣本提取態勢評估函數。正例樣本為后置滾轉機動,反例樣本為高速Yo-Yo 機動。圖3 與圖4 為兩組機動中雙方的飛行軌跡,紅色為我機軌跡,藍色為敵機軌跡。通過Simulink 仿真實現機動動作,仿真運行40 s,并以0.036 s 為時間間隔記錄空戰時間內對抗雙方的狀態變量,作為RBF 神經網絡的輸入。

圖3 后置跟蹤滾轉機動軌跡

圖4 高速Yo-Yo 機動軌跡

圖5 正例樣本總態勢值

圖6 反例樣本總態勢值

圖7 訓練后期兩類樣本差值
訓練初期,由于網絡參數的隨機性,其對正例反例樣本的態勢值的估計波動較大;訓練后期,兩類樣本估計態勢值之差逐漸穩定,此時RBF 神經網絡對正例樣本的態勢估計值大于反例樣本;最終指標在誤差范圍內,對兩類樣本的估計態勢值差值穩定在4.035 附近,大于(Emax)-1=2,RBF 神經網絡的訓練完成。
由上節中得到的態勢值序列,采用自適應粒子群算法求解態勢評估函數中的最優參數。態勢評估函數中的參數設置為:φR=65°,φM=35°,φK=20°,vrm=200 m/s;hrm=2 000 m;dR=60 km;dM=10 km,dKmax=5 km,dKmin=1 km。自適應粒子群算法參數設置為:minΔr=0.1,c1=c2=2,ωmax=0.9,ωmin=0.6,粒子數取100,迭代步數取150。得到適應度變化曲線如圖8 所示。

圖8 粒子適應度曲線
各個變量對應最優權重為:ωr1=0.870 4、ωr2=0.516 2、ωr3=0.646 9、ωr4=0.302 0、βr1=0.291 7、βr2=0.120 7、βr3=0.049 1、βr4=0.355 7。
結果表明,近距空戰最重要的影響因素為角度優勢,所占權重最大,其次是速度優勢與高度優勢,而距離優勢的所占權重最小,與近距空戰實際相符。
將改進后的態勢評估函數用于UCAV 機動決策與改進前進行對比。這里給出不同仿真條件下態勢值隨訓練次數的變化,以觀察態勢評估函數對策略收斂速度的影響,結果如圖9,圖10 所示。

圖9 態勢評估函數隨訓練次數變化曲線1

圖10 態勢評估函數隨訓練次數變化曲線2
從圖9,圖10 中可以看出:改進后的態勢評估函數提升了態勢值的收斂速度,兩種仿真條件下,改進后態勢評估函數均比未改進的提前收斂到最優策略。
對態勢評估函數的優化過程中使用Sigmoid 函數的壓縮作用,導致整體態勢值的降低,對比雙方態勢值的差異,如圖11 所示。

圖11 10 次訓練中的態勢值
改進后的態勢評估函數,決策系統在10 次訓練中的態勢均值為9.889 0,方差為0.174 2;而未改進態勢評估函數決策系統的態勢均值為13.179 6,方差為0.394 1,方差的降低說明改進后的態勢評估函數增強了決策系統的穩定性;總態勢值的降低,保證了較好的區分度,并加快了UCAV 學習的收斂速度。
本文提出的以RBF 神經網絡為基礎的逆強化學習方法,解決了強化學習在UCAV 自主決策中的態勢評估函數非客觀判斷條件設計困難的問題;創新性設計了基于Sigmoid 函數參數可調的空戰態勢評估函數;采用自適應粒子群算法,依據逆強化學習的輸出結果對原態勢函數中的參數進行優化。通過對比,證明該方法能夠提升無人機自主決策系統的策略收斂速度與穩定性,克服了傳統獎賞函數設計中主觀性過強的缺點,較好地提升了其對不同空戰態勢的適應能力。