韓 統,崔明朗,2,張 偉,陳國明,王驍飛
(1.空軍工程大學 航空工程學院, 西安 710038;2.中國人民解放軍94019部隊;3.空軍工程大學 航空機務士官學校, 河南 信陽 464000)
隨著無人機技術的不斷發展,無人作戰飛行器(UCAV)的作用與地位也在不斷升高,在戰場上的意義越來越重要;在未來與有人機進行空中對抗時,由于UCAV的造價較低且機動性強,必然可以對有人機形成數量上的優勢,而多機空戰協同攻擊技術則是實現多UCAV自主空戰的核心問題,國內外許多學者也對此進行了研究:文獻[1]提出了使用威脅評估模型建立多機空戰模型,文獻[2]等使用優化算法對協同任務分配進行建模并求解,文獻[5]從協同制導的角度分析了多機空戰的決策方法,文獻[6]通過強化學習的方法研究了多機空戰決策問題。
綜合分析上述文獻可以發現,多機空戰決策的核心在于目標分配,現有成果中也通過不同方法對此進行了深刻研究并得到了很多較為成熟的目標分配模型。在目標分配模型中一般會存在對戰機的態勢評估,然而考察這些態勢評估模型以及目標分配結束后進行機動決策的模型時卻發現,這些模型大都沿用了一對一空戰時的態勢評估及決策方法,但在多機空戰中卻會經常出現局部一對多或多對一的情形;對于有人機而言這樣的差別還可以接受,因為飛行員可以在接收到目標分配指令后綜合考慮友機位置進行最終決策,而對于自主攻擊的無人機而言,如果建模過程中不考慮協同機制, UCAV將依然按照一對一空戰時的決策方法進行決策,不會主動配合友方進行協同攻擊。故本文以二對一空戰為背景,詳細分析了在協同攻擊環境下態勢關系與一對一空戰時的區別,建立了協同威脅指數模型,應用基于多目標優化與強化學習的機動決策方法[7]進行了局部二對一情形下的空戰態勢評估與決策。
在對UCAV近距空戰進行機動決策與仿真時,采用三自由度質點模型描述UCAV的運動狀態,模型參數定義見圖1。

圖1 UCAV三自由度模型示意圖
1.1.1模型假設
為了便于分析,對建立UCAV運動、動力學模型作如下假設:
1) 假設UCAV為一個剛體,且發動機非推力矢量控制類型,并假設其推力方向固定為機身縱軸線方向;
2) 假設地球為慣性坐標系(將地面坐標系看作慣性坐標,忽略地球自轉及公轉影響);
3) 忽略地球曲率;
4) 在模擬雙方飛行軌跡時,忽略控制系統的延遲。
1.1.2UCAV質點模型
為了簡化計算,當考察UCAV的運動軌跡時,可將其看作質點;在慣性坐標系下,其運動方程為
(1)
相同慣性坐標系下,UCAV的動力學方程為
(2)
以上兩式中,vu表示速度,γ表示航跡傾角,ψ表示航向角,μ表示滾轉角,α表示攻角,m表示質量,T表示發動機推力,D表示空氣阻力,L表示升力,g表示重力加速度。
飛行過程中,UCAV所受升力L與空氣阻力D計算公式如下:
(3)
式(3)中:ρ表示空氣密度,S為UCAV參考橫截面積,CL與CD分別為升力和阻力系數。
發動機推力T計算公式如下:
T=δTmax
(4)
式(4)中:Tmax表示發動機最大推力;δ表示油門,取值范圍為[0,1]。
為便于進行仿真,在進行機動決策時,采用攻角α、油門δ、滾轉角μ三個控制量作為決策量并控制UCAV進行機動。
文獻[7]將多目標優化方法與Actor-Critic強化學習方法[8]的結構相結合,構建了一種新的空戰機動決策模型,模型總體構架如圖2所示。

圖2 空戰機動決策模型
基于多目標優化與強化學習的機動決策模型在實際應用中具有較好的可拓展性,故本文將以此模型作為一對一空戰決策的基礎,仍采用原文中的態勢參數ηA與能量參數ηw作為優化目標,分析并構建多UCAV協同攻擊的機動決策模型。
二對一空戰是多機協同攻擊中最基礎也是最具代表性的空戰情形,本節以二對一空戰為背景,定義協同威脅指數并分析多UCAV協同攻擊決策方法。
以往關于多機空戰目標分配以及決策的研究成果中,在評估態勢時采用的仍是一對一時的態勢評估方法,而沒考慮協同情形下對態勢評估值的影響,本節將分析考慮協同威脅的必要性。
考慮基于多目標優化與強化學習的空戰決策模型在討論一對一空戰機動決策時,使用強化學習方法訓練出了一對一空戰時的輔助決策網絡,文獻[7]仿真驗證了該網絡具備原Actor-Critic框架中Critic模塊的作用,可以針對相對態勢量輸出一個獲勝期望,從某種程度上來說,該網絡的輸出也是對一對一情形下對雙方態勢的一個評估值,并且由于該網絡是在各態勢優化函數的基礎上通過強化學習訓練得出的,相對于將這些態勢優化函數加權整合出來的態勢評估值,相較于一般的加權方法無疑是更具有說服力的。故本節將應用該網絡計算一對一情形下的態勢關系值,并將該態勢值記作η1-1(u→e),由于該態勢值的本質是獲勝期望,故在計算敵機對我機的態勢值時可以直接使用下式:
η1-1(e→u)=1-η1-1(u→e)
(5)
在兩機同時攻擊一個目標時,被攻擊方針對任意一架飛機的機動都會受到另一架飛機的限制,無法同時取到在一對一情形與兩機對抗時的最優態勢值;即從某種程度上來說,雙機一方的態勢評估值隨著友方的存在被“升高”了,這個“升高”量會受到3架飛機相對位置的影響,雖然有大有小但確是普遍存在的,所以若要對二對一情形下的空戰態勢進行有效評估,必須要對這個“升高”量進行計算,而在進行二對一機動決策時,也要充分利用這個“升高”量。
二對一空戰情形下雙機一方的態勢威脅值會因為友方的存在而升高,為了更為可靠地進行多機目標分配以及二對一情形下的機動決策,建立二對一空戰情形下的態勢評估模型是十分必要的。結合多機空戰決策時的實際需求,對二對一情形下的態勢評估模型的建立做以下分析:
1) 二對一情形下雙方態勢關系較為復雜,難以使用公式直接進行計算,故最為可行的計算方法時仍是仿照輔助決策網絡的訓練方法構建神經網絡進行擬合;
2) 二對一空戰的雙機一方雖然是兩架飛機協同攻擊,但任何機動占位以及武器發射仍是以單機為基礎:即對于任一架飛機而言,友方的存在可以限制敵方的機動范圍,卻并不能幫助自己完成機動動作或者發射武器;所以一對一情形下的態勢評估值仍會直接影響二對一的態勢評估結果。不失一般性,為了減少態勢評估模型的計算量,模型可以只計算二對一情形下友方產生的態勢量增幅,并結合一對一的態勢評估值得出最終態勢評估結果;
3) 空戰機動決策一般發生在近距空戰時,對決策時間具有較高要求,且考慮復雜電磁環境下友方之間的通信會受到干擾,故多機情形下的機動決策并不適合采用多機聯合在線決策的方式,最可行的方式應當是以單機為決策單位,在考慮與友軍配合的前提單獨決策;所以,在評估雙機一方的態勢值時也應當針對每一架飛機分別給出評估結果。
綜上所述,為了對二對一空戰情形進行準確的態勢評估,定義協同威脅指數ηco(u(ua)→e)用于描述二對一空戰中友機帶來的態勢指數增幅(式中u的ua與并不等價),具體定義式如下:
ηco(u(ua)→e)=f({ε(u→e)},
η1-1(ua→e), {ε(u,ua→e)})
(6)
其中:ua表示友方飛機;e表示敵機;ε表示兩者的相對態勢關系,描述態勢關系采用的具體參量將在下文建立ηco的訓練模型時給出。
結合協同威脅指數,二對一情形下的態勢評估模型如圖3所示,且二對一態勢下的態勢評估值計算如下:
η2-1(u(ua)→e)=η1-1(u→e)*ηco(u(ua)→e)
(7)
與一對一時的態勢評估值相同,該評估值的本質也是獲勝期望,故在評估單機一方的態勢值時同樣有:
(8)

圖3 二對一態勢評估模型
應用前文描述的基于多目標優化與強化學習的模型時,結合協同威脅指數的定義構建二對一空戰機動決策模型。
2.3.1二對一情形下的輔助決策模塊
在二對一空戰中,輔助決策模塊依然需要對多目標優化決策集進行評估并選出最終決策量,但由于評估對象時二對一的空戰態勢,結合上一節對協同威脅指數的定義,在原先一對一輔助決策網絡的基礎上還需添加協同威脅指數的計算網絡,并將兩個網絡的輸出相乘作為輔助決策模塊對于輸入狀態的最終輸出結果。
二對一情形下戰場中有三架飛機,不妨設己方為雙機一方,其態勢如圖4所示,其中下標u代表己方進行態勢評估的UCAV參數,下標f代表己方另一架UCAV參數,下標e代表敵機參數,φe-(u, f)表示己方兩架UCAV與敵機之間形成的夾角;可以看出描述三架飛機的完整態勢需要18個維度的輸入量。

圖4 二對一空戰態勢示意圖
然而進行目標分配時需要進行大量的二對一態勢評估,計算協同指數時的效率至關重要;故本文在使用強化學習方法訓練BP神經網絡[9]擬合協同威脅指數時,依舊對網絡輸入的維度進行了簡化,BP網絡具體設置如下:

在上述的輸入維度簡化中,丟失了本機的絕對位置信息(例如以敵機機身線為對稱軸,當我機處于關于該軸對稱的兩個位置時,網絡關于我機的位置輸入相同),但多目標決策模塊的輸入是絕對位置,從而彌補了這一信息損失帶來的后果;此外由于僅輸入了友機的態勢評估值,友機的位置信息全部丟失,但該協同威脅指數僅用于進行本機的機動決策,在進行友機的機動決策時需要重新計算本機對友機的協同威脅指數值,故該信息的丟失并不會影響到最終的決策結果。
2) 網絡輸出為在友方UCAV(下標f)的協同下,待評估的己方UCAV(下標u)攻擊敵機(下標e)時獲得的協同威脅指數ηco(u(f)→e);
3) 確定隱層節點時參考如下經驗公式:
(9)
其中:l0為隱層節點數;no和mo分別為輸入輸出節點數;ao為1~10之間的調節常數。結合實際仿真效果確定隱層數為14;
4) 在計算BP誤差(即強化學習的獎賞)時,使用時序差分方法[10]中計算獎賞的公式如下:
(10)
其中:αRL為學習率,隨訓練次數的增加而減小;γRL為折扣率,本文取γRL=0.4;r為獎賞值,n為本次仿真經歷的總步數,i為當前狀態步數;由于網絡的評價目標是獲勝期望而非瞬時態勢優勢,r值由仿真結果rend給出,其中關于rend的取值如表1所示。

表1 rend取值表
此外,由于協同威脅指數網絡的訓練必須在二對一空戰環境下進行,為避免同時訓練兩個網絡帶來的麻煩,在二對一空戰環境下進行強化學習時默認使用已經訓練完成的一對一輔助決策網絡(即先在一對一環境下訓練輔助決策網絡,完成后再在二對一環境下進行協同威脅指數網絡的訓練)。
2.3.2決策模型
在復雜電磁環境下進行近距格斗時,為了避免通信被干擾帶來的影響,各UCAV應當在考慮到配合友方的前提下單獨進行決策;以下將結合輔助決策模塊,給出雙UCAV協同攻擊敵機時的機動決策模型:
UCAV在機動決策時采用多目標優化與強化學習相結合的機動決策模型,其多目標優化模塊的模型如下:
(11)

多目標優化模塊得出的決策集通過輔助決策模塊得出最終決策,整個決策模型如圖5所示。

圖5 二對一機動決策模型
與一對一空戰時輔助決策網絡的訓練方法類似,圖7的模型同時也是協同威脅指數網絡的訓練模型,具體訓練步驟如下:
步驟1初始化協同威脅指數網絡,引入一對一態勢下的輔助決策網絡;
步驟2隨機產生敵我三架飛機的初始位置狀態,開始仿真模擬;

步驟4預測每種決策后敵我態勢關系,進而通過整個輔助決策網絡(協同指數與一對一輔助網絡串聯)得出對應的獲勝期望{v1,v2,…,vn};
步驟5采用softmax策略[10]從決策集中隨機選取出最終執行的決策,每種決策的被選取概率為
(12)
步驟6執行決策后判斷是否達到空戰結束條件,若未達到,返回步驟3;若已達到,進入步驟7;

為了更加直觀體現增加協同威脅指數之后輔助決策模型的效果,設置了兩組典型的我方雙機對敵單機的空戰初始條件,分別使用增加協同威脅指數前后的輔助決策模型進行機動決策,仿真參數設置如下:
第1組初始條件如下(坐標系均為以敵機在地面投影位置為坐標原點的東北天坐標系,單位為m):
敵機初始位置(0,0,4 000),初速度大小為220.7 m/s,初始ψ=144.7°,γ=0°;
己方1號飛機初始位置(-37,1 907.3,4 462.7),初速度大小為281.9 m/s,初始ψ=248.4°,γ=0°;
己方2號飛機初始位置(425,2 602.2,4 492.6),初速度大小為281.9 m/s,初始ψ=248.4°,γ=0°。
圖6分別記錄了使用協同威脅指數前后的模擬空戰情況,圖7~圖8分別給出了雙方相互攻擊判定條件(視線角與距離)。

圖6 空戰仿真結果

圖7 相互攻擊判定(未使用協同威脅指數)
仿真結果中,我方初始位于相對有利的位置,敵機向內側轉彎做機動規避,但由于我方UCAV初始速度大于敵機,轉彎半徑也會大于敵機,這就使得敵機擁有了調整自己方位角的機會。在不使用協同威脅指數時,由于我方雙機與敵機的相對態勢基本相同,兩架UCAV的決策模型所得結果也基本一致,結果被敵機通過S型機動將被尾追的劣勢態勢轉化成迎頭搶攻的均勢態勢,而在迎頭搶攻的情形下,我方雙機由于距離過近反而相互限制了對方的機動范圍,使得敵機反而在29 s時對我方二號UCAV率先形成了有效的攻擊判定。
在使用了協同威脅指數之后,我方二號UCAV一開始時就通過異面機動減速獲得了更小的轉彎半徑,并成功與一號UCAV對敵機形成了夾擊的態勢,并于第18 s對敵機形成了有效的攻擊判定;事實上,如果不考慮一號UCAV的位置,在二號UCAV減速的過程中,敵機通過向外加速轉向可以直接脫離二號UCAV的追擊,但外側一號UCAV的存在完全限制了敵機向外的機動范圍,使得二號UCAV可以順利完成攻擊;
第2組初始條件如下:
敵機初始位置(0,0,4 000),初速度大小為290.4 m/s,初始ψ=313.3°,γ=0°;
己方1號飛機初始位置(-1 613.2,7 019.5,3 549.7),初速度大小為276.5 m/s,初始ψ=15.5°,γ=0°;
己方2號飛機初始位置(-2 956.1,620 6.2,4 389.6),初速度大小為276.5 m/s,初始ψ=15.5°,γ=0°;
圖9分別記錄了使用協同威脅指數前后的模擬空戰情況,圖10~圖11分別給出兩次空戰中雙方相互攻擊判定條件(視線角與距離)。

圖9 空戰仿真結果

圖10 相互攻擊判定(未使用協同威脅指數)

圖11 相互攻擊判定(使用協同威脅指數)
仿真結果中,我方UCAV初始處于不利的態勢,尤其是一號UCAV劣勢較為明顯,在未使用協同威脅指數時,敵機選擇直接追擊我方一號UCAV,我方一號UCAV雖然進行了機動規避,但由于劣勢較大,于第25 s被敵機形成了有效的攻擊判定,而二號UCAV雖然通過轉彎調整了自己與敵機的態勢關系,但并沒有干擾到敵機追擊一號UCAV的過程,在整個空戰中幾乎處于“游離”的狀態。
使用協同威脅指數后,我方二號UCAV選擇了類似于“斜筋斗”的機動策略,由于敵機追擊我方一號UCAV進行了加速,導致其在15 s時直接沖到了二號UCAV前方有效射程,敵機為了規避二號UCAV被迫放棄對一號UCAV的追擊并準備轉向,卻被趁機完成態勢調整的一號UCAV夾擊,一號UCAV于26 s對敵機形成了有效的攻擊判定;事實上,二號UCAV與敵機的初始距離較遠,敵機完全有時間通過機動減速以避免在二號UCAV的“斜筋斗”機動中沖前,而此時消耗掉大量能量的二號UCAV將處于十分危險的態勢,但由于一號UCAV的初始劣勢太大,幾乎無法規避敵機的加速追擊,二號UCAV采用這樣較為“極端”的策略反而使敵機陷入了兩難的境地。
通過引入協同威脅指數,仿真對比了兩組典型的二對一空戰仿真實驗,在使用了協同威脅指數之后,二對一空戰輔助決策網絡可以引導己方UCAV綜合考慮三架飛機的態勢關系,從而與友方UCAV配合并進行協同攻擊,能夠較敵機更早形成攻擊判定。本文給出的決策模型雖然是基于二對一空戰的,但協同威脅指數可以作為一個優化參數加入到各類目標分配模型中,從而更為合理地將多機空戰分解成多個局部一對一或多對一的情形,并結合本文的決策模型進行最終決策。如何通過協同威脅指數構建更為合理地多機空戰模型也是本文下一步研究的主要目標。