傅莉,謝福懷,孟光磊,王東政
(1.沈陽航空航天大學 航空航天工程學部,沈陽 110136;2.沈陽航空航天大學 自動化學院,沈陽 110136;3.大連理工大學 電子信息與電氣工程學部,大連 116024)
作為空戰決策最核心的內容,無人戰斗機(UCAV)的機動決策問題目前已經隨著無人機各項關鍵技術的快速發展愈來愈受到世界各國的重視.目前,常用空戰機動決策方法有:矩陣對策法、微分對策法、專家系統法、決策影響圖法等[1-4].專家系統法是空戰決策研究中提出最早、技術最成熟的方法.專家系統是一種知識信息處理系統,而不是數值信息計算系統[5].其決策過程直接根據專家知識進行推理,相對其他幾種決策方法,專家系統法不需要進行大量計算,對于瞬息萬變的真實戰場環境,能較快地做出反應,具有響應速度快、結構簡單的特點.
然而專家系統在空戰機動決策上的應用也有它自身不可避免的缺陷,由于專家系統知識庫中存儲的知識都是固化的數據,空戰時一旦出現系統知識庫未存儲的空戰態勢,專家系統就失效了[6-7].為了防止空戰時出現系統失效的情況,本文在已有的專家系統中引入滾動時域法[8],當系統出現失效時,系統采用滾動時域代替專家系統進行空戰機動決策.
空戰機動決策專家系統主要由3個部分組成,即知識庫、機動庫和推理機.當專家系統無人戰機進入備戰狀態時,機載傳感器獲得當前敵我雙方態勢信息,由專家系統推理機將態勢信息與知識庫中各個規則的條件進行匹配,直到找到與態勢信息相符的規則,根據該規則所對應的結論,調用機動庫中相應的飛行機動,并予以執行.當無人戰機執行完機動后,專家系統會按設定的時間間隔再次調用機載傳感器獲取下一時刻的態勢信息,然后再次進行決策,直至空戰結束.由此可知,可以將整個無人戰機的空戰過程分割成一個個離散的時間域,每個時間域里,無人戰機通過機動的選擇與調用,來完成該時域內的決策和無人戰機的飛行,這些機動的疊加就是無人戰機的最終飛行軌跡.
通過以上對空戰專家系統的分析,將整個空戰過程離散化,專家系統機動決策最優控制問題可描述成方程組(式(1)~式(3))中最優控制序列 u(t)∈Ω,t=t0,t1,…,tn-1的求解,使得性能指標 J(xtk,utk)最大[9].其中,Ω 為控制量 u(t)的控制約束,時間 t0,t1,…,tn-1分別為專家系統進行決策的每一時刻.

1.2.1 系統狀態方程描述
為了描述載機和目標機的相對運動,空戰中雙方態勢分別用狀態向量Xr、Xb來表示,下標r和b分別代表我方(紅方)和敵方(藍方).

式中:xi、yi和zi為地坐標系下戰機的位置坐標;vi為戰機的速度;θi、ψi和φi分別為在地坐標系中戰機的航跡傾斜角、航跡方位角和航跡滾轉角.
忽略側滑角的影響,且假設發動機推力沿著飛行速度方向,則飛機在航跡坐標系上的質點動力學方程為

再通過地坐標系和航跡坐標系的轉換矩陣Lkg,由ωy和ωz可求得戰機在地坐標系下的航跡傾斜角角速度、航跡方位角角速度和航跡滾轉角角速度

將戰機質心的速度矢量投射到地面坐標軸系后,可得到相應的運動學方程組:

式中:Vx、Vy和Vz分別為速度V在地坐標系OZg軸、OXg軸和OYg軸上的分量.
則根據動力學方程組(式(5)~式(7))和運動學方程組(式(11)~式(16))可知,只要給定了戰機的任意時刻的初始狀態和該時刻的控制量過載nx、ny和nz即可通過求解上述動力學方程組來得到戰機下一時刻的狀態.
1.2.2 控制約束設計
機動動作庫包含供決策選用的動作集,是建立空戰機動決策模型的基礎.現階段,在決策系統設計中,普遍采用美國國家航空航天局(NASA)學者提出的7種基本操縱動作[10]:最大加速、最大減速、最大過載爬升、最大過載俯沖、最大過載左轉、最大過載右轉和穩定飛行.基本上,所有的機動都可以分解為這7種操縱動作的一種或者幾種的疊加.本文機動動作庫在構建了7種基本操縱動作的基礎上,又以經典空戰戰術飛行動作為依據,建立的一些空戰中常用的戰術動作,包括盤旋機動、半斤斗機動和蛇形機動等.
對于7個基本操縱動作的設計,本文戰機系統狀態方程選取過載nx、ny和nz作為控制變量,所以可以通過設計這些參數的變化規律來控制戰機完成機動動作.對于戰術動作庫的設計,可以將戰術機動分解為這7種基本操縱動作中一種或幾種的疊加.在飛行過程中,戰機根據空戰態勢、武器發射條件等,為滿足特定的戰術要求,在特定的態勢和時間,切換7種基本動作,從而完成特定的戰術動作設計.
通過以上機動庫設計原理和系統狀態方程的分析,由于機動庫中過載nx、ny和nz這些參數的變化規律都已經設計好,空戰專家系統是通過機動的選擇和調用來實現對飛機狀態Xi的控制,所以這里的控制約束Ω指的是專家系統機動庫,控制量u(t)為機動庫中的各個機動.
1.2.3 空戰機動決策指標函數的建立
以我機位置為原點R(O),在地坐標系下對兩機空戰態勢關系進行分析,如圖1所示.

圖1 雙機空戰態勢關系Fig.1 Relation of situation of two sides in air combat
空戰目的都是發現、跟蹤、擊毀空中目標,使其失去對我方形成威脅的能力.機載雷達和空空導彈已成為了現代空戰的主要探測和攻擊武器,空戰態勢優勢函數的建立,應該從空戰態勢對戰機雷達跟蹤區和導彈攻擊區的影響這兩方面進行定量分析[11-14].所以本文在建立態勢優勢函數時,主要考慮角度優勢函數、距離優勢函數和能量優勢函數.
1)角度優勢函數.
角度優勢函數關系到我機對目標的有效跟蹤.當我機的目標方位角小時,我機導彈發射的離軸角也越小,有利于提高導彈命中率,使我機對敵機的威脅達到最大,實現我機對敵機的有效跟蹤.本文選取空空導彈不可逃逸離軸角ψMmax為60°,雷達探測最大角度ψRmax為85°,將目標方位角分為雷達搜索區、導彈攻擊不可逃逸區和雷達搜索區以外3個區域,并構造角度優勢函數:

2)距離優勢函數.


式中:

如果當 D=DMmin或 D=DMmax時,均有 SD=0.95,則有正態分布標準差為

3)能量優勢函數.
戰機能量優勢函數主要與戰機速度和高度有關.戰機的能量越大,則戰機機動能力越強,使戰機在超視距空戰中能盡快機動到對目標機實施打擊的最佳空戰位置,而且在較大能量時,空空導彈使用速度更大,對目標機實施攻擊的成功率更高.本文將能量看作戰機動能與勢能的和,定義戰機單位能量為

式中:H為戰機當前高度.戰機能量優勢函數為

式中:Er為我方(紅方)戰機單位能量;Eb為敵方(藍方)戰機單位能量.
綜合考慮角度和距離之間的相關關系,在此,以乘積表示角度與距離的綜合優勢.最終可以得出空戰態勢優勢函數的計算公式為

式中:K1和K2為加權系數,且有K1+K2=1(0<K1,K2<1).
結合以上所建立的空戰態勢優勢函數,以任意時刻我機態勢優勢值與敵機態勢優勢值的差值作為我機進行機動決策的指標:


滾動時域控制(Receding Horizon Control,RHC)是20世紀70年代由工業界首先構思出來的一種控制方法,其核心是在線滾動優化,將廣義控制全局問題的求解轉化為在線滾動進行的一系列局部優化問題,使得計算復雜性和計算資源消耗都大幅降低.滾動優化把整個RHC任務過程分為一個個相互重疊(單步預測時是不重疊的)但不斷向前推進的優化區間,稱為滾動時域.在某一滾動時域的開始,用系統的當前狀態作為初始條件,在線求解該有限時域開環最優控制問題,得到最優控制序列.并在該時刻,僅取最優控制序中的第1個控制信號實際作用到系統中.在下一滾動時域,重復以上過程.隨著動態過程的延續,控制算法推進預測時域向前滾動,從而形成滾動優化.對于含狀態約束以及輸入約束等限制條件的系統,在不知道目標未來運動信息的條件下,滾動時域控制是一種有效的控制方法[15-16].滾動時域控制原理如圖2所示.
通過以上分析,假設每一次決策之間的時間間隔是固定的,定義任意起始時刻tk的滾動時域為[tk,tk+nΔt],n 為滾動時域步長,Δt為決策時間間隔,則圖中可表示為.根據第 2 節所建立的專家系統空戰機動決策最優控制模型,則求解滾動時域內最優控制序列[utk|tk,utk+Δt|tk,…,utk+nΔt|tk]的指標函數為

圖2 滾動時域控制原理圖Fig.2 RHC schematic

設定空戰初始條件為原專家系統中未定義的空戰態勢,即原專家系統失效,通過原專家系統和改進后專家系統的仿真對比,驗證改進后的專家系統具有更強的適應性.仿真初始條件如表1所示.

表1 仿真初始條件Table 1 Initial conditions for simulation
圖3和圖4分別為原專家系統空戰仿真結果和滾動時域法改進后的專家系統仿真結果.
由圖3可以看出空戰開始,原專家系統就出現失效狀況,我機維持起始飛行狀態,作勻速直線運動,我機態勢優勢值也呈現遞減的趨勢,最終被敵機擊落.

圖3 原專家系統機動決策Fig.3 Expert system maneuver decision

圖4 改進專家系統機動決策Fig.4 Improved expert system maneuver decision
圖4為引進滾動時域法后的專家系統,在專家系統決策出現失效的情況下,系統采用滾動時域控制代替專家系統進行空戰機動決策.如圖4所示,敵我空戰開始時刻,專家系統出現失效,滾動時域法求解最優控制機動.第1階段,我機作偏航純跟蹤機動,向敵機偏轉同時保持一定的增速;第2階段,我機通過最大加速直飛行機動與敵機拉開距離;第3階段,當我機和敵機拉開一定的距離,我機作最大過載左轉彎機動,快速向敵機偏轉;第4階段,當我機角度向敵機偏轉到一定角度時,我機對敵機形成側向攻擊態勢,由專家系統進行決策,我機繼續采用最大過載左轉彎機動;第5階段,通過前兩個階段的最大過載左轉彎機動,我機與敵機形成迎頭攻擊態勢,繼續由專家系統進行決策,我機采用偏航純跟蹤機動,實現對敵的跟蹤.由圖4可知,引進滾動時域法后的專家系統,在專家系統法失效的情況下,仍能做出有效的機動,實現敵我態勢的逆轉,我機態勢優勢值呈遞增的趨勢.
本文建立了一套基于滾動時域的無人戰機空戰決策專家系統.通過與原專家系統的仿真對比,驗證了改進后的系統在專家系統法失效的情況下,能快速地進行自主決策,使我機有效地規避目標威脅并達成攻擊條件.基于滾動時域的無人戰機空戰決策專家系統不僅保留了專家系統機動決策法的優點,而且克服了專家系統法適應性差的缺陷.綜合分析可得基于滾動時域的無人戰機空戰決策專家系統的特點為:
1)系統能充分發揮專家的經驗優勢,決策過程不需復雜的算法計算,有利于提高機動決策的實時性.
2)系統具有良好的可維護性和擴展性.對于不同的機型,系統可以根據需要對知識庫中的知識進行增刪、修改、擴充等操作.
3)系統具有更強的靈活性和適應性.系統綜合使用專家系統法和滾動時域法進行決策,在任何的空戰態勢下,都能做出有效的機動決策.
除了實現對專家系統的改進,本文建立的專家系統機動決策最優空戰模型,對以后專家系統的研究以及智能算法的引入都具有一定的借鑒意義.
References)
[1] Galati D G.Game theoretic target assignment strategies in competitive multi-team systems[D].Pittsburgh:University of Pittsburgh,2004.
[2] Imado F,Kuroda T.A method to solve missile-aircraft pursuitevasion differential games[C]∥Proceedings of the 16th IFAC World Congress.Laxenburg:IFAC,2005,16:176-181.
[3] Virtanen K,Raivio T.Modeling pilot’s sequential maneuvering decisions by a multistage influence diagram[J].Journal of Guidance,Control,and Dynamics,2004,27(4):665-677.
[4]董彥非,郭基聯,張恒喜.空戰機動決策方法研究[J].火力與指揮控制,2002,27(2):75-78.Dong Y F,Guo JL,Zhang H X.The methods of air combat maneuvering decision[J].Fire Control& Command Control,2002,27(2):75-78(in Chinese).
[5]趙威.基于專家系統的雙機協同攻擊決策技術研究[D].西安:西北工業大學,2007.Zhao W.Based on expert system coordination air fight decision research[D].Xi’an:Northwestern Polytechnical University,2007(in Chinese).
[6] Platts JT,Howell SE,Peeling E C,et al.Increasing UAV intelligence through learning[C]∥AIAA 3rd“Unmanned Unlimited” Technical Conference,Workshop and Exhibit.Reston:AIAA,2004,1:270-282.
[7] Xiao L,Sun D,Liu Y,et al.A combined method based on expert system and BP neural network for UAV systems fault diagnosis[C]∥2010 International Conference on Artificial Intelligence and Computational Intelligence.Piscataway,NJ:IEEE Press,2010,3:3-6.
[8] Xu B,Kurdila A,Stilwell D J.A hybrid receding horizon control method for path planning in uncertain environments[C]∥The 2009 IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway,NJ:IEEE Press,2009:4887-4892.
[9] McGrew JS,How J P,Williams B,et al.Air-combat strategy using approximate dynamic programming[J].Journal of Guidance,Control,and Dynamics,2010,33(5):1641-1654.
[10] Fred A,Giro C,Michael F.Automated maneuvering decisions for air to air combat[R].Reston:AIAA,1987.
[11] James SM.Real-time maneuvering decisions for autonomous air combat[D].Massachusetts:Massachusetts Institute of Technology,2008.
[12]馬偉江,姚佩陽,周翔翔.改進的超視距空戰態勢評估方法[J].計算機工程與設計,2011,32(6):2096-2099.MaW J,Yao P Y,Zhou X X.Improved method of situation assessment in BVR air combat[J].Computer Engineering and Design,2011,32(6):2096-2099(in Chinese).
[13]吳文海,周思羽,高麗.基于導彈攻擊區的超視距空戰態勢評估改進[J].系統工程與電子技術,2011,33(12):2679-2685.Wu W H,Zhou S Y,Gao L.Improvements of situation assessment for beyond-visual-range air combat based on missile launching envelope analysis[J].Journal of Systems Engineering and Electronics,2011,33(12):2679-2685(in Chinese).
[14]張洪波,李國英,丁全心.超視距空戰下的態勢評估技術研究[J].電光與控制,2010,17(4):9-13.Zhang H B,Li G Y,Ding Q X.Research on situation assessment in BVR air combat[J].Electronics Optics & Control,2010,17(4):9-13(in Chinese).
[15]付昭旺,李戰武,強曉明.基于滾動時域控制的戰斗機空戰機動決策[J].電光與控制,2013,20(3):20-29.Fu ZW,Li ZW,Diang X M.Tactical decision-making method based on receding horizon control for air combat[J].Electronics Optics & Control,2013,20(3):20-29(in Chinese).
[16] Bellingham J,Richards A,How JP.Receding horizon control of autonomous aerial vehicles[C]∥Proceedings of the American Control Conference,2002.Piscataway,NJ:IEEE Press,2002,5:3741-3746.