方 偉,王玉佳,徐 濤,林 沖
(海軍航空大學, 山東 煙臺 264001)
當前,隨著人工智能技術的不斷發展,航空兵智能作戰的研究成為熱點問題。空中智能作戰平臺不斷取得超越人類的能力,如“蒼鷺系統”人工智能團隊以5:0的成績在“狗斗”中戰勝真實人類飛行員團隊。智能決策是航空兵有效實施作戰行動的基礎和關鍵,傳統有人駕駛的航空兵作戰平臺,決策命令主要依托人類大腦完成,而人工智能技術的發展徹底改變了這一方式,使得空戰機動智能決策[1]在反應能力、準確性等多個方面逐漸超越了人類。目前可解決智能決策的方法有:遺傳算法[2]、微分對策法[3]、影響圖法[4-6]、矩陣對策方法[7]、專家系統[8]、蒙特卡洛樹搜索法[9-10]等。
智能決策的核心目標是決策信息的及時、有效和準確輸出,帶動平臺各類設備的協調、有序工作,進而完成整個作戰行動。目前,智能決策算法研究較多,但對決策算法評估的研究相對較少,本研究以航空兵智能空戰為例,從有效性、實時性、魯棒性等三方面對決策評估方法進行研究,分析各種評估方法的原理、數學模型以及優缺點,最終提出對決策評估方法的研究展望。
空戰決策指在空戰中為戰勝對方保存自己而進行的行動選擇。空戰對抗中傳統有人駕駛的航空兵作戰平臺每一次決策行動都要經過觀察戰場態勢、做出準確判斷、下達決策命令、指揮實施行動等一系列動作。空戰過程可以描述為這一系列動作的循環演進。
為實現空中作戰行動穩定、快速、有效,人工智能決策發揮著重要作用。相比較傳統有人駕駛的航空兵作戰平臺,空中智能作戰平臺不需真人進行決策指揮,利用智能算法得出行動決策,實施行動后,此決策做出的效果好壞,需要一個結果反饋,即為決策評估。決策評估結果反饋智能決策,指導下一次決策行動做出更有利的智能決策,如圖1所示。一個智能決策的好壞直接影響到下一刻的戰場態勢,對決策進行評估可為下一次決策行動的戰場態勢感知與判斷作準備,以此可見決策評估是十分重要的。

圖1 空中智能作戰平臺決策行動流程框圖
針對決策評估方法的側重點,從有效性、實時性以及魯棒性三方面對評估方法進行研究,如圖2所示。

圖2 智能決策評估方法框圖
決策算法的有效性用于描述完成決策的動作后實現想取得的結果的程度,換言之,有效性對應決策算法是否正確或者正確率的高低。在智能化空戰中,計算機自主生成的每一次決策都將影響最終的戰斗結果,決策的有效性將成為決勝的關鍵,有效性高的一方更容易取得空戰的勝利。因此,有效性事關決策是否可行,對決策的效果進行評估是檢驗決策方法有效性的直觀手段,也是仿真智能體對決策進行合理選擇的依據。對決策有效性進行評估的方法分為數學模型實時評估法、勝負結果評估法以及關鍵決策點評估方法等。
數學模型實時評估法是利用空戰雙方三維軌跡數據構建實時評價模型來進行決策有效性的評估。首先建立實時三維軌跡的運動學方程,其次構造數學評估模型,最后將運動學方程得到的數據代入評估模型中,得到的數據結果進行大小比較以此評估決策的有效性高低。目前,智能算法的有效性評估大多采用此方法。
在空戰對抗仿真中,用空戰雙方三維軌跡圖來描述對抗過程是最直觀的方法。空戰三維軌跡圖通常是利用空中智能作戰平臺的飛行控制量與狀態量的數學關系得到:根據數學關系式,輸入不同的控制量得到隨時間變化的飛行狀態量,以此得到空戰雙方的飛行數據軌跡。
文獻[11]和文獻[2]在空中智能作戰平臺飛行過程中,將其看作質點,忽略地球曲率、高度變化對于重力加速度的影響,因控制量與狀態量數學關系不同,得到的空中智能作戰平臺三維空間中空戰機動軌跡的運動學方程不同。其中,文獻[11]將空戰基本機動動作庫中的基本動作按照翻轉角、油門、過載3個控制量數值大小劃分成相應飛行狀態。在智能決策選定機動基本動作后,按相應控制量的數學關系得到飛行狀態量。文獻[2]與之不同之處在于選擇加速度、航跡俯仰角變化率、航跡偏轉角變化率作為控制量,由此得到飛行狀態量。以這兩篇文獻為例,用不同控制量和不同數學關系式得到飛行狀態量,最終得到空戰雙方的飛行數據軌跡。
在評估智能決策有效性的方法中,可以利用空戰三維軌跡圖中的數據進行決策評估的方法有相對位置關系法和基于機器學習的優勢函數法等。
3.1.1相對位置關系法
相對位置關系法中可進行相對位置分析的指標有位置優勢定性分析、滯后角等。
位置優勢定性分析是指一種能量機動理論:將己方的能量優勢通過一系列機動動作轉化為位置優勢;一種角度機動理論,空戰中用最快的速度占據有利位置優勢(通常指己方機頭指向敵機尾部)[12],如圖3所示。利用此理論,文獻[13]中對基于動態貝葉斯網絡機動的決策算法進行有效性評估的指標為對抗雙方誰優先達到武器發射條件,即占據對方后方有力攻擊位置。誰先占據有力攻擊位置,擁有位置優勢,則說明此方的決策更有效。文獻[14]在仿真過程中也利用了相同的思想,從空戰三維位置數據中判斷空中智能作戰平臺的高度優勢大小,通過將勢能化為動能,俯沖攻擊,占據有利的攻擊陣位,相應地判斷決策有效性高低。文獻[15]在仿真過程中也提及了用相對敵機高度優勢以及武器發射所需的速度指向等指標來進行對空戰效果的評估,以此驗證決策是否真正有效。

圖3 位置優勢示意圖
位置優勢定性分析來評估空戰智能決策有效性,在評估過程中更直觀,但是偏向于定性分析,嚴謹性不足,無法用數學思想進行解釋。
滯后角[16]的大小也是一種描述位置優勢的方式,如圖4所示。R表示紅方,B表示藍方;RB連線為紅方與藍方的位置連線;α為滯后角,表示紅方速度方向與RB之間的夾角;β為超前角,表示藍方速度方向與RB延長線之間的夾角。

圖4 滯后角示意圖
在空中智能作戰平臺進行智能空戰的過程中,評估決策有效性的方法為觀察滯后角和超前角的變化:當滯后角最先趨于0,則說明紅方繞到了藍方后側,咬住藍方,紅方取得優勢;當超前角最先趨于180°,則說明藍方繞到了紅方后側,藍方取得優勢。
綜上所述,相對位置關系法的核心思想是能量機動理論以及角度機動理論。按照此思想構建的評估指標有位置優勢定性分析、滯后角等:用位置優勢定性分析評估空戰智能決策有效性,在評估過程中更直觀,但是偏向于定性分析,無法用數學思想進行解釋;選用滯后角的大小來衡量位置優勢,相比文字定性說明更具有嚴謹性。
3.1.2基于機器學習的優勢函數法
機器學習在空戰智能決策中應用較多,利用遺傳算法來優化空中智能作戰平臺基本戰術飛行動作的組合方式以此得到更有利的動作決策[17];利用遺傳算法來優化空中智能作戰平臺控制量:加速度、航跡俯仰角變化率、航跡偏轉角變化率以此進行智能決策[2];利用遺傳算法優化專家系統編碼,以此得到進化式有規則的專家系統[18]。基于遺傳算法進行空戰智能決策的決策評估方法中都利用了優勢函數。利用改進的共生生物搜索算法從而進行空戰機動智能決策[19],利用滾動時域的專家系統進行空中智能作戰平臺空戰智能決策[20],在評估決策方法是否有效時,也利用了優勢函數。
優勢函數是空中智能作戰平臺在空戰對抗中自身所含優勢大小的一種定量表示。利用數學模型構建優勢函數,得到對抗過程中決策前后優勢值的大小變化來評價決策效果。優勢函數增大則說明決策有一定的有效性,并且優勢函數法是目前使用較多的決策有效性評估方法。
優勢函數的構建方式有很多種:文獻[17]中的優勢函數由攻擊條件、速度優勢、高度優勢構成,優勢函數構造過于簡單,不能涵蓋空戰過程中的主要方面;文獻[2]的優勢函數與角度、速度、隱身、高度、攻擊優勢函數和破壞跟蹤函數有關,涵蓋的范圍較為全面,但是求解過程不免過于繁瑣,各因素之間存在交叉影響的情況,結果不夠準確;文獻[19]的優勢函數由空戰態勢優勢和戰機性能優勢構成,不僅從空戰態勢出發進行分析,并且將空中智能作戰平臺的性能與之一起分析,最終得到結論;文獻[20]的優勢函數考慮的因素是角度優勢、距離優勢和能量優勢,模型過于簡單。文獻[21]、文獻[22]和文獻[23]研究的主要內容是超視距空戰中飛機優勢函數的構造問題:文獻[21]構造的優勢函數為速度優勢、距離優勢和角度優勢;文獻[22]研究的是態勢優勢、效能優勢以及事件優勢構成的綜合優勢函數;文獻[23]提出,不論敵我雙方誰要取得空戰勝利,都必須首先進入一定的武器攻擊區,所以空戰態勢優劣問題變成了雙方態勢對武器攻擊區的影響,由此建立優勢函數。
綜合分析,所有的優勢函數構建存在相同點,主要區別在于關注點不同,文獻[19]中提出的綜合優勢函數對影響因子具有更加全面的涉及,不僅涵蓋了上述優勢函數的主要影響因子,同時提出的各個影響因子互相獨立且不交叉。其綜合優勢函數的定義主要包括空戰態勢優勢和戰機性能優勢兩方面。
空戰態勢優勢由角度優勢、距離優勢、速度優勢和高度優勢構成。其中,角度優勢SA從兩方面進行考慮:一是敵機是否在我方雷達探測角范圍內;二是敵機是否在我方導彈發射角范圍里,將敵我幾何態勢進行劃分,定義角度優勢函數。同理,其他優勢函數分別從距離、速度和高度等不同維度進行了定義。
戰機性能優勢主要體現在機動優勢、火力優勢、探測優勢、操縱優勢、生存力優勢、航行優勢和電子對抗能力優勢等方面,采用參數計算法對其進行建模,具體公式如下:
h=[lnB+ln(∑A1+1)+ln(∑A2+1)]ε1ε2ε3ε4
(1)
式中:B為機動參數;A1為火力參數;A2為探測能力參數;ε1為操縱效能參數;ε2為生存力參數;ε3為航程系數;ε4為電子對抗能力系數。
綜上所述,空戰態勢優勢和戰機性能優勢共同構成綜合優勢函數,
S=k1SA+k2SD+k3SV+k4SH+k5SF
(2)
式中:k1、k2、k3、k4、k5為權重;SD為距離優勢;SV為速度優勢;SH為高度優勢;SF為戰機性能優勢。
在使用數學模型實時評估法進行數學計算時,計算量越少,計算越快速、得到的數據越直觀,但相應地準確度越低、全面性不強、說服力不夠;計算越復雜的,得到的數據準確度高、全面性強但存在計算速度較慢的問題,特別是基于機器學習的優勢函數法。優勢函數法應用的數學公式較多、計算過程繁瑣、計算量大,但正因如此,考慮的實時因素更加全面、數學模型更加具有科學性。優勢函數法雖計算速度相對較慢,但在滿足有效性的前提下,實時性不低,適用于有效性要求高、需精準獲取實時評價數據的決策評估中。
在評價空戰決策有效性的方法中,除了利用空戰過程中數據進行實時評估的方法外,通常也會利用空戰的結果構造評價指標直接進行決策評估。空戰勝負結果評估法是在空戰各個小階段對抗結束后,根據階段的戰斗結果建立數學模型進行決策優劣的評估。此評估方法利用的數據只有各階段的對戰結果,即敵方毀傷率和我方毀傷率[24],無需空中智能作戰平臺的各個狀態參數,在計算方法上比數學模型實時評估法更為簡便。與實時評估法相同的是,評價指標的數值越大,說明對戰勝率越高,決策有效性越高。
文獻[25]在敵方毀傷率和我方毀傷率的基礎上,提出利用層次分析法評估決策有效性。評價指標具體計算公式如下:
mid=w1p1+w2/p2
(3)
其中:mid表示評價指標;p1表示敵方毀傷率;w1表示敵方毀傷率所占權重;p2表示我方毀傷率;w2表示我方毀傷率所占權重。mid越大,說明我方勝率越高,決策越有效。此方法利用的評價指標公式通俗易懂、計算量較小,但是權重系數的選擇不好掌控,受專家個人因素影響較大。
文獻[18]中空戰的戰效函數為遺傳算法的進化函數,亦為決策有效性的評價函數。戰效函數越大,空戰優勢越大,決策越有效。戰效函數數學表達式如下:
ffit=S+exp(-c*T2/T1)
(4)
其中:S表示勝負的得分;exp(-c*T2/T1)為修正項;T1、T2分別為此場空戰中敵我雙方雷達捕獲對方的總時間;C為修正系數。相比較文獻[25]來說,文獻[18]提出的戰效函數計算量上稍有復雜,但減小了人為因素對實驗結果的影響。
綜上所述,與實時評估法相同的是,勝負結果評估法評價指標的數值越大,說明對戰勝率越高,決策有效性越高;不同之處在于勝負結果評估法利用的數據只有各階段的對戰結果,具有計算量低、實時性好、評價指標與各階段勝負結果直接掛鉤,決策評價更直觀等方面的優勢。
文獻[26]和文獻[27]提出重構空戰對抗中的決策過程以此來進行決策有效性的評估。在近距空戰和中距空戰決策過程中提出“關鍵決策點”這個概念,通過比較在整個空戰決策中雙方關鍵決策點數量的多少,以此來衡量智能決策有效性的大小。
關鍵決策點是指可以直接影響空戰結果的決定性決策點。以空戰過程中的相對方位函數或相對能量優勢函數的變化來加以衡量,即:使相對角度開始減少或者相對能量優勢開始增加的時刻為關鍵決策點[26]。文獻通過仿真實驗得到驗證,關鍵決策點越多,整個決策過程有效性就越好。
關鍵決策點法是利用關鍵決策點的數量多少進行決策有效性評估的方法,難點在于關鍵決策點的確定上。文獻提出的關鍵決策點確定方法的原理與文獻[12]中采用的理論相差無幾——能量機動理論和角度機動理論,只在表述形式上存在差異并且引入了熵這個概念。此種方法有一定的創新性,但在計算關鍵決策點的過程中,計算過程會比較繁瑣,實驗結果驗證較為困難。
除上述評估決策有效性的方法之外,還存在一種方法:借鑒權威文獻的數據,將使用待驗證決策算法得到的實驗結果與權威文獻的實驗結果進行分析比較,以是否會得出相同的結論來評判待驗證決策算法的優劣。
在智能空戰中,決策周期長、決策不及時,就會失去決策意義;決策周期足夠短,決策才能發揮實時性的作用,及時指導空中智能作戰平臺做出對抗動作,最終贏得戰斗勝利。決策算法的實時性指的是在有限的時間里,決策算法所在系統的反應能力,換言之,實時性描述決策的快慢。本文研究的決策評估基于智能空戰,空戰態勢瞬息萬變,不能在有限的時間里快速做出有效的決策,空戰取勝只會變成紙上談兵。通過文獻查閱發現,評估決策實時性最常用的方法有2種:一是決策算法的進化收斂速度;二是統計頻數圖。
決策算法的進化收斂速度通常利用目標函數收斂時,算法迭代次數的多少進行實時性好壞的比較:算法的迭代次數越少,收斂速度越快,決策實時性越好。文獻[17]、文獻[2]和文獻[28]在進行決策算法的仿真實驗中,目標函數逐漸收斂,以此得到收斂時算法的迭代次數,通過比較算法的迭代次數,評價算法的進化收斂速度,評估決策的實時性。
統計頻數圖是通過將仿真實驗中各個決策算法工作用時的多少進行統計與分析以此進行實時性好壞的比較。文獻[11]在仿真實驗時將不同算法進行決策所用的時間進行記錄統計,做出統計頻數圖,頻數越少代表決策用時越短,實時性越好。
將這2種方法進行比較:利用算法收斂速度來判別實時性的方法應用相對較多,通過比較不同算法收斂時所進行的迭代次數可直接得到實時性優劣,具有結果直觀的特點;統計頻數圖法雖也可通過比較算法用時的時間長短以此比較實時性好壞,但算法的實驗環境不同,前提條件設置不同,缺乏可比性。
在決策實時性評估的過程中,許多傳統方法不需進行實驗,依據自身存在缺陷便可知實時性不強。例如,需進化的決策算法或者需在線進行優化的算法等,計算量龐大并且需高配置的硬件支持,雖然具有較高的有效性,但實時性不佳。
魯棒性指的是異常情況下決策系統生存的能力,即決策結果能夠適應因為不確定性的因素相互作用而引發的可能情形[29]。決策算法的魯棒性是指決策系統的穩定與抗突變能力,決定了決策系統的穩定性。例如在飛機機動飛行時,控制系統的魯棒性會對飛行安全造成致命影響,文獻[30]在研究武裝直升機機動飛行時,對控制系統中的魯棒性單獨進行分析,設置魯棒控制器從而控制其飛行機動的魯棒性。
文獻[31]驗證決策魯棒性的主要做法是在已獲得的真實有效的實驗數據中混入錯誤信息,重新進行仿真實驗,觀察得出的結果是否與之前相同。如果結果大致相同且數據穩定,則說明此智能決策算法具有良好的魯棒性;如果結果相反,則說明魯棒性不佳。這種評估決策魯棒性的方法實施條件較為簡單,不需額外進行實驗搭建,只需控制相同變量即可,是一種較為簡便的方法。
除混入錯誤數據這種方法外,比較目標函數的方差也可作為評估魯棒性的方法。文獻[32]為優化空戰火力分配問題,提出用適應度函數值的數學期望作為最優性指標,適應度函數值的方差作為魯棒性的指標。方差大小直接反映魯棒性的好壞,方差大則魯棒性差,方差小則魯棒性好。這種利用方差進行魯棒性評估的方法,不僅適用于空戰火力分配問題,在其他的空戰決策優化問題中也具有應用價值。
根據空戰智能決策評估方法的側重點,從評估決策有效性、實時性和魯棒性3個方面的方法進行梳理,理論依據更充分的方法有:決策有效性評估方法中的優勢函數法、勝負結果評估法,實時性評估方法中的算法進化收斂速度法以及魯棒性評估方法中的目標函數方差法。目前,絕大部分研究對智能決策算法優劣的評估主要側重于有效性,并且在決策算法是否合理的仿真驗證工作中,大多只進行了有效性的驗證,對實時性和魯棒性的驗證相對較少。今后的工作應強化對實時性和魯棒性評估方法的研究,這樣更有利于滿足工程化、實用化的需求。
雖然個別方法具有良好的可操作性,但是從文獻綜合分析情況看,尚缺乏系統化的決策評估體系。針對空戰智能決策進行評估,要根據所面臨的作戰背景和作戰要求,采取不同側重點和不同方向的評估。以決策的有效性、實時性和魯棒性為評估目的,形成一種評估體系可作為今后研究智能決策的方向。將3個評估方向根據不同空戰場景、火力條件以及天氣環境等影響因素進行合理的側重點分配,是構建系統評估體系必須要解決的問題。評估決策的側重點不同,主次不同,評估方法也不同。決策評估體系的構建不僅適用于智能空戰,同時在人工智能中決策評估也是必不可少的重要環節。因此,智能決策和決策評估作為智能空戰的兩個相互作用、相互依存的環節,應共同研究、共同發展。