劉佳琪,彭程遠,張 超,劉成國,劉 芳
(1. 北京航天長征飛行器研究所,北京,100076;2. 試驗物理與計算數學國家重點實驗室,北京,100076)
高速飛行武器作為現代戰爭最具威懾力的作戰裝備,發揮著不可替代的作用,隨著現代飛行器對抗作戰向著體系化、智能化、信息化等方向發展,復雜系統博弈及其指導理論,作為飛行器對抗作戰的重要組成部分,也在同步進步發展。博弈理論自誕生以來,廣泛應用于經濟、社會、科學、軍事等各個方面,并取得了重大發展。在軍事領域,彈道飛行器的攔截與反攔截場景是典型的追逃博弈問題,其作為在現代戰爭中具有強大威懾能力的殺手锏武器,飛行器防御技術的出現和進步,極大地推動了彈道飛行器機動技術和各種對抗技術的發展,并使得飛行器博弈進入新的發展階段。在新發展階段中,復雜系統博弈理論和方法在現代實戰中獲得應用和發展,在飛行器設計、作戰戰法、體系評估核效能評價方面發揮著重要作用。
動態博弈場景構建,是進行復雜系統博弈研究的基礎,主要方法有蘭徹斯特方程法、Agent建模方法、離散事件動態系統建模方法、網絡模型方法和Petri網模型方法等。
經典的體系對抗模型構建是基于蘭徹斯特方程的方法,其以微分方程的形式描述體系對抗過程的對抗性與動態性,但存在對高度聚合的部隊進行模擬時反應遲鈍,只注重兵力數量的變化等問題,難以適應當今信息化條件下的體系作戰場景。
Agent建模理論是一種研究大量個體,或由他們交互而出現的宏觀尺度行為的一種向實體對象的建模方法,能夠通過自底向上、從個體到整體、從微觀到宏觀來研究系統的復雜性。多Agent理論的基本思想是將復雜系統劃分為若干智能體,從研究個體微觀行為入手,進而獲得系統宏觀行為,具有互耦合性、自治性、并行性等特點。采用多Agent系統理論進行作戰系統的建模,須考慮各Agent模型之間的通信開銷,并建立Agent之間完善的控制機制,缺乏協作的全局觀點。
離散事件動態系統(Discrete Event Dynamic Systems,DEDS)建模方法,是一種形式化、模塊化、層次化描述機制,用于離散事件系統的建模和仿真,廣泛應用于軍事、經濟等領域。DEDS一種能夠對離散事件系統進行動態仿真,層次結構清晰的建模與仿真方法,特別適合作戰過程的形式化建模仿真。但是,難以處理連續、隨機、時延等過程,實際應用的效果受到很大的限制。
網絡模型將作戰單元和作戰過程抽象為節點和邊,形成一個復雜的作戰網絡,通過網絡反映作戰過程中雙方的沖突、內部的合作與協調。目前對復雜網絡的研究和應用大多是單向的,通過分析現有的復雜系統數據,得到復雜系統的結構和性質,實證研究多,建模研究少。
Petri網模型可以描述和分析離散事件系統的沖突、并發、共享資源和優先級等特征。傳統的Petri模型只適用于離散事件的動態博弈系統的建模,經過發展,形成了多種改進的Petri網模型,例如有色Petri網、隨機Petri網、對象Petri網等,同時也發展了GreatSPN、Charlie、Snoopy、PIPE等多種Petri網建模與仿真工具軟件,并廣泛應用于復雜系統對抗中的探測、攔截博弈場景建模。現有的基于Petri網的建模方法僅能描述一種或兩種混雜特性,無法同時描述作戰系統中存在的離散、連續、隨機、時延和決策多種混雜特性。混雜隨機時延Petri網[1](HSTPN-Hybrid Stochastic Timed Petri Nets)是一種基于條件事件網改進的高級Petri網模型框架,含有離散、連續、隨機、時延和控制5種庫所,可對復雜系統博弈過程中存在的多種混雜特性以及連續動態進行建模。
矩陣博弈法要求根據攻防環境與局勢,列出當前攻防雙方的博弈矩陣,并求取納什均衡,做出優化決策,視戰場情況有目的地實施對抗策略。飛行器在進行大量的數據收集分析后,得到最優策略集,依此制定戰術策略,完成自主化對抗任務。
矩陣博弈法已應用于完全信息條件下的多目標打擊決策建模,不確定信息條件下的戰場火力分配建模,以及反攔截機動博弈制導建模等。周興旺等[2]針對作戰過程中不確定性以及確定性信息共存的情況,提出了貝葉斯混合博弈火力分配模型;Gong H等[3]使用非合作博弈方法,提出了火力分配決策模型,將火力分配方案作為局中人策略進行優化;Wei M等[4]使用了帕累托博弈論方法進行建模,使用機器學習方法進行了模型的求解優化;李博文等[5]針對一對一、多對一攔截兩種情況,運用動態博弈與矩陣對策相結合的方法,將攔截彈末制導過程轉化為博弈論中的二人競爭博弈模型。
制定對抗策略的過程如果在彈上實現,對計算速度、時間有很高的要求,彈載計算機的計算能力有限,難以工程應用。若實現進行地面訓練,由于矩陣博弈是將研究對象的狀態變量和控制策略在時間和控制性質上離散后得到的方法,其解是次最優的,存在策略精度不足的問題。
用微分方程描述的動態過程雙方對策控制的理論和方法稱為微分對策。20世紀50年代以來,美國蘭德公司在空軍贊助下,以Isaac博士為領導開始了研究,微分對策博弈最終可以得到博弈對抗雙方的機動策略。相較于最優制導律,微分對策理論不需要掌握敵方制導指令信息作為先驗知識,因此對加速度估計誤差的敏感度更低,并且微分對策制導律曲線更加平滑,有利于減少控制指令飽和與控制指令震顫的現象,更加符合實際應用的需求。
微分對策法廣泛應用于不同飛行階段的追逃問題、多飛行器協同博弈問題研究,能夠給出進攻方/防御方的微分對策制導律。Shaferman V等[6]在多飛行器協同博弈對抗問題中,分別就最優控制理論和微分對策理論提出了具有角度約束的協同制導律;Liang H 等[7]在考慮三方乃至四方博弈的復雜對抗場景中,利用線性二次微分對策理論解析的求出了多方博弈策略;鮮勇等[8]針對導彈中段的智能機動對抗問題,基于微分對策法建立了進攻彈和攔截彈的零和博弈模型,得到進攻彈的最優規避策略;熊思宇等[9]對于進攻彈采用的主動防御策略的情況下,基于微分對策提出了主動反攔截器和進攻彈的協同對抗機動策略。
基于最優控制理論與微分對策理論的解析博弈策略,主要利用變分法原理推導得到制導律的解析解,具有穩定、可分析的優點,但對計算資源以及攻防博弈成員相對位置、過載能力、響應速度等先驗信息有較為苛刻的要求,并且存在超參數選擇的問題。
概率評估分析通過建立概率模型對復雜系統攻防策略進行分析,主要思路是首先對攻防體系進行建模,進而對博弈雙方的關鍵行為策略,如探測、識別、攔截等,計算其成功的概率,最后評估攻防效果。概率模型可以采用伴隨技術、隨機服務理論、ADC模型、改進的ADC模型、多層防御系統的貝努利實驗模型等多種方法建立。
概率評估分析方法已應用于復雜系統博弈關鍵環節建模與效能分析。Menq等[10]通過離散時間馬爾科夫過程對多層防御系統進行了建模;高恩宇等[11]建立了飛行器穿透防守區域概率模型和目標識別概率模型,針對彈幕防御和射擊-觀察-射擊兩種不同的攔截模式基于簡化概率模型進行了分析。
概率評估分析法通過構建博弈關鍵環節的概率模型,可以直接給出效能評估;并且通過建立概率模型對攻防過程進行建模,可以對全過程進行分段研究。其不足之處為:a)目前的概率模型基本是靜態的,沒有考慮攻防博弈這一復雜過程的動態性,在對抗過程中概率隨著過程演化動態變化;b)由于攻防過程在時間上具有連續性,導致上述各種隨機事件之間具有不同程度的相關性,對概率的運算不能簡單運用加法和乘法原理,在文獻中多被簡化為獨立性;c)博弈中的博弈策略和手段具有多樣性,現有場景與概率模型偏簡化,難以反映博弈的多樣性。
在信息技術發展的推動下,特別是物聯網、大數據和人工智能等技術的支撐下,復雜系統博弈博弈理論方法也將逐漸邁入智能化發展階段。深度強化學習是現代機器學習的一個分支,成功地應用于序貫決策領域。2015年Mnih將深度神經網絡與強化學習相結合,對游戲AI智能體進行訓練,其性能超過以往的所有方法,甚至超過了人類頂尖高手的水平。強化學習與傳統解析方法相比,另一個巨大優勢在于,它可以使用飛行器和環境的高保真模型進行學習;Brain等利用深度強化學習,針對飛行器著陸問題,提出了一個自適應智能制導方法,在特定環境下進行訓練的智能體可以通過少量的訓練適應新的環境,這表明利用參數不確定性進行訓練能得到具有魯棒性的智能體。
智能博弈技術是智能化軍事應用的基礎和共性技術,是解決指揮控制中作戰方案生成、任務規劃及離線決策等智能化的關鍵,同時也是訓練模擬、自主集群無人化作戰等軍事關鍵領域智能化建設的核心技術基礎。基于深度強化學習的智能博弈技術,是將以深度學習和強化學習為代表的機器學習技術引入博弈對抗建模過程。利用數據、知識和規則等,結合機器學習方法,建立和優化博弈對抗過程中各類行動實體的決策模型,為作戰方案分析、戰法試驗分析及機器學習提供數據支撐,并使分析結果具有更強說服力,學習結果具有更高置信度。朱建文等[12]構建基于強化學習的多目標決策架構,設計以分配向量為基本元素的動作空間,以及基于量化性能指標的狀態空間,利用Q-Learning方法對協同攻擊方案進行智能決策;馬文[13]將博弈論和強化學習方法結合,在訓練過程中采用基于博弈論的ε-minimax探索利用策略,在生成空戰策略時使用Minimax算法通過線性規劃求解最優策略,實現最優的機動決策序列快速生成;Du等[14]建立了基于深度強化學習的導彈攔截環境,使用確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)方法訓練攔截Agent。多智能體方法和DDPG方法也可以與多智能體方法結合,進行多智能體追-逃博弈協同作戰決策;Shalumov V[15]針對目標-攔截器-反攔截器三方博弈對抗場景,利用策略梯度法訓練進攻方的智能體,以求尋找到最佳發射時間和最優導引律來提高對抗勝率。
基于深度強化學習的智能博弈技術的突破對解決高動態、不確定性及復雜戰場環境下的智能決策問題,支撐智能化指揮控制的共性基礎理論與技術,具有重要的理論意義和應用價值。與解析法相比,智能博弈技術具有更高的計算效率,能夠實現實時應用。基本采用兩步法:a)利用解析策略生成最優策略數據集;b)利用預生成的策略數據對深度神經網絡進行訓練。在實際應用中,得到充分訓練的深度神經網絡可實時生成指令。然而兩步法只適用于確定性場景,通過解析法能夠獲取大量最優策略數據。在不完備信息攻防博弈問題中,場景存在大量不確定信息,難以通過蒙特卡洛仿真獲取大量最優策略數據用于訓練深度神經網絡。
系統效能是指在給定條件下系統能夠特定的目標的能力。飛行器攻防效能評估主要是利用飛行試驗、地面試驗、仿真試驗等手段,評價進攻方飛行器在防御系統實施探測、識別、攔截的威脅條件下,采取針對性對抗措施,成功完成任務的能力。
從進攻方飛行器與防御系統的攻防對抗過程來看,飛行器攻防對抗效能評估主要涉及到對防御系統的反探測能力、反識別能力、反攔截能力等。
張克等[16]在對武器系統作戰效能評估問題的探討中提到,系統在開始執行任務和執行任務過程中的狀態以及最后完成給定的構成任務的程度共同構成了系統的效能,并根據層次分析法給出了飛行器攻防效能結構,包括隱身能力、機動能力、電子對抗能力和火力對抗能力;齊玲輝等[17]在導彈攻防對抗過程分析中給出了系統效能指標層次結果,其中,攻防對抗能力劃分為反探測能力和反擊毀能力;謝如恒[18]在彈道導彈中段機動攻防對抗技術研究中將攻防對抗效能分解為隱身(反發現)能力、反識別能力和反摧毀能力。
系統效能評估常用的評估方法有解析法、專家評估法、作戰模擬法等。
a)解析法
通過建立根據尺度參數計算性能指標的數學模型,代入實際系統的尺度參數,調用數學模型,即可計算出實際系統的性能指標,目前主要的方法有代數圖解構造法(Algebraic Diagrammatic Construction,ADC)、系統效能分析法(System Effectiveness Analysis,SEA)、層次分析法(Analitic Hierarchy Process,AHP)、邏輯分析方法、指數法、灰色理論方法、模糊數學方法、信息熵評估法等。朱楓等[19]利用灰色關聯度(Technique for Order Preference by Similarity to Ideal Solution,TOPSIS)的組合評估法,對反臨近空間武器作戰能力進行了綜合評估。通過構建防控導彈作戰能力指標體系,三角模糊數的層次分析法和信息熵法對各二級指標進行綜合賦權,再運用合適的評價模型與評價方法對飛行器的作戰能力進行綜合評估;葛魯親等[20]在層次分析法的基礎上,采用GA-BP神經網絡分別對攻防對抗雙方的指標體系能力效用值進行優化解算,避免了傳統層次分析法、熵權法在指標權重選取過程中后不確定因素影響的問題,精確地對飛行器協同攻防效能進行了評估。
b)專家評估法
通過專家經驗、專家打分和一些先驗信息等途徑進行評估,如專家打分法、模糊綜合評判法、群體多屬性決策法等,此類方法通過經驗、專家等途徑進行評估,受主觀因素影響較大。
c)作戰模擬法
又稱作戰仿真,主要通過建立武器系統的仿真模型,代入實際系統的尺度參數,引入隨機輸入,重復多次實驗,通過統計獲得實驗系統的性能指標,主要的方法包括Petri網以及人工神經網絡(Artificial Neural Network,ANN)、系統動力學法(System Dynamics,SD)、Monte Carlo法、Lanchester法等。陸夢馳[21]運用系統動力學方法,確定作戰效能評估SD模型的邊界,構建指揮信息系統作戰效能評估SD模型,為指揮信息系統作戰效能評估及各要素靈敏度分析提供方法和平臺;張斌等[22]利用仿真實驗研究復雜電磁環境對地空導彈的打擊效能,通過構建地空導彈在敵遠程電子壓制性干擾下擊落敵突防飛機的作戰模型,根據概率分析模型關心的參數,設計仿真實驗,對仿真結果進行分析,得到了地空導彈擊落目標概率的關鍵影響因素,為裝備改進和實戰運用中的參數設置提供了依據。
飛行器攻防效能評估是系統效能評估的一部分,為了較真實、較準確的反應對抗過程的效能指標的獲取,需要利用攻防對抗仿真,通過對攻防對抗仿真結果的統計分析,得到有價值的攻防效能指標。仿真實驗具有攻防要素全面、對抗過程模擬逼真的特點,是飛行器攻防效能評估的主要手段。地面試驗、飛行試驗為仿真試驗提供目標特性數據、攻防對抗動態關鍵環節數據,起到數據支撐與模型校核的作用。
2005年美國總統建議報告中指出,仿真技術是以下3個方面的結合:算法、建模和仿真軟件用于解決問題;計算機和信息技術用于開發和優化系統硬件、軟件、網絡和數據管理系統;計算基礎設施提供相關技術和工程問題的解決方案并促進計算機信息技術的發展[23]。美國分布式仿真技術經歷了從仿真器聯網(Simulation Networking,SIMNET)、分布式交互仿真(Distributed Interactive Simulation,DIS)、聚合級仿真協議(Aggregate Level Simulation Protocol,ALSP)、高層體系仿真結構(High Level Architecture,HLA)到可擴展建模與仿真框架(Extensible Modeling and Simulation Framework,XMSF)、試驗與訓練使能框架(Test and Training Architecture,TENA),再到實況虛擬構造(Live Virtual Constructive,LVC)架構的發展歷程[24]。在開始提出時,這些分布式仿真架構所支持的仿真類型各有側重,隨著技術的發展,它們之間的界限越來越模糊,下一代分布式仿真架構將同時支持各種類型的仿真。
中國在分布式仿真方面,主要有國防科技大學的KD HLA、北京仿真中心的SSS RTI、北京航空航天大學的AST RTI、清華大學的TH RTI等。大型仿真系統方面,美國根據不同目的,開發了空戰仿真、擴展防空模擬系統、聯合戰區級仿真、系統效能分析仿真等。
近年來,平行仿真技術在系統建模與仿真領域逐漸興起,在系統效能評估技術領域,也逐漸關注相關技術的發展。楊雪榕等[25]對裝備平行試驗概念進行了辨析,將平行試驗理論定義在并行試驗(物理靶場和人工靶場同步開展試驗)、虛實結合(利用人工系統靶場的虛擬對象和環境,補充物理靶場的作戰背景)、平行發展(通過機器學習、人工智能技術對實際試驗數據進行采集和學習,實現人工系統對現實系統的真實反映)3個層次。
由于飛行器攻防對抗評估需要設計大量的裝備、設備構建形成體系,從而評價其效能,全部使用實際裝備進行評估試驗難以實現,因此,需要采用其他技術途徑,模擬構建攻防對抗雙方的體系運用環境,開展效能仿真評估,仿真試驗床是其中一種方法和技術。20世紀80年代,美國實施“星球大戰”計劃時,就為動能武器和激光武器建立了試驗床,隨著技術的不斷發展,試驗床技術已應用于概念論證、技術攻關、系統繼承、演示驗證等各個階段。國外典型的試驗床包括美國Via Sat公司的空間通信試驗床、美國空軍的機動飛行器集成技術試驗床、美國DARPA的快速機動空間試驗床和Hallmark項目的太空作戰管理指揮與控制試驗床等。中國從2001年開始開展了試驗床的先期研究,在體系仿真、LVC仿真方面都取得了一定的研究成果,實現了試驗資源的互操作、可重用、可組合。
復雜系統博弈涉及導彈戰、電子戰、信息戰、決策戰等等,最能體現博弈論的特點,是對抗技術發展的理論支撐和學術價值體現,隨著信息技術、智能技術和計算機技術的不斷發展,復雜系統博弈將不斷推動對抗技術向著高級階段發展,對抗技術也最能牽引現代科技的蓬勃發展,兩者相互促進,螺旋式上升,在各國的高度重視下,復雜系統博弈理論必將向著智能特色更濃的方向發展。