馬子杰, 謝擁軍
(北京航空航天大學電子信息工程學院, 北京 100191)
巡航導彈是一種打擊精度高、生存能力強、作戰效費比高的戰術打擊裝備,但近年來通過整合海陸空天防御武器裝備形成體系化反導防御系統的構想得到驗證和實現,如美軍“海軍綜合防空火控”(Navy Integrated Fire Control and Control Air, NIFC-CA)系統,其預警探測范圍和攔截打擊能力較單個作戰平臺都有了巨大的提升,巡航導彈的作戰能力受到挑戰,沒有隱身性能的巡航導彈將無法完成作戰目標。傳統的巡航導彈隱身方法是通過結構設計和材料選取來降低導彈雷達散射截面(radar cross section, RCS),現在巡航導彈的態勢感知能力不斷提升,可以將傳統隱身手段與突防技術手段相結合,進一步提高隱身突防效能。動態隱身就是基于突防技術手段提出的隱身策略,巡航導彈通過自主感知戰場威脅,利用規避飛行或背景隱藏,降低在航跡上的雷達探測概率和攔截概率,確保巡航導彈在體系作戰中的作戰能力,這就需要研究體系作戰下巡航導彈的動態隱身航跡規劃算法。
深度強化學習是人工智能領域深度學習和強化學習兩大分支結合的成果,是目前動態規劃領域的研究熱點。近年來深度強化學習發展迅速,應用領域不斷擴展,其開始被應用于武器裝備智能航跡規劃和導彈制導律的研究,用以解決航跡規劃實時性問題。文獻[23]和文獻[24] 提出了基于深度強化學習的控制制導律,提升了制導的精度和魯棒性。文獻[25]探究了反導攔截系統的智能攔截策略,其算法能給出特定場景下是否發射攔截導彈、何時發射攔截導彈及發射后的最優導引律。文獻[26]提出了一種能規避靜態禁飛區和威脅區的無人機自主航跡規劃方法。文獻[27]在二維平面構建了靜態威脅區,巡飛彈基于深度強化學習算法避開威脅飛行區打擊目標,提升了巡飛彈的自主突防能力。
綜上所述,目前巡航導彈動態航跡規劃算法研究中針對預警雷達的威脅建模都屬于靜態建模,這難以適應對決策實時性要求較高的動態戰場環境。因此,為了真實地反映動態戰場環境,對體系作戰全過程進行動態建模,搭建了一個體系仿真平臺,利用該平臺在深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法獎勵函數中同時引入了探測概率獎勵和攔截脫靶量獎勵,更全面地反映了巡航導彈突防時面臨的體系作戰威脅,能進行體系作戰下的巡航導彈智能航跡規劃。
現代信息化戰爭是體系作戰,作戰時體系內各傳感器和武器系統共享信息和對敵方威脅協同打擊,其防空反導的作戰范圍和打擊精度都大幅提升。為了評估體系作戰下武器的真實突防效能,需要搭建相應的體系作戰仿真平臺。
圖1是巡航導彈突防NIFC-CA作戰體系的典型場景圖。巡航導彈的攻擊目標是艦船,期間有巡邏的預警機探測威脅和艦載攔截導彈的攔截威脅。

圖1 巡航導彈突防場景示意圖Fig.1 Schematic diagram of cruise missile penetration scenarios
圖2是預警雷達仿真平臺界面,采用E-2D預警機作為發射雷達平臺,利用隨機粗糙海面或地面數學模型模擬真實飛行環境,考慮地雜波和海雜波對低空飛行巡航導彈的影響,計算出巡航導彈在低空飛行時的RCS,模擬機載雷達進行必要的回波信號處理,設定巡航導彈被檢測出的最大門限電壓值,最終給出目標被探測概率。

圖2 預警雷達仿真平臺界面Fig.2 Early warning radar simulation platform interface
艦載攔截導彈攔截仿真系統的界面如圖3所示,仿真系統中可以導入巡航導彈和艦船的外形模型文件、運動軌跡文件和相應的速度矢量文件。根據預警雷達信號判斷是否發射艦載攔截導彈進行截擊。攔截導彈制導方式為比例導引法,最大法向過載為25 g,廣義卡爾曼濾波模型階數為5,比例系數為4,過載響應時間取為0.5 s。

圖3 艦載攔截導彈攔截仿真平臺界面Fig.3 Interface of shipborne interceptor missile interception simulation platform
Markov決策過程(Markov decision process, MDP)是一種求解在可描述場景下智能體獲得最大回報策略的方法,常被應用于自動控制、動態規劃等問題。馬爾可夫過程一個重要的性質就是馬爾可夫過程的下一狀態僅與當前時刻的狀態有關,而與過去時刻的狀態沒有關系。在MDP中,智能體下一時刻的動作也只與當前的狀態有關。巡航導彈突防過程為一個MDP,需要對導彈運動模型、狀態空間、動作空間、獎勵函數進行建模。
為了反映巡航導彈和NIFC-CA作戰體系的對抗過程,在獎勵函數中引入了探測概率降低獎勵和巡航導彈與攔截導彈相對距離獎勵:

(1)

(2)
式中:為預警雷達探測概率,當探測概率小于50%時認為雷達未能探測到目標,將其獎勵設為0;為比例系數;為巡航導彈和攔截導彈的距離。
DDPG算法是DeepMind公司將確定性策略梯度算法與Actor-Critic 網絡結構結合提出的一種用以解決復雜連續控制問題的算法,這一算法具有良好的擴展性與適應性,基于該算法可以使用相同的網絡參數解決一類連續控制問題。
DDPG算法求解流程圖如圖4所示。其中Actor 網絡輸入狀態、輸出動作,Critic網絡輸入狀態和動作,輸出在這一狀態下采取這個動作的評估值。由于巡航導彈、目標、預警機和攔截彈的狀態和動作信息在時間上均是連續的,故其狀態空間中各樣本不是獨立的,只使用單個神經網絡結構學習過程很不穩定,為解決這個問題,DDPG算法引入了經驗回放機制,引入目標Actor網絡和目標Critic網絡,與現實網絡獨立訓練。首先現實Actor網絡與環境進行交互訓練,得到狀態、動作、獎勵及下一時刻狀態,將這4個數據放入經驗池中,得到一定的樣本空間后,現實Critic網絡從經驗池中提取樣本進行訓練,得到值;目標網絡也進行同樣的訓練,每間隔一定時間就利用現實網絡參數更新目標網絡。訓練完成后通過Actor網絡輸出高維的具體動作。

圖4 DDPG算法求解流程圖Fig.4 DDPG algorithm solving flowchart
神經網絡的作用是為了建立狀態到動作以及狀態動作到評估值的映射。本文所采用的神經網絡結構如圖5所示,包含輸入層、隱藏層和輸出層。Actor網絡包含兩層隱藏層,均為256個單元數,權重均初始化為0.5,隱藏層使用selu激活函數,輸出層使用tanh激活函數。Critic網絡同時將狀態和動作作為輸入,輸入層和輸出層間有兩層隱藏層,均為512個單元數,使用selu激活函數,輸出層只有一個單元,因為動作-價值函數無邊界故不使用激活函數。

圖5 神經網絡結構Fig.5 Neural network structure
體系作戰下的巡航導彈智能航跡規劃算法程序主要包含參數和數據輸入模塊、動作和動作評價網絡、樣本儲存模塊、模型訓練模塊、模型測試模塊。其中,模型測試模塊可以評估神經網絡和強化學習訓練參數的好壞,其流程圖如圖6所示,其中的初始參數為巡航彈、攔截彈、目標、預警機起始位置及其機動性能數據,以及目標和預警機的運動軌跡、巡航導彈RCS庫。

圖6 模型測試流程圖Fig.6 Model test flowchart
仿真場景示意圖見圖1,本文設定的巡航導彈突防場景中包括巡航導彈、預警機、艦船目標及攔截導彈等武器裝備。預警機在7 000 m高空以“跑道型”航線巡邏,其航線中心點距目標艦船的水平距離為60 km,巡航導彈發射時和目標艦船相距300 km,發射后貼近海面飛行,攔截導彈的發射點位于目標艦船上。其中巡航導彈的最大巡航速度為300 m/s,攔截導彈的最大速度為1 000 m/s。本文仿真時將其轉化到空間直角坐標系中進行,并且進行了1 000倍的縮放。
本算法基于Windows操作系統開發,使用了Python編程語言和Tensorflow架構,計算硬件為64G DDR4內存和GTX2060顯卡。深度強化學習超參數優化設計后設置如下:策略網絡學習率為0.001,動作網絡學習率為0.000 5,折扣因子為0.95,目標網絡更新系數為0.005,經驗回放池容量為10 000。
本文首先探究了僅考慮預警威脅下的動態隱身航跡規劃問題。首先基于該場景對DDPG算法進行訓練,圖7為訓練完成后輸出的航跡規劃模型的一個測試結果,該測試對抗場景中預警機以跑道型航跡巡邏,目標艦船貼近海面直線航行,巡航導彈以一條低可探測性航跡成功擊中目標。

圖7 預警威脅下的動態隱身航跡規劃Fig.7 Dynamic stealth track planning under early warning threat
本文以訓練每回合獎勵值為指標判斷策略是否不再顯著提升,訓練每回合獎勵值趨于平緩時認為訓練達到收斂。如果巡航導彈發射時就引入巡航導彈和攔截導彈相對距離獎勵,由于訓練目標不明確,收斂周期更長,訓練20個回合,模型還沒有收斂;故對于巡航導彈和攔截導彈相對距離獎勵引入一個判斷,當巡航導彈和攔截導彈相對距離小于3 km時才考慮攔截導彈的威脅,其訓練每回合獎勵值如圖8所示,訓練第11個回合即可收斂。

圖8 獎勵函數改進前后不同訓練回合數下的獎勵值Fig.8 Reward value under different numbers of training rounds before and after the reward function is improved
典型體系作戰場景下訓練后攻防軌跡圖如圖9所示,航跡生成時間為0.21 s。由于將仿真縮放1 000倍到空間直角坐標系,不使用深度強化學習下攔截彈脫靶量為0.039 m,使用深度強化學習后,攔截導彈脫靶量為0.58 m,引入深度強化學習后可以提高巡航導彈在典型體系作戰場景下的生存能力,進而提高突防概率。

圖9 體系作戰下的動態隱身航跡規劃Fig.9 Dynamic stealth track planning in system combat
現代信息化戰爭是體系作戰,本課題組搭建了一個體系仿真平臺用以評估體系作戰效能。體系作戰背景下,僅采用傳統隱身策略的巡航導彈突防能力大幅降低,本文采用深度強化學習算法實時調整巡航導彈航跡,降低在航跡上的雷達探測概率和提高被攔截脫靶量,進而提高戰場生存能力,實現面對敵方傳感器的動態隱身。該算法訓練完成后可實時生成突防機動指令,其求解時間遠低于傳統航跡規劃算法;而且具備良好的擴展性與遷移性,可用于不同的突防對抗場景中。