基于Q-學習的智能雷達對抗

2018-04-26 07:30:17朱衛綱

系統工程與電子技術 2018年5期

邢強, 賈鑫, 朱衛綱

(1. 航天工程大學研究生管理大隊, 北京 101416; 2. 航天工程大學電子與光學工程系, 北京 101416)

0 引言

隨著雷達技術的不斷發展,雷達已經從固定工作模式發展到可以根據其工作環境與任務需求靈活改變工作參數的多工作模式[1-3]。這對傳統雷達對抗(traditional radar countermeasure, TRC)方式提出以下挑戰:①TRC偵察系統從雷達輻射的信號中獲取雷達技術與參數信息與本地數據庫進行匹配,如果存有該部雷達信息,則干擾系統調用對應的干擾樣式實施干擾,如果未存有該部雷達信息,則先存儲該信息,再進行分析與處理,制定相應干擾措施,該過程需要數天或數月時間,最佳對抗時間已經失去,干擾實時性差;②傳統干擾方式一般只針對某種體制的雷達,而面對靈活多變的多功能雷達,本地數據庫未存儲該部雷達信息或只存儲了部分信息,傳統干擾方式很難實施有效干擾;③雷達發展趨于智能化,有的進行組網,抗干擾性能增強,增加了干擾的難度。在此背景下,認知電子戰技術出現并取得快速發展[4-6],主要包括認知偵察技術、智能干擾措施合成技術以及實時干擾效果評估技術[7]。其中認知偵察技術與實時干擾效果評估技術分別為智能化干擾措施合成技術提供先驗知識與干擾措施更新的依據,可見在認知電子戰中智能化干擾措施合成技術是關鍵技術的核心。

對于提高電子戰的靈活性與智能化水平,早在20世紀七八十年代有專家把人工智能技術應用到電子戰中[8],其后該項應用卻少有人問津,也可能由于保密原因,沒有公開文獻報道。直到2010年,美國DARPA相繼發布自適應電子戰行為學習(behavior learning for adaptive electronic warfare,BLADE)[9]、極限通信(communication under extreme,CommEx)[10]、認知干擾機(cognitive jammer, CJ)[11]、自適應雷達對抗(adaptive radar countermeasures,ARC)[12]等項目公告,人工智能在電子戰中的應用才得以快速發展。其中,強化學習是人工智能領域里面最活躍的研究領域之一[13-14],有人稱其為真正人工智能的希望,主要研究行為主體如何通過環境變化,決定采取何種動作,以獲取最大的期望回報。對比認知電子戰的工作流程,干擾機根據偵收的目標狀態變化,確定對抗措施,以期望獲取最佳對抗效果,兩者的工作過程近乎一致。對此,文獻[15]引入認知技術,提出了基于Q-學習算法的認知雷達對抗過程設計,使得干擾更具有主動性、針對性與自適應性,但文獻[15]是在假定雷達工作模式數目已知的條件下進行研究的,對于雷達工作模式數目未知的情況目前還沒有文獻報道研究。基于此,本文研究雷達工作模式數目未知情況下的智能雷達對抗(intelligent radar countermeasure, IRC)過程設計,這將對于研究具有智能化特征的干擾系統與實現技術具有一定的理論意義。

1 IRC概述

TRC流程如圖 1所示。

圖1 TRC流程Fig.1 Architecture of TRC

干擾系統只是固定地根據偵察基本參數及先驗雷達數據庫調用干擾資源庫干擾樣式。并沒有依據干擾效果是否有效及周圍環境信息對干擾樣式進行調整,干擾效率低、效果差。

本文改進上述雷達對抗流程,提出IRC設計。智能指從認知到記憶、判斷、想象并對結果表達的過程[16]。特點為:①能對外部環境進行感知并獲取相關信息;②能夠對感知到的信息存儲并利用已有知識進行思維活動;③能夠自主學習、與外部環境交互并適應外部環境變化;④能夠對外界的刺激進行自主決策反應。

該文研究的正是這樣一種針對多功能雷達工作模式數目未知條件下的IRC方法,干擾接收機通過處理偵收的雷達信息,對其工作狀態進行識別,根據目標所處狀態自主合成干擾樣式,并繼續偵收雷達目標狀態變化,評估干擾效果,將干擾效果反饋至干擾決策模塊,輔助干擾樣式合成。IRC架構如圖2所示[12]。

圖2 IRC架構Fig.2 Architecture of IRC

綜上可知,IRC與TRC的區別如表1所示。

表1 IRC與TRC的區別

2 IRC方法研究

2.1 強化學習基本原理

強化學習[13]基于動物生理學與心理學的原理,采用人類與動物“試錯”機制,從與環境的交互中學習,學習過程中僅需要獲得評價性的反饋信號,以極大化獎勵為學習目標,其優點為:自學習、在線學習與更新,強化學習原理如圖3所示。

圖3 強化學習原理圖Fig.3 Principle of reinforcement learning

交互過程為:①Agent對周圍環境信息進行感知;②Agent依據環境的狀態st及反饋獎勵rt,選擇執行動作at;③at作用于環境,環境轉換為st+1,并給出新的反饋獎勵rt+1;④Agent根據反饋獎勵值,計算回報值,并將回報值作為內部更新策略的依據。st∈S代表Agent在t時狀態,S為狀態集;at∈A(st)表示Agent在t時選擇的動作,A(st)表示在st下可選擇動作集。當環境為st時,Agent選擇并執行動作at,接收到反饋獎勵rt+1∈R,同時轉移到新的狀態st+1。

強化學習Agent與環境交互過程中,并沒有收到指令選擇何種策略,是依據周圍環境的反饋自身決定,基本原則是最大化Agent在學習中從周圍環境獲取正向信息的概率。定義目標函數來衡量強化學習的最優策略。策略指從狀態到動作的映射:π:S→A,其決定了在t時刻狀態st選擇的動作:at=π(st)。策略π的價值Vπ(st)指從t時刻st開始,Agent所選動作獲得的獎勵之和。

有限階或片段模型中,Agent選擇N個動作最大化獎勵為

(1)

無限階模型中,無序列長度限制,但未來獎勵會被打折扣:

(2)

式中,γ∈[0,1],表示折扣率,以確保返回的獎勵是有限的。對于每個策略,都有其價值Vπ(st),若找到最優策略π*,則有

?st

(3)

在某些應用,狀態-動作價值Q(st,at)比策略價值V(st)更有意義,Q(st,at)表示在狀態st下,采取動作at獲得的價值。Q*(st,at)表示狀態st下采取動作at,并遵循最優策略獲得的期望累積獎勵。

(4)

(5)

對于轉移到每個可能的下一狀態st+1的概率為p(st+1|st,at+1),并遵循最優策略,獲得的累計期望獎勵為V(st+1),對于狀態-動作價值則有

Q*(st,at)=E[rt+1]+γ·

(6)

強化學習算法中,動態規劃基于完整系統模型進行策略尋優,且計算量隨狀態增加呈指數增長,存在“維數災難”問題[17];蒙特卡羅方法是一種與模型無關的強化學習方法,對馬爾可夫屬性要求不高,但是該方法只能在每次學習任務結束時才能更新狀態值函數,算法的學習速度較慢;時序差分結合動態規劃與蒙特卡羅的優點,值函數步步更新,對模型無要求[18];在時序差分的基礎上,根據與環境交互過程中行為決策方式不同,Watkins與Rummery分別提出了Q-學習與Sarsa算法,兩者的不同之處在于,Q-學習中行為決策和值函數的迭代是相互獨立的,是一種離線算法,采用的是值函數最大值進行迭代,R值的更新依賴于各種假設決策;Sarsa學習行為決策與值函數的迭代是一致的,是一種在線R學習,采用實際Q值迭代,基于執行某個策略所獲得的經驗來更新值函數。根據上述特點,本文選擇Q-學習用于智能化的雷達對抗研究。

Q-學習基本形式為

Q(st,at)←Q(st,at)+α[rt+1+γ·

maxQ(st+1,a′)-Q(st,at)]

(7)

式中,Q(st,at)表示Agent在狀態st下,采用動作at所獲得的最優獎賞折扣和;α∈(0,1)為學習率;γ為折扣率。

2.2 基于Q-學習的雷達智能對抗

IRC原理如圖4所示。

圖4 IRC原理Fig.4 Principle of IRC

sRt∈S表示多功能雷達在t時工作狀態,aj∈A(sRt)表示干擾機在t時選擇的干擾樣式,A(sRt)表示雷達在模式sRt下,干擾機采取的干擾樣式的集合。當雷達處于工作模式sRt時,干擾機選擇并執行干擾樣式,接收到干擾效能評估rRt+1,同時轉移到新的工作模式sRt+1。

工作模式-干擾樣式價值更新為

Q(sRt,aj)←Q(sRt,aj)+α[rRt+1+

γmaxQ(sRt+1,a′)-Q(sRt,aj)]

(8)

式中,Q(sRt,aj)為工作模式-干擾樣式價值;rRt+1為干擾效能評估值。

干擾機每次強化學習是從雷達的隨機狀態開始的,依據策略選擇干擾樣式,如ε貪婪策略或Boltzamann分布策略。干擾機選擇干擾樣式后實施干擾,估計雷達狀態并評估干擾效果,根據雷達最新估計狀態的最大Q值和干擾效果更新上一個Q值,干擾機將不斷根據新的雷達狀態選擇干擾樣式,循環至終止狀態。

雷達有多種工作模式過程中,干擾機干擾樣式集合A包含多種干擾樣式。定義立即回報值為

對于干擾樣式的選擇,干擾機需平衡探索型策略與利用型策略的矛盾,因此本文選擇ε貪婪策略選擇干擾樣式。智能化干擾的干擾樣式選擇指標為:尋找干擾樣式序列,使獲取的雷達工作模式-干擾樣式值最大。

算法的描述如下:

步驟1初始化Q(sRt,aj)與R為一階0矩陣,給定參數γ初值。

步驟2觀察當前環境,識別雷達工作模式sRt,估計雷達威脅等級;根據ε貪婪策略選擇干擾樣式aj并執行;

步驟3循環開始

步驟3.1繼續偵察雷達工作模式,若判斷為新工作模式sRt+1,估計威脅等級,存入雷達數據庫;

步驟3.2增加Q(sRt,aj)矩陣與R相應行列,利用式(9)計算效能評估值rRt;

步驟3.4sRt←sRt+1;

直到工作模式數目穩定,循環停止。

步驟4輸出最終干擾樣式選擇方式及目標狀態(威脅等級最低工作模式)。

基于上述算法,雷達工作模式數目未知情況下智能對抗流程如圖 5所示。

圖5 雷達工作模式未知的智能對抗流程Fig.5 IRC of radar working modes unknown

3 仿真實驗

多功能雷達具有搜索、跟蹤、火炮測距、非合作目標識別等多種工作模式,同時,針對雷達不同工作模式也有不同的干擾樣式,如噪聲調幅、噪聲調相、噪聲調頻、速度欺騙等等。本文假設某雷達有威脅等級分別為1、1、2、2、3、4的S1,S2,…，S66種工作模式,威脅等級由高到底分別是S1,S2,…,S6,則狀態S6是目標狀態,不同工作模式之間的轉換模型如圖 6所示。

圖6 雷達狀態轉換模型Fig.6 Diagram of radar state conversion

圖6表示在干擾樣式aij的作用下,雷達從狀態Si轉換為狀態Sj。干擾機沒有先驗知識,需要通過Q-學習來確定工作模式數目以及不同工作模式之間的狀態轉換。雷達工作時,根據自身任務需求或受干擾情況調整工作模式,其工作模式是動態變化的,因此偵察接收機接收到的雷達工作模式也是動態變化的,判定工作模式的變化由認知偵察環節完成,作為本文的輸入。偵察接收機將偵收到的第一個雷達狀態作為初始雷達狀態存入數據庫,并采取響應動作,繼續觀察雷達狀態,并根據第2.2節算法步驟,實時計算干擾回報矩陣R與工作模式-干擾樣式矩陣Q。

折扣常數初始化為0.5,Q與R矩陣初始化為一階0矩陣。對雷達進行1 000次獨立觀察,每次觀察后求解R矩陣,本次實驗中依次得到雷達的工作模式為S5、S4、S3、S1、S6、S2,偵察接收機按偵收順序依次偵收的雷達狀態定義為sj1、sj2、sj3、sj4、sj5、sj6,威脅等級分別為3、2、2、1、4、1,進行100次求解Q矩陣實驗。并用Matlab制作圖形用戶界面(graphical user interface, GUI),偵收雷達狀態,威脅等級,求解得到的R矩陣、Q矩陣在圖形用戶界面顯示如圖7所示。

圖7 圖形用戶界面顯示圖Fig.7 GUI display diagram

則不同狀態之間的轉換工作模式-干擾樣式價值,如圖8所示。

圖8 最優路徑選擇圖Fig.8 Optimal path selection diagram

定義Q矩陣收斂值為各元素之和,繼續分析求解Q矩陣循環次數與矩陣收斂時間、收斂值的關系,如圖9所示。仿真實驗可以看出,在循環次數為100次左右的時候,Q矩陣收斂值已經趨于穩定,而收斂時間會隨著循環次數的增加而增加。

綜上所所述,在設定循環次數時應取值合理,既要滿足矩陣收斂要求,又不能浪費時間與資源。

圖9 循環次數與收斂時間、收斂值的關系Fig.9 Relationship between cycle times and convergence time and value

4 結束語

隨著雷達技術的發展,雷達發展趨于智能化,TRC方法作戰效能下降。本文基于現有雷達對抗面臨的問題研究了IRC方法,對比了IRC與TRC的區別。針對功能單一、實時性差問題,研究了基于Q-學習的智能雷達對抗方法,給出了Q-學習算法應用到智能化的雷達對抗步驟,并進行了仿真實驗,分析了Q矩陣收斂時間、收斂值與循環次次數的關系。

本文研究了單部雷達多工作模式未知的智能對抗,未考慮多部雷達不同工作模式訓練情況下的智化對抗,計劃作為后續研究內容繼續研究。隨著人工智能及相關算法的發展及其在雷達領域的應用(如深度強化學習),新的雷達與雷達對抗技術將進入新時代并將繼續呈螺旋式發展。

參考文獻：

[1] HAYKIN S. Cognitive radar: a way of the future[J]. IEEE Signal Processing Magazine, 2006, 23(1):30-40.

[2] GUERCI J R. Cognitive radar: a knowledge-aided fully adaptive approach[C]∥Proc.of the IEEE Radar Conference, 2010:1365-1370.

[3] YUAN R F, GAN R B, TANG G F, et al. Range-Doppler and anti-interference performance of cognitive radar detection waveform[C]∥Proc.of the 12th IEEE International Conference on Electronic Measurement & Instruments, 2015:607-612.

[5] PENG H H, CHEN C K, HSUEH C S. Design and implementation of intelligent electronic warfare decision making algorithm[C]∥Proc.of the Signal Processing, Sensor/Information Fusion, and Target Recognition XXVI, 2017:1-5.

[6] SAMEER A. Cognitive electronic warfare system[C]∥Proc.of the Cognitive Radio Network, 2016.

[7] 戴幻堯, 周波, 雷昊,等. 認知電子戰的關鍵技術發展動態與分析[J]. 飛航導彈, 2014(9):57-60.

DAI H Y, ZHOU B, LEI H, et al. Development and analysis of key technologies of cognitive EW[J]. Aerodynamic Missile Journal, 2014(9):57-60.

[8] 李振初. 人工智能技術在電子戰中的應用[J]. 電子對抗技術,1988(2):27-39.

LI Z C. Application of AI technology in EW[J]. Electronic Warfare Technology, 1988(2): 27-39.

[9] DARPA. Behavior learning for adaptive electronic warfare[EB/OL].[2010-10-06]. https:∥www.fbo.gov.

[10] DARPA. Communications under extreme RF spectrum conditions[EB/OL].[2010-09-10]. https:∥www.fbo.gov.

[11] Air Force. Cognitive jammer[EB/OL].[2010-01-20]. https:∥www.fbo. gov.

[12] DARPA. Adaptive radar countermeasures[EB/OL].[2012-08-27]. https:∥www.fbo.gov.

[13] MOUSAVI S S, SCHUKAT M,HOWLEY E. Deep reinforcement learning: an overview[C]∥Proc.of the Intelligent Systems Conference, 2016:426-440.

[14] BARTO A G, SUTTON R S. Reinforcement learning:an introduction[M]. Cambridge: MIT Press, 2005.

[15] 李云杰, 朱云鵬, 高梅國. 基于Q-學習算法的認知雷達對抗過程設計[J]. 北京理工大學學報, 2015, 35(11):1194-1199.

LI Y J, ZHU Y P, GAO M G. Design of cognitive radar jamming based onQ-learning algorithm[J]. Transactions of Beijing Institute of Technology, 2015, 35(11): 1194-1199.

[16] Autovalmet. Intellectualization[EB/OL].[2017-05-05]. http:∥baike. baidu. com/item/ Intellectualization.

[17] 欒詠紅, 章鵬. 強化學習方法的對比分析[J]. 計算機時代, 2015(12):93-97.

LUAN Y H, ZHANG P. Comparative analysis of reinforcement learning method[J]. Computer Era, 2015(12):93-97.

[18] 徐明亮. 強化學習及其應用研究[D]. 無錫: 江南大學, 2010.

XU M L. Research on the reinforcement learning and its application[D]. Wuxi: Jiangnan University, 2010.