張應奎 孫國皓* 鐘蘇川 余顯祥
①(四川大學空天科學與工程學院 成都 610207)
②(電子科技大學信息與通信工程學院 成都 611731)
在對雜波環境信息感知的基礎上,認知雷達可通過主動發射波形的方式,充分挖掘目標與雜波信息之間的差異性,并通過優化配置波形參數擴大該差異,提高雜波抑制和目標檢測性能。相較于傳統雷達,認知雷達具有更高的自由度和靈活度,現已成為雷達雜波抑制的主要技術途徑之一。
現有認知雷達波形設計主要利用精確完整的雜波先驗數據,形成兩大類準則的設計方法。一是最大化輸出信雜噪比(Signal to Clutter plus Noise Ratio,SCNR)準則,如Tang等人[1,2]利用精細化的雜波先驗數據,基于松弛方法解決了雜波環境下MIMO (Multiple Inputs Multiple Outputs)雷達波形與濾波器聯合設計中的非凸優化問題。為了高效求解上述非凸性難題,Yu等人[3]提出了基于ADMM(Alternating Direction Method of Multipliers)的MIMO雷達波形多約束優化快速實現方法。在此基礎上,Wu等人[4]研究了基于MM (Majorization-Minimization)的加速算法,有效提升了發射波形與接收濾波器權聯合設計的雜波抑制性能。此外,O’Rourke等人[5]采用二次優化和半正定松弛方法提升了收發聯合設計的目標檢測性能。然而上述方法所采用的先驗數據需要精確已知各個雜波塊的幅相特征,當雜波先驗數據存在缺失時,所構建的雜波模型會嚴重失配,進而影響雷達對雜波的抑制能力。二是基于信息量的優化準則,通過從回波信號中最大化提取目標信息量,提升目標檢測性能。如Tang等人[6]研究了雜波環境下基于信息相關熵的MIMO雷達波形設計方法;何子述團隊[7,8]針對機載雷達雜波環境,依據最大化互信息量(Mutual Information,MI)準則,提出了多約束條件下的波形與STAP (Space-Time Adaptive Processing)濾波器聯合設計方法。但該類方法仍然依賴于精確完整的先驗雜波協方差矩陣,在數據缺失條件下難以設計出優效的雷達波形。
從上述研究動態可以看出,現有波形優化方法往往需要精細到每個雜波片的幅頻相信息[9,10]。因此,在數據信息不完整/缺失條件下,上述方法存在模型失配效應,會嚴重削弱雷達的雜波抑制性能。
信息缺失在雷達信號處理中為常見現象[11-13],主要原因包括:
(1) 當可用通道數小于陣列個數時,雷達通常采用切換器切換數據接收通道。一般情況下,該切換機制是隨機選取的,從數學角度上看,這無異于將完整數據“穿孔”,得到一個尺寸縮小的不完整向量[11]。
(2) 先驗數據信息在采集時,易受到氣候、采集設備和其他電磁頻譜設備等干擾的影響,導致采集到的數據與真實數據之間存在偏差;用戶在使用時需將干擾數據剔除掉,而剔除過程會造成信息的缺失。
(3) 故障傳感器通道內的噪聲脈沖、模數轉換器故障等導致部分陣列達到飽和狀態,從而造成數據缺失[14];雷達材料、環境、機械故障等情況亦有可能引起數據的失效[15]。
現有針對數據缺失的雷達信號處理方法主要集中于協方差矩陣估計、波束形成、目標檢測等領域[16-18]。針對數據不完整條件下高維參數的優化問題,主要有兩種解決途徑:一種是補全雷達數據缺失部分[19],該類方法在補全過程中通過添加專家的合理性判斷,在一定程度上保證其可信性。如Aubry等人[11]基于雜波協方差矩陣的結構信息,采用Expectation-Maximization算法設計了數據缺失條件下的參數估計方法;Pavez等人[13]針對數據缺失分布的不同機制,提出了一種無偏協方差估計器,獲得不同缺失條件下的估計誤差界限;Liu等人[20]針對單調數據缺失模式研究了基于最大似然和正則化魯棒的估計器,提高了算法的收斂速度和估計精度;此外,劉宏偉團隊[21]基于遷移學習算法,完成了對步進頻雷達不完整波形數據的補全。另一種解決途徑是通過與復雜環境的交互訓練,直接得到雷達參數的優化策略,即端到端的波形訓練方法[21,22]。例如Jiang等人[23]在多約束條件下,研究了基于端到端的波形與檢測器權值聯合優化方法,然而該訓練過程依賴于大量完整的數據樣本,尚未考慮數據缺失條件下的優化問題。綜上所述,現有工作多集中在數據缺失參數估計問題上,鮮有涉及數據缺失條件下波形設計方法的研究。
因此,本文主要針對完全隨機缺失機制下的雜波數據,基于強化學習對未知環境的高效探索和學習能力,提出優先級填充-強化學習級聯優化的雷達波形訓練方法。該方法將缺失數據恢復與波形設計有機結合,通過智能體與雜波環境的不斷交互,尋求波形參數的最優配置。其難點主要體現為:一是數據缺失條件下的波形設計建模方法;二是雷達波形設計中非凸問題的求解。針對上述難點,本文主要工作與創新點體現在以下幾個方面:
(1) 本文建立了數據缺失條件下的波形設計問題模型,提出了基于優先級填充-強化學習兩級級聯的波形優化求解方法;該方法通過強化學習與填充算法所構建的環境交互訓練,決策輸出最大信雜噪比下的波形參數;
(2) 本文考慮了完全隨機缺失機制,即數據的缺失與否與數據自身值無關,并通過仿真分別驗證了點狀缺失與塊狀缺失場景下(類比文獻[11]中的缺失場景)所提算法雜波抑制能力;
(3) 本文所提算法可實現恒模、相似性約束下的波形優化。
下面分別從雜波數據缺失條件下波形設計模型、雷達波形級聯優化算法,以及算法仿真等方面展開介紹。
本節首先根據完全隨機缺失機制的定義,設置兩種常見的先驗數據缺失場景,建立恒模與相似性約束下的雷達波形設計問題模型;然后將波形設計過程與狀態-動作-獎勵的動態規劃結合,進一步構建雜波環境下波形設計的馬爾可夫決策模型,為雷達波形的優化設計提供模型基礎。
不失一般性,本文考慮單輸入單輸出的雷達系統,在一個時間相參積累間隔(Coherent Processing Interval,CPI)內發射N個脈沖信號。假設發射端發射窄帶信號,在時間維度對信號進行離散采樣,可得在某一包含目標距離環上的雷達回波信號為
其中,α表示發射信號的幅度,s∈CN×1表示離散發射波形矢量,cm ∈CN×1表示第m個距離環的雜波矢量,n ∈CN×1表示零均值方差為的高斯白噪聲矢量,w∈CN×1表 示濾波權矢量,(·)H為向量/矩陣共軛轉置運算符,m為雜波距離環編號或先驗雜波樣本編號。
本文重點考慮構造雜波先驗協方差矩陣中樣本數據的缺失,假設C=[c1c2...cM]∈CN×M為數據完整的雜波樣本矩陣,M為樣本數。設置缺失矩陣ΔN×M,Δ中 僅有兩個元素N aN 和1,其中N aN表示對應位置數據缺失,1表示該數據正常,則雜波缺失矩陣可表示為
其中,[·]m為矩陣的第m列,⊙為Hadamard乘積。
由于氣候、采集設備故障等導致的數據缺失完全隨機且不可控,因此本文引入完全隨機缺失機制。在該機制下,無法獲取數據的分布參數,如均值和方差,且數據的缺失位置與數據的先驗分布相對獨立。類比文獻[11]中的缺失場景,本文考慮點狀缺失和塊狀缺失兩種雜波先驗數據缺失場景,構造缺失矩陣Δ的方式分別如下:
場景1:點狀缺失。設置點狀缺失概率p∈(0,1),生成N×M個服從[0,1]均勻分布的隨機數構成矩陣Δ,若Δ(i,j)>p,則Δ(i,j)=1,反之Δ(i,j)=NaN,其中i=1,2,...,N,j=1,2,...,M;
場景2:塊狀缺失。同場景1,設置塊狀缺失概率p′ ∈(0,1),在Δ中隨機生成n個缺失塊并賦值為NaN,其余數據皆令為1。缺失塊行數和列數分別為rl和cl,l=1,2,...,n。為保證場景設置的公平性,兩種場景下的缺失概率應滿足:
點狀缺失和塊狀缺失示意圖分別如圖1(a)、圖1(b)所示,其中,白色代表缺失數據(取值為N aN),黑色代表正常數據(取值為1)。

圖1 缺失場景示意圖Fig.1 Schematic diagram of the missing scene
當雜波先驗協方差矩陣Rc完全已知時,已有眾多學者針對相關波形優化問題展開研究,如Li等人[24]提出的SWORD (Signal Waveform’s Optimalunder-Restriction Design)方法等。然而,Rc估值的高準確度依賴于大量完整的樣本數據。在雜波先驗數據缺失的情況下,樣本信息不夠精確,協方差矩陣的估計誤差增大,難以保證優越的雜波抑制性能。因此,本文考慮樣本數據缺失情況下的波形設計問題,并在式(4)中引入協方差矩陣約束Rc=h(),用于表征該雜波協方差矩陣由數據缺失樣本構成,其中函數h(·)映射了該構成過程。
由于強化學習強調智能體在未知環境中以不斷試錯的方式學習得到最優策略,故本節將上述先驗數據缺失條件下波形優化問題刻畫為馬爾可夫過程。
將雷達視為智能體,在t時刻,智能體根據當前時刻的狀態st以及策略π(at|st)向環境中發射動作at,其中策略是從狀態到動作概率分布的函數映射。然后,狀態st根 據狀態轉移函數p(st+1|st,at)轉換到st+1,并獲得相應的反饋獎勵rt+1。假設t時刻的狀態僅與上一時刻的狀態有關,則整個學習過程可以描述為一個馬爾可夫決策過程(Markov Decision Process,MDP)[25],用4元組表示為
其中,S為狀態集合st ∈S,A為動作集合at ∈A,P為狀態轉移函數集合pt ∈P,R為獎勵集合rt ∈R。
本文假設雷達發射機發射功率不變且載波頻率恒定,波形參數僅與發射相位有關,故將t時刻的離散相位值以及信雜噪比作為雷達在環境中的狀態表征;若考慮相似性約束,則添加相似度衡量當前波形與參考波形的偏差,以期快速獲得良好的性能參數。相似度定義為
其中,st表示t時刻的發射波形。
綜上,t時刻的狀態可表示為
其中,θti表示t時刻的離散相位值,i=1,2,...,N。
將雷達的動作設計為“指令”操作,即at={at1,at2,...,atN},其中,ati有3種可能取值:0,1和2,不同取值對應不同的操作:
其中,σ表示雷達執行一次動作對應相位值的變化量。σ的設置與相位的分辨率息息相關,σ越小,雷達發射波形精確度越高;但當σ過小時,雷達需要耗費更多的時間去學習最佳波形,導致算法收斂速度變慢。需要注意的是,由于相位的周期性,在整個決策過程中需保證θti的值始終位于[0,2π]內。
獎勵函數是強化學習算法設計的核心,其作用是針對上一時刻的動作向強化學習模型提供即時反饋。因此,合理的獎勵設計方式有利于智能體最優執行策略的學習。由于目標SCNR是影響檢測性能的關鍵因素,因此本文以雷達濾波處理后的SCNR作為t時刻動作所獲得的獎勵:
針對上述波形設計問題,本文提出一種基于優先級填充-強化學習級聯優化的波形設計方法。該級聯算法包含缺失數據填充和波形優化兩個部分,分別用函數f(·)和g(·)表示。如圖2所示,輸入數據缺失條件下的先驗數據矩陣X,根據缺失值判斷數據缺失區域并將其作為缺失規則輸入雜波環境中。通過優先級填充算法得到數據完整的雜波數據矩陣,進一步估計雜波協方差矩陣,即=。強化學習波形設計的目的是通過雷達與雜波環境交互,訓練生成最大SCNR的發射波形,即s=g(),其中,將優先級填充算法輸出結果作為智能體與之交互的雜波環境。本文所提的級聯架構亦是指以估計雜波協方差矩陣為基礎的強化學習波形設計框架,通過優先級填充-強化學習級聯的迭代過程,最終獲得先驗數據缺失條件下的優化波形。

圖2 級聯優化算法整體框架圖Fig.2 Overall framework diagarm of the cascade optimization algorithm
根據級聯優化算法整體架構,本節首先介紹基于優先級的填充算法。將雜波缺失矩陣以及缺失區域輸入到雜波環境中,通過優先級填充算法的映射關系f(·),完成對雜波缺失數據的修復,估計輸出雜波協方差矩陣。如圖3所示,該修復過程為:首先,通過判斷雜波數據與缺失值是否匹配,將其分為目標區域Ω和源區域Φ。目標區域對應數據缺失部分,其輪廓用δΩ表示;剩余部分為源區域。然后在目標區域輪廓δΩ上選定點p,以p為中心點確定一待修復的正方形滑窗Ψp,在源區域內搜索最佳匹配數據Ψq,令Ψp=Ψq,完成對Ψp的填充。最后,隨著填充進度的推進,不斷更新δΩ直至所有目標區域Ω填充完成。
填充順序是數據修復質量的關鍵性因素之一。傳統標準同心層填充算法以逆時針順序將同心層塊逐漸填入目標區域,可能導致目標輪廓附近源區域內的完整數據被意外重構,使得目標輪廓區域的填充效果變差。因此,為了確定最佳樣本填充順序,本節引入樣本填充優先級的計算[26]。針對上述目標輪廓區域填充效果不明顯的問題,優先級的計算偏向于數據差異大的強邊緣區域和高置信度的目標區域。
給定中心點p以及目標填充樣本Ψp,將優先級函數P(p)表示為
其中,C(p)為 置信度項,D(p)為數據項。置信度C(p)表征中心點p附近可靠數據的度量,即優先填充目標區域輪廓周圍的樣本并不斷向內填充;數據項D(p)體 現δΩ兩邊數據信息的差異大小,優先填充差異較大的樣本。計算公式分別為
其中,|Ψp|表 示Ψp的 面積,κ是歸一化因子,?Ip為Ψp ∩I區間內的最大梯度值,Jp表示p點處正交于目標區域輪廓δΩ的單位向量?!捅硎菊?。初始化時,設置置信度函數C(p)為
獲得目標區域內所有待填充樣本的優先級后,按照優先級遞減的方向從源區域內搜尋最相似樣本進行填充。上述過程可通過最小化平方差之和算法實現:
其中,d(Ψa,Ψb)表 示樣本Ψa和Ψb中數據的平方差之和。
此時雜波數據矩陣的目標區域輪廓δΩ發生相應變化,重復優先級的計算,逐層更新直至目標區域填充完成,即通過f(·)的映射關系,實現從雜波缺失矩陣到協方差矩陣的估計過程。算法步驟的偽代碼見表1。

表1 優先級填充算法Tab.1 Priority filling algorithm
由3.1節可知,將優先級填充算法補償后的雜波矩陣作為強化學習優化算法中智能體的交互環境。雷達發射波形作用到雜波環境中并獲取反饋獎勵,通過最大化累積獎勵和的方式決策出最優波形相位。整個過程基(于端)到端的學習方式,用函數g(·)表示,即。本文采用DDPG (Deep Deterministic Policy Gradient)算法實現函數g(·)的映射過程。DDPG算法是一種基于Actor-critic框架的深度確定性策略梯度算法[27],由DPG (Deterministic Policy Gradient)算法改進而來,得益于其在連續動作空間中的有效決策性能,廣泛用于解決各領域中復雜連續的決策問題。在波形優化設計問題中,由于動作空間和狀態空間的高維連續性,使用DDPG算法可以更好地輸出最佳動作策略。
Actor-critic框架由Actor網絡和Critic網絡構成。Actor網絡輸入狀態st,輸出唯一確定性動作at與環境交互,返回下一時刻的狀態st+1和獎勵rt+1,其網絡權重參數用θ表示;Critic網絡輸入狀態st和動作at,通過價值函數評估動作at的優劣性,其網絡權重參數用ω表示。為了避免網絡輸出的震蕩導致不穩定的學習行為,增強算法的穩定性,DDPG分別復制Actor網絡和Critic網絡生成相對應的目標網絡,其網絡權重參數分別用θ′和ω′表示。
在DDPG算法中,為了增加學習過程的隨機性,提高智能體對環境的探索概率,針對Actor網絡決策機制引入隨機噪聲,設計輸出動作為
其中,μ(st|θ)表 示Actor網絡在狀態st時的輸出動作,N表示隨機噪聲過程。
Actor網絡采用off-police的訓練方法,用于生成動作的行為策略和評估策略不同。引入策略梯度下降法更新其網絡參數:
其中,K表示從經驗池中采樣的樣本數。更新Critic網絡時,采用均方誤差計算其損失函數:
其中,γ表示獎勵衰減因子。
通過軟更新的方式分別更新Actor網絡和Critic網絡的目標網絡參數:
其中,τ表示軟更新系數,用于控制迭代中每一步更新的幅度,一般取τ=0.01。
結合前文分析,智能體通過Actor網絡輸出波形相位,將當前所處狀態和動作矢量信息輸入到Critic網絡中;Critic網絡輸出評估狀態-動作對的Q值。利用梯度下降法和均方誤差分別計算Actor網絡和Critic網絡的損失函數,結合軟更新的方式,實現策略網絡、評估網絡以及對應目標網絡參數的更新。DDPG偽代碼如表2所示,算法結構框圖如圖4所示。

圖4 雷達波形設計的DDPG算法結構圖Fig.4 Structure diagram of DDPG algorithm for radar waveform design

表2 基于DDPG的波形優化算法Tab.2 Algorithm for waveform optimization based on DDPG
為了分析雷達雜波先驗數據缺失對發射波形優化過程的影響,驗證本文所提級聯優化算法的有效性,本節針對雜波先驗數據點狀與塊狀缺失場景進行仿真試驗。
雜波數據缺失模型參數設置如下:N=16,M=2000,數據缺失概率p=0.1。為方便觀察數據修復效果,將雜波數據矩陣可視化,如圖5所示,為雜波參考矩陣C的俯視圖。據2.1節所述,設置點狀缺失和塊狀缺失如圖6所示,其中,黃色部分表示數據缺失。由于修復完成的雜波矩陣將進一步計算雜波協方差矩陣,為提高數據缺失的代表性,將大多數缺失數據集中設置于N個脈沖編碼內(圖6中第41行到第56行內),保證內耦合更多缺失數據信息。

圖5 雜波參考矩陣可視化圖Fig.5 Visualization of the clutter reference matrix

圖6 雜波數據信息缺失圖Fig.6 Missing information of clutter data
根據樣本優先級填充算法,對雜波數據缺失矩陣目標區域進行修復。考慮到雜波數據缺失對后續波形優化的影響,將雜波缺失矩陣中的N aN值設為500,并采用KNN填充算法作為對比算法進行仿真試驗,結果如圖7、圖8所示(黑色方框表示雜波數據缺失矩陣的目標區域輪廓)。由圖7可看出,針對完全隨機缺失機制,雜波數據缺失部分在一定程度上得到了修復,然而點狀缺失數據分布比較分散,無法得出明顯的效果圖;由圖8可看出,在塊狀缺失場景下,優先級填充算法結合了優先級排序和樣本相似度的計算,修復效果明顯優于KNN填充算法,與參考矩陣C差異較小。由此可得出初步結論:優先級填充算法考慮了缺失點周圍數據的關聯性,可以從源區域內全局搜索出最相似樣本塊進行填充,并取得良好的修復效果。

圖7 點狀缺失場景下缺失數據修復圖Fig.7 Missing data repair diagram in the point-like missing scene

圖8 塊狀缺失場景下缺失數據修復圖Fig.8 Missing data repair diagram in the block-like missing scenario
為進一步驗證上述優先級填充算法對缺失數據修復的有效性,設置不同的缺失概率,將修復后的雜波矩陣與參考雜波矩陣的均方根誤差(Root Mean Square Error,RMSE)作為衡量指標,定量分析算法的優劣性。如圖9所示,RMSE隨著缺失概率p的增加不斷增大。在點狀缺失場景下,優先級填充算法修復誤差明顯低于KNN填充算法;在塊狀缺失場景下,當缺失概率p<0.3時,優先級填充算法略優,隨著p繼續增加,其算法誤差亦快速增大,填充性能下降且劣于KNN填充算法。對比不同的缺失場景,根據缺失數據分布的均勻性可知,塊狀缺失的數據相較于點狀缺失更為集中,故點狀缺失的修復性能更佳,誤差更小。

圖9 不同缺失概率下數據修復性能分析Fig.9 Data repair performance analysis under different missing probability

表3 強化學習參數表Tab.3 Reinforcement learning parameters table
設置相位初始狀態為 01×16,運行步驟step=1000,單個回合結束。訓練曲線如圖10所示,圖10(a)、圖10(b)分別表示點狀缺失和塊狀缺失兩種雜波缺失場景下的強化學習獎勵曲線圖。由圖10可以看出,獎勵曲線皆由初始的負獎勵值快速上升至400左右,然后逐漸收斂并趨于穩定,對應最大信噪比可達16 dB。說明在雜波先驗數據缺失的條件下,雷達發射機通過Critic網絡對動作策略的評估及獎勵反饋,成功學習到較優的波形相位動作。對比兩種缺失場景,由于塊狀缺失場景下缺失塊中心填充誤差較大,獎勵曲線收斂速度相對較慢。

圖10 僅恒模約束下強化學習獎勵曲線圖Fig.10 Reinforcement learning reward curves under constant modulus constraint
為驗證完全隨機缺失機制下基于優先級填充算法-強化學習級聯優化的訓練效果,以雷達接收信號的SCNR作為參考指標進行仿真分析。如圖11所示,橫坐標表示輸入信雜噪比α2/tr(Rc+σ2),其中α2表 示信號的能量,σ2為噪聲方差,依據不同輸入條件設計噪聲能量值。在仿真中,設置缺失概率為0.1和0.3,將協方差矩陣無缺失條件下SWORD算法所得結果作為性能上限,將數據缺失條件下SWORD算法以及KNN填充后的SWORD算法與本文所提算法進行仿真對比。由圖11可知,針對完全隨機缺失機制下的缺失場景,隨著雜噪比值的變化,所提算法能夠較好地逼近無缺失條件的波形設計性能,且優于KNN補償算法。其中,隨著缺失概率p的增大,雜波有效先驗數據信息減少,輸出性能略有下降。對比不同缺失場景,點狀缺失場景下的優化性能相較于塊狀缺失場景更優,但本文所提算法的優勢在塊狀缺失場景中更為明顯。

圖11 僅恒模約束下不同場景的輸出SCNR性能曲線圖Fig.11 Output SCNR performance curves of different scenarios under constant modulus constraint
為驗證不同約束對算法輸出性能的影響,在雷達波形優化方程中添加相似性約束,并根據式(7)在強化學習t時刻的狀態中添加相似度參數?。仿真結果如圖12和圖13所示。從圖12可以看出,不同場景下的獎勵曲線有明顯的提升和收斂表現;相較于無相似性約束下的仿真結果,由于具備參考波形的引導,Actor網絡能在相似度的衡量指標下迅速逼近最佳輸出動作,算法收斂速度加快且獎勵值小幅提升。從圖13可以看出,本文所提算法在恒模與相似性約束條件下,仍然具有較優的雜波抑制性能。由于對比實驗均考慮了相同的波形相似性約束,雖然在輸出性能曲線上不同算法的仿真結果差異變小,但本文所提算法與無缺失條件下SWORD算法的性能表現更為接近,且依然優于KNN算法補償后的傳統優化算法。

圖12 相似性約束下強化學習獎勵曲線圖Fig.12 Reinforcement learning reward curves under similarity constraints

圖13 相似性約束下不同場景的輸出SCNR性能曲線圖Fig.13 Output SCNR performance curves of different scenarios under similarity constraints
針對雜波先驗數據缺失條件下的波形優化問題,本文提出了一種優先級填充-強化學習級聯優化的波形設計算法。為求解恒模約束和相似性約束下的非凸非線性優化問題,本文首先根據缺失數據的優先度在源區域內搜索最佳匹配數據進行填充,實現隨機缺失機制下的數據修復,再結合DDPG強化學習決策算法,通過Actor-Critic網絡架構訓練決策出雷達最佳相位選擇策略,實現最大信雜噪比下的波形優化。最后,本文針對雜波先驗數據不同缺失場景,采用數值仿真對比KNN算法填充后的SWORD優化算法,分析結果表明:(1)級聯算法無需考慮先驗數據的分布函數,對雜波數據的完全隨機缺失具有較好的修復效果;(2)針對點狀缺失和塊狀缺失場景,本文所提算法均可獲得優越的雜波抑制性能,進一步提升雷達的探測能力。