智永鋒,邱璐瑩*,張 龍,高紅崗,師浩博
(1. 西北工業大學 無人系統技術研究院, 陜西 西安 710072) (2. 西北工業大學 民航學院, 陜西 西安 710072)
隨著科技發展,大量無線電設備使用,造成了頻譜擁擠。2000年,文獻[1]提出了認知無線電,把無線電賦予智能化,能夠智能響應用戶的感知需求。2002年,聯邦通信委員會針對頻譜效率問題對認知無線電做出定義。軟件無線電技術的完善,為認知無線電研究打下了堅實基礎。雷達在戰爭發揮著重要作用,而戰場環境瞬息萬變,有其他電子設備干擾,有敵方干擾機干擾,還存在著環境雜波。為解決此類問題,需要推進雷達智能化發展。2006年,文獻[2]提出了認知雷達概念,讓雷達根據探測的環境情況,調整自身參數,提高雷達檢測跟蹤能力。認知雷達的提出,為人工智能理論用于雷達抗干擾指明了方向。文獻[3]提出了認知雷達的感知-行動循環,把感知數據作為記憶以預測未來環境進行決策。文獻[4]把認知雷達用于汽車雷達的抗干擾,讓波形在測量周期內自適應地調整以達到抗干擾的目的。文獻[5]通過均衡契約的方式進行頻譜共享,文獻[6]提出了軍用頻譜共享的框架。
本文將環境劃分為多個子頻段,用馬爾可夫模型對多雷達系統進行建模,對掃頻干擾每一時刻占用頻段進行建模。對雙深度Q網絡(Double DQN)強化學習算法進行改進,與門控循環神經網絡相結合,使之能處理依賴于長時間序列的干擾問題。提出了基于門控循環單元的深度確定性策略強化學習算法,其針對Double DQN強化學習中的網絡臃腫和行動集巨大問題進行了改進。最后,進行了兩種網絡對于單雷達系統和多雷達系統的對比仿真實驗,證實了深度確定性策略梯度遞歸網絡能達到與雙深度遞歸Q網絡同樣的性能,但深度確定性策略梯度遞歸網絡的輸出維度更小,且兩算法都實現了多雷達系統的抗干擾及不對己方其他雷達造成干擾。
掃頻干擾是一種隨著時間變化而不斷改變頻率的干擾。掃頻干擾可以是一次占用一個頻帶也可以是一次占用多個頻帶,可以是頻帶每一時刻左移或右移一位或多位。將干擾所在頻帶抽象為二進制符號,0代表此頻帶未被干擾占用,1則相反。例如,把300 MHz的頻段分為6段,則每一頻帶占用50 MHz,假設掃頻干擾每次占用100 MHz,每一時刻右移50 MHz,則其表示如圖1所示。

圖1 掃頻干擾示意圖
雷達包括有單雷達、多雷達系統。雷達系統中,雷達發射電磁波,電磁波碰到環境障礙物反射回來,形成回波信號,雷達接收回波信號。接收的信號不僅有反射的電磁波頻移信號,還有干擾。雷達大腦根據過去的經驗,對當前情況做出決策判斷,動態地根據歷史中不同情況下采取的決策而變化,使其能夠自適應調整決策,應對未知環境。雷達框架如圖2所示。

圖2 雷達系統框架
上述過程可以看作是一個馬爾可夫過程[7-8],雷達下一時刻做出的決策僅與當前的環境狀態有關,而與過去環境狀態無關,可以用一個五元組(S,A,F,R,γ)來描述,其中
Ftn|t1…tn-1(sn|sn-1,an-1,…,s1,a1)=
Ftn|tn-1(sn|sn-1,an-1)
(1)
式中:S為狀態空間;A為動作空間;F為狀態轉移概率即環境變化函數;R為獎勵函數;γ為折扣因子。
在多雷達系統不僅存在著環境的干擾,還存在著周圍雷達的干擾。在本文中,將雷達作為智能體進行研究,智能體檢測到環境狀態包括了外界干擾和其他雷達干擾的總和,即
Sit=It+At-1
(2)

多雷達有兩種方案,一種是多個系統共用一個大腦,還有一種是每個系統各有一個大腦。在實驗部分將對這兩種方案分別進行表述。
強化學習主要是根據環境信息,智能體做出動作,環境對于智能體做出的動作進行評估,反饋給智能體一個獎勵值。智能體根據環境反饋的獎勵情況調整自身的策略,根據下一時刻環境狀態做出動作,以此類推,如圖3所示。

圖3 強化學習基本模型
有學者提出了Q表格的方法,把環境狀態和行動量化成一個表格,智能體得到一個環境狀態,做出一次行動,都在表格上填上相應的獎勵值,這里獎勵值就相當于Q值,如表1所示。

表1 Q表格
環境狀態數m的大小取決于環境狀態維度和每一維度下的取值個數。如果環境維度和取值個數較大,將會導致上述表格十分巨大,在程序運行時,消耗巨大的內存資源,時間復雜度高。于是有學者就提出了將神經網絡用于智能體決策。對于神經網絡,輸入的大小等于環境狀態維度,輸出的大小等于行動個數,智能體利用環境狀態,經過一系列前向神經網絡運算就可以得到每個行動的Q值,選擇最大的Q值作為本次行動,再通過環境的獎勵反饋給神經網絡。
直接把獎勵作為訓練方向的判斷會引起網絡的震蕩,使網絡不易收斂。在獎勵范圍大,變化劇烈情況下,這種直接的方法對于長期任務來說并不適用,通常需要考慮下一時刻的獎勵,對目標Q值進行軟更新。
(3)

在雷達系統中,雷達僅僅根據當前的干擾環境狀態,通常是無法判斷干擾的下一刻走向的。長短時記憶網絡即LSTM網絡通常用于語音識別、語義識別,它具有一定的記憶,可以通過過去一段時間的狀態推測現在的輸出。掃頻干擾與時間序列有關,有必要結合語言識別中常用的LSTM網絡,作為雷達智能體抗干擾的一部分,門控循環單元有LSTM網絡的優點,網絡參數少,易于訓練收斂,因此最終將門控循環單元加入了雷達智能體。針對雷達抗干擾方面,提出了下面兩種方法進行對抗。
雙深度遞歸值網絡(GRU-DDQN)由雙深度強化學習(Double DQN)網絡進化而來[9]。Double DQN采用神經網絡取代Q值表格,防止了環境狀態數過大;建立了兩個網絡,一個用于計算當前Q值,一個用于計算下一狀態Q′值,兩個網絡不完全一樣,Q值網絡一種在更新,而Q′網絡只有在運行一定步數后,把Q值網絡復制過來,這樣兩個網絡有延遲,可以防止估計的Q值過大而引起網絡的不穩或網絡估計的失真的問題。網絡結構如圖4所示。

圖4 Double DQN強化學習架構
由于Double DQN具有無后向性,無法學習與時序狀態有關的行動策略,為了使智能體能處理依賴于長時間序列的干擾問題,提出了循環神經網絡與深度強化學習相結合的方法。循環神經網絡主要是用于序列數據的處理[10],在強化學習中加入循環神經網絡可以使雷達做出抗干擾性能更好的決策。循環神經網絡中的門控循環單元網絡(GRU)有長短時記憶循環網絡(LSTM)的優點[11-13],解決了長期依賴的梯度爆炸問題和梯度消失問題,又減少了網絡參數,加快訓練和收斂速度。
本文把頻譜分割成五個頻段,網絡的輸入是5×5大小的,網絡的輸出大小為1×15。根據行動、獎勵和價值估算,計算出與神經網絡輸出值相對應的價值Q,通過最小化Q與目標y之間的差或者均方差,即最小化損失函數,來更新網絡權重。網絡結構如圖5所示。

圖5 GRU-DDQN強化學習架構
當行動的數目太多時,網絡變得難以訓練或收斂。為了解決這個問題,提出了基于深度確定性策略門控循環強化學習(GRU-DDPG),主要是將基于值學習的方法變為基于策略的方法,將門控循環單元網絡與深度確定性策略梯度強化學習(DDPG)項結合。策略梯度更新公式為
(4)
式中:θ是神經網絡模型參數;U(θ)是參數為θ下的期望獎勵;θU(θ)則是對期望獎勵函數中的參數θ進行求導;T為智能體完成一個序列的長度;m為訓練數據的輪次大小;為在時刻t,第i輪中采取的動作;為在時刻t,第i輪中的環境狀態;為策略函數;為在狀態下的獎勵;為時間t以后的折扣累計獎勵,γ為折扣因子。
深度確定性策略門控循環強化學習[14]的網絡輸入層是GRU網絡層,一共有四個神經網絡,一個用于決定當前時刻下的環境狀態做出的行動,一個是用于預測下一狀態下的行動,一個用于評價當前狀態和行動的價值,一個用于評價下一狀態和預測的行動的價值。其算法結構如圖6所示。

圖6 GRU-DDPG網絡結構
目標y的計算公式如下
y=Qtarget=R+γQ′
(5)
式中:Qtarget為目標值;R為環境獎勵;γ為折扣因子;Q′估計下一時刻的評估值。
評估神經網絡critic網絡輸入是當前狀態和動作,輸出對于當前狀態動作的評估值,其更新是通過最小化目標評估值和評估值直接差距來梯度反向傳播,更新網絡。動作神經網絡actor網絡的更新是通過最大化評估值Q來實現。估計動作神經網絡actor′網絡和估計評分神經網絡critic′網絡分別由actor網絡和critic網絡更新而來,更新公式如下
(6)
(7)

本次實驗假設雷達能正確感知到環境并把感知情況化為一串0-1序列。假設雷達能發射占用連續頻帶的波形,只需要輸出頻段大小和位置即可,省略信號的發射部分。設置環境頻譜大小為100 MHz,分為五個頻帶,每個頻帶占用25 MHz,干擾為掃頻干擾。分別進行單雷達和多雷達的系統抗干擾[15]仿真,對每個系統采用兩種方法進行仿真結果分析。
對于GRU_DDQN方法,即采用雙深度遞歸Q網絡的方法,使用獎勵函數(8)作為環境反饋。
(8)
迭代20 000次后得到的曲線圖如圖7所示。

圖7 GRU-DDQN方法用于單雷達
智能體的迭代獎勵雖然能夠快速升高,到5 000步之后基本可以達到獎勵最大的情況出現,但智能體對于決策一直處于在較大范圍震蕩中,直到15 000步以后較為穩定。雷達智能體對于抗干擾的測試結果如表2所示。

表2 GRU-DDQN測試結果
從表中可以看出雷達智能體做出的行動占用的頻點不與干擾的頻點相撞,智能體可以躲避干擾所在頻點。智能體有時無法占滿沒有干擾的頻點,使得獎勵值未達到最大。
對于使用深度確定性策略梯度遞歸網絡,若使用與GRU-DDQN方法一樣的獎勵函數,則經常有陷入局部最優的情況出現,智能體不對環境發射信號。為了能更好地指導智能體尋找到每一狀態下的最優策略,需要運用獎勵函數為式(9)~式(11)
(9)
(10)
R=R1+R2
(11)
智能體使用上述獎勵函數,基本可以達到最優獎勵的行動。考慮到神經網絡的輸出空間大于智能體行動空間,屬于輸出空間但不在行動空間里的某些動作,在獎勵函數(9)~(11)下,獎勵大于在行動空間里的所有動作,智能體根據盡量往獎勵大的方向靠攏,采取了不符合行動空間的動作。為了減少此類狀況發生,就需要修改為獎勵函數(12)~(14),如下所示。
(12)
(13)
(14)
R=R1+R2+R3
(15)
通過上述優化,離最優解的差別還是挺大的,為此我們將限制直接加入到智能體輸出中,即當智能體的輸出有多個離散的頻段時,只取最左邊的離散頻段,示意圖如圖8所示。

圖8 網絡輸出調整
實驗結果如圖9和表3所示。

表3 GRU-DDPG方法單雷達實驗測試結果

圖9 GRU-DDPG方法用于單雷達
從表3中可以看到,雷達智能體的決策行動頻點有效地避開了干擾,達到了抗干擾效果。智能體也會有錯失可用頻段的情況,但總體來說比未改進時的情況更好,迭代獎勵值更高。
對兩種方法的迭代曲線進行對比,如圖10所示。

圖10 GRU-DDPG和GRU-DDQN用于單雷達
從圖10中可以看出兩種方法都能達到相似的優化效果,但GRU-DDQN方法速度較快, GRU-DDPG方法變化平穩。
對于多個雷達來說,不僅要判斷敵方的掃頻干擾,還需要判斷己方其他雷達造成的干擾。需要雷達具備更高智能性,對網絡提出了更高的要求。多雷達當前有兩種方案:一種所有雷達智能體共用一個大腦做出決策,另一種是每個雷達智能體都有各種的神經網絡大腦。實驗證明,只使用一個大腦的效果并不理想,它雖然能躲開外部的干擾,但對內部干擾無能為力,會讓所有的智能體都趨向于使用同一頻段,他們檢測到的環境狀態基本相同,同一輸入狀態、同一神經網絡結構和參數,必然會輸出相同的決策。當所有智能體都使用同樣決策時,頻譜沖突就無法避免,自然會引起相互干擾。其實驗結果圖和數據如圖11和表4、表5所示。

表4 方案1的GRU-DDQN測試結果

表5 方案1的GRU-DDPG測試結果

圖11 方案1(多個雷達單大腦網絡)迭代曲線
由圖11、表4和表5可知,在方案1中,由于多個雷達智能體在每一時刻都采取同一動作,導致智能體之間的決策相互沖突,獎勵一直為負。
為了解決智能體總是采取同一動作,我們采取了方案2。基于GRU-DDQN算法和基于GRU-DDPG算法的實驗結果如圖12和表6、表7所示。

表6 方案2的GRU-DDQN多雷達結果

表7 方案2的GRU-DDPG多雷達結果

圖12 方案2(多個雷達多大腦網絡)迭代曲線
可以看到智能體基本上能避開環境干擾和其他智能體的干擾,獲得較高的獎勵。GRU-DDPG算法的效果稍好于GRU-DDQN算法。
本文針對雷達受到掃頻信號的干擾的情況,提出了基于深度強化學習的多雷達共存抗干擾算法。對環境進行模型的建立和簡化,采用雙深度循環Q網絡進行抗干擾解算,將其循環網絡修改為門控循環單元,取得了良好的效果。提出了一種深度確定性策略梯度遞歸網絡,該網絡在頻帶數量多的時候,可以減小網絡的神經元個數,大大節省網絡的存儲空間。實驗結果表明,本文的算法可以使雷達系統避開存在干擾的頻點,有效降低來自外界和己方雷達相互之間干擾。