趙知勁 朱家晟 葉學義 尚俊娜
①(中國電子科技集團第 36研究所通信系統信息控制技術國家級重點實驗室 嘉興 314001)
②(杭州電子科技大學通信工程學院 杭州 310018)
為構建更穩定、高效的無線通信系統,抗干擾技術的重要性日益突出。跳頻通信技術具有抗傳統干擾能力較強、難以截獲和易組網的特點,基于其建立的跳頻通信網廣泛應用于通信領域[1]。隨著無線設備不斷增加,干擾技術逐漸智能化,跳頻網絡工作的電磁環境變得越來越復雜,需要大量頻譜資源支持的傳統抗干擾技術已無法滿足需求。而智能抗干擾技術由于具有更強的靈活性和抗干擾性能,已逐漸受到關注。
通信設備的網絡化運用不僅可以提升系統信息傳遞速率,其抗偵察、抗截獲和抗干擾能力也明顯優于點對點通信[2]。跳頻組網通信中需要同時應對同頻干擾、敵意干擾和自然干擾。傳統的降低同頻干擾的方法主要有增加頻帶寬度、跳頻頻點數、設計相關性好的跳頻序列等。文獻[3]分別從技術和策略上研究了跳頻組網抗干擾技術,其使用了加密的寬間隔跳頻圖案,并以節點慢速跳頻掃描跟蹤和多頻點輪流發送同步信息的方式改進了組網的同步過程,提高了同步過程的抗干擾性能。文獻[4]基于網絡拓撲抽象出基本組網場景,并構建頻率規劃求解模型,提高了具有多節點、多子網、多頻表的網絡的資源協同規劃效率。文獻[5]提出了一種基于碰撞跳頻碼一致的同頻干擾消除方案,通過在碰撞頻點上傳輸空碼元避免頻率碰撞,提高跳頻組網效率。文獻[6]提出了一種認知無線Ad-hoc網絡中的頻段動態管理方法,其中節點僅在感知到目標頻段空閑時才進行頻率跳變并提出了無碰撞下一頻率可用性指示(Next Frequency Availability Indication,NFAI)方法使節點間共享感知結果,減少服務中斷時間。然而,復雜的電磁環境、稀缺的頻譜資源和激增的設備數量導致傳統抗干擾技術在跳頻組網中難以發揮作用。并且,目前幾乎沒有關于同時對抗同頻干擾和敵意干擾的研究。對此,文獻[7]提出了根據干擾因素調整通信參數的智能組網技術,能最優化通信資源,提升系統抗干擾能力。
跳頻組網中的智能抗干擾決策涉及多個用戶,是典型的多智能體系統。其中,每個用戶的決策都將影響環境和其他用戶的決策,這造成了環境的非平穩性[8]。而強化學習是解決動態和未知環境中智能決策問題的有效方法[9]。多智能體強化學習則將上述兩個方面結合起來,是強化學習中的重要分支。目前多智能體強化學習的主要問題包括智能體的差異性和協調合作、環境非平穩性、獎勵機制復雜、算法效率較低等。針對智能體差異和協調的問題,文獻[10]針對分布式認知無線電網絡中信道和功率分配問題提出了一種合作Q學習(Q-Learning,QL)算法,使各Agent在學習過程中融合其他具有更高獎賞值的Agent的Q值來獲取學習經驗,減少不必要的探索,該算法較單Agent的 QL算法有更高的學習速率和系統性能。文獻[11]研究了具有多個主用戶、次用戶和信道的認知無線電網絡中的動態資源管理問題,使用多個獨立的深度Q網絡(Deep Q Network, DQN)學習非平穩性環境,實現頻譜資源分配。文獻[12]則研究了系統的獎勵機制,設計了包含合作和競爭因素的獎勵函數及分配策略,并使用共享經驗池,從而提出了基于多智能體虛擬體驗的深度Q學習(Multi-agent Virtual Exploration in Deep Q-Learning, MVEDQL)算法,實現了Agent之間的協調和相互學習。文獻[13]將空戰仿真中計算機生成兵力智能化問題建模為兩人零和博弈問題,設計了一種基于勢函數的獎勵成型方法,從而提出了一種帶獎賞形成機制的深度確定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient with Reward Shaping, RS-MADDPG)算法,有效提升了空戰策略生成算法的有效性和生成策略的智能化水平。
本文研究復雜電磁環境下跳頻異步組網中的抗干擾問題,首次應用多智能體深度強化學習算法進行各子網參數智能決策,實現避免同頻干擾和對抗敵意干擾的目的,從而提出了基于集中式訓練和分散式執行框架的多智能體模糊深度強化學習(Multiagent Fuzzy Deep Reinforcement Learning based on Centralized Training and Decentralized Execution, MFDRL-CTDE)算法。針對多智能體系統中各Agent相互影響和環境不穩定的問題,將集中式訓練分散式執行框架以及共享經驗池引入多智能體深度強化學習中。針對Agent的差異性和協調合作問題,本文提出了基于模糊推理系統的融合權重分配策略,采用模糊推理系統以Agent獲得的累計平均獎賞和樣本優先度為標準估計各網絡性能并分配權重用于網絡融合,使性能好的Agent能做出更大的貢獻,從而提高算法性能。最后,本文采用了Dueling DQN算法和優先經驗回放技術以進一步提高算法的效率。該算法在跳頻異步組網智能抗干擾決策問題中具有更快的收斂速度和更高、更穩定的收斂性能,并且對多變的復雜電磁環境具有更好的適應性。
跳頻通信網是通過頻率跳變方式將相當寬的頻帶內的大量用戶組建成的通信網,實現網內任意用戶間的通信。跳頻組網通信中的抗干擾主要分為對抗自然干擾和敵意干擾、減小不同子網間和同一子網內節點間的同頻干擾[5]。
跳頻組網根據網絡是否采用完全統一的時間基準可分為同步組網方式和異步組網方式。同步組網中各個子網采用相同的跳頻技術體制和跳頻圖案算法,且工作在同一張跳頻頻率表上,其每一跳的起跳時間和駐留時間完全一致。因此,同步組網方式的效率很高,不存在同頻干擾[14],但是對同步性能要求很高,實現困難,建網速度慢,復雜度高,難以保持,并且抗阻塞干擾能力差。異步組網對各子網之間跳頻時序、跳頻圖案和頻率表等方面沒有約束,各子網之間不需要同步,而子網內各節點需要同步[15]。異步組網方式組織使用方便、靈活,是目前最常用的組網方式,但是組網效率較低,抗偵察能力較差,存在一定程度的同頻干擾,并且隨著節點數量的增加和頻譜資源的日益稀缺,同頻干擾的影響會越來越大。為盡量避免同頻干擾,異步組網方式需要更高效、更智能的頻譜資源分配方式。
本文的跳頻網絡中,對于同一子網內的節點采用時分多址復用技術[3],各節點使用相同的跳頻圖案分時隙地發送數據,從而避免網內同頻干擾。各子網之間則采用異步組網方式,通過智能規劃頻譜資源,盡量避免網間同頻干擾并應對敵意干擾。
強化學習以其免模型和與環境交互的特點能有效地解決各種復雜環境中的智能決策問題。馬爾可夫決策過程(Markov Decision Process, MDP)是單智能體強化學習方法的基礎理論,其描述了單智能體在決策問題中狀態-動作空間、觀測、獎賞、狀態轉移函數等因素。但是在多智能體系統中有多個智能體同時與環境交互,單個智能體往往無法完整地觀測整個環境,且其動作將影響環境和其他智能體,故無法通過MDP完善地描述該系統,進而導致單智能體強化學習方法在多智能體系統中的決策效果有限。為了獲得更大的獎賞,每個智能體都需要學習環境和其他智能體的動作策略。

根據2.1節所述,本文將使用多智能體深度強化學習方法為跳頻異步組網提供更智能的頻譜資源分配方式,智能對抗同頻干擾和敵意干擾,提高網絡通信質量。定義該馬爾可夫博弈模型中的狀態空間由智能體的功率P和信源速率B構成,則狀態集


在多智能體深度強化學習中,各智能體的值函數是由所有智能體的狀態和動作決定的,這導致單智能體強化學習算法直接應用于多智能體系統時效果不佳。在多智能體系統中,智能體在執行時往往無法完整得到環境中隱藏信息,但是這些信息在訓練時很容易獲得。因此,僅在訓練時有效地利用這些額外信息將能幫助智能體加速學習[18]。

基于CTDE框架和共享經驗池,本文提出如圖1所示的多智能體系統模型,其中共享經驗池(shared experience pool)用于使智能體之間能互相利用經驗,進行信息交流。

圖1 具有CTDE框架和共享經驗池的多智能體系統模型
DQN是最常用的深度強化學習方法,但是在多智能體系統中,由于環境復雜且智能體之間可能的狀態、動作組合過多,其過大的狀態-動作空間將降低DQN的效率。
對此,本文采用競爭性DQN(Dueling Deep Q Network, Dueling DQN)作為網絡的基礎結構。Dueling DQN是一種常用的DQN改進方法,其通過改進Q網絡結構就能簡單而有效地提升學習效率。在智能體學習過程中,某些狀態下采取任何動作對后續狀態都沒有大的影響,對此可以通過分離狀態和動作的價值來提升效率,Dueling DQN正是基于該思想創建的。如圖2所示[19],Dueling DQN將Q網絡最后一層拆分為狀態值流和動作優勢流,從而將每個動作的Q值變為狀態價值和動作優勢值之和。

圖2 Dueling DQN網絡結構示意圖
為防止在狀態價值函數為0,動作優勢函數等于Q值的訓練結果出現,通常采用式(5)[19]所示的形式,將單個動作優勢函數值減去所有動作優勢函數值的平均值。該方式可以在保證各動作的優勢函數相對排序不變的同時縮小Q值的范圍,去除多余的自由度,提高算法穩定性




本文模型中,集中式目標Q網絡的更新依賴所有智能體的估值Q網絡及其融合權重。但考慮到各個智能體之間的競爭、協作關系及其差異,權重分配一直是多智能體深度強化學習的難點,因此,本文提出基于模糊推理系統的融合權重分配機制,以模擬網絡優越性與融合權重的映射關系,從而使得性能優越的網絡在集中式目標Q網絡的更新中發揮更大的作用,提高算法整體的效率。
模糊推理系統(Fuzzy Inference System, FIS)能通過簡單有效的推理從復雜信息中推導出結論[20],打破了經典集合定義中絕對隸屬的概念,是一種強大的非線性問題處理技術。FIS由模糊化、模糊規則庫、模糊規則推理和去模糊化等部分組成。對于輸入狀態,FIS先通過隸屬度函數進行模糊化,再經過模糊規則推理得到其對各輸出狀態隸屬度,最后通過去模糊化確定輸出。

如圖3所示,系統輸入變量隸屬度函數均采用最常用的三角隸屬度函數[20]。系統輸出變量去模糊化過程采用質心解模糊法,求取陰影部分質心,其橫坐標即為系統輸出的融合權重。

圖3 隸屬度函數及質心解模糊法示意圖

表1 模糊規則定義
常用的基于ε-greedy機制的動作選擇策略的參數ε是固定的或隨迭代次數線性下降的,在迭代中后期智能體仍有一定概率選擇隨機動作并執行,這將導致算法難以收斂。對此,本文引入非線性因素,采用如式(13)所示的動作選擇策略

多智能體深度強化學習算法的復雜度與狀態-動作空間、Q網絡的復雜度和智能體數量直接相關[21],即取決于參與決策的智能體數量,決策過程中狀態空間、動作空間的維度和Q網絡的規模。因此,在解決相同智能決策問題時,本文該部分的復雜度與其他多智能體深度強化學習算法的相同。

因此,本文算法的復雜度將略高于其他多智能體深度強化學習算法。

綜上所述,本文所提MFDRL-CTDE算法的具體步驟如下:算融合權重并按式(11)進行歸一化,由式(12)更新集中式目標Q網絡的網絡參數。

仿真中各項參數設置如下:子網數量為4,總帶寬W為200 MHz,用戶傳輸功率為150~250 mW,信源速率為5~15 Mbps,高斯白噪聲功率n0=10-7mW,可選跳速集合為[500, 1000, 2000,4000] hop/s,可選跳頻序列共8種,信道劃分間隔為1~10 MHz。算法經驗池容量Ng=2000,每次經驗回放采樣樣本數量M=50,網絡學習速率lr=0.00005,集中式目標Q網絡更新周期Ttar=50,總訓練回合數T=250,折扣因子γ=0.9,參數α=0.6,β=0.4, λ=40。下文4.1節和4.2節的仿真結果均在如圖4所示的未來短時間內的干擾環境頻譜瀑布中獲得,頻譜瀑布表達了各種干擾的功率、干擾頻段隨時間的變化情況,該環境中包含寬帶干擾、窄帶干擾、掃頻干擾和高斯白噪聲,其中各種干擾的數量、功率、頻段等參數均為在一定范圍內隨機產生的,顏色越深表示干擾功率越大,單位時間間隔為最大跳速對應跳頻周期,單位為mW[22]。

圖4 干擾環境頻譜瀑布圖
分別使用MFDRL-CTDE算法、IDQN算法[11]、MVEDQL算法[12],不具有Dueling DQN和優先經驗回放的本文算法(以下簡稱MFDRL-CTDE-1)以及各智能體使用相同融合權重的本文算法(以下簡稱MDRL-CTDE)在相同的干擾環境下進行智能抗干擾決策,得到各算法的系統平均能量效率隨訓練回合數變化的曲線,經平滑處理后其結果如圖5(a)所示。
由圖5(a)可得如下結論:(1)本文算法最優,其收斂速度快,收斂后的最佳性能明顯高于對比算法,且性能的波動較小。(2)MVEDQL算法雖然初期收斂速度更快,但隨后性能提升較慢,效率較低。這說明MFDRL-CTDE算法中的CTDE框架較MVEDQL算法的共享經驗池能使多智能體系統更有效地收集、交流和利用額外信息,幫助算法突破局部最優解。(3)缺乏智能體交流機制的IDQN算法則收斂緩慢且性能波動較大。(4)使用了固定等值融合權重的MDRL-CTDE算法的收斂速度則慢于MFDRL-CTDE算法和MFDRL-CTDE-1算法且收斂后性能波動更大。這是因為基于模糊推理系統的融合權重分配策略能使性能好的網絡在網絡參數融合過程中發揮更大的作用,減少性能差的網絡帶來的影響,有效提升了網絡融合效率和系統在高動態環境中的穩定性。(5)MFDRL-CTDE-1算法的收斂速度比MFDRL-CTDE算法快,但能達到的最佳性能低于后者,且波動較大。因為在學習初期,網絡對聯合值函數的擬合性能較差。此時,PER的經驗篩選比傳統經驗回放技術更注重網絡預測精度的提升,這可能造成短暫的性能下降;而Dueling DQN的狀態值與動作優勢值分離的策略難以發揮效果。隨著網絡擬合性能的提升,PER的經驗篩選和Dueling DQN的優勢逐漸體現,在加速MFDRLCTDE算法收斂的同時能避免回放劣質樣本和值函數大幅更新造成的算法性能波動,從而提高了算法收斂后的穩定性。

圖5 各算法性能比較圖
為驗證本文算法在不同子網飽和程度下的性能,當子網數量為3~7時,分別使用MFDRLCTDE算法、IDQN算法[11]、MVEDQL算法[12]在相同的干擾環境下進行智能抗干擾決策,其系統平均能量效率曲線如圖5(b)所示。
由圖5(b)可知,本文算法在各子網數量下的性能都優于對比算法。本文算法在子網數量較少和適中時,性能明顯優于對比算法;隨著子網數量的增加,系統逐漸趨近飽和狀態,資源逐漸緊張,環境復雜度和不穩定性加強,智能抗干擾決策的難度提升,因此,本文算法性能逐漸下降,相較對比算法的優勢有所減小。
隨機改變寬帶干擾、窄帶干擾和掃頻干擾的功率、干擾頻段及數量,得到3種干擾環境頻譜瀑布,如圖6(a)–圖6(c)所示。分別使用MFDRL-CTDE算法、IDQN算法[11]、MVEDQL算法[12]在不同的環境中進行決策,各算法的系統平均能量效率曲線如圖6(d)–圖6(f)所示。
由圖6可見,在不同干擾環境下本文算法的收斂速度、收斂性能和穩定性都優于對比算法。所以本文提出的MFDRL-CTDE算法更適合復雜電磁環境中智能抗干擾決策問題。

圖6 不同環境下算法性能比較
本文主要研究復雜電磁環境下跳頻異步組網中應用多智能體強化學習的智能抗干擾決策問題。引入CTDE框架和共享經驗池解決了多智能體之間相互影響和環境不穩定的問題。提出了基于模糊推理系統的融合權重分配策略,使性能更好的網絡在融合時能做出更大貢獻,從而提高算法性能。采用Dueling DQN和優先經驗回放技術進一步提高了算法的效率。仿真結果表明,本文算法在收斂速度、最佳性能和對環境的適應性上都有更好的表現。