采用雙層強化學習的干擾決策算法

2018-02-27 10:57:58顓孫少帥楊俊安劉輝黃科舉

西安交通大學學報 2018年2期

顓孫少帥,楊俊安,劉輝,黃科舉

(1.國防科技大學電子對抗學院,230037,合肥;2.安徽省電子制約技術重點實驗室,230037,合肥)

隨著信息作戰在現代化戰爭中的地位愈加鞏固,確保己方奪取戰場制信息權對取得局部戰爭乃至整場戰役的勝利都是必不可少的。對于干擾敵方信息傳遞通道以實現通信拒止技術,其難度隨著敵方在通信過程中使用認知無線電等技術而變得愈加困難。值得慶幸的是,無線通信的開放性使得對其干擾仍存在較大的可行性,而選擇合適的干擾方式對實現成功干擾至關重要[1-3]。許多參數優化理論算法如博弈論、粒子群算法、遺傳算法等相繼被用于搜索最優干擾策略。Wang等人提出了一種通過觀察可用頻譜、信道質量、信道狀態而采取的隨機對策方法實現抗干擾通信[4];Wu等人分析了通信方在具備環境完全知識和部分知識的前提下,通過推導納什均衡解來盡可能地降低干擾的影響[5];Jin等人構造了一種規則縮減遺傳算法,通過對通信參數逐步優化的方式獲得抗干擾策略[6]。然而,上述理論算法成功實施的前提條件是需要具備通信方、環境的部分先驗信息,無法適用于缺乏先驗信息的場景。強化學習作為一種在線的、與外界環境實時交互的機器學習理論,具有噪聲魯棒性強、實時交互、無需先驗信息的特點,普遍用于游戲[7]、機器人控制[8]等領域。將強化學習相關算法用于策略的學習之中,能夠充分利用算法無需先驗信息的優勢,并且通過持續交互獲得的學習結果接近外界真實環境狀態。Gwon等人提出利用Q學習的方法求取最優信道接入策略[9];Slimeni針對認知無線網絡中的干擾問題,以改進的Q學習方法對抗固定的干擾策略,得出一種多信道功率分配方案[10];Amuru等人深入研究了利用強化學習算法從物理層、介質訪問控制(media access control,MAC)層搜索最優干擾策略[11-12];黃科舉等人對IEEE 802.11MAC層認知干擾技術進行了研究,對干擾參數和干擾策略進行在線優化[13]。但是,上述強化學習算法面臨收斂速度慢的困境,在學習過程中需要同環境進行大量交互。雖然有一些相關算法[8,14]專注于解決此類問題,但是尚沒有具體算法研究強化學習在干擾決策過程中利用先驗信息。

為了解決上述問題,本文提出了一種采用雙層強化學習的干擾決策(jamming decision using dual reinforcement learning,DRLJD)算法。該算法在對干擾問題建模后,利用環境反饋信息學習等效通信參數,然后利用等效通信參數學習干擾參數,通過兩者交互學習的方式加快收斂速度。通過仿真結果可知,雙層強化學習算法能夠降低尋優過程中的交互次數,且先驗信息的加入進一步加快了算法的收斂速度,提出的新的獎賞標準能夠在未知通信協議的情況下以犧牲交互時間為代價學習到最佳干擾策略。

1 干擾模型

(a)不同干擾樣式下的干擾參數組合

(b)不同同相分量下的干擾參數組合圖1 不同干擾參數離散組合策略

尋找最佳干擾參數問題往往被建模成多臂老虎機(multi-armed bandit,MAB)問題[11]。以使用盡可能小的干擾功率實現期望符號錯誤率(symbol error rate,SER)ζE為例,干擾信號與通信信號頻率對準后,首先對干擾功率、信號調制樣式、干擾持續比等干擾參數進行離散化處理,其次對各種可能的組合逐一嘗試便可確定最佳組合,即最佳干擾策略,圖1給出了不同干擾參數離散組合策略。圖1a中以干擾樣式、干擾功率、干擾持續比3種變量的組合構造干擾策略,其中干擾樣式包括二進制相移鍵控(binary phase shift keying,BPSK)、加性高斯白噪聲(additive white Gaussian noise,AWGN)、脈沖幅度調制(pulse amplitude modulation,PAM)、正交相移鍵控(quadrature phase shift keying,QPSK)等,干擾功率被劃分成N個不同的功率等級,干擾持續比ρ為干擾時間與通信時間的比值,同樣按設定值M對其進行均勻劃分。圖1b從同相分量、干擾功率、干擾持續比的角度構造不同的干擾策略。

直接估計干擾信號在接收端的等效功率是比較困難的,但可以由干擾方學習等效通信參數組合,并根據學習的通信參數組合來指導干擾參數組合的選擇。對于該等效通信參數,有一個基本條件需要滿足:即等效通信參數的取值是恒定或唯一的,不會因干擾功率的變化而變化。

(1)

(2)

(3)

符號錯誤率ζJ可以表示如下

(4)

(5)

(6)

2 雙層強化學習算法

2.1 雙層強化學習模型

雙層強化學習的核心思想是在傳統強化學習系統中增加一個學習模塊,即不僅對等效通信參數進行學習,同時還對干擾參數進行學習。雙層強化學習模型如圖2所示,主要包括2個學習模塊和一個策略選擇模塊。相對于傳統的強化學習方法,該模型不僅能夠根據強化學習的自學習過程實現干擾參數模塊和等效通信參數模塊的雙層學習,還能夠對以往的干擾經驗加以利用,加快學習模塊的收斂。

圖2 雙層強化學習模型

2.2 獎賞標準

本文對通信信號施加干擾時,以接收方獲取信息的SER作為獎賞依據,該信息可通過對環境的偵察獲得,例如美軍戰術互聯網以TCP/IP協議作為電臺間的通信協議,該協議要求接收方在順利接收數據包后發送確認幀/非確認幀(acknowledge/not acknowledge,ACK/NACK)信息,統計該信息后可用于計算包錯誤率(packet error rate,PER)RPE,而RPE與ζE是等效的,可利用公式ζE=1-(1-RPE)1/H計算獲得,其中H表示校驗幀比特數。

在不具備有關通信信號相關先驗信息時,可通過分析通信信號的行為評估干擾效果,本節提出一種新的獎賞標準——忍受時間。忍受時間定義為:通信方從受到干擾的時間為起始,到改變通信參數進行通信的時間為終止。顯然,如果干擾參數性能優異,必然在短暫時間內迫使通信方改變通信參數,而性能較劣的參數帶來的包錯誤率相對較低,通信方能夠忍受更長時間的干擾。將忍受時間作為獎賞標準,忍受的時間越久,獎賞值越低。此外,將其作為獎賞標準的好處是,無論通信方增大信號功率還是改變信號調制樣式,其受干擾時忍受時間是確定的,該時間能夠衡量干擾參數性能的優劣。

2.3 不同程度的先驗信息

先驗信息的加入有利于縮短學習過程所需的交互次數,為算法走向實用性提供保證。本文采用以下4種不同的先驗信息:①精準的先驗信息,干擾方能夠在較低的干擾功率下達到期望的干擾效果,但該先驗信息并非最優干擾策略;②含糊的先驗信息,該信息唯一能夠確定的是其滿足干擾需求;③多份先驗信息,以往的諸多干擾經驗可作為多份先驗信息;④錯誤的或無先驗信息,該信息屬于以往的成功干擾策略,但滿足不了當前的干擾任務,達不到預期的干擾效果,可將該情況同樣視為不存在先驗信息。

2.4 采用雙層強化學習的干擾決策算法

(7)

(8)

(9)

步驟1 對干擾信號、等效通信參數進行離散化處理,確定參數及變量的取值范圍,給定初始化階段以及主循環階段的干擾次數T1和T,明確先驗信息。

步驟2 fort=1:T1執行以下(1)～(2)步:

(1)從干擾參數組合中隨機選擇一組策略,構造干擾信號并對通信信號施加干擾,如果存在先驗信息,則直接對其加以利用;

(2)根據反饋信息對等效通信參數模塊內的組合進行剔除操作,刪除不合理組合。

步驟3 fort=T1+1:T執行以下(1)～(3)步:

(1)根據等效通信參數模塊中的可能解,從干擾參數模塊中選擇合適的干擾參數組合;

(2)根據反饋信息對等效通信參數模塊內的組合進行剔除操作,刪除不合理組合;

(3)根據等效通信參數模塊中的可能解和反饋信息,對干擾參數模塊內的組合進行剔除操作,刪除不合理組合。

2.5 算法性能指標

本文確定的干擾目標是,如何在滿足期望ζE的情況下使得干擾功率盡可能低,且學習最優干擾參數所需的交互次數盡可能少。為有效衡量DRLJD算法的性能,本文主要從算法學習到最優(次優)干擾參數的概率、收斂所需干擾次數以及新的獎賞標準的可行性3個方面進行評估。

3 實驗仿真

3.1 學習結果

圖3 先驗信息及初始化交互次數對學習結果的影響

從圖3中可以看出,MAB算法至少需要600次交互,算法才能以概率1學習到最優和次優干擾策略。對比不同先驗信息下的學習結果可以發現,精準的先驗信息和多份先驗信息擁有相似的學習結果,且概率較含糊的先驗信息和錯誤的先驗信息要大,表明先驗信息越精確,學習結果越優異,同時也說明學習結果與先驗信息的個數無關,僅與其準確程度息息相關。隨著初始化階段交互次數的增加,4類先驗信息學習到最優和次優結果的概率趨于1。

3.2 收斂速度

DRLJD算法的收斂速度主要從主循環階段進行分析,表1給出了不同程度的先驗信息及初始化交互次數對算法收斂次數的影響,實驗條件與3.1節相同,收斂結果的準確性與圖3相對應。

表1 先驗信息及初始化交互次數對本文算法收斂次數的影響

從表1中橫向比較可以看出,無論干擾方具備何種程度的先驗信息,在相同的初始化交互次數時,算法的收斂次數近乎是相等的。這是因為經過了初始化階段的預學習,等效通信模塊和干擾模塊內的可行解已經被限定在固定的范圍內,所以在主循環階段,算法僅需要額外的幾次交互便收斂到固定解。從縱向比較來看,在初始化階段結束后,本文算法平均需要額外的3～6次交互便收斂到穩定解,反映出算法的主循環階段學習能力不足,僅能夠剔除少量不合理解,尚不具備進一步學習的能力。

結合圖3與表1中的學習結果,可以得出以下結論:DRLJD算法學習到最優或次優干擾策略時所需的交互次數遠遠小于MAB算法所需的次數,若想要進一步縮短交互次數,便只能以犧牲學習結果的準確性為代價換取交互次數的進一步降低。在執行干擾任務時,干擾方需要具備對敵方通信信號進行快速、準確干擾的能力。由于通信方在受到一定時間的干擾后,會改變信號調制樣式等操作來對抗干擾行為,此時干擾方將面臨新的學習任務,需要重新開始學習,因此干擾方需要在盡可能短的時間內,實現對目標信號的順利干擾,即使存在干擾性能更加優異的策略,同迫在眉睫的干擾任務相比,可以適當犧牲學習結果的準確性。學習到次優的干擾策略僅僅意味著使用的干擾功率值較大,主動權在干擾方,屬于可控因素,但長時間的交互意味著需要通信狀態保持不變,主動權在通信方,對干擾方而言屬于不可控因素。因此,從實際情況出發,犧牲學習結果的準確性換取交互次數的減少是值得的,有利于盡可能早的對通信信號進行壓制以實現通信拒止。

3.3 新的獎賞標準——忍受時間

本節實驗條件同3.1節相一致,但僅對等效通信功率進行學習,并假定功率在I路和Q路上平均分配,獎賞標準以忍受時間替代符號錯誤率,持續干擾時間為100個數據包長度。等效通信信號功率取值范圍介于[100 W,300 W]。

圖4給出了離散化處理對算法學習性能的影響。由圖4a可見,當離散值較小時,如小于10,無法保證算法以概率1學習到最優或次優干擾策略,原因在于離散化處理過于粗糙,致使學習到的等效通信功率值不具有參考價值;圖4b給出了離散化處理對算法收斂次數的影響,可以看出,劃分越詳細,所需要的收斂次數就越多,即學習時間越長;圖4c給出了離散化處理對交互次數的影響,可以看出,交互次數等于離散后等效通信功率的個數。根據實驗結果可以得出:忍受時間能夠作為干擾策略學習過程中的獎賞標準,不足之處在于延長了算法的學習時間。

(a)概率

(b)收斂次數

(c)交互次數圖4 離散化處理對算法學習性能的影響

3.4 算法比較

為增加本文算法性能說服力,將本文所提DRLJD算法與MAB算法、Greedy算法作比較,并從算法收斂所需交互次數、干擾性能兩個方面對實驗結果進行評價,圖5給出了不同算法的收斂曲線。

(a)DRLJD算法 (b)MAB算法

(c)Greedy(I)算法 (d)Greedy(II)算法圖5 不同算法的收斂曲線

從圖5中可以看出,DRLJD算法將初始化階段設置為200次交互,在主循環階段,經過少量交互便收斂到ζR=0.382 5,接近任務期望值ζE=0.38。MAB算法需要將54 621種可能的干擾策略逐一嘗試,才能確定最佳干擾策略,為便于比較,在實驗過程中該算法首先進行300次交互,并從中選擇效果最好的動作作為學習結果,在該條件下,算法收斂到ζR=0.391 2。Greedy(I)算法和Greedy(II)算法將待學習的干擾參數分別劃分成3個等級和7個等級,相應得到27個和343個干擾動作,需要逐一嘗試后才能挑選出最佳動作,盡管劃分不同,但兩者均收斂至ζR=0.425 4,說明參數劃分分辨率依然太低。因此,在干擾任務中,DRLJD算法能夠學習到比MAB算法、Greedy算法更優的干擾策略,且需要更少的交互次數。

4 結語

本文提出了一種采用雙層強化學習的干擾決策算法,該算法在構造的雙層強化學習模型基礎上,同時對等效通信參數和干擾參數進行學習,通過預測的方式選擇干擾策略,以降低學習效果為代價加快算法學習速度。提出的新的獎賞標準盡管在學習能力方面弱于原有標準,但因無需獲悉網絡協議使得算法適用領域更加廣泛。此外,算法具有很強的擴展性,能夠對已知先驗信息加以利用,進一步縮短算法所需的交互次數。

[1] 張春磊, 楊小牛. 認知電子戰與認知電子戰系統研究 [J]. 中國電子科學研究院學報, 2014, 9(6): 551-555. ZHANG Chunlei, YANG Xiaoniu. Research on the cognitive electronic warfare and cognitive electronic warfare system [J]. Journal of CAEIT, 2014, 9(6): 551-555.

[2] 賈鑫, 朱衛綱, 曲衛, 等. 認知電子戰概念及關鍵技術 [J]. 裝備學院學報, 2015, 26(4): 96-100. JIA Xin, ZHU Weigang, QU Wei, et al. Concept of cognitive electronic warfare and it’s key technology [J]. Journal of Equipment Academy, 2015, 26(4): 96-100.

[3] YANG D, XUE G, ZHANG J, et al. Coping with a smart jammer in wireless networks: a Stackelberg game approach [J]. IEEE Transactions on Wireless Communications, 2013, 12(8): 4038-4047.

[4] WANG Beibei, WU Yongle, LIU K J R. An anti-jamming stochastic game in cognitive radio networks [J]. IEEE Journal on Selected Areas in Communications, 2011, 29(4): 877-889.

[5] WU Yongle, WANG Beibei, LIU K J R, et al. Anti-jamming games in multi-channel cognitive radio networks [J]. IEEE Journal on Selected Areas in Communications, 2012, 30(1): 4-15.

[6] JIN H, SONG X Q, WANG M, et al. A fast anti-jamming decision method based on the rule reduced genetic algorithm [J]. KSII Transactions on Internet and Information Systems, 2016, 10(9): 4549-4567.

[7] WANG H, HUANG T, LIAO X, et al. Reinforcement learning in energy trading game among smart micro-grids [J]. IEEE Transactions on Industrial Electronics, 2016, 63(8): 5109-5119.

[8] XIA Wei, LI Huiyun, LI Baopu. A control strategy of autonomous vehicles based on deep reinforcement learning [C]∥Proceedings of 2016 9th International Symposium on Computational Intelligence and Design. Piscataway, NJ, USA: IEEE, 2016: 16637586.

[9] GWON Y L, DASTANGOO S, FOSSA C E, et al. Competing mobile network game: embracing antijamming and jamming strategies with reinforcement learning [C]∥2013 IEEE Conference on Communications and Networks Security. Piscataway, NJ, USA: IEEE, 2013: 28-36.

[10]SLIMENI F, SCHEERS B, NIR V L, et al. Learning multi channel power allocation against smart jammer in cognitive radio networks [C]∥2016 International Conference on Military Communications and Information Systems. Piscataway, NJ, USA: IEEE, 2016: 7496544.

[11]AMURU S, TEKIN C, SCHAAR M, et al. Jamming bandits: a novel learning method for optimal jamming [J]. IEEE Transactions on Wireless Communications, 2016, 15(4): 2792-2808.

[12]AMURU S, BUEHRER R M. Optimal jamming using delayed learning [C]∥Proceedings of 33rd Annual IEEE Military Communications Conference. Piscataway, NJ, USA: IEEE, 2014: 1528-1533.

[13]黃科舉, 楊俊安, 周繼航, 等. 基于多臂賭博機模型的IEEE 802.11 MAC協議認知干擾技術 [J]. 通信對抗, 2017, 36(2): 30-35. HUANG Keju, YANG Junan, ZHOU Jihang, et al. Cognitive jamming in IEEE 802.11 MAC based on multi-armed bandits [J]. Communication Countermeasures, 2017, 36(2): 30-35.

[14]CHU C Y, ITO S, HARADA T, et al. Position-based reinforcement learning biased MCTS for general video game playing [C]∥IEEE Conference on Computational Intelligence and Games. Piscataway, NJ, USA: IEEE, 2017: 7860449.

[本刊相關文獻鏈接]

李清偉,郭黎利.DS-CDMA系統多波形優化的多址干擾抑制方法.2017,51(10):94-99.[doi:10.7652/xjtuxb201710 016]

劉立,張衡陽,毛玉泉,等.變換域通信系統抗干擾編碼幅度譜成型算法.2017,51(2):91-96.[doi:10.7652/xjtuxb201702 015]

徐張寶,馬大為,姚建勇,等.采用干擾估計的液壓系統自適應魯棒控制.2016,50(8):123-129.[doi:10.7652/xjtuxb2016 08020]

趙凱,王闖,李尊朝,等.結合平衡和濾波技術抑制GaN電源轉換器的電磁干擾.2016,50(2):38-42.[doi:10.7652/xjtuxb201602007]

孫黎,徐洪斌.協作式終端直通系統中星座旋轉輔助的干擾避免策略.2015,49(12):6-11.[doi:10.7652/xjtuxb201512 002]

郭一鳴,彭華,張冬玲,等.聯合串行干擾抵消與因子圖的單通道混合信號盲分離算法.2015,49(10):130-135.[doi:10.7652/xjtuxb201510021]