魏 鵬,王世練,陸銳敏,駱俊杉
(1. 國防科技大學 第六十三研究所, 江蘇 南京 210007; 2. 國防科技大學 電子科學學院, 湖南 長沙 410073)
隨著人工智能的飛速發展和軟件無線電能力的不斷提升,無線通信面臨的智能化干擾威脅越來越嚴重。傳統以寬帶高速跳頻和非協調跳頻等擴頻技術為主的抗干擾通信技術,每次只使用一個信道,頻譜利用率低[1],且難以有效應對跟蹤干擾和超出擴頻增益的寬帶干擾。如何在干擾條件下通過功率控制提升通信系統效能,一直是通信領域關注的重要方面,特別是在通信對抗雙方日益智能化的條件下,通過博弈論來解決雙方的最優功率分配問題得到越來越多的研究。根據通信對抗雙方可用信道數,基于功率分配的對抗博弈可分為單信道模型和多信道模型。對通信方而言,可用信道數定義為一次通信過程中用戶不受其他用戶干擾而獨占的頻分信道數,可以由連續或不連續的多個頻段組成;對干擾方而言,可用信道數定義為一次干擾過程中可不受限制自由干擾的信道數,通常與通信方可用信道一致。
單信道模型的功率分配通常為對抗雙方引入功率開銷代價,以最大化、最小化通信容量或信噪比為目標,將對抗雙方建模為非合作博弈[2-5]、二人零和博弈[6]、Stackelberg博弈[7-8]等,然后求解博弈的納什均衡[2-5,9]或Stackelberg均衡[8]。在存在用戶間互干擾的情況下,也可能進一步追求帕累托最優[10]。對模型中存在的某些未知參數,通常使用Q-Learning[6]等強化學習算法獲取。……