基于博弈理論的認(rèn)知星地網(wǎng)絡(luò)抗干擾信道選擇方法

2023-02-11 02:31:16王夢(mèng)陽賈錄良顏培杰陳亞明

兵器裝備工程學(xué)報(bào) 2023年1期

王夢(mèng)陽,賈錄良,顏培杰,陳亞明

(1.航天工程大學(xué) 航空信息學(xué)院，北京 100000; 2.中國人民解放軍66138部隊(duì)，北京 100000;3.中國人民解放軍31664部隊(duì)，青海格爾木 816000)

1 引言

隨著信息技術(shù)的快速發(fā)展，頻譜稀缺和利用率低下的沖突日益凸顯，基于認(rèn)知星地系統(tǒng)之間的動(dòng)態(tài)頻譜共享，可以有效提升頻譜利用效率，增強(qiáng)星地網(wǎng)絡(luò)的信息服務(wù)能力。文獻(xiàn)[1]研究了基于波束成形技術(shù)的星地網(wǎng)絡(luò)的頻譜共享問題，其中衛(wèi)星上行鏈路用戶為主用戶，地面下行鏈路用戶為認(rèn)知用戶。文獻(xiàn)[2]利用中繼鏈路，實(shí)現(xiàn)衛(wèi)星網(wǎng)絡(luò)與地面認(rèn)知用戶的頻譜共享。

目前關(guān)于認(rèn)知星地網(wǎng)絡(luò)頻譜共享的研究很多，但不少研究內(nèi)容考慮因素相對(duì)不全。文獻(xiàn)[3]研究了基于多波束認(rèn)知衛(wèi)星網(wǎng)絡(luò)的功率控制和信道選擇問題，認(rèn)知用戶之間不僅相互干擾，而且受到多波束衛(wèi)星通信系統(tǒng)的同信道干擾影響。文獻(xiàn)[4]提出了一種新穎的認(rèn)知衛(wèi)星網(wǎng)絡(luò)設(shè)計(jì)，地面認(rèn)知用戶根據(jù)頻譜保護(hù)距離的不同，采用不同的頻譜接入策略，構(gòu)造了一個(gè)多信道訪問博弈和一個(gè)功率優(yōu)化博弈。然而，這些研究忽略了外部惡意干擾的影響。文獻(xiàn)[5]研究了動(dòng)態(tài)頻譜接入網(wǎng)絡(luò)中的抗干擾會(huì)合問題。文獻(xiàn)[6]研究了在類似模擬式攻擊條件下主用戶的信道選擇策略。而在這些研究工作中，沒有充分考慮用戶間互擾問題。文獻(xiàn)[7]研究了功率控制抗干擾問題，并將其建模為一個(gè)非零和博弈。文獻(xiàn)[8]將高斯衰落信道條件下抗干擾決策問題建模為一個(gè)博弈問題，用戶和干擾在功率受限條件下追求自身效用最大化。而這些研究工作中都隱含一個(gè)假設(shè)，即所有用戶同時(shí)行動(dòng)，沒有考慮用戶和干擾之間的分層行為特征。文獻(xiàn)[9]研究了復(fù)雜干擾條件下信道選擇抗干擾決策問題，并將其建模為一個(gè)Stackelberg博弈，該博弈能夠同時(shí)考慮用戶和干擾間的競爭以及用戶內(nèi)部間的競爭，分析了該博弈的性質(zhì)和Stackelberg均衡的存在性，提出了一種基于隨機(jī)學(xué)習(xí)理論的分層學(xué)習(xí)算法。

除此之外，為了從不同角度刻畫用戶之間的關(guān)系，使系統(tǒng)整體效果最優(yōu)，文獻(xiàn)[10]采用圖形博弈的方法，研究了小蜂窩網(wǎng)絡(luò)的負(fù)載感知頻譜接入問題。文獻(xiàn)[11]研究認(rèn)知無線電網(wǎng)絡(luò)中分布式信道選擇的全局優(yōu)化問題，提出了2種特殊的局部交互博弈:局部利他博弈和局部擁塞博弈，通過局部信息交互，實(shí)現(xiàn)全局最優(yōu)，但研究內(nèi)容也忽略了惡意干擾的影響。本文主要工作和創(chuàng)新點(diǎn)如下：

1)研究了認(rèn)知星地網(wǎng)絡(luò)中的抗干擾信道選擇問題。在地面網(wǎng)絡(luò)中，認(rèn)知用戶不僅受到用戶間的互擾、多波束衛(wèi)星通信系統(tǒng)的同信道干擾，還受到外部惡意干擾的影響?？紤]到認(rèn)知用戶和惡意干擾之間有明顯的分層行為，將該抗干擾信道選擇問題構(gòu)造為一個(gè)Stackelberg博弈，該博弈同時(shí)考慮2個(gè)層面的競爭：外部惡意干擾與用戶之間的競爭和用戶內(nèi)部間的競爭，并證明了它的上層子博弈是一個(gè)精確勢(shì)博弈，至少具有一個(gè)NE解。

2)針對(duì)認(rèn)知用戶間互干擾呈現(xiàn)局部影響的特性，提出局部理性的假設(shè)，因此把下層子博弈構(gòu)造為圖博弈/局部影響博弈。每個(gè)認(rèn)知用戶在充分考慮各方面干擾的前提下，在做決策時(shí)需同時(shí)考慮自身的效用和鄰居用戶的效用，通過局部信息交互來實(shí)現(xiàn)系統(tǒng)最優(yōu)，同時(shí)證明了該博弈是一個(gè)精確勢(shì)博弈，至少具有一個(gè)NE解。

圖 1 系統(tǒng)模型圖

3)針對(duì)認(rèn)知用戶抗干擾信道選擇策略，提出了基于局部信息交互的分層學(xué)習(xí)算法。仿真結(jié)果表明，所提分層學(xué)習(xí)算法收斂性能突出，且與最優(yōu)響應(yīng)算法和隨機(jī)選擇算法進(jìn)行對(duì)比，該算法的系統(tǒng)平均吞吐量接近最優(yōu)NE解。

2 系統(tǒng)模型與問題建模

2.1 系統(tǒng)模型

本文考慮一個(gè)多波束衛(wèi)星通信系統(tǒng)，每個(gè)波束服務(wù)于一個(gè)特定區(qū)域[12]。GEO衛(wèi)星及其固定衛(wèi)星接收站是主用戶，而地面用戶是認(rèn)知用戶,每個(gè)認(rèn)知用戶都對(duì)應(yīng)于一個(gè)由發(fā)射機(jī)和接收機(jī)組成的通信鏈路。認(rèn)知用戶通過頻譜感知或查詢本地?cái)?shù)據(jù)庫的方式，來獲取主衛(wèi)星用戶的可用空閑頻譜信息。本文考慮不存在中心控制器的情況，系統(tǒng)中用戶數(shù)為N個(gè)，授權(quán)信道數(shù)為M個(gè)，認(rèn)知用戶使用機(jī)會(huì)頻譜接入方式，自主地競爭可用空閑信道，即當(dāng)授權(quán)信道空閑時(shí)，認(rèn)知用戶接入信道進(jìn)行數(shù)據(jù)傳輸；反之，認(rèn)知用戶不能接入授權(quán)信道，必須保持靜默。

由于認(rèn)知用戶在空間上任意分布，用戶間的互擾呈現(xiàn)局部影響的特性。為了定量描述認(rèn)知用戶之間的局部互擾特性，引入干擾圖[13]的概念。認(rèn)知用戶和干擾圖上的頂點(diǎn)一一對(duì)應(yīng)，而2個(gè)用戶之間的距離決定了干擾圖的邊。具體地，當(dāng)用戶之間的距離小于門限時(shí)，頂點(diǎn)之間由一條邊相連接。當(dāng)選擇一樣的信道時(shí)，干擾圖上相鄰的用戶之間會(huì)互相干擾。如圖2所示，圖2中包含5個(gè)認(rèn)知用戶，用戶間的互干擾呈現(xiàn)局部影響的特性。比如，若5個(gè)認(rèn)知用戶選擇同一信道，則用戶5只會(huì)對(duì)用戶4產(chǎn)生干擾，卻不會(huì)對(duì)用戶1,2和3產(chǎn)生干擾。

圖2 網(wǎng)絡(luò)拓?fù)鋱D

2.2 問題建模

本文假設(shè)認(rèn)知用戶能夠感知和獲得全部信道信息，即所用信道的狀態(tài)已知。但由于設(shè)備條件受限，用戶在同一時(shí)間只能接入一個(gè)信道進(jìn)行傳輸。針對(duì)認(rèn)知用戶上述特點(diǎn)，本文考慮基于時(shí)隙Aloha的傳輸模型[14]。具體來講，當(dāng)認(rèn)知用戶進(jìn)行通信時(shí)，它以概率p接入信道，以1-p概率保持靜默。

記認(rèn)知用戶n的可用信道集為An，即：

An=1,2,3,…,An∈M

(1)

假定用戶n選擇接入信道an∈An，則它能獲得的吞吐量為：

(2)

式(2)中：Pn為用戶n的鄰居用戶集合；Jn為外部惡意干擾；Zn為多波束衛(wèi)星通信系統(tǒng)的同信道干擾。

f(an,ak,aJn,aZn)是指示函數(shù)，可表示為：

(3)

那么，系統(tǒng)的網(wǎng)絡(luò)吞吐量可表示為：

(4)

基于上述分析，本文考慮的優(yōu)化目標(biāo)是當(dāng)系統(tǒng)的吞吐量最大時(shí)，所選的最優(yōu)信道選擇組合，即：

E0∶maxU0

(5)

該信道選擇問題是組合優(yōu)化問題，針對(duì)這類問題，可以使用窮舉方法進(jìn)行求解，但窮舉法計(jì)算復(fù)雜度很高，而其他一些啟發(fā)式算法，比如貪心算法[15]等，無法得到系統(tǒng)最優(yōu)解。因此，需要研究能獲得最優(yōu)解以及復(fù)雜度較低的求解方法。

3 抗干擾信道選擇博弈

3.1 博弈模型

本文研究認(rèn)知星地網(wǎng)絡(luò)場景中，地面認(rèn)知用戶信道選擇抗干擾決策問題，認(rèn)知用戶考慮外部惡意干擾，多波束衛(wèi)星通信系統(tǒng)的同信道干擾和用戶間互擾等多方面影響。從干擾效果來說，多波束衛(wèi)星通信系統(tǒng)的同信道干擾可以歸結(jié)為“非智能”的外部惡意干擾或者“特殊”的背景噪聲。因此，可將該問題構(gòu)造為一個(gè)Stackelberg博弈。Stackelberg博弈也叫分層博弈，是用來建模與分析領(lǐng)導(dǎo)者(leader)和跟隨者(follower)的分層決策交互過程，能夠較好地建模先后、主從的交互關(guān)系，從數(shù)學(xué)上它可表示為R0={N,J,A,C,un,uj}。其中，N表示認(rèn)知用戶集，J表示外部惡意干擾，A表示認(rèn)知用戶策略集，C表示惡意干擾的策略集，un表示認(rèn)知用戶n的效用函數(shù)，uj表示惡意干擾的效用函數(shù)。該博弈能夠同時(shí)考慮2個(gè)層面的競爭：外部惡意干擾與認(rèn)知用戶之間的競爭和認(rèn)知用戶內(nèi)部間的競爭。假設(shè)用戶為Follower，干擾為Leader，認(rèn)知用戶和干擾各自獨(dú)立地進(jìn)行信道選擇，并且追求自身效用的最大化。為了分析求解該博弈的Stackelberg均衡，采用經(jīng)典的Stackelberg博弈分析方法—逆向遞推法[16]，即先分析下層子博弈，再分析上層子博弈。

(6)

(7)

則可稱該博弈為精確勢(shì)能博弈，即是任何一個(gè)用戶單方面偏離所引起的效用函數(shù)的變化趨勢(shì)與勢(shì)函數(shù)的變化趨勢(shì)是一致的。

3.2 下層子博弈

針對(duì)認(rèn)知用戶間互擾呈現(xiàn)局部影響的特性，提出局部理性的假設(shè)，將該問題構(gòu)造為圖博弈/局部影響博弈[17]，研究如何分布式求解系統(tǒng)最優(yōu)解。首先，定義下面動(dòng)作圖。

定義3:動(dòng)作圖Ls=(N,A,θ)由以下幾要素構(gòu)成：

1)N是節(jié)點(diǎn)集合，在本節(jié)中每個(gè)節(jié)點(diǎn)代表一個(gè)地面認(rèn)知用戶對(duì)。

2)對(duì)每一個(gè)節(jié)點(diǎn)n∈N，記它選擇的動(dòng)作為an∈An，其中An是可用行動(dòng)集，即是策略集。

3)θ是邊的集合。如果節(jié)點(diǎn)x是y的鄰居,那么它們之間由一條連接的邊(x,y)∈θ。

根據(jù)上面所述，定義圖博弈模型如下。

定義4：圖博弈由Ψ=(Ls,U)確定，其中：

1)Ls是一個(gè)選擇圖，其中的每一個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)博弈參與者。

2)U是博弈參與者的效用函數(shù)。

綜上，可定義下層子博弈為：

R1={N,An,θn,Un}

(8)

式(8)中：N為認(rèn)知用戶數(shù)；An為認(rèn)知用戶的可用信道集；θn為認(rèn)知用戶與鄰居連接的邊的集合；Un為認(rèn)知用戶的效用函數(shù)。

本節(jié)考慮的博弈模型，突破傳統(tǒng)的博弈模型，一般博弈參與者按照利己主義的原則進(jìn)行決策，只考慮個(gè)體最大化回報(bào)，而這種決策方式往往難以實(shí)現(xiàn)全局最優(yōu)。本節(jié)參考自然界中的局部互利行為[18]，生物個(gè)體在做決策時(shí)會(huì)考慮其鄰近的個(gè)體。于是，本文提出一種基于局部互利的頻譜接入方式，該博弈的效用函數(shù)定義為：

U1n(an,aPn,aJn,aZn)=

(9)

當(dāng)認(rèn)知用戶n進(jìn)行決策時(shí)，它不僅考慮自己，還同時(shí)考慮它的鄰居用戶。以圖2為例進(jìn)行說明，用戶1考慮用戶1、用戶2和用戶4的吞吐量之和，用戶2 考慮用戶2、用戶1、用戶3和用戶4的吞吐量之和，用戶3考慮用戶3、用戶2和用戶4 的吞吐量之和，用戶4考慮用戶4、用戶1、用戶2、用戶3和用戶5的吞吐量之和，而用戶5考慮用戶5和用戶4的吞吐量之和。基于上述效用函數(shù)，該博弈的優(yōu)化目標(biāo)為：

(10)

3.2.1均衡分析

定理1：局部影響博弈R1是一個(gè)精確勢(shì)能博弈，至少有一個(gè)純策略的納什均衡。

證明：構(gòu)造下列勢(shì)能函數(shù)：

(11)

式(1)中，dn(an,aPn,aJn,aZn)是認(rèn)知用戶n獲得的吞吐量。

(12)

整合上式，令：

(13)

(14)

上式整合后為：

U1n(an,aPn,aJn,aZn)

(15)

式(15)中：W1n表示認(rèn)知用戶n單方面改變信道選擇后，認(rèn)知用戶n的效用變化量；W2n表示認(rèn)知用戶n單方面改變信道選擇后，認(rèn)知用戶n的鄰居用戶的效用變化量。

而認(rèn)知用戶n單方面改變信道選擇，導(dǎo)致勢(shì)能函數(shù)的變化量為：

(16)

整合上式，令:

(17)

(18)

上式整合后為：

(19)

式(19)中：Y1n表示認(rèn)知用戶n單方面改變信道選擇后，鄰居用戶獲得吞吐量；C/D表示集合D從集合C中刪除。由于認(rèn)知用戶n只考慮其相鄰用戶的效用，那么有：

Y2n=0

(20)

又因?yàn)?/p>

W2n=Y1n

(21)

所以,可知下面的等式成立，即：

U1n(an,aPn,aJn,aZn)

(22)

綜上分析可知，任意認(rèn)知用戶n單方面改變信道選擇，導(dǎo)致該用戶的效用函數(shù)變化量和導(dǎo)致的勢(shì)能函數(shù)變化量相同。所以，根據(jù)定義2可知：該博弈R1是一個(gè)精確勢(shì)能博弈，至少存在一個(gè)純策略納什均衡。精確勢(shì)能博弈有很多特殊的性質(zhì)，部分如下：

1)任何精確勢(shì)能博弈至少有一個(gè)純策略NE均衡；

2)能函數(shù)的全局最優(yōu)解或者局部的最優(yōu)解是一個(gè)NE均衡。

基于上述2條性質(zhì)，定理1證畢。

3.3 上層子博弈

本文將抗干擾信道選擇問題構(gòu)造為Stackelberg博弈，干擾作為領(lǐng)導(dǎo)者，首先動(dòng)作，先一步選擇策略。由于認(rèn)知用戶考慮局部理性，在考慮自身效用的時(shí)候，同時(shí)還考慮鄰居用戶的效用。因此，干擾也需要同時(shí)考慮對(duì)認(rèn)知用戶和其鄰居用戶的干擾效果。則上層子博弈可以定義為：

R2={J,Cj,Uj}

(23)

式(23)中：J為惡意干擾；Cj為惡意干擾的信道集(策略集)；Uj為惡意干擾的效用函數(shù)。由式(4)可知，可定義惡意干擾的效用函數(shù)為：

(24)

式(24)中，F(xiàn)(an,aJn)是指示函數(shù)。F(an,aJn)可表示為：

(25)

博弈優(yōu)化目標(biāo)為：

(26)

3.4 均衡分析

定理2：博弈R2是一個(gè)精確勢(shì)能博弈，至少有一個(gè)純策略的NE均衡。

證明：首先構(gòu)造下面的勢(shì)能函數(shù)：

(27)

式(27)中，F(xiàn)(an,aJn)為惡意干擾對(duì)認(rèn)知用戶n的干擾效益。

(28)

另一方面，認(rèn)知用戶n單方面改變信道選擇，導(dǎo)致勢(shì)能函數(shù)產(chǎn)生改變量為：

(29)

?i∈{NPn},i≠n

(30)

那么，下面等式成立：

(31)

綜上，當(dāng)任意用戶單方面改變信道策略，使效用函數(shù)的變化量和勢(shì)能函數(shù)變化量相同。所以根據(jù)定義2可知，該博弈是一個(gè)精確勢(shì)能博弈，至少存在一個(gè)純策略NE均衡。

4 基于局部信息交互的分層學(xué)習(xí)算法

為了獲得抗干擾信道選擇博弈的均衡解，首先了解了試錯(cuò)算法(trial and error，TE)，該算法是完全分布式的，并且在統(tǒng)計(jì)意義上收斂到最優(yōu)的NE，根據(jù)文獻(xiàn)[19-20]，該算法接受試驗(yàn)的概率表示為：

Γ(Δun)=Γ(un(t+1)-un(t))=

-δ1(un(t+1)-un(t))+δ2δ1>0,

(32)

V(un(t))=-ε1un(t)+ε2ε1>0

(33)

式(23)～(24)中，Γ(x)和V(x)是嚴(yán)格遞減函數(shù)。通過設(shè)置系數(shù)δ和ε使得Γ(Δun)和V(un(t))滿足下列范圍，即：

(34)

但TE算法沒有考慮認(rèn)知用戶之間信息交換，為了克服這個(gè)局限，本文提出了一種基于局部信息交互的分層學(xué)習(xí)算法(local information interaction of hierarchical learning algorithm,LIIH)。在LIIH算法中，認(rèn)知用戶和干擾在不同時(shí)間尺度上更新策略。干擾的策略更新周期定義為一個(gè)時(shí)期h，認(rèn)知用戶在每個(gè)時(shí)隙t進(jìn)行策略更新，其中，每個(gè)時(shí)期包含T個(gè)時(shí)隙。

利用LIIH算法，認(rèn)知用戶n通過與鄰居用戶進(jìn)行信息交互學(xué)習(xí)獲得最佳策略。認(rèn)知用戶n在時(shí)隙t獲得的回報(bào)為：

un(t)=U1n(an(t),aPn,aJn,aZn)=

(35)

在上層子博弈中，為獲得均衡解，基于Q學(xué)習(xí)，提出了一種信道選擇算法，惡意干擾通過與環(huán)境的交互進(jìn)行策略更新。干擾在時(shí)期h獲得的回報(bào)值為：

uj(h)=U2n(an(t),aJn)=

(36)

基于局部信息交互的分層學(xué)習(xí)算法步驟如下。

步驟1初始化：設(shè)置t=0，h=0，讓每個(gè)認(rèn)知用戶n∈N從可用信道集An中等概率隨機(jī)選擇一個(gè)信道an(0)，獲得初始獎(jiǎng)勵(lì)un(0)；

步驟2循環(huán)開始h=0,1,2,…；

步驟3在時(shí)期h時(shí)，惡意干擾根據(jù)干擾策略Cj(h)選擇干擾信道cjn；

步驟4在每個(gè)時(shí)期h，認(rèn)知用戶的學(xué)習(xí)過程如下：

1)在第t個(gè)時(shí)隙，認(rèn)知用戶根據(jù)可用信道策略An(t)選擇信道an(t)；

2)認(rèn)知用戶n與鄰居用戶交互信息，根據(jù)公式(35)計(jì)算效用un(t)；

3)認(rèn)知用戶根據(jù)以下規(guī)則更新策略：

Ifun(t + 1)≥un(t),更新概率為：

pn(t+1)=ωG(un(t+1)-un(t))

(37)

Ifun(t + 1)< un(t),更新概率為：

pn(t+1)=1-ωG(un(t+1)-un(t))

(38)

步驟5干擾根據(jù)以下公式更新Q值：

(39)

式(39)中：α表示學(xué)習(xí)速率；uj(h)表示干擾效用。惡意干擾更新策略的規(guī)則為：

(40)

式(40)中：qj(h)表示惡意干擾在時(shí)期h從干擾信道集Cj(h)選擇干擾信道cj的概率；β是調(diào)節(jié)因子，用來調(diào)節(jié)學(xué)習(xí)過程中的探測與利用的折中。

步驟6當(dāng)?shù)螖?shù)大于最大迭代次數(shù)，算法結(jié)束。

5 仿真結(jié)果與分析

本節(jié)對(duì)LIIH算法的性能進(jìn)行仿真分析。考慮了多波束認(rèn)知星地網(wǎng)絡(luò)，地面認(rèn)知用戶以機(jī)會(huì)頻譜接入方式共享衛(wèi)星通信的下行頻譜。認(rèn)知用戶隨機(jī)分布在一塊200 m×250 m的區(qū)域，外部惡意干擾能夠覆蓋全域，用戶的發(fā)射功率1.5 W，干擾功率為20 W。調(diào)節(jié)因子設(shè)定為β=h，h為時(shí)期數(shù)，即迭代數(shù)。圖3給出了認(rèn)知用戶和干擾的位置分布示意圖。

圖3 無線網(wǎng)絡(luò)分布圖

5.1 算法收斂性

圖4給出了認(rèn)知用戶n在一次仿真過程中的收斂曲線。系統(tǒng)用戶數(shù)為5，可用信道數(shù)為4。以認(rèn)知用戶2為例，驗(yàn)證LIIH算法的收斂性。在時(shí)隙t=0時(shí)，認(rèn)知用戶2等概率從4個(gè)信道(信道1、信道被選擇的概率在經(jīng)過約210次迭代后，收斂到1，而信道2、信道3和信道4的信道選擇概率均收斂到0。

圖4 用戶的信道選擇概率收斂過程

圖5給出了干擾的收斂曲線。條件相同，即系統(tǒng)用戶數(shù)為5，可用信道數(shù)為4。在時(shí)期h=0時(shí)，干擾等概率隨機(jī)選擇一個(gè)信道進(jìn)行干擾，大約經(jīng)過15次迭代后，信道3的信道選擇概率收斂到1，其余信道的信道選擇概率均收斂到0。

圖5 干擾的信道選擇概率收斂過程

圖6給出了參數(shù)ω的設(shè)置對(duì)算法收斂性的影響。當(dāng)ω較小時(shí)，收斂較慢，收斂時(shí)間相對(duì)較長，但比較穩(wěn)定；當(dāng)ω較大時(shí)，收斂較快，收斂時(shí)間短，但不太穩(wěn)定。這是由于當(dāng)ω較大時(shí)，偏向于主動(dòng)探索，偏離當(dāng)前狀態(tài)概率大，相對(duì)不夠穩(wěn)定；當(dāng)ω較小時(shí)，主動(dòng)探索意愿小，偏離當(dāng)前狀態(tài)概率較小，相對(duì)穩(wěn)定。

圖6 參數(shù)ω對(duì)算法收斂性的影響

5.2 吞吐量性能比較

圖7給出了認(rèn)知用戶發(fā)射功率對(duì)系統(tǒng)性能的影響。干擾功率設(shè)置為25 W。當(dāng)認(rèn)知用戶的傳輸功率較小時(shí)(認(rèn)知用戶功率=1.5 W、2 W、2.5 W)，隨著用戶數(shù)量的增加，系統(tǒng)的平均吞吐量不斷增加。當(dāng)認(rèn)知用戶的傳輸功率較大時(shí)，隨著用戶數(shù)量的增加(認(rèn)知用戶功率=4.5 W、5 W)，系統(tǒng)的平均吞吐量先增加后緩慢減少，這是因?yàn)楫?dāng)認(rèn)知用戶的傳輸功率較大時(shí)，當(dāng)用戶數(shù)量增加時(shí)，用戶間的互擾明顯，當(dāng)用戶間的互擾效果大于新增用戶的吞吐量，系統(tǒng)整體的平均吞吐量會(huì)下降，當(dāng)認(rèn)知用戶數(shù)N=8時(shí)，系統(tǒng)平均吞吐量最大。

圖7 用戶發(fā)射功率對(duì)系統(tǒng)性能的影響

圖8給出了干擾發(fā)射功率對(duì)系統(tǒng)性能的影響。認(rèn)知用戶數(shù)N=8。當(dāng)干擾功率較大(干擾功率=30 W、35 W、40 W和50 W)時(shí)，隨著認(rèn)知用戶傳輸功率的增加，系統(tǒng)的平均吞吐量逐漸增加，干擾功率越大，增速較緩。當(dāng)干擾功率較小(干擾功率=10 W)時(shí)，隨著認(rèn)知用戶傳輸功率的增加，系統(tǒng)的平均吞吐量增速較快。但當(dāng)用戶傳輸功率大于2.5 W時(shí)，系統(tǒng)的平均吞吐量下降，原因也是因?yàn)橛脩糸g互擾影響較大。

圖8 干擾功率對(duì)系統(tǒng)性能的影響

為了對(duì)比抗干擾信道選擇性能，評(píng)估LIIH算法的吞吐量性能。將LIIH算法與最優(yōu)響應(yīng)算法(BR)、TE算法和隨機(jī)選擇算法(RS)等進(jìn)行比較。為了便于說明，對(duì)比方案如下：① 最優(yōu)NE 解，最差NE 解。假設(shè)認(rèn)知用戶之間存在信息交換，用最優(yōu)響應(yīng)算法可以收斂到NE 解，執(zhí)行600 次最優(yōu)響應(yīng)算法，其中最優(yōu)的NE 解和最差的NE 解分別作為最優(yōu)NE 解和最差NE 解。② 隨機(jī)選擇算法。認(rèn)知用戶在進(jìn)行信道傳輸策略選擇時(shí)，在可用信道集中隨機(jī)選擇信道進(jìn)行信號(hào)傳輸，然后根據(jù)反饋結(jié)果計(jì)算用戶效用和系統(tǒng)吞吐量，而干擾在選擇干擾信道時(shí)，同樣隨機(jī)選擇信道進(jìn)行干擾并計(jì)算干擾效用，偶然性較大。③ TE算法。認(rèn)知用戶之間是非合作的，在進(jìn)行信道選擇時(shí)，根據(jù)不同的狀態(tài)進(jìn)行策略更新。認(rèn)知用戶自身是理性的，只考慮自身效用，不考慮其他用戶的效用，通過個(gè)體最優(yōu)實(shí)現(xiàn)系統(tǒng)最優(yōu)。④ LIIH算法。在下層子博弈中，針對(duì)認(rèn)知用戶間互擾呈現(xiàn)局部影響的特性，提出局部理性的假設(shè)。認(rèn)知用戶利用改進(jìn)的TE算法進(jìn)行策略選擇，在選擇信道時(shí)，會(huì)考慮鄰居用戶的信道選擇；在進(jìn)行決策時(shí)，不僅考慮自身效用，還考慮鄰居用戶的效用，通過局部最優(yōu)實(shí)現(xiàn)系統(tǒng)最優(yōu)。在上層子博弈中，干擾利用基于Q學(xué)習(xí)的算法進(jìn)行策略更新。

圖9給出了平均吞吐量隨可用信道數(shù)增加的規(guī)律。認(rèn)知用戶數(shù)N=8，干擾功率=25 W，用戶傳輸功率=2.5 W。由圖9可以看出，隨著可用信道數(shù)的增加，系統(tǒng)的平均吞吐量逐漸增加。與TE算法和隨機(jī)選擇算法對(duì)比而言，LIIH算法性能較為突出，吞吐量性能十分接近最優(yōu)NE解。當(dāng)信道數(shù)與用戶數(shù)相等時(shí)，系統(tǒng)吞吐量幾乎不再明顯增加，這是因?yàn)橛脩糁g幾乎沒有競爭，當(dāng)出現(xiàn)信道質(zhì)量更好的信道時(shí)，吞吐量會(huì)增加。

圖9 平均吞吐量隨可用信道數(shù)增加的變化規(guī)律

圖10給出了平均吞吐量隨認(rèn)知用戶數(shù)增加的規(guī)律。干擾功率=25 W，用戶傳輸功率=2.5 W。由圖10可以看出，同樣，與TE算法和隨機(jī)選擇算法對(duì)比而言，LIIH算法性能較為突出，吞吐量性能十分接近最優(yōu)NE解。隨著認(rèn)知用戶數(shù)增加時(shí)，系統(tǒng)的平均吞吐量逐漸增多，但增速逐漸變緩，原因是由于用戶數(shù)目的增加，用戶之間的互擾逐漸增加，導(dǎo)致吞吐量性能受到影響。

圖10 平均吞吐量隨用戶數(shù)增加的變化規(guī)律

6 結(jié)論

本文研究了基于博弈理論的認(rèn)知星地網(wǎng)絡(luò)抗干擾信道選擇方法，提出了基于局部信息交互的分層學(xué)習(xí)算法。本文的研究內(nèi)容為解決認(rèn)知星地網(wǎng)絡(luò)抗干擾問題提供了一種新的思路和方法。

1)從理論上，證明了抗干擾信道選擇博弈的上層子博弈和下層子博弈均是精確勢(shì)能博弈，并至少存在一個(gè)純策略的NE均衡。

2)在實(shí)驗(yàn)層面上，經(jīng)過仿真結(jié)果分析，提出的基于局部信息交互的分層學(xué)習(xí)算法，收斂性能較好，并且通過與最優(yōu)響應(yīng)算法和隨機(jī)選擇算法進(jìn)行對(duì)比，所提算法的系統(tǒng)平均吞吐量接近最優(yōu)NE解。