王夢(mèng)陽,賈錄良,顏培杰,陳亞明
(1.航天工程大學(xué) 航空信息學(xué)院,北京 100000; 2.中國人民解放軍66138部隊(duì),北京 100000;3.中國人民解放軍31664部隊(duì),青海 格爾木 816000)
隨著信息技術(shù)的快速發(fā)展,頻譜稀缺和利用率低下的沖突日益凸顯,基于認(rèn)知星地系統(tǒng)之間的動(dòng)態(tài)頻譜共享,可以有效提升頻譜利用效率,增強(qiáng)星地網(wǎng)絡(luò)的信息服務(wù)能力。文獻(xiàn)[1]研究了基于波束成形技術(shù)的星地網(wǎng)絡(luò)的頻譜共享問題,其中衛(wèi)星上行鏈路用戶為主用戶,地面下行鏈路用戶為認(rèn)知用戶。文獻(xiàn)[2]利用中繼鏈路,實(shí)現(xiàn)衛(wèi)星網(wǎng)絡(luò)與地面認(rèn)知用戶的頻譜共享。
目前關(guān)于認(rèn)知星地網(wǎng)絡(luò)頻譜共享的研究很多,但不少研究內(nèi)容考慮因素相對(duì)不全。文獻(xiàn)[3]研究了基于多波束認(rèn)知衛(wèi)星網(wǎng)絡(luò)的功率控制和信道選擇問題,認(rèn)知用戶之間不僅相互干擾,而且受到多波束衛(wèi)星通信系統(tǒng)的同信道干擾影響。文獻(xiàn)[4]提出了一種新穎的認(rèn)知衛(wèi)星網(wǎng)絡(luò)設(shè)計(jì),地面認(rèn)知用戶根據(jù)頻譜保護(hù)距離的不同,采用不同的頻譜接入策略,構(gòu)造了一個(gè)多信道訪問博弈和一個(gè)功率優(yōu)化博弈。然而,這些研究忽略了外部惡意干擾的影響。文獻(xiàn)[5]研究了動(dòng)態(tài)頻譜接入網(wǎng)絡(luò)中的抗干擾會(huì)合問題。文獻(xiàn)[6]研究了在類似模擬式攻擊條件下主用戶的信道選擇策略。而在這些研究工作中,沒有充分考慮用戶間互擾問題。文獻(xiàn)[7]研究了功率控制抗干擾問題,并將其建模為一個(gè)非零和博弈。文獻(xiàn)[8]將高斯衰落信道條件下抗干擾決策問題建模為一個(gè)博弈問題,用戶和干擾在功率受限條件下追求自身效用最大化。而這些研究工作中都隱含一個(gè)假設(shè),即所有用戶同時(shí)行動(dòng),沒有考慮用戶和干擾之間的分層行為特征。文獻(xiàn)[9]研究了復(fù)雜干擾條件下信道選擇抗干擾決策問題,并將其建模為一個(gè)Stackelberg博弈,該博弈能夠同時(shí)考慮用戶和干擾間的競爭以及用戶內(nèi)部間的競爭,分析了該博弈的性質(zhì)和Stackelberg均衡的存在性,提出了一種基于隨機(jī)學(xué)習(xí)理論的分層學(xué)習(xí)算法。
除此之外,為了從不同角度刻畫用戶之間的關(guān)系,使系統(tǒng)整體效果最優(yōu),文獻(xiàn)[10]采用圖形博弈的方法,研究了小蜂窩網(wǎng)絡(luò)的負(fù)載感知頻譜接入問題。文獻(xiàn)[11]研究認(rèn)知無線電網(wǎng)絡(luò)中分布式信道選擇的全局優(yōu)化問題,提出了2種特殊的局部交互博弈:局部利他博弈和局部擁塞博弈,通過局部信息交互,實(shí)現(xiàn)全局最優(yōu),但研究內(nèi)容也忽略了惡意干擾的影響。本文主要工作和創(chuàng)新點(diǎn)如下:
1)研究了認(rèn)知星地網(wǎng)絡(luò)中的抗干擾信道選擇問題。在地面網(wǎng)絡(luò)中,認(rèn)知用戶不僅受到用戶間的互擾、多波束衛(wèi)星通信系統(tǒng)的同信道干擾,還受到外部惡意干擾的影響??紤]到認(rèn)知用戶和惡意干擾之間有明顯的分層行為,將該抗干擾信道選擇問題構(gòu)造為一個(gè)Stackelberg博弈,該博弈同時(shí)考慮2個(gè)層面的競爭:外部惡意干擾與用戶之間的競爭和用戶內(nèi)部間的競爭,并證明了它的上層子博弈是一個(gè)精確勢(shì)博弈,至少具有一個(gè)NE解。
2)針對(duì)認(rèn)知用戶間互干擾呈現(xiàn)局部影響的特性,提出局部理性的假設(shè),因此把下層子博弈構(gòu)造為圖博弈/局部影響博弈。每個(gè)認(rèn)知用戶在充分考慮各方面干擾的前提下,在做決策時(shí)需同時(shí)考慮自身的效用和鄰居用戶的效用,通過局部信息交互來實(shí)現(xiàn)系統(tǒng)最優(yōu),同時(shí)證明了該博弈是一個(gè)精確勢(shì)博弈,至少具有一個(gè)NE解。

圖 1 系統(tǒng)模型圖
3)針對(duì)認(rèn)知用戶抗干擾信道選擇策略,提出了基于局部信息交互的分層學(xué)習(xí)算法。仿真結(jié)果表明,所提分層學(xué)習(xí)算法收斂性能突出,且與最優(yōu)響應(yīng)算法和隨機(jī)選擇算法進(jìn)行對(duì)比,該算法的系統(tǒng)平均吞吐量接近最優(yōu)NE解。
本文考慮一個(gè)多波束衛(wèi)星通信系統(tǒng),每個(gè)波束服務(wù)于一個(gè)特定區(qū)域[12]。GEO衛(wèi)星及其固定衛(wèi)星接收站是主用戶,而地面用戶是認(rèn)知用戶,每個(gè)認(rèn)知用戶都對(duì)應(yīng)于一個(gè)由發(fā)射機(jī)和接收機(jī)組成的通信鏈路。認(rèn)知用戶通過頻譜感知或查詢本地?cái)?shù)據(jù)庫的方式,來獲取主衛(wèi)星用戶的可用空閑頻譜信息。本文考慮不存在中心控制器的情況,系統(tǒng)中用戶數(shù)為N個(gè),授權(quán)信道數(shù)為M個(gè),認(rèn)知用戶使用機(jī)會(huì)頻譜接入方式,自主地競爭可用空閑信道,即當(dāng)授權(quán)信道空閑時(shí),認(rèn)知用戶接入信道進(jìn)行數(shù)據(jù)傳輸;反之,認(rèn)知用戶不能接入授權(quán)信道,必須保持靜默。
由于認(rèn)知用戶在空間上任意分布,用戶間的互擾呈現(xiàn)局部影響的特性。為了定量描述認(rèn)知用戶之間的局部互擾特性,引入干擾圖[13]的概念。認(rèn)知用戶和干擾圖上的頂點(diǎn)一一對(duì)應(yīng),而2個(gè)用戶之間的距離決定了干擾圖的邊。具體地,當(dāng)用戶之間的距離小于門限時(shí),頂點(diǎn)之間由一條邊相連接。當(dāng)選擇一樣的信道時(shí),干擾圖上相鄰的用戶之間會(huì)互相干擾。如圖2所示,圖2中包含5個(gè)認(rèn)知用戶,用戶間的互干擾呈現(xiàn)局部影響的特性。比如,若5個(gè)認(rèn)知用戶選擇同一信道,則用戶5只會(huì)對(duì)用戶4產(chǎn)生干擾,卻不會(huì)對(duì)用戶1,2和3產(chǎn)生干擾。

圖2 網(wǎng)絡(luò)拓?fù)鋱D
本文假設(shè)認(rèn)知用戶能夠感知和獲得全部信道信息,即所用信道的狀態(tài)已知。但由于設(shè)備條件受限,用戶在同一時(shí)間只能接入一個(gè)信道進(jìn)行傳輸。針對(duì)認(rèn)知用戶上述特點(diǎn),本文考慮基于時(shí)隙Aloha的傳輸模型[14]。具體來講,當(dāng)認(rèn)知用戶進(jìn)行通信時(shí),它以概率p接入信道,以1-p概率保持靜默。
記認(rèn)知用戶n的可用信道集為An,即:
An=1,2,3,…,An∈M
(1)
假定用戶n選擇接入信道an∈An,則它能獲得的吞吐量為:
(2)
式(2)中:Pn為用戶n的鄰居用戶集合;Jn為外部惡意干擾;Zn為多波束衛(wèi)星通信系統(tǒng)的同信道干擾。
f(an,ak,aJn,aZn)是指示函數(shù),可表示為:
(3)
那么,系統(tǒng)的網(wǎng)絡(luò)吞吐量可表示為:
(4)
基于上述分析,本文考慮的優(yōu)化目標(biāo)是當(dāng)系統(tǒng)的吞吐量最大時(shí),所選的最優(yōu)信道選擇組合,即:
E0∶maxU0
(5)
該信道選擇問題是組合優(yōu)化問題,針對(duì)這類問題,可以使用窮舉方法進(jìn)行求解,但窮舉法計(jì)算復(fù)雜度很高,而其他一些啟發(fā)式算法,比如貪心算法[15]等,無法得到系統(tǒng)最優(yōu)解。因此,需要研究能獲得最優(yōu)解以及復(fù)雜度較低的求解方法。
本文研究認(rèn)知星地網(wǎng)絡(luò)場景中,地面認(rèn)知用戶信道選擇抗干擾決策問題,認(rèn)知用戶考慮外部惡意干擾,多波束衛(wèi)星通信系統(tǒng)的同信道干擾和用戶間互擾等多方面影響。從干擾效果來說,多波束衛(wèi)星通信系統(tǒng)的同信道干擾可以歸結(jié)為“非智能”的外部惡意干擾或者“特殊”的背景噪聲。因此,可將該問題構(gòu)造為一個(gè)Stackelberg博弈。Stackelberg博弈也叫分層博弈,是用來建模與分析領(lǐng)導(dǎo)者(leader)和跟隨者(follower)的分層決策交互過程,能夠較好地建模先后、主從的交互關(guān)系,從數(shù)學(xué)上它可表示為R0={N,J,A,C,un,uj}。其中,N表示認(rèn)知用戶集,J表示外部惡意干擾,A表示認(rèn)知用戶策略集,C表示惡意干擾的策略集,un表示認(rèn)知用戶n的效用函數(shù),uj表示惡意干擾的效用函數(shù)。該博弈能夠同時(shí)考慮2個(gè)層面的競爭:外部惡意干擾與認(rèn)知用戶之間的競爭和認(rèn)知用戶內(nèi)部間的競爭。假設(shè)用戶為Follower,干擾為Leader,認(rèn)知用戶和干擾各自獨(dú)立地進(jìn)行信道選擇,并且追求自身效用的最大化。為了分析求解該博弈的Stackelberg均衡,采用經(jīng)典的Stackelberg博弈分析方法—逆向遞推法[16],即先分析下層子博弈,再分析上層子博弈。

(6)

(7)
則可稱該博弈為精確勢(shì)能博弈,即是任何一個(gè)用戶單方面偏離所引起的效用函數(shù)的變化趨勢(shì)與勢(shì)函數(shù)的變化趨勢(shì)是一致的。
針對(duì)認(rèn)知用戶間互擾呈現(xiàn)局部影響的特性,提出局部理性的假設(shè),將該問題構(gòu)造為圖博弈/局部影響博弈[17],研究如何分布式求解系統(tǒng)最優(yōu)解。首先,定義下面動(dòng)作圖。
定義3:動(dòng)作圖Ls=(N,A,θ)由以下幾要素構(gòu)成:
1)N是節(jié)點(diǎn)集合,在本節(jié)中每個(gè)節(jié)點(diǎn)代表一個(gè)地面認(rèn)知用戶對(duì)。
2)對(duì)每一個(gè)節(jié)點(diǎn)n∈N,記它選擇的動(dòng)作為an∈An,其中An是可用行動(dòng)集,即是策略集。
3)θ是邊的集合。如果節(jié)點(diǎn)x是y的鄰居,那么它們之間由一條連接的邊(x,y)∈θ。
根據(jù)上面所述,定義圖博弈模型如下。
定義4:圖博弈由Ψ=(Ls,U)確定,其中:
1)Ls是一個(gè)選擇圖,其中的每一個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)博弈參與者。
2)U是博弈參與者的效用函數(shù)。
綜上,可定義下層子博弈為:
R1={N,An,θn,Un}
(8)
式(8)中:N為認(rèn)知用戶數(shù);An為認(rèn)知用戶的可用信道集;θn為認(rèn)知用戶與鄰居連接的邊的集合;Un為認(rèn)知用戶的效用函數(shù)。
本節(jié)考慮的博弈模型,突破傳統(tǒng)的博弈模型,一般博弈參與者按照利己主義的原則進(jìn)行決策,只考慮個(gè)體最大化回報(bào),而這種決策方式往往難以實(shí)現(xiàn)全局最優(yōu)。本節(jié)參考自然界中的局部互利行為[18],生物個(gè)體在做決策時(shí)會(huì)考慮其鄰近的個(gè)體。于是,本文提出一種基于局部互利的頻譜接入方式,該博弈的效用函數(shù)定義為:
U1n(an,aPn,aJn,aZn)=
(9)

當(dāng)認(rèn)知用戶n進(jìn)行決策時(shí),它不僅考慮自己,還同時(shí)考慮它的鄰居用戶。以圖2為例進(jìn)行說明,用戶1考慮用戶1、用戶2和用戶4的吞吐量之和,用戶2 考慮用戶2、用戶1、用戶3和用戶4的吞吐量之和,用戶3考慮用戶3、用戶2和用戶4 的吞吐量之和,用戶4考慮用戶4、用戶1、用戶2、用戶3和用戶5的吞吐量之和,而用戶5考慮用戶5和用戶4的吞吐量之和。基于上述效用函數(shù),該博弈的優(yōu)化目標(biāo)為:
(10)
3.2.1均衡分析
定理1:局部影響博弈R1是一個(gè)精確勢(shì)能博弈,至少有一個(gè)純策略的納什均衡。
證明:構(gòu)造下列勢(shì)能函數(shù):
(11)
式(1)中,dn(an,aPn,aJn,aZn)是認(rèn)知用戶n獲得的吞吐量。

(12)
整合上式,令:
(13)
(14)
上式整合后為:
U1n(an,aPn,aJn,aZn)
(15)
式(15)中:W1n表示認(rèn)知用戶n單方面改變信道選擇后,認(rèn)知用戶n的效用變化量;W2n表示認(rèn)知用戶n單方面改變信道選擇后,認(rèn)知用戶n的鄰居用戶的效用變化量。
而認(rèn)知用戶n單方面改變信道選擇,導(dǎo)致勢(shì)能函數(shù)的變化量為:
(16)
整合上式,令:
(17)
(18)
上式整合后為:
(19)
式(19)中:Y1n表示認(rèn)知用戶n單方面改變信道選擇后,鄰居用戶獲得吞吐量;C/D表示集合D從集合C中刪除。由于認(rèn)知用戶n只考慮其相鄰用戶的效用,那么有:
Y2n=0
(20)
又因?yàn)?/p>
W2n=Y1n
(21)
所以,可知下面的等式成立,即:
U1n(an,aPn,aJn,aZn)
(22)
綜上分析可知,任意認(rèn)知用戶n單方面改變信道選擇,導(dǎo)致該用戶的效用函數(shù)變化量和導(dǎo)致的勢(shì)能函數(shù)變化量相同。所以,根據(jù)定義2可知:該博弈R1是一個(gè)精確勢(shì)能博弈,至少存在一個(gè)純策略納什均衡。精確勢(shì)能博弈有很多特殊的性質(zhì),部分如下:
1)任何精確勢(shì)能博弈至少有一個(gè)純策略NE均衡;
2)能函數(shù)的全局最優(yōu)解或者局部的最優(yōu)解是一個(gè)NE均衡。
基于上述2條性質(zhì),定理1證畢。
本文將抗干擾信道選擇問題構(gòu)造為Stackelberg博弈,干擾作為領(lǐng)導(dǎo)者,首先動(dòng)作,先一步選擇策略。由于認(rèn)知用戶考慮局部理性,在考慮自身效用的時(shí)候,同時(shí)還考慮鄰居用戶的效用。因此,干擾也需要同時(shí)考慮對(duì)認(rèn)知用戶和其鄰居用戶的干擾效果。則上層子博弈可以定義為:
R2={J,Cj,Uj}
(23)
式(23)中:J為惡意干擾;Cj為惡意干擾的信道集(策略集);Uj為惡意干擾的效用函數(shù)。由式(4)可知,可定義惡意干擾的效用函數(shù)為:
(24)
式(24)中,F(xiàn)(an,aJn)是指示函數(shù)。F(an,aJn)可表示為:
(25)
博弈優(yōu)化目標(biāo)為:
(26)
定理2:博弈R2是一個(gè)精確勢(shì)能博弈,至少有一個(gè)純策略的NE均衡。
證明:首先構(gòu)造下面的勢(shì)能函數(shù):

(27)
式(27)中,F(xiàn)(an,aJn)為惡意干擾對(duì)認(rèn)知用戶n的干擾效益。

(28)
另一方面,認(rèn)知用戶n單方面改變信道選擇,導(dǎo)致勢(shì)能函數(shù)產(chǎn)生改變量為:
(29)

?i∈{NPn},i≠n
(30)
那么,下面等式成立:
(31)
綜上,當(dāng)任意用戶單方面改變信道策略,使效用函數(shù)的變化量和勢(shì)能函數(shù)變化量相同。所以根據(jù)定義2可知,該博弈是一個(gè)精確勢(shì)能博弈,至少存在一個(gè)純策略NE均衡。
為了獲得抗干擾信道選擇博弈的均衡解,首先了解了試錯(cuò)算法(trial and error,TE),該算法是完全分布式的,并且在統(tǒng)計(jì)意義上收斂到最優(yōu)的NE,根據(jù)文獻(xiàn)[19-20],該算法接受試驗(yàn)的概率表示為:
Γ(Δun)=Γ(un(t+1)-un(t))=
-δ1(un(t+1)-un(t))+δ2δ1>0,
(32)
V(un(t))=-ε1un(t)+ε2ε1>0
(33)
式(23)~(24)中,Γ(x)和V(x)是嚴(yán)格遞減函數(shù)。通過設(shè)置系數(shù)δ和ε使得Γ(Δun)和V(un(t))滿足下列范圍,即:
(34)
但TE算法沒有考慮認(rèn)知用戶之間信息交換,為了克服這個(gè)局限,本文提出了一種基于局部信息交互的分層學(xué)習(xí)算法(local information interaction of hierarchical learning algorithm,LIIH)。在LIIH算法中,認(rèn)知用戶和干擾在不同時(shí)間尺度上更新策略。干擾的策略更新周期定義為一個(gè)時(shí)期h,認(rèn)知用戶在每個(gè)時(shí)隙t進(jìn)行策略更新,其中,每個(gè)時(shí)期包含T個(gè)時(shí)隙。

利用LIIH算法,認(rèn)知用戶n通過與鄰居用戶進(jìn)行信息交互學(xué)習(xí)獲得最佳策略。認(rèn)知用戶n在時(shí)隙t獲得的回報(bào)為:
un(t)=U1n(an(t),aPn,aJn,aZn)=
(35)
在上層子博弈中,為獲得均衡解,基于Q學(xué)習(xí),提出了一種信道選擇算法,惡意干擾通過與環(huán)境的交互進(jìn)行策略更新。干擾在時(shí)期h獲得的回報(bào)值為:
uj(h)=U2n(an(t),aJn)=
(36)
基于局部信息交互的分層學(xué)習(xí)算法步驟如下。
步驟1初始化:設(shè)置t=0,h=0,讓每個(gè)認(rèn)知用戶n∈N從可用信道集An中等概率隨機(jī)選擇一個(gè)信道an(0),獲得初始獎(jiǎng)勵(lì)un(0);
步驟2循環(huán)開始h=0,1,2,…;
步驟3在時(shí)期h時(shí),惡意干擾根據(jù)干擾策略Cj(h)選擇干擾信道cjn;
步驟4在每個(gè)時(shí)期h,認(rèn)知用戶的學(xué)習(xí)過程如下:
1)在第t個(gè)時(shí)隙,認(rèn)知用戶根據(jù)可用信道策略An(t)選擇信道an(t);
2)認(rèn)知用戶n與鄰居用戶交互信息,根據(jù)公式(35)計(jì)算效用un(t);
3)認(rèn)知用戶根據(jù)以下規(guī)則更新策略:
Ifun(t + 1)≥un(t),更新概率為:
pn(t+1)=ωG(un(t+1)-un(t))
(37)
Ifun(t + 1)< un(t),更新概率為:
pn(t+1)=1-ωG(un(t+1)-un(t))
(38)
步驟5干擾根據(jù)以下公式更新Q值:
(39)
式(39)中:α表示學(xué)習(xí)速率;uj(h)表示干擾效用。惡意干擾更新策略的規(guī)則為:
(40)
式(40)中:qj(h)表示惡意干擾在時(shí)期h從干擾信道集Cj(h)選擇干擾信道cj的概率;β是調(diào)節(jié)因子,用來調(diào)節(jié)學(xué)習(xí)過程中的探測與利用的折中。
步驟6當(dāng)?shù)螖?shù)大于最大迭代次數(shù),算法結(jié)束。
本節(jié)對(duì)LIIH算法的性能進(jìn)行仿真分析。考慮了多波束認(rèn)知星地網(wǎng)絡(luò),地面認(rèn)知用戶以機(jī)會(huì)頻譜接入方式共享衛(wèi)星通信的下行頻譜。認(rèn)知用戶隨機(jī)分布在一塊200 m×250 m的區(qū)域,外部惡意干擾能夠覆蓋全域,用戶的發(fā)射功率1.5 W,干擾功率為20 W。調(diào)節(jié)因子設(shè)定為β=h,h為時(shí)期數(shù),即迭代數(shù)。圖3給出了認(rèn)知用戶和干擾的位置分布示意圖。

圖3 無線網(wǎng)絡(luò)分布圖
圖4給出了認(rèn)知用戶n在一次仿真過程中的收斂曲線。系統(tǒng)用戶數(shù)為5,可用信道數(shù)為4。以認(rèn)知用戶2為例,驗(yàn)證LIIH算法的收斂性。在時(shí)隙t=0時(shí),認(rèn)知用戶2等概率從4個(gè)信道(信道1、信道被選擇的概率在經(jīng)過約210次迭代后,收斂到1,而信道2、信道3和信道4的信道選擇概率均收斂到0。

圖4 用戶的信道選擇概率收斂過程
圖5給出了干擾的收斂曲線。條件相同,即系統(tǒng)用戶數(shù)為5,可用信道數(shù)為4。在時(shí)期h=0時(shí),干擾等概率隨機(jī)選擇一個(gè)信道進(jìn)行干擾,大約經(jīng)過15次迭代后,信道3的信道選擇概率收斂到1,其余信道的信道選擇概率均收斂到0。

圖5 干擾的信道選擇概率收斂過程
圖6給出了參數(shù)ω的設(shè)置對(duì)算法收斂性的影響。當(dāng)ω較小時(shí),收斂較慢,收斂時(shí)間相對(duì)較長,但比較穩(wěn)定;當(dāng)ω較大時(shí),收斂較快,收斂時(shí)間短,但不太穩(wěn)定。這是由于當(dāng)ω較大時(shí),偏向于主動(dòng)探索,偏離當(dāng)前狀態(tài)概率大,相對(duì)不夠穩(wěn)定;當(dāng)ω較小時(shí),主動(dòng)探索意愿小,偏離當(dāng)前狀態(tài)概率較小,相對(duì)穩(wěn)定。

圖6 參數(shù)ω對(duì)算法收斂性的影響
圖7給出了認(rèn)知用戶發(fā)射功率對(duì)系統(tǒng)性能的影響。干擾功率設(shè)置為25 W。當(dāng)認(rèn)知用戶的傳輸功率較小時(shí)(認(rèn)知用戶功率=1.5 W、2 W、2.5 W),隨著用戶數(shù)量的增加,系統(tǒng)的平均吞吐量不斷增加。當(dāng)認(rèn)知用戶的傳輸功率較大時(shí),隨著用戶數(shù)量的增加(認(rèn)知用戶功率=4.5 W、5 W),系統(tǒng)的平均吞吐量先增加后緩慢減少,這是因?yàn)楫?dāng)認(rèn)知用戶的傳輸功率較大時(shí),當(dāng)用戶數(shù)量增加時(shí),用戶間的互擾明顯,當(dāng)用戶間的互擾效果大于新增用戶的吞吐量,系統(tǒng)整體的平均吞吐量會(huì)下降,當(dāng)認(rèn)知用戶數(shù)N=8時(shí),系統(tǒng)平均吞吐量最大。

圖7 用戶發(fā)射功率對(duì)系統(tǒng)性能的影響
圖8給出了干擾發(fā)射功率對(duì)系統(tǒng)性能的影響。認(rèn)知用戶數(shù)N=8。當(dāng)干擾功率較大(干擾功率=30 W、35 W、40 W和50 W)時(shí),隨著認(rèn)知用戶傳輸功率的增加,系統(tǒng)的平均吞吐量逐漸增加,干擾功率越大,增速較緩。當(dāng)干擾功率較小(干擾功率=10 W)時(shí),隨著認(rèn)知用戶傳輸功率的增加,系統(tǒng)的平均吞吐量增速較快。但當(dāng)用戶傳輸功率大于2.5 W時(shí),系統(tǒng)的平均吞吐量下降,原因也是因?yàn)橛脩糸g互擾影響較大。

圖8 干擾功率對(duì)系統(tǒng)性能的影響
為了對(duì)比抗干擾信道選擇性能,評(píng)估LIIH算法的吞吐量性能。將LIIH算法與最優(yōu)響應(yīng)算法(BR)、TE算法和隨機(jī)選擇算法(RS)等進(jìn)行比較。為了便于說明,對(duì)比方案如下:① 最優(yōu)NE 解,最差NE 解。假設(shè)認(rèn)知用戶之間存在信息交換,用最優(yōu)響應(yīng)算法可以收斂到NE 解,執(zhí)行600 次最優(yōu)響應(yīng)算法,其中最優(yōu)的NE 解和最差的NE 解分別作為最優(yōu)NE 解和最差NE 解。② 隨機(jī)選擇算法。認(rèn)知用戶在進(jìn)行信道傳輸策略選擇時(shí),在可用信道集中隨機(jī)選擇信道進(jìn)行信號(hào)傳輸,然后根據(jù)反饋結(jié)果計(jì)算用戶效用和系統(tǒng)吞吐量,而干擾在選擇干擾信道時(shí),同樣隨機(jī)選擇信道進(jìn)行干擾并計(jì)算干擾效用,偶然性較大。③ TE算法。認(rèn)知用戶之間是非合作的,在進(jìn)行信道選擇時(shí),根據(jù)不同的狀態(tài)進(jìn)行策略更新。認(rèn)知用戶自身是理性的,只考慮自身效用,不考慮其他用戶的效用,通過個(gè)體最優(yōu)實(shí)現(xiàn)系統(tǒng)最優(yōu)。④ LIIH算法。在下層子博弈中,針對(duì)認(rèn)知用戶間互擾呈現(xiàn)局部影響的特性,提出局部理性的假設(shè)。認(rèn)知用戶利用改進(jìn)的TE算法進(jìn)行策略選擇,在選擇信道時(shí),會(huì)考慮鄰居用戶的信道選擇;在進(jìn)行決策時(shí),不僅考慮自身效用,還考慮鄰居用戶的效用,通過局部最優(yōu)實(shí)現(xiàn)系統(tǒng)最優(yōu)。在上層子博弈中,干擾利用基于Q學(xué)習(xí)的算法進(jìn)行策略更新。
圖9給出了平均吞吐量隨可用信道數(shù)增加的規(guī)律。認(rèn)知用戶數(shù)N=8,干擾功率=25 W,用戶傳輸功率=2.5 W。由圖9可以看出,隨著可用信道數(shù)的增加,系統(tǒng)的平均吞吐量逐漸增加。與TE算法和隨機(jī)選擇算法對(duì)比而言,LIIH算法性能較為突出,吞吐量性能十分接近最優(yōu)NE解。當(dāng)信道數(shù)與用戶數(shù)相等時(shí),系統(tǒng)吞吐量幾乎不再明顯增加,這是因?yàn)橛脩糁g幾乎沒有競爭,當(dāng)出現(xiàn)信道質(zhì)量更好的信道時(shí),吞吐量會(huì)增加。

圖9 平均吞吐量隨可用信道數(shù)增加的變化規(guī)律
圖10給出了平均吞吐量隨認(rèn)知用戶數(shù)增加的規(guī)律。干擾功率=25 W,用戶傳輸功率=2.5 W。由圖10可以看出,同樣,與TE算法和隨機(jī)選擇算法對(duì)比而言,LIIH算法性能較為突出,吞吐量性能十分接近最優(yōu)NE解。隨著認(rèn)知用戶數(shù)增加時(shí),系統(tǒng)的平均吞吐量逐漸增多,但增速逐漸變緩,原因是由于用戶數(shù)目的增加,用戶之間的互擾逐漸增加,導(dǎo)致吞吐量性能受到影響。

圖10 平均吞吐量隨用戶數(shù)增加的變化規(guī)律
本文研究了基于博弈理論的認(rèn)知星地網(wǎng)絡(luò)抗干擾信道選擇方法,提出了基于局部信息交互的分層學(xué)習(xí)算法。本文的研究內(nèi)容為解決認(rèn)知星地網(wǎng)絡(luò)抗干擾問題提供了一種新的思路和方法。
1)從理論上,證明了抗干擾信道選擇博弈的上層子博弈和下層子博弈均是精確勢(shì)能博弈,并至少存在一個(gè)純策略的NE均衡。
2)在實(shí)驗(yàn)層面上,經(jīng)過仿真結(jié)果分析,提出的基于局部信息交互的分層學(xué)習(xí)算法,收斂性能較好,并且通過與最優(yōu)響應(yīng)算法和隨機(jī)選擇算法進(jìn)行對(duì)比,所提算法的系統(tǒng)平均吞吐量接近最優(yōu)NE解。