康雅潔 林 艷,2 張一晉
1.南京理工大學(xué)電子工程與光電技術(shù)學(xué)院,南京 210094
2.宇航智能控制技術(shù)國家級(jí)重點(diǎn)實(shí)驗(yàn)室,北京 100854
隨著航空及無線通信技術(shù)的飛速發(fā)展,無人機(jī)集群具有了體積小、成本低、環(huán)境適應(yīng)性強(qiáng)、魯棒性強(qiáng)且作業(yè)能力強(qiáng)大的特點(diǎn),可利用規(guī)模優(yōu)勢解決單無人機(jī)抗毀性弱和覆蓋范圍有限的問題,因而具有極佳的任務(wù)完成能力。然而愈加復(fù)雜的電磁環(huán)境對(duì)無人機(jī)集群通信的可靠性提出了新的挑戰(zhàn)。比如,無線電波在傳播過程中不僅會(huì)受到場景中地形特征、天氣條件、飛行姿態(tài)等因素的影響,還會(huì)面臨惡意干擾信號(hào)[1],引起無人機(jī)通信性能的下降,嚴(yán)重時(shí)甚至造成整個(gè)無人機(jī)系統(tǒng)的癱瘓。因此,無人機(jī)集群通信亟待克服惡意干擾對(duì)無人機(jī)集群網(wǎng)絡(luò)傳輸性能的影響,以確保無人機(jī)集群在復(fù)雜電磁環(huán)境下實(shí)現(xiàn)高可靠通信。
以跳頻通信系統(tǒng)為代表的傳統(tǒng)抗干擾通信技術(shù)主要通過提高跳頻速率和增加跳頻帶寬來提高抗干擾能力,因而具有較高的避障性能和抗截獲性能。但受制于頻譜資源緊缺的現(xiàn)狀,這種以犧牲頻譜資源為代價(jià)的抗干擾策略能力愈發(fā)有限[2]。
近年來,研究者們開始嘗試?yán)脧?qiáng)化學(xué)習(xí)理論,研究設(shè)備如何基于對(duì)干擾環(huán)境的感知學(xué)習(xí)[3]調(diào)整抗干擾策略以完成對(duì)干擾的智能規(guī)避,避免擴(kuò)寬頻譜對(duì)頻譜資源的浪費(fèi)。比如,文獻(xiàn)[4-5]利用無模型Q學(xué)習(xí)方法,對(duì)單用戶場景下的認(rèn)知無線電網(wǎng)絡(luò)抗干擾決策問題進(jìn)行研究,利用認(rèn)知無線電的寬帶頻譜感知能力加快基于Q學(xué)習(xí)的干擾策略的學(xué)習(xí)速度,但尚未考慮多用戶場景。文獻(xiàn)[6]考慮了超密集物聯(lián)網(wǎng)的多用戶場景,將多智能體抗干擾決策問題建模為服務(wù)質(zhì)量受限的Markov博弈,針對(duì)掃頻干擾、動(dòng)態(tài)干擾等干擾場景提出了一種基于平均場的抗干擾方法。然而該方法并未考慮通信設(shè)備之間的干擾。文獻(xiàn)[7]針對(duì)無線網(wǎng)絡(luò)設(shè)備通信采用馬爾可夫博弈框架對(duì)抗干擾防御問題進(jìn)行建模和分析,提出了一種多智能體協(xié)同抗干擾算法,以獲得最優(yōu)的抗干擾策略。但上述方案未考慮設(shè)備因頻繁切換頻道造成不必要的成本開銷。
本文針對(duì)無人機(jī)集群通信網(wǎng)絡(luò)研究如何學(xué)習(xí)干擾機(jī)的干擾策略并智能選擇可用傳輸頻道的抗干擾智能快跳頻問題,聯(lián)合考慮無人機(jī)集群傳輸速率和跳頻開銷,并利用貝葉斯Q學(xué)習(xí)可實(shí)現(xiàn)探索新策略和利用已知最優(yōu)策略之間更優(yōu)平衡的優(yōu)勢加快學(xué)習(xí)收斂速度,進(jìn)而在實(shí)現(xiàn)有限頻譜資源和訓(xùn)練開銷下高可靠傳輸,同時(shí)降低無人機(jī)集群網(wǎng)絡(luò)在復(fù)雜電磁環(huán)境下的跳頻開銷。
如圖1所示,考慮有單個(gè)基站,N架無人機(jī),J架干擾機(jī)的無人機(jī)集群網(wǎng)絡(luò)。假設(shè)該網(wǎng)絡(luò)預(yù)先分配了C個(gè)不同的正交頻分復(fù)用子載波[8]以消除網(wǎng)絡(luò)中通信鏈路之間的干擾。任意時(shí)隙內(nèi),每個(gè)無人機(jī)選擇其中一子載波向基站傳輸數(shù)據(jù),同時(shí)干擾機(jī)也選擇其中一子載波向無人機(jī)發(fā)送干擾信號(hào)。

圖1 無人機(jī)集群網(wǎng)絡(luò)系統(tǒng)模型

(1)

由于無人機(jī)與基站通信過程中同時(shí)存在敵意干擾攻擊和其他無人機(jī)的同頻干擾,則第n個(gè)無人機(jī)的信息傳輸速率為

(2)
其中,ρn[j]=1表示第n個(gè)無人機(jī)被第j個(gè)干擾機(jī)干擾,否則ρn[j]=0;κn[i]=1表示第n個(gè)無人機(jī)受到第i個(gè)無人機(jī)的干擾,否則κn[i]=0。此外σ2表示加性高斯白噪聲的功率。
假設(shè)無人機(jī)和干擾機(jī)的移動(dòng)性均遵循高斯馬爾科夫模型[9]。記基站、無人機(jī)和干擾機(jī)高度分別為HB,HN和HJ。另外,假設(shè)基站水平位置固定在無人機(jī)集群移動(dòng)區(qū)域范圍的中心。根據(jù)文獻(xiàn)[9],各無人機(jī)(干擾機(jī))速度和方向的更新如下:

(3)

(4)

無人機(jī)智能抗干擾通信過程如圖2所示。假設(shè)無人機(jī)集群飛行過程可被劃分為長度相等的若干個(gè)時(shí)隙。在每個(gè)時(shí)隙開始時(shí),無人機(jī)及干擾機(jī)更新位置并完成跳頻點(diǎn)選擇,此后無人機(jī)先依據(jù)當(dāng)前時(shí)隙已選擇的跳頻點(diǎn)進(jìn)行數(shù)據(jù)傳輸,然后對(duì)當(dāng)前時(shí)隙網(wǎng)絡(luò)的所有頻道進(jìn)行頻譜感知,并依據(jù)此信息進(jìn)行下一時(shí)隙跳頻點(diǎn)選擇的學(xué)習(xí)。另外,需要說明的是,單個(gè)時(shí)隙內(nèi)干擾機(jī)都會(huì)在某一頻道上對(duì)無人機(jī)發(fā)送干擾信號(hào),而到下一時(shí)隙干擾機(jī)會(huì)根據(jù)干擾模式切換干擾頻道。

圖2 無人機(jī)智能抗干擾通信過程
由上述過程可知,無人機(jī)自適應(yīng)快跳頻問題本質(zhì)上是一個(gè)序列決策問題。為描述無人機(jī)集群網(wǎng)絡(luò)選擇跳頻點(diǎn)和更新其選擇策略的動(dòng)態(tài)過程,現(xiàn)對(duì)無人機(jī)集群網(wǎng)絡(luò)抗干擾通信系統(tǒng)自適應(yīng)快跳頻問題建立如下MDP模型:
1)動(dòng)作at:時(shí)刻t無人機(jī)集群的跳頻點(diǎn)選擇,即at=[ut[0],ut[1],…,ut[N-1]]。其中t時(shí)刻第n個(gè)無人機(jī)所占用頻道的序號(hào)用ut[n]∈{0,1,…,C-1}表示。
2)狀態(tài)st:時(shí)刻t無人機(jī)集群的狀態(tài)包括上一時(shí)刻t-1干擾機(jī)的干擾頻道以及無人機(jī)選擇的傳輸頻道,即st=[It-1,at-1]。其中t-1時(shí)刻J個(gè)干擾機(jī)所占用頻道序號(hào)用It-1=[jt-1[0],jt-1[1],…,jt-1[J-1]]表示,jt-1[i]表示t-1時(shí)刻第i個(gè)干擾機(jī)所占用頻道序號(hào),且滿足jt-1[i]∈{0,1,…,C-1}。
3)獎(jiǎng)勵(lì)rt:為了最大化無人機(jī)集群通信系統(tǒng)信息傳輸速率與跳頻開銷的折中,定義t時(shí)刻的獎(jiǎng)勵(lì)rt包括無人機(jī)集群系統(tǒng)信息傳輸速率獎(jiǎng)勵(lì)與跳頻開銷懲罰兩部分。記為第n個(gè)無人機(jī)的信息傳輸速率獎(jiǎng)勵(lì),為第n個(gè)無人機(jī)的跳頻開銷。具體如下:

b)跳頻開銷懲罰:設(shè)λ為無人機(jī)單次跳頻所需開銷,則第n個(gè)無人機(jī)的跳頻開銷可表示為rλ[n]=-λδ[n]。其中當(dāng)?shù)趎個(gè)無人機(jī)相較于上一時(shí)刻切換頻道時(shí),δ[n]=1,否則δ[n]=0。
c)折中獎(jiǎng)勵(lì):令m1表示歸一化信息傳輸速率獎(jiǎng)勵(lì)的權(quán)值,m2表示跳頻開銷的權(quán)值。則t時(shí)刻的信息傳輸速率獎(jiǎng)勵(lì)與跳頻開銷的折中獎(jiǎng)勵(lì)表示為
(5)
強(qiáng)化學(xué)習(xí)需要解決的重要問題之一是如何在探索未知的動(dòng)作以及利用已知的最優(yōu)動(dòng)作之間實(shí)現(xiàn)平衡。而貝葉斯強(qiáng)化學(xué)習(xí)將強(qiáng)化學(xué)習(xí)和貝葉斯學(xué)習(xí)進(jìn)行了概率手段上的結(jié)合,使得無人機(jī)智能體能夠基于已知的經(jīng)驗(yàn)信息概率分布和所觀測到的頻道占用信息進(jìn)行推理,通過計(jì)算探索和利用共同帶來的收益做出實(shí)現(xiàn)累積獎(jiǎng)勵(lì)最大的跳頻點(diǎn)選擇策略,同時(shí)加快智能體學(xué)習(xí)收斂速度。基于以上貝葉斯強(qiáng)化學(xué)習(xí)的優(yōu)勢,本章基于貝葉斯Q學(xué)習(xí)提出了一種新的無人機(jī)集群抗干擾智能快跳頻算法。
Dearden等[10]在傳統(tǒng)Q學(xué)習(xí)算法[11]的基礎(chǔ)上提出貝葉斯Q學(xué)習(xí)算法,其基本思想是采用貝葉斯方法衡量智能體對(duì)當(dāng)前各狀態(tài)價(jià)值估計(jì)的不確定性,由此估計(jì)探索新動(dòng)作可獲得的信息價(jià)值,實(shí)現(xiàn)在探索新策略和利用已知最優(yōu)策略之間的更優(yōu)平衡。本節(jié)將利用貝葉斯Q學(xué)習(xí)算法設(shè)計(jì)無人機(jī)集群通信系統(tǒng)的抗干擾自適應(yīng)快跳頻方案。

為獲得更優(yōu)的動(dòng)作選擇策略,貝葉斯Q學(xué)習(xí)動(dòng)作策略選擇采取近期信息價(jià)值增益方法以及矩更新的先驗(yàn)分布更新方法,具體如下:
1)近期信息價(jià)值增益動(dòng)作選擇
近期信息價(jià)值增益動(dòng)作選擇方法是指通過比較探索可獲得的預(yù)期收益與采用已知最優(yōu)動(dòng)作可獲得的預(yù)期收益來選擇策略,其在每個(gè)狀態(tài)下動(dòng)作選擇為

(6)


(7)
2)先驗(yàn)分布矩更新

高斯伽馬分布的4個(gè)后驗(yàn)分布參數(shù)更新公式為

(8)
其中M1和M2分別是當(dāng)前時(shí)刻t在狀態(tài)s下執(zhí)行動(dòng)作a時(shí)的高斯隨機(jī)變量Rst,at的一階矩和二階矩,n是抽樣樣本個(gè)數(shù)。
假設(shè)無人機(jī)集群通信系統(tǒng)中存在一個(gè)無人機(jī)作為領(lǐng)導(dǎo)者,該無人機(jī)領(lǐng)導(dǎo)者能夠獲取所有其他無人機(jī)的頻道占用情況,并通過頻譜感知可獲得系統(tǒng)中所有干擾狀態(tài)。本文暫未考慮頻譜感知的虛警漏警情況[12]。
本文所提出的基于貝葉斯Q 學(xué)習(xí)的抗干擾自適應(yīng)快跳頻算法如算法1所示。具體而言,算法先對(duì)MDP參數(shù)S,A,γ,α,r等進(jìn)行初始化。另外,考慮每q個(gè)時(shí)隙為一個(gè)回合,且每個(gè)回合開始前頻道狀態(tài)刷新。對(duì)于每個(gè)回合重復(fù)以下步驟:
1)在每個(gè)時(shí)隙開始時(shí),無人機(jī)智能體依據(jù)近期信息價(jià)值增益決策策略選擇當(dāng)前時(shí)隙跳頻點(diǎn),同時(shí)更新位置信息。
2)依據(jù)所選頻道執(zhí)行數(shù)據(jù)傳輸后,各無人機(jī)觀測當(dāng)前頻道的占用情況,同時(shí)依據(jù)環(huán)境反饋的信息傳輸速率獎(jiǎng)勵(lì)和本無人機(jī)的跳頻點(diǎn)切換記錄計(jì)算折中獎(jiǎng)勵(lì)值;
3)無人機(jī)領(lǐng)導(dǎo)者先結(jié)合所有無人機(jī)的平均獎(jiǎng)勵(lì),再運(yùn)用矩更新方式更新所維護(hù)Q表中相應(yīng)狀態(tài)動(dòng)作對(duì)所對(duì)應(yīng)的Q值分布。
以上訓(xùn)練過程重復(fù)直到平均獎(jiǎng)勵(lì)值收斂。

圖3 算法流程圖

為了體現(xiàn)智能快跳頻算法的優(yōu)勢,本文考慮基于Q學(xué)習(xí)的智能快跳頻算法和隨機(jī)快跳頻算法兩種比較方案,并設(shè)置每個(gè)回合時(shí)隙數(shù)q=100。

圖4 單音隨機(jī)干擾模式下收斂性能

圖5 多音掃頻干擾模式下收斂性能

圖6 馬爾科夫干擾模式下收斂性能
仿真中考慮如下3種干擾模式:
1)單音隨機(jī)干擾:設(shè)單個(gè)干擾機(jī)以0.9的概率保持與上一時(shí)隙相同的頻道進(jìn)行干擾,以0.1的概率隨機(jī)選擇其他任一頻道進(jìn)行干擾。
2)多音掃頻:設(shè)干擾機(jī)以1MHz為掃頻步長同時(shí)對(duì)2個(gè)頻道進(jìn)行掃描干擾。
3)馬爾科夫干擾模式:設(shè)共有8個(gè)干擾狀態(tài),且每個(gè)干擾機(jī)各自干擾的頻道不重復(fù)。干擾狀態(tài)的轉(zhuǎn)換遵循系統(tǒng)初始化得到的狀態(tài)轉(zhuǎn)移矩陣。
圖4~6分別展示了在以上單音隨機(jī)、多音掃頻和馬爾科夫干擾模式的環(huán)境中3種快跳頻算法的折中獎(jiǎng)勵(lì)收斂性能。仿真結(jié)果顯示,隨機(jī)快跳頻算法累積獎(jiǎng)勵(lì)值一直在20左右浮動(dòng);而基于Q學(xué)習(xí)的智能快跳頻算法需要數(shù)量級(jí)為103的回合訓(xùn)練次數(shù)才能收斂,且其收斂值僅為25左右。本文所提基于貝葉斯Q學(xué)習(xí)的智能快跳頻算法僅需要數(shù)量級(jí)為101的回合訓(xùn)練次數(shù)實(shí)現(xiàn)收斂,且收斂值均大于50,遠(yuǎn)高于前2種對(duì)比算法。這是因?yàn)樨惾~斯方法能夠衡量智能體對(duì)當(dāng)前各狀態(tài)價(jià)值估計(jì)的不確定性,從而利用近期信息價(jià)值增益選擇動(dòng)作使得無人機(jī)集群能夠更快地探索到更優(yōu)的快跳頻策略。
為提高無人機(jī)集群學(xué)習(xí)智能快跳頻策略的訓(xùn)練速度,本文利用貝葉斯方法可衡量不確定性的優(yōu)勢,設(shè)計(jì)了一種基于貝葉斯Q學(xué)習(xí)的智能快跳頻算法,以同時(shí)提高傳輸可靠性和降低跳頻開銷。仿真結(jié)果表明,所提算法能夠加快無人機(jī)集群學(xué)習(xí)最優(yōu)快跳頻策略的速度,使得無人機(jī)集群網(wǎng)絡(luò)在有限訓(xùn)練開銷下實(shí)現(xiàn)具有更優(yōu)的傳輸速率與跳頻開銷性能的抗干擾通信。下一步工作將考慮如何利用多智能體貝葉斯Q學(xué)習(xí)的優(yōu)勢實(shí)現(xiàn)無人機(jī)集群分布式抗干擾快跳頻技術(shù)。