基于貝葉斯 Q 學(xué)習(xí)的無人機(jī)集群抗干擾智能快跳頻算法*

2022-07-27 11:34:10康雅潔張一晉

航天控制 2022年2期

關(guān)鍵詞：智能

康雅潔林艷,2 張一晉

1.南京理工大學(xué)電子工程與光電技術(shù)學(xué)院，南京 210094

2.宇航智能控制技術(shù)國家級(jí)重點(diǎn)實(shí)驗(yàn)室，北京 100854

0 引言

隨著航空及無線通信技術(shù)的飛速發(fā)展，無人機(jī)集群具有了體積小、成本低、環(huán)境適應(yīng)性強(qiáng)、魯棒性強(qiáng)且作業(yè)能力強(qiáng)大的特點(diǎn)，可利用規(guī)模優(yōu)勢解決單無人機(jī)抗毀性弱和覆蓋范圍有限的問題，因而具有極佳的任務(wù)完成能力。然而愈加復(fù)雜的電磁環(huán)境對(duì)無人機(jī)集群通信的可靠性提出了新的挑戰(zhàn)。比如，無線電波在傳播過程中不僅會(huì)受到場景中地形特征、天氣條件、飛行姿態(tài)等因素的影響，還會(huì)面臨惡意干擾信號(hào)[1]，引起無人機(jī)通信性能的下降，嚴(yán)重時(shí)甚至造成整個(gè)無人機(jī)系統(tǒng)的癱瘓。因此，無人機(jī)集群通信亟待克服惡意干擾對(duì)無人機(jī)集群網(wǎng)絡(luò)傳輸性能的影響，以確保無人機(jī)集群在復(fù)雜電磁環(huán)境下實(shí)現(xiàn)高可靠通信。

以跳頻通信系統(tǒng)為代表的傳統(tǒng)抗干擾通信技術(shù)主要通過提高跳頻速率和增加跳頻帶寬來提高抗干擾能力，因而具有較高的避障性能和抗截獲性能。但受制于頻譜資源緊缺的現(xiàn)狀，這種以犧牲頻譜資源為代價(jià)的抗干擾策略能力愈發(fā)有限[2]。

近年來，研究者們開始嘗試?yán)脧?qiáng)化學(xué)習(xí)理論，研究設(shè)備如何基于對(duì)干擾環(huán)境的感知學(xué)習(xí)[3]調(diào)整抗干擾策略以完成對(duì)干擾的智能規(guī)避，避免擴(kuò)寬頻譜對(duì)頻譜資源的浪費(fèi)。比如，文獻(xiàn)[4-5]利用無模型Q學(xué)習(xí)方法，對(duì)單用戶場景下的認(rèn)知無線電網(wǎng)絡(luò)抗干擾決策問題進(jìn)行研究，利用認(rèn)知無線電的寬帶頻譜感知能力加快基于Q學(xué)習(xí)的干擾策略的學(xué)習(xí)速度，但尚未考慮多用戶場景。文獻(xiàn)[6]考慮了超密集物聯(lián)網(wǎng)的多用戶場景，將多智能體抗干擾決策問題建模為服務(wù)質(zhì)量受限的Markov博弈，針對(duì)掃頻干擾、動(dòng)態(tài)干擾等干擾場景提出了一種基于平均場的抗干擾方法。然而該方法并未考慮通信設(shè)備之間的干擾。文獻(xiàn)[7]針對(duì)無線網(wǎng)絡(luò)設(shè)備通信采用馬爾可夫博弈框架對(duì)抗干擾防御問題進(jìn)行建模和分析，提出了一種多智能體協(xié)同抗干擾算法，以獲得最優(yōu)的抗干擾策略。但上述方案未考慮設(shè)備因頻繁切換頻道造成不必要的成本開銷。

本文針對(duì)無人機(jī)集群通信網(wǎng)絡(luò)研究如何學(xué)習(xí)干擾機(jī)的干擾策略并智能選擇可用傳輸頻道的抗干擾智能快跳頻問題，聯(lián)合考慮無人機(jī)集群傳輸速率和跳頻開銷，并利用貝葉斯Q學(xué)習(xí)可實(shí)現(xiàn)探索新策略和利用已知最優(yōu)策略之間更優(yōu)平衡的優(yōu)勢加快學(xué)習(xí)收斂速度，進(jìn)而在實(shí)現(xiàn)有限頻譜資源和訓(xùn)練開銷下高可靠傳輸，同時(shí)降低無人機(jī)集群網(wǎng)絡(luò)在復(fù)雜電磁環(huán)境下的跳頻開銷。

1 系統(tǒng)模型

如圖1所示，考慮有單個(gè)基站，N架無人機(jī)，J架干擾機(jī)的無人機(jī)集群網(wǎng)絡(luò)。假設(shè)該網(wǎng)絡(luò)預(yù)先分配了C個(gè)不同的正交頻分復(fù)用子載波[8]以消除網(wǎng)絡(luò)中通信鏈路之間的干擾。任意時(shí)隙內(nèi)，每個(gè)無人機(jī)選擇其中一子載波向基站傳輸數(shù)據(jù)，同時(shí)干擾機(jī)也選擇其中一子載波向無人機(jī)發(fā)送干擾信號(hào)。

圖1 無人機(jī)集群網(wǎng)絡(luò)系統(tǒng)模型

(1)

由于無人機(jī)與基站通信過程中同時(shí)存在敵意干擾攻擊和其他無人機(jī)的同頻干擾，則第n個(gè)無人機(jī)的信息傳輸速率為

(2)

其中，ρn[j]=1表示第n個(gè)無人機(jī)被第j個(gè)干擾機(jī)干擾，否則ρn[j]=0；κn[i]=1表示第n個(gè)無人機(jī)受到第i個(gè)無人機(jī)的干擾，否則κn[i]=0。此外σ2表示加性高斯白噪聲的功率。

假設(shè)無人機(jī)和干擾機(jī)的移動(dòng)性均遵循高斯馬爾科夫模型[9]。記基站、無人機(jī)和干擾機(jī)高度分別為HB，HN和HJ。另外，假設(shè)基站水平位置固定在無人機(jī)集群移動(dòng)區(qū)域范圍的中心。根據(jù)文獻(xiàn)[9]，各無人機(jī)(干擾機(jī))速度和方向的更新如下：

(3)

(4)

2 問題表述

無人機(jī)智能抗干擾通信過程如圖2所示。假設(shè)無人機(jī)集群飛行過程可被劃分為長度相等的若干個(gè)時(shí)隙。在每個(gè)時(shí)隙開始時(shí)，無人機(jī)及干擾機(jī)更新位置并完成跳頻點(diǎn)選擇，此后無人機(jī)先依據(jù)當(dāng)前時(shí)隙已選擇的跳頻點(diǎn)進(jìn)行數(shù)據(jù)傳輸，然后對(duì)當(dāng)前時(shí)隙網(wǎng)絡(luò)的所有頻道進(jìn)行頻譜感知，并依據(jù)此信息進(jìn)行下一時(shí)隙跳頻點(diǎn)選擇的學(xué)習(xí)。另外，需要說明的是，單個(gè)時(shí)隙內(nèi)干擾機(jī)都會(huì)在某一頻道上對(duì)無人機(jī)發(fā)送干擾信號(hào)，而到下一時(shí)隙干擾機(jī)會(huì)根據(jù)干擾模式切換干擾頻道。

圖2 無人機(jī)智能抗干擾通信過程

由上述過程可知，無人機(jī)自適應(yīng)快跳頻問題本質(zhì)上是一個(gè)序列決策問題。為描述無人機(jī)集群網(wǎng)絡(luò)選擇跳頻點(diǎn)和更新其選擇策略的動(dòng)態(tài)過程，現(xiàn)對(duì)無人機(jī)集群網(wǎng)絡(luò)抗干擾通信系統(tǒng)自適應(yīng)快跳頻問題建立如下MDP模型：

1)動(dòng)作at：時(shí)刻t無人機(jī)集群的跳頻點(diǎn)選擇，即at=[ut[0],ut[1],…,ut[N-1]]。其中t時(shí)刻第n個(gè)無人機(jī)所占用頻道的序號(hào)用ut[n]∈{0,1,…,C-1}表示。

2)狀態(tài)st：時(shí)刻t無人機(jī)集群的狀態(tài)包括上一時(shí)刻t-1干擾機(jī)的干擾頻道以及無人機(jī)選擇的傳輸頻道，即st=[It-1,at-1]。其中t-1時(shí)刻J個(gè)干擾機(jī)所占用頻道序號(hào)用It-1=[jt-1[0],jt-1[1],…,jt-1[J-1]]表示，jt-1[i]表示t-1時(shí)刻第i個(gè)干擾機(jī)所占用頻道序號(hào)，且滿足jt-1[i]∈{0,1,…,C-1}。

3)獎(jiǎng)勵(lì)rt：為了最大化無人機(jī)集群通信系統(tǒng)信息傳輸速率與跳頻開銷的折中，定義t時(shí)刻的獎(jiǎng)勵(lì)rt包括無人機(jī)集群系統(tǒng)信息傳輸速率獎(jiǎng)勵(lì)與跳頻開銷懲罰兩部分。記為第n個(gè)無人機(jī)的信息傳輸速率獎(jiǎng)勵(lì)，為第n個(gè)無人機(jī)的跳頻開銷。具體如下：

b)跳頻開銷懲罰：設(shè)λ為無人機(jī)單次跳頻所需開銷，則第n個(gè)無人機(jī)的跳頻開銷可表示為rλ[n]=-λδ[n]。其中當(dāng)?shù)趎個(gè)無人機(jī)相較于上一時(shí)刻切換頻道時(shí)，δ[n]=1，否則δ[n]=0。

c)折中獎(jiǎng)勵(lì)：令m1表示歸一化信息傳輸速率獎(jiǎng)勵(lì)的權(quán)值，m2表示跳頻開銷的權(quán)值。則t時(shí)刻的信息傳輸速率獎(jiǎng)勵(lì)與跳頻開銷的折中獎(jiǎng)勵(lì)表示為

(5)

3 基于貝葉斯Q學(xué)習(xí)的自適應(yīng)快跳頻算法

強(qiáng)化學(xué)習(xí)需要解決的重要問題之一是如何在探索未知的動(dòng)作以及利用已知的最優(yōu)動(dòng)作之間實(shí)現(xiàn)平衡。而貝葉斯強(qiáng)化學(xué)習(xí)將強(qiáng)化學(xué)習(xí)和貝葉斯學(xué)習(xí)進(jìn)行了概率手段上的結(jié)合，使得無人機(jī)智能體能夠基于已知的經(jīng)驗(yàn)信息概率分布和所觀測到的頻道占用信息進(jìn)行推理，通過計(jì)算探索和利用共同帶來的收益做出實(shí)現(xiàn)累積獎(jiǎng)勵(lì)最大的跳頻點(diǎn)選擇策略，同時(shí)加快智能體學(xué)習(xí)收斂速度。基于以上貝葉斯強(qiáng)化學(xué)習(xí)的優(yōu)勢，本章基于貝葉斯Q學(xué)習(xí)提出了一種新的無人機(jī)集群抗干擾智能快跳頻算法。

3.1 貝葉斯Q學(xué)習(xí)

Dearden等[10]在傳統(tǒng)Q學(xué)習(xí)算法[11]的基礎(chǔ)上提出貝葉斯Q學(xué)習(xí)算法，其基本思想是采用貝葉斯方法衡量智能體對(duì)當(dāng)前各狀態(tài)價(jià)值估計(jì)的不確定性，由此估計(jì)探索新動(dòng)作可獲得的信息價(jià)值，實(shí)現(xiàn)在探索新策略和利用已知最優(yōu)策略之間的更優(yōu)平衡。本節(jié)將利用貝葉斯Q學(xué)習(xí)算法設(shè)計(jì)無人機(jī)集群通信系統(tǒng)的抗干擾自適應(yīng)快跳頻方案。

為獲得更優(yōu)的動(dòng)作選擇策略，貝葉斯Q學(xué)習(xí)動(dòng)作策略選擇采取近期信息價(jià)值增益方法以及矩更新的先驗(yàn)分布更新方法，具體如下：

1)近期信息價(jià)值增益動(dòng)作選擇

近期信息價(jià)值增益動(dòng)作選擇方法是指通過比較探索可獲得的預(yù)期收益與采用已知最優(yōu)動(dòng)作可獲得的預(yù)期收益來選擇策略，其在每個(gè)狀態(tài)下動(dòng)作選擇為

(6)

(7)

2)先驗(yàn)分布矩更新

高斯伽馬分布的4個(gè)后驗(yàn)分布參數(shù)更新公式為

(8)

其中M1和M2分別是當(dāng)前時(shí)刻t在狀態(tài)s下執(zhí)行動(dòng)作a時(shí)的高斯隨機(jī)變量Rst,at的一階矩和二階矩，n是抽樣樣本個(gè)數(shù)。

3.2 方案設(shè)計(jì)

假設(shè)無人機(jī)集群通信系統(tǒng)中存在一個(gè)無人機(jī)作為領(lǐng)導(dǎo)者，該無人機(jī)領(lǐng)導(dǎo)者能夠獲取所有其他無人機(jī)的頻道占用情況，并通過頻譜感知可獲得系統(tǒng)中所有干擾狀態(tài)。本文暫未考慮頻譜感知的虛警漏警情況[12]。

本文所提出的基于貝葉斯Q 學(xué)習(xí)的抗干擾自適應(yīng)快跳頻算法如算法1所示。具體而言，算法先對(duì)MDP參數(shù)S,A,γ,α,r等進(jìn)行初始化。另外，考慮每q個(gè)時(shí)隙為一個(gè)回合，且每個(gè)回合開始前頻道狀態(tài)刷新。對(duì)于每個(gè)回合重復(fù)以下步驟：

1)在每個(gè)時(shí)隙開始時(shí)，無人機(jī)智能體依據(jù)近期信息價(jià)值增益決策策略選擇當(dāng)前時(shí)隙跳頻點(diǎn)，同時(shí)更新位置信息。

2)依據(jù)所選頻道執(zhí)行數(shù)據(jù)傳輸后，各無人機(jī)觀測當(dāng)前頻道的占用情況，同時(shí)依據(jù)環(huán)境反饋的信息傳輸速率獎(jiǎng)勵(lì)和本無人機(jī)的跳頻點(diǎn)切換記錄計(jì)算折中獎(jiǎng)勵(lì)值；

3)無人機(jī)領(lǐng)導(dǎo)者先結(jié)合所有無人機(jī)的平均獎(jiǎng)勵(lì)，再運(yùn)用矩更新方式更新所維護(hù)Q表中相應(yīng)狀態(tài)動(dòng)作對(duì)所對(duì)應(yīng)的Q值分布。

以上訓(xùn)練過程重復(fù)直到平均獎(jiǎng)勵(lì)值收斂。

圖3 算法流程圖

4 仿真

為了體現(xiàn)智能快跳頻算法的優(yōu)勢，本文考慮基于Q學(xué)習(xí)的智能快跳頻算法和隨機(jī)快跳頻算法兩種比較方案，并設(shè)置每個(gè)回合時(shí)隙數(shù)q=100。

圖4 單音隨機(jī)干擾模式下收斂性能

圖5 多音掃頻干擾模式下收斂性能

圖6 馬爾科夫干擾模式下收斂性能

仿真中考慮如下3種干擾模式：

1)單音隨機(jī)干擾：設(shè)單個(gè)干擾機(jī)以0.9的概率保持與上一時(shí)隙相同的頻道進(jìn)行干擾，以0.1的概率隨機(jī)選擇其他任一頻道進(jìn)行干擾。

2)多音掃頻：設(shè)干擾機(jī)以1MHz為掃頻步長同時(shí)對(duì)2個(gè)頻道進(jìn)行掃描干擾。

3)馬爾科夫干擾模式：設(shè)共有8個(gè)干擾狀態(tài)，且每個(gè)干擾機(jī)各自干擾的頻道不重復(fù)。干擾狀態(tài)的轉(zhuǎn)換遵循系統(tǒng)初始化得到的狀態(tài)轉(zhuǎn)移矩陣。

圖4～6分別展示了在以上單音隨機(jī)、多音掃頻和馬爾科夫干擾模式的環(huán)境中3種快跳頻算法的折中獎(jiǎng)勵(lì)收斂性能。仿真結(jié)果顯示，隨機(jī)快跳頻算法累積獎(jiǎng)勵(lì)值一直在20左右浮動(dòng)；而基于Q學(xué)習(xí)的智能快跳頻算法需要數(shù)量級(jí)為103的回合訓(xùn)練次數(shù)才能收斂，且其收斂值僅為25左右。本文所提基于貝葉斯Q學(xué)習(xí)的智能快跳頻算法僅需要數(shù)量級(jí)為101的回合訓(xùn)練次數(shù)實(shí)現(xiàn)收斂，且收斂值均大于50，遠(yuǎn)高于前2種對(duì)比算法。這是因?yàn)樨惾~斯方法能夠衡量智能體對(duì)當(dāng)前各狀態(tài)價(jià)值估計(jì)的不確定性，從而利用近期信息價(jià)值增益選擇動(dòng)作使得無人機(jī)集群能夠更快地探索到更優(yōu)的快跳頻策略。

5 結(jié)論

為提高無人機(jī)集群學(xué)習(xí)智能快跳頻策略的訓(xùn)練速度，本文利用貝葉斯方法可衡量不確定性的優(yōu)勢，設(shè)計(jì)了一種基于貝葉斯Q學(xué)習(xí)的智能快跳頻算法，以同時(shí)提高傳輸可靠性和降低跳頻開銷。仿真結(jié)果表明，所提算法能夠加快無人機(jī)集群學(xué)習(xí)最優(yōu)快跳頻策略的速度，使得無人機(jī)集群網(wǎng)絡(luò)在有限訓(xùn)練開銷下實(shí)現(xiàn)具有更優(yōu)的傳輸速率與跳頻開銷性能的抗干擾通信。下一步工作將考慮如何利用多智能體貝葉斯Q學(xué)習(xí)的優(yōu)勢實(shí)現(xiàn)無人機(jī)集群分布式抗干擾快跳頻技術(shù)。