張志才,付 芳,尹振華
(山西大學 物理電子工程學院,山西 太原 030006)
無人機被認為是5G網絡重要的組成部分,能為地面用戶提供豐富的服務,如軍事偵察、監控和公共安全等[1-3],目前學術界關于無人機通信系統的研究已經有了一定研究基礎[4,5].文獻[4]針對無人機系統的緩存放置問題,通過聯合優化無人機路徑和緩存內容放置以達到最大化吞吐量.文獻[5]提出一種無人機路徑規劃模式,以保證信道吞吐量.需要注意的是,上述研究[4,5]都忽略了信息安全,然而,由于無人機通信信道的廣播特性及信息傳輸的隱私性,無人機系統安全傳輸是不得不考慮的問題.雖然傳統的應用層加密算法能有效地保證信息安全傳輸,但是這類方法的復雜度過高.近年來,物理層安全作為一種保密通信的技術手段受到學術界的廣泛研究[6-10].文獻[6]針對準靜態衰落信道下無線通信網絡場景,通過分析衰落信道的信噪比對保密速率和通信中斷概率的影響,從而提出基于低密度奇偶校驗碼(LDPC)的密鑰協議;文獻[7]對無人機路徑和時間調度進行了聯合優化,實現了最小平均保密速率的最大化;文獻[8]綜合考慮優化無人機路徑和功率控制,以最大化無人機通信系統下行鏈路的平均保密速率;文獻[9]針對監控無人機下行傳輸場景,通過優化無人機路徑以最大化接收端信干噪比,用凸優化理論求解.文獻[10]綜合考慮無人機路徑規劃和傳輸速率分配,以最小化無人機信息傳輸時的中斷概率.需要注意的是,目前關于無人機安全通信的研究多以保密速率最大化[7,8]、或接收端信干噪比最大化[9]或中斷概率最小化[10]為優化目標,沒有考慮無人機飛行能量消耗的限制,然而,由于無人機電池容量有限,如何提高無人機的能量效率是非常重要的問題.本文旨在通過物理層安全容量描述數據傳輸速率定義能量效率并通過合理的功率控制使能量效率最大化,將此優化問題建模為MDP,用深度 Q 學習網絡(DQN)來尋求最佳功率策略,在保證信息安全的同時合理分配功率.
如圖 1 所示,本文設計了一種無人機信息傳輸和防竊取系統.該系統主要由軟件定義網絡(SDN)控制器、無人機(UAV)、地面宏基站(MBS)和多個竊聽者(Eves)組成.無人機飛行在一個小區上空以廣播的形式向MBS發送信息,竊聽者隨機分布在該小區里想要截獲無人機發送的信息.假設無人機能通過機載攝像頭或雷達探測到竊聽者的位置,從而計算出無人機到竊聽者之間的距離.為了掩藏和保護UAV發送的信號不被地面Eves非法竊取,MBS發射人工噪聲干擾Eves,而MBS則可通過消除自身產生的干擾安全獲取信息,即無人機和MBS之間的合法信道能夠消除人工噪聲的影響,但是無人機和竊聽者之間的竊聽信道由于不易消除人工噪聲的影響而信道質量明顯下降,從而保護無人機發出的信息安全傳輸避免竊聽.SDN控制層中的UAV和MBS根據基礎層獲取的信道條件(CSI)等信息,通過控制UAV發射信號功率和MBS發射人工噪聲功率以最大化能量效率和保證信息安全傳輸.

圖1 網絡架構圖
為了表示方便,令UAV,MBS以及Eves 的位置在笛卡爾坐標系中分別表示為(xU,yU,zU),(xB,yB,0)和(xe,ye,0),e∈ε={1,2,3,…,E}表示竊聽設備集合.因此,UAV與MBS之間的距離

(1)
編號為e的竊聽者記作Evee,UAV與Evee之間的距離

e∈ε.
(2)
MBS與Evee之間的距離

(3)
令hU2B表示 UAV與MBS之間的合法信道增益,hU2e表示UAV與Evee之間的竊聽信道增益,假設它們均是由視距(LoS)主導的信道模型,則

(4)
式中:dU2B表示UAV與MBS之間的3D距離,k為dU2B等于1 m時的單位信道增益,δ1為LoS信道的路徑損耗指數.同理,hU2e滿足

(5)
令hB2e表示MBS 與Evee之間的非視距(NLoS)信道增益,主要由大規模路徑損耗和小型瑞麗衰落引起.則

(6)
式中:δ2為大規模路徑損耗指數;ξ為小型衰落引起的遵循指數分布的隨機變量.
由于UAV的電池容量是一定的,如果用于通信設備的能量消耗過大,無人機的續航能力將會減小,并可能影響整個UAV系統網絡.因此,本文在考慮信息安全的同時,將提高能量效率考慮在內.
傳輸速率是反映信息傳輸快慢的指標,根據香農公式,UAV與MBS之間合法信道的傳輸速率

(7)
式中:B表示帶寬資源;pU(t)是無人機的發射功率;hU2B為合法信道增益;NB0是MBS的自然噪聲功率.由于Eves在接收UAV信息的同時,也會受到來自MBS人工噪聲的干擾,因此,竊聽信道的傳輸速率
rU2E(pU(t),pB(t))=

(8)
式中:NE0表示竊聽設備的自然噪聲功率;pB(t)表示MBS產生的人工噪聲功率.UAV與MBS之間的物理層安全容量可以定義為合法信道與竊聽信道的速率差,即安全速率
r(pU(t),pB(t))=

(9)


(10)
本文通過SDN控制無人機發射有用信號的功率pU(t)和基站MBS發射人工噪聲的功率pB(t),以實現在最大化能量效率的同時保證安全速率.無人機系統中的能效問題可表述為
Maximize∶η
s.t.minpU≤pU(t)≤maxpU,
minpB≤pB(t)≤maxpB,
(11)
式中:minpU與maxpU分別表示UAV的最小和最大發射功率;minpB與maxpB分別表示MBS的最小和最大干擾功率.約束條件的含義是,無人機發射有用信號的功率范圍在minpU與maxpU之間,并且基站MBS發射人工噪聲的功率pB(t)范圍在minpB與maxpB之間.
對上述優化問題進行建模,考慮到無線環境的動態特性具有馬爾科夫性質,因此我們將其建模為MDP〈S,A,P,r)〉,其中S表示狀態空間,包括以下內容:
?UAV與MBS之間的距離dU2B;
?UAV與Eve e之間的距離dU2e,e∈ε;
?MBS與Eve e之間的距離dB2e,e∈ε;
A表示動作空間,包括以下內容:
?UAV發射有用信號的功率pU(t);
?MBS發射人工噪聲的功率pB(t);
P∶S×A×S→[0,∞) 表示狀態轉移函數,由于很難精準預測狀態轉移函數,故采用無模型的深度強化學習算法來求解上述MDP問題;

考慮到實際無人機網絡環境動作和狀態空間的連續性和多維度,以及相鄰時隙動作的耦合性,傳統以最大化短期回報為目標的優化方法很難保證長期回報最大化,而且由于Q學習過于依賴Q表,當動作和狀態空間維度顯著增加時,Q學習會發生維度災難.策略梯度Policy Graident算法是基于策略搜索的強化學習算法,當無人機網絡動態變化時,梯度易出現不穩定,導致收斂性能不好.針對無人機網絡環境動作和狀態空間具有多維連續的特征,采用DQN算法來求解上述MDP問題,它是一種基于值函數的深度強化學習算法,在訓練時采用了Q學習的思路,用神經網絡擬合Q學習中的誤差項.
DQN算法采用神經網絡近似值函數,如圖 2 所示.算法包含兩個結構相同參數不同的Q網絡,分別為current Q網絡和target Q網絡.一個step中,agent在狀態s下根據ε-greedy策略(π)做出動作a時會獲得回報r,同時轉移到下一狀態s′,這些信息(s,a,r,s′)存儲在Replay Buffer中,算法從中隨機選取minibatch經驗用于訓練,從而打亂了相關性,使學習更有效率.由于動作a同時影響當前回報和未來收益,因此基于Bellman方程,current Q的近似值
Qπ(s,a)≈Q(s,a;θ)=r+γQ(s′,a′;θ),
(12)
式中:γ=[0,1]為折扣因子,θ為current Q網絡的參數,該網絡每隔N步將參數傳遞給target網絡.current Q值Q(s,a;θ)與target Q值Q*(s,a;θ*)之差構成損失函數,即

(13)

圖 2 算法流程圖
參數θ的更新公式為梯度下降
θi+1=θi+α?θL(θ),
(14)
式中:0<α≤1為學習效率.
本節中,針對本文提出的基于DQN算法的功率控制策略,在Python平臺進行仿真.在覆蓋半徑為100 m的區域中,每個Episode隨機初始UAV和MBS的位置,多個Eves的位置在每個Step均進行初始化,具體仿真參數如表 1 所示.

表 1 仿真參數設置
圖 3 是DQN算法不同學習效率(α)的收斂圖,從圖 3 中可知,當α=0.1時,大約40個Episodes(每個Episode包含100個Step)可以收斂,而α=0.01時,大約需要300個Episodes才可以收斂,可見,在一定范圍內,收斂速度會隨著學習率的增高而加快.但并非學習率越高越好,如圖 3 中,當α=0.5時,雖然收斂速度與α=0.1相當,但是收斂值明顯更低,這是因為陷入了局部收斂.因此,最佳的學習率為α=0.1.

圖 3 不同學習率收斂圖
從圖 4 可以看到,經典的Policy Gradient算法在400個Episodes左右可以達到收斂,收斂值大約比DQN算法低100,這是因為DQN中采用了ε-greedy策略,從而使探索更充分,避免陷入局部最優.因此,本文所提出的算法在回報值和學習速度方面都優于Policy Gradient算法,并且遠勝過隨機選動作的情況,可以說明本文算法的有效性.

圖 4 本文算法與其他算法的性能比較
圖5為竊聽者密度與平均回報之間的關系圖,將UAV和MBS固定在半徑為100 m的區域中隨機撒點,變化Eves的密度和范圍.可以看到,當覆蓋半徑一定時,隨著竊聽數量的減少,平均回報值會增大.當竊聽數量固定時,隨著覆蓋半徑的擴展,平均回報值逐漸增大.可見,區域面積竊聽密度越小,平均回報值越高.

圖 5 竊聽密度與平均回報關系圖
本文考慮了無人機系統中的物理層安全傳輸,主要研究了通過控制無人機發射有用信號的功率和MBS發射人工噪聲的功率,在保證無人機信息安全傳輸的同時,最大化其能量效率.考慮到實際無人機網絡環境動作和狀態空間具有多維連續的特征,將上述優化問題建模為MDP,并采用DQN算法來求解最優功率控制策略.