張金輝,蘆方旭,米志超,王穆陽
(1.解放軍總醫院 服務保障中心,北京 100853;2.中國人民解放軍31121 部隊,江蘇 南京 210042;3.陸軍工程大學 通信工程學院,江蘇 南京 210007)
近年來,無人機由于其靈活和部署方便的特性[1],被大規模應用在各種領域中。比較典型的應用就是2021 年河南暴雨,翼龍無人機提供了緊急通信服務。這一應用說明利用無人機來進行通信覆蓋逐步成為現實。
在目前的大多數研究中,主要針對的是地面固定用戶來進行無人機在空中的靜態部署。文獻[2]對低海拔(Low Altitude Platforms,LAP)無人機進行地空路徑損耗建模,建立了視距(Line-of-Sight,LoS)鏈路和非視線(Non Line-of-Sigh,NLoS)鏈路的通信模型。文獻[3]推導了單無人機基站部署的最佳高度。文獻[4]研究了在滿足用戶需求的條件下如何降低無人機的傳輸能量。文獻[5]通過聯合優化無人機的三維空間位置、用戶接入群集和頻率分配方案來最大限度地減少無人機的數量并提高覆蓋率。文獻[6]考慮了無人機基站的六邊形蜂窩網絡的覆蓋恢復問題,通過調整基站的覆蓋半徑來實現目標區域的全覆蓋。文獻[7]研究了無人機基站在有竊聽者的情況下為地面用戶提供服務,并提出了通過優化無人機的三維位置,最大化避障能力和保密能力的方案。
與之前的研究不同的是,本文主要考慮移動用戶的覆蓋問題,依靠無人機與地面用戶的不斷交互,在線學習最佳的動作策略,并基于此提出一種基于最大獎勵函數值的在線學習算法來實現針對移動用戶的動態無人機部署方案。
本文采用在無人機通信領域廣泛使用的經典信道模型——地空信道模型[8],來對接收功率建模,得地面用戶的接收功率的表達式為:

式中:P′為空中無人機m的發射功率;PNLoS、PLoS分別為NLoS 和LoS 環境下的連接概率;η為地面用戶到無人機的路徑損耗指數;κ為非視距連接的附加衰減因子;r為地面用戶到無人機在水平位置上投影點的距離;h為無人機在空中的高度。
式(1)中LoS 傳輸的概率表達式為[3]:

式中:a和b為相關路徑損耗參數,由無人機所處環境決定。由信道模型可得,NLoS 傳輸的概率為PNLoS=1-PLoS。
用戶到無人機的仰角θ可以表示為:

由香農公式可得,地面用戶m的信噪比(Signal-to-Noise Ratio,SNR)可表示為:

為了更加直觀地觀測無人機的覆蓋用戶情況,構造指示函數Γm,n:

式中:γ0為用戶的通信閾值。在本文中,只有用戶的信噪比大于通信閾值時,才認為無人機可以通信覆蓋用戶,此時Γm,n=1,否則Γm,n=0。
觀測在i時隙,無人機在空中的覆蓋情況,此時可以定義無人機n的覆蓋效能:

對無人機在三維空間的運動能耗建模[9],旋翼無人機在空中運動的水平方向的表達式為:

式中:P0、P1、A、Utip、v0、s和d0是由無人機的型號所決定的數值;ρ為空氣密度,是由環境決定的數值;V為本文假設的無人機在水平方向運動的恒定速度。
由式(7)得,當旋翼無人機懸停在空中時,能耗可以表達為:

繼續對無人機在垂直方向上建模,垂直方向上,主要考慮無人機的重量情況,此時的能耗可以表示為:

式中:e為無人機的重量;g為重力加速度;Vz為垂直方向的運動速度。
綜上,無人機的能耗主要是由無人機的水平移動能耗、無人機的懸停能耗、無人機的垂直運動能耗和無人機的發射功率4 方面構成。因此,無人機在第i個時隙內的總能耗表示為:

本文構建的獎勵函數,用以評估動態無人機去覆蓋移動用戶的性能。獎勵函數主要衡量無人機的覆蓋性能與無人機的能耗性能。針對移動的用戶,為了取得最大的覆蓋性能,無人機需要加強移動性,此時能耗必然增大,本文設計一種獎勵函數用來平衡二者:

式中:α為歸一化系數;β為權重系數,用來平衡覆蓋性能與功耗性能。
在整個區域部署多架動態無人機時,通過最大化一段時間內的獎勵函數來尋求減小能耗,增大覆蓋性能的無人機的部署與移動策略。

式中:I為時隙數;N為無人機數量;M為用戶數量。該優化問題描述的是N個動態無人機在目標區域去覆蓋M個地面移動用戶時,最大化整個區域內的獎勵函數值,并以此表示無人機在三維空間的部署與移動情況。約束條件(1)表示一個用戶只能被一個無人機所連接;約束條件(2)是對無人機的高度約束;約束條件(3)是用戶的通信要求,即信噪比要大于用戶通信閾值。
針對地面固定位置用戶的無人機靜態通信覆蓋問題,目前已經有很多研究,大部分是建模為非確定多項式-難(Non-deterministic Polynomial-hard,NP-hard)問題,通過群體智能算法求解得到全局或者局部最優解[10-14]。本文中,由于用戶的移動具有隨機性,而無人機只能不斷地通過與用戶的交互來尋求下一步的部署與移動的位置;因此,設計了一種基于最大獎勵函數值回報的在線學習算法,通過每個時隙內的最大獎勵函數值的回報來決定無人機下一步的決策動作。最大獎勵函數值的回報定義如下:

式中:a表示無人機在空中的動作。此時,定義無人機在空中的運動狀態,可以簡單地把無人機在三維空間的運動建模為7 種狀態,如圖1 所示。

圖1 無人機的空中運動建模
假設a1表示無人機的當前的位置,把該位置記為:a1=(x,y,z),其他位置可以記為a2=(x-V,y,z),a3=(x+V,y,z),a4=(x,y,z-V),a5=(x,y+Vz),a6=(x,y-V,z),a7=(x,y+V,z),其中,V和Vz分別表示無人機在水平和垂直方向的移動速度。
具體算法表述如下:

3.1.1 用戶的設置
通過仿真驗證所提算法的性能,用戶的移動采用隨機游走模型[14],用戶的最大移動速度設置為15 m/s,無人機數量設置為4 個,用戶數量設置為100 個,目標區域設置為2 000 m×2 000 m。地面用戶在任意時隙可以朝任意方向進行任意速度的移動,并且為在仿真中突出一般性,對用戶的移動范圍不做限制。為了增加對用戶移動的說明,截取5 個快照來示意用戶的移動,如圖2 所示。


圖2 選取的5 個時隙的用戶位置快照
3.1.2 無人機的設置
本文選擇4 架無人機進行相應的仿真工作,無人機能耗的設置參考文獻[10],通信模型的設置參考文獻[8],具體的參數見表1。

表1 仿真參數的設置
在仿真對比中,本文選擇:一是在目標區域內進行地理范圍的分割,選取中央位置運行無人機的固定算法;二是在任意時隙隨機選擇動作的隨機選擇算法。進行多組仿真取得平均值,進而繪制仿真圖。
式(11)中的權重系數β為覆蓋性能與能耗性能在獎勵函數中所占的權重。圖3 為權重系數β的仿真結果。

圖3 權重系數β的仿真
從圖3 中得到,當獎勵函數中能耗占比較大時,固定高度的算法是獎勵函數值最大的,這是因為固定高度的算法中,無人機位置是固定不變的,并且無人機自開始就存在于目標區域的中心位置,此時只需維持無人機的懸停能耗。但是,另外兩種算法的無人機初始條件都是隨機分布在該區域內,初始的不利開局,影響了整個仿真過程,并且在仿真過程中需要不斷地移動位置,這樣就又增加了能耗。因此,在獎勵函數的選擇上,應當盡可能地減少功耗,最佳的方案是把無人機放置在中心區域。
然而,隨著權重系數β的增大,覆蓋性能所占的比重逐步上升,減少運動能耗所取得的增益已經不能抵過覆蓋所帶來的性能。本文所提算法的獎勵函數值逐步增大并且隨著權重系數β的增大,與兩種算法的對比差距也越來越大。本文所提算法在求解最大獎勵函數值的過程中,無人機與地面用戶不斷地交互,用戶的持續移動使無人機也要隨之移動,在移動中,逐步增大無人機的覆蓋用戶數,進而隨著權重系數β的增大,造成性能值出現越來越大的差距。
在瞬間獎勵函數值的對比中,權重系數β取0.5,即覆蓋性能與能耗性能所占的權重一致,仿真結果如圖4 所示。

圖4 β=0.5 時瞬時獎勵函數值的仿真
從圖4 可以看出,由于本文所提的最大獎勵算法在初始階段隨機分布,最開始的獎勵函數值很小,但隨著時隙增加,無人機與用戶不斷進行交互,此時獎勵函數值在一段時間內會持續地走高,但隨著用戶的不斷移動,并且移動范圍越來越大,此時隨著時間的增加,整體的獎勵函數值會持續地走低。固定高度的算法由于開始時用戶密集分布在目標區域內,并且初始時就處于中央位置,所以獎勵函數值最高。同樣道理,隨著用戶的移動范圍變大,獎勵函數值不斷變小,隨機運動的用戶又重新進入最初的目標區域,雖然會造成中間有過凸起,但是整體的趨勢是不斷變小。隨機選擇算法的獎勵函數值一直很低,是因為隨機選擇動作A的合集,每個動作都有出現的可能性,所以獎勵函數值最低。
β=0.5 時,覆蓋用戶數和能耗的仿真如圖5 和圖6 所示。對無人機的能耗建模可得,懸停是最節省能耗的方式,水平方向移動是最耗能的方式,垂直方式的能耗則處于中間。固定高度的算法能耗是最小的,因為只需要懸停能耗,本文所提算法則需在水平、垂直和懸停中不停地選擇,選擇最大獎勵函數值的運動方式。隨機選擇算法則由于水平方向的移動概率占4/7,在選擇概率上占大多數,所以能耗也隨之變大,這也說明了該算法一直獎勵函數值最小的原因。覆蓋用戶數的仿真圖與瞬時獎勵函數的仿真圖大致相同,此時說明,在能耗無法帶來大的提升時,提高無人機覆蓋用戶的性能,也會帶來獎勵函數值的大幅增長。

圖5 β=0.5 時覆蓋用戶數的仿真
圖7 為選取的5 個時隙的無人機位置快照,圖中大球表示無人機的位置,地面灰色小點表示用戶的位置,其余黑色小點表示無人機在3 個平面的投影。從圖6 也可以看出用戶的位置在不斷地移動,隨著用戶位置的移動,無人機的位置也處于變動之中。

圖6 β=0.5 時能耗的仿真


圖7 選取的5 個時隙的無人機位置快照
本文研究了針對移動用戶群的動態多無人機覆蓋問題,在考慮覆蓋性能與能耗性能的基礎上,通過權重系數來說明該兩種性能所占的比重大小,并通過設計一種基于最大獎勵函數值的在線學習算法,來解決移動用戶群的動態多無人機覆蓋問題。仿真結果表明,本文所提算法在移動用戶群的覆蓋性能和功耗性能上具有明顯的優勢。