999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于模型的強化學習在無人機路徑規劃中的應用

2022-12-13 13:52:58楊思明單征曹江郭佳郁高原郭洋王平王景王曉楠
計算機工程 2022年12期
關鍵詞:規劃用戶模型

楊思明,單征,曹江,郭佳郁,高原,郭洋,王平,王景,王曉楠

(1.數學工程與先進計算國家重點實驗室,鄭州 450001;2.軍事科學院,北京 100091)

0 概述

隨著當前城市內移動通信終端數量的快速增長以及物聯網、云計算、高清視頻等新應用新技術的迅速發展,大型城市中數據月均流量消耗增長迅猛[1]。無人機升空平臺作為輔助地面基站,可為城市提供無線覆蓋保障。當前無人機升空平臺多采用低空無人機,如何根據環境信息和用戶位置信息實時規劃路徑,以規避建筑物對于信號的遮擋以及調整合適的飛行方向、速度以避免發生多普勒頻移造成的快衰落,是當前無人機升空平臺在提供無線通信保障任務中亟待解決的問題。

解決上述問題的傳統方法是通過對目標區域進行建模,然后使用最優控制算法進行路徑規劃。ROMERO等[2]利用地面用戶和無人機基站之間發送的控制信息,提出一種基于隨機梯度下降法的分布式自適應無人機軌跡優化算法。ZENG等[3]研究在已知地面用戶位置的情況下使用無人機升空平臺為地面用戶提供數據傳輸服務的內容,進行圓形飛行軌跡設計,以在固定時間內最大化地面用戶的上行速率。LYU等[4]提出一種高效的螺旋式無人機布局算法,意在使用最少的無人機升空平臺,保證每一個地面用戶都能被有效覆蓋,但是該算法需要無人機平臺在固定高度懸停。ALZENAD等[5]設計一個無人機升空平臺在三維空間中的評估模型,以利用最小的發射功率實現對于目標區域的覆蓋。KALANTARI等[6]提出一種粒子群優化框架,使得可以利用最少數量的無人機完成對目標區域的無線覆蓋。AL-HOURANI等[7]根據地面靜態用戶的位置信息,將無人機升空平臺的部署問題表示為一個二次約束混合整數非線性問題,用以得到最優的三維部署方案,最大化地面靜態用戶的下行速率。但上述算法主要存在以下問題:一是需要對環境進行復雜且精確的建模,而精確建模需要耗費大量時間以及計算資源,并且當前很多實際應用問題并不能準確地建模;二是當前算法更多考慮的是為地面靜態用戶提供通信覆蓋的場景。目前對于地面多移動用戶的無人機升空平臺實時路徑規劃方法的研究還處于初期階段。

基于深度強化學習(Deep Reinforcement Learning,DRL)的方法通過將路徑規劃任務建模為時序決策優化問題,利用神經網絡的泛化性能以及強化學習的優化思想最大化累積收益,使智能體學習到最優策略。文獻[8-9]使用DQN 算法[10]對無人機升空平臺進行路徑規劃,以最大化數據傳輸速率。但該算法只能應用于離散動作空間任務,并且存在價值函數估值過高的問題,對智能體學習路徑規劃策略造成了偏差。對此,WANG等[11]使用Double DQN 算法[12]優化無人機平臺飛行軌跡,用以在對地面所有用戶進行覆蓋的前提下最大化下行速率。Double DQN 算法彌補了DQN 價值函數估值過高的問題,但仍然不能應用在連續動作空間任務中。同時,由于智能體探索能力隨著策略更新次數的增加而下降,智能體會出現收斂到局部最優策略的情況。文獻[13-14]使用DDPG 算法[15]成功地將深度強化學習應用在連續動作空間的路徑規劃任務中,但是該算法超參數過多,在復雜問題中訓練速度慢且不穩定。可見,當前DRL 算法在處理路徑規劃這一類高維狀態動作空間任務時,存在探索性能差、訓練過程不穩定、樣本效率低等問題。針對上述問題,文獻[16]提出了基于內在獎勵的強化學習算法,使得智能體可以高效地對環境進行探索,并且單調提升策略性能。

目前提升樣本效率的方法主要有off-policy 類算法[15,17]以及基于模型的算法。前者由于行動策略與目標策略不同,需要設計合理的重要性采樣方法,并對超參數進行反復調整,否則會使學習過程出現較大偏差,導致智能體學習不穩定,收斂到局部最優策略;后者通過使智能體學習環境的動態模型,從而提升樣本效率,但當前仍存在探索能力低下[18-19]、數據收集效率較低[20-21]、價值函數預測偏差較大[22-23]的問題。本文研究利用基于模型的方法結合內在獎勵強化學習算法,提出基于模型的強化學習算法在無人機升空平臺路徑規劃中的應用,在保證最終性能的前提下提升樣本效率,以使用較少數據完成對于智能體的訓練。

1 模擬環境構建

本節主要闡述無人機升空平臺通信保障任務的模擬環境構建工作,該模擬環境不僅為智能體提供用于訓練的經驗數據,同時可以作為一個算法驗證平臺,用于比較各類算法在任務中的性能。為了使得模擬環境貼近實際環境,首先建立城市環境中的空對地信道模型,用于估算不同情況下的路徑損耗值。在此基礎上,將任務歸納為一個時序決策問題,并使用OpenAI-GYM 架構搭建環境。

1.1 空對地信道建模

本文基于城市環境建立一個空對地信道路徑損耗模型,主要考慮城市建筑物對信號遮擋造成的路徑損耗。國際電信聯盟(ITU)在其官方標準文件中提出一種基于建筑物遮擋對無線電信號傳輸造成損耗的通用模型[24]。該模型可適用于多種城市環境,將發射機和接收機之間的視距通信及非視距通信傳輸概率定義為仰角和環境參數的函數,并且通過數學推導,可以得到通過Sigmod 漸進化簡后的公式:

其中:a、b為S-curve 參數。

無人機升空平臺與用戶之間發生非視距傳輸的概率為:

因此,傳播模型的路徑損耗為:

其中:FFSPL為自由空間損耗,是針對理想全向天線傳輸計算得到的損耗公式;ηξ是由環境決定的過度路徑損耗,ξ代表傳播組。本文將傳播模型分為視距通信和非視距通信模型,即ξ∈{LLoS,NNLoS}。

總的路徑損耗模型可以寫為:

其中:PPL是信道模型的總路徑損耗,可以計算無人機升空平臺與每個地面移動用戶之間信號的路徑損耗。

1.2 任務優化方程

無人機升空平臺通信保障任務的目標是使無人機升空平臺在應急通信保障任務期間最大化所有用戶的下行速率之和,同時需要保證任何用戶的下行速率高于預設的門限速率,并保證每個用戶不會出現由多普勒頻移造成的快衰落。

無人機升空平臺與一個地面移動用戶的三維關系如圖1 所示。在圖1 中,參數h和L分別表示無人機升空平臺的飛行高度以及與用戶之間的水平面距離,參數Vf和Vm為無人機升空平臺及用戶的速度向量,d是三維坐標系中無人機平臺位置指向用戶位置的向量。

圖1 無人機升空平臺與用戶的關系Fig.1 Relationship between UAV aerial platform and user

此外,定義光速為c,信號頻率為f,基站發射功率為Ps,帶寬為W,高斯白噪聲的功率為N。由此,根據多普勒頻移定理,可以得到用戶m在時隙t收到的信號頻率為:

通過式(5)可以計算得到路徑損耗PPL(單位為dB)。所以,用戶m在時隙t收到的信號功率為:

通過香農公式可以得到理論上用戶的最大下行速率:

其中:Cmt是用戶m在時隙t的下行速率。

定義模擬環境在時隙t的獎勵值為:

其中:M和Cth分別為用戶的數量和任務預設的用戶最小門限下行速率。為了防止用戶接收信號發生快衰落,需要確保符號時間大于相關時間,即Cmt>fmt。同時,要保證每個用戶的下行速率高于設定的門限速度,所以要設置Cmt≥Cth,如果這兩個條件都滿足,則時隙t的獎勵值是所有用戶下行速率之和,否則為0。設任務總的收益為:

即設置總的收益為所有時隙獎勵值的和,但如果某個時隙的獎勵值為0,即觸發了約束條件,則任務直接結束。基于上述分析,將無人機升空平臺的應急通信保障問題概括為一個馬爾科夫時序決策問題,可以采用強化學習的手段進行求解,目標就是最大化累積收益Gt。

在得到時序決策優化方程后,使用OpenAI-Gym架構[25]進行環境構建。任務設置如下:在尺寸為50 km×50 km×5 km 的城區范圍內,隨機分布著一些高度在50~150 m 的建筑物。無人機升空平臺為地面隨機分布的10 個移動目標提供通信保障,無人機升空平臺可以在0°~360°范圍內調整飛行方向,在0°~180°方位內調整飛行仰角,在每小時180~300 km范圍內調整飛行速度。無人機升空平臺需要保證每個用戶的下行速率大于門限速率,同時防止由于多普勒頻移造成的快衰落。在此前提下,任務的目標是最大化用戶的總下行速率。任務中如果出現飛機碰撞到建筑物,則判定實驗結束,并返回-100 的獎勵值,如果出現任何一個用戶的下行速率低于閾值速率或由于多普勒頻移出現了快衰落現象,則判定實驗結束,并返回-50 的獎勵值;如果在通信保障任務期間未發生上述問題,則返回獎勵值100。

2 算法設計

在利用無模型算法進行學習時,為了準確估計價值函數,根據任務的復雜性不同,需要采樣上萬幕的數據才能得到較為準確的價值估計網絡。因此,本文借鑒MVE 算法[23]的思想,采用基于模型的算法對動態模型進行學習,其中包含3 個重要的待學習函數:狀態轉移函數Tξ(s,a)用來預測后繼狀態;狀態終止預測函數dξ(s)用來預測狀態s為終止狀態的概率;獎勵預測函數rφ(s,a,s')用來預測返回的獎勵值。狀態價值函數被設定為結合了短期和長期價值函數的形式,短期價值函數是通過學習到的環境動態模型經過數步規劃得到的獎勵值之和,而長期價值函數則是通過神經網絡直接預測得到的價值函數,形式如下:

但是MVE 算法只有在當模型復雜度不高,并且在所有學習到的動作價值函數具有相似的誤差時具有較好性能。當模型較為復雜時,MVE 算法難以調整固定的超參數H,而模型誤差的累積會導致價值函數評估出現嚴重偏差。為了解決上述問題,需要綜合考量H+1 個不同預測步長的MVE 形式的狀態價值來計算得到一個合適的價值函數。候選的TD目標為,即考量從0 步規劃到H步的H+1 種不同狀態價值。傳統的方法是使用對于候選目標的平均或者以指數衰減的方法對候選目標值進行加權的方法,本文選擇通過平衡Q函數學習中的誤差以及規劃模型的誤差,得到對于候選目標更好的加權方式。針對每個候選,其在規劃中有3 個重要參數,分別為Q函數預測參數θ、獎勵函數預測參數φ、狀態轉換函數預測參數ξ,如式(10)所示,它們共同作用組成一個H=i步的TD 目標。為了增強算法的魯棒性,設置一個候選的TD 目標中有L個預測參數θ={θ1,θ2,…,θL},N個獎勵函數預測參數φ={φ1,φ2,…,φN},M個狀態轉移預測參數ζ={ζ1,ζ2,…,ζM}。

算法的概述圖如圖2 所示。圖2 展示了M=N=L=2 情況下(s0,a0)的TD 目標值的估計值,可以通過這些數據求得的均值和方差。為了找到合適的權值w,使得加權后的TD 目標值之和與真實的動作價值的均方誤差最小,將兩者的泛化誤差進行分解得到:

圖2 基于模型算法的概述圖Fig.2 Overview figure of model-based algorithm

為使得均方誤差最小,使用經驗數據中估計得到的方差來估計方差項,并最小化方差項。采用逆方差權重法,將wi設置為Var()的倒數,并對最終結果進行規范化,最終得到加權后的狀態價值函數為:

將算法與內在獎勵RL 算法以及impala 并行架構結合,最終得到基于模型的內在獎勵強化學習算法,算法流程架構如圖3 所示。可以看到,算法采用并行架構完全解耦了數據采集和策略更新過程。Worker 獨立地進行經驗數據收集,在結束一幕數據交互后,同步Learner 最新的策略,并將收集到的數據存入Buffer。Learner 周期地從Buffer 中提取數據進行更新,通過V-trace 方法對行動策略采集到的數據進行重要性采樣,得到適合目標策略學習的價值函數預測值,分內部、外部獎勵兩個部分使用上述基于模型的方法對價值函數進行評估,最終合并內部獎勵和外部獎勵預測得到的價值函數,并利用PPO 的方法對策略進行更新。實驗結果表明,該方法在智能體取得相同性能的情況下提高了樣本效率。

圖3 基于模型的內在獎勵算法結構Fig.3 Structure of model-based intrinsic reward algorithm

3 實驗結果與分析

本文程序使用python3.8 編寫,運行環境為Win 10 操作系統,裝有2 塊NVIDIA 3090 顯卡以及64 GB 內存。實驗中神經網絡均由全連接網絡和ReLu 網絡組成,使用32 個并行的實驗環境進行數據采集。本文提出的基于模型的內在獎勵算法與基于Impala 架構的無模型內在獎勵算法的性能對比如圖4 所示。

圖4 不同算法的性能對比Fig.4 Performance comparison of different algorithms

從圖4 可以看出,本文算法相較于擁有相同架構但不使用對環境動態模型進行學習的算法具有更好的性能,可以利用很少的經驗數據快速完成對于策略的學習,并且學習過程更加穩定。為了比較本文算法與非強化學習啟發式算法的性能,基于文獻[3-5]的思想,構建一套簡化的啟發式算法。該算法將當前分布在地面的多個用戶包含在一個最小的圓內,要求無人機始終保持在圓心位置,速度方向則為所有用戶當前速度向量之和的方向。可以看到,啟發式算法在環境中可以達到近6 000 分的水平,微小的波動是由于地面用戶在遇到障礙物時進行隨機避障,速度方向并不保持一致,從而導致無人機飛行方向發生偏移,進而影響最終得分情況。相較于啟發式算法,本文算法在前期學習過程得分較差,但當智能體能夠對狀態價值函數進行準確評估后,最終算法的得分遠高于啟發式算法。

此外為了說明的本文算法相較于其他基于模型算法的優勢,在模擬環境中采用了多種算法進行測試比較,結果如圖5 所示。

圖5 本文算法與不同視界MVE 算法的性能對比Fig.5 Performance comparison between the proposed algorithm and MVE algorithm in different horizons

從圖5 可以看出,相比于MVE 采用固定規劃值(H)的情況,基于組合規劃值的方法訓練速度和效果更好,同時訓練過程更為平穩,并且對于MVE類規劃值固定的算法,如何調節超參數H也是一個難題,從圖5 可以看出,當H從1提高到5 的過程中,規劃值的增大減小了價值函數預測的方差,而準確的價值函數提高了算法的學習速率,也決定了最終收斂到的策略性能。而當H取10 時,智能體在整個訓練過程中波動很大,并且最終無法學習到一個較好的策略。原因在于:在訓練初期,當預測模型沒有得到準確學習時,過長的規劃值會導致價值函數方差、偏差都較大,在這種情況下由于方差、偏差的累積,智能體始終無法學到準確的預測模型參數以及價值函數,這就使得智能體在訓練過程中全程無法進行有效的策略迭代。所以,對于固定規劃值類的算法,超參數的調整是一個難題。而使用均勻加權訓練算法與本文算法有著相同的架構,但在組合規劃值時,權值使用的是均勻加權算法。可以看出,該算法的速度和最終性能都與本文算法有差距。

實驗中還針對算法對于不同超參數集的魯棒性進行了研究,利用20 組有較大差異的超參數集對算法進行了測試,并且對最終得分求均值,結果如圖6所示。

圖6 不同算法的魯棒性對比Fig.6 Robustness comparison of different algorithms

圖6 比較了基于模型的權值組合規劃值擴展算法與基于Impala 框架的內在獎勵算法在20 組不同超參數集下作用于模擬環境中的平均得分。從圖6可以看出,基于Impala 框架的內在獎勵算法在使用接近20 組超參數集時,其得分均值已低于2 000 分,而基于模型的權值組合規劃值擴展算法穩定在6 000 分左右。實驗結果表明,基于模型的算法針對不同超參數具有更強的魯棒性。原因在于:基于模型的權值組合規劃值擴展算法在訓練過程中對于環境動態模型的學習,在一定程度上彌補了超參數設置帶來的價值函數預測偏差。

4 結束語

本文針對強化學習算法在無人機升空平臺路徑規劃任務中存在的樣本效率低的問題,提出基于模型的內在獎勵強化學習算法。通過將任務概述為一個時序決策優化問題,基于OpenAI-GYM 構建模擬環境,并結合規劃與預測的方法提高價值函數的評估準確性。實驗結果表明,該算法在保證智能體性能的前提下,在樣本效率、學習速度、算法魯棒性上都有較大提升。下一步將研究提升算法的遷移能力,并結合遷移學習和元學習的思想對算法進行改進,以將訓練完畢的智能體投入到相似的場景中執行任務。

猜你喜歡
規劃用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
規劃引領把握未來
快遞業十三五規劃發布
商周刊(2017年5期)2017-08-22 03:35:26
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
多管齊下落實規劃
中國衛生(2016年2期)2016-11-12 13:22:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: AV无码无在线观看免费| 色窝窝免费一区二区三区| 国产精品网曝门免费视频| 国产精品蜜芽在线观看| 久久婷婷五月综合色一区二区| 97久久超碰极品视觉盛宴| 亚洲国产清纯| 亚洲一级毛片在线观播放| 久久夜色撩人精品国产| 国产欧美在线视频免费| 欧美一区福利| 熟妇无码人妻| 99性视频| 亚洲国产欧美国产综合久久| 亚洲人成电影在线播放| 欧美伊人色综合久久天天| 亚洲精品777| 国产噜噜在线视频观看| 亚洲国产精品无码久久一线| 久久精品嫩草研究院| 青青操视频在线| 草草线在成年免费视频2| 国产制服丝袜无码视频| 热久久国产| 国产农村精品一级毛片视频| 爱做久久久久久| 另类综合视频| 免费国产好深啊好涨好硬视频| 国产91特黄特色A级毛片| 亚洲无码免费黄色网址| 久操中文在线| 午夜啪啪福利| 亚洲精品无码抽插日韩| 日本三级黄在线观看| 国产一区二区三区免费| 国产又黄又硬又粗| 亚洲国产精品一区二区高清无码久久| 亚洲福利一区二区三区| 四虎永久在线精品影院| 精品国产毛片| 波多野结衣无码视频在线观看| 国产综合在线观看视频| 日韩专区第一页| 免费播放毛片| 亚洲国产精品成人久久综合影院| 国产精品男人的天堂| 一级毛片在线免费看| 噜噜噜综合亚洲| 国产成人精品高清在线| 91成人免费观看在线观看| 91福利一区二区三区| 亚洲日本一本dvd高清| 精品在线免费播放| 熟妇人妻无乱码中文字幕真矢织江| 国产自在自线午夜精品视频| 国产精品无码久久久久久| 性视频久久| 99国产在线视频| 欧美日韩国产在线人成app| 成年人国产网站| 在线中文字幕网| 亚洲欧美国产高清va在线播放| 2021国产v亚洲v天堂无码| 欧美在线三级| 亚洲精品波多野结衣| 国产精品自在线天天看片| 永久免费无码成人网站| 免费人成在线观看视频色| 亚洲人免费视频| 欧美精品啪啪一区二区三区| 国产成人福利在线| 日韩欧美国产成人| 国产成人免费高清AⅤ| 亚洲中文字幕在线精品一区| 99热线精品大全在线观看| 一级毛片在线免费看| 久热中文字幕在线观看| 99草精品视频| 69免费在线视频| 99精品国产自在现线观看| 国产91高清视频| 99精品一区二区免费视频|