999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DDPG的無人機路徑規劃

2022-03-16 03:47:14李雙霖高佩忻
兵器裝備工程學報 2022年2期
關鍵詞:動作策略

李 琳,李雙霖,高佩忻

(1.中國電子科技集團公司第二十研究所, 西安 710068; 2.西北工業大學 電子信息學院, 西安 710072)

1 引言

近年來,無人機(UAV)應用場景更加廣泛。其不僅在農業、安保、搜索救援、地面勘探、物流等許多商業領域取得了不俗的成績,而且在軍事領域也大放異彩,出色地完成了許多有人駕駛飛機難以完成的任務。

傳統無人機路徑規劃通常采用人工勢場法、柵格法、遺傳算法、動態貝葉斯網絡等方法。但是,由于這些算法存在對復雜情況適應程度低、在線求解效率低、計算量大、甚至無法在線求解等問題,使得無人機路徑規劃的自主性大大降低,難以滿足在軍事領域無人機智能化的要求。

隨著深度強化學習的快速發展,運用其快速求解無人機航路問題成為可能。本文基于深度強化學習,提出一種無人機路徑規劃算法。首先,建立了無人機運動模型和威脅模型;然后采用深度強化學習理論構建了無人機路徑規劃算法;最后,通過仿真驗證了本文所提出算法的有效性。

2 無人機運動模型與威脅模型

不考慮無人機的形狀大小等物理特性,將無人機簡化為質點運動。無人機在二維空間的簡化運動模型定義為:

(1)

主要考慮地面的雷達威脅和防空導彈威脅。

雷達威脅主要是指在無人機飛行時防空雷達對其造成的威脅程度。假設敵方防空雷達的探測角度是360°,為雷達最大探測距離,因此雷達威脅的數學模型為:

(2)

式(2)中,是無人機當前位置與雷達位置的相對距離。

導彈威脅主要是指無人機飛行時防空導彈對其造成的威脅程度。導彈威脅數學模型為:

(3)

式(3)中:是無人機當前位置與導彈位置的距離;為導彈所能攻擊的最遠距離;為不可逃逸半徑。一旦無人機與導彈的距離小于,則無人機一定會被擊中。

3 基于DDPG的無人機路徑規劃算法

3.1 DDPG算法模型

DDPG算法(deep deterministic policy gradient,DDPG)是深度確定性策略梯度算法。DDPG算法繼承了DPG算法(deterministic policy gradient,DPG)的確定性策略,智能體根據狀態決策輸出確定性動作,并且DDPG采用深度神經網絡,增強對決策函數的擬合能力。相比隨機性策略,DDPG大大減少了采樣數據量,提高了算法的效率,更有助于智能體在連續動作空間中進行學習。

DDPG算法采用Actor-Critic框架形式, 主要包含演員(actor)網絡和評論家(critic)網絡。Actor網絡負責為無人機生成動作和環境交互,Critic網絡負責評估狀態和動作的表現,并指導策略函數生成下一階段的動作。Actor和Critic均采用雙網絡結構,擁有各自的目標(target)網絡和估計(eval)網絡。DDPG的網絡結構如圖1所示。

圖1 DDPG的網絡結構示意圖

圖1中,Actor-eval網絡主要負責策略網絡參數的迭代更新,根據當前的狀態來選擇動作,在和環境交互過程中,生成下一時刻的狀態′和執行當前動作產生的回報值。Actor-target網絡負責根據經驗池中采樣下一狀態′選擇最優的下一時刻動作′。網絡參數定期從Actor-eval 網絡中的復制。Critic-eval網絡主要是對網絡參數的迭代更新,計算當前值(,,)和目標值=+′(′,′,),其中表示折扣因子,影響訓練過程中未來獎勵相對于當前獎勵的重要程度。Critic-target網絡中主要參數是從定期復制Critic-eval網絡的參數得來的,主要負責計算目標值中的′(′,′,)。

設時刻,無人機的狀態為,動作為。則:

1) Actor-eval網絡輸出實時的動作(|),被無人機執行,并與環境進行交互;

2) Critic-eval網絡輸出值(,|),用來判定當前狀態-動作的價值;

3) Actor-target網絡輸出′(+1|),根據經驗回放池中采樣的下一狀態+1最優的下一時刻動作′計算目標值;

4) Critic-target網絡輸出目標值′(+1,′(+1|)|),無人機從環境獲得獎勵用來計算目標值。

對DDPG算法相關基本概念定義如下:

1) 確定性動作策略:定義為一個函數,每一步的動作可以通過=()計算獲得。

2) 策略網絡:用一個神經網絡對函數進行模擬,這個網絡叫做策略網絡,其參數為

3)函數:又叫performance objective,用來衡量一個策略的表現,針對off-policy學習的場景,定義函數為:

(4)

式(4)中:是基于agent的behavior策略產生的狀態;是它的分布函數;(,())表示在不同的狀態下,都按照策略選擇action時,能夠產生的值。即()是根據分布時(,())的期望值。

4) 策略梯度的定義:表示performance objective的函數針對的梯度。

5) 動作值函數:也稱action-value函數。在狀態下,采取動作后,且如果持續執行策略情況下,所獲得的期望值,定義為:

(,)=[(,)+(+1,(+1))]

(5)

在RL訓練過程中,為了探索潛在的更優策略,為action的決策機制引入隨機噪聲:將action的決策從一個確定性過程變為一個隨機過程,再從這個隨機過程中采樣得到action,下達給環境執行,將這個策略叫做behavior策略,用來表示,這時RL的訓練方式叫做異步策略(off-policy)。因為Uhlenbeck-Ornstein(UO)隨機過程的隨機噪聲在時序上具備很好的相關性,可以使agent很好地探索環境,因此本文在DDPG中,使用Uhlenbeck-Ornstein(UO)隨機過程進行訓練。β策略如圖2所示。

圖2 β策略示意圖

DDPG在進行網絡訓練過程中,只需要訓練和更新Actor 和Critic中的eval網絡參數,每隔一定時間后,再通過softupdate算法更新target網絡的參數,更新過程如下:

(6)

式(6)中:為target網絡參數;是eval網絡參數;值一般取0001。

在計算更新Critic網絡參數時,定義Critic網絡的損失函數為均方誤差 (MSE),即:

(7)

式(7)中,將定義為:

=+′(+1,′(+1|)|)

(8)

式(8)中:′是critic中target網絡的參數;′是Actor中target網絡的參數。可以將看作為“標簽”,在訓練時,通過back-propagation算法進行網絡參數的更新。

在計算Actor的策略梯度時,采用off-policy的訓練方法時,策略梯度為:

()[▽(,|)|=()·▽(|)]

(9)

策略梯度是根據分布時▽·▽的期望值。使用蒙特卡洛算法來估算▽·▽的值。在經驗儲存機構中存儲的(transition)狀態轉移信息<,,,′>是基于agent的behavior策略產生的,它們的分布函數為。所以當從replay memory buffer中隨機采樣獲得mini-batch數據時,根據蒙特卡羅方法,使用mini-batch數據代入上述策略梯度公式,可以作為對上述期望值的一個無偏估計 (un-biased estimate)。因此,策略梯度為:

(,)|=)

(10)

DDPG的算法偽代碼表示為:

DDPG

Randomly initialize critic network(,|) and actor(,) with weightsand

Initialize target network′ and′ with weights,

Initialize replay buffer

episode=1,

Initialize a random processfor action exploration

Receive initial observation state

=1,

Select actionaccording to the current policy and exploration noise

Execute actionand observe rewardand observe new state+1

Store transition (,,,+1) in

Sample a random mini-batch oftransitions (,,,+1) from

Set=+′(+1,′(+1|)|)

:

:

(,)|=)

Update the target network:

3.2 無人機路徑規劃算法模型

無人機自身狀態包含當前時刻的速度矢量(uav,,uav,)和在環境中的坐標位置(uav,,uav,)。環境狀態包含了環境中個威脅區的坐標位置、威脅半徑和目標的坐標位置。其中第個威脅區的坐標位置和威脅半徑分別表示為(,,,)和,第個目標的坐標位置可以表示為(,,,)。

在DDPG算法中,無人機的狀態包括了自身的狀態和環境狀態。無人機在時刻的狀態定義為(uav,,uav,,uav,,uav,,,,,,,,,,)。

(11)

無人機的動作輸出受到最小轉彎半徑的約束,如果不符合約束條件,則被視為不合理動作輸出,需要進行重新選擇。

無人機路徑規劃的獎勵函數設計如下:

1) 規避威脅區獎勵,當無人機進入威脅區后,會被給予一個負獎勵。即=-1,<,其中為無人機與威脅區中心的距離,為威脅區的威脅半徑。

2) 為了在開始訓練時,能夠準確地引導無人機的動作選擇,并且讓無人機每一步都擁有一個密集獎勵,在這里設計了一個距離獎勵,計算每一時刻無人機與目標的最近距離,以距離的負值作為獎勵值,距離越近,獎勵值越大。即=-,其中是無人機與目標的最近距離。最終無人機的獎勵函數設計為:

=+

(12)

式(12)中,為距離獎勵權重。

4 實驗與分析

初始化仿真環境,包含無人機的初始位置、目標的位置和9個威脅區的分布情況。具體初始環境如圖3所示。

圖3 初始環境示意圖

圖3中紅色三角形表示無人機初始化位置,紅色圓形代表威脅區,紫色圓形代表目標位置。無人機需要規避威脅區并順利到達目標位置。

圖4為無人機訓練時的獎勵變化曲線。橫坐標表示訓練的回合數(episodes),縱坐標表示每一回合訓練時無人機的累計獎勵。由圖4可以看出,隨著訓練次數的增多,獎勵的絕對值減小,但是獎勵逐漸增大,總體呈收斂趨勢。

圖5為DDPG算法經過訓練后得到的無人機路徑規劃軌跡曲線。由圖5可以看出,無人機在躲避了所有的威脅區的同時到達了目標區域。

圖4 訓練獎勵變化曲線

圖5 規劃軌跡曲線

5 結論

進行了基于DDPG無人機路徑規劃問題的研究。闡述了DDPG算法的原理和特點,設計了無人機路徑規劃任務的獎勵函數,并將DDPG算法和無人機路徑規劃問題相結合,構建了基于DDPG的無人機路徑規劃的算法模型。通過仿真實驗證明,DDPG算法僅需200回合左右便可規避障礙,實現路徑規劃任務,具有較快的收斂速度和學習效率。

猜你喜歡
動作策略
基于“選—練—評”一體化的二輪復習策略
下一個動作
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
動作描寫要具體
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
畫動作
讓動作“活”起來
動作描寫不可少
主站蜘蛛池模板: 一区二区三区毛片无码| av尤物免费在线观看| 啪啪永久免费av| 国产午夜福利在线小视频| 亚洲精品中文字幕午夜| 亚洲欧美不卡中文字幕| 国产拍在线| 呦系列视频一区二区三区| 亚洲精品777| 日本午夜精品一本在线观看| 55夜色66夜色国产精品视频| 国产亚洲欧美另类一区二区| 欧美午夜理伦三级在线观看| 91丝袜乱伦| 国产99久久亚洲综合精品西瓜tv| 精品91在线| 岛国精品一区免费视频在线观看 | 国模视频一区二区| 国产在线观看一区二区三区| 久久一本日韩精品中文字幕屁孩| 全午夜免费一级毛片| 久久这里只有精品免费| 狠狠躁天天躁夜夜躁婷婷| 国产精品观看视频免费完整版| 99久久国产综合精品2023| 全午夜免费一级毛片| 国产SUV精品一区二区| 91成人免费观看| 国内精自线i品一区202| 在线观看国产精品第一区免费| 国产一区二区三区精品欧美日韩| 国产精品成人一区二区不卡 | 91啦中文字幕| 欧洲极品无码一区二区三区| 日韩天堂视频| 网久久综合| 波多野结衣一级毛片| 国产内射一区亚洲| 在线a视频免费观看| 99久视频| 国产在线一区二区视频| 中国国产A一级毛片| 1769国产精品视频免费观看| 色综合婷婷| 亚洲人成影视在线观看| 欧美国产日产一区二区| www精品久久| 亚洲av日韩av制服丝袜| 成年看免费观看视频拍拍| 天堂岛国av无码免费无禁网站| 99草精品视频| 女人18一级毛片免费观看| 精品久久久久无码| 亚洲日本在线免费观看| 伊人久久大香线蕉综合影视| 亚洲人妖在线| 国产区福利小视频在线观看尤物| 国产日本欧美亚洲精品视| 一级毛片基地| 国产精品2| 亚洲AV无码不卡无码| 最新午夜男女福利片视频| 高h视频在线| 精品国产亚洲人成在线| 国产成人夜色91| 日韩av手机在线| 国产哺乳奶水91在线播放| 色综合久久久久8天国| 亚洲日韩AV无码一区二区三区人| 成人午夜网址| 在线看片免费人成视久网下载| 亚洲最大福利网站| hezyo加勒比一区二区三区| 日本欧美视频在线观看| 福利小视频在线播放| 亚洲一区国色天香| 视频二区中文无码| 久久a级片| 五月婷婷激情四射| 欧类av怡春院| 91日本在线观看亚洲精品| 欧美亚洲日韩不卡在线在线观看|