999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DDPG的飛行器智能避障仿真應用研究

2021-07-02 01:57:06張仕充時宏偉
現代計算機 2021年13期
關鍵詞:動作智能環境

張仕充,時宏偉

(四川大學計算機學院,成都610065)

0 引言

飛行器的智能避障指的是在存在障礙物的三維空間環境中,從出發點自主避開多個障礙物體順利達到目標位置的過程。飛行器具有智能避障的能力在無人機導航、農業無人機作業、無人機救援、民航二次雷達監視以及戰場態勢感知決策等場景下具有十分重要的應用意義。

目前,在類似的避障路徑規劃問題中,已經有多種解決算法,例如遺傳算法[1]、蟻群算法[2]等啟發式算法。但是這些算法存在觀察維度低、局部收斂、動作選擇空間離散化以及計算量太大等問題,很難運用在飛行器的智能避障場景下。而強化學習[3]作為機器學習的一個熱門研究領域,其基本思想是通過智能體與環境進行交互,從環境中獲取一定的獎賞值,通過最大化地累計獎賞值并進行學習,從而找到物體到達目標地點的最優策略。其基本過程如圖1所示。飛行器的態勢處于一個連續變化空間中,并且其在三維空間中進行動作選擇的空間也是一個連續空間。傳統的基于值函數的Q-learning[4]和SARSA的強化學習方法解決連續變化空間的問題是通過將狀態動作值離散映射到一個Q表中,而連續動作空間和狀態空間使用Q表進行存取是一種非常耗內存并且低效的一種方式。為了改進使用Q表的缺點,相關研究提出了Deep Q Network(DQN)算法[5],該算法使用神經網絡來對狀態值進行擬合,代替Q表,提高了狀態動作空間映射效率且大大減少存儲占用空間。與前文提到的啟發式算法類似,DQN算法雖然效率更高,但是在面對高維觀察空間里,同樣只能處理離散和低維的動作空間。在飛行器避障等需要連續動作控制的任務下,確定性策略梯度(De?terministic Policy Gradient,DPG)能夠很好地解決連續動作輸出的場景[6],本文結合DQN算法和DPG算法,使用基于演員-評論家算法[7](actor-critic)的深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法[8]應用于飛行器自主避障場景并對其進行仿真實驗。結果表明該算法能夠較好地學習連續動作空間的策略,進而為飛行器智能避障等連續動作控制場景提供一定的指導性意義。

圖1 強化學習基本過程

1 算法原理

在強化學習過程中,智能體和環境在各個時刻進行交互,在每個時刻t,智能體會感知到環境觀測xt,執行一個動作at以及環境獎勵rt,環境被完全觀察到時,st=xt。

一個智能體的行為被定義為策略π,該策略會把狀態映射到動作空間的一個概率分布上π:S→P(A)。在強化學習概念中,算法模型使用狀態空間S,動作空間A=RN,初始的狀態分布p(s1),狀態轉移概率p(st+1|st,at)以及獎勵函數r(st,at)來進行一個馬爾可夫決策過程建模。將行為策略π應用于馬爾可夫過程來定義一個馬爾可夫鏈,用Eπ表示該馬爾科夫鏈的期望值。狀態的總回報定義為:

學習過程的回報取決于策略π。強化學習的目標是學習一種策略,該策略可以使初始狀態Eπ[R1]的期望獎勵最大化。

智能體所獲得的累積回報用狀態動作值函數Qπ(公式2)表示。動作狀態值函數表示在當前狀態s下執行動作a,并且一直遵循策略π到回合結束,在整個過程中智能體所獲得的累積回報。

傳統的強化學習方法中使用Bellman迭代方程求解動作狀態值函數:

如果目標策略是確定的,用函數μ:S←A表示,進一步將上述方程轉化為:

期望僅僅取決于環境,這就意味著能夠通過不同行為策略μ'產生的狀態值轉換樣本來學習Qμ。

Q-learning作為一個常用的離線算法[4],它使用貪婪策略(greedy policy):μ(s)=arg maxaQ(s,a),使用由θQ參數化的函數逼近器,并通過最小化損耗來對其進行優化:

如果直接將Q-learning用于連續的動作空間是不現實的,因為在連續的動作空間找到貪婪策略需要在每一個時間步進行優化,對于大型的、無限的動作空間,優化太慢且實用性不高。

確定性策略梯度算法(Deterministic Policy Gradi?ent,DPG)維護一個參數化動作函數μ(s|θμ),該函數通過將狀態確定性地映射到特定動作來指定當前策略[6]。在DPG的基礎上,結合使用actor-critic方法,其中,critic使用Bellman方程學習,actor網絡參數則通過將鏈式規則應用于公式(4)來更新:

引入非線性函數逼近器(神經網絡)的缺點是收斂性不能得到保證,同時,這樣的逼近器為學習和生成大規模的狀態空間是有必要的。DDPG允許神經網絡來在線學習大規模的狀態和動作空間。將神經網絡用于強化學習的一個挑戰是大多數優化算法都假設樣本是獨立同分布(Independently and Identically Distributed,IID)的,然而當訓練樣本來自于環境中的連續過程時,不能保證樣本具有獨立同分布的性質。

DDPG通過使用經驗重放機制(replay buffer)來解決這些問題。經驗池是一個固定大小且有限的內存R。根據探索策略(exploration policy),狀態轉換樣本采樣于環境和經驗池。當經驗池填滿的時候將會拋棄掉最早存入的樣本。DDPG是一種離線(off-policy)算法,允許算法能夠從一系列不相關狀態轉換樣本中學習。

在很多環境中,算法直接用神經網絡實現Q-learn?ing被證明是不穩定的[9]。因為正在更新的網絡Q(s,a|θQ)也被用于計算目標值yt(見公式6),Q的更新容易不收斂。DDPG算法的解決方式是修改actor-critic和使用軟更新(soft target updates)。DDPG算法模型分別創建了一個actor和critic網絡的副本(Q'(s,a|θQ')和μ'(s|θμ'))。用副本網絡計算目標值,這些目標網絡的權重參數通過跟蹤學習網絡延遲更新:

θ'←τθ+(1 -τ)θ',τ?1。通過這種方式,目標值的改變速度被限制得較慢,由此提高了學習穩定性,使學習動作值函數的相對不穩定的問題更接近于監督學習。DDPG算法的完整描述[8]。

DDPG算法描述:

2 模擬仿真實驗

2.1 狀態空間設計

狀態空間(state observation)在強化學習算法中主要是對現實狀態環境進行描述。在飛行器避障過程中,基本的狀態則包括飛行器的經緯度坐標和高度(lng,lat,hei ght)以及速度(velocity)。實驗中,速度是矢量,此處可以分解成三維坐標上的分速度:(velocitylng,velocity lat,velocity height)。

在仿真實驗中,將經緯度坐標和高度等信息采用三維坐標系表示,將可變環境觀測描述為:

state=[lng,lat,height,velocitylng,velocity lat,velocity height]

以上的觀測為可變環境狀態,除此之外,還有障礙物的屬性,即高度和經緯度坐標,對于障礙物信息的狀態觀測信息,屬于不可變的環境信息。在實驗中,障礙物信息硬編碼在交互環境中,在交互過程中,根據飛行器的狀態給與獎勵或懲罰。

2.2 決策空間設計

決策空間(action space)指的是智能體做能夠采取的動作空間。在飛行器的避障過程中,主要是飛行器的狀態改變。因此決策行為就是改變飛行器的運動速度,結合狀態空間的做法,在智能體做決策時,主要改變的三維立體坐標分速度的變化量,通過這個變化量使得環境的狀態(飛行器的實時狀態)被改變。單步動作表示為:

2.3 環境交互規則

環境是智能體交互的空間,智能體通過與環境交互來得到獎賞值,從而影響智能體的動作。在環境中,主要的部分是定義飛行器如何獲得獎懲的方式以及初始化環境狀態。通過定義和編寫step函數來實現智能體的每一步動作來獲得獎懲值并且改變環境的狀態。在實現中,將動作傳入后,計算新的環境狀態,根據該環境狀態來計算獎勵值的大小:如果智能體已經達到目標位置,則給與較大獎勵值,回合結束;如果智能進去障礙物區域,則給予較大的懲罰值(負的獎勵值),回合結束。除了以上兩種情況,為了讓每一步智能體都有所獎勵,交互環境根據智能體位置和目標點的相對距離來進行獎勵值的計算。假設獎勵值是越大越好,交互環境根據飛行器位置與目標點的相對距離的相反數給獎勵值,流程如圖2所示。

圖2 環境交互規則流程

環境狀態的更新方法如公式(8)、公式(9),飛行器新的速度等于原速度與速度變化量相加。新的坐標等于原坐標與單位時間速度相加。

在飛行器的每一步運行中所得的獎勵值計算方法如式(10)-式(11):

O表示出發點位置,L表示飛行器當前位置,G表示目標點。負值獎勵表示距離目標位置越近,獎勵越大;e表示碰撞障礙物之后獎勵值的懲罰項,為常數。

2.4 實驗

本文的應用背景設定為在三維空間中,飛行器從起始點自主達到目標點范圍。在空間中存在多個障礙物體,當飛行器與障礙物體接觸時任務失敗。算法的訓練目標是不斷調整飛行器的運動屬性,使得飛行器全程均能避過障礙體區域,到達目標點范圍,即可完成任務設定的目標。初始化場景如圖3所示,紅色點為出發點,綠色點為目標點,其他深色長方體為障礙物,他們均在同一直線上。

圖3 初始化場景設定

由算法(表1)實現的DDPG網絡模型結構圖如圖4所示,其中actor、critic、target_actor、target_critic網絡為三層全連接網絡,隱藏層均使用ReLU激活函數,網絡的經驗重放池容量為10000,獎勵折扣系數為0.99,優化器為Adam,學習率(learning rate)為0.01,單次訓練樣本數(batch size)為32。

圖4 DDPG網絡模型結構

2.5 仿真結果分析

仿真實驗通過DDPG算法與同樣是基于連續動作空間選擇的傳統DPG算法進行對比,兩種算法均在同一交互環境中運行。圖5所示為傳統DPG算法的回合累積獎勵變化曲線,圖6所示為DDPG算法的回合累積獎勵變化曲線。縱坐標表示從單個回合開始到結束的回合累積獎勵值,橫坐標表示回合序號。每個回合運行步數為1800步,單步獎勵根據公式(11)計算得出,由于初始狀態的出發點并不在目標點,兩點之間存在初始距離,所以每回合累積獎勵不會為0。

圖5 傳統DPG算法回合累積獎勵

圖6 DDPG算法回合累積獎勵

從回合累積折扣獎勵看來,傳統DPG算法的回合累積獎勵在240回合之前不太穩定,之后穩定在-13800左右;DDPG算法在經過170回合后的回合累積獎勵趨于一個平穩值,在-4000左右,由此一直穩定到所有回合結束。根據公式(11)定義的單步獎勵所積累的回合獎勵也從側面反映了規劃路徑距離和最佳路徑(起始點到目標點直線距離)之間的差距。從圖5、圖6可以看出,傳統DPG算法在240回合之后累積獎勵絕對值比DDPG算法在170回合之后累積獎勵絕對值大。這也體現出傳統DPG算法規劃的路徑與理想最佳路徑之間的最終差距比DDPG算法所規劃路徑的較大。

DPG算法第300回合結束生成的路徑如圖7所示,因為單個回合步數限制,在單個回合結束之后沒有到達目標點位置。DDPG算法在300回合時生成的規劃路徑如圖8所示。從出發點幾乎直線達到目標點,由于三維圖像的視角因素,該路線經過最低障礙物上方,其余障礙物下方達到目標點位置,并不是直線。觸碰到障礙物體時會導致回合結束,不會產生到達目標點的完整路徑。在這兩種生成的路徑規劃圖中,均有一定的走向目標地點的運動趨勢。但是DDPG得益與Q'網絡和μ'網絡的糾正效果以及經驗重放單元,收斂性較為凸出,網絡整體學習效果較高,DDPG算法比傳統的DPG算法在相同的飛行器避障環境下路徑的生成效果較優秀,而且所需要訓練的回合數較少,所以在飛行器智能避障的連續動作控制場景中,DDPG算法具有一定的應用指導價值。

圖7 傳統DPG規劃路徑

圖8 DDPG規劃路徑

3 結語

人工智能的主要目標之一就是利用未經處理的高維傳感數據來解決復雜的任務。強化學習算法DQN的提出,使得機器的智能程度在某些游戲上能夠達到或超越人類的游戲水平。但是DQN主要處理離散低維動作空間。而現實生活場景中,存在了各種各樣的連續控制問題和需求。通過DQN結合用于連續動作選擇的DPG算法,DDPG吸收這兩種算法各自的優勢。相比較傳統的DPG算法,在連續動作控制上,產生了更好的效果。本文基于DDPG的強化學習算法,實現飛行器在空間多障礙體環境中進行智能避障,到達目標地點。飛行器的飛行控制的動作選擇是一個連續的動作空間,該場景和DDPG算法適用場景一致,通過仿真模擬研究,實驗效果較明顯。

猜你喜歡
動作智能環境
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
孕期遠離容易致畸的環境
環境
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
動作描寫要具體
畫動作
主站蜘蛛池模板: 久久99蜜桃精品久久久久小说| 91青草视频| 草逼视频国产| 亚洲成aⅴ人片在线影院八| 欧美日韩综合网| 久久77777| 天天做天天爱天天爽综合区| 久久无码免费束人妻| 国产91导航| 九九九久久国产精品| 婷婷99视频精品全部在线观看| 久久国产拍爱| 波多野结衣中文字幕一区二区| 欧美亚洲香蕉| 精品99在线观看| 精品国产欧美精品v| 国产69精品久久久久妇女| 日韩精品高清自在线| 67194在线午夜亚洲| 国产永久免费视频m3u8| 国产精品女主播| 在线综合亚洲欧美网站| 免费在线a视频| 亚洲三级色| 国产杨幂丝袜av在线播放| 动漫精品啪啪一区二区三区| 72种姿势欧美久久久大黄蕉| 亚洲乱伦视频| 免费观看欧美性一级| 国产91高清视频| 91精品国产自产在线老师啪l| 午夜国产精品视频| 久久频这里精品99香蕉久网址| 国产午夜精品鲁丝片| 亚洲性一区| 欧美午夜视频在线| 国产网站免费看| 人禽伦免费交视频网页播放| 在线观看av永久| 午夜精品久久久久久久无码软件| 国产午夜无码专区喷水| 日韩高清中文字幕| 日韩色图在线观看| 亚洲丝袜中文字幕| 久久99精品久久久久久不卡| 中文字幕 91| 亚洲码一区二区三区| 久久人人97超碰人人澡爱香蕉| 国产乱码精品一区二区三区中文 | 亚洲欧美不卡中文字幕| 青青极品在线| 国产精品无码一区二区桃花视频| 在线播放国产99re| 欧美国产精品不卡在线观看 | 日本高清在线看免费观看| 国产福利微拍精品一区二区| 国产97视频在线| 国产大片喷水在线在线视频| 手机看片1024久久精品你懂的| 91麻豆精品国产91久久久久| 999精品视频在线| 72种姿势欧美久久久大黄蕉| 国产91小视频在线观看| 五月综合色婷婷| 人妻精品久久无码区| 免费不卡视频| 日韩不卡高清视频| 日本五区在线不卡精品| 国产真实自在自线免费精品| 99精品福利视频| 99中文字幕亚洲一区二区| 91亚洲影院| 国产激情在线视频| 天堂av高清一区二区三区| 麻豆精品国产自产在线| 国产美女无遮挡免费视频| 91丝袜美腿高跟国产极品老师| 91在线国内在线播放老师| www.亚洲一区| 免费精品一区二区h| 国产手机在线小视频免费观看| 91麻豆国产视频|