999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

深度強化學習在室內無人機目標搜索中的應用

2020-09-04 03:16:02俊,饒
計算機工程與應用 2020年17期
關鍵詞:動作區域環境

賴 俊,饒 瑞

陸軍工程大學 指揮控制工程學院,南京 210007

1 引言

隨著飛行控制和新型材料等技術的突飛猛進,無人機得到越來越廣泛的發展和應用。無人機已成功應用到不同領域,如環境監測、災后救援、道路交通安全、制造浪漫等[1-2]。無人機體積小,在室內封閉環境下執行目標搜索等任務時更方便,但室內環境、空間結構和障礙物的復雜性和未知性等,要求無人機對環境有較高的感知能力和響應能力[3-4]。強化學習具有自學習和在線學習的特點,能很好地適應未知復雜環境,研究以其為基礎的室內無人機目標搜索具有重要的理論意義和實際應用價值[5-6]。

文獻[7]提出了一種基于改進遺傳算法的無人機航路規劃方法,文中通過改進交叉和變異算子,更快更穩更準地搜索到每一次的最優航線。在該文中起始地到目標間的威脅和障礙事先知道,搜索區域的信息已知。文獻[8]結合動態搜索模式和固定搜索模式,先劃分搜索區域,再對重點子區域進行固定模式搜索覆蓋,并動態搜索其余區域。兩種模式的結合,加快了無人機對任務區域的搜索,并在短時間內能發現更多目標。文獻[9]提出了一種未知環境下基于Q 學習的無人機目標搜索算法,并與基于D-S 證據理論的方法進行對比,仿真結果表明基于Q學習的搜索算法能適應未知環境,較快速率地發現目標。文獻[10]提出基于內在好奇心的目標搜索算法,先利用神經網絡從原始輸入空間中生成特征空間,再在該空間中采樣進行目標搜索,并模擬了機器人手臂與物體相互作用的實驗,結果表明該搜索方法可應用到工程。

目前,傳統用于目標搜索的方法,搜索效率不高,且隨機搜索需對環境有一定的先驗知識[7]。因此引入強化學習來訓練無人機進行目標搜索。強化學習模型由環境(Environment)和智能體(Agent)兩部分組成[11]。Agent憑借“試錯”的方法在與環境的不斷交互中進行學習[12-14]。Agent在當前時刻的狀態下,采取某動作后,轉移到下一時刻狀態;環境接收到該動作后,不會告訴Agent 正確選擇(這點不同于監督式學習),只會給Agent 提供反饋,Agent 根據反饋信息改變自身動作以適應環境。當收到正反饋信息時,Agent 就強化該行為策略,反之,該行為策略執行的概率會降低。在強化學習中,Agent 利用與環境交互得到的獎賞來指導行為,以獲得最大獎勵。但當無人機在室內進行隨機目標搜索時,存在獎勵函數設計難,訓練周期長,并容易陷入局部區域等問題。文中針對強化學習在室內無人機目標搜索中存在的問題,依據好奇心驅動思想,提出了基于空間位置標注的好奇心驅動方法,以此提升無人機學習過程中的內部獎勵,縮小訓練周期,從而盡快完成訓練。并使用Unity 3D 中 的 ML-Agents(Unity Machine Learning Agents)學習插件進行仿真,實驗結果表明了該方法的有效性和可用性。

2 仿真環境和任務介紹

基于Unity 3D平臺對一個太空密閉方艙進行三維仿真,并使用其中的開源插件ML-Agents在模擬環境中訓練無人機[15-16]。ML-Agents包含三個高級組件(如圖1):(1)Learning Environment,包含Unity 場景和所有游戲角色;(2)Python API,包含用于訓練的所有機器學習算法;(3)External Communicator,將 Unity 環境與 Python API連接起來,位于Unity環境中。

圖1 ML-Agent結構圖

圖1 中的Brain 保存了每個Agent 的策略,并返回Agent在每個狀態下應采取的動作。Agent有4個邏輯模塊:(1)CollectObservations(如圖2 和圖3),收集Agents的觀察輸入數據和自身velocity;(2)AgentAction,獲取VisualObservation的輸入值;(3)AgentReset,Agent重置;(4)對Agent進行獎勵設置。

圖2 CollectObservations結構圖

圖3 CollectObservations動作示意圖

太空艙三維仿真圖如圖4,二維平面圖如圖5。仿真環境中共包含12個艙室和3種類型的通道,分別為L型、T字型和十字型。

圖4 太空艙三維環境仿真示意圖

圖5 太空艙平面示意圖

12個艙室見圖中五角星和字母A到K的位置,每個艙室的內部環境和裝飾基本一致,可提升無人機的泛化能力。在通道中設置了兩處高度不一樣的障礙物,分別位于太空艙底部和頂部(見圖5陰影長方形),障礙物可提高無人機的避障能力。

無人機(Agent)在該模擬環境下飛行時,每次從標有五角星的位置開始進行目標搜索,搜索目標每輪隨機出現在位置A到K上。在飛行過程中,當撞到太空艙內壁和設置的兩處障礙物,或長期停留在某塊區域內時,此輪任務失敗,需重新開始新一輪訓練;無人機憑借自身的雷達探測裝置,尋找目標完成任務,得到獎勵。

在模擬的太空艙環境下,單架無人機從固定位置開始搜索單目標,目標每次在11 個位置隨機出現。艙內狹長“胡同”較多,無人機易陷入該類局部區域,因此要求無人機在走到“胡同”底部時,接受最少的懲罰跳出該區域并繼續探索;設置的兩處高低障礙物,無人機很容易將它們誤認為是“死胡同”,從而停止對前方的探索。無人機通過自身雷達感知收集觀察數據,探測過程中應盡量保持機身平穩,避免陡升陡降,減少數據誤差,傳感器的性能在一定程度上影響搜索效果。

3 基于深度強化學習的室內無人機目標搜索

3.1 PPO算法

深度強化學習算法很多,文中采用的是近端策略優化(Proximal Policy Optimization,PPO)算法,該算法結合了Q-Learning 和深度學習的優勢[9],是一種基于策略梯度(Policy Gradient)的異策略(off-policy)學習算法。與TRPO(Trust Region Policy Optimization)算法相比,TRPO算法新增了一個約束條件,讓新策略和舊策略的差異性(用KL 散度衡量)小于δ,但該帶約束的TRPO算法求解復雜。PPO 算法將約束作為目標函數的正則化項,降低了算法求解難度。PPO 算法采用截斷(clip)機制,目標函數如下[17]:

其中,rt(θ)= pθ(at|st)pθ_old(at|st),為新舊策略的概率比,上式說明新策略不會因遠離舊策略而獲益[17]。當?>0時,若rt(θ)>1+ε,則Lclip(θ)取到上限值 (1+ε)?;當?<0 時,若rt(θ)<1-ε,則Lclip(θ)取到下限值 (1-ε)?。

3.2 好奇心驅動模型

由于無人機是在室內封閉空間下進行飛行訓練,容易發生碰壁或長時間困在一個局部小區域內無法飛出,從而不能完成任務。此時,引入好奇心,可以打破這種僵局,好奇心可以讓Agent勇敢進入陌生環境去尋找目標。因此,Agent 在搜索目標的同時,還要對環境進行探索。

好奇心激勵函數,是在給定狀態st和動作at,Agent對狀態st+1的預測差,即:

函數φ是針對狀態的編碼函數。可由另一前向網絡產生,即:

和φ(st+1)相差越大,Agent的好奇心越強。

在一個復雜環境中,存在很多無關特征,Agent需要找到特征空間。自監督預測包括前向編碼和逆動力學模型兩個模塊[18],前者將狀態st編碼成φ(st),后者用連續時刻的φ(st)和φ(st+1)來預測時刻t的動作at,而常規操作是用st和at預測st+1。該模型可有效提取有影響特征,過濾無用特征,因而能極大減少學習時間,提升學習效率。提取特征空間,表達為:

深度強化學習的目標是找到使得獎勵期望達到最大化的策略[20-21],即:

綜合好奇心激勵函數和特征空間的選擇,得到最終的優化目標:

為滿足好奇心,要最大化預測差Lp_s,即實現下一狀態的現實和預測脫節,但對動作的預測要盡量和實際采取的動作一致,因此要最小化Lp_a,目標函數中的后兩項也可看作是正則化項。

3.3 基于空間位置標注的好奇心驅動方法

無人機在室內飛行探索時,由好奇心激勵其進入未知區域,但無人機不能區分某區域是否被探索過。此時,對周圍環境進行標注和存儲不失為一種好方法。

Savinov N 提出了基于情景記憶的好奇心模型[22]。在該模型中,Agent存儲對環境的觀察結果,并獎勵那些存儲記憶中不存在的觀察結果,使得Agent擁有進入新環境的動力,有效防止其在原地停留或兜圈。

采用正六邊形對探索空間進行劃分,下面描述基于空間位置標注的好奇心驅動方法:

S(h)表示用正六邊形對高度為h的二維空間進行區域劃分,S(h,k)表示第k塊區域,Ts(h,k)為無人機進入第k塊區域的次數,γ1、γ2和γ3分別表示無人機首次和非首次進入某一區域的獎勵和懲罰因子以及找到目標的獎勵因子。文中γ1=0.000 1,γ2=0.01,γ3=4,算法如下:

4 仿真實例

4.1 Agent狀態空間及獎勵規則設置

用無人機不同的位置坐標描述其狀態空間,無人機的動機集合有9 個,分別為前進、后退、左移、右移、左轉、右轉、上升、下降和無動作。動機和動作間映射關系見表1。

表1 無人機動機動作映射表

使用基于空間位置標注的好奇心驅動方法,在二維平面環境下用正六邊形對空間進行劃分,如圖6。

圖6 平面環境下的區域標注示意圖

無人機在搜索過程中,獎勵規則如下:如果無人機進入某一標注區域,該標注區域訪問次數加1,若該區域訪問次數等于1,則無人機獲得獎勵0.000 1 分,若該區域訪問次數大于1,則得到懲罰0.01分,無人機兩次在同一區域,視為無動作,該區域訪問次數依舊加1,并接受懲罰;無人機撞墻或是撞到障礙物,都接受懲罰;為了最快到達搜索目標,無人機每走一步也接受懲罰。無人機獎勵規則見表2。

表2 無人機獎勵規則

4.2 實驗結果及分析

在訓練Agen(t無人機)時,ML-Agents 的參數設置見表3。

表3 ML-Agents訓練參數表

基于TensorFlow 實現訓練工作,訓練完成后,得到的策略(policy)是一個TensorFlow 的模型文件。使用2層且每層隱單元個數為512的神經網絡訓練無人機,優化器使用PPO算法,算法中的截斷系數ε=0.2,memory_size為256,batch_size為128,learning_rate為0.000 3,存儲空間標注信息的buffer_size為2 048,use_curiosity為True,max_steps為1 000 000,Agent 的獎勵由兩部分組成,一個是外部獎勵,完成目標時環境給予4分,另一個是由好奇心決定的內部獎勵,通過為每一個動作提供子獎勵來促使Agent快速完成任務。

調用TensorBoard,可看到Agent的訓練結果,如圖7和圖8。

圖7 平均累積獎勵和內在獎勵

圖8 回合內探索次數和逆向模型損失

由圖7 可知,在訓練期間,每一輪的平均累積獎勵逐漸增加,并最終無限接近于外在獎勵4 分,說明經訓練后,Agent能迅速找到目標,完成任務,獲得外在獎勵;而內在獎勵隨著訓練的推進,呈逐漸下降的趨勢,并趨于零。因為在訓練初期,Agent通過好奇心的內在獎勵,不斷探索環境,內在獎勵發揮較大的作用;Agent在訓練后期已能快速搜索到目標,拿到外部獎勵,內部獎勵的作用隨著訓練次數的增加逐漸減弱并趨零。

由圖8可知,每個回合內的探索次數隨著訓練逐漸減少,說明Agent 逐步學習到了最優的搜索策略,并學習到躲避障礙物,搜索次數越來越少,搜索效率不斷提升,訓練效果好,訓練后能較快較準地找到隨機出現的目標。逆向模型的損失呈逐漸下降的走勢,說明Agent在通過各種類型的通道時,能做出觀測和合理的動作,如在通過十字形通道時,能夠檢查兩側是否存在目標,避免了飛入無目標艙室后進行多余的檢查。

5 結束語

文中使用U3D這樣一個通用游戲引擎搭建了一個復雜的室內無人機飛行環境,使用ML-Agents 實現了TensorFlow 與Agents 的對接,采用PPO+基于空間位置標注好奇心探索的算法展現了一個3D環境下的一個小型無人機如何進行深度強化學習。通過這種可視化的深度強化學習,Agents 學會了在陌生地域搜索隨機目標、避障和調整飛行高度等技能。仿真環境及實驗結果表明,U3D的ML-Agents是一個出色自由的深度強化學習開發平臺,通過學習訓練,無人機在飛行時的平穩保持性、對障礙物判斷的精準性、探索的高效性、執行動作的合理性等各項性能得到顯著提升;相較于傳統的搜索方式,基于空間位置標注的好奇心驅動方法,克服了無人機陷入局部區域的缺陷,有效縮短訓練周期,提升搜索到隨機目標的準確率,編碼量更少,智能水平更高。

猜你喜歡
動作區域環境
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
孕期遠離容易致畸的環境
環境
動作描寫要具體
畫動作
動作描寫不可少
關于四色猜想
分區域
非同一般的吃飯動作
主站蜘蛛池模板: 99久久无色码中文字幕| 亚洲日本中文字幕乱码中文| 四虎精品免费久久| 91外围女在线观看| 国产成人毛片| a毛片免费在线观看| 91精品视频播放| 免费毛片在线| 国产男人的天堂| 在线精品视频成人网| 国产偷倩视频| 亚洲永久色| 国产成人91精品| 欧美三级自拍| 国产麻豆精品在线观看| 国产亚洲视频免费播放| 国产99在线观看| 久久综合五月婷婷| 九九九九热精品视频| 青青青国产免费线在| 福利在线不卡一区| 色丁丁毛片在线观看| a级毛片在线免费| 国产视频只有无码精品| 国产欧美日韩另类精彩视频| P尤物久久99国产综合精品| 手机在线国产精品| 无码有码中文字幕| 国产麻豆精品久久一二三| 欧美高清国产| 97国产一区二区精品久久呦| 色老二精品视频在线观看| 国产毛片不卡| 亚洲男人天堂网址| 日日拍夜夜操| 中文字幕免费视频| 久久人体视频| 国产精品一区二区国产主播| 一级毛片不卡片免费观看| 在线网站18禁| 欧美激情网址| 午夜啪啪网| 首页亚洲国产丝袜长腿综合| 久久99这里精品8国产| 国产一区免费在线观看| 黄色污网站在线观看| 欧美国产精品不卡在线观看| 香蕉网久久| 黄色网址手机国内免费在线观看| 欧美一区二区精品久久久| 国产综合欧美| 国产白浆视频| 精品无码国产自产野外拍在线| 亚洲欧美日本国产综合在线| 毛片最新网址| 国产欧美日韩18| 91在线无码精品秘九色APP | 国产精品久久久精品三级| 久久久久亚洲Av片无码观看| 国产免费a级片| www.亚洲色图.com| 国产成人精品一区二区免费看京| 成人久久精品一区二区三区| 67194亚洲无码| 无码在线激情片| 亚洲国产日韩欧美在线| 最新国产在线| 毛片免费高清免费| 色色中文字幕| 国产一级裸网站| 污视频日本| 亚洲精品综合一二三区在线| 国产在线观看第二页| 97精品国产高清久久久久蜜芽| 1024你懂的国产精品| 欧美中文一区| 亚洲色无码专线精品观看| 中文毛片无遮挡播放免费| 一本大道视频精品人妻 | 中文字幕va| 精品一区二区三区自慰喷水| 伊人无码视屏|