999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

安全屏障機制下基于SAC算法的機器人導航系統

2023-06-14 07:01:46馬麗新劉磊劉晨
南京信息工程大學學報 2023年2期
關鍵詞:移動機器人

馬麗新 劉磊 劉晨

摘要為了提高移動機器人自主導航系統的智能化水平和安全性,設計了安全屏障機制下基于SAC(Soft Actor-Critic)算法的自主導航系統,并構建了依賴于機器人與最近障礙物距離、目標點距離以及偏航角的回報函數.在Gazebo仿真平臺中,搭建載有激光雷達的移動機器人以及周圍環境.實驗結果表明,安全屏障機制在一定程度上降低了機器人撞擊障礙物的概率,提高了導航的成功率,并使得基于SAC算法的移動機器人自主導航系統具有更高的泛化能力.在更改起終點甚至將靜態環境改為動態時,系統仍具有自主導航的能力.

關鍵詞移動機器人;SAC算法;安全屏障機制;激光雷達;自主導航;Gazebo

中圖分類號

TP242.6

文獻標志碼

A

收稿日期

2022-06-01

資助項目

國家自然科學基金(61773152).

作者簡介馬麗新,女,碩士生,研究方向為強化學習、自主體控制.1623406486@qq.com

劉磊(通信作者),男,博士,教授,研究方向為強化學習理論研究與應用、多智能體系統分析與控制.liulei_hust@163.com

1河海大學理學院,南京,210098

0 引言

近幾年,具有自主導航功能的無人車已應用到日常生活中,如無人公交、無人網約巴士、無人配送車等.路徑規劃能力是衡量無人駕駛車輛是否可以自主導航的重要標準.傳統的路徑規劃方法通常需要人為提取特征來獲知環境信息,以完成對環境地圖的繪制、移動機器人的定位以及路徑規劃,但在復雜環境下很難實現.而強化學習[1]不依賴于環境模型以及先驗知識,還可自主在線學習,近年來逐漸成為移動機器人自主導航的研究熱點[2].

隨著計算機硬件水平的提升,深度學習的任意逼近能力得以更大化地發揮,許多深度學習與強化學習相結合的算法被提出,如深度Q網絡[3] (Deep Q-Network,DQN)、深度確定性策略梯度[4](Deep Deterministic Policy Gradient,DDPG)等.2018年,Haarnoja等[5-6]針對無模型深度學習算法訓練不穩定、收斂性差、調參困難等問題,提出一種基于最大熵強化學習框架的軟更新行動者-評論家算法(Soft Actor-Critic,SAC).最大熵的設計使得算法在動作的選擇上盡可能地隨機,既避免收斂到局部最優,也提高了訓練的穩定性.另外,通過在MuJoCo模擬器上一系列最具挑戰性的連續控制任務中與DDPG、每步梯度更新都需要一定數量新樣本的近似策略優化[7]等算法做對比實驗,凸顯了SAC算法性能的高穩定性和先進性.

在路徑規劃領域,基于SAC算法的機器人自主導航相關研究已引起學者的廣泛關注.Xiang等[8]將LSTM網絡融入到SAC算法中用于移動機器人導航,以360°的10維激光雷達信息和目標信息為輸入,輸出連續空間的線速度和角速度,驗證了改進后的算法在訓練過程中平均回合回報(累計回報/累計回合數)的增長速度較快.de Jesus等[9]同樣基于稀疏的10維激光雷達數據,不過激光范圍是正前方180°,以雷達信息、目標方位、動作為網絡輸入,并創建了兩個不同的Gazebo環境,在每個環境中都對SAC、DDPG兩種深度強化學習技術在移動機器人導航中的應用效果做了比較,從導航成功率等方面驗證了SAC算法的性能優于DDPG算法.

移動機器人的安全性在自主導航過程中是不可忽視的.近些年有學者通過在訓練環節增加安全機制,來降低危險動作被選擇的概率,進而促進機器人特定任務的完成.代珊珊等[10]針對無人車探索的安全問題,提出一種基于動作約束的軟行動者-評論家算法(Constrained Soft Actor-Critic,CSAC),將其用于載有攝像頭的無人車車道保持任務上.動作約束具體表現為當無人車轉動角度過大時,回報會相對較小;當無人車執行某動作后偏離軌道或發生碰撞時,該動作將被標記為約束動作并在之后的訓練中合理約束.

基于以上啟發,考慮到SAC算法在移動機器人路徑規劃領域的應用尚未被充分研究,本文以提高機器人自主導航系統的智能化水平和安全性為出發點,設計出一種安全屏障機制下基于SAC算法的機器人導航系統.首先對SAC算法以及仿真平臺Gazebo做了簡單描述.然后搭建導航系統,包括機器人狀態、動作、回報函數的定義以及安全屏障機制的設計.最后在Gazebo中訓練模型,通過靜態環境和動態環境等5組共300回合的對比測試驗證了安全屏障機制在提高導航成功率上的有效性.

4 模型效果測試

4.1 靜態環境

為了多方位探測模型的效果,共進行4組不同的測試,且在每組測試中都將SAC+安全屏障機制模型(SAC+)效果和無安全屏障機制的SAC模型效果做對比.其中,測試1的環境、起點和終點與訓練時的設置相同,測試2相對訓練僅更改了終點,測試3相對訓練更改了起點和終點,測試4的設置與模型訓練時完全不同,不僅將環境變得相對復雜,還改變了起點和終點(圖11).詳細測試條件配置及兩種模型的成功率對比結果如表4所示.

由表4看出,在測試3中,兩種模型的成功率均為100%,在測試1、2中,SAC+安全屏障機制模型的成功率略高于后者,而在更改了環境的測試4中,SAC+安全屏障機制模型的成功率遠高于SAC模型.

在4組測試中,兩種模型的導航軌跡長度(即動作步數)對比如圖12—15所示(點狀表示該模型在當前回合導航失敗).在測試1圖12中,SAC+安全屏障機制模型的導航軌跡長度普遍低于SAC模型,而且100個回合無一失敗,驗證了SAC+安全屏障機制模型的高效性和穩定性.在測試2圖13中,兩種模型均有導航失敗的情況,但SAC+安全屏障機制模型失敗次數較少,且在軌跡長度與SAC模型相差不大的情況下波動相對較小,更加體現出前者的穩定性.在測試3圖14中,雖然SAC+安全屏障機制模型和SAC模型均無導航失敗的回合,但是在大多數回合中前者導航的軌跡長度短于后者.在測試4圖15中,兩種模型的效果差距很大,在SAC+安全屏障機制模型50次均導航成功時,SAC模型僅成功導航3次,一定程度上凸顯了前者在新環境的高適用度.

4.2 動態環境

根據表4中的模型測試結果,可以看出安全屏障機制下基于SAC算法的移動機器人自主導航系統在不同的靜態環境中導航成功率均較高.為了更全面地探究訓練模型對不同環境的泛化性以及魯棒性,創建含有靜態和動態障礙物的環境(圖16),再次測試模型的導航效果.

在動態環境圖16中,物體A為動態障礙物,在點(3.5,5.5)與點(4.3,4.7)之間以約0.062 m/s 的速度做勻速直線往返運動(圖16中黃色虛線).模型測試條件配置及導航成功率如表5所示.由表5可知,本文設計的系統在動態環境中的導航成功率表現雖然不及靜態環境,但仍優于無安全屏障機制的導航系統,表明安全屏障機制在提高導航成功率方面具有積極作用.

圖17為模型導航路徑長度對比(點狀表示該模型在當前回合導航失敗).其中SAC+安全屏障機制模型在第1、12回合導航的步數多于其他回合,是因為移動機器人為了躲避動態障礙物,選擇了先繞過障礙物B再向終點前進的路徑,體現了該導航系統的靈活性.

5 結論

本文在Gazebo3D仿真平臺構建了基于安全屏障機制和SAC算法的移動機器人自主導航系統,通過靜態和動態環境中的多組對比實驗驗證了安全屏障機制在提高機器人導航成功率方面的有效性.仿真使用的激光雷達只可掃描360°的同一平面信息,因此只有當障礙物相對規則(如長方體形、圓柱形等)時才能比較準確地測出距離信息.未來可通過配置多個不同水平面的雷達或使用更高級的雷達來增大導航系統對障礙物形狀的包容度,使得仿真環境更加貼近復雜的現實場景.

參考文獻

References

[1] Sutton R S,Barto A G.Reinforcement learning:an intro-duction[J].IEEE Transactions on Neural Networks,1998,9(5):1054

[2] 劉志榮,姜樹海.基于強化學習的移動機器人路徑規劃研究綜述[J].制造業自動化,2019,41(3):90-92

LIU Zhirong,JIANG Shuhai.Review of mobile robot path planning based on reinforcement learning[J].Manufacturing Automation,2019,41(3):90-92

[3] Mnih V,Kavukcuoglu K,Silver D,et al.Playing atari with deep reinforcement learning[J].arXiv e-print,2013,arXiv:1312.5602

[4] Lillicrap T P,Hunt J J,Pritzel A,et al.Continuous control with deep reinforcement learning[J].arXiv e-print,2015,arXiv:1509.02971

[5] Haarnoja T,Zhou A,Abbeel P,et al.Soft actor-critic:off-policy maximum entropy deep reinforcement learning with a stochastic actor[J].arXiv e-print,2018,arXiv:1801.01290

[6] Haarnoja T,Zhou A,Hartikainen K,et al.Soft actor-critic algorithms and applications[J].arXiv e-print,2018,arXiv:1812.05905

[7] Schulman J,Wolski F,Dhariwal P,et al.Proximal policy optimization algorithms[J].arXiv e-print,2017,arXiv:1707.06347

[8] Xiang J Q,Li Q D,Dong X W,et al.Continuous control with deep reinforcement learning for mobile robot navigation[C]//2019 Chinese Automation Congress (CAC).November 22-24,2019,Hangzhou,China.IEEE,2019:1501-1506

[9] de Jesus J C,Kich V A,Kolling A H,et al.Soft actor-critic for navigation of mobile robots[J].Journal of Intelligent & Robotic Systems,2021,102(2):31

[10] 代珊珊,劉全.基于動作約束深度強化學習的安全自動駕駛方法[J].計算機科學,2021,48(9):235-243

DAI Shanshan,LIU Quan.Action constrained deep reinforcement learning based safe automatic driving method[J].Computer Science,2021,48(9):235-243

[11] Polyak B T,Juditsky A B.Acceleration of stochastic approximation by averaging[J].SIAM Journal on Control and Optimization,1992,30(4):838-855

[12] Koenig N,Howard A.Design and use paradigms for Gazebo,an open-source multi-robot simulator[C]//2004 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).September 28-October 2,2004,Sendai,Japan.IEEE,2004:2149-2154

[13] Quigley M,Gerkey B P,Conley K,et al.ROS:an open-source robot operating system[C]//ICRA Workshop on Open-Source Software,2009

Robot navigation system based on SAC with security barrier mechanism

MA Lixin1 LIU Lei1 LIU Chen1

1College of Science,Hohai University,Nanjing 210098

Abstract An autonomous navigation system was proposed based on Soft Actor-Critic under the security barrier mechanism to improve the intelligence and security of mobile robot autonomous navigation system.The return function was designed based on distance between the robot and the nearest obstacle,the distance from the target point,and the yaw angle.On the Gazebo simulation platform,a mobile robot with lidar and its surrounding environment were built.Experiments showed that the security barrier mechanism reduced the probability of collision with obstacles to a certain extent,improved the success rate of navigation,and made the SAC-based mobile robot autonomous navigation system have high generalization ability.The system still had the ability of autonomous navigation when changing the origin and destination or even changing the environment from static to dynamic.

Key words mobile robot;soft actor-critic (SAC);security barrier mechanism;lidar;autonomous navigation;Gazebo

猜你喜歡
移動機器人
移動機器人自主動態避障方法
移動機器人VSLAM和VISLAM技術綜述
基于改進強化學習的移動機器人路徑規劃方法
基于ROS與深度學習的移動機器人目標識別系統
電子測試(2018年15期)2018-09-26 06:01:34
基于Twincat的移動機器人制孔系統
室內環境下移動機器人三維視覺SLAM
簡述輪式移動機器人控制系統中的傳感器
未知環境中移動機器人的環境探索與地圖構建
極坐標系下移動機器人的點鎮定
基于引導角的非完整移動機器人軌跡跟蹤控制
主站蜘蛛池模板: 国产微拍一区二区三区四区| 91在线日韩在线播放| 国产69精品久久| 2021国产精品自产拍在线| av一区二区三区在线观看| 亚洲精品无码在线播放网站| 香蕉精品在线| 亚洲AⅤ综合在线欧美一区| 国产成年无码AⅤ片在线| 亚洲欧美综合在线观看| 不卡无码网| 蜜臀av性久久久久蜜臀aⅴ麻豆| 国产96在线 | 国产91线观看| 日本黄色不卡视频| 国产小视频免费| 九九香蕉视频| 视频二区亚洲精品| 99热这里只有精品5| 亚洲资源站av无码网址| 91福利国产成人精品导航| 欧美成人手机在线观看网址| 国产91高清视频| 日韩二区三区无| 98超碰在线观看| 精品久久久久久久久久久| 新SSS无码手机在线观看| 日a本亚洲中文在线观看| 波多野结衣一区二区三区AV| 视频二区中文无码| av在线无码浏览| 久久中文字幕2021精品| 亚洲娇小与黑人巨大交| 国产青榴视频| 日本人妻一区二区三区不卡影院 | 国产真实二区一区在线亚洲| 中文字幕亚洲电影| 99re在线视频观看| 日本不卡在线播放| 日韩欧美91| 另类综合视频| 亚洲成人在线免费| 最新亚洲人成无码网站欣赏网| 99久久国产综合精品2023| 国产精品午夜电影| 91久草视频| 国产在线91在线电影| 精品国产亚洲人成在线| 亚洲一区二区三区麻豆| 国产精品99久久久| 一本一道波多野结衣一区二区| 亚洲乱码在线视频| 99热这里都是国产精品| 国产麻豆91网在线看| 国产色婷婷视频在线观看| 国产精品永久在线| 毛片三级在线观看| 亚洲国产精品无码AV| 超碰91免费人妻| 综1合AV在线播放| 国产地址二永久伊甸园| 亚洲成在线观看| 91精品伊人久久大香线蕉| 亚洲婷婷丁香| 四虎永久免费地址| 97超爽成人免费视频在线播放| 在线看国产精品| 亚洲欧美另类色图| 青青久在线视频免费观看| 久久综合色天堂av| 毛片a级毛片免费观看免下载| 国产日产欧美精品| 亚洲福利一区二区三区| 国产精品亚洲а∨天堂免下载| 国产免费黄| 亚洲欧美极品| 亚洲精品无码AV电影在线播放| 99在线视频精品| 国产啪在线| 日本不卡在线视频| 久久久精品无码一二三区| 青青热久麻豆精品视频在线观看|