安全屏障機制下基于SAC算法的機器人導航系統

2023-06-14 07:01:46馬麗新劉磊劉晨

南京信息工程大學學報 2023年2期

馬麗新劉磊劉晨

摘要為了提高移動機器人自主導航系統的智能化水平和安全性，設計了安全屏障機制下基于SAC（Soft Actor-Critic）算法的自主導航系統，并構建了依賴于機器人與最近障礙物距離、目標點距離以及偏航角的回報函數.在Gazebo仿真平臺中，搭建載有激光雷達的移動機器人以及周圍環境.實驗結果表明，安全屏障機制在一定程度上降低了機器人撞擊障礙物的概率，提高了導航的成功率，并使得基于SAC算法的移動機器人自主導航系統具有更高的泛化能力.在更改起終點甚至將靜態環境改為動態時，系統仍具有自主導航的能力.

關鍵詞移動機器人;SAC算法;安全屏障機制;激光雷達;自主導航;Gazebo

中圖分類號

TP242.6

文獻標志碼

收稿日期

2022-06-01

資助項目

國家自然科學基金（61773152）.

作者簡介馬麗新，女，碩士生，研究方向為強化學習、自主體控制.1623406486@qq.com

劉磊（通信作者），男，博士，教授，研究方向為強化學習理論研究與應用、多智能體系統分析與控制.liulei_hust@163.com

1河海大學理學院，南京，210098

0 引言

近幾年，具有自主導航功能的無人車已應用到日常生活中，如無人公交、無人網約巴士、無人配送車等.路徑規劃能力是衡量無人駕駛車輛是否可以自主導航的重要標準.傳統的路徑規劃方法通常需要人為提取特征來獲知環境信息，以完成對環境地圖的繪制、移動機器人的定位以及路徑規劃，但在復雜環境下很難實現.而強化學習［1］不依賴于環境模型以及先驗知識，還可自主在線學習，近年來逐漸成為移動機器人自主導航的研究熱點［2］.

隨著計算機硬件水平的提升，深度學習的任意逼近能力得以更大化地發揮，許多深度學習與強化學習相結合的算法被提出，如深度Q網絡［3］（Deep Q-Network，DQN）、深度確定性策略梯度［4］（Deep Deterministic Policy Gradient，DDPG）等.2018年，Haarnoja等［5-6］針對無模型深度學習算法訓練不穩定、收斂性差、調參困難等問題，提出一種基于最大熵強化學習框架的軟更新行動者-評論家算法（Soft Actor-Critic，SAC）.最大熵的設計使得算法在動作的選擇上盡可能地隨機，既避免收斂到局部最優，也提高了訓練的穩定性.另外，通過在MuJoCo模擬器上一系列最具挑戰性的連續控制任務中與DDPG、每步梯度更新都需要一定數量新樣本的近似策略優化［7］等算法做對比實驗，凸顯了SAC算法性能的高穩定性和先進性.

在路徑規劃領域，基于SAC算法的機器人自主導航相關研究已引起學者的廣泛關注.Xiang等［8］將LSTM網絡融入到SAC算法中用于移動機器人導航，以360°的10維激光雷達信息和目標信息為輸入，輸出連續空間的線速度和角速度，驗證了改進后的算法在訓練過程中平均回合回報（累計回報／累計回合數）的增長速度較快.de Jesus等［9］同樣基于稀疏的10維激光雷達數據，不過激光范圍是正前方180°，以雷達信息、目標方位、動作為網絡輸入，并創建了兩個不同的Gazebo環境，在每個環境中都對SAC、DDPG兩種深度強化學習技術在移動機器人導航中的應用效果做了比較，從導航成功率等方面驗證了SAC算法的性能優于DDPG算法.

移動機器人的安全性在自主導航過程中是不可忽視的.近些年有學者通過在訓練環節增加安全機制，來降低危險動作被選擇的概率，進而促進機器人特定任務的完成.代珊珊等［10］針對無人車探索的安全問題，提出一種基于動作約束的軟行動者-評論家算法（Constrained Soft Actor-Critic，CSAC），將其用于載有攝像頭的無人車車道保持任務上.動作約束具體表現為當無人車轉動角度過大時，回報會相對較小;當無人車執行某動作后偏離軌道或發生碰撞時，該動作將被標記為約束動作并在之后的訓練中合理約束.

基于以上啟發，考慮到SAC算法在移動機器人路徑規劃領域的應用尚未被充分研究，本文以提高機器人自主導航系統的智能化水平和安全性為出發點，設計出一種安全屏障機制下基于SAC算法的機器人導航系統.首先對SAC算法以及仿真平臺Gazebo做了簡單描述.然后搭建導航系統，包括機器人狀態、動作、回報函數的定義以及安全屏障機制的設計.最后在Gazebo中訓練模型，通過靜態環境和動態環境等5組共300回合的對比測試驗證了安全屏障機制在提高導航成功率上的有效性.

4 模型效果測試

4.1 靜態環境

為了多方位探測模型的效果，共進行4組不同的測試，且在每組測試中都將SAC+安全屏障機制模型（SAC+）效果和無安全屏障機制的SAC模型效果做對比.其中，測試1的環境、起點和終點與訓練時的設置相同，測試2相對訓練僅更改了終點，測試3相對訓練更改了起點和終點，測試4的設置與模型訓練時完全不同，不僅將環境變得相對復雜，還改變了起點和終點（圖11）.詳細測試條件配置及兩種模型的成功率對比結果如表4所示.

由表4看出，在測試3中，兩種模型的成功率均為100％，在測試1、2中，SAC+安全屏障機制模型的成功率略高于后者，而在更改了環境的測試4中，SAC+安全屏障機制模型的成功率遠高于SAC模型.

在4組測試中，兩種模型的導航軌跡長度（即動作步數）對比如圖12—15所示（點狀表示該模型在當前回合導航失敗）.在測試1圖12中，SAC+安全屏障機制模型的導航軌跡長度普遍低于SAC模型，而且100個回合無一失敗，驗證了SAC+安全屏障機制模型的高效性和穩定性.在測試2圖13中，兩種模型均有導航失敗的情況，但SAC+安全屏障機制模型失敗次數較少，且在軌跡長度與SAC模型相差不大的情況下波動相對較小，更加體現出前者的穩定性.在測試3圖14中，雖然SAC+安全屏障機制模型和SAC模型均無導航失敗的回合，但是在大多數回合中前者導航的軌跡長度短于后者.在測試4圖15中，兩種模型的效果差距很大，在SAC+安全屏障機制模型50次均導航成功時，SAC模型僅成功導航3次，一定程度上凸顯了前者在新環境的高適用度.

4.2 動態環境

根據表4中的模型測試結果，可以看出安全屏障機制下基于SAC算法的移動機器人自主導航系統在不同的靜態環境中導航成功率均較高.為了更全面地探究訓練模型對不同環境的泛化性以及魯棒性，創建含有靜態和動態障礙物的環境（圖16），再次測試模型的導航效果.

在動態環境圖16中，物體A為動態障礙物，在點（3.5，5.5）與點（4.3，4.7）之間以約0.062 m／s 的速度做勻速直線往返運動（圖16中黃色虛線）.模型測試條件配置及導航成功率如表5所示.由表5可知，本文設計的系統在動態環境中的導航成功率表現雖然不及靜態環境，但仍優于無安全屏障機制的導航系統，表明安全屏障機制在提高導航成功率方面具有積極作用.

圖17為模型導航路徑長度對比（點狀表示該模型在當前回合導航失敗）.其中SAC+安全屏障機制模型在第1、12回合導航的步數多于其他回合，是因為移動機器人為了躲避動態障礙物，選擇了先繞過障礙物B再向終點前進的路徑，體現了該導航系統的靈活性.

5 結論

本文在Gazebo3D仿真平臺構建了基于安全屏障機制和SAC算法的移動機器人自主導航系統，通過靜態和動態環境中的多組對比實驗驗證了安全屏障機制在提高機器人導航成功率方面的有效性.仿真使用的激光雷達只可掃描360°的同一平面信息，因此只有當障礙物相對規則（如長方體形、圓柱形等）時才能比較準確地測出距離信息.未來可通過配置多個不同水平面的雷達或使用更高級的雷達來增大導航系統對障礙物形狀的包容度，使得仿真環境更加貼近復雜的現實場景.

參考文獻

References

［1］ Sutton R S，Barto A G.Reinforcement learning：an intro-duction［J］.IEEE Transactions on Neural Networks，1998，9（5）：1054

［2] 劉志榮，姜樹海.基于強化學習的移動機器人路徑規劃研究綜述［J］.制造業自動化，2019，41（3）：90-92

LIU Zhirong，JIANG Shuhai.Review of mobile robot path planning based on reinforcement learning［J］.Manufacturing Automation，2019，41（3）：90-92

［3] Mnih V，Kavukcuoglu K，Silver D，et al.Playing atari with deep reinforcement learning［J］.arXiv e-print，2013，arXiv：1312.5602

［4] Lillicrap T P，Hunt J J，Pritzel A，et al.Continuous control with deep reinforcement learning［J］.arXiv e-print，2015，arXiv：1509.02971

［5] Haarnoja T，Zhou A，Abbeel P，et al.Soft actor-critic：off-policy maximum entropy deep reinforcement learning with a stochastic actor［J］.arXiv e-print，2018，arXiv：1801.01290

［6] Haarnoja T，Zhou A，Hartikainen K，et al.Soft actor-critic algorithms and applications［J］.arXiv e-print，2018，arXiv：1812.05905

［7] Schulman J，Wolski F，Dhariwal P，et al.Proximal policy optimization algorithms［J］.arXiv e-print，2017，arXiv：1707.06347

［8] Xiang J Q，Li Q D，Dong X W，et al.Continuous control with deep reinforcement learning for mobile robot navigation［C］／／2019 Chinese Automation Congress （CAC）.November 22-24，2019，Hangzhou，China.IEEE，2019：1501-1506

［9] de Jesus J C，Kich V A，Kolling A H，et al.Soft actor-critic for navigation of mobile robots［J］.Journal of Intelligent ＆ Robotic Systems，2021，102（2）：31

［10] 代珊珊，劉全.基于動作約束深度強化學習的安全自動駕駛方法［J］.計算機科學，2021，48（9）：235-243

DAI Shanshan，LIU Quan.Action constrained deep reinforcement learning based safe automatic driving method［J］.Computer Science，2021，48（9）：235-243

［11] Polyak B T，Juditsky A B.Acceleration of stochastic approximation by averaging［J］.SIAM Journal on Control and Optimization，1992，30（4）：838-855

［12] Koenig N，Howard A.Design and use paradigms for Gazebo，an open-source multi-robot simulator［C］／／2004 IEEE／RSJ International Conference on Intelligent Robots and Systems （IROS）.September 28-October 2，2004，Sendai，Japan.IEEE，2004：2149-2154

［13] Quigley M，Gerkey B P，Conley K，et al.ROS：an open-source robot operating system［C］／／ICRA Workshop on Open-Source Software，2009

Robot navigation system based on SAC with security barrier mechanism

MA Lixin1 LIU Lei1 LIU Chen1

1College of Science，Hohai University，Nanjing 210098

Abstract An autonomous navigation system was proposed based on Soft Actor-Critic under the security barrier mechanism to improve the intelligence and security of mobile robot autonomous navigation system.The return function was designed based on distance between the robot and the nearest obstacle，the distance from the target point，and the yaw angle.On the Gazebo simulation platform，a mobile robot with lidar and its surrounding environment were built.Experiments showed that the security barrier mechanism reduced the probability of collision with obstacles to a certain extent，improved the success rate of navigation，and made the SAC-based mobile robot autonomous navigation system have high generalization ability.The system still had the ability of autonomous navigation when changing the origin and destination or even changing the environment from static to dynamic.

Key words mobile robot;soft actor-critic （SAC）;security barrier mechanism;lidar;autonomous navigation;Gazebo