基于強化學習的腿式機器人運動控制與決策研究

2021-07-28 05:30:35侯遠韶

科技創新導報 2021年3期

侯遠韶

DOI：10.16660/j.cnki.1674-098x.2011-5640-9053

摘? 要：傳統的腿式機器人在未知環境中進行運動控制和路徑規劃時收斂速度慢，路徑不夠優化具有一定的局限性，無法滿足運動控制系統對實時性和精確度的要求。針對這一情況，將深度學習的學習能力與強化學習的決策能力有機地結合起來，利用深度學習具有自動特征提取和深度結構的學習優勢，以及強化學習在閉環學習系統中對未知環境進行探索、反饋再探索魯棒性強的特點，從而解決機器人在運動控制中的復雜序貫決策得到最優路徑規劃，最終實現腿式機器人合理的運動控制與決策。

關鍵詞：深度學習? 強化學習? 運動控制? 路徑規劃

中圖分類號：TP391.4? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼：A? ? ? ? ? ? ? ? ? ? 文章編號：1674-098X（2021）01（c）-0111-04

Research on Motion Control and Decision of Legged Robot? ? ?based on Reinforcement Learning

HOU Yuanshao

（Department of Mechanical and Electrical Engineering， Henan Industry and Trade Vocational College， Zhengzhou ，Henan Province， 451191， China ）

Abstract： Traditional legged robots converge slowly when performing motion control and path planning in an unknown environment， and the path is not optimized enough to have certain limitations， and cannot meet the real-time and accuracy requirements of the motion control system. In response to this situation， the learning ability of deep learning and the decision-making ability of reinforcement learning are organically combined， and deep learning has the advantages of automatic feature extraction and deep structure learning， as well as reinforcement learning to explore unknown environments in a closed-loop learning system. The feedback explores the characteristics of strong robustness， so as to solve the complex sequential decision-making of the robot in the motion control to obtain the optimal path planning， and finally realize the reasonable motion control and decision-making of the legged robot.

Key Words： Deep learning; Reinforcement learning;? Sport control;? Route plan

1? 強化學習

1.1 強化學習原理及系統組成

機器學習算法作為人工智能算法的核心，包含了有監督、無監督以及強化學習算法。其中強化學習算法作為一種典型的序貫決策問題對無訓練樣本數據具有很大的優勢，通過求解輸入輸出之間的最優解來解決優化問題，是一種對控制策略進行優化的框架。強化學習作為一種學習算法通過模擬人的學習方式，利用已知的環境數據，不斷優化自身的決策，實現收益的最大化，最終得到準確的位置判斷和決策控制[1]。標準的強化學習主要受環境狀態、動作、探索率以及狀態轉移模型等8個因素的影響[2]。

1.2 深度學習與強化學習

深度學習作為典型的機器學習算法也稱為深層結構學習，通過對原始數據進行逐級提取從而得到抽象的高層表征[3]。深度學習利用分層抽象的思想處理復雜的高維數據，得到具有典型代表性的機器學習有效特征，同時深度學習可以利用網絡中任意一層的輸出數據作為特征的表達，進而實現特征提取與轉換，并反饋給高層數據，繼而得到更加復雜抽象的特征[4]。

強化學習算法主要通過對人類學習的心理學以及控制理論中路徑規劃的最優控制分析，獲得知識進而改進策略以適應復雜多變的環境[5]。主要分為模型已知的強化學習算法和模型未知的強化學習算法，兩種算法都需要通過環境交互得到信息，不同之處在于其中模型已知的強化學習算法可以利用已知模型對值函數進行計算，進而得到不同控制策略下的最佳輸出結果，主要代表算法有價值迭代算法和策略迭代算法;模型未知的強化學習算法，不依賴精確的模型，具有很好的適應能力，通過比較利用與探索問題進而得到最優策略，主要代表算法有時序差分算法和DQN算法[6]。強化學習具體流程如圖1所示。

1.3 深度強化學習與路徑規劃

傳統的路徑規劃算法以及運動控制策略可以實現基本的路徑規劃和避障運動，但面對快速移動的障礙物和復雜背景時往往出現規劃效率不高、收斂速度慢等問題。另一方面，對于腿式機器人來說不管是要進行避障還是路徑規劃，對周邊環境信息的感知是第一步，因此通過深度強化學習強大的決策能力和感知能力，通過對外部環境數據進行感知，進而分析決策，最終將已知的原始高維數據轉化為末端的控制機制。

雖然強化學習在智能控制系統中得到了很大應用，很好地結合了運籌學、控制以及其他學科，為強化學習融入人工智能領域奠定了基礎。但是由于路徑規劃數據具有隨機性和依賴于傳感器獲取外部數據，具有一定的時延性，且沒有既定的標準和模型可以依賴，因此強化學習存在初期學習時對策略的探索比較依賴，后期側重對最優化的求解而忽略對新策略的尋找，具有一定的局限性。因此，強化學習需要在維數求解、對模型的收斂速度、對已知和未知問題的研究現狀以及時間信度分配的問題進行研究。

2? 腿式機器人運動控制

2.1 路徑規劃算法

傳統的路徑規劃算法可以分為局部路徑規劃和全局路徑規劃，全局路徑規劃針對環境完全已知代表算法有粒子群算法、遺傳算法和A*算法;局部路徑規劃針對外部環境未知或者只有部分已知環境信息，通過傳感器實時感知外部數據代表算法有動態窗口算法以及人工勢場法。傳統的路徑規劃算法作為典型的慎思框架，首先需要通過對外部環境進行感知繼而建立規劃模型，然后做出運動策略，最后實現運動，在這一過程中難以對突變環境作出應對，速度慢、同時容易陷入局部最優而非全局最優，因此具有一定的局限性[7]。深度強化學習具有強大的自我學習能力和感知能力，可以實現腿式機器人的運動控制與路徑規劃，只需要對最終軌跡目標進行確定，而無需對其進行主動參與，就可以實現機器人與外部環境的交互，進而對網絡模型進行訓練，最終實現路徑的合理規劃以及運動控制和決策[8]。經典的路徑規劃算法如圖2所示。

2.2 腿式機器人步行策略

腿式機器人具有非線性、多自由度以及多驅動模式等特點，具有較多的不穩定因素因此建立合適的動力學模型是腿式機器人步行策略必不可少的步驟。傳統的腿式機器人步行策略通過對步態設計以及模型運用，實現機器人行走的穩定性以及路徑規劃，主要分為動態步行策略和靜態步行策略。動態步行策略，通過分析機器人的運行速度以及質心，將運動問題簡化，生成關節軌跡，進而利用逆運動方程進行反向求解步態軌跡，對模型的精度要求較高;靜態步行策略，通過對步行過程中的重心投影計算得到其步態軌跡，如果其重心投影一直在支撐的區域內，那么其步態具有一定的穩定性但速度較慢。因此，腿式機器人步行策略需要建立物理模型以避免動力模型中參數的理想化假設與實際行走運動存在的誤差，最終實現腿式機器人的運動控制以及及時避障。

2.3 深度強化學習的運動控制

傳統的強化學習算法雖然能夠在一定程度上對簡單的目標運動控制和路徑規劃作出分析判斷，但面對復雜環境和快速移動的障礙物時，傳統的強化學習方法往往難以應對。而另一方面，由于移動機器人的運行環境復雜多變，目標和障礙物受各種因素的影響，具有不確定性，因此將強化學習的決策能力與深度學習擅長對事物表征特點結合起來，進而提高算法對未知環境的求解，繼而得到準確的數據輸出與路徑規劃。

在進行深度強化學習的運動控制時，需要考慮以下問題：由于深度強化學習善于對像素類數據進行處理，而非圖像數據缺乏相應的特征信息因此處理能力不足;同時在缺乏全局信息的情況下，機器人無法對外部環境做出全局判讀，進而導致決策數據波動，值函數的收斂性能不好，難以有效實現運動控制。基于此，需要在原始的深度強化學習基礎上進行改進，主要包括對傳感器采集的數據進行降維處理，記憶網絡進行長短時設計以及改進獎賞函數和經驗回放。

3? 基于深度強化學習的運動控制與決策設計

3.1 避障策略

移動機器人在進行路徑規劃與運動控制時，不可避免要進行避障策略的研究。移動機器人通過外部傳感器感知器路徑規劃過程中存在的動態或靜態干擾因素，繼而改變規劃選擇新的路徑，最終到達終點。移動機器人避障一方面依賴于傳感器獲取外部數據，常見的傳感器有超聲波測距儀、紅外測距儀、激光以及視覺傳感器;另一方面，則依賴于避障算法，常見的避障算法有基于向量場直方圖（VFH）、勢場法（PFM）、模糊邏輯以及神經網絡等，模糊邏輯的核心在于模糊控制器的訓練，而神經網絡方法在于訓練模型的建立，這些方法雖然可以對大部分的障礙物作出合理判斷，但不具有普遍適用性。基于強化學習的避障策略是一個反復迭代的過程，這種算法只有一個值函數數據，通過多次迭代，實現兩個問題的循環往復即由已知策略求解值函數，再根據值函數優化策略，直到全局最優解的出現。具體流程為設計狀態空間，繼而對離散動作數據進行優化，獎賞函數的選擇、動作策略規劃，最終進行深度網絡結構設計。

3.2 結論及仿真

由于深度強化學習需要多次迭代，對計算機硬件要求較高，因此搭建仿真環境需要合適的仿真工具以及軟硬件設備，本文采用ROS Kinect操作系統作為機器人框架，仿真環境則采用開源的Gazebo9.0;硬件則采用64G內存，20G顯存，CPU則采用因特i7處理器，主頻為3.2G。為了減少系統的運行時間，通過將路徑規劃模型加速計算，使代碼運行速率加快，進而提高仿真運行速率。最后通過對大量實驗數據結果進行分析可知，基于強化學習的腿式機器人運動控制與決策，收斂速度快，路徑規劃具有較高的成功率，在面對復雜多變的外部環境時，可以很好地進行避障運動，進而實現高精度的運動控制與決策。

參考文獻

[1] 劉全，翟建偉，章宗長，等.深度強化學習綜述[J]. 計算機學報， 2018，41（1）：1-27.

[2] 高陽，陳世福，陸鑫.強化學習研究綜述[J].自動化學報，2004，30（1）：86-100.

[3] 付如彬，李亮，徐成，等.基于強化學習的仿生機器魚節能研究[J].北京大學學報.自然科學版，2019， 55（3）：12-17.

[4] 董培方，張志安，梅新虎，等.引入勢場及陷阱搜索的強化學習路徑規劃算法[J].計算機工程與應用， 2018（1）：129-134.

[5] 吳曉光，劉紹維，楊磊，等.基于深度強化學習的雙足機器人斜坡步態控制方法[J].自動化學報，2020：73-78.

[6] 張自東，邱才明，張東霞，等.基于深度強化學習的微電網復合儲能協調控制方法[J]. 電網技術，2019， 43（6）：1914-1921.

[7] 吳保勝，郭宇，王發麟，等. 基于改進蟻群算法的線纜路徑規劃技術研究[J]. 計算機工程與應用， 2018，54（10）：236-241.

[8] 王志中.基于改進蟻群算法的移動機器人路徑規劃研究[J].機械設計與制造，2018，323（1）：248-250.