999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的腿式機器人運動控制與決策研究

2021-07-28 05:30:35侯遠韶
科技創新導報 2021年3期
關鍵詞:深度學習

侯遠韶

DOI:10.16660/j.cnki.1674-098x.2011-5640-9053

摘? 要:傳統的腿式機器人在未知環境中進行運動控制和路徑規劃時收斂速度慢,路徑不夠優化具有一定的局限性,無法滿足運動控制系統對實時性和精確度的要求。針對這一情況,將深度學習的學習能力與強化學習的決策能力有機地結合起來,利用深度學習具有自動特征提取和深度結構的學習優勢,以及強化學習在閉環學習系統中對未知環境進行探索、反饋再探索魯棒性強的特點,從而解決機器人在運動控制中的復雜序貫決策得到最優路徑規劃,最終實現腿式機器人合理的運動控制與決策。

關鍵詞:深度學習? 強化學習? 運動控制? 路徑規劃

中圖分類號:TP391.4? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2021)01(c)-0111-04

Research on Motion Control and Decision of Legged Robot? ? ?based on Reinforcement Learning

HOU Yuanshao

(Department of Mechanical and Electrical Engineering, Henan Industry and Trade Vocational College, Zhengzhou ,Henan Province, 451191, China )

Abstract: Traditional legged robots converge slowly when performing motion control and path planning in an unknown environment, and the path is not optimized enough to have certain limitations, and cannot meet the real-time and accuracy requirements of the motion control system. In response to this situation, the learning ability of deep learning and the decision-making ability of reinforcement learning are organically combined, and deep learning has the advantages of automatic feature extraction and deep structure learning, as well as reinforcement learning to explore unknown environments in a closed-loop learning system. The feedback explores the characteristics of strong robustness, so as to solve the complex sequential decision-making of the robot in the motion control to obtain the optimal path planning, and finally realize the reasonable motion control and decision-making of the legged robot.

Key Words: Deep learning; Reinforcement learning;? Sport control;? Route plan

1? 強化學習

1.1 強化學習原理及系統組成

機器學習算法作為人工智能算法的核心,包含了有監督、無監督以及強化學習算法。其中強化學習算法作為一種典型的序貫決策問題對無訓練樣本數據具有很大的優勢,通過求解輸入輸出之間的最優解來解決優化問題,是一種對控制策略進行優化的框架。強化學習作為一種學習算法通過模擬人的學習方式,利用已知的環境數據,不斷優化自身的決策,實現收益的最大化,最終得到準確的位置判斷和決策控制[1]。標準的強化學習主要受環境狀態、動作、探索率以及狀態轉移模型等8個因素的影響[2]。

1.2 深度學習與強化學習

深度學習作為典型的機器學習算法也稱為深層結構學習,通過對原始數據進行逐級提取從而得到抽象的高層表征[3]。深度學習利用分層抽象的思想處理復雜的高維數據,得到具有典型代表性的機器學習有效特征,同時深度學習可以利用網絡中任意一層的輸出數據作為特征的表達,進而實現特征提取與轉換,并反饋給高層數據,繼而得到更加復雜抽象的特征[4]。

強化學習算法主要通過對人類學習的心理學以及控制理論中路徑規劃的最優控制分析,獲得知識進而改進策略以適應復雜多變的環境[5]。主要分為模型已知的強化學習算法和模型未知的強化學習算法,兩種算法都需要通過環境交互得到信息,不同之處在于其中模型已知的強化學習算法可以利用已知模型對值函數進行計算,進而得到不同控制策略下的最佳輸出結果,主要代表算法有價值迭代算法和策略迭代算法;模型未知的強化學習算法,不依賴精確的模型,具有很好的適應能力,通過比較利用與探索問題進而得到最優策略,主要代表算法有時序差分算法和DQN算法[6]。強化學習具體流程如圖1所示。

1.3 深度強化學習與路徑規劃

傳統的路徑規劃算法以及運動控制策略可以實現基本的路徑規劃和避障運動,但面對快速移動的障礙物和復雜背景時往往出現規劃效率不高、收斂速度慢等問題。另一方面,對于腿式機器人來說不管是要進行避障還是路徑規劃,對周邊環境信息的感知是第一步,因此通過深度強化學習強大的決策能力和感知能力,通過對外部環境數據進行感知,進而分析決策,最終將已知的原始高維數據轉化為末端的控制機制。

雖然強化學習在智能控制系統中得到了很大應用,很好地結合了運籌學、控制以及其他學科,為強化學習融入人工智能領域奠定了基礎。但是由于路徑規劃數據具有隨機性和依賴于傳感器獲取外部數據,具有一定的時延性,且沒有既定的標準和模型可以依賴,因此強化學習存在初期學習時對策略的探索比較依賴,后期側重對最優化的求解而忽略對新策略的尋找,具有一定的局限性。因此,強化學習需要在維數求解、對模型的收斂速度、對已知和未知問題的研究現狀以及時間信度分配的問題進行研究。

2? 腿式機器人運動控制

2.1 路徑規劃算法

傳統的路徑規劃算法可以分為局部路徑規劃和全局路徑規劃,全局路徑規劃針對環境完全已知代表算法有粒子群算法、遺傳算法和A*算法;局部路徑規劃針對外部環境未知或者只有部分已知環境信息,通過傳感器實時感知外部數據代表算法有動態窗口算法以及人工勢場法。傳統的路徑規劃算法作為典型的慎思框架,首先需要通過對外部環境進行感知繼而建立規劃模型,然后做出運動策略,最后實現運動,在這一過程中難以對突變環境作出應對,速度慢、同時容易陷入局部最優而非全局最優,因此具有一定的局限性[7]。深度強化學習具有強大的自我學習能力和感知能力,可以實現腿式機器人的運動控制與路徑規劃,只需要對最終軌跡目標進行確定,而無需對其進行主動參與,就可以實現機器人與外部環境的交互,進而對網絡模型進行訓練,最終實現路徑的合理規劃以及運動控制和決策[8]。經典的路徑規劃算法如圖2所示。

2.2 腿式機器人步行策略

腿式機器人具有非線性、多自由度以及多驅動模式等特點,具有較多的不穩定因素因此建立合適的動力學模型是腿式機器人步行策略必不可少的步驟。傳統的腿式機器人步行策略通過對步態設計以及模型運用,實現機器人行走的穩定性以及路徑規劃,主要分為動態步行策略和靜態步行策略。動態步行策略,通過分析機器人的運行速度以及質心,將運動問題簡化,生成關節軌跡,進而利用逆運動方程進行反向求解步態軌跡,對模型的精度要求較高;靜態步行策略,通過對步行過程中的重心投影計算得到其步態軌跡,如果其重心投影一直在支撐的區域內,那么其步態具有一定的穩定性但速度較慢。因此,腿式機器人步行策略需要建立物理模型以避免動力模型中參數的理想化假設與實際行走運動存在的誤差,最終實現腿式機器人的運動控制以及及時避障。

2.3 深度強化學習的運動控制

傳統的強化學習算法雖然能夠在一定程度上對簡單的目標運動控制和路徑規劃作出分析判斷,但面對復雜環境和快速移動的障礙物時,傳統的強化學習方法往往難以應對。而另一方面,由于移動機器人的運行環境復雜多變,目標和障礙物受各種因素的影響,具有不確定性,因此將強化學習的決策能力與深度學習擅長對事物表征特點結合起來,進而提高算法對未知環境的求解,繼而得到準確的數據輸出與路徑規劃。

在進行深度強化學習的運動控制時,需要考慮以下問題:由于深度強化學習善于對像素類數據進行處理,而非圖像數據缺乏相應的特征信息因此處理能力不足;同時在缺乏全局信息的情況下,機器人無法對外部環境做出全局判讀,進而導致決策數據波動,值函數的收斂性能不好,難以有效實現運動控制。基于此,需要在原始的深度強化學習基礎上進行改進,主要包括對傳感器采集的數據進行降維處理,記憶網絡進行長短時設計以及改進獎賞函數和經驗回放。

3? 基于深度強化學習的運動控制與決策設計

3.1 避障策略

移動機器人在進行路徑規劃與運動控制時,不可避免要進行避障策略的研究。移動機器人通過外部傳感器感知器路徑規劃過程中存在的動態或靜態干擾因素,繼而改變規劃選擇新的路徑,最終到達終點。移動機器人避障一方面依賴于傳感器獲取外部數據,常見的傳感器有超聲波測距儀、紅外測距儀、激光以及視覺傳感器;另一方面,則依賴于避障算法,常見的避障算法有基于向量場直方圖(VFH)、勢場法(PFM)、模糊邏輯以及神經網絡等,模糊邏輯的核心在于模糊控制器的訓練,而神經網絡方法在于訓練模型的建立,這些方法雖然可以對大部分的障礙物作出合理判斷,但不具有普遍適用性。基于強化學習的避障策略是一個反復迭代的過程,這種算法只有一個值函數數據,通過多次迭代,實現兩個問題的循環往復即由已知策略求解值函數,再根據值函數優化策略,直到全局最優解的出現。具體流程為設計狀態空間,繼而對離散動作數據進行優化,獎賞函數的選擇、動作策略規劃,最終進行深度網絡結構設計。

3.2 結論及仿真

由于深度強化學習需要多次迭代,對計算機硬件要求較高,因此搭建仿真環境需要合適的仿真工具以及軟硬件設備,本文采用ROS Kinect操作系統作為機器人框架,仿真環境則采用開源的Gazebo9.0;硬件則采用64G內存,20G顯存,CPU則采用因特i7處理器,主頻為3.2G。為了減少系統的運行時間,通過將路徑規劃模型加速計算,使代碼運行速率加快,進而提高仿真運行速率。最后通過對大量實驗數據結果進行分析可知,基于強化學習的腿式機器人運動控制與決策,收斂速度快,路徑規劃具有較高的成功率,在面對復雜多變的外部環境時,可以很好地進行避障運動,進而實現高精度的運動控制與決策。

參考文獻

[1] 劉全,翟建偉,章宗長,等.深度強化學習綜述[J]. 計算機學報, 2018,41(1):1-27.

[2] 高陽,陳世福,陸鑫.強化學習研究綜述[J].自動化學報,2004,30(1):86-100.

[3] 付如彬,李亮,徐成,等.基于強化學習的仿生機器魚節能研究[J].北京大學學報.自然科學版,2019, 55(3):12-17.

[4] 董培方,張志安,梅新虎,等.引入勢場及陷阱搜索的強化學習路徑規劃算法[J].計算機工程與應用, 2018(1):129-134.

[5] 吳曉光,劉紹維,楊磊,等.基于深度強化學習的雙足機器人斜坡步態控制方法[J].自動化學報,2020:73-78.

[6] 張自東,邱才明,張東霞,等.基于深度強化學習的微電網復合儲能協調控制方法[J]. 電網技術,2019, 43(6):1914-1921.

[7] 吳保勝, 郭宇, 王發麟,等. 基于改進蟻群算法的線纜路徑規劃技術研究[J]. 計算機工程與應用, 2018,54(10):236-241.

[8] 王志中.基于改進蟻群算法的移動機器人路徑規劃研究[J].機械設計與制造,2018,323(1):248-250.

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 在线无码av一区二区三区| 丰满人妻久久中文字幕| 四虎影院国产| 亚洲色图在线观看| 又粗又大又爽又紧免费视频| 久久精品人人做人人| 玩两个丰满老熟女久久网| 久热99这里只有精品视频6| 污视频日本| 成年人免费国产视频| 国产在线观看91精品| 国产女人喷水视频| 不卡无码网| 人人91人人澡人人妻人人爽 | 国产白浆视频| 午夜无码一区二区三区| 欧美精品成人| 国产一区二区三区精品久久呦| 国产AV无码专区亚洲A∨毛片| 日本久久网站| 黄色在线不卡| 456亚洲人成高清在线| 亚洲永久视频| 久99久热只有精品国产15| 国产日韩精品一区在线不卡| 国产欧美网站| 黄色三级毛片网站| 69av免费视频| 2020国产精品视频| 老熟妇喷水一区二区三区| h视频在线观看网站| 亚洲欧美在线综合一区二区三区| 中文字幕久久波多野结衣| 在线观看精品自拍视频| 国产成人av一区二区三区| 国产精品久久自在自线观看| 在线视频亚洲色图| 丁香六月综合网| 丰满人妻一区二区三区视频| 国产精选自拍| 婷婷亚洲视频| 成人久久18免费网站| 亚洲天堂免费观看| 国产欧美日韩视频一区二区三区| 国产中文一区a级毛片视频| 色精品视频| 91成人在线观看视频| 男女男精品视频| 免费aa毛片| 亚洲色图欧美激情| 日韩av高清无码一区二区三区| 国产在线高清一级毛片| 日韩中文精品亚洲第三区| 美女毛片在线| 97青青青国产在线播放| 国产制服丝袜无码视频| 久久国语对白| 在线观看亚洲精品福利片| 精品91自产拍在线| 色综合成人| 久久国产黑丝袜视频| 久久人人妻人人爽人人卡片av| 国产一区二区三区视频| 日韩欧美国产三级| 一本大道AV人久久综合| 久久久久国色AV免费观看性色| 日韩欧美网址| 人妻21p大胆| 五月天丁香婷婷综合久久| 中文字幕天无码久久精品视频免费| 欧美劲爆第一页| 国产SUV精品一区二区| 国产午夜福利片在线观看| 国产精品不卡永久免费| 亚洲精品天堂在线观看| 亚洲不卡影院| 国产一在线观看| 午夜视频免费试看| 国产成人精彩在线视频50| 欧美日韩专区| 在线观看无码a∨| 美女裸体18禁网站|