999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習的工業機器人避障路徑規劃方法

2022-02-11 11:47:00李文彪
制造業自動化 2022年1期
關鍵詞:規劃動作方法

李文彪

(廣州華商學院數據科學學院,廣州 510535)

0 引言

當前工業機器人在各個領域都得到廣泛應用,包括智能巡檢、產品分揀、滅火作業、自動采摘等。工業機器人需要在不同場景下,針對周圍環境信息做出相應行為,完成工作人員下達的指令任務,從而滿足不同領域的需求。避障路徑規劃問題是機器人的研究重點,在工業機器人工作環境中,規劃一條無碰撞路徑,因此,研究工業機器人避障路徑規劃方法,選擇一條最優路徑,提高機器人對工作場景的適應性,具有重要意義[1]。

現階段,國外機器人避障路徑規劃相關研究較為成熟,當機器人工作場景較為簡單時,分析目標點和障礙物對機器人產生的合力,判斷機器人移動軌跡,當機器人工作場景過于復雜時,采用搜索算法,確定機器人最短移動路徑中,所有臨近節點的優先級[2]。國內機器人避障路徑規劃相關研究同樣取得較大進展,利用傳感器獲取障礙物信息,通過網格表示機器人所處的環境,根據蟻群算法、粒子群算法等,建立目標吸引函數,利用自適應學習機制,提高最優避障路徑的選擇概率[3]。

但常規機器人避障路徑規劃方法規劃時間和路徑長度不理想,規劃成功率較低,針對這一問題,結合現有的研究理論,提出基于深度強化學習的工業機器人避障路徑規劃方法。

1 基于深度強化學習的工業機器人避障路徑規劃方法設計

1.1 測定工業機器人障礙距離和障礙方位

分別在工業機器人前方、左側和右側,安裝傳感裝置,探測機器人與障礙物之間的距離方位,獲取周圍環境信息。利用角度探測范圍為0°到360°的電子羅盤,根據地磁場檢測的空間方向矢量,采集機器人運動方位角信息,表達式為:

其中a為機器人方位角,b為高斯白噪聲,A、B分別為水平方向和垂直方向的位置分量。根據式(1),確定機器人的移動方向,將移動方向與障礙物的夾角,作為機器人和障礙物之間的方位角E。利用超聲波傳感器測定障礙距離,當發射波遇到障礙物時形成反射波,通過發射換能器進行接收。考慮超聲波傳感器分布在機器人不同方位,包括前方、左側和右側,針對這一情況,判斷傳感器和機器人位置存在偏差,為此,通過坐標轉換,確保傳感器的測定距離能夠直接表示機器人位置。設機器人坐標系為X1Y1Z1,全局坐標系為X2Y2Z2,傳感器在X1Y1Z1中的位置為(x1,y1),(x1,y1)與X1Y1Z1橫坐標的夾角為C,c時刻的機器人位姿為(x(c),y(c) C(c)),對(x1,y1)進行位置變換,包括旋轉和平移等,得到X2Y2Z2中的傳感器坐標(x2(c),y2(c)),表達式為:

分析超聲波測距原理,根據周圍環境信息(x2(c),y2(c)),定位機器人,機器人與障礙物之間的最短距離D計算公式為:

其中d為X2Y2Z2原點到障礙物的垂直距離[4]。采用卡爾曼濾波融合算法,融合機器人和最近障礙物的方位信息E和距離信息D。至此完成工業機器人障礙距離和障礙方位的測定。

1.2 定義工業機器人避障決策獎賞函數

建立工業機器人狀態空間和動作空間,狀態空間包括距離和方位,計算機器人每個避障決策的獎賞值。將機器人移動方向與目標點的夾角,作為機器人和目標點的方位角f。計算機器人與目標點的距離F,公式為:

其中G為X2Y2Z2原點到目標點的垂直距離。把數據E、D、f、F實時傳輸至機器人控制模塊,獲得機器人狀態空間信息[5]。根據機器人線速度和角速度,把機器人運動狀態劃分為5種,分別為大幅度右轉、小幅度右轉、直行、小幅度左轉、大幅度左轉,構成機器人避障動作空間。

通過避障獎賞、機器人接近目標點的連續性獎賞,共同組成避障決策獎賞函數,其中連續性獎賞包括機器人與目標方位獎賞、機器人與目標距離獎賞、機器人到達目標獎賞。設機器人朝向目標點的角度范圍為[-g,g],計算機器人執行一個避障動作后,與目標點之間的方位角f',公式為:

其中(H,h)i為第i個運動狀態的動作指令,H、h分別為線速度和角速度。計算機器人與目標方位獎賞I,公式為:

當機器人更朝向目標點,f'

其中F'為機器人執行一個避障動作后與目標點的距離,k為起始點與目標點的距離。當機器人更靠近目標點,F'

避障獎賞僅考慮機器人和障礙物之間的最短距離,設定碰撞閾值為0.3m,當D值小于0.3m,判定機器人處于碰撞障礙物狀態,給予-300的懲罰獎賞值,當D值大于0.3m,判定機器人成功躲避障礙物,獎賞值為正。由于機器人主要運動狀態是前行,前行獎賞值應大于轉彎,小幅度轉彎獎賞值應大于大幅度轉彎。機器人避障獎賞函數K表達式為:

其中i=1表示運動狀態為直行,i=2,3分別表示小幅度右轉、小幅度左轉,i=4,5分別表示大幅度右轉、大幅度左轉。通過式(9),使機器人意識到障礙物危險。由式(6)~式(9),組成工業機器人避障決策獎賞函數,至此完成獎賞函數的定義。

1.3 基于深度強化學習規劃工業機器人最優避障路徑

把傳感器測得的狀態空間信息,包括距離和方位,輸入BP神經網絡,通過深度強化學習,使機器人學習到避障能力,將最大化避障決策獎賞函數作為優化目標,得到最優避障路徑。構建BP神經網絡結構,由于訓練周期、學習率、各個網絡層神經元數量等參數,都影響了BP神經網絡的深度強化學習效果和時間,為此,測試各項參數與深度強化學習性能的關系,選擇使得學習效果和效率最高的各項數據。將BP神經網絡劃分為兩個部分,分別為機器人避障動作估計部分、決策獎賞估計部分,其中避障動作估計部分采用分布式結構,輸入機器人狀態信息,輸出未來時刻應該選擇的5種動作,決策獎賞估計部分采用集中式結構,使用價值估計器,估計避障動作的獎賞值。計算數據E、D、f、F歸一化值,組成輸入BP神經網絡的數據組,輸出下一運動狀態機器人應執行的動作,避障動作包括(H,h)1、(H,h)2、(H,h)3、(H,h)4、(H,h)5。深度強化學習過程如圖1所示。

圖1 最優避障決策深度強化學習流程

先初始化BP神經網絡參數和環境信息,確定機器人未來時刻的避障動作,添加噪聲后形成新的運動狀態,得到避障決策獎賞值,若獎賞值(I+J+L+K)未達到全局最優,更新BP神經網絡參數,重新選擇避障動作,直至獎賞值達到max(I+J+L+K),停止深度強化學習,得到最優避障動作。當機器人成功躲避一個障礙物后,重置環境信息和空間狀態信息,得到下一時刻的最優局部路徑,直至機器人到達目標點,形成全局最優避障路徑。至此完成基于深度強化學習的最優避障路徑規劃,實現工業機器人避障路徑規劃方法設計。

2 實驗測試

將此次設計方法,與基于優化蟻群混合算法的避障路徑規劃方法、基于多傳感器信息融合的避障路徑規劃方法,進行對比實驗,比較三種方法規劃時間、路徑長度、規劃成功率。

2.1 測試場景

搭建工業機器人平臺,選擇bobac工業機器人作為測試對象,該機器人搭載上下兩層控制器,使用全向輪運動,具有電源開關、急停開關、14英寸顯示屏、防跌傳感器、碰撞傳感器。bobac機器人預裝了ROS控制系統,上位機控制器為bobac工控器,具有豐富的傳感器接口,下位機控制器負責實現不同類型的避障動作。

實驗環境為某工廠的寬敞廠房,在廠房內布置障礙物,改變障礙物數量和位置,得到簡單場景和復雜場景。利用柵格地圖表示廠房環境,實驗場景和兩種場景的理論最優避障路徑如圖2所示。

圖2 工業機器人移動環境信息

圖中黑色部分表示障礙物,左上方為bobac機器人移動起始點,右下方為目標點,每一個柵格代表一個運動狀態,機器人移動范圍不能超出場地,且應避開所有障礙物。

2.2 設計方法應用

設計方法選擇RPLIDAR A2電子羅盤,該電子羅盤能夠實現360°全方位掃描,掃描頻率為10Hz~15Hz,測距時間為0.30ms,測距范圍為0.20m~7m,超聲波傳感器選擇S02-UWR型號,測距精度為0.8mm,測量范圍為40mm×30mm×22mm,將電子羅盤和超聲波傳感器經由串口,連接至bobac機器人的下位機控制器。劃分機器人運動狀態,機器人線速度H恒定,當角速度h為-1.5rad/s時,避障動作為大幅度右轉(H,h)4,當h為-0.75rad/s時,避障動作為小幅度右轉(H,h)2,當h為0時,避障動作為直行(H,h)1,當h為0.75rad/s時,避障動作為小幅度左轉(H,h)3,當h為1.5rad/s時,避障動作為大幅度左轉(H,h)5,其中正值表示角速度方向為左,負值表示角速度方向為右。設置BP神經網絡參數如下:訓練總步數為2萬步,每次深度強化學習的步數上限為200步,學習率為0.1。

2.3 測試結果分析

bobac機器人以0.4m/s的線速度移動,三種方法規劃的避障路徑如圖3所示。

圖3 工業機器人避障路徑規劃結果

由圖3可以看出,針對簡單環境和復雜環境兩種場景,設計方法規劃的最優避障路徑,與理論最優避障路徑基本一致。為進一步比較三種方法的優劣,分別在簡單環境和復雜環境下進行200次實驗,比較三種避障路徑的規劃時間、路徑長度、成功率。當bobac機器人成功從起始點到達目標點,沒有碰撞任何障礙物,判斷避障路徑規劃成功,否則判斷避障路徑規劃失敗,統計成功次數Q和失敗次數P,成功率l計算公式為:

三種方法實驗對比結果如表1所示:

表1 規劃時間、路徑長度、成功率實驗對比結果

由上表可知,機器人在簡單場景移動時,設計方向相比另外兩種方法,規劃時間分別減少了7.516s、10.809s,路徑長度分別減少了1.712m、1.809m,規劃成功率分別增加了3.5%、6.0%;針對復雜場景,設計方法規劃時間分別減少了10.114s、14.015s,路徑長度分別減少了1.444m、1.721m,規劃成功率分別增加了4.3%、5.8%,設計方法規劃的避障路徑具有很大優勢,更適合工業機器人執行。

3 結語

此次研究應用深度強化學習,設計了一種工業機器人避障路徑規劃方法,避障路徑的規劃時間、路徑長度、規劃成功率,都明顯優于常規方法。但此次設計方法仍存在一定不足,在今后的研究中,會加入更多的外部傳感器,實時采集環境信息,作為深度強化學習的輸入,進一步提高避障路徑規劃方法對復雜場景的適應性。

猜你喜歡
規劃動作方法
動作描寫要具體
規劃引領把握未來
快遞業十三五規劃發布
商周刊(2017年5期)2017-08-22 03:35:26
畫動作
動作描寫不可少
多管齊下落實規劃
中國衛生(2016年2期)2016-11-12 13:22:16
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
迎接“十三五”規劃
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
非同一般的吃飯動作
主站蜘蛛池模板: 国产成人啪视频一区二区三区| 香蕉综合在线视频91| 免费在线色| 曰韩人妻一区二区三区| 色AV色 综合网站| 奇米影视狠狠精品7777| 91精品国产情侣高潮露脸| 青青青国产视频手机| 东京热高清无码精品| 日韩无码黄色| 亚洲人成在线免费观看| 国产午夜精品鲁丝片| 欧美精品1区| 日韩A级毛片一区二区三区| 日韩a级片视频| 中日韩欧亚无码视频| 欧美成人看片一区二区三区 | 国产真实乱子伦精品视手机观看| 日韩东京热无码人妻| 扒开粉嫩的小缝隙喷白浆视频| 国产精品一区不卡| 国产丰满成熟女性性满足视频| 国精品91人妻无码一区二区三区| 国产av剧情无码精品色午夜| 国产欧美在线观看一区| 亚洲69视频| 国产精品永久在线| 一级全黄毛片| 精品第一国产综合精品Aⅴ| 暴力调教一区二区三区| 日韩精品少妇无码受不了| 国产精品女在线观看| 免费毛片网站在线观看| 日日拍夜夜嗷嗷叫国产| 免费观看无遮挡www的小视频| 国产91丝袜在线播放动漫 | 麻豆国产精品| 久久这里只有精品66| 国产性爱网站| 日韩av在线直播| 国产91高跟丝袜| 亚洲欧美日韩成人高清在线一区| 91网红精品在线观看| 日韩精品欧美国产在线| 久久动漫精品| 中文字幕日韩丝袜一区| 91麻豆精品视频| 免费女人18毛片a级毛片视频| 国产99视频精品免费视频7| 97超级碰碰碰碰精品| 免费在线看黄网址| 国产精品精品视频| 精品国产成人国产在线| 高清大学生毛片一级| 干中文字幕| 国产在线精彩视频二区| 国产白丝av| 国产成年无码AⅤ片在线| 欧美午夜小视频| 狂欢视频在线观看不卡| 无码专区国产精品第一页| 国产精品免费露脸视频| 精品99在线观看| 日本成人一区| 国产成人三级| 国产亚卅精品无码| 欧美国产日产一区二区| 日韩午夜片| 国产亚洲欧美日韩在线一区二区三区| 亚欧美国产综合| 国产精品毛片一区| 制服丝袜在线视频香蕉| 国产黄色爱视频| 无码区日韩专区免费系列| 国产精品99在线观看| 成人亚洲天堂| 人妻一区二区三区无码精品一区| 久久亚洲日本不卡一区二区| 毛片最新网址| 亚洲91精品视频| 日本久久免费| 在线观看国产黄色|