999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習的機械臂自適應閥門旋擰方法研究

2021-07-25 13:57:20李新茂劉滿祿王基生周祺杰
制造業(yè)自動化 2021年7期
關鍵詞:閥門機械策略

李新茂,劉滿祿,王基生,周祺杰

(1.西南科技大學 制造科學與工程學院,綿陽 621000;2.西南科技大學 信息工程學院,綿陽 621000;3.中國科學技術大學信息科學技術學院,合肥 230026)

0 引言

在以核應急處理處置、核退役等為代表的危險環(huán)境作業(yè)中,采用機器人進行遠程作業(yè)已經被國際社會廣泛認可[1]。針對危險環(huán)境下的閥門旋擰作業(yè),傳統(tǒng)的示教或編程的控制方法的任務適應性差;人工遠程操作亦存在誤操作風險。

針對閥門旋擰作業(yè),國內外學者已經提出了不同的研究策略。使用傳統(tǒng)控制方法,令人形機器人能夠執(zhí)行閥門旋擰任務[2~4]。Ahmadzadeh S R[5]等人在閥門旋擰階段基于力/運動混合控制策略,并采用一種反應決策系統(tǒng)來克服操作過程中的干擾和不確定因素。邢宏軍[6]通過設計專門夾持器并采用基于阻抗控制的主動柔順控制方法克服了閥門旋擰任務中的旋擰側向力問題和軸向位移問題。Fares J等人[7]提出了一種從示例學習的框架,用于檢索時變剛度輪廓,使機器人在閥門操作任務中具有較好的反應。各學者提出的以上方法能夠完成特定的作業(yè)任務,但是存在一些問題:1)適應性差,無法自適應地應對未知環(huán)境可能存在多類型閥門;2)需要針對性設計專門的夾持裝置,才能夠有效開展工作;3)針對典型問題的建模較為復雜。

深度強化學習(Deep Reinforcement Learning,DRL)具有很好的環(huán)境適應性和自我優(yōu)化的特點,在其他應用研究中已經取得了一定的成果,如抓取、開門、折疊衣物[8~11]等等。研究表明,通過分析任務、分解基本動作,利用DRL能夠很好地學習擬合復雜的最優(yōu)控制策略。因此,本文主要針對閥門旋擰作業(yè)任務,提出了一種基于DRL的機械臂控制方法。在已經通過遙操作或視覺引導完成機械臂對閥門夾持的基礎上,討論機械臂如何自適應地完成未知尺寸閥門手輪的旋擰作業(yè)。

1 閥門旋擰問題分析

閥門作為常用的開關控制器,規(guī)格尺寸多樣,如圖1所示。在以核應急處理處置、核退役等為代表的危險環(huán)境作業(yè)中,可能需要對多種規(guī)格尺寸的閥門手輪進行旋擰作業(yè),這對機械臂控制的適應性要求極高。本文直接將上述情況視為旋擰未知規(guī)格尺寸的閥門手輪。其中,夾持方式為使用二指夾持器夾持閥門輪緣,雖然這種方法會導致運動規(guī)劃困難,但能夠保證機械臂的環(huán)境適應能力。另外,默認機械臂夾持器已夾持住閥門輪緣,主要研究機械臂旋擰閥門問題。

圖1 不同規(guī)格尺寸的閥門手輪

2 閥門旋擰算法

為了實現(xiàn)對未知規(guī)格尺寸閥門手輪的旋擰操作,本文基于馬爾科夫決策過程(Markov Decision Processes,MDP)[12]建立閥門旋擰操作模型。采用深度確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)[13],學習閥門旋擰的技能。

2.1 閥門旋擰的馬爾科夫決策過程

為降低算法復雜程度,采用跟蹤貼于閥門輪緣上標簽運動間接實現(xiàn)閥門旋擰的策略。并通過“Eye-in-Hand”手眼系統(tǒng)獲取標簽相對于夾持器的坐標信息。而由于機械臂在旋擰閥門的過程中,夾持器與閥門輪緣是相對靜止的,因此需要對標簽同時進行位置跟蹤和姿態(tài)跟蹤。

1)狀態(tài)空間

閥門旋擰過程的狀態(tài)空間S定義如下。

其中D描述位置跟蹤狀態(tài),L描述姿態(tài)跟蹤狀態(tài)。

位置跟蹤狀態(tài)D式(2)由夾持器中心點P(xp,yp)與標簽點F(xf,yf)之間的距離表示,如圖3所示。由于實際情況下夾持器中心P與標簽點F相對靜止,因此降低標簽點信息更新率的方法,以實現(xiàn)D值的變化。即當夾持器到達上一次更新得到的標簽點信息,再更新標簽點信息。

姿態(tài)跟蹤狀態(tài)L表示方法如下所述。如圖2所示,選取與點P相對位姿不變的一點M,與點P和點F構成三角形。其中邊PM和邊PF是常量,因此邊MF的長度變化可以用于描述姿態(tài)跟蹤狀態(tài)L(式(3))。

圖2 環(huán)境信息描述

其中,l為邊MF的實時長度,l0為邊MF的初始長度。

3)動作空間

本文默認閥門為水平放置,故動作空間為A={αx,αy,ω},其中αx表示沿x軸方向運動,αy表示沿y軸方向運動,ω表示以夾持器中心為旋轉軸做旋轉運動。

4)獎懲函數(shù)

獎懲函數(shù)式(4)的設計主要依據(jù)位置與姿態(tài)的跟蹤狀態(tài),并通過參數(shù)λ,η調節(jié)D值和L值之間的數(shù)量級關系。另外,通過添加階梯函數(shù)φ(D,L)式(5)對閥門旋擰運動進行額外獎勵,加快模型訓練的收斂速度。

其中,單位為毫米。

2.2 閥門旋擰過程中的模型訓練

本文基于DDPG實現(xiàn)對閥門旋擰策略模型的學習訓練。基于DDPG的訓練目標為尋找最優(yōu)網絡參數(shù)θ,使得閥門旋擰策略μ最優(yōu),如圖3所示。

圖3 DDPG算法結構圖

該算法在狀態(tài)st時,根據(jù)策略μ選取動作at式(6),并在動作執(zhí)行后,返回新的狀態(tài)和獎勵(rt,st+1)。策略網絡μ會將(st,at,rt,st+1)存入記憶池(Replay Memory,RM),作為訓練行為網絡的數(shù)據(jù)集。記憶池的使用,可以減少算法的不穩(wěn)定性。

其中,μ為策略函數(shù),θ為策略參數(shù),s為當前狀態(tài)。即狀態(tài)為s時,相同策略的動作是唯一確定的。

網絡訓練時,會從RM中隨機采樣N個數(shù)據(jù),作為行為策略網絡μ、行為價值網絡Q的一個mini-batch訓練數(shù)據(jù),mini-batch中的單個數(shù)據(jù)記為(si,ai,ri,si+1)。

首先依據(jù)式(7)計算行為價值網絡Q的梯度,并更新該網絡。

接下來,使用mini-batch數(shù)據(jù),依據(jù)式(8)計算行為策略網絡μ的策略梯度,并更新該網絡。

目標網絡是行為網絡的拷貝,采用滑動平均的方法對μ'和Q'進行更新如式(9)所示。由于其更新緩慢低幅,能夠使訓練模型計算的值函數(shù)Q在一定程度上減少波動,令計算更穩(wěn)定。

為了加快收斂速度,并避免機械臂發(fā)生劇烈抖動或反方向旋擰,在訓練時作如下設計:一次標簽更新循環(huán)中,若規(guī)定步數(shù)內D大于設定閾值,則令夾持器回到本次循環(huán)起始位置,繼續(xù)訓練。

算法流程如下:

3 實驗仿真

3.1 仿真環(huán)境構建

仿真環(huán)境基于V-rep仿真平臺建立,如圖4所示。使用帶有RG2夾持器的UR5機械臂,動力學引擎為bullet2.83。所提出算法基于Tensorflow框架,部分參數(shù)如表1所示。

表1 網絡參數(shù)設計

圖4 仿真環(huán)境

3.2 訓練結果

訓練過程中所面對的閥門手輪直徑為300mm。所提出算法在訓練過程中累積獎勵R的變化如圖5所示。前10個回合即可快速收斂,在10~80個回合中存在震蕩。第80個回合后,累積獎勵R開始收斂。在第135回合左右,出現(xiàn)劇烈波動,但很快又重新收斂。

圖5 訓練中累積獎勵R變化過程

3.3 測試結果

考慮閥門手輪的尺寸、規(guī)格多樣性,以及仿真環(huán)境中UR5機械臂的工作空間,針對直徑分別為300mm以及200mm、400mm、500mm的閥門手輪進行測試。

基于300mm直徑閥門手輪的測試結果如圖6~圖8及表2所示。其實際軌跡與理論軌跡基本重合,姿態(tài)跟蹤狀態(tài)L最大不超過2mm,因此所提出算法具有較好的運動性能。

圖6 300mm直徑旋擰軌跡

圖7 300mm直徑旋擰軌跡徑向誤差

圖8 300mm直徑旋擰軌跡姿態(tài)跟蹤狀態(tài)L

基于直徑為200mm,400mm,500mm的閥門手輪的測試結果如表2所示。雖然所提出算法是基于單一尺寸規(guī)格的閥門手輪進行訓練,但在閥門手輪尺寸未知的情況下仍然可以旋擰其他尺寸規(guī)格的閥門手輪,表明所提出算法具有較好的適應性。

表2 實驗仿真測試結果

4 結語

針對典型危險環(huán)境作業(yè),本文提出了基于深度強化學習算法的機械臂自適應閥門旋擰方法。詳細分析了閥門旋擰問題,考慮旋擰過程中機械臂與閥門手輪的相對狀態(tài),設計了閥門旋擰操作的馬爾科夫過程。使用DDPG算法尋求最優(yōu)閥門旋擰策略。仿真實驗表明,所提出方法運動性能良好,能夠在閥門手輪尺寸未知的情況下實現(xiàn)對多種閥門手輪的旋擰操作。對在危險環(huán)境中利用機械臂開展閥門旋擰作業(yè),有很高的實用價值。

猜你喜歡
閥門機械策略
美嘉諾閥門(大連)有限公司
裝配式玻璃鋼閥門井的研發(fā)及應用
煤氣與熱力(2021年3期)2021-06-09 06:16:18
調試機械臂
當代工人(2020年8期)2020-05-25 09:07:38
例談未知角三角函數(shù)值的求解策略
我說你做講策略
高中數(shù)學復習的具體策略
簡單機械
機械班長
按摩機械臂
省力閥門瓶蓋
中學科技(2014年11期)2014-12-25 07:38:53
主站蜘蛛池模板: 免费观看男人免费桶女人视频| 手机精品福利在线观看| 婷婷成人综合| 狠狠色丁香婷婷| 国产喷水视频| 麻豆国产原创视频在线播放| 国产成人AV大片大片在线播放 | 亚洲欧洲自拍拍偷午夜色| 青草免费在线观看| 自慰网址在线观看| 久久综合九九亚洲一区| 精品国产成人国产在线| 91精品专区国产盗摄| 国禁国产you女视频网站| 国产乱子伦视频三区| 国产亚洲精久久久久久无码AV| 91久久精品国产| 日韩视频免费| 国产va在线观看| 亚洲一级毛片| 无码日韩精品91超碰| 国产乱人视频免费观看| 亚洲va视频| 国产福利小视频在线播放观看| 国产精品永久在线| 香蕉eeww99国产在线观看| 亚洲一区毛片| 成人va亚洲va欧美天堂| 黄色片中文字幕| 久热re国产手机在线观看| 亚洲精品成人片在线观看| 91精品啪在线观看国产| 免费看美女自慰的网站| 国产尤物视频在线| 午夜毛片免费看| 五月丁香在线视频| 亚洲黄网在线| 在线精品视频成人网| 欧美午夜在线视频| 国产精品30p| 99国产精品一区二区| 亚洲中文字幕无码爆乳| 国产成人精品午夜视频'| 精品视频在线观看你懂的一区| 中文字幕日韩丝袜一区| 日韩大片免费观看视频播放| 九九久久精品免费观看| 伊人福利视频| 日本成人不卡视频| 国产黄色片在线看| 亚洲成a∧人片在线观看无码| 伊人成人在线视频| 欧洲熟妇精品视频| 亚洲V日韩V无码一区二区| 国内精品视频区在线2021| 又粗又大又爽又紧免费视频| 精品欧美一区二区三区久久久| 在线a视频免费观看| 国模极品一区二区三区| 中文字幕在线视频免费| 国产精品白浆无码流出在线看| 香港一级毛片免费看| 成人免费视频一区| 美女无遮挡被啪啪到高潮免费| 天堂av综合网| 国产精品尤物在线| 九九热精品在线视频| 国产乱人伦AV在线A| 国产熟女一级毛片| 国产精品极品美女自在线网站| 成人小视频网| www.精品国产| 国产尤物视频在线| 97国产一区二区精品久久呦| 亚洲色精品国产一区二区三区| 精品少妇人妻一区二区| 麻豆AV网站免费进入| 国产精品免费入口视频| 国产精品观看视频免费完整版| 国产人碰人摸人爱免费视频| 国产十八禁在线观看免费| 国产精品视频导航|