999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LSTM與非對稱網(wǎng)絡(luò)的改進DDPG算法研究

2022-01-01 00:00:00何富君王曉爭劉凱
計算機應(yīng)用研究 2022年1期

摘 要: 針對深度強化學(xué)習(xí)算法在復(fù)雜動態(tài)環(huán)境中訓(xùn)練時,由于環(huán)境的部分可觀測性原因?qū)е轮悄荏w難以獲得有用信息而不能學(xué)習(xí)到良好策略且算法收斂速度慢等典型問題,提出一種基于LSTM和非對稱actor-critic網(wǎng)絡(luò)的改進DDPG算法。該算法在actor-critic網(wǎng)絡(luò)結(jié)構(gòu)中引入LSTM結(jié)構(gòu),通過記憶推理來學(xué)習(xí)部分可觀測馬爾可夫狀態(tài)中的隱藏狀態(tài),同時在actor網(wǎng)絡(luò)只使用RGB圖像作為部分可觀測輸入的情況下,critic網(wǎng)絡(luò)利用仿真環(huán)境的完全狀態(tài)進行訓(xùn)練構(gòu)成非對稱網(wǎng)絡(luò),加快了訓(xùn)練收斂速度。通過在ROS中進行機械臂抓取仿真實驗,結(jié)果顯示該算法相比于DDPG、PPO和LSTM-DDPG算法獲得了更高的成功率,同時具有較快的收斂速度。

關(guān)鍵詞: 深度確定性策略梯度; 長短期記憶; 非對稱actor-critic; 深度強化學(xué)習(xí); 動態(tài)環(huán)境

中圖分類號: TP181"" 文獻標(biāo)志碼: A

文章編號: 1001-3695(2022)01-032-0183-05

doi:10.19734/j.issn.1001-3695.2021.05.0200

Research on improved DDPG algorithm based on LSTM and asymmetric network

He Fujun, Wang Xiaozheng, Liu Kai

(School of Mechanical Science amp; Engineering, Northeast Petroleum University, Daqing Heilongjiang 163318, China)

Abstract: When the deep reinforcement learning algorithm is trained in a complex dynamic environment,it is difficult for the agent to obtain useful information due to the partial observability of the environment,which leads to typical problems such as failure to learn good strategies and slow algorithm convergence speed.This paper proposed an improved DDPG algorithm based on LSTM and asymmetric actor-critic network.This method introduced the LSTM structure into actor-critic network to learn the hidden states in partially observable Markov through memory reasoning.At the same time,when the actor network only used RGB images as partially observable inputs,the critic network used the complete state of the simulation environment to train,which formed an asymmetric network and speeded up the training convergence.The simulation experiment of manipulator grasping in ROS shows that the proposed algorithm has higher success rate and faster convergence speed compared with DDPG,PPO and LSTM-DDPG.

Key words: DDPG; LSTM; asymmetric actor-critic; deep reinforcement learning; dynamic environment

0 引言

進行深度強化學(xué)習(xí)訓(xùn)練時,在仿真環(huán)境中可以獲得智能體及其周圍環(huán)境的完整狀態(tài)信息,豐富的環(huán)境信息可以幫助智能體學(xué)習(xí)到良好的動作策略。但是在現(xiàn)實世界中,智能體往往只能獲取部分環(huán)境信息,由此難以判斷作出正確的動作。為成功訓(xùn)練模型,一種方法是通過信息推理得到環(huán)境的完整狀態(tài)信息, Andrychowicz等人[1]通過可視檢測器和狀態(tài)預(yù)測來推斷完整狀態(tài);Long等人[2]提出滑模混合機械臂振動控制模型來解決部分可觀測狀態(tài)下的控制問題,但是通過部分觀測數(shù)據(jù)預(yù)測完整狀態(tài)信息往往比較復(fù)雜,同時也面臨復(fù)合誤差的問題。另一種方法是在仿真環(huán)境中進行環(huán)境渲染以增加隨機性,提高模型適應(yīng)性,Tobin等人[3]提出區(qū)域隨機化渲染環(huán)境的模型來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò);Luo等人[4]提出基于單圖像視覺模型來訓(xùn)練機器人完成裝配任務(wù)。但是這些技術(shù)由于輸入維數(shù)大、可觀測性受限等問題,導(dǎo)致訓(xùn)練難以收斂,無法學(xué)習(xí)復(fù)雜的行為。文獻[5,6]提出非對稱actor-critic結(jié)構(gòu)的深度強化學(xué)習(xí)算法模型,actor網(wǎng)絡(luò)使用部分觀測狀態(tài)進行訓(xùn)練,而critic網(wǎng)絡(luò)采用仿真環(huán)境中的完整狀態(tài)進行訓(xùn)練,由此可學(xué)習(xí)復(fù)雜行為并加快收斂,此模型在多智能體合作任務(wù)訓(xùn)練中有較好的表現(xiàn)。Pinto等人[7]在此模型基礎(chǔ)上將其應(yīng)用于機器人學(xué)習(xí)和圖像部分可觀測性方面的研究中,提高了模型的性能并應(yīng)用于實際中,但是并沒有對動態(tài)環(huán)境的訓(xùn)練效果進行探討。而以序列圖像為輸入的訓(xùn)練任務(wù)中,前后圖像之間往往存在隱藏狀態(tài),如環(huán)境中物體的姿態(tài)/速度等信息,一般深度強化學(xué)習(xí)模型對于隱藏狀態(tài)并不能進行很好的學(xué)習(xí),因此,對于以序列圖像為輸入的動態(tài)環(huán)境深度強化學(xué)習(xí)算法訓(xùn)練問題有待解決。

循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)是一種處理時序數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),在機器人應(yīng)用方面,文獻[8,9]使用長短期記憶(long short-term memory,LSTM)單元作為近端策略優(yōu)化(proximal policy optimization,PPO)算法的額外隱藏層,成功訓(xùn)練五指人形機械手操作一個方塊,表明記憶的使用可以幫助模型適應(yīng)新的環(huán)境。Inoue等人[10]使用了一種基于Q學(xué)習(xí)的方法,使用兩個LSTM層用于Q函數(shù)近似過程,以解決軸孔裝配任務(wù)。Lobos-Tsunekawa等人[11]提出基于LSTM-DDPG算法的雙足機器人避障模型,可記憶地圖障礙物位置并實現(xiàn)避障。雖然記憶增強策略已被證明可在連續(xù)控制問題中改善訓(xùn)練結(jié)果,但在部分可觀測性連續(xù)控制問題方面的研究較少,同時在訓(xùn)練收斂速度方面也關(guān)注較少。

針對上述問題,本文提出一種基于LSTM的非對稱actor-critic結(jié)構(gòu)DDPG(asymmetric LSTM-DDPG)深度強化學(xué)習(xí)方法,actor網(wǎng)絡(luò)將序列RGB圖像作為部分觀測輸入,而critic網(wǎng)絡(luò)將仿真環(huán)境下完整序列狀態(tài)作為輸入。由于critic網(wǎng)絡(luò)在完全可觀測狀態(tài)下訓(xùn)練,其學(xué)習(xí)值函數(shù)的速度要快得多,可以對actor網(wǎng)絡(luò)進行更好的更新。同時在算法中引入LSTM網(wǎng)絡(luò)結(jié)構(gòu),提高對動態(tài)時序部分可觀測輸入的適應(yīng)性,通過在動態(tài)環(huán)境抓取任務(wù)上驗證,所提出的方法有良好的表現(xiàn)。

3 仿真實驗

3.1 環(huán)境搭建

采用ROS+Gazebo+TensorFlow+Keras聯(lián)合仿真,其中ROS是次機器人操作系統(tǒng),充當(dāng)了仿真軟件Gazebo和機器學(xué)習(xí)平臺TensorFlow之間的接口[16]。Gazebo中集成豐富傳感器與物理仿真插件,也是UR系列機器臂官方推薦仿真開源仿真平臺,具體環(huán)境搭建如圖5所示。

實驗分為靜態(tài)抓取和動態(tài)抓取,靜態(tài)為桌面抓取,仿真環(huán)境如圖5(a)所示,動態(tài)抓取為工廠流水線模擬抓取,仿真環(huán)境如圖5(b)所示,末端執(zhí)行器為吸盤。兩種實驗條件下,均通過eye-in-hand的方式將相機固定在機械臂末端執(zhí)行器前方,相機光軸與機械臂末端執(zhí)行器z軸平行,任務(wù)執(zhí)行全程機械臂末端執(zhí)行器z軸垂直桌面和傳送帶。

在ROS環(huán)境下,通過OpenCV圖像處理庫以及MoveIt!運動學(xué)規(guī)劃庫建立仿真環(huán)境下的目標(biāo)狀態(tài)獲取和動作執(zhí)行控制框架,通過訂閱機械臂末端位姿主題和圖像處理主題可以獲得機械臂關(guān)節(jié)參數(shù)(位置、速度)、末端執(zhí)行器位姿和目標(biāo)圖像。仿真訓(xùn)練通過訂閱圖像主題/cxy作為改進算法的actor網(wǎng)絡(luò)輸入,actor網(wǎng)絡(luò)的輸出通過MoveIt!轉(zhuǎn)換發(fā)布機械臂控制主題/joint_state控制機械臂運動,actor網(wǎng)絡(luò)輸出的機械臂末端執(zhí)行器運動位姿 (x,y,θ)以及通過OpenCV處理得到的目標(biāo)點位置作為輸入傳遞給critic網(wǎng)絡(luò)進行訓(xùn)練。仿真消息結(jié)構(gòu)如圖6所示。

經(jīng)過OpenCV處理后獲得的目標(biāo)像素層坐標(biāo)圖如圖7所示,其中,(a)為靜態(tài)抓取,用于完整狀態(tài)獲取目標(biāo)像素層坐標(biāo)處理后的圖像;(b)為動態(tài)抓取,用于完整狀態(tài)獲取目標(biāo)像素層坐標(biāo)處理后的圖像。

ROS仿真環(huán)境的運行節(jié)點數(shù)據(jù)流部分示意圖如圖8所示。

3.2 結(jié)果分析

實驗通過對比DDPG、PPO、LSTM-DDPG和asymmetric LSTM-DDPG算法訓(xùn)練結(jié)果來驗證所提算法的優(yōu)越性。其中對比算法PPO是目前較為先進的深度強化學(xué)習(xí)算法,適用于離散和連續(xù)動作控制,本文所采用的PPO算法框架是基于文獻[8]的工作,為保證實驗對比的公平性,實驗?zāi)J(rèn)參數(shù)設(shè)置保持一致,使用相同的獎勵函數(shù)。

3.2.1 靜態(tài)抓取任務(wù)算法對比分析

使用相同的超參數(shù),目標(biāo)物體靜止放置在桌面上,LSTM-DDPG算法對于actor和critic都使用SLTM結(jié)構(gòu),對比平均獎勵變化、每集步數(shù)變化,結(jié)果如圖9、10所示。

從圖9、10可以看出,靜態(tài)抓取實驗中,由于在靜態(tài)抓取任務(wù)中環(huán)境相對簡單,非對稱網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)勢并不明顯,同時LSTM-DDPG算法和asymmetric LSTM-DDPG算法都引入了LSTM層結(jié)構(gòu),所以在最終的平均獎勵和每集步數(shù)上并未有較大差距。在收斂速度上,兩者基本都在訓(xùn)練1 000集左右即進入收斂狀態(tài),asymmetric LSTM-DDPG算法提前100集左右進入收斂狀態(tài)。由于采用RGB圖像作為actor網(wǎng)絡(luò)輸入,環(huán)境依然屬于部分可觀測,經(jīng)典DDPG和PPO算法表現(xiàn)相對較差,但相比DDPG算法,由于PPO算法的噪聲方差是可訓(xùn)練矢量,由此增強了PPO算法的穩(wěn)健性,所以訓(xùn)練相對穩(wěn)定,收斂速度較DDPG略快。asymmetric LSTM-DDPG平均獎勵為7.3,LSTM-DDPG平均獎勵為6.8,PPO平均獎勵為1.3,DDPG平均獎勵為-2.6。

取算法訓(xùn)練后500集的數(shù)據(jù)。此時四種算法基本已進入穩(wěn)定狀態(tài),可較好地對比算法訓(xùn)練效果。結(jié)果如表1所示。

由表1可以看出,asymmetric LSTM-DDPG算法成功率相比DDPG、PPO、LSTM-DDPG算法分別提升了25.5%、23.6%、4.6%。

3.2.2 動態(tài)抓取任務(wù)算法對比分析

使用相同的超參數(shù), LSTM_DDPG算法對于actor和critic都使用LSTM結(jié)構(gòu),對比平均獎勵變化、每集步數(shù)變化,結(jié)果如圖11、12所示。

動態(tài)抓取實驗中,由于在部分觀測中目標(biāo)位置、速度等復(fù)雜隱藏狀態(tài)信息未知,所以從圖11、12可以看出,DDPG在部分觀測中表現(xiàn)較差,在前500集左右基本很難學(xué)習(xí)到好的策略,對于PPO算法也遇到同樣問題,雖然在訓(xùn)練中并未提供目標(biāo)位置狀態(tài)信息,但是由于在獎勵設(shè)置時使用了目標(biāo)位置狀態(tài)信息,經(jīng)過長時間訓(xùn)練,DDPG和PPO算法也能完成抓取任務(wù),但是穩(wěn)定性較差,成功率較低。對比LSTM-DDPG和asymme-tric LSTM-DDPG算法,由于這兩種算法都具有LSTM結(jié)構(gòu),對于時序輸入數(shù)據(jù)有記憶功能,能夠?qū)W到隱層狀態(tài)信息,所以在動態(tài)時序輸入任務(wù)中表現(xiàn)良好,同時由于asymmetric LSTM-DDPG采用完全狀態(tài)信息訓(xùn)練critic網(wǎng)絡(luò),能夠?qū)ctor網(wǎng)絡(luò)有更好的更新,所以在收斂速度上比LSTM-DDPG更快,相比LSTM_DDPG算法,收斂集數(shù)提前250集左右,但是值得注意的是,對于最終收斂結(jié)果來看,兩者的成功率接近。在平均獎勵獲得上,asymmetric LSTM-DDPG算法平均獎勵為7.5,LSTM-DDPG算法平均獎勵為5.2,PPO算法平均獎勵為-4.1,DDPG算法平均獎勵為-7.3。

取算法訓(xùn)練后500集的數(shù)據(jù)對比算法訓(xùn)練效果,結(jié)果如表2所示。

由表2可以看出,asymmetric LSTM-DDPG算法成功率相比DDPG、PPO、LSTM-DDPG算法分別提升了38.1%、34.2%、5.3%。由表2可知,經(jīng)典DDPG和PPO算法由于不具有推斷隱藏狀態(tài)信息能力,在時序動態(tài)部分可觀測任務(wù)中表現(xiàn)較差,由于在獎勵函數(shù)中使用了目標(biāo)位置狀態(tài),所以也能完成任務(wù),但是效果較差。對比表1和2,可知在靜態(tài)和動態(tài)兩種情況下,asymmetric LSTM-DDPG都能有比較穩(wěn)定的表現(xiàn),能夠?qū)W到良好策略。

4 結(jié)束語

本文針對深度強化學(xué)習(xí)算法在部分可觀測馬爾可夫狀態(tài)以及動態(tài)環(huán)境中訓(xùn)練表現(xiàn)較差等問題,提出一種基于LSTM和非對稱actor-critic網(wǎng)絡(luò)的DDPG算法,利用模擬環(huán)境的完整狀態(tài)可觀測性來訓(xùn)練更好的策略,通過actor-critic網(wǎng)絡(luò)結(jié)構(gòu),critic在完全狀態(tài)下接受訓(xùn)練,而actor只使用RGB圖像作為輸入,由此加快網(wǎng)絡(luò)的收斂速度;actor和critic網(wǎng)絡(luò)都采用LSTM結(jié)構(gòu),由此來處理動態(tài)時序狀態(tài)環(huán)境。最后通過機械臂抓取實驗證明了改進的DDPG算法可提高收斂速度,并對時序部分可觀測狀態(tài)有良好的訓(xùn)練策略。

對于非對稱actor-critic網(wǎng)絡(luò)結(jié)構(gòu),單獨actor或者critic網(wǎng)絡(luò)使用LSTM結(jié)構(gòu)可能是一種潛在的可行方法,雖然本文并未進行此工作,但是在未來的工作中值得驗證。

參考文獻:

[1]Andrychowicz M,Wolski F,Ray A,et al.Hindsight experience replay[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:5048-5058.

[2]Long Teng,Li En,Hu Yunqing,et al.A vibration control method for hybrid structured flexible manipulator based on sliding mode control and reinforcement learning[J].IEEE Trans on Neural Networks and Learning Systems,2021,32(2):841-852.

[3]Tobin J,F(xiàn)ong R,Ray A,et al.Domain randomization for transferring deep neural networks from simulation to the real world[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway,NJ:IEEE Press,2017:23-30.

[4]Luo Jieliang,Li Hui.Recurrent distributed reinforcement learning for partially observable robotic assembly[EB/OL].(2021-03-17).https://arxiv.org/pdf/2010.08052v1.pdf.

[5]Konda V R,Tsitsiklis J N.Actor-critic algorithms[C]//Advances in Neural Information Processing Systems.Red Hook,NY:Curran Asso-ciates Inc.,2000:1008-1014.

[6]Lowe R,Wu Yi,Tamar A,et al.Multi-agent actor-critic for mixed cooperative-competitive environments[C]//Proc of the 31st Internatio-nal Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:6382-6393.

[7]Pinto L,Andrychowicz M,Welinder P,et al.Asymmetric actor critic for image-based robot learning[EB/OL].(2017-10-18).https://arxiv.org/pdf/1710.06542.pdf.

[8]Andrychowicz M,Baker B,Chociej M,et al.Learning dexterous in-hand manipulation[J].International Journal of Robotics Research,2019,39(1):3-20.

[9]Greff K,Srivastava R K,Koutnik J,et al.LSTM:a search space odyssey[J].IEEE Trans on Neural Networks and Learning Systems,2017,28(10):2222-2232.

[10]Inoue T,De Magistris G,Munawar A,et al.Deep reinforcement learning for high precision assembly tasks[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Pisca-taway,NJ:IEEE Press,2017:819-825.

[11]Lobos-Tsunekawa K,Leiva F,Ruiz-del-Solar J.Visual navigation for biped humanoid robots using deep reinforcement learning[J].IEEE Robotics and Automation Letters,2018,3(4):3247-3254.

[12]Iriondo A,Lazkano E,Susperregi L, et al.Pick and place operations in logistics using a mobile manipulator controlled with deep reinforcement learning[J].Applied Sciences,2019,9(2):348-354.

[13]Lillicrap T P,Hunt J J,Pritzel A,et al.Continuous control with deep reinforcement learning[EB/OL].(2015-11-18).https://arxiv.org/pdf/1509.02971v2.pdf.

[14]Yang Rui,Lyu Jiafei,Yang Yu,et al.Bias-reduced multi-step hindsight experience replay[EB/OL].(2021-02-25).https://arxiv.org/pdf/2102.12962v1.pdf.

[15]武曲,張義,郭坤,等.結(jié)合LSTM的強化學(xué)習(xí)動態(tài)環(huán)境路徑規(guī)劃算法[J].小型微型計算機系統(tǒng),2021,42(2):334-339. (Wu Qu,Zhang Yi,Guo Kun,et al.LSTM combined with reinforcement learning dynamic environment path planning algorithm[J].Journal of Chinese Computer Systems,2021,42(2):334-339.)

[16]周友行,趙晗妘,劉漢江,等.采用DDPG的雙足機器人自學(xué)習(xí)步態(tài)規(guī)劃方法[J].計算機工程與應(yīng)用,2021,57(6):254-259. (Zhou Youxing,Zhao Hanyun,Liu Hanjiang,et al.Self-learning gait planning method for biped robot using DDPG[J].Computer Engineering and Applications,2021,57(6):254-259.)

[17] Mnih V,Kavukcuoglu K,Silver D,et al.Playing Atari with deep reinforcement learning[EB/OL].(2013-12-19).https://arxiv.org/pdf/1312.5602.pdf.

主站蜘蛛池模板: 国产手机在线ΑⅤ片无码观看| 夜夜拍夜夜爽| 国产午夜无码片在线观看网站| 青青国产视频| av性天堂网| 国产手机在线小视频免费观看| 亚洲精品动漫| 99青青青精品视频在线| 欧美精品一区在线看| 在线毛片免费| 91无码人妻精品一区| 国产白浆在线| 国产免费久久精品99re不卡| 婷婷亚洲最大| 1769国产精品视频免费观看| 日韩免费成人| 免费一级全黄少妇性色生活片| 国产特级毛片aaaaaaa高清| 国外欧美一区另类中文字幕| 亚洲第一成年网| 久久精品66| 毛片网站在线播放| 四虎永久在线视频| 91黄视频在线观看| av天堂最新版在线| 伊人蕉久影院| 欧美在线三级| av尤物免费在线观看| 人妻夜夜爽天天爽| 亚洲精选高清无码| 青青草原国产| 国产av剧情无码精品色午夜| 99热这里只有精品久久免费| 免费人成视网站在线不卡| 性色在线视频精品| 毛片网站观看| 成人免费视频一区二区三区| 激情六月丁香婷婷四房播| 青青草a国产免费观看| 日本免费精品| 国产色婷婷| 曰韩人妻一区二区三区| 国产精品无码久久久久AV| 久久永久免费人妻精品| 全午夜免费一级毛片| 国产美女久久久久不卡| 亚洲—日韩aV在线| 六月婷婷激情综合| 欧美啪啪网| 久久国产精品夜色| 国产成人永久免费视频| 99这里只有精品在线| 久久精品亚洲热综合一区二区| 欧美性猛交一区二区三区| 18禁高潮出水呻吟娇喘蜜芽| 综合色在线| 尤物视频一区| av午夜福利一片免费看| 一级毛片免费观看久| 婷婷亚洲最大| 亚洲第一视频网| 欧美在线中文字幕| 亚洲天堂精品在线| 人与鲁专区| 中文字幕人妻无码系列第三区| 亚洲国产黄色| 亚洲日产2021三区在线| 激情六月丁香婷婷四房播| 58av国产精品| аⅴ资源中文在线天堂| 国产精品xxx| 午夜一区二区三区| 亚国产欧美在线人成| 啪啪国产视频| 日韩欧美视频第一区在线观看| 婷婷六月在线| 欧美亚洲第一页| 国产成人8x视频一区二区| 免费毛片视频| 一级毛片网| 免费va国产在线观看| 国产99在线|