999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DDPG的仿人形機器人仿真研究

2019-02-10 06:35:14
福建質量管理 2019年24期
關鍵詞:環境模型

(西華師范大學電子信息工程學院 四川 南充 637000)

一、前言

人形機器人步態控制是驗證各種機器學習算法的有效平臺,在現有各種機器學習算法中,為實現人形機器人學會穩定行走,基于強化學習的步態控制算法取得了突破性成功[1]。通過強化學習的思想,讓人形機器人行走時連續的感知周圍環境,根據當前狀態選擇最優動作,最終訓練出能使機器人穩定行走的模型。Timothy等人提出的深度確定性策略梯度算法(DDPG,Deep Deterministic Policy Gradient)取得不錯的效果[2]。本文通過BipedalWalker-v2仿真環境驗證該算法,并對提高環境探索能力的正態分布噪聲的參數進行分析。

二、DDPG算法

DDPG結合DQN(Deep Q-Learning)算法中得緩沖回放模型和目標網絡結構,緩沖回放將一些采樣樣本收集起來,每次優化時從中隨機取出一部分進行優化,從而減少一些不穩定性。目標網絡結構使計算目標價值的模型在一段時間內被固定,從而減少模型的波動性。融合Actor-Critic算法的框架,建立Actor和Critic網絡,Actor網絡用于與環境交互,并產生當前策略,Critic網絡用來評估當前策略。以及DPG(Deterministic Policy Gradient)算法的結論,可以用一個值函數模型來擬合目標函數中得價值估計部分[3]。為提高對環境的探索能力,動作選取公式如式(1),N為正態分布噪聲。

(1)

DDPG算法流程如下:

首先初始化Actor網絡參數θ、θ’,Critic網絡參數ω、ω’,以及經驗回放D,令ω'=ω,θ'=θ。

對每一個回合,循環以下步驟:

(1)初始化S為當前狀態序列的第一個狀態S,拿到其特征向量φ(S);

(2)在Actor當前網絡基于狀態S得到A=πθ(φ(S))+Ν;

(3)執行動作A,得到新狀態S',獎勵R,判斷是否終止狀態,未終止,執行(4);

(4)將{φ((S),A,R,φ((S'),is_end}存入在經驗回放集合D中;

(5)從經驗回放D中均勻采樣m個樣本{φ((Sj),Aj,Rj,φ((S'j),is_endj},j=1,2,…,m,并計算當前目標Q值yj:

yj=rj+γQ'(φ(S'j),πθ'(S'j),ω')

(2)

(8)更新目標網絡參數:

θ'←τθ+(1-τ)θ'

(3)

ω'←τω+(1-τ)ω'

(4)

(9)如果S'是終止狀態,當前輪迭代完畢,否則轉到步驟(2)。

三、實驗數據與分析

本次研究仿真部分,使用ubuntu16.04操作系統和Sublime代碼編輯器,仿真環境是OpenAI的Gym環境,深度學習框架是TensorFlow。

(一)BipedalWalker-v2仿真環境

在Gym提供的BipedalWalker-v2環境中,機器人通過調整到比較好的姿態獲得更高的分數。通過讀取場景的信息,環境狀態輸入部分有24個值,包括角速度,水平速度,垂直速度,關節位置,關節角速度,腿與地方接觸的位置,以及10個激光雷達測距儀測量等。每個值得范圍都是從負無窮到正無窮,反饋輸出的動作有4個值,每個值的范圍都是從-1到1,環境信息如表1所示[4]。

表1 BipedalWalker-v2的信息

(二)仿真結果

1.算法有效性

在BipedalWalker-v2環境中的學習效果如圖1所示,正態分布中標準差最大值為4,最小值為0.001,經過1000輪的學習。可以取得較好的學習效果。

圖1 BipedalWalker-v2仿真結果

2.數據分析

當標準差最大值一定時,改變標準差最小值,仿真結果如圖2所示。當標準差初始值為4時,分別設定標準差最小值為0.01、0.001和0.0001,從圖中可以看到隨著訓練次數的增加,獎勵最后趨于穩定,當標準差最小值為0.01時,在訓練回合到3000時還是會有較大的波動,獎勵值沒有很好的收斂。標準差最小值為0.0001時,獎勵值雖然可以收斂,但是收斂值保持在30左右,沒有獲得較好的分數。標準差的值為0.001時,獎勵值不僅可以收斂還能夠保持較高的分數。這種現象說明,隨著訓練次數的增加,機器人可以逐漸得到較高的獎勵,但是在已經得到高獎勵的情況下,還是以較大的標準差來處理動作值,就會帶來較大的波動,同時若標準差的最小值設置過小,機器人在開始的學習中容易因為探索不夠,會需要更多的學習回合才能獲得較好的獎勵值。在訓練過程中,隨著訓練次數的增加,后期所用的都是標準差最小值,并且因為其獎勵隨訓練回合數的曲線變化是呈鋸齒狀的,若標準差最小值過小,就很可能出現收斂在較小獎勵值的情況。

圖2 scale=4仿真結果

圖3 scale_min=0.001仿真圖

當標準差最小值一定時,改變標準差最大值,仿真結果如圖3所示。從圖中可以看到,當標準差初始值分別為3,4,5時,隨著訓練次數的增加最后都可以收斂,但是它們最后的收斂值來看,標準差初始值為3時收斂值最小,標準差初始化值為4時收斂值在240左右,初始值為5時的收斂值在230左右,并且標準差為4時獎勵最大值相較其他兩種最大。標準差初始值主要是為了在開始訓練的一段時間給機器人較大的動作選擇自由,能夠進行充分的探索,通過嘗試得到獲取高獎勵的經驗,為后期的訓練積累到好的學習經驗。初始值過小會使得機器人還未能有一定的好的學習經驗,但是隨著訓練回合數的增加,給予機器人的自由會逐漸減少至0.001,從而導致它將很難再學習到更好的結果。初始值設置過大,即給予機器人的自由度過大,甚至遠遠超過DDPG模型中原本的動作選取策略,顯然會使DDPG模型的訓練效果大打折扣。

從仿真結果可以得出標準差的最小值在很大程度上影響獎勵是否收斂,標準差的初始值會影響收斂值的大小,它們都是DDPG模型的關鍵參數。調整好這兩個參數的大小,會決定是否能得到好的訓練結果。

四、結束語

本文將深度確定性策略梯度算法用于人形機器人的步態研究,在BipedalWalker-v2環境中驗證該算法的可行性,驗證中發現該算法中,提高對環境探索能力的正態分布參數對于學習效果的影響很大,分別討論正態分布中的標準差和最小標準差對學習效果的影響,以及Batch Size的大小對于學習效果的影響,具有一定的參考意義。

猜你喜歡
環境模型
一半模型
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
孕期遠離容易致畸的環境
不能改變環境,那就改變心境
環境
孕期遠離容易致畸的環境
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产成人精品一区二区| 成年人免费国产视频| 亚洲色图欧美在线| 久久国产亚洲偷自| 日韩色图区| 综合天天色| 亚洲国产黄色| 青青草a国产免费观看| 亚洲成人福利网站| 日韩国产综合精选| 996免费视频国产在线播放| 亚洲日韩久久综合中文字幕| 亚洲中文精品久久久久久不卡| 欧美国产综合色视频| 国产99热| 亚洲人成影院在线观看| 国产精品天干天干在线观看| 国内精品视频在线| 国产精品蜜芽在线观看| 久久91精品牛牛| 国产在线麻豆波多野结衣| 免费观看男人免费桶女人视频| 国产精品美女网站| 伊人久久婷婷| 亚洲第一在线播放| 欧美激情视频二区| 高清无码一本到东京热| 亚洲伦理一区二区| 99r在线精品视频在线播放 | 国产一区二区影院| 狠狠色婷婷丁香综合久久韩国| 欧美日韩理论| 久久香蕉国产线看观看式| 无遮挡一级毛片呦女视频| 伊人久久福利中文字幕| 欧美日韩导航| 国产区精品高清在线观看| 日韩国产黄色网站| 五月天福利视频| 国产特级毛片aaaaaaa高清| 精品国产一区二区三区在线观看| 大香网伊人久久综合网2020| 伊人久久综在合线亚洲91| 欧美日韩国产综合视频在线观看 | 国产真实乱人视频| 国产亚洲精品va在线| 伊人狠狠丁香婷婷综合色| 欧美日韩精品一区二区在线线| 亚洲无码高清免费视频亚洲| 性视频一区| 国产91在线|中文| 四虎永久在线精品国产免费| 亚洲男人的天堂在线观看| av天堂最新版在线| 日韩免费毛片视频| 亚洲国产日韩欧美在线| 久久综合结合久久狠狠狠97色| 一级爆乳无码av| 国产高清在线观看91精品| 国产精品成人不卡在线观看 | 亚洲天堂成人在线观看| Aⅴ无码专区在线观看| 无码国产偷倩在线播放老年人| 亚洲精品在线影院| 久久久久亚洲av成人网人人软件| 亚洲色大成网站www国产| 伊在人亚洲香蕉精品播放| 亚洲第一成人在线| 91精品aⅴ无码中文字字幕蜜桃| 国产成人精品一区二区| 黄片在线永久| 亚洲国产中文综合专区在| 免费一级毛片不卡在线播放| 欧美视频免费一区二区三区| 高清无码不卡视频| 最新精品久久精品| 又爽又黄又无遮挡网站| 99草精品视频| 国产91色在线| 午夜视频www| 欧美亚洲一区二区三区导航| 国产精品永久在线|