999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

適用于強(qiáng)化學(xué)習(xí)慣性環(huán)境的分?jǐn)?shù)階改進(jìn)OU噪聲

2023-04-29 13:47:01王濤張衛(wèi)華蒲亦非
四川大學(xué)學(xué)報(bào)(自然科學(xué)版) 2023年2期
關(guān)鍵詞:動(dòng)作環(huán)境策略

王濤 張衛(wèi)華 蒲亦非

本文將DDPG算法中使用的Ornstein-Uhlenbeck (OU) 噪聲整數(shù)階微分模型推廣為分?jǐn)?shù)階OU噪聲模型,使得噪聲的產(chǎn)生不僅和前一步的噪聲有關(guān)而且和前K步產(chǎn)生的噪聲都有關(guān)聯(lián).通過(guò)在gym慣性環(huán)境下對(duì)比基于分?jǐn)?shù)階OU噪聲的DDPG和TD3算法和原始的DDPG和TD3算法,我們發(fā)現(xiàn)基于分?jǐn)?shù)階微積分的OU噪聲相比于原始的OU噪聲能在更大范圍內(nèi)震蕩,使用分?jǐn)?shù)階OU噪聲的算法在慣性環(huán)境下具有更好的探索能力,收斂得更快.

DDPG算法; TD3算法; 分?jǐn)?shù)階微積分; OU噪聲; 強(qiáng)化學(xué)習(xí)

TP39A2023.022001

收稿日期: 2022-03-26

基金項(xiàng)目: 四川省科技計(jì)劃(2022YFQ0047)

作者簡(jiǎn)介: 王濤(1997-), 男,? 碩士研究生, 四川資陽(yáng)人, 研究方向?yàn)榉謹(jǐn)?shù)階微積分與強(qiáng)化學(xué)習(xí). E-mail: 2647877536@qq.com

通訊作者: 張衛(wèi)華. E-mail: zhangweihua@scu.edu.cn

An improved Ornstein-Uhlenbeck exploration noise based on fractional order calculus for reinforcement learning environments with momentum

WANG Tao, ZHANG Wei-Hua, PU Yi-Fei

(College of Computer Science, Sichuan University, Chengdu 610065, China)

In this paper, the integer-order Ornstein-Uhlenbeck (OU) noise model used in the deep deterministic policy gradient (DDPG) algorithm is extended to the fractional-order OU noise model, and the generated noise is not only related to the noise of the previous step but also related to the noise generated in the previous K steps in the proposed model.The DDPG algorithm and twin delayed deep deterministic(TD3) algorithm using the fractional-order OU noise model were compared with the original DDPG algorithm and TD3 algorithm in the gym inertial environment. We found that, compared with the original OU noise, the fractional-order OU noise can oscillate in a wider range, and the algorithm using the fractional-order OU noise had better exploration ability and faster convergence in inertial environment.

Deep deterministic policy gradient; Twin delayed deep deterministic; Fractional calculus; Ornstein-Uhlenbeck process; Reinforcement learning

1 引 言

深度Q網(wǎng)絡(luò)(DQN)[1]的提出開(kāi)創(chuàng)了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合的先例,DQN算法直接使用了深度神經(jīng)網(wǎng)絡(luò)來(lái)擬合強(qiáng)化學(xué)習(xí)中的Q(s,a) 函數(shù),并根據(jù)貪心策略選擇下一步需要執(zhí)行的動(dòng)作,這一工作使得算法在Atari游戲上達(dá)到了近似人類玩家的水平.

基于DQN的工作,后續(xù)還有人還提出了DDQN[2],Dueling DQN[3],Rainbow DQN[4]等工作,這些工作極大地改進(jìn)了基于值函數(shù)估計(jì)類算法的效果.不過(guò),這些工作的動(dòng)作空間都是離散的,智能體每次只能選擇有限的幾個(gè)動(dòng)作.然而,在實(shí)際的應(yīng)用場(chǎng)景下,更多的是需要強(qiáng)化學(xué)習(xí)算法處理連續(xù)控制任務(wù).比如無(wú)人機(jī)追逃控制[5],飛行器高度控制[6],機(jī)械臂軌跡規(guī)劃[7,8],無(wú)人機(jī)航跡規(guī)劃[9]等.

對(duì)于連續(xù)控制任務(wù)則無(wú)法直接使用DQN系列的算法,研究人員參考DQN系列算法值函數(shù)估計(jì)的思想,提出了DDPG算法[10],在……

登錄APP查看全文

猜你喜歡
動(dòng)作環(huán)境策略
長(zhǎng)期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
例談未知角三角函數(shù)值的求解策略
孕期遠(yuǎn)離容易致畸的環(huán)境
我說(shuō)你做講策略
環(huán)境
動(dòng)作描寫(xiě)要具體
高中數(shù)學(xué)復(fù)習(xí)的具體策略
動(dòng)作描寫(xiě)不可少
非同一般的吃飯動(dòng)作
主站蜘蛛池模板: 国产成人亚洲日韩欧美电影| 国产91蝌蚪窝| 二级特黄绝大片免费视频大片| 国产综合亚洲欧洲区精品无码| 啦啦啦网站在线观看a毛片| 青青操国产| 欧美、日韩、国产综合一区| 日韩欧美国产另类| 亚洲视频色图| 日a本亚洲中文在线观看| 婷婷色中文网| 亚洲综合天堂网| 国产原创自拍不卡第一页| 国产乱子伦视频三区| 日韩不卡免费视频| 欧美a网站| aaa国产一级毛片| 人妻精品全国免费视频| 九九热精品视频在线| 精品综合久久久久久97| 58av国产精品| 国产成人亚洲欧美激情| 1024你懂的国产精品| 色九九视频| 毛片一区二区在线看| 亚洲综合一区国产精品| 一本大道香蕉久中文在线播放| 国产日韩欧美黄色片免费观看| 亚洲日韩欧美在线观看| 亚洲欧美国产高清va在线播放| 99在线免费播放| 成年A级毛片| 国产激情在线视频| 国模在线视频一区二区三区| 午夜人性色福利无码视频在线观看| 国产激爽爽爽大片在线观看| 成人一级黄色毛片| 欧美精品啪啪一区二区三区| 91久久偷偷做嫩草影院电| 精品国产污污免费网站| 国产在线视频自拍| 99精品国产高清一区二区| 乱系列中文字幕在线视频| 亚洲精品色AV无码看| 日本人又色又爽的视频| 精品综合久久久久久97| 久久久久久久久久国产精品| 黄色福利在线| 天堂岛国av无码免费无禁网站| 欧美伦理一区| 免费亚洲成人| 亚洲美女AV免费一区| 激情视频综合网| 97亚洲色综久久精品| 91成人在线免费视频| 精品色综合| 午夜不卡福利| 蜜臀AV在线播放| 久久美女精品国产精品亚洲| 亚洲精品国产首次亮相| 欧美日韩综合网| 中国特黄美女一级视频| 久青草免费在线视频| 国产呦精品一区二区三区下载| 四虎精品国产AV二区| 91麻豆国产视频| 亚洲欧美综合在线观看| 91免费观看视频| 国产精品男人的天堂| 欧美在线一二区| 91网在线| 黄色网址手机国内免费在线观看| 国产无码高清视频不卡| 国产在线啪| 99re精彩视频| 色国产视频| 国产精品无码一区二区桃花视频| 久久 午夜福利 张柏芝| 久久久噜噜噜| 国模视频一区二区| 无码粉嫩虎白一线天在线观看| 日韩成人免费网站|