999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

稀疏獎勵場景下深度強化學習算法研究

2021-12-27 01:39:02周國明
科學與信息化 2021年12期
關鍵詞:機制智能信號

周國明

四川大學 電子信息學院 四川 成都 610000

引言

深度強化學習[1](deep reinforcement learning ,DRL)是機器學習[2]的重要分支,它是在與環境交互中尋找最優策略的一類方法。DRL中智能體的目標是獲得最大獎勵,環境可以提供密集的獎勵信號時DRL可以工作得很好,然而在許多實際問題中,獎勵是稀疏的,稀疏獎勵導致智能體無法有效的學習。實際上稀疏獎勵問題會導致強化學習算法迭代緩慢、難以收斂,甚至根本無法進行學習[3]。因此,如何解決稀疏獎勵帶來的負面影響,研究稀疏獎勵環境下的強化學習算法,至關重要。本文提出了一個使用智能體相鄰兩個狀態之間的距離來作為智能體的內在獎勵以驅動智能體對環境進行探索的方

1 基于內在激勵機制的算法化

1.1 內在激勵機制

由此可見,獎勵在強化學習中起著非常重要的作用,它指導著智能體的學習。然而,在許多實際生活場景中,獎勵是稀疏的,這意味著智能體很難獲得獎勵,甚至需要正確執行很長序列的動作才能得到環境的反饋,導致智能體很難學到解決目標任務所需要做的動作,無法學習到給定的任務。另一方面,由于缺少獎勵信號,智能體需要與環境做大量的交互,獲取足夠多的樣本數據,這會導致算法訓練的非常緩慢,甚至無法收斂。因此,本文考慮如何為智能體提供額外的獎勵信號來源,稱之為內在獎勵[1]。

1.2 基于狀態距離的內在獎勵生成算法

特征提取模塊中使用的是不進行參數更新的卷積神經網絡。卷積神經網絡是一種特殊的神經網絡模型,專門用于處理具有相似網格結構的數據。卷積是圖像處理中一種有效的特征提取方法,而我們的實驗環境為Atari視頻游戲,它的表現形式是一幀幀的圖像,所以我們使用卷積神經網絡提取狀態的特征。不進行參數更新的原因在于,首先我們需要穩定的內在獎勵項,由于卷積神經網絡是固定的,所以在整個訓練過程中,提取到的所有狀態的特征向量都是通過同一個范式得到的,保證了用特征向量做差得到的內在獎勵項是穩定的;其次,如果要訓練特征提取模塊中使用的卷積神經網絡,是比較困難的,雖然我們可以采取ICM模型[5],但這會大大增加模型的量。

2 實驗

為了測試本文提出的基于內在獎勵機制的算法的有效性,必須要有一個合適的環境來進行測試。由于我們的算法是稀疏獎勵相關的,我們需要外在獎勵稀少的場景。本文從Open AI Gym工具包中選擇了Atari視頻游戲中的Space Invaders和Freeway。

Space Invaders提供的是一個具有相對密集的獎勵反饋的環境,而Freeway則提供的是一個智能體進行需要搜索才能得到獎勵的稀疏獎勵環境[6]。我們選擇這兩個環境,一個獎勵信號相對密集,另一個獎勵信號稀疏,可以更好地看到本文所提出的內在獎勵生成算法在稀疏獎勵環境下的優越性。

選擇的基礎強化學習算法為A2C,它是在Actor-Critic算法的基礎上,使用優勢函數代替Critic網絡中的原始回報[7]。比較原始A2C算法與添加了內在獎勵機制的A2C算法(稱之為IBA2C算法),分別在Space Invaders和Freeway下的表現效果。需要注意的是,由于智能體的目標是最大化來自環境的獎勵信號值,所以在實驗結果對比中,只使用了外在獎勵值,內在獎勵項是沒有使用的。

從實驗結果可看出,在Space Invaders場景中,A2C算法IBA2C算法基本上有相同的性能表現,IBA2C算法的表現稍稍優于A2C算法,兩者都能夠很快地到達一個很好的收斂。這表明,在外在獎勵密集的場景下,智能體無須做很多的探索,僅僅依靠外在獎勵信號的指導,就能夠學會完成目標任務。在外在獎勵稀疏的Freeway場景中, A2C算法的表現很糟糕,智能體基本上無法獲得任何的外在獎勵,而IBA2C算法表現優異,在經過大約2.4e7個時間步的訓練后,可以快速得到一個很好的效果。實驗結果表明,本文提出的內在獎勵機制在稀疏獎勵場景下可以顯著提高性能。

3 結束語

本文針對稀疏獎勵場景下的內在獎勵機制進行了研究。引入內在激勵機制,提出了一種新的內在獎勵生成算法。本文提出的內在獎勵生成算法利用一個固定的卷積神經網絡提取狀態的特征向量,把相鄰的兩個狀態的狀態特征向量的歐式距離作為內在獎勵項。將內在獎勵與外在獎勵合成為一個獎勵,使用這個合成的獎勵信號來指導智能體的學習。最后,把提出的內在獎勵生成算法與A2C算法結合在一起,在Atari視頻游戲場景Space Invaders和Freeway中進行了對比試驗,實驗結果表明,本文提出的內在獎勵生成算法可以顯著地提高智能體在稀疏獎勵環境下的表現。

猜你喜歡
機制智能信號
信號
鴨綠江(2021年35期)2021-04-19 12:24:18
完形填空二則
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
基于FPGA的多功能信號發生器的設計
電子制作(2018年11期)2018-08-04 03:25:42
基于LabVIEW的力加載信號采集與PID控制
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
主站蜘蛛池模板: 国产在线观看一区精品| 色男人的天堂久久综合| 久久久精品无码一区二区三区| 精品一区二区三区无码视频无码| 四虎在线高清无码| 福利在线不卡一区| 无码专区国产精品第一页| 国产免费黄| 婷婷综合色| 99久久国产自偷自偷免费一区| 亚洲熟妇AV日韩熟妇在线| 国产欧美日韩另类精彩视频| 中文字幕亚洲专区第19页| 亚洲第一区精品日韩在线播放| 中文字幕在线欧美| 久久人搡人人玩人妻精品一| 呦视频在线一区二区三区| 国产产在线精品亚洲aavv| 亚洲欧美日韩另类在线一| 欧美一级高清片久久99| 素人激情视频福利| 91免费精品国偷自产在线在线| 亚洲精品自在线拍| 久久永久免费人妻精品| 国产免费精彩视频| 亚洲国产精品一区二区第一页免| 日韩成人在线网站| 日本爱爱精品一区二区| 国产三区二区| 中文字幕免费播放| 亚洲中文字幕在线观看| 久久99精品久久久久久不卡| 中文字幕 日韩 欧美| 国产在线98福利播放视频免费| 婷婷亚洲视频| 久热99这里只有精品视频6| 99热线精品大全在线观看| 日韩福利在线视频| 91精品国产丝袜| 亚洲国产欧美国产综合久久 | 亚洲色成人www在线观看| 欧美a√在线| 在线观看热码亚洲av每日更新| a级毛片一区二区免费视频| 亚洲天堂久久| 久久人人妻人人爽人人卡片av| 精品欧美视频| 国产男人天堂| 国产网友愉拍精品视频| 亚洲精品va| 亚洲一级毛片在线观播放| 高h视频在线| 亚洲欧美日韩综合二区三区| 国产一线在线| 中文字幕无线码一区| 一区二区理伦视频| 91久久偷偷做嫩草影院| 91在线激情在线观看| 国产精品久久自在自线观看| 国产美女免费| av午夜福利一片免费看| 114级毛片免费观看| 亚洲一区二区视频在线观看| 一级毛片免费观看久| 国产精品毛片一区| 成年人久久黄色网站| 波多野结衣久久精品| 五月天福利视频| 免费一级无码在线网站| 国产乱人免费视频| 青青久久91| 亚洲日韩久久综合中文字幕| 精品久久蜜桃| 国产又爽又黄无遮挡免费观看| a级毛片一区二区免费视频| 青青青视频蜜桃一区二区| 国产亚洲精品91| 国产成人8x视频一区二区| 国语少妇高潮| 一级一级特黄女人精品毛片| 国产精品美女网站| 三区在线视频|