999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Agent強化學習的地圖遷移學習算法

2014-04-29 13:30:57張炎劉博文
電子世界 2014年15期
關鍵詞:經(jīng)驗規(guī)劃效果

張炎 劉博文

【摘要】強化學習是Agent學習中廣泛使用的方法,在智能機器人、經(jīng)濟學、工業(yè)制造和博弈等領域得到了廣泛的應用,但學習速度慢是強化學習的主要不足。遷移學習可從源任務中獲得與目標任務相關的知識,利用這些知識去提高學習效率與效果。本文提出Agent地圖遷移算法,實現(xiàn)了Agent在不同狀態(tài)空間下的經(jīng)驗遷移。實現(xiàn)將Agent在簡單環(huán)境中的學習經(jīng)驗遷移到復雜環(huán)境中,實驗中驗證了算法可加快Agent路徑規(guī)劃速度。

【關鍵詞】Q學習;強化學習;地圖遷移

對于人類來說,我們可以有意或無意的從過去已經(jīng)學習過的任務中獲取大量知識,把他們保存下來,當某天我們遇到新任務時,我們就可以從已經(jīng)獲取的只是種提取出對學習當前任務有用的部分,利用他們提高學習效率和效果。把已經(jīng)學習過的任務稱為“源任務”,把待學習的新任務稱為“目標任務”。

遷移學習作為一種智能化的學習方式,其目的是為了更有效的學習“目標任務”。在這一過程中,我們可以從與目標任務相似的“源任務”中去獲得一些與目標任務相關的信息,然后通過把它們添加至目標任務中幫助提高目標任務的學習效率與效果。

1.地圖遷移

本文將Agent在簡單環(huán)境中路徑規(guī)劃學習經(jīng)驗,遷移應用到在復雜環(huán)境中的路徑規(guī)劃學習。在簡單環(huán)境中將通過強化學習算法[1]中的一種即Q學習算法更新Q值獲得的經(jīng)驗作為待遷移的經(jīng)驗,當Agent處于復雜環(huán)境中時,可將這經(jīng)驗遷移到復雜環(huán)境中,加快Agent在復雜環(huán)境中的路徑規(guī)劃學習速度。本文研究Agent在簡單環(huán)境中的路徑規(guī)劃學習方法,將學習策略[2]應用到在不確定障礙物的復雜環(huán)境路徑規(guī)劃學習中。在遷移過程中,可以根據(jù)復雜環(huán)境狀態(tài)引入障礙物,根據(jù)環(huán)境的不同而將經(jīng)驗做相應的調整后,遷移到復雜環(huán)境中,這樣的遷移學習可以避免環(huán)境的特殊性。

1.1 簡單環(huán)境中障礙物設置

在簡單環(huán)境中不設置障礙物,原因有兩點:首先,障礙物個數(shù)、位置、是否移動等因素均不能確定,找不到有代表性的簡單環(huán)境;其次,若設置障礙物,就需要根據(jù)復雜環(huán)境去有針對性地設置,這樣的遷移只是對某一復雜環(huán)境有效果,對于其他復雜環(huán)境沒有效果。在現(xiàn)實中,環(huán)境不斷變化,找不到相適應的且具有代表性的簡單環(huán)境,更不能談將在簡單環(huán)境中的路徑規(guī)劃學習經(jīng)驗遷移到復雜環(huán)境中。故不設置障礙物可以排除環(huán)境的特殊性。

1.2 經(jīng)驗遷移

定義1:rb為環(huán)境中障礙物的獎賞值。在遷移過程中用以動態(tài)引入障礙物時調整障礙物所在位置的Q值。

本文算法中用到遷移學習將簡單環(huán)境中的經(jīng)驗應用于復雜環(huán)境中,即將簡單環(huán)境Q表中每個被遷移點的Q值,加上遷移點的獎賞值所得數(shù)值作為遷移點的Q值。如式所示:

本文算法雖然在簡單環(huán)境中沒有障礙物,但在遷移過程中,可以根據(jù)復雜環(huán)境狀態(tài)引入障礙物,這樣的遷移學習可以避免環(huán)境的特殊性,根據(jù)環(huán)境的不同而將經(jīng)驗做相應的調整后,遷移到復雜環(huán)境中。

1.3 遷移時機

當Agent到達某點且之前無這點經(jīng)驗時,應用遷移學習,由遷移學習本身定義可以知道,正是因為Agent在陌生環(huán)境中無經(jīng)驗,所以才需要遷移以往的經(jīng)驗以幫助Agent加快學習速度,更快地找到最優(yōu)路徑。算法解決的問題是Agent在新環(huán)境中一開始學習時無經(jīng)驗,故當Agent已經(jīng)有了在環(huán)境中的經(jīng)驗時,此時不需要遷移。

2.基于Agent強化學習的地圖遷移學習算法

本文提出基于Agent強化學習的地圖遷移學習算法。Agent在第一次學習時,首通過遷移學習算法將經(jīng)驗遷移到復雜環(huán)境中,再使用Q學習算法,找到局部最優(yōu)路徑。重復上述過程,直到Agent到達目標點為止。本文的地圖遷移算法不同于之前研究較多的基于相同狀態(tài)空間下的經(jīng)驗遷移[3-4]。下面為算法描述與實驗數(shù)據(jù)。

算法的偽代碼表示如下:

For times=1 to epiosodes

if(times==1)

transfer()//執(zhí)行遷移學習算法

End_if

Else

While(s_now !=s_final)//Agent未到終點

Q_Learning()//執(zhí)行Q學習算法

End_while

End_for

3.仿真實驗與分析

程序隨機生成9條路徑,分別用遷移學習和未應用遷移學習尋找路徑,統(tǒng)計Agent找到最優(yōu)路徑所需迭代次數(shù),實驗結果如下。

遷移學習 不遷移學習

27 41

13 32

21 31

23 27

23 24

12 19

15 19

52 44

13 18

由上表可以看到,9次實驗中當Agent進行遷移學習時找到最佳路徑所需迭代次數(shù)比相同情況下未進行遷移學習的次數(shù)少,同時也發(fā)現(xiàn)了1次負遷移情況,下文給出關于負遷移的討論。

4.負遷移

上述實驗中,隨機選擇9條路徑中有1條路徑產(chǎn)生了負遷移情況。通過實驗發(fā)現(xiàn),遷移的經(jīng)驗多遷移效果也有很大影響。不同的遷移經(jīng)驗會帶來不同的效果。目前還未找到一組最佳的遷移經(jīng)驗,以后可以做這方面研究。

5.結論

本文提出地圖遷移算法,在簡單環(huán)境中將通過Q學習算法更新Q值獲得的經(jīng)驗作為待遷移的經(jīng)驗,當Agent處于復雜環(huán)境中時,可將這經(jīng)驗遷移到復雜環(huán)境中,加快Agent在復雜環(huán)境中的路徑規(guī)劃學習速度。在遷移過程中,可以根據(jù)復雜環(huán)境狀態(tài)引入障礙物,根據(jù)環(huán)境的不同而將經(jīng)驗做相應的調整后,遷移到復雜環(huán)境中,這樣的遷移學習可以避免環(huán)境的特殊性。為不同環(huán)境空間下Agent經(jīng)驗遷移研究打下了基礎。

參考文獻:

[1]顧國昌,仲宇,張汝波.一種新的多智能體強化學習算法及其在多機器人協(xié)作任務中的應用[J].機器人,2003,25(4):344-348.

[2]Schmidhuber Juergen.On learning how to learn learning strategies[J].1995.

[3]Perlich C,Dalessandro B,Raeder T,et al. Machine learning for targeted display advertising:Transfer learning in action[J].Machine Learning,2013:1-25.

[4]Torrey Lisa,Shavlik Jude,Walker Trevor,et al.Relational skill transfer via advice taking[C].Proceedings of ICML Workshop on Structural Knowledge Transfer for Machine Learning,2006.

猜你喜歡
經(jīng)驗規(guī)劃效果
按摩效果確有理論依據(jù)
2021年第20期“最值得推廣的經(jīng)驗”評選
黨課參考(2021年20期)2021-11-04 09:39:46
經(jīng)驗
迅速制造慢門虛化效果
2018年第20期“最值得推廣的經(jīng)驗”評選
黨課參考(2018年20期)2018-11-09 08:52:36
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
規(guī)劃引領把握未來
快遞業(yè)十三五規(guī)劃發(fā)布
商周刊(2017年5期)2017-08-22 03:35:26
多管齊下落實規(guī)劃
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
主站蜘蛛池模板: 99久久99这里只有免费的精品| 国产综合亚洲欧洲区精品无码| 91久草视频| 欧美精品啪啪| 国产精品微拍| 国产在线一区视频| 国产精品不卡永久免费| 日韩a级片视频| 一级爆乳无码av| 99r在线精品视频在线播放| 国产特一级毛片| 五月激情综合网| 91色国产在线| 青草视频网站在线观看| 亚洲国语自产一区第二页| 欧美亚洲另类在线观看| 全色黄大色大片免费久久老太| 亚洲天堂久久新| 激情亚洲天堂| 国产成人一区在线播放| 日本人又色又爽的视频| 国内熟女少妇一线天| 人妻无码AⅤ中文字| 国产成人区在线观看视频| 国产视频入口| 国产成人综合久久精品下载| 一本一本大道香蕉久在线播放| 亚洲精品国产自在现线最新| 国产成人h在线观看网站站| 亚洲成A人V欧美综合| 色妞www精品视频一级下载| 欧美日本视频在线观看| 国产无码网站在线观看| AV不卡无码免费一区二区三区| 国产色偷丝袜婷婷无码麻豆制服| 中国国产高清免费AV片| 日本免费一区视频| 热思思久久免费视频| 久久成人国产精品免费软件 | 18禁高潮出水呻吟娇喘蜜芽| 天堂在线www网亚洲| 国产91熟女高潮一区二区| 国产一级无码不卡视频| 欧美成a人片在线观看| 免费看a级毛片| 丝袜亚洲综合| 国产成人精品免费视频大全五级| 中文字幕在线视频免费| 中文字幕亚洲精品2页| 91精品aⅴ无码中文字字幕蜜桃| 国产成人高清精品免费5388| 手机精品视频在线观看免费| 玖玖精品视频在线观看| 免费在线国产一区二区三区精品| 欧美日韩午夜视频在线观看| 国产精品专区第一页在线观看| 四虎成人精品| 久久五月视频| 亚洲91在线精品| 欧美一区二区精品久久久| 色九九视频| 亚洲国产成人在线| 欧美啪啪视频免码| 亚洲丝袜第一页| 狠狠亚洲婷婷综合色香| 亚洲成在线观看| 中文无码精品A∨在线观看不卡| 亚洲综合精品第一页| 欧美一级黄色影院| 性视频久久| 亚洲天堂2014| 亚洲最大福利视频网| 中文字幕久久亚洲一区| 亚洲永久精品ww47国产| 国产福利免费视频| 欧美成人看片一区二区三区| 成人国产精品一级毛片天堂| 农村乱人伦一区二区| 狼友视频国产精品首页| 这里只有精品在线播放| 伊人国产无码高清视频| 亚洲日本韩在线观看|