999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

增強學習算法尋找最優策略分析

2017-03-27 20:44:35孫燦宇
電子技術與軟件工程 2017年4期
關鍵詞:策略

摘 要 如今人工智能發展迅速,在日常生活中越來越普及,與人工智能接觸的機會越來越多。本文介紹了增強學習中的Q學習中如何找到最優策略以達到最終狀態的過程和總結,以及通過試驗對影響Q值的幾個因素的進行了分析。

【關鍵詞】Q-learning 策略 探索 Q值 狀態

1 實驗背景

文章研究增強學習算法是如何找到最優策略以達到最終狀態的。通過使用off-Policy TD Control即Q learning實現。

2 實現和實驗

2.1 方法和影響因素

起初機器人對環境一無所知,能做的只是采取行動然后根據反饋的信息進行判斷。每次行走之前機器人會根據當前的動作產生一個次優策略。隨著機器人行走步數增多,逐漸會優化行走策略。對于增強學習(Q-learning)考慮以下影響因素:

S:一組狀態

A:機器人能夠采取的動作

T:轉換函數T

α:學習率,可擴展的范圍和方向(范圍從0到1)

γ:折扣因子(范圍從0到1)

Living reward:生存狀態時的獎勵

Epsilon:隨機采取動作或者在當前的策略上采取動作(范圍從0到1)

Noise:一個影響機器人是否能采取正確動作的因子(范圍從0到1)

注:s是當前狀態,s是由當前狀態執行操作后的狀態。

以上等式可以計算出Q值。最開始初始化Q值表中的每一個值為0。

每輪假設機器人從state 8開始采取動作到下一個狀態。當機器人選擇向上走(up)時,有(1-noise)的可能到達state 4,也有一定可能到達state 9或原地不動(除開邊界和有障礙的情況)。從開始到結束機器人決定是否探索或者采用當前策略,顯然不探索就無法確保得到了最優的策略,不采取當前策略這很有可能在無用的嘗試上浪費大量的時間。

2.2 實驗數據

2.2.1 將參數設置為

與epsilon=0相比這種情況更理想,因為這種情況保證至少每種state能夠被探索一遍。所以這種情況的Q值更為合理有更快的收斂速度。但這不是最理想的情況,因為機器人有可能采取同樣的動作會浪費大量時間去計算Q值。

3 總結

讓探索更加有效率而非重復相同的動作,采用了一個探索函數提高效率。實現這個函數需建立一個數組記錄到達每個狀態的次數,當計算值時需要用有效狀態的訪問次數。訪問的次數越少,探索的獎勵就越高。

Noise因素,若程序中沒有Noise因素(noise=0),Q值則會很快收斂,當noise的值增加,Q值則會不穩定。對于Alpha (α) 和折扣因子Gamma(γ),這兩個參數的值不宜太小。因為Alpha的值越小,Q值收斂的速度越慢。一般來說,Alpha因素的值應該在整個過程中是改變的。對于折扣因子(γ),用來判斷即刻反饋和未來反饋哪一個更重要。γ=1表示未來反饋和即刻反饋同樣重要,γ=0表示只考慮即刻反饋的因素。因此,γ因子也需要根據不同的場景進行改變。

參考文獻

[1]Richard S.Sutton & Andrew G.Barto.Reinforcement Learning:An introduction[M].Massachusetts:MIT Press,1998:12-16.

[2]Tom M.Mitchell. Machine Learning:A Guide to Current Research[M].Germany: Springer,1986:265-278.

作者簡介

孫燦宇(1995-),男,重慶市人。現為四川大學軟件學院軟件工程系本科在讀。主要研究方向為軟件工程。

作者單位

四川大學軟件學院軟件工程系 四川省成都市 610207

猜你喜歡
策略
基于“選—練—評”一體化的二輪復習策略
幾何創新題的處理策略
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
“我說你做”講策略
數據分析中的避錯策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
“唱反調”的策略
幸福(2017年18期)2018-01-03 06:34:53
價格調整 講策略求互動
中國衛生(2016年8期)2016-11-12 13:26:50
主站蜘蛛池模板: 久久亚洲黄色视频| 99re经典视频在线| 91亚洲精选| 欧美日韩北条麻妃一区二区| 国产高清精品在线91| 高清欧美性猛交XXXX黑人猛交| 亚洲综合极品香蕉久久网| 欧美国产日韩另类| AV片亚洲国产男人的天堂| 日韩天堂在线观看| 亚洲成年人片| 欧美精品影院| 国产一区二区影院| 国产精品永久不卡免费视频| 欲色天天综合网| 狠狠色丁婷婷综合久久| 日韩无码一二三区| 色屁屁一区二区三区视频国产| 久久这里只有精品2| 国产精品太粉嫩高中在线观看| 欧美激情伊人| 日日拍夜夜嗷嗷叫国产| 日韩AV手机在线观看蜜芽| 久久久精品国产SM调教网站| 中文字幕va| 欧美三级日韩三级| 久久黄色毛片| 国产成人精品视频一区视频二区| 99re在线观看视频| 在线观看亚洲天堂| 92午夜福利影院一区二区三区| 免费99精品国产自在现线| 污网站在线观看视频| 在线免费无码视频| 五月激情综合网| 国产在线欧美| 白丝美女办公室高潮喷水视频| 999在线免费视频| 内射人妻无码色AV天堂| 国产视频入口| 91精品国产91久无码网站| 人妻无码AⅤ中文字| 亚洲一区二区三区香蕉| 欧美日韩激情在线| 午夜小视频在线| 97成人在线视频| 国产成人三级在线观看视频| 久久婷婷色综合老司机| 久久semm亚洲国产| 日韩精品久久无码中文字幕色欲| 97国产在线视频| 啦啦啦网站在线观看a毛片| 国产在线第二页| 91青青草视频在线观看的| 成年A级毛片| 日韩AV无码一区| 一级爆乳无码av| 四虎影视无码永久免费观看| 国产精品久久久久久搜索| 久久亚洲中文字幕精品一区| 在线观看无码a∨| 欧美成人午夜在线全部免费| 免费人成黄页在线观看国产| 国产精品嫩草影院av| 国产无码高清视频不卡| 青青操视频在线| 毛片在线看网站| 试看120秒男女啪啪免费| 国产亚洲欧美日韩在线一区二区三区| 久久精品国产亚洲麻豆| 久久亚洲美女精品国产精品| 中文字幕在线观看日本| 久久国产乱子伦视频无卡顿| 五月激激激综合网色播免费| 毛片网站在线看| 日韩欧美色综合| 嫩草影院在线观看精品视频| 国产哺乳奶水91在线播放| 一级做a爰片久久毛片毛片| 国产精品一区二区国产主播| 日韩av电影一区二区三区四区 | 亚洲人成影院午夜网站|