999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

增強學習基本模型及其分析

2018-04-03 07:11:13北京市延慶區第一中學李子韓
電子世界 2018年5期
關鍵詞:動作智能游戲

北京市延慶區第一中學 李子韓

1.概述

總所周知的,機器學習主要有監督學習、非監督學習、半監督學習以及增強學習四類。一般具有規則性的行為,我們可以通過監督學習和非監督學習,使智能體習得并掌握這些行為。然而對于一些序列決策或者控制問題,就需要用到增強學。增強學習,主要關注的是智能體和環境之間的交互問題,智能體通過增強學習,可以在當前的狀態下挑選出一個當前回報最高的決策,通過執行當前挑選的最優決策,達到下一個狀態,如此往復,通過執行一系列的決策,從而獲得最終最優的累積回報。

例如,為了指導小狗學會一項新技能這一任務,我們不能告訴小狗它應該去做什么,但是我們可以在小狗做出動作后,判讀動作是否正確,如果動作正確,則給予獎勵;如果動作錯誤,則給予懲罰。經過一系列類似的訓練之后,小狗就可以學習到它做出哪些動作后會得到獎勵,做出哪些動作后會得到懲罰。類似地,我們同樣可以在控制問題中,使用相同的方法訓練智能體學習如何做出決策,獲得最大的累積回報,從而達到決策優化的目的。再以曾經風靡全球的游戲《神廟逃亡》為例。我們的目的是讓智能體學會這款游戲的玩法,但因為游戲的路線是隨機的,所以如果我們直接給其輸入某一固定的路線,是達不到令其學會的這一效果的。此時應用到增強學習,訓練智能體學習如何作出決策,獲得最大的累計回報,即檢測到某一的障礙,智能體會作出選擇,如果在操作后游戲人物死亡,則否定上一步操作;如果游戲繼續,則記錄此操作,并于下次檢測到同樣障礙時作出相同的操作。經過多次否定和記錄,最終智能體可以學會這款游戲的玩法。

圖1 《神廟逃亡》游戲操作界面

2.增強學習的發展與應用

近些年來,增強學習的研究取得了豐碩的成果,對增強學習的研究主要集中在增強學習的理論、增強學習的算法以及增強學習的應用這三個方面[1]。具體的介紹如下:(1)增強學習理論:時序差分學習的收斂性、表格型強化學習的收斂性、強化學習的泛化方法。研究的主要內容是算法的收斂性等基礎理論,比如:時序差分學習的收斂性,表格型增強學習的收斂性等等。(2)增強學習算法:增強學習可以分為非聯想增強學習和聯想增強學習。比較經典的算法有:折扣型回報指標強化學習算法、Q-學習算法、Sarsa學習算法等等。(3)增強學習應用:增強學習是一種不依賴于環境模型和先驗知識的機器學習方法,通過試錯和延時回報機制,結合自適應動態規劃方法,能夠不斷優化控制策略,為系統自適應外界環境變化提供了可行方案。通過將系統建模成馬氏決策過程,在自動控制領域,增強學習方法已成功地實現了單個機器人的優化控制[2]、多機器人系統并行控制等等[3];如在博弈決策領域,人們利用增強學習方法,已經成功了開發出阿爾法狗——人工智能圍棋程序以及星際爭霸計算機模擬程序等等,此外增強學習方法在比如自動直升機、手機網絡路由、市場決策、工業控制、高效網頁索引、優化和調度等領域都取得了巨大的成功。

3.增強學習的數學模型

首先,基于增強學習問題建立如下模型(為了便于問題的簡化,我們這里建立的環境和智能體的模型都是具有隨機、有限狀態性質的模型)。如圖2所示。

圖2 簡單的增強學習模型

馬爾可夫動態過程可以進一步表示如下:

上述流程圖表示智能體在狀態s0下選擇執行某個動作a0,智能體按照概率Ps0a0隨機轉移到下一個s1狀態,然后再執行一個動作a1,智能體按照概率值Ps1a1轉移到下一個s2狀態,如此往復地進行動作執行和狀態轉移這兩個過程,直達到達最終的終止狀態或者到達最大的狀態轉移步數。

智能體的目標是學習找到一個馬爾可夫策略,即一個從狀態空間到動作空間的映射關系(,表示在當前狀態s下,智能體會根據策略π選擇執行動作a),從而最大化折扣回報加權和的期望。在馬爾科夫決策過程中,如果智能體的起始狀態記為s0,此時智能體根據策略π選擇執行下一個動作a0,執行后智能體的狀態轉移到s1,然后智能體繼續根據策略π選擇執行下一個動作a1,執行后智能體的狀態轉移到s2,按照這種方式執行下去,我們可以得到從起始狀態s開始,所有過程中回報函數的期望和:

我們把(1)式中定義的期望函數Vπ(s),稱為在起始狀態s下,在給定的策略π下的價值函數(value function)。與價值函數非常類似的另外一個函數便是Q函數(Q-function),給定策略π,它的Q函數定義為:從一個給定的起始狀態s開始,首先采取一個指定的動作a,然后根據策略π采取后續動作得到的所有回報函數的期望和:

從遞推的角度來看,我們可以進一步把上述(1)式子寫成:

因此,上述找最優馬爾可夫策略π的問題可以形式化為求解下述問題——求解最大化V*(s):

同樣地,我們可以把Q函數寫成上面的表達形式:

同樣,我們定義最優的Q函數如下:

通過求解上述式子(6),我們可以得到最優的決策策略π*和最大的累積回報值。

4.全文總結

通過本文的介紹,我們大致了解了增強學習的基本概念、增強學習適用于解決哪些問題,增強學習的研究領域及主要的應用領域,最后我們通過建立并且簡單地推導增強學習中最簡單的數學模型——隱馬爾科夫模型,加深了對增強學習模型的理解,即增強學習是通過不斷地試錯,學習到一組最優的決策策略,從而獲得最終最大的累積回報的學習過程。

增強學習在許多應用領域都取得了巨大的進展,我們有理由相信,增強學習在今后的發展中,將會進一步推動人工智能領域的發展,給我們的生產生活帶來極大的便利。

[1]陳學松,楊宜民. 強化學習研究綜述[J].計算機應用研究,2010,27(8):2834-2838.

[2]吳軍,徐昕,王健等.面向多機器人系統的增強學習研究進展綜述[J].控制與決策,2011,26(11):1601-1610.

[3]秦志斌,錢徽,朱淼良.自主移動機器人混合式體系結構的一種Multi-agent實現方法[J].機器人,2006,28(5):478-482.

猜你喜歡
動作智能游戲
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
動作描寫要具體
畫動作
動作描寫不可少
數獨游戲
瘋狂的游戲
飛碟探索(2016年11期)2016-11-14 19:34:47
爆笑游戲
主站蜘蛛池模板: 久青草免费在线视频| 国产在线拍偷自揄拍精品 | 国产高清免费午夜在线视频| 免费Aⅴ片在线观看蜜芽Tⅴ | 丰满少妇αⅴ无码区| 九九九精品成人免费视频7| 国产主播福利在线观看| 亚洲一级毛片| 国产黑人在线| 五月婷婷综合色| 天天色综网| 久久午夜夜伦鲁鲁片不卡| 亚洲欧美精品在线| 国产亚洲高清在线精品99| 成年人视频一区二区| 免费A级毛片无码免费视频| 国产视频资源在线观看| 午夜国产不卡在线观看视频| 91小视频版在线观看www| 国产免费福利网站| 亚洲av无码牛牛影视在线二区| 国产极品美女在线观看| 亚洲中文字幕23页在线| 精品少妇人妻一区二区| 国产色伊人| 亚洲国产午夜精华无码福利| 一区二区影院| 一区二区三区高清视频国产女人| 男人天堂伊人网| 欧美日韩动态图| 国产精品视频猛进猛出| 国内精品伊人久久久久7777人| 久久综合AV免费观看| 日韩一区二区在线电影| 波多野结衣一二三| 亚洲欧美日韩中文字幕在线| 美女无遮挡拍拍拍免费视频| 日本不卡在线视频| 色综合中文| 青青热久麻豆精品视频在线观看| 伊人成人在线| 青青草a国产免费观看| 秘书高跟黑色丝袜国产91在线| 精品视频免费在线| 国产福利小视频在线播放观看| 午夜无码一区二区三区在线app| 91小视频版在线观看www| 精品一区二区三区自慰喷水| AV天堂资源福利在线观看| 高清久久精品亚洲日韩Av| 国产91特黄特色A级毛片| 这里只有精品国产| 亚洲一级毛片在线观播放| 免费看黄片一区二区三区| 日韩国产亚洲一区二区在线观看| 91成人免费观看| 在线欧美一区| 精品人妻AV区| 欧美啪啪网| 亚洲人成网站在线观看播放不卡| 久青草免费在线视频| 国产精品手机在线观看你懂的| 美女黄网十八禁免费看| 国产噜噜噜视频在线观看| 日韩欧美在线观看| 亚洲国产成人自拍| 国产精品美女免费视频大全| 国产精品妖精视频| 欧美国产在线一区| 91丝袜乱伦| 免费无码网站| h网址在线观看| 国产精品久久久久久久伊一| 97视频在线精品国自产拍| 国产美女丝袜高潮| 日本不卡在线播放| 亚洲毛片网站| 久久网欧美| 国产91小视频在线观看| 精品一區二區久久久久久久網站 | 久久久波多野结衣av一区二区| 亚洲天堂网2014|