999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

強(qiáng)化學(xué)習(xí)模型及其在避障中的應(yīng)用

2016-04-22 07:50:13吳成東沈陽(yáng)建筑大學(xué)信息學(xué)院沈陽(yáng)建筑大學(xué)沈陽(yáng)006
山東工業(yè)技術(shù) 2016年1期

孫 魁,吳成東(.沈陽(yáng)建筑大學(xué)信息學(xué)院; .沈陽(yáng)建筑大學(xué),沈陽(yáng) 006)

?

強(qiáng)化學(xué)習(xí)模型及其在避障中的應(yīng)用

孫魁1,吳成東2
(1.沈陽(yáng)建筑大學(xué)信息學(xué)院;2.沈陽(yáng)建筑大學(xué),沈陽(yáng)110016)

摘 要:強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)重要分支,其優(yōu)點(diǎn)是不需要先驗(yàn)知識(shí),通過(guò)與環(huán)境的交互進(jìn)行試錯(cuò)學(xué)習(xí)。與有導(dǎo)師學(xué)習(xí)不同,強(qiáng)化學(xué)習(xí)沒(méi)有得到確定的目標(biāo)值而是一個(gè)獎(jiǎng)賞值。本文介紹了強(qiáng)化學(xué)習(xí)的模型和一些常用算法,并將強(qiáng)化學(xué)習(xí)的方法應(yīng)用在避障問(wèn)題上。

關(guān)鍵詞:強(qiáng)化學(xué)習(xí);馬爾科夫決策;避障

1 概述

強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)是近幾年來(lái)人工智能和機(jī)器學(xué)習(xí)研究的熱點(diǎn)。不同于監(jiān)督學(xué)習(xí),強(qiáng)化學(xué)習(xí)強(qiáng)調(diào)與環(huán)境的交互并在其中進(jìn)行學(xué)習(xí),用極大化的從環(huán)境獲得的評(píng)價(jià)性反饋信號(hào)為學(xué)習(xí)目標(biāo),所以強(qiáng)化學(xué)習(xí)在求解那種無(wú)法獲得教師信號(hào)的復(fù)雜優(yōu)化決策問(wèn)題中具有廣泛的應(yīng)用[1][2]。

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)重要分支。強(qiáng)化學(xué)習(xí)通過(guò)對(duì)環(huán)境的反復(fù)試探,從中學(xué)習(xí)環(huán)境到可執(zhí)行動(dòng)作的最優(yōu)反應(yīng)式策略,以期獲得最大回報(bào)。相比于其它學(xué)習(xí)策略,強(qiáng)化學(xué)習(xí)的明顯優(yōu)勢(shì)在于它對(duì)先驗(yàn)知識(shí)的是否完備幾乎沒(méi)有要求,即使在信息完全未知的情況下,強(qiáng)化學(xué)習(xí)仍然具有較好的自適應(yīng)性和魯棒性[3]。

傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法主要針對(duì)的是離散狀態(tài)和行為空間的馬爾科夫決策過(guò)程,也就是狀態(tài)的值函數(shù)或行為的值函數(shù)采用了表格的形式來(lái)進(jìn)行存儲(chǔ)和迭代計(jì)算。但是實(shí)際工程應(yīng)用中的許多優(yōu)化決策問(wèn)題是具有大規(guī)?;蜻B續(xù)的狀態(tài)或行為空間的情況,所以表格型強(qiáng)化學(xué)習(xí)算法也同動(dòng)態(tài)規(guī)劃法一樣存在維數(shù)災(zāi)難。為了克服維數(shù)災(zāi)難,以實(shí)現(xiàn)對(duì)連續(xù)性狀態(tài)或行為空間的馬爾科夫決策過(guò)程的最優(yōu)值函數(shù)和最優(yōu)策略的逼近,我們就必須研究強(qiáng)化學(xué)習(xí)的泛化問(wèn)題或推廣問(wèn)題,也就是利用有限的學(xué)習(xí)經(jīng)驗(yàn)和記憶以實(shí)現(xiàn)對(duì)一個(gè)大范圍空間的有效知識(shí)獲取和表示的方法。

2 強(qiáng)化學(xué)習(xí)模型和馬爾科夫決策過(guò)程(Markov decision process, MDPs)

2.1強(qiáng)化學(xué)習(xí)模型

強(qiáng)化學(xué)習(xí)系統(tǒng)的基本要素包括:狀態(tài)集合S、控制行為集合A、控制策略p、強(qiáng)化信號(hào)R和狀態(tài)評(píng)價(jià)函數(shù)V(s)[4]。

強(qiáng)化學(xué)習(xí)要研究解決的問(wèn)題是:一個(gè)能夠感知外部環(huán)境的自治智能體(Agent),通過(guò)學(xué)習(xí)選擇能夠到達(dá)目標(biāo)任務(wù)的最優(yōu)動(dòng)作,即強(qiáng)化學(xué)習(xí)Agent的任務(wù)就是學(xué)習(xí)從環(huán)境到動(dòng)作的映射[26]。強(qiáng)化學(xué)習(xí)跟連接主義學(xué)習(xí)中的監(jiān)督學(xué)習(xí)的區(qū)別主要表現(xiàn)在不存在教師信號(hào)上,強(qiáng)化學(xué)習(xí)中的由環(huán)境提供的強(qiáng)化信號(hào)是對(duì)Agent所產(chǎn)生動(dòng)作的好壞作出一種評(píng)價(jià)(通常為標(biāo)量信號(hào)),而不是直接告訴Agent如何去產(chǎn)生確定性的動(dòng)作。由于外部環(huán)境提供了很少的信息,Agent必須靠自身的探索進(jìn)行學(xué)習(xí),通過(guò)這種方式Agent在行動(dòng)-評(píng)價(jià)的環(huán)境中獲得知識(shí)、改進(jìn)行動(dòng)方案以適應(yīng)環(huán)境。

強(qiáng)化學(xué)習(xí)具有以下特征:

Agent不是靜止的、被動(dòng)的等待,而是主動(dòng)對(duì)環(huán)境做出試探;環(huán)境對(duì)試探動(dòng)作反饋的信息是評(píng)價(jià)性的(好或者壞);

Agent在行動(dòng)-評(píng)價(jià)的環(huán)境中獲得知識(shí),改進(jìn)行動(dòng)方案以適應(yīng)環(huán)境,達(dá)到預(yù)期目的。

標(biāo)準(zhǔn)的Agent強(qiáng)化學(xué)習(xí)框架如圖1所示,Agent通過(guò)感知和動(dòng)作與環(huán)境交互。在Agent 與環(huán)境每一次的交互過(guò)程中,強(qiáng)化學(xué)習(xí)Agent接收環(huán)境狀態(tài)的輸入s,根據(jù)內(nèi)部的運(yùn)算機(jī)制,輸出相應(yīng)的行為動(dòng)作a。環(huán)境在動(dòng)作a的作用下,轉(zhuǎn)移到新的狀態(tài)s’,與此同時(shí)產(chǎn)生一個(gè)強(qiáng)化信號(hào)(立即回報(bào))r(獎(jiǎng)勵(lì)或懲罰)返回給Agent,Agent根據(jù)環(huán)境狀態(tài)和強(qiáng)化信號(hào)選擇下一個(gè)動(dòng)作,選擇的原則是使Agent獲得最大的回報(bào)值。選擇的動(dòng)作不僅影響立即回報(bào)值,而且影響下一時(shí)刻的狀態(tài)及最終時(shí)刻的強(qiáng)化值。在學(xué)習(xí)過(guò)程中,強(qiáng)化學(xué)習(xí)技術(shù)的基本原理是:如果系統(tǒng)的某個(gè)動(dòng)作導(dǎo)致環(huán)境正的回報(bào),那么系統(tǒng)以后產(chǎn)生這個(gè)動(dòng)作的趨勢(shì)就會(huì)加強(qiáng),反之系統(tǒng)產(chǎn)生這個(gè)動(dòng)作的趨勢(shì)便會(huì)減弱。這和生理學(xué)中的條件反射原理是接近的。

2.2馬爾科夫決策過(guò)程(Markov decision process, MDPs)

大多數(shù)關(guān)于強(qiáng)化學(xué)習(xí)方法的研究都是建立在馬爾科夫決策過(guò)程理論框架之上的,盡管強(qiáng)化學(xué)習(xí)方法并不局限于馬爾科夫決策過(guò)程,但離散的、有限狀態(tài)的Markov決策過(guò)程框架是強(qiáng)化學(xué)習(xí)算法的基礎(chǔ)。

馬爾科夫決策過(guò)程起源于隨機(jī)優(yōu)化控制,是一個(gè)離散時(shí)間的隨機(jī)過(guò)程,由六元組{S,A,D,P,r,J}來(lái)描述。六元組中,S為有限的環(huán)境狀態(tài)空間;A為有限的系統(tǒng)動(dòng)作空間;D為初始狀態(tài)概率分布,當(dāng)初始狀態(tài)是確定的,D在該初始狀態(tài)下的概率為1,當(dāng)初始狀態(tài)是以相等的概率從所有狀態(tài)中選擇時(shí),則D可以忽略;為狀態(tài)轉(zhuǎn)移概率,表在狀態(tài)s下選擇動(dòng)作a后使環(huán)境狀態(tài)轉(zhuǎn)移到s’的概率;為學(xué)習(xí)系統(tǒng)從狀態(tài)s執(zhí)行動(dòng)作a轉(zhuǎn)移到狀態(tài)s’后獲得的立即回報(bào)(獎(jiǎng)賞),是一種“近視”的表達(dá)信號(hào);J為決策優(yōu)化目標(biāo)函數(shù)。馬氏決策過(guò)程的特點(diǎn)是目前狀態(tài)s向下一個(gè)狀態(tài)s’轉(zhuǎn)移的概率和回報(bào)只取決于當(dāng)前狀態(tài)s和選擇的動(dòng)作a,而與歷史狀態(tài)無(wú)關(guān),因此MDP的轉(zhuǎn)移概率P和立即回報(bào)r也只取決于當(dāng)前狀態(tài)和選擇的動(dòng)作,與歷史狀態(tài)和歷史動(dòng)作無(wú)關(guān)。若轉(zhuǎn)移概率函數(shù)P(s , a , s ')和回報(bào)函數(shù)r(s , a , s ')與決策時(shí)間t無(wú)關(guān),即不隨時(shí)間t的變化而變化,則MDP稱(chēng)為平穩(wěn)MDP。

2.3累積獎(jiǎng)賞模型(3種)

MDP的決策優(yōu)化目標(biāo)函數(shù)J一般分為3種類(lèi)型,即有限階段總回報(bào)目標(biāo)、無(wú)限折扣總回報(bào)目標(biāo)和平均回報(bào)目標(biāo)。

有限階段總回報(bào)目標(biāo)為

式中,tr為t時(shí)刻得到的立即回報(bào);N表示智能體的生命長(zhǎng)度,即馬爾科夫鏈的長(zhǎng)度。在多數(shù)情況下,智能體學(xué)習(xí)的生命長(zhǎng)度是未知的,且當(dāng)N?¥時(shí),函數(shù)可能會(huì)發(fā)散。因此,有限階段總回報(bào)目標(biāo)很少考慮。

無(wú)限折扣總回報(bào)目標(biāo)為

平均回報(bào)目標(biāo)為

3 強(qiáng)化學(xué)習(xí)基本算法

強(qiáng)化學(xué)習(xí)主要算法有動(dòng)態(tài)規(guī)劃法(Dynamic Programming, DP),蒙特卡洛法(Monte Carlo, MC)和時(shí)序差分法(Temporal Difference, TD)和Q學(xué)習(xí)(Q-learning)等。

3.1動(dòng)態(tài)規(guī)劃法

動(dòng)態(tài)規(guī)劃法是一種基于模型的策略尋優(yōu)方法。這種方法將動(dòng)態(tài)系統(tǒng)的狀態(tài)和值函數(shù)的概念用于定義函數(shù)方程(現(xiàn)在通常稱(chēng)為Bellman方程)。這類(lèi)通過(guò)求解Bellman方程來(lái)解決最優(yōu)控制問(wèn)題的方法被稱(chēng)為動(dòng)態(tài)規(guī)劃。

動(dòng)態(tài)規(guī)劃在過(guò)去的幾十年中已經(jīng)取得了極大的發(fā)展,被廣泛地認(rèn)為是求解一般隨機(jī)最優(yōu)控制問(wèn)題的唯一切實(shí)可行的方法。但是,動(dòng)態(tài)規(guī)劃存在所謂的維數(shù)災(zāi)難問(wèn)題,也就是說(shuō),動(dòng)態(tài)規(guī)劃的計(jì)算量需求隨著狀態(tài)變量數(shù)目的增加而呈指數(shù)級(jí)增長(zhǎng)。但是相比于其他方法,動(dòng)態(tài)規(guī)劃仍然是一個(gè)非常有效且應(yīng)用廣泛的方法。動(dòng)態(tài)規(guī)劃與強(qiáng)化學(xué)習(xí)密切相關(guān),對(duì)于馬爾科夫決策問(wèn)題,前者主要解決環(huán)境的狀態(tài)轉(zhuǎn)移概率和回報(bào)函數(shù)已知的決策問(wèn)題,而后者主要處理狀態(tài)轉(zhuǎn)移概率和回報(bào)函數(shù)未知的情形。

3.2蒙特卡羅法

在概率和統(tǒng)計(jì)理論中,蒙特卡羅(Monte carlo, MC)方法是一種用部分估計(jì)整體利用隨機(jī)數(shù)來(lái)解決問(wèn)題的方法,通過(guò)統(tǒng)計(jì)模擬或抽樣方式以獲得問(wèn)題的近似解。將MC引入強(qiáng)化學(xué)習(xí)中,就得到一種無(wú)模型的學(xué)習(xí)方法。此方法不需環(huán)境的先驗(yàn)?zāi)P停恍枰ㄟ^(guò)與環(huán)境的交互來(lái)獲得的實(shí)際或模擬樣本數(shù)據(jù)(狀態(tài)、動(dòng)作、獎(jiǎng)賞)序列,從而去發(fā)現(xiàn)最優(yōu)策略。MC方法與策略迭代原理類(lèi)似,分為MC策略評(píng)估和MC策略控制兩部分,MC方法主要用在策略評(píng)估中。

本質(zhì)上講,MC方法就是基于平均化樣本回報(bào)值來(lái)求解值函數(shù)的方法,從而解決強(qiáng)化學(xué)習(xí)問(wèn)題。為了確保良好的定義回報(bào)值,MC算法定義為完全抽樣的即所有的抽樣點(diǎn)必須最終終止只有當(dāng)一個(gè)抽樣點(diǎn)結(jié)束,估計(jì)值和策略才會(huì)改變。因此該方法只適合于場(chǎng)景式任務(wù),即任務(wù)存在終止?fàn)顟B(tài),任何策略都在有限步內(nèi)以概率1到達(dá)終止?fàn)顟B(tài)。

3.3時(shí)序差分法

1988年,Sutton等人提出了一種用于解決時(shí)間信度分配問(wèn)題的方法:時(shí)間差分方法TD,而強(qiáng)化學(xué)習(xí)中所用的主要方法都是基于TD的。TD學(xué)習(xí)方法結(jié)合了蒙特卡羅和動(dòng)態(tài)規(guī)劃兩種方法的思想,不需要系統(tǒng)模型,這樣能夠直接從學(xué)習(xí)者的原始經(jīng)驗(yàn)開(kāi)始。與動(dòng)態(tài)規(guī)劃方法一樣,TD方法通過(guò)預(yù)測(cè)每個(gè)動(dòng)作的長(zhǎng)期結(jié)果來(lái)給先前的動(dòng)作賦予獎(jiǎng)勵(lì)或懲罰,即依賴(lài)于后續(xù)狀態(tài)的值函數(shù)來(lái)更新先前狀態(tài)值函數(shù),主要應(yīng)用于預(yù)測(cè)問(wèn)題。

3.4Q-學(xué)習(xí)

Q-學(xué)習(xí)是由Watkins提出的一種模型無(wú)關(guān)的強(qiáng)化學(xué)習(xí)算法。Q-學(xué)習(xí)在迭代時(shí)采用狀態(tài)-動(dòng)作對(duì)的獎(jiǎng)賞值和Q*(s,a)作為估計(jì)函數(shù),而不是TD算法中的狀態(tài)獎(jiǎng)賞和V(s),因此在每一次學(xué)習(xí)迭代過(guò)程中都需要考察每一個(gè)行為,可確保學(xué)習(xí)過(guò)程收斂。

Q函數(shù)定義及Q值的調(diào)整方法如下:

4 基于Q學(xué)習(xí)的避障應(yīng)用

良好的學(xué)習(xí)性能使得強(qiáng)化學(xué)習(xí)在實(shí)際中獲得越來(lái)越廣泛的應(yīng)用,應(yīng)用領(lǐng)域有各種任務(wù)調(diào)度、機(jī)器人控制和游戲等等。本文簡(jiǎn)單介紹基于Q學(xué)習(xí)的避障應(yīng)用。

避障環(huán)境采用20X20柵格,模擬Agent從左下角出發(fā)點(diǎn)出發(fā),通過(guò)基于Q學(xué)習(xí)算法的動(dòng)作選擇到達(dá)目標(biāo)點(diǎn)設(shè)定在(19,15),在過(guò)程中要避開(kāi)隨機(jī)放置的障礙物,并且動(dòng)作過(guò)程中不能離開(kāi)柵格邊界。模型將Agent的坐標(biāo)作為Q學(xué)習(xí)中的狀態(tài)參數(shù),在每一個(gè)柵格,Agent只有上、下、左、右四個(gè)動(dòng)作空間?;貓?bào)函數(shù)如下:

Q初始值設(shè)為0。

MATLAB仿真結(jié)果如圖2。

仿真結(jié)果表明Q學(xué)習(xí)算法能夠收斂并成功實(shí)現(xiàn)避障達(dá)到目標(biāo)點(diǎn)。

5 結(jié)束語(yǔ)

強(qiáng)化學(xué)習(xí)是一種很有前途的學(xué)習(xí)方法,已經(jīng)引起越來(lái)越多學(xué)者的研究興趣。近年來(lái)呈現(xiàn)了大量的研究成果,但是仍然有許多亟待解決的問(wèn)題,例如算法的收斂速度問(wèn)題與維度災(zāi)難問(wèn)題。盡管強(qiáng)化學(xué)習(xí)發(fā)展道路上充滿困難與挑戰(zhàn),但是其前景廣闊,是未來(lái)的趨勢(shì)。

參考文獻(xiàn):

[1]Leslie Pack Kaelbling, Michael L. Littman, Andrew W. Moore. Reinforcement Learning:A Survey. Journal of Artificial Intelligence Research 4 (1996) 237-285.

[2]Richard S. Sutton , Andrew G. Barto , Reinforcement Learning : An Introduction , MIT Press, MA, 1998.

[3]R. S. Sutton,A. G. Barto.Reinforcement learning: An Introduction[M].MIT Press,Cambridge, MA,2006,72-77.H

[4]P van Hasselt. Insight in Reinforcement Learning: formalanalysis and empirical evaluation of difference learning algorithms. SIKS dissertation series,2011.

[5]John Holand.Reinforcement learning: A survey[J].Machine learning,1988,3(1):9-14.

[6]Wang X L,Wang L.Research of distinguish matrix dealing with unconformity problems in rough sets[J].Microcomputer Development,2008,13(6):119-120.

[7]D. Michie,R. A. Chambers.Box: An experiment in adaptive control[M].Machine intelligent,2010,137-152.

[8]J. C. Q-learning[J].Machine Learning,1992,8:279-292.rough sets theory[M].Kluwer Academic Publishers,Norwell,MA,1992.

[9]Markov.Algorithm for attribute reduction based on reinforcement learning on improved discernibility matrix[J] .Computer Engineering and Application,1997,43(32):83-85.

[10]Wu C D,Zhang Y ,Li M X .A rough set GA-based hybrid method for mobile

robot[J].International Journal of automation and computing 2006,3(1):29-34.

[11]R. Slowinski.Intelligent decision support: handbook of applications and advances of the47

[12]陳鋒,胡社教,陳宗海.未知環(huán)境下自主移動(dòng)機(jī)器人的行為學(xué)習(xí)研究[J].模式識(shí)別與人工智能,2006,15(04):498-501.

[13]張汝波,顧國(guó)昌,劉照德.Q學(xué)習(xí)理論、算法及應(yīng)用[J].控制理論及應(yīng)用,2007,17(05):637-642.

[14]閻平凡.再勵(lì)學(xué)習(xí)算法及其在智能控制中的應(yīng)用[J].信息與控制,2006,25(01):28-34.

[15]張汝波.滾動(dòng)式窗口算法及應(yīng)用[M].哈爾濱:哈爾濱工程大學(xué)出版社,2006:134-139.

[16]陳學(xué)松,楊宜民.強(qiáng)化學(xué)習(xí)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2010.

DOI :10.16640/j.cnki.37-1222/t.2016.01.234

主站蜘蛛池模板: 亚洲综合久久成人AV| 1024你懂的国产精品| 在线观看免费黄色网址| 国产91丝袜在线播放动漫| 欧美精品成人一区二区视频一| 欧美a级在线| 五月天婷婷网亚洲综合在线| 在线看免费无码av天堂的| 亚洲欧洲日产国码无码av喷潮| 久草视频福利在线观看| 91成人在线免费视频| 黄色三级毛片网站| 露脸国产精品自产在线播| 孕妇高潮太爽了在线观看免费| 日韩AV无码一区| 在线观看免费AV网| 久久精品人妻中文系列| 精品综合久久久久久97超人| 欧美亚洲国产精品第一页| 无码一区18禁| 国产精品短篇二区| 久久美女精品| 国产成人精品优优av| 欧美精品亚洲精品日韩专区| 人人妻人人澡人人爽欧美一区| 美女无遮挡被啪啪到高潮免费| 美女被躁出白浆视频播放| 中文字幕亚洲综久久2021| 一本视频精品中文字幕| 91精品综合| 亚洲AV无码一二区三区在线播放| 99热亚洲精品6码| 成人va亚洲va欧美天堂| 五月综合色婷婷| 国产草草影院18成年视频| 免费国产好深啊好涨好硬视频| 丁香综合在线| 日韩AV无码一区| 99视频精品在线观看| 九月婷婷亚洲综合在线| 久久美女精品国产精品亚洲| www.亚洲一区| 热这里只有精品国产热门精品| 亚洲一区精品视频在线| 亚洲欧洲自拍拍偷午夜色| 午夜精品福利影院| 日韩美一区二区| 丁香五月婷婷激情基地| 伊人色综合久久天天| 五月天在线网站| 久久精品视频亚洲| 亚洲色图欧美在线| 亚欧成人无码AV在线播放| 久久久无码人妻精品无码| 99热这里只有精品免费| 久久精品中文字幕免费| 就去色综合| www.99精品视频在线播放| 91最新精品视频发布页| 国产精品v欧美| 国产99热| 狠狠色综合久久狠狠色综合| 青草娱乐极品免费视频| 色噜噜狠狠狠综合曰曰曰| 无码一区中文字幕| 国产成人无码久久久久毛片| 欧美精品亚洲日韩a| 欧美在线导航| 美女国内精品自产拍在线播放 | 亚洲人免费视频| 国产福利在线免费| 热99re99首页精品亚洲五月天| 伊人久久大线影院首页| 国产亚洲精久久久久久无码AV| 亚洲成人在线免费观看| 日本91在线| 亚洲伊人电影| 本亚洲精品网站| 亚瑟天堂久久一区二区影院| 国产欧美日韩另类精彩视频| 国产区精品高清在线观看| 99精品伊人久久久大香线蕉|