999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于人工情感的Q-學(xué)習(xí)算法在機器人行為決策中的應(yīng)用

2015-01-27 03:02:31谷學(xué)靜高貝貝朱朝月
自動化與儀表 2015年7期
關(guān)鍵詞:動作情感環(huán)境

谷學(xué)靜,高貝貝,朱朝月

(華北理工大學(xué) 電氣工程學(xué)院,唐山 063009)

隨著計算機和人工智能技術(shù)的發(fā)展,智能機器人在人類的生產(chǎn)生活方面應(yīng)用愈加廣泛。為使機器人能夠產(chǎn)生擬人情感并與人類自然和諧地進(jìn)行人機交互[1],將人工情感引入到機器人智能控制中逐漸成為人工智能領(lǐng)域一個新的研究方向。

目前大部分人工情感的研究集中在情感識別、情感建模及情感表達(dá)[2],人工情感的研究不應(yīng)僅局限在和諧的人機交互,而應(yīng)充分發(fā)揮情感因素對機器人自主學(xué)習(xí)和行為決策的作用。在機器人的行為決策中引入人工情感,能夠使機器人更逼真地模擬人類智能行為。

強化學(xué)習(xí)是有效的機器學(xué)習(xí)方法之一。在強化學(xué)習(xí)算法的基礎(chǔ)上引入情感因素,有了情感模型的指導(dǎo),學(xué)習(xí)和決策過程將具有更加明確的目的性和方向性,而不是在龐大的求解空間中盲目地嘗試[3]。首先,機器人根據(jù)外界環(huán)境的刺激模擬產(chǎn)生特定狀態(tài)下的情感值,并反向抉擇出引發(fā)正向情緒的經(jīng)驗知識。然后,機器人從擇優(yōu)的經(jīng)驗知識中學(xué)習(xí)最優(yōu)控制策略,以改善機器人行為決策中的學(xué)習(xí)效率和收斂速度,提高機器人的自主學(xué)習(xí)和自主行為決策能力。

1 人工情感建模

情感是人類對客觀事物的態(tài)度體驗,同人的切身需求有關(guān)。它能夠幫助人們在不同的需求下選擇恰當(dāng)?shù)男袨?,增強人類對周圍環(huán)境的自適應(yīng)能力[4]。文獻(xiàn)[5-6]的研究表明情感在智能決策中起著重要作用,位于大腦皮層邊緣系統(tǒng)的杏仁核能夠快速獲得感覺輸入,并做出迅速的情緒反應(yīng)。情緒自身便可激發(fā)行為動作,而不需理智思維的調(diào)控。這種急速的反應(yīng)可以幫助人類快速做出趨利避害的行動。

本文仿效情緒本身即可觸發(fā)行為的機制,實現(xiàn)機器人自然情感調(diào)控行為的功能,構(gòu)建了基于隨機事件處理的情感模型。機器人利用傳感器采集外界環(huán)境中的離散信號(如壓力、溫度、高度),將獲得的信號傳到情感模型中產(chǎn)生與之對用的情感狀態(tài)。其中情感模型的情感輸出符合人類的情感變化規(guī)律。積極的情緒狀態(tài)會成為行為的積極誘因,消極的情緒狀態(tài)則起消極誘因作用,情感在自主學(xué)習(xí)和自主行為決策中扮演著驅(qū)動角色。

情感模型系統(tǒng)的工作過程如下:首先將采集的一組傳感器信息作為一個離散事件 et(e1,e2,…en),根據(jù)當(dāng)前情感狀態(tài)把 et(e1,e2,…en)轉(zhuǎn)換為基本情緒向量 Xt(x1,x2,x3,x4)。 然后將基本情緒向量 Xt(x1,x2,x3,x4)輸入到情感空間,得到模型輸出 Yt(y1,y2,y3,y4),嵌入該模型的機器人可以根據(jù)Yt做出帶有情感的決策。為了方便機器人在行為決策中應(yīng)用情感模型,將情感模型產(chǎn)生的情感均值Yt轉(zhuǎn)化為可以直接利用的數(shù)值,因此設(shè) μt, μt∈[0,1]為情感均值變換后的情感系數(shù)值。其情感模型系統(tǒng)框架和情感系數(shù)變換函數(shù)如圖1所示。

圖1 情感模型系統(tǒng)框架和情感系數(shù)變換函數(shù)Fig.1 Emotional factor model framework and emotional transformation function

圖中第一個節(jié)點代表正向與負(fù)向情緒分類函數(shù),其中k+,k-分別為正向和負(fù)向情感函數(shù)的系統(tǒng)反饋系數(shù),εt為對采集到外界刺激進(jìn)行修正后的值,η(+,-(i))為正向與負(fù)向情緒分類函數(shù)值。 圖中第二個節(jié)點代表情感輸出值變換為情感系數(shù)的變換函數(shù)。具體情感模型系統(tǒng)原理論述見文獻(xiàn)[7]。

2 Q-學(xué)習(xí)算法

強化學(xué)習(xí)是從動物學(xué)習(xí)、參數(shù)擾動自適應(yīng)控制等理論演化出來的[8]。強化學(xué)習(xí)的目的是要學(xué)習(xí)從狀態(tài)到動作的最佳映射,以便獲得獎賞信號最大[9]。其中Q-學(xué)習(xí)算法在機器人行為最優(yōu)控制策略中應(yīng)用廣泛,它是Markov決策過程的一種演化形式。Q-學(xué)習(xí)的目標(biāo)是尋找一個策略π,使在學(xué)習(xí)的時間內(nèi)獲得的累積折扣回報Rdπ最大:

式中:γ(0<γ<1)為折扣因子;t=1,2,…,為每個時間步;rt為執(zhí)行每一步動作后的立即回報;i為到達(dá)最優(yōu)策略π時所經(jīng)歷的時間步數(shù)值。

Q(s,a)值是機器人在環(huán)境狀態(tài)下選擇對應(yīng)動作后執(zhí)行策略π的回報折扣和的數(shù)學(xué)期望:

式中:S=[s1,s2,…,st]為機器人在環(huán)境中的狀態(tài)集;A=[a1,a2,…,at]為對應(yīng)狀態(tài)選擇的動作集;rt為在狀態(tài) st下執(zhí)行動作 at得到的立即回報;P(st,at,st+1)為機器人在狀態(tài)st下執(zhí)行動作at轉(zhuǎn)移到下一個狀態(tài)st+1的概率。

實現(xiàn)在線Q-學(xué)習(xí)方法按如下的遞歸公式進(jìn)行:

式中:λ為學(xué)習(xí)率,控制學(xué)習(xí)速度,λ越大則收斂越快。但是,過大的λ有可能導(dǎo)致不收斂。在一定條件下當(dāng)t→∞ 時,式(3)進(jìn)行無窮次迭代,Qt(s,a)以概率 1收斂到關(guān)于最優(yōu)策略的Q*(s,a)。

3 基于人工情感改進(jìn)的Q-學(xué)習(xí)算法

Q-學(xué)習(xí)的目標(biāo)是在不確定的環(huán)境下根據(jù)評價信號來選擇最優(yōu)控制策略,可以理解為是一個在線最優(yōu)決策學(xué)習(xí)過程。由于Q-學(xué)習(xí)是一種不依靠環(huán)境模型進(jìn)行的自學(xué)習(xí)的算法,也就是機器人一點都不熟知外環(huán)境信息。它只能通過有限的試錯法來學(xué)習(xí),因此學(xué)習(xí)的效率非常低。對于強化學(xué)習(xí)收斂速度較慢問題,本文在利用環(huán)境模型提高強化學(xué)習(xí)收斂速度的基礎(chǔ)上[10],將人類情感具有的趨利避害生存機理引入到環(huán)境模型經(jīng)驗知識的學(xué)習(xí)中。利用情感決策調(diào)整經(jīng)驗知識的學(xué)習(xí)強度,進(jìn)而加快機器人在線地完善環(huán)境模型的收斂速度。

環(huán)境模型是從一個狀態(tài)動作對(si+1,a)轉(zhuǎn)換到鄰近狀態(tài)強度值(si+1,r)的函數(shù),確定環(huán)境模型有2種方法:一是在學(xué)習(xí)的開始狀態(tài)時,根據(jù)已知數(shù)據(jù)離線確定模型;二是機器人在與環(huán)境接觸時在線構(gòu)建或完善環(huán)境模型。環(huán)境模型可以利用之前完成過的任務(wù)獲取的經(jīng)驗來構(gòu)建,機器人再反向的從模型中獲得經(jīng)驗知識,進(jìn)而幫助它學(xué)習(xí)最優(yōu)控制策略。因此在標(biāo)準(zhǔn)的Q-學(xué)習(xí)算法中引入自定義的經(jīng)驗知識函數(shù)H:S×A→R,此函數(shù)可在線保存狀態(tài)st下執(zhí)行相關(guān)動作at的經(jīng)驗信息。然后機器人利用人類情感具有的趨利避害生存機理,通過經(jīng)驗函數(shù)H(st,at)選擇最優(yōu)控制策略的經(jīng)驗信息,其相應(yīng)環(huán)境下情感-狀態(tài)-動作選擇規(guī)則如下:

步驟1初始化狀態(tài)st動作at下回報折扣和的數(shù)學(xué)期望Q(st,at),初始化情感模型離散事件et(e1,e2,…,en)值和個性因子ki值;

步驟2觀察當(dāng)前狀態(tài)st,更新et;

步驟3根據(jù) μt←et(e1,e2,…,en)更新情感輸出值;

步驟4使用行動選擇規(guī)則選擇出環(huán)境模型中記錄的經(jīng)驗知識引發(fā)積極情緒的狀態(tài)st動作at:

步驟5得到回報率r(st,at),同時觀察下一個狀態(tài)st+1;

步驟6根據(jù)式(3)更新Qt(st,at)函數(shù)值;

步驟7更新狀態(tài)st到st+1狀態(tài);

步驟8如果滿足學(xué)習(xí)結(jié)束條件,則轉(zhuǎn)到步驟9,否則轉(zhuǎn)到步驟2;

步驟9結(jié)束。

基于人工情感改進(jìn)的Q-學(xué)習(xí)算法描述的程序?qū)崿F(xiàn)流程如圖2所示。

圖2 改進(jìn)的Q-學(xué)習(xí)算法程序流程圖Fig.2 Flow chart of improved Q-learning algorithm

4 改進(jìn)Q-學(xué)習(xí)算法在機器人行為決策應(yīng)用及仿真

4.1 仿真試驗描述

機器人的任務(wù)是在的二維有障礙的柵格環(huán)境中路徑尋優(yōu),實驗環(huán)境如圖3所示。機器人在環(huán)境中的基本動作有上行、下行、左行、右行4種行進(jìn)動作,圖中每個柵格代表機器人的一種狀態(tài)。其中黑色部分為障礙物,為機器人的起始位置,T1,T2為機器人的目標(biāo)位置。環(huán)境中的所有事物都是靜止的,初始時對于機器人而言環(huán)境模型是未知的。機器人4個方向上配有探測障礙物的傳感器,傳感器將環(huán)境中每個狀態(tài)采集的信息記為離散事件 et(e1,e2,…,en)。機器人在行進(jìn)過程中如果與障礙物或邊界相碰,則返回上一狀態(tài)。實驗初始時機器人的目標(biāo)在T1位置,30個學(xué)習(xí)周期后,目標(biāo)變?yōu)闁鸥裆系腡2位置。

圖3 有障礙的二維柵格環(huán)境Fig.3 Two-dimensional grid environment barrier

在目標(biāo)導(dǎo)航任務(wù)時,立即回報設(shè)計為r={100,-50,-1},每個動作都是正確的,執(zhí)行后會得-1的獎勵(可以理解為消耗),完成導(dǎo)航任務(wù)可以獲得+100的獎勵,如果錯誤的執(zhí)行了基本動作則將得到-50的獎勵(相當(dāng)于懲罰)。折扣因子γ=0.9,學(xué)習(xí)效率η=0.1。

4.2 仿真試驗結(jié)果分析

實驗仿真結(jié)果如圖4所示。實驗開始的前30個學(xué)習(xí)周期,機器人使用帶情感系數(shù)的Q-學(xué)習(xí)算法,但不啟用情感輸出系數(shù),此時用常數(shù)代替情感系數(shù)μt,故其算法過程同利用環(huán)境模型的Q-學(xué)習(xí)算法一樣。此后的30個學(xué)習(xí)周期(即第31個學(xué)習(xí)周期開始),機器人分別使用利用環(huán)境模型的Q-學(xué)習(xí)算法和基于情感模型改進(jìn)的Q-學(xué)習(xí)算法,依次完成二維有障礙的柵格環(huán)境中路徑尋優(yōu)任務(wù)。

圖4 實驗仿真結(jié)果Fig.4 Experimental simulation result

實驗仿真結(jié)果可見第15個學(xué)習(xí)周期,2種學(xué)習(xí)算法的收斂性趨于平穩(wěn),第30個學(xué)習(xí)周期時已經(jīng)收斂到最優(yōu)。在圖4中可以看出機器人的目標(biāo)改變后(第31學(xué)習(xí)周期開始),需要消耗很多的步數(shù)到達(dá)新的目標(biāo),這是因為前期獲得的經(jīng)驗知識使機器人再次移動到原來的目標(biāo)T1。路徑S→T1→T2不是最佳的尋優(yōu)路徑,所以機器人再次重新嘗試新的策略。在第30到第40學(xué)習(xí)周期之間學(xué)習(xí)策略躍遷較大,直至算法收斂到最優(yōu)狀態(tài)。機器人路徑尋優(yōu)目標(biāo)T1的最優(yōu)策略回報為Vπ*(s1)=89,目標(biāo) T2最優(yōu)策略回報為Vπ*

(s2)=86。為了進(jìn)一步研究2種學(xué)習(xí)算法的收斂情況,利用最小二乘法對32到45周期內(nèi)的離散數(shù)據(jù)進(jìn)行3次多項式曲線擬合,得到的結(jié)果如圖5所示。

圖5 最小二乘法曲線擬合結(jié)果Fig.5 Least squares curve fitting result

從圖5的仿真結(jié)果不難看出,加入情感決策的Q-學(xué)習(xí)算法在第37學(xué)習(xí)周期趨于收斂到最優(yōu)策略,而利用環(huán)境模型的Q-學(xué)習(xí)算法在第42學(xué)習(xí)周期趨于收斂到最優(yōu)策略,由此說明前者用了較少的學(xué)習(xí)時間使算法收斂。2種學(xué)習(xí)算法的擬合曲線結(jié)果顯示,在32到38周期內(nèi)改進(jìn)Q-學(xué)習(xí)算法的曲線斜率要大于利用環(huán)境模型的Q-學(xué)習(xí)算法的擬合曲線斜率,也就是說前者較后者在最優(yōu)控制策略的學(xué)習(xí)收斂速度快。

雖然標(biāo)準(zhǔn)Q-學(xué)習(xí)算法利用環(huán)境模型較多的經(jīng)驗知識,縮短了機器人的學(xué)習(xí)周期,但是在線完善環(huán)境模型消耗較長時間。而本文提出的基于情感模型的Q-學(xué)習(xí)算法充分利用了情感決策,使機器人在線學(xué)習(xí)過程中動作的選擇由情感因素調(diào)控,而非單純的知識推理和邏輯判斷方法,加快了機器人在線完善環(huán)境模型的收斂速度。

5 結(jié)語

本文在基于環(huán)境模型的Q-學(xué)習(xí)算法基礎(chǔ)上引入情感行為決策,通過利用人類情感產(chǎn)生的趨利避害生存機理,來強化執(zhí)行任務(wù)過程中有利的經(jīng)驗信息,加快機器人在線完善環(huán)境模型的收斂速度。此外,降低了機器人在龐大的求解空間中盲目試錯的次數(shù),縮短了機器人的學(xué)習(xí)時間。實驗仿真結(jié)果證明了該算法可以提高機器人的自主決策及學(xué)習(xí)能力,驗證了該算法的有效性和實用性。將人工情感與人工智能相結(jié)合,設(shè)計出更智能化和擬人化的機器人,是智能及和諧機器人的發(fā)展趨勢。

[1]王志良.人工心理與人工情感[J].智能系統(tǒng)學(xué)報,2006,1(1):38-43.

[2]王國江,王志良,楊國亮,等.人工情感研究綜述[J].計算機應(yīng)用研究,2006(11):7-11.

[3]張迎輝,林學(xué)誾.情感可以計算—情感計算綜述[J].計算機科學(xué),2008,35(5):5-8.

[4]Mochida T,Ishiguro A,Aoki T,et al.Behavior arbitration for autonomous mobile robots using emotion mechanisms[C]//IEEE/RSJ International Conference on Intelligent Robots&Systems 95 Human Robot Interaction&Cooperative Robots,1995:516-521.

[5]LeDoux J,Bemporad J R.The emotional brain[J].Journal of the American Academy of Psychoanalysis,1997,25(3):525-528.

[6]王為.基于情感計算的機器人學(xué)習(xí)系統(tǒng)研究[D].浙江:浙江工業(yè)大學(xué),2009.

[7]王飛,王志良,趙積春,等.基于隨機事件處理的情感建模研究[J].微計算機信息,2005(3):101-102.

[8]王雪松,程玉虎.機器學(xué)習(xí)理論方法及應(yīng)用[M].北京:科學(xué)出版社,2009:56-57.

[9]高陽,陳世福,陸鑫.強化學(xué)習(xí)研究綜述[J].自動化學(xué)報,2004,30(1):86-100.

[10]張汝波.提高強化學(xué)習(xí)速度的方法研究[J].計算機工程與應(yīng)用,2001(22):38-40.

猜你喜歡
動作情感環(huán)境
長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
如何在情感中自我成長,保持獨立
孕期遠(yuǎn)離容易致畸的環(huán)境
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
環(huán)境
如何在情感中自我成長,保持獨立
動作描寫要具體
畫動作
主站蜘蛛池模板: 精品国产福利在线| 国产亚洲成AⅤ人片在线观看| 亚洲AV无码久久精品色欲| 中文字幕天无码久久精品视频免费 | 玖玖精品视频在线观看| 国产精品香蕉| 在线观看91精品国产剧情免费| 欧美激情伊人| 国产va在线观看免费| 2022国产无码在线| 亚洲国产综合精品一区| 亚洲av无码专区久久蜜芽| 88av在线| 免费人成视频在线观看网站| 久久不卡国产精品无码| 最新国产午夜精品视频成人| AV天堂资源福利在线观看| 欧美精品H在线播放| 精品成人一区二区| 国产91高跟丝袜| 精品国产免费观看| 夜夜爽免费视频| 波多野结衣无码AV在线| 毛片免费试看| 手机成人午夜在线视频| 亚洲美女视频一区| 亚洲AV成人一区国产精品| 欧美 国产 人人视频| 国产微拍一区二区三区四区| 91视频精品| 强乱中文字幕在线播放不卡| 中文字幕 91| 伊人色综合久久天天| 91欧美在线| 天堂在线www网亚洲| 97在线免费| 思思99热精品在线| 黄色成年视频| 国产jizz| 国产色网站| 国产jizz| 黄色网在线| 成人无码区免费视频网站蜜臀| 2021国产精品自拍| 男女男精品视频| 日日碰狠狠添天天爽| 亚洲无码91视频| 91福利免费视频| 97在线国产视频| 免费啪啪网址| 久久精品欧美一区二区| 欧美一区国产| 99热这里只有精品5| 日本久久网站| 99ri精品视频在线观看播放| 欧美日韩精品一区二区在线线| 色噜噜狠狠狠综合曰曰曰| 国产99精品久久| 国产精品综合久久久| 国产成人无码久久久久毛片| 日本成人在线不卡视频| 久久亚洲AⅤ无码精品午夜麻豆| 国产成本人片免费a∨短片| 91热爆在线| 一级毛片免费不卡在线| 91亚瑟视频| 国产精品成人免费综合| 无码精品国产dvd在线观看9久| 99激情网| 国产亚洲欧美在线中文bt天堂| 日韩国产精品无码一区二区三区 | 欧美日韩理论| 色综合热无码热国产| 欧美专区在线观看| 一本大道香蕉高清久久| 在线观看无码a∨| 国产福利2021最新在线观看| 国产欧美日韩视频一区二区三区| 国产一区二区网站| 丁香五月激情图片| 国产精品视频免费网站| 永久在线播放|