基于人工情感的Q-學(xué)習(xí)算法在機器人行為決策中的應(yīng)用

2015-01-27 03:02:31谷學(xué)靜高貝貝朱朝月

自動化與儀表 2015年7期

谷學(xué)靜，高貝貝，朱朝月

（華北理工大學(xué) 電氣工程學(xué)院，唐山 063009）

隨著計算機和人工智能技術(shù)的發(fā)展，智能機器人在人類的生產(chǎn)生活方面應(yīng)用愈加廣泛。為使機器人能夠產(chǎn)生擬人情感并與人類自然和諧地進(jìn)行人機交互[1]，將人工情感引入到機器人智能控制中逐漸成為人工智能領(lǐng)域一個新的研究方向。

目前大部分人工情感的研究集中在情感識別、情感建模及情感表達(dá)[2]，人工情感的研究不應(yīng)僅局限在和諧的人機交互，而應(yīng)充分發(fā)揮情感因素對機器人自主學(xué)習(xí)和行為決策的作用。在機器人的行為決策中引入人工情感，能夠使機器人更逼真地模擬人類智能行為。

強化學(xué)習(xí)是有效的機器學(xué)習(xí)方法之一。在強化學(xué)習(xí)算法的基礎(chǔ)上引入情感因素，有了情感模型的指導(dǎo)，學(xué)習(xí)和決策過程將具有更加明確的目的性和方向性，而不是在龐大的求解空間中盲目地嘗試[3]。首先，機器人根據(jù)外界環(huán)境的刺激模擬產(chǎn)生特定狀態(tài)下的情感值，并反向抉擇出引發(fā)正向情緒的經(jīng)驗知識。然后，機器人從擇優(yōu)的經(jīng)驗知識中學(xué)習(xí)最優(yōu)控制策略，以改善機器人行為決策中的學(xué)習(xí)效率和收斂速度，提高機器人的自主學(xué)習(xí)和自主行為決策能力。

1 人工情感建模

情感是人類對客觀事物的態(tài)度體驗，同人的切身需求有關(guān)。它能夠幫助人們在不同的需求下選擇恰當(dāng)?shù)男袨?，增強人類對周圍環(huán)境的自適應(yīng)能力[4]。文獻(xiàn)[5-6]的研究表明情感在智能決策中起著重要作用，位于大腦皮層邊緣系統(tǒng)的杏仁核能夠快速獲得感覺輸入，并做出迅速的情緒反應(yīng)。情緒自身便可激發(fā)行為動作，而不需理智思維的調(diào)控。這種急速的反應(yīng)可以幫助人類快速做出趨利避害的行動。

本文仿效情緒本身即可觸發(fā)行為的機制，實現(xiàn)機器人自然情感調(diào)控行為的功能，構(gòu)建了基于隨機事件處理的情感模型。機器人利用傳感器采集外界環(huán)境中的離散信號（如壓力、溫度、高度），將獲得的信號傳到情感模型中產(chǎn)生與之對用的情感狀態(tài)。其中情感模型的情感輸出符合人類的情感變化規(guī)律。積極的情緒狀態(tài)會成為行為的積極誘因，消極的情緒狀態(tài)則起消極誘因作用，情感在自主學(xué)習(xí)和自主行為決策中扮演著驅(qū)動角色。

情感模型系統(tǒng)的工作過程如下：首先將采集的一組傳感器信息作為一個離散事件 et（e1，e2，…en），根據(jù)當(dāng)前情感狀態(tài)把 et（e1，e2，…en）轉(zhuǎn)換為基本情緒向量 Xt（x1，x2，x3，x4）。然后將基本情緒向量 Xt（x1，x2，x3，x4）輸入到情感空間，得到模型輸出 Yt（y1，y2，y3，y4），嵌入該模型的機器人可以根據(jù)Yt做出帶有情感的決策。為了方便機器人在行為決策中應(yīng)用情感模型，將情感模型產(chǎn)生的情感均值Yt轉(zhuǎn)化為可以直接利用的數(shù)值，因此設(shè) μt， μt∈［0，1］為情感均值變換后的情感系數(shù)值。其情感模型系統(tǒng)框架和情感系數(shù)變換函數(shù)如圖1所示。

圖1 情感模型系統(tǒng)框架和情感系數(shù)變換函數(shù)Fig.1 Emotional factor model framework and emotional transformation function

圖中第一個節(jié)點代表正向與負(fù)向情緒分類函數(shù)，其中k+，k-分別為正向和負(fù)向情感函數(shù)的系統(tǒng)反饋系數(shù)，εt為對采集到外界刺激進(jìn)行修正后的值，η（+，-（i））為正向與負(fù)向情緒分類函數(shù)值。圖中第二個節(jié)點代表情感輸出值變換為情感系數(shù)的變換函數(shù)。具體情感模型系統(tǒng)原理論述見文獻(xiàn)[7]。

2 Q-學(xué)習(xí)算法

強化學(xué)習(xí)是從動物學(xué)習(xí)、參數(shù)擾動自適應(yīng)控制等理論演化出來的[8]。強化學(xué)習(xí)的目的是要學(xué)習(xí)從狀態(tài)到動作的最佳映射，以便獲得獎賞信號最大[9]。其中Q-學(xué)習(xí)算法在機器人行為最優(yōu)控制策略中應(yīng)用廣泛，它是Markov決策過程的一種演化形式。Q-學(xué)習(xí)的目標(biāo)是尋找一個策略π，使在學(xué)習(xí)的時間內(nèi)獲得的累積折扣回報Rdπ最大：

式中：γ（0＜γ＜1）為折扣因子；t=1，2，…，為每個時間步；rt為執(zhí)行每一步動作后的立即回報；i為到達(dá)最優(yōu)策略π時所經(jīng)歷的時間步數(shù)值。

Q（s，a）值是機器人在環(huán)境狀態(tài)下選擇對應(yīng)動作后執(zhí)行策略π的回報折扣和的數(shù)學(xué)期望：

式中：S=［s1，s2，…，st］為機器人在環(huán)境中的狀態(tài)集；A=［a1，a2，…，at］為對應(yīng)狀態(tài)選擇的動作集；rt為在狀態(tài) st下執(zhí)行動作 at得到的立即回報；P（st，at，st+1）為機器人在狀態(tài)st下執(zhí)行動作at轉(zhuǎn)移到下一個狀態(tài)st+1的概率。

實現(xiàn)在線Q-學(xué)習(xí)方法按如下的遞歸公式進(jìn)行：

式中：λ為學(xué)習(xí)率，控制學(xué)習(xí)速度，λ越大則收斂越快。但是，過大的λ有可能導(dǎo)致不收斂。在一定條件下當(dāng)t→∞ 時，式（3）進(jìn)行無窮次迭代，Qt（s，a）以概率 1收斂到關(guān)于最優(yōu)策略的Q*（s，a）。

3 基于人工情感改進(jìn)的Q-學(xué)習(xí)算法

Q-學(xué)習(xí)的目標(biāo)是在不確定的環(huán)境下根據(jù)評價信號來選擇最優(yōu)控制策略，可以理解為是一個在線最優(yōu)決策學(xué)習(xí)過程。由于Q-學(xué)習(xí)是一種不依靠環(huán)境模型進(jìn)行的自學(xué)習(xí)的算法，也就是機器人一點都不熟知外環(huán)境信息。它只能通過有限的試錯法來學(xué)習(xí)，因此學(xué)習(xí)的效率非常低。對于強化學(xué)習(xí)收斂速度較慢問題，本文在利用環(huán)境模型提高強化學(xué)習(xí)收斂速度的基礎(chǔ)上[10]，將人類情感具有的趨利避害生存機理引入到環(huán)境模型經(jīng)驗知識的學(xué)習(xí)中。利用情感決策調(diào)整經(jīng)驗知識的學(xué)習(xí)強度，進(jìn)而加快機器人在線地完善環(huán)境模型的收斂速度。

環(huán)境模型是從一個狀態(tài)動作對（si+1，a）轉(zhuǎn)換到鄰近狀態(tài)強度值（si+1，r）的函數(shù)，確定環(huán)境模型有2種方法：一是在學(xué)習(xí)的開始狀態(tài)時，根據(jù)已知數(shù)據(jù)離線確定模型；二是機器人在與環(huán)境接觸時在線構(gòu)建或完善環(huán)境模型。環(huán)境模型可以利用之前完成過的任務(wù)獲取的經(jīng)驗來構(gòu)建，機器人再反向的從模型中獲得經(jīng)驗知識，進(jìn)而幫助它學(xué)習(xí)最優(yōu)控制策略。因此在標(biāo)準(zhǔn)的Q-學(xué)習(xí)算法中引入自定義的經(jīng)驗知識函數(shù)H：S×A→R，此函數(shù)可在線保存狀態(tài)st下執(zhí)行相關(guān)動作at的經(jīng)驗信息。然后機器人利用人類情感具有的趨利避害生存機理，通過經(jīng)驗函數(shù)H（st，at）選擇最優(yōu)控制策略的經(jīng)驗信息，其相應(yīng)環(huán)境下情感-狀態(tài)-動作選擇規(guī)則如下：

步驟1初始化狀態(tài)st動作at下回報折扣和的數(shù)學(xué)期望Q（st，at），初始化情感模型離散事件et（e1，e2，…，en）值和個性因子ki值；

步驟2觀察當(dāng)前狀態(tài)st，更新et；

步驟3根據(jù) μt←et（e1，e2，…，en）更新情感輸出值；

步驟4使用行動選擇規(guī)則選擇出環(huán)境模型中記錄的經(jīng)驗知識引發(fā)積極情緒的狀態(tài)st動作at：

步驟5得到回報率r（st，at），同時觀察下一個狀態(tài)st+1；

步驟6根據(jù)式（3）更新Qt（st，at）函數(shù)值；

步驟7更新狀態(tài)st到st+1狀態(tài)；

步驟8如果滿足學(xué)習(xí)結(jié)束條件，則轉(zhuǎn)到步驟9，否則轉(zhuǎn)到步驟2；

步驟9結(jié)束。

基于人工情感改進(jìn)的Q-學(xué)習(xí)算法描述的程序?qū)崿F(xiàn)流程如圖2所示。

圖2 改進(jìn)的Q-學(xué)習(xí)算法程序流程圖Fig.2 Flow chart of improved Q-learning algorithm

4 改進(jìn)Q-學(xué)習(xí)算法在機器人行為決策應(yīng)用及仿真

4.1 仿真試驗描述

機器人的任務(wù)是在的二維有障礙的柵格環(huán)境中路徑尋優(yōu)，實驗環(huán)境如圖3所示。機器人在環(huán)境中的基本動作有上行、下行、左行、右行4種行進(jìn)動作，圖中每個柵格代表機器人的一種狀態(tài)。其中黑色部分為障礙物，為機器人的起始位置，T1，T2為機器人的目標(biāo)位置。環(huán)境中的所有事物都是靜止的，初始時對于機器人而言環(huán)境模型是未知的。機器人4個方向上配有探測障礙物的傳感器，傳感器將環(huán)境中每個狀態(tài)采集的信息記為離散事件 et（e1，e2，…，en）。機器人在行進(jìn)過程中如果與障礙物或邊界相碰，則返回上一狀態(tài)。實驗初始時機器人的目標(biāo)在T1位置，30個學(xué)習(xí)周期后，目標(biāo)變?yōu)闁鸥裆系腡2位置。

圖3 有障礙的二維柵格環(huán)境Fig.3 Two-dimensional grid environment barrier

在目標(biāo)導(dǎo)航任務(wù)時，立即回報設(shè)計為r=｛100，-50，-1｝，每個動作都是正確的，執(zhí)行后會得-1的獎勵（可以理解為消耗），完成導(dǎo)航任務(wù)可以獲得+100的獎勵，如果錯誤的執(zhí)行了基本動作則將得到-50的獎勵（相當(dāng)于懲罰）。折扣因子γ=0.9，學(xué)習(xí)效率η＝0.1。

4.2 仿真試驗結(jié)果分析

實驗仿真結(jié)果如圖4所示。實驗開始的前30個學(xué)習(xí)周期，機器人使用帶情感系數(shù)的Q-學(xué)習(xí)算法，但不啟用情感輸出系數(shù)，此時用常數(shù)代替情感系數(shù)μt，故其算法過程同利用環(huán)境模型的Q-學(xué)習(xí)算法一樣。此后的30個學(xué)習(xí)周期（即第31個學(xué)習(xí)周期開始），機器人分別使用利用環(huán)境模型的Q-學(xué)習(xí)算法和基于情感模型改進(jìn)的Q-學(xué)習(xí)算法，依次完成二維有障礙的柵格環(huán)境中路徑尋優(yōu)任務(wù)。

圖4 實驗仿真結(jié)果Fig.4 Experimental simulation result

實驗仿真結(jié)果可見第15個學(xué)習(xí)周期，2種學(xué)習(xí)算法的收斂性趨于平穩(wěn)，第30個學(xué)習(xí)周期時已經(jīng)收斂到最優(yōu)。在圖4中可以看出機器人的目標(biāo)改變后（第31學(xué)習(xí)周期開始），需要消耗很多的步數(shù)到達(dá)新的目標(biāo)，這是因為前期獲得的經(jīng)驗知識使機器人再次移動到原來的目標(biāo)T1。路徑S→T1→T2不是最佳的尋優(yōu)路徑，所以機器人再次重新嘗試新的策略。在第30到第40學(xué)習(xí)周期之間學(xué)習(xí)策略躍遷較大，直至算法收斂到最優(yōu)狀態(tài)。機器人路徑尋優(yōu)目標(biāo)T1的最優(yōu)策略回報為Vπ*（s1）＝89，目標(biāo) T2最優(yōu)策略回報為Vπ*

（s2）＝86。為了進(jìn)一步研究2種學(xué)習(xí)算法的收斂情況，利用最小二乘法對32到45周期內(nèi)的離散數(shù)據(jù)進(jìn)行3次多項式曲線擬合，得到的結(jié)果如圖5所示。

圖5 最小二乘法曲線擬合結(jié)果Fig.5 Least squares curve fitting result

從圖5的仿真結(jié)果不難看出，加入情感決策的Q-學(xué)習(xí)算法在第37學(xué)習(xí)周期趨于收斂到最優(yōu)策略，而利用環(huán)境模型的Q-學(xué)習(xí)算法在第42學(xué)習(xí)周期趨于收斂到最優(yōu)策略，由此說明前者用了較少的學(xué)習(xí)時間使算法收斂。2種學(xué)習(xí)算法的擬合曲線結(jié)果顯示，在32到38周期內(nèi)改進(jìn)Q-學(xué)習(xí)算法的曲線斜率要大于利用環(huán)境模型的Q-學(xué)習(xí)算法的擬合曲線斜率，也就是說前者較后者在最優(yōu)控制策略的學(xué)習(xí)收斂速度快。

雖然標(biāo)準(zhǔn)Q-學(xué)習(xí)算法利用環(huán)境模型較多的經(jīng)驗知識，縮短了機器人的學(xué)習(xí)周期，但是在線完善環(huán)境模型消耗較長時間。而本文提出的基于情感模型的Q-學(xué)習(xí)算法充分利用了情感決策，使機器人在線學(xué)習(xí)過程中動作的選擇由情感因素調(diào)控，而非單純的知識推理和邏輯判斷方法，加快了機器人在線完善環(huán)境模型的收斂速度。

5 結(jié)語

本文在基于環(huán)境模型的Q-學(xué)習(xí)算法基礎(chǔ)上引入情感行為決策，通過利用人類情感產(chǎn)生的趨利避害生存機理，來強化執(zhí)行任務(wù)過程中有利的經(jīng)驗信息，加快機器人在線完善環(huán)境模型的收斂速度。此外，降低了機器人在龐大的求解空間中盲目試錯的次數(shù)，縮短了機器人的學(xué)習(xí)時間。實驗仿真結(jié)果證明了該算法可以提高機器人的自主決策及學(xué)習(xí)能力，驗證了該算法的有效性和實用性。將人工情感與人工智能相結(jié)合，設(shè)計出更智能化和擬人化的機器人，是智能及和諧機器人的發(fā)展趨勢。

[1]王志良.人工心理與人工情感[J].智能系統(tǒng)學(xué)報，2006，1（1）：38-43.

[2]王國江，王志良，楊國亮，等.人工情感研究綜述[J].計算機應(yīng)用研究，2006（11）：7-11.

[3]張迎輝，林學(xué)誾.情感可以計算—情感計算綜述[J].計算機科學(xué)，2008，35（5）：5-8.

[4]Mochida T，Ishiguro A，Aoki T，et al.Behavior arbitration for autonomous mobile robots using emotion mechanisms[C]//IEEE/RSJ International Conference on Intelligent Robots&Systems 95 Human Robot Interaction&Cooperative Robots，1995：516-521.

[5]LeDoux J，Bemporad J R.The emotional brain[J].Journal of the American Academy of Psychoanalysis，1997，25（3）：525-528.

[6]王為.基于情感計算的機器人學(xué)習(xí)系統(tǒng)研究[D].浙江：浙江工業(yè)大學(xué)，2009.

[7]王飛，王志良，趙積春，等.基于隨機事件處理的情感建模研究[J].微計算機信息，2005（3）：101-102.

[8]王雪松，程玉虎.機器學(xué)習(xí)理論方法及應(yīng)用[M].北京：科學(xué)出版社，2009：56-57.

[9]高陽，陳世福，陸鑫.強化學(xué)習(xí)研究綜述[J].自動化學(xué)報，2004，30（1）：86-100.

[10]張汝波.提高強化學(xué)習(xí)速度的方法研究[J].計算機工程與應(yīng)用，2001（22）：38-40.