基于經驗指導的深度確定性多行動者-評論家算法

2019-07-30 11:26:54陳紅名姜玉斌張琳琳

計算機研究與發展 2019年8期

陳紅名劉全,2,3,4 閆巖何斌姜玉斌張琳琳

1(蘇州大學計算機科學與技術學院江蘇蘇州 215006)2(江蘇省計算機信息處理技術重點實驗室(蘇州大學) 江蘇蘇州 215006)3(符號計算與知識工程教育部重點實驗室(吉林大學) 長春 130012)4(軟件新技術與產業化協同創新中心南京 210000)

目前，強化學習已經廣泛應用于仿真模擬、工業控制和博弈游戲等領域[1-5].強化學習(reinforcement learning)的目標是學習一個最優策略使得智能體(agent)能夠獲得最大的累積獎賞[6].強化學習方法大體上可以分為3類：基于值函數的方法、策略搜索方法(或策略梯度方法)和行動者-評論家方法.

基于值函數的方法通過學習一個值函數獲得一個最優策略，這種方法適用于離散動作空間的任務，對于連續動作空間來說是并不適用的.例如Rummery和Niranjan[7]提出的Sarsa算法、Watkins等人[8]提出的Q-Learning算法.對比基于值函數的方法，策略搜索方法并沒有學習值函數而是直接學習一個策略，使得累積獎賞最大化.例如Williams提出的基于蒙特卡洛方法[9](Monte Carlo methods, MC)的強化(reinforce)算法和使用基線的強化(reinforce with baseline)算法[10]，后者是前者的泛化.行動者-評論家算法結合了基于值的方法和策略搜索方法，其中參數化的策略稱為行動者，學習到的值函數稱為評論家.例如Barto和Sutton等人[11]提出的行動者-評論家算法(actor-critic， AC)，Peters和Schaal提出的自然行動者-評論家方法[12](natural actor-critic， NAC).

傳統強化學習面臨的問題是對于高維狀態動作空間感知能力不足.最近幾年隨著深度學習(deep learning， DL)的流行，由于其對高維狀態動作空間有很好的表示能力，因此深度學習與傳統強化學習的結合產生了深度強化學習(deep reinforcement learning， DRL)這一研究熱點.這一類方法在一些游戲和機器人控制任務上取得了不錯的成果.比如基于Q-Learning的深度Q網絡(deep Q-network， DQN)[13]算法在49個Atari 2600游戲中的實驗結果超過以往所有算法，并且可以媲美職業人類玩家的水平.在DQN之上有很多改進的算法版本，例如在此基礎上提出的競爭網絡結構[14](dueling network architecture， DNA)和可用于連續動作空間的歸一化優勢函數連續Q學習[15](continuous Q-Learning with normalized advantage functions， NAF)等，還有基于行動者-評論家方法的深度確定性策略梯度[16](deep deterministic policy gradient, DDPG)方法，以及異步優勢行動者-評論家[17](asynchronous advantage actor-critic， A3C)方法等.此外深度強化學習在其他研究方向比如圖像處理、自然語言處理等都有一些重要應用[18-20].

基于值函數的方法像深度Q網絡等，大多是根據值函數通過ε-greedy策略來選擇動作，即以ε的概率隨機選擇動作，以1-ε的概率選擇具有最大值的動作.這類方法在離散動作空間任務中具有很好的效果，而對于連續控制任務卻不是很適用[21]，這是因為連續動作空間中具有最大值的動作不易確定.基于策略梯度的方法可以分為隨機策略梯度[22](stochastic policy gradients， SPG)和確定性策略梯度[23](deterministic policy gradients， DPG).隨機策略梯度在選擇動作時輸出是每個可能的動作的概率，這類方法也不太適用于連續動作空間任務.而確定性策略梯度方法在選擇行動時，策略的輸出是一個確定的動作，因此可以很好地應用于連續控制任務.確定性策略梯度與AC方法的結合形成了確定性AC方法[23](deterministic actor-critic, DAC)，比如DDPG.這類方法雖然可以很好地適用于連續動作空間，但是其性能很大程度上取決于探索方法的好壞.它們一般通過在動作中加入外部噪聲實現探索或者使用高斯策略實現探索，但這些探索方式實際上是盲目的，因此在一些連續控制任務表現不是很好.

為了提高確定性AC方法在連續控制問題上的性能，本文提出了基于經驗指導的深度確定性多行動者-評論家算法(experience-guided deep deter-ministic actor-critic with multi-actor，EGDDAC-MA). EGDDAC-MA并不需要外部探索噪聲源，而是從自身優秀經驗中學習一個指導網絡，對行動的選擇和評論家網絡的更新進行指導.此外為了緩解單個網絡的學習壓力，EGDDAC-MA使用了多個行動者網絡，各個行動者網絡之間互不干擾，執行情節的不同階段.

實驗上，本文首先對比基于經驗的指導相比于外部探索噪聲的優勢，證明了多行動者機制可以有效緩解網絡學習波動，然后比較了深度確定性策略梯度算法(deep deterministic policy gradient, DDPG)、置信區域策略優化算法[24](trust region policy optimization, TRPO)、對TRPO進行改進的近端策略優化算法(proximal policy optimization Algorithms， PPO)和EGDDAC-MA在多個連續任務上的性能.本文還使用了專家經驗來取代自身優秀經驗進行實驗，發現在提供專家經驗條件下，EGDDAC-MA可以快速學到一個不錯的策略.

1 背景知識

1.1 強化學習和隨機行動者-評論家算法

強化學習問題通常使用Markov決策過程(Markov decision process, MDP)進行建模.一個MDP問題可以用一個四元組(S,A,R,P)表示，其中S為狀態集合，A為動作集合，R為獎賞函數，P為狀態轉移函數.在與環境E交互過程中，每個時間步agent在狀態st執行動作at，獲得獎賞rt+1并到達下一個狀態st+1，這里st∈S，at∈A，rt=R(st,at)，S?Rns，A?Rna.Agent的目標是最大化累積獎賞：

(1)

作為強化學習中的一種重要方法，隨機行動者-評論家算法(stochastic actor-critic)使用隨機策略梯度來更新策略，其中行動者(actor)和評論家(critic)進行了參數化處理，這里用π(a|s,θπ):S→P(A)和Q(s,a|θq)分別表示行動者(策略)和評論家(動作值函數)，其中，θπ和θq是參數，P(A)表示動作空間概率分布.策略和動作值函數可以是線性的，也可以使用神經網絡表示.行動者-評論家算法的目標是尋找一個最優策略使得累積獎賞最大化.

在強化學習中，無論是狀態值函數還是動作值函數都滿足貝爾曼方程：

Qπ(st,at)=Est～E,at～π,rt+1=R(st,at)[rt+1+
γEat+1～π[Qπ(st+1,at+1)]].

(2)

式(2)中，由于期望回報是不可知的，所以值函數在隨機行動者-評論家算法中是用來做評估的，用于計算TD 誤差(TD error)：

δ=rt+1+γQ(st+1,at+1|θq)-Q(st,at|θq),

(3)

其中，γ是折扣因子，根據隨機策略梯度理論[6](stochastic policy gradient theorem)，策略π(a|s,θπ)參數更新所使用的梯度可以表示為

(4)

(5)

(6)

其中,αθq，αθπ是梯度更新的步長參數.

行動者-評論家算法的模型如圖1所示：

Fig. 1 The diagram of Actor-Critic framework圖1 行動者-評論家算法

根據圖1，算法首先初始化策略和值函數，進入循環，在每個時間步t，策略在狀態st選擇動作at并執行，環境給出下一個狀態st+1和獎賞rt+1作為反饋，然后使用式(3)計算出TD誤差，最后使用式(5)和(6)來更新策略和值函數參數，重復執行以上步驟直至收斂.

1.2 深度確定性策略梯度算法

強化學習使用深度神經網絡來逼近值函數時，會表現得不穩定甚至會發散.因此同DQN中一樣，深度確定性策略梯度算法(deep deterministic policy gradient， DDPG)使用了目標網絡和經驗重放2個機制.

深度確定性策略梯度算法是確定性策略梯度算法與行動者-評論家算法的結合.與隨機策略梯度中定義的策略形式不同.在確定性行動者-評論家方法中用π(s|θπ):S→A表示行動者網絡，注意S指向的是動作空間而不是動作空間的概率分布，用Q(s,a|θq)來表示評論家網絡，這里θπ和θq表示網絡參數.同時使用π(s|θπ′)和Q(s,a|θq′)表示目標行動者網絡和目標評論家網絡.

根據確定性策略梯度理論[23](deterministic policy gradient theorem)，確定性策略的策略梯度可以表示為

(7)

DDPG評論家的優化目標是最小化損失函數：

L(θq)=Est～E,at=π(st|θπ),rt+1=R(st,at)
[(Q(st,at|θq)-yt)2]，

(8)

其中：

yt=rt+1+γQ(st+1,π(st+1|θπ′)|θq′)，

(9)

注意在yt中，動作是由目標行動者網絡選擇的，狀態-動作對的值是由目標評論家網絡評估的.

為解決探索問題，DDPG中使用的噪聲是通過奧恩斯坦-烏倫貝克(Ornstein-Uhlenbeck， OU)過程[25]生成的時間相關噪聲.這里使用參數φ和σ表示為

nt←-nt-1φ+N(0,σI).

(10)

最終動作為

at=π(st|θπ)+nt.

(11)

目標網絡使用了“soft”的更新方式

θ′←τθ+(1-τ)θ′.

(12)

DDPG中使用的經驗重放機制要求算法在每個時間步將得到的經驗放入經驗池.在訓練時，算法從經驗池中隨機抽取批量經驗用于訓練.

2 算法

Fig. 2 An overview of EGDDAC-MA圖2 EGDDAC-MA結構示意圖

2.1 多行動者-評論家模型

一般來說AC方法中只會在同一個情節中使用一個行動者網絡比如DDPG，或者是多個行動者網絡分別并行執行不同的情節比如像A3C，又或者像MAAC[26](multi-agent actor-critic)一樣通過多個agent之間合作學習.而EGDDAC-MA中定義的多個行動者網絡，在情節之中不是并行的，也沒有交流與合作，而是在同一個情節中針對不同階段使用不同的行動者網絡.對于學習任務，EGDDAC-MA將任務情節進行階段劃分，每個階段配置單獨的行動者網絡和經驗池.

某些任務在情節的不同階段可能由于狀態空間和動作空間之間的映射變化造成學習波動，對于單個行動者網絡來說就會很難學習(3.4節部分進行實驗說明).而多個行動者網絡，它們在各自所控制的階段學習，互不干擾，在一定程度上緩解了學習的波動.此外，單個行動者網絡學習率是固定，但是對于多個行動者網絡來說，其每個階段的學習率是可以不同的.這樣實際上對于每一個情節，EGDDAC-MA使用了多個策略進行控制.

模型中還有一個編碼過程，這個過程是嵌入到行動者網絡中的.其輸入的是狀態st，輸出狀態信號sst，對于具有較高維度的狀態空間，sst的維度要比st的維度要低，sst會作為行動者網絡和指導網絡的輸入.實際上在狀態空間中，有許多狀態是相似的，那么在進行動作選擇時，它們的最優動作很可能是相同的.通過編碼過程的降維，將狀態空間映射到低維空間中，這樣就可以使得相似的狀態在一定程度上重合，減小了狀態空間的大小.并且優秀的經驗會以元組(sst,at)的形式放入經驗池B′用于訓練指導網絡，從而加速G(ss|θg)的學習.

要注意的是，EGDDAC-MA中并沒有把狀態信號sst用于評論家網絡，這是因為編碼層的參數在不斷更新，因此同一個狀態在編碼層中得到的狀態信號會不斷變化，這樣就不利于評論家網絡進行評估.此外，評論家網絡也沒有創建多個，因為評論家網絡在進行網絡參數更新時，使用了當前狀態-動作對的值函數Q(st,at|θq)作為預測值，使用后繼狀態來計算目標值，然后通過反向傳播進行參數更新.在預測值和目標值的計算之中不僅使用了前一個狀態，還使用了后一個狀態，而樣本是從經驗池中隨機抽樣的，無法判斷樣本中后繼狀態是否屬于下一個階段，這樣在階段連接處的狀態，用其來進行訓練時就不好計算評論家訓練所需的目標值，因此模型中就沒有使用多個評論家的結構.

EGDDAC-MA在學習過程中，每個時間步，首先判斷該時間步屬于的階段，使用對應階段的行動者網絡來生成原始動作.更新網絡參數時，只有對應的那一個行動者網絡會被更新，并通過確定性策略梯度理論計算梯度:

(13)

EGDDAC-MA的目標行動者網絡的更新也是使用“soft”更新方式.其評論家網絡的更新由于受到指導網絡的影響，將在2.2節詳細介紹.

2.2 基于經驗的指導

連續動作空間的一個挑戰是探索問題的解決.一般來說，離散動作空間問題的探索是通過改變動作的選擇概率來實現的.而連續動作空間中由于動作的連續性不方便為每個動作分配相應的概率，因此通過改變選擇概率來實現探索就不適用于連續動作空間.由于動作是連續變化的，因此可以通過直接改變動作來實現探索，通常是直接在動作空間中加上外部探索噪聲，比如DDPG中使用的OU噪聲.但是這種探索是盲目的，并不能有效地學習到優秀經驗.與DDPG使用外部噪聲不同，本文提出的EGDDAC-MA并不需要額外的噪聲源，而是通過自身優秀經驗指導學習.

在DDPG算法的學習過程中，agent會遇到一些具有高回報的軌跡，這些軌跡中包含有許多有用的信息，但是這些信息并沒有被有效利用.因此，為了利用這些經驗，EGDDAC-MA中定義了一個存儲優秀經驗的經驗池B′.B′的大小是一定的，不同于普通經驗池的是，其存放經驗的過程是其本身的進化過程.此外基于這個經驗池，定義了一個指導網絡G(ss|θg).

對于普通的經驗池，在每個時間步，根據該時間步所屬的階段，經驗會以五元組(st,at,rt+1,st+1,sst+1)的形式放入相應的經驗池中，這里的sst+1在式(19)中用于指導評論家更新.對于經驗池B′，并不是在每個時間步放入經驗，而是在每個情節結束時，先判斷該情節是否是優秀的情節，若是，則放入B′中，否則舍去.注意放入經驗時，是以情節經驗[(ss0,a0),(ss1,a1),…,T]的形式放入的，T是情節結束標志.每個情節是否優秀是相對的，會隨著學習進程而變化.其判斷標準如下:

(14)

其中：

(15)

表示已經放入經驗池B′中的最近k個優秀情節的回報均值，m表示第m個情節，Gm表示其回報.

指導網絡G(ss|θg)是在B′上通過監督學習而來的,其訓練所用的損失函數為

L(θg)=E[(G(sst|θg)-at)2].

(16)

指導網絡G(ss|θg)在進化的經驗池B′上通過監督學習學習，這樣G(ss|θg)學習到的經驗也是不斷進化的.并且經驗池B′中的經驗是比普通經驗池中的經驗更好的，而經驗網和行動網事實上都是狀態到動作的映射，因此在進行動作選擇時，可以使用經驗網為動作加上一個指導項

(17)

其中,ξ是干擾系數，0<ξ?1.通過式(17)，指導網絡會引導行動者網絡向具有高回報的動作方向進行選擇.

由梯度式(13)可知評論家網絡也影響著行動者網絡的學習.根據式(11)，DDPG只在動作空間中加入探索噪聲，而EGDDAC-MA中的指導網絡G(ss|θg)不僅指導動作的選擇而且還對評論家網絡的更新進行指導.評論家網絡更新所使用的標簽值式(9)的改寫為

(18)

qt+1=qt+1+ξ(Q(st+1,
G(sst+1|θg)|θq′)-qt+1)，

(19)

yt=rt+1+γqt+1φ，

(20)

其中，φ是情節是否結束的標志，若情節結束則其值為0，否則為1.最終評論家網絡更新所使用的損失函數表示為

(21)

每次在進行動作選擇時，指導網絡G(ss|θg)通過式(17)指導動作的選擇，并且通過式(19)指導評論家網絡的學習.由于經驗池B′中的經驗集合是普通經驗池中經驗集合的子集，所以當行動者網絡收斂時，指導網絡也就自然收斂了.此時，式(17)和式(19)中的指導也就不存在了.可以看出EGDDAC-MA與DDPG一樣都屬于異策略(off-policy)學習，即學習的策略和執行的策略是不一樣的.整個算法的過程如算法1所示.

算法1.EGDDAC-MA.

② FOREPISODE=1,2,…,M

③ 情節回報G=0，空的情節軌跡Trace，獲取初始狀態s1；

④ FORt=1,2,…,T

⑤ 判斷情節所屬階段n；

⑦ 加入指導：at=at+ξ(G(sst|θg)-at)；

⑧ 執行動作at并獲取獎賞rt+1和后繼狀態st+1；

⑨ 累積回報：G=G+rt+1；

⑩ 通過行動者網絡中的編碼層對st+1進行處理，得到sst+1；

更新評論家網絡參數；

3 實驗

3.1 實驗平臺及實驗介紹

本文采用了OpenAI GYM平臺[27]上Mujoco物理模擬器[28]中的6個連續性控制任務作為實驗環境.GYM是開發和對比強化學習的一個開源工具包，其提供了各種連續控制性任務的環境接口，旨在促進機器人、生物力學、圖形和動畫以及其他需要快速精確仿真的領域的研究和開發，為人工智能研究者提供了豐富的模擬實驗環境.此外，為了進一步說明算法的適用性，本文還額外增加了2個PyBullet連續任務.PyBullet強化學習環境也是基于GYM平臺的，使用的是Bullet物理模擬器.整體來說PyBullet強化學習環境要比Mujoco環境更難.

本文使用的6個Mujoco連續任務包括：

1) Ant.使3D四足螞蟻形態機器人學會快速向前行走，如圖3所示；

2) HumanoidStandup.使3D人形態機器人學會快速站立；

3) Humanoid.使3D人形態機器人學會行走；

4) HalfCheetah.使2D-獵豹形態機器人學會快速奔跑；

5) InvertedDoublePendulum.平衡具有2個關節的平衡桿；

6) Reacher.使2D手臂形態機器人伸向指定位置.

Fig. 3 Ant圖3 四足螞蟻形態機器人

使用的2個PyBullet連續任務包括：

1) AntBullet.是類似于Mujoco中Ant的連續任務，只是加重了Ant的重量，來鼓勵其行走過程中以更多條腿接觸地面；

2) Walker2DBullet.任務是使雙足機器人學會行走，產生更加逼真的慢節奏動作，如圖4所示：

Fig. 4 Walker2DBullet圖4 Bullet中的2D行走任務

本文首先說明優秀經驗篩選方法的效果，以及基于經驗的指導機制和多行動者機制的效果，然后對比了EGDDAC-MA,DDPG,TRPO和PPO這4種算法的性能，最后研究使用專家經驗取代自身優秀經驗對EGDDAC-MA的影響.本文實驗使用Intel?Xeon?CPU E5-2680處理器，使用NVIDIA Tesla P40圖形處理器對深度學習運算進行輔助加速計算.

3.2 參數設置

本文實驗中所使用的DDPG算法其網絡結構和參數設置與參考文獻中設置一樣，TRPO和PPO算法來自是OpenAI baselines[29]的深度強化學習算法集.在EGDDAC-MA中，其使用的評論家網絡與DDPG算法中的評論家網絡設置一樣.EGDDAC-MA的每一個編碼層包含2層，第1層有300個神經網絡節點，第2層有100個網絡節點.每個行動者網絡包含2層，第1層有200個神經網絡節點，第2層有100個神經網絡節點.EGDDAC-MA的指導網絡也包含2層，第1層200個神經網絡節點，第2層有100個神經網絡節點.EGDDAC-MA的每一個普通經驗池容量是300 000，而經驗池B′的容量是100 000，是普通經驗池1/3.干擾系數ξ=1×10-5，mini-bach的大小是64，τ=0.001，學習率γ=0.99，k=50.評論家網絡的學習率是1×10-3，指導網絡的學習率是0.000 2，行動者網絡的學習率是1×10-5.每個Mujoco環境下每個算法訓練的總時間步數是250萬步，除了Reacher中是100萬步，這是因為Reacher在100萬步內可以學習到一個穩定的策略.此外，2個PyBullet環境下每個算法訓練的總時間步數是400萬步.由于實驗中使用了多個不同環境，為了統一參數，EGDDAC-MA都是以60個時間步作為一個階段來設置的.每個情節的最長時間步設置為1 000.

3.3 優秀經驗篩選方法的效果

為了說明通過式(14)和式(15)的篩選，經驗池B′中的經驗在變好，這里通過均值μ=1，方差σ2分別為0.1，1，5，10，20的正態分布來做一個模擬實驗.實驗中會定義一個經驗池B′，每個情節只是正態分布生成的一個隨機變量，然后使用這個隨機變量作為該情節的回報，同時情節經驗也用這個隨機變量表示，在B′存放經驗時，就使用式(14)和式(15)來判斷情節是否優秀，若優秀則將該情節經驗也就是對應的隨機變量(也表示情節回報)放入B′.模擬中k取的10，經驗池容量為100，情節總數為100 000，模擬結果如圖5所示.第1幅圖顯示的是放入經驗池中的最近k個情節的平均回報隨時間步數的變化.第2幅圖顯示的是放入經驗池中的所有情節的平均回報隨時間步數的變化.從圖5可以看出，雖然均值是1，但是通過使用式(14)和式(15)對優秀經驗進行判定，無論方差多大，最近k個情節的均值，和整個經驗池的均值都是向著大于1的方向進化的，這說明經驗池中的經驗整體上在變得越來越好.

Fig. 5 The results of normal distribution simulating episodic return 圖5 正態分布模擬情節回報值的結果

3.4 基于經驗的指導和多行動者機制的優勢

為了說明基于經驗的指導和多行動者機制的優勢，本文在InvertedDoublePendulum任務上對比了EGDDAC-MA，EGDDAC-One actor和DDPG的性能.首先為了說明基于經驗指導的方法優于外部噪聲探索，這里對比只使用一個行動者網絡的EGDDAC-One actor和使用外部OU噪聲探索的DDPG.對比結果如圖6所示，圖6中橫坐標為訓練時間步，縱坐標為平均回報.

Fig. 6 The average return in InvertedDoublePendulum圖6 在Inverte-dDoublePendulum中的平均回報對比

可以看見DDPG在整個訓練過程中，平均回報處于較低值，而且沒有上升趨勢，這說明基于外部OU噪聲的探索，并沒有探索到好的經驗供agent學習.但EGDDAC-One actor可以獲得更高的平均回報，即使整個訓練過程中波動很大.這是因為基于經驗的指導機制可以引導agent傾向選擇具有高回報軌跡，而外部的OU噪聲探索是沒有方向性的盲目探索.

為了緩解圖6中出現的波動，我們在基于經驗的指導的基礎上加上多行動者機制，如圖6所示.這里對比EGDDAC-MA和EGDDAC-One actor 在InvertedDoublePendulum中的學習表現.可以看出EGDDAC-MA沒有出現像EGDDAC-One actor中的劇烈波動，而是在一定程度波動內穩步上升.這說明多行動者機制可以緩解單個網絡學習壓力.而且可以看到經過200萬步后網絡學習的波動被控制在一定范圍之內.

3.5 對比不同算法的性能

本文在Mujoco的6個連續任務和PyBullet 的2個連續任務中對比了EGDDAC-MA，DDPG，TRPO和PPO這4種算法的性能.其中TRPO和PPO也都是基于AC方法的改進，與DDPG和EGDDAC-MA不同的是，TRPO和PPO兩者都使用高斯策略實現探索，并且沒有使用經驗回放，而是在線進行更新.實驗結果如圖7所示.

在Ant環境中，DDPG整體上呈現先上升后下降的學習趨勢.TRPO和PPO的平均回報雖然隨著學習的進行會有增長趨勢，但是兩者最終的平均回報值都維持在一個較低值.而EGDDAC-MA 的表現比其他3種算法都好，最終平均回報值維持在4 000左右.此外在HalfCheetah，HumanoidStandup和Reacher中，EGDDAC-MA也是明顯優于其他方法.這是因為DDPG以及TRPO和PPO算法的探索是盲目的，而基于優秀經驗的指導機制，會引導agent去選擇具有高回報的軌跡，因此EGDDAC-MA會表現的更好.在Humanoid中，EGDDAC-MA前期表現不如TRPO和PPO，可能是因為TRPO和PPO這類方法直接是在線學習的不需要經驗累積，而EGDDAC-MA的經驗池B′中的優秀經驗需要經歷一定的時間步去收集，這個問題在Inverted-DoublePendulum中也可以看到.但是EGDDAC-MA最終在Humanoid和 InvertedDoubleP-endulum兩個環境中都超過TRPO和PPO.

從圖7的實驗結果可以看出:EGDDAC-MA的性能很大程度上取決于經驗池B′中經驗的優秀程度，因此下一個實驗我們將展現使用專家經驗取代自身優秀經驗后，EGDDAC-MA的學習效果.

Fig. 7 The average returns of four approaches in eight continues control tasks圖7 4種方法在8個不同連續任務中的平均回報

3.6 使用專家經驗的EGDDAC-MA

相比基于自身優秀經驗的EGDDAC-MA，基于專家經驗的EGDDAC-MA其指導網絡的輸入不再是狀態信號而是狀態，而且B′中直接裝入的是預先訓練得到的專家經驗.

整個實驗是在InvertedDoublePendulum環境中進行的，探索了不同干擾因子下，基于專家經驗的EGDDAC-MA的學習效果.實驗結果如圖8所示，圖8中的前5幅圖片，分別是在ξ=0.9，0.7,0.5,0.3,0.1下，基于專家經驗的EGDDAC-MA的行動者網絡的學習表現.要注意的是，為了體現行動者網絡的學習效果，圖8中的每一個綠點都表示沒有指導網絡的指導時，只使用行動者網絡來生成的情節回報.也就是在1 000 000時間步的訓練過程中，每隔500時間步就會單獨使用行動者網絡來生成一個情節，因此每一個ξ下，都有2 000個綠點.圖8中紅線表示專家水平.圖8中最后一幅圖片對比訓練過程中不同ξ下的只使用行動者網絡生成的平均情節回報隨時間步數的變化.

從圖8可以看出，在ξ=0.9時，行動者網絡的情節回報雖然有向上趨勢，但是最終基本上維持在一個較低值.在ξ=0.7時，情節回報的向上趨勢更加明顯，但大部分回報值都很低.在ξ=0.5時,可以看見200 000時間步后，行動者網絡很快學到一個不錯策略，情節回報值基本上達到專家水平，只有少數情節回報值較低.在ξ為0.1和0.3時，隨著ξ值的降低，情節回報值上升趨勢會下降,而且大多數情節回報值在專家水平之下.

Fig. 8 The effect of using expert experiences圖8 使用專家經驗的效果

整體上來看，在ξ=0.5時，在基于專家經驗的指導下，行動者網絡可以快速學習到一個不錯的策略，而在ξ高于0.5或低于0.5時，行動者網絡學習的并不好.出現這種現象的原因是，若ξ值過高，高于0.5，此時行動的選擇，主要取決于指導網絡，而行動者網絡對行動決策貢獻較小，這樣得到的經驗是不利于行動者網絡學習的.若ξ值過低，低于0.5，此時行動的選擇，主要取決于行動者網絡自身，指導網絡對行動決策貢獻較小，而行動者網絡學習的方向并不一定是專家策略的方向，這樣行動者網絡的決策與指導網絡的決策就可能出現沖突，而且指導網絡同樣會影響評論家網絡的學習，因此也不利于行動者網絡學習.只有ξ=0.5時，行動的決策受行動者網絡和指導網絡均等程度上的控制，評論家的學習也是這樣，從而行動者網絡可以快速的學習一個不錯的策略.與基于專家經驗的EGDDAC-MA在ξ=0.5時表現最好不同，基于自身優秀經驗的EGDDAC-MA的ξ一定要是一個較小的值.這是因為指導網絡所使用的經驗是自身優秀經驗，是行動者網絡學習所使用的自身經驗的子集，從而指導網絡和行動者網絡學習的策略的方向是一致的.因此，在選擇動作和更新評論家網絡時，指導網絡只需要做一個微弱的指導就可以.

4 結束語

連續控制問題一直是強化學習研究的一個重要方向.確定性策略梯度方法和深度學習結合可以在一定程度上解決這類問題.但是這類方法在一些連續任務中的表現并不是很好，這很大程度上是由于探索不當造成的.本文提出了一種不需要外部探索噪聲的基于經驗指導的深度確定性多行動者-評論家算法(EGDDAC-MA).

EGDDAC-MA中通過定義多個行動者網絡來應對情節的不同階段，這樣可以緩解情節內部波動對單個網絡學習造成的壓力，并通過在自身優秀經驗上學習得來的指導網絡為動作執行以及評論家網絡更新提供指導.此外本文不僅使用自身優秀經驗來訓練指導網絡，也嘗試了使用專家經驗來訓練，并且發現使用專家經驗，在ξ=0.5時EGDDAC-MA可以更快的學到一個不錯的策略.最終，Mujoco上的模擬實驗結果顯示:相比于DDPG，TRPO和PPO，EGDDAC-MA在大多數連續控制任務上均取得更好的效果.

實際上，本文采用的是簡單的階段劃分方法，也取得了不錯的效果，未來的一些工作可以使用無監督方法來對情節進行自適應的階段劃分來提高階段劃分的有效性.