基于注意力的循環PPO算法及其應用

2024-01-24 09:20:40呂相霖臧兆祥李思博王俊英

計算機技術與發展 2024年1期

呂相霖,臧兆祥,李思博,王俊英

(1.三峽大學水電工程智能視覺監測湖北省重點實驗室,湖北宜昌 443002;2.三峽大學計算機與信息學院,湖北宜昌 443002)

0 引言

未知環境中的智能決策過程又稱為部分可觀測馬爾可夫決策過程(POMDP),智能體通過掌握局部環境的觀測信息進行問題分析與建模并智能化地做出后續決策。POMDP問題符合現實中很多實際應用,并且現已被廣泛用于軍事兵力推演[1-2]、自動駕駛[3-4]、資源調度[5-6]、機器人控制[7-11]、游戲[12-13]等領域。

目前在POMDP下構建狀態的方法主要有使用歷史信息、信念狀態和循環神經網絡。王學寧等人[14]提出了基于記憶的強化學習算法CPnSarsa(λ),通過對狀態進行重新定義,智能體結合歷史信息來區分混淆狀態。在部分可觀測環境中,信念狀態[15](belief,表示隱狀態的分布)常被認為是具有馬爾可夫性,根據這一特點,Egorov[16]使用POMDP任務的信念狀態作為DQN輸入對策略進行求解。Meng Lingheng等[17]通過將記憶引入TD3算法,提出了基于長短時記憶的雙延遲深度確定性策略梯度算法(LSTM-TD3)。Matthw Hausknecht[18]等通過將長短期記憶與深度Q網絡相結合,修改DQN以處理噪聲觀測特征。劉劍鋒等人[19]在DDQN算法中引入對比預測編碼(CPC)通過顯式地對信念狀態進行建模獲取歷史的地圖編碼信息進行訓練。耿俊香等人[20]將注意力機制引入到多智能體DDPG算法的價值網絡中,有選擇地關注來自其他智能體的信息,使其在復雜的環境中成功實現智能體間合作、競爭等互動。劉國名等學者[21]嘗試了將智能體與環境交互收集到的環境信息經過卷積神經網絡處理后輸入到LSTM神經網絡,利用歷史信息引導智能體的探索起到了很好的效果,但在收斂速度上仍存在著不足。在此基礎上,該文提出了一種融合注意力機制與循環神經網絡的深度強化學習算法(即ARPPO算法)進行POMDP的探索任務研究。實驗結果表明ARPPO算法在存在動態改變的POMDP環境中有著更強的探索能力與適應性,且收斂速度較已有的A2C,LSTM-PPO等算法更快。

1 相關技術

1.1 LSTM神經網絡

循環神經網絡(RNN)由于在當前時間片會將前一時間片的隱狀態作為當前時間片的輸入,故在時序數據的處理上表現優異。LSTM神經網絡是一種改進的RNN,主要用于解決RNN存在的長期依賴問題。它通過引入3個門控結構和1個長期記憶單元控制信息的流通和損失,從而避免梯度消失和梯度爆炸問題,其結構如圖1所示。

圖1 LSTM網絡結構

其中,f表示遺忘門,i表示輸入門,o表示輸出門,c表示記憶細胞狀態。前一時間的隱狀態ht-1與序列xt輸入到網絡中,yt為網絡最終的輸出結果,同時更新隱狀態和記憶細胞狀態。其計算公式如式1～式5所示。

ft=σ(Wfxt+Ufht-1+bf)

(1)

it=σ(Wixt+Uiht-1+bi)

(2)

ot=σ(Woxt+Uoht-1+bo)

(3)

ct=ft?ct-1+it?tanh(Wcxt+Ucht-1+bc)

(4)

ht=ot?tanh(ct)

(5)

其中,Wf,Wi,Wo,Uf,Ui和Uo表示權重矩陣;bf,bi,bo和bc為偏置向量;σ代表Sigmoid激活函數;?表示哈達瑪積;tanh為雙曲正切函數。

1.2 注意力機制

自注意力機制利用特征本身固有的信息進行注意交互。神經網絡通過引入自注意力機制,解決了模型信息過載的問題,提高了網絡的準確性和魯棒性。自注意力機制的計算分為兩個部分,第一部分是計算輸入的序列信息中任意向量之間的注意力權重,第二部分是根據所得注意力權重計算輸入序列的加權平均值,圖2為自注意力機制原理。

圖2 自注意力機制原理

其中,X表示輸入的序列數據,其詳細計算公式如式6～式9所示。

Q=XWQ

(6)

K=XWK

(7)

V=XWV

(8)

(9)

其中,Q,K和V分別表示查詢矩陣、鍵矩陣和值矩陣,它們由輸入的X分別與對應的權重矩陣相乘所得,Attention(Q,K,V)由Q與K矩陣的轉秩相乘的結果除以Q,K和V維數的平方根,然后乘以矩陣V所得。

多頭注意力能夠使模型在多個不同位置上關注到更多來自不同子空間的信息,最后將各空間所得信息進行拼接,能夠更好地對重要信息增加權重,其計算公式為式10和式11,WO表示計算頭部注意力實例線性變換的矩陣。

(10)

Multi(Q,K,V)=Concat(headi,…,headh)WO

(11)

1.3 近端策略優化算法

在深度強化學習領域中,通常將無模型的深度強化學習算法分為Q值函數方法和策略梯度算法[22]。近端策略優化算法(Proximal Policy Optimization,PPO)屬于策略梯度算法,其原理是將策略參數化,通過參數化的線性函數或神經網絡表示策略。

PPO算法其中的一個核心是重要性采樣,主要目的是用于評估新舊策略的差別有多大,重要性采樣比很大或者很小就會限制新策略,不能讓新策略和舊策略偏離太遠,其公式如式12所示。

(12)

另一個核心是梯度裁剪,PPO算法的目標函數表達式為:

LCLIP(θ)=E[min(r(θ)A,clip(r(θ)))]

(13)

A=Q(s,a)-V(s,a)

(14)

其中,θ為策略參數,A為優勢函數,Q(s,a)代表在狀態s下采取動作a的累積獎勵值,V(s,a)為狀態估計值。clip為裁減函數,梯度裁剪的作用則是使各動作的概率分布保持相近,基于上限1+ε與下限1-ε處進行截斷操作,以此避免策略更新出現較大差異。 PPO算法的參數更新公式如下:

(15)

通過基于優勢函數的Actor-Critic方法進行回報值估計,則會產生方差較小而偏差較大的問題。該文采取的PPO算法采用了泛化優勢估計(GAE)權衡方差和偏差的問題,公式為:

(16)

λ=0時,advantage 的GAE表示退化成時序差分方法(one-step TD);λ=1時,advantage的GAE表示退化成蒙特卡洛方法;λ在(0,1)區間時,表示在偏差和方差之間做出折衷。

2 融合注意力與LSTM的ARPPO模型

如圖3所示,融合注意力機制與LSTM網絡的近端策略優化算法主要分為4個模塊,即卷積網絡模塊、注意力模塊、長短時記憶網絡模塊和PPO算法模塊。

圖3 ARPPO模型

具體步驟如下:

(1)對智能體與環境交互獲取的圖像編碼信息進行卷積處理后提取特征。

(2)將提取的特征輸入到注意力網絡,捕捉信息的關聯性,一定程度上實現多變量解耦或部分解耦。

(3)將注意力網絡輸出的數據信息,引入LSTM網絡提取數據的時域特性。

(4)分別輸入到強化學習的Actor-Critic框架中進行策略提升與訓練。

卷積網絡模塊對圖像編碼信息進行特征提取,考慮到計算復雜度與過擬合問題,設計了兩層卷積網絡提取數據的深層多維信息。第一層卷積網絡輸入通道數為3,輸出通道數為32,卷積核大小為4,步長為1。第二層卷積網絡輸入通道數為32,輸出通道數為64,卷積核大小為4。

注意力編碼模塊由多頭注意力網絡、全連接層、dropout層和batch-norm層組成。多頭注意力網絡中采用多頭數為8。第一層全連接網絡使用64個輸入通道和2 048個輸出通道。第二層全連接網絡使用2 048個輸入通道和64個輸出通道。卷積輸出的信息進入注意力網絡層進行權重疊加,并使用全連接層進行數據調整。兩層norm使用的eps值為10-5。并且模型使用了dropout層防止出現過擬合現象。

PPO算法基于Actor-Critic框架,其中Actor網絡通過輸入處理后的特征信息獲取當前各項動作選取的概率數組,Critic網絡對當前所處狀態進行評價與估量,返回一個狀態評估值。Actor網絡中的第一層全連接層的輸入通道數為64,輸出通道數為64。第二層全連接層輸入通道為64,輸出通道為7。Critic網絡中的第一層全連接層的輸入通道數為64,輸出通道數為64。第二層全連接層輸入通道為64,輸出通道為1。

3 實驗設計

3.1 實驗環境

為驗證所提出的ARPPO算法基于部分可觀測環境的訓練效果與學習情況,采用Gym-Minigrid[23]網格環境。該環境中智能體在導航時僅能獲取其朝向方向7×7大小的圖像編碼信息,且無法感知墻壁后方信息。該文基于Minigrid已有的環境做出改動,設計了Empty-16×16-v1和FourRooms-v1兩種不同難度的地圖環境,旨在驗證算法對于動態變化環境的性能與表現。

圖4 Empty-16×16-v1

圖4為改進的環境Empty-16×16-v1,智能體在障礙物左上側位置上隨機初始化朝向,智能體僅有的視野范圍內學會在相應位置保持正確朝向并行進,且需要在受中間圍墻的視野影響下學會找到圍墻中間區域出現的門并且學會開門動作,獲取圍墻另一側的環境信息,最終找到右下方的目標點。并且每一回合產生的門位置是隨機變化的。圖5為改進的環境FourRooms-v1,智能體同樣位于左上角位置朝向隨機,智能體需要在僅有的視野范圍內離開左上方的房間并且找到右下角的目標點, 不同的是該環境存在更多的動態變化因素, 每一回合地圖中的四堵墻的缺著口是變化的,這為智能體探索目標點帶來了相應的困難,該環境旨在測驗算法應對動態環境的可適用性。

圖5 FourRooms-v1

3.2 獎勵設計

獎勵是對每回合智能體與環境交互產生的回報。該文設計了一種隨步數變化而變化的獎勵函數,旨在引導智能體在一個episode內以更少的完成步數獲取更高的獎勵值,避免出現局部收斂使得智能體停止探索任務的情況。具體如式17所示。

(17)

3.3 訓練過程與結果分析

實驗采用Ubuntu18.04,Python版本為3.9,基于torch1.13搭建的深度強化學習框架。實驗設備為含有兩張顯存大小為8G的GTX 1080顯卡的服務器。為驗證所提出的ARPPO算法的性能表現,設計了ARPPO算法的消融實驗,證明并非僅因LSTM網絡或注意力機制使得算法效果提升。同時也選擇了A2C算法與RA2C算法(A2C-LSTM算法)進行對比實驗,由于ARA2C算法在實驗過程中表現效果很差,通過實驗測試在兩張地圖上均不能收斂,故不作為該項實驗的比較算法。除特定的注意力編碼器和循環神經網絡參數以外,所有算法都共用相同的參數:迭代次數為4,訓練批大小為256,學習率為0.001,折扣率為0.99,采用optimizer優化器。循環神經網絡的recurrence參數設置為4。

基于Actor-Critic框架的網絡層采用tanh激活函數,其余使用了激活函數的網絡層均為relu激活函數。三種算法結構均使用相同的幀編碼器,表1總結了六種算法結構的異同之處。

表1 各算法結構設置

在Empty-16×16-v1和FourRooms-v1環境下對六種算法進行了訓練效果的測試,采用多進程的訓練方式加快深度強化學習算法的收斂。在每個進程中生成隨機種子不同的訓練環境,智能體每與環境交互128次后將數據信息存入經驗池,然后隨機從經驗池中抽取batch-size大小的數據信息進行參數更新,采用各進程的平均策略損失值與平均價值損失值作為目標函數的loss值項進行反向傳播與參數更新,最終平均獎勵值體現總體的訓練效果。六種算法在Empty-16×16-v1環境下的訓練獎勵值變化如圖6(a)所示,橫坐標的frames表示智能體與環境交互的總步數。由于環境中隨機波動因素較小,門的位置僅在圍墻中間部分波動,智能體在五種算法情況下都能成功找到最終目標。其中,ARPPO能夠以較快的速度達到最高獎勵值并完全收斂,得益于該算法采用了注意力機制,獲取到了更多的重要關鍵信息,忽略了一些無關緊要的編碼信息,并且LSTM網絡對歷史信息編碼,能夠對更多的信息進行充分利用,做出更佳的判斷與決策。值得注意的是,面對存在小部分隨機因素的環境,僅融合循環神經網絡或注意力機制模塊的PPO算法不能很好地對隨機變化的因素進行判斷與決策。而且A2C算法對于探索該類非固定場景具有良好的表現,這是由于A2C算法不存在重要性采樣,策略更新變化幅度大,對于動態變化因素適應力比PPO算法更強。然而參考歷史數據信息進行訓練的LSTM-A2C算法表現效果并不理想,某一地圖場景訓練所得的策略參數很難適用于其他不同場景,訓練效果甚至比不上僅用卷積網絡處理特征信息的A2C算法。

圖6 不同算法的性能對比

具有更多動態變化因素的FourRooms-v1環境,每一回合地圖中間的四面墻會隨機產生一個位置缺口,智能體要學會在每一回合中找到墻壁缺口并最終找到右下角的目標點。六種算法在該環境的訓練表現如圖6(b)所示。表2體現了表現各算法在兩張地圖上的詳細收斂情況。數據表明ARPPO算法綜合收斂速度比表現較好的APPO算法與RPPO算法分別提高了37.96%與37.65%,且從圖5與圖6的每回合的步數使用情況來看,ARPPO算法在收斂之后的穩定性也不錯。綜上表明,ARPPO算法明顯比RPPO算法收斂更快且收斂之后比APPO算法更具有穩定性,這是由于LSTM網絡為樣本數據建立時序依賴關系,而引入注意力機制則強化了長距離中重要且關鍵的樣本數據之間的依賴關系,解決了隨著時間跨度增加,前階段所采集的樣本數據對后續的策略選擇與價值估計的影響呈指數衰減這一現象。

表2 各算法收斂所用的環境交互次數(×106)

為進一步驗證算法收斂后的穩定性,選取了最后30個episode的訓練情況作為參考對象,從具體步數來探究算法收斂后的穩定性。各類算法在Empty-16×16-v1與FourRooms-v1的訓練情況如圖7所示。

圖7 最后30個回合的算法步數變化情況。

由圖7中發現,PPO算法與APPO算法收斂后步數變化幅度較大,對于動態隨機因素的適應性稍弱,環境發生改變時,并不能選取最優的探索路徑。RPPO算法與ARPPO算法收斂后的穩定性很強,對于動態改變的環境仍具有較好的適應能力。

由于環境動態改變的隨機性,各回合離目標點的距離不確定,故僅平均步數并不能客觀地體現出各算法的穩定性,所以還選取了30個episode的步數標準差作為評估對象。表3中數據前項為平均步數,后項為標準差。綜合數據體現出ARPPO算法與RPPO算法的穩定性最優,每回合都能采取更優的探索路徑完成探索任務。但在兩種算法穩定性相當的情況下,ARPPO算法的收斂速度比RPPO算法的更快。

表3 各算法最后30個episode的平均步數與標準差

4 結束語

針對部分可觀測環境因缺乏全局信息導致探索困難這一問題,提出了一種基于注意力機制和循環神經網絡的深度強化學習算法,即ARPPO算法。該算法引入注意力機制和LSTM網絡雖然在計算量和復雜度上有一定的增加,但網絡模型結構設計簡單,僅設計了一層多注意力模型提高智能體的信息提取能力,相比復雜的注意力模型而言,計算量與復雜度增加相對較小,并且結合注意力與LSTM網絡增強了智能體的長時記憶能力,使其能夠在動態隨機性強的環境保持長時記憶,在環境中獲取重要且關鍵的信息,從而能夠快速地學習到有效的探索策略,使得算法達到收斂效果,最終完成探索任務。基于Minigrid設計了兩項部分可觀測環境的探索任務驗證ARPPO算法的效果,實驗結果表明ARPPO算法在收斂速度方面優于已有的RPPO,A2C等算法,同時兼顧了穩定性,具有較強的泛化能力。該文為解決部分可觀測環境的探索問題提供了一種有效的方法,也為未來的研究提出了一些可能的方向,比如在更為復雜和具有更多動態變化因素的環境中測試ARPPO算法,并嘗試使用多層注意力模塊或Bi-LSTM網絡來進一步提升其性能。