999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于余弦相似度的多模態模仿學習方法

2023-06-07 03:40:34郝少璞徐平安張立華黃志剛
計算機研究與發展 2023年6期
關鍵詞:模態策略方法

郝少璞 劉 全,2,3,4 徐平安 張立華 黃志剛

1 (蘇州大學計算機科學與技術學院 江蘇 蘇州 215006)

2 (軟件新技術與產業化協同創新中心(南京大學)南京 210023)

3 (符號計算與知識工程教育部重點實驗室(吉林大學)長春 130012)

4 (江蘇省計算機信息處理技術重點實驗室(蘇州大學)江蘇 蘇州 215006)

模仿學習[1-2](imitation learning,IL)在不顯式設計強化學習獎賞信號的情況下,從專家樣本中模仿專家策略.近年來模仿學習已經成功應用于自動駕駛、機器控制和自然語言處理等領域,并成為人工智能領域研究的熱點之一.模仿學習方法包含行為克隆方法[3]和逆向強化學習[4-5](inverse reinforcement learning,IRL)方法.

行為克隆方法無需設定獎賞函數,使用經典的監督學習方法建立從狀態到動作的映射函數,不需要與環境交互即可學習專家策略.由于行為克隆方法難以準確表征復雜狀態—動作空間中的映射關系,導致其在復雜連續狀態空間任務中表現不佳.逆向強化學習方法從專家樣本中學習獎賞函數,構建馬爾可夫決策過程,并利用強化學習方法學習專家策略.與行為克隆方法相比,逆向強化學習方法中不存在復合誤差問題,且具有較好的魯棒性與泛化性.

Ho 等人[6]將生成對抗網絡[7](generative adversarial network,GAN)中的極小極大博弈思想應用到模仿學習中,提出了生成對抗模仿學習(generative adversarial imitation learning,GAIL)方法.GAIL 從占有率度量的角度出發,以最大因果熵為正則化項,通過極小極大博弈的方式,解決模仿學習問題.與傳統逆向強化學習方法相比,GAIL 在解決大規模的模仿學習問題時,具有優異的性能[8].

GAIL 使用JS(Jensen Shannon)散度衡量專家策略與當前策略之間的差異,并通過最小化該差異,促使當前策略逼近專家策略.但是使用JS 散度作為度量方式可能會導致策略出現梯度消失問題.針對該問題,Zhang 等人[9]以f-散度作為度量方式提出了GAIL的變體:學習f-散度的生成對抗模仿學習(learningf-divergence for generative adversarial imitation learning,f-GAIL).f-GAIL 自動從f-散度家族中學習最優差異度量,并學習一種能夠產生專家行為的策略.此外,Zhang等人[10]提出一種基于Wasserstein 距離的對抗模仿學習方法(Wasserstein distance guided adversarial imitation learning,WDIL).該方法不僅引入Wasserstein 距離,使對抗訓練過程中獲得更適合的度量,而且通過探索獎賞函數的形狀適應不同的任務,進一步提升方法的性能.

GAIL 及其大部分擴展方法都假設專家樣本來自單一模態策略,忽略了專家策略由多個模態構成,導致智能體學習到的策略難以滿足專家策略的多樣性.f-GAIL 和WDIL 方法雖然在絕大部分模仿學習任務中表現不俗,但均未考慮模式塌縮問題.在GAIL中鑒別器負責計算樣本來自專家樣本分布的概率,而策略負責與環境交互,產生趨近專家樣本分布的狀態-動作對.在策略更新過程中,策略傾向于朝著更容易欺騙鑒別器的若干個模態的方向進行更新,而忽略不易于欺騙鑒別器的模態,這便是GAIL 中出現模式塌縮問題的原因.

近年來,為了解決GAIL 中的模式塌縮問題,針對生成對抗框架[11-13]提出了大量的改進.Merel 等人[14]對GAIL 進行改進,提出了條件生成對抗模仿學習(conditional generative adversarial imitation learning,CGAIL).CGAIL 將模態標簽加入專家樣本數據中,并在策略訓練過程中使用模態標簽作為條件約束,學習專家樣本中的多模態數據.CGAIL 雖然使用模態標簽作為指導,解決模式塌縮問題,但并沒有考慮使用專家樣本中的抽象特征.Lin 等人[15]提出利用輔助分類器區分模態的GAIL 方法,即基于輔助分類器的生成對抗模仿學習(generative adversarial imitation learning with auxiliary-classifier,ACGAIL).ACGAIL在CGAIL 基礎上引入輔助分類器,有效利用了不同模態專家數據中的抽象特征.ACGAIL 雖然引入模態的特征來區分不同模態策略,但分類器通過共享參數與鑒別器協作,導致分類器和鑒別器之間的更新可能會互相影響.Li 等人[16]基于最大互信息原理提出基于互信息最大化的生成對抗模仿學習(information maximizing generative adversarial imitation learning,InfoGAIL).InfoGAIL 在模態標簽信息未給定的情況下,通過互信息最大化識別專家樣本中的顯著因素,然后使用這些顯著因素學習多模態專家策略.Wang等人[17]受到基于變分自編碼器的生成對抗網絡[18]VAE-GANs 的啟發,將變分自編碼器(VAE)與GAIL結合,提出了基于變分自編碼器的生成對抗模仿學習VAE-GAIL.InfoGAIL 和VAE-GAIL 雖然使用不同的方式推斷模態標簽,但是兩者都在不考慮任務上下文和語義信息的情況下區分潛在模態標簽,導致推斷出的模態標簽并不能完全表征真實的專家樣本.

大部分基于GAIL 的方法利用已有專家樣本模態標簽,或由推斷出的模態標簽來區分多種模態策略.但是這些方法使用單一策略對模態進行區分,在訓練過程中不同模態策略共享網絡參數,導致不同模態策略之間的更新相互影響.而且,這些方法僅僅建立了模態標簽到相應專家策略的映射,而沒有利用模態特征之間的關系.為了更好地解決模式塌縮問題,提出了基于余弦相似度的多模態模仿學習方法(multi-modal imitation learning method with cosine similarity,MCS-GAIL).MCS-GAIL 使用余弦相似度衡量不同模態專家樣本間的特征關系,并引入多個策略學習多模態的專家策略,提高不同模態策略間的區分度.此外,余弦相似度可以提高當前策略分布對專家策略分布的擬合程度,使當前策略組能夠更好地學習到不同模態的專家策略.

本文主要貢獻有3 點:

1)提出一種新的生成對抗模仿學習框架,該框架使用策略組代替單一策略來學習模態信息.在模仿學習過程中,利用預訓練的編碼器提取樣本的特征向量,并根據特征向量計算余弦項,以余弦項作為約束來更新策略組.

2)根據新的生成對抗模仿學習框架,提出了一種新的極小極大博弈公式,并通過理論分析,證明了所提方法的收斂性.

3)在2 個經典的模仿學習實驗平臺上,將MCSGAIL 與現有解決模式塌縮的方法進行對比,驗證了MCS-GAIL 的優越性.

1 背景知識

1.1 強化學習

強化學習[19-20](reinforcement learning,RL)過程是智能體與環境進行交互,學習最優決策的過程.智能體依據現有策略采取動作,從環境中獲得獎賞,同時轉移到下一個狀態.強化學習方法利用馬爾可夫決策過程(Markov decision process,MDP)對強化學習過程進行建模,定義有限空間下的馬爾可夫決策過程為四元組(S,A,R,γ).

1)S表示狀態空間,st∈S表示在時刻t智能體所處的狀態.

2)A表示動作空間,at∈A(s)表示在時刻t智能體所選擇的動作.

3)R:S×A→R表示獎賞函數.對于任意st∈S,at∈A(s),其獎賞值可以表示為r|st,at),其中r表示智能體在狀態轉移后得到的環境反饋獎賞,P(st+1,r|st,at)表示智能體位于狀態st采取動作at時轉移到狀態st+1并得到獎賞r的概率.

4)γ ∈[0,1]為折扣因子,表示未來獎賞對當前狀態的重要性程度.γ越小,未來獎賞對當前狀態的累積獎賞影響越小,反之則越大.

強化學習的目標是通過最大化累積折扣獎賞求解最優策略 π*.為了更好地評估策略性能,在策略訓練過程中,通常使用狀態函數或動作函數評估策略的累積折扣獎賞.定義狀態函數值為Vπ(s)=其中T表示智能體與環境交互到達終止狀態的時刻.定義動作函數為Qπ(s,a)=為了減小方差、提高策略的學習效率,將策略的優勢函數[21]定義為Aπ(s,a)=Qπ(s,a)-Vπ(s).在策略更新過程中,智能體一般使用負的價值函數(狀態函數、動作函數或優勢函數)作為策略損失.將從開始時刻到終止時刻,智能體與環境交互的完整過程稱為1 個情節,另外,用 τ表示1個情節的狀態-動作對順序序列.將1 個情節獎賞的和記為回報.

1.2 GAIL

模仿學習的目的是在沒有人工設定獎賞函數的情況下,學習與專家樣本分布的盡可能相似策略.早期的模仿學習方法表征方式和獎賞函數的設定都比較簡單,而且獎賞函數設置通常由人工經驗選取,所以早期模仿學習方法存在表達能力有限、實現難度大、訓練不穩定等問題.

GAN 是一種通過對抗性過程估計生成樣本分布的方法,其主要由生成器G和鑒別器D這2 個組件構成.生成器負責根據輸入的噪聲z,生成趨近專家樣本分布的新樣本;鑒別器負責判別樣本為真實樣本的概率.GAN 是一個極小極大博弈過程,通過不斷地更新迭代,使鑒別器難以判斷生成器輸出的樣本是否為真實樣本.對GAN 進行極小極大博弈的公式為

其中pz(z)為輸入鑒別器的先驗噪聲分布,pdata(x)為訓練樣本的分布.

GAIL 方法結合GAN 與模仿學習,將模仿學習過程抽象為求解獎賞函數的逆向強化學習過程和求解最優策略的強化學習過程.GAIL 示意圖如圖1 所示,在強化學習過程中,智能體與環境進行交互,采樣得到狀態-動作對樣本.一方面,這些樣本被用來求解獎賞函數,進一步利用獎賞函數構建優勢函數,智能體使用優勢函數作為損失更新策略.另一方面,將這些樣本作為采樣樣本,用于鑒別器的后續更新.在逆向強化學習過程中,使用存儲的采樣樣本和專家樣本作為輸入更新鑒別器,提高鑒別器區分專家樣本與采樣樣本的能力.在GAIL 中,智能體采集的狀態-動作對等價于GAN 中生成器的輸出.與GAN 模型不同,GAIL 中的鑒別器不僅負責區分采樣樣本和專家樣本,而且需要根據鑒別器計算的概率值求解獎賞函數.GAIL 通過進行強化學習過程與逆向強化學習過程的交替迭代,最終得到最優策略.

Fig.1 Illustration of GAIL圖1 GAIL 示意圖

GAIL 進行極小極大博弈的公式為

其中,π為智能體的策略,負責指導智能體與環境交互.D為 鑒別器,負責區分專家樣本與采樣樣本;pe為已知的專家樣本的分布;H(π)?Eπ[-logπ(a|s)]表示將策略的因果熵作為正則化項(在狀態s下 選擇動作a的概率分布熵);η為熵正則化系數.為了簡明表達,后續部分基于GAIL 架構的公式中均省去了H(π)項.在求解最優策略的過程中,為了構建完整的MDP 四元組,更新策略 π,定義獎賞函數為r=-log(1-D(s,a)).通俗地理解,策略采樣樣本分布越接近專家樣本分布pe,則由鑒別器給出該樣本來自專家樣的概率值越大,獎賞值r越大.

1.3 多模態模仿學習

GAIL 假設專家樣本由單一模態的專家策略產生,即單一風格的專家策略.實際上,專家策略可能由多個不同風格的子策略構成.在GAIL 的訓練過程中,策略模型在更新的過程中會朝著更容易欺騙鑒別器模態策略的方向更新,導致最終的生成樣本分布只能滿足部分甚至單一的專家樣本分布,因此難以學習到完整的多模態專家策略.多模態的模仿學習方法不再假設專家策略模態是唯一的,而是認為專家策略是由多個模態的子策略構成的.多模態模仿學習方法在這種設定下研究如何更好地完成多模態的模仿學習任務,緩解GAIL 中的模式塌縮問題.

目前,對于GAIL 的模式塌縮問題的解決方法大致分為2 類:一類是有監督的GAIL 方法,該類方法在學習多模態策略時,需要使用專家樣本的模態標簽信息,例如CGAIL,ACGAIL 等;另一類是無監督的GAIL 方法,此類方法從沒有模態標簽的專家樣本中學習多模態策略,例如VAE-GAIL,InfoGAIL.按照模態標簽數據類型的不同,多模態的GAIL 方法可劃分為離散模態標簽與連續模態標簽的多模態模仿學習方法.其中CGAIL,ACGAIL,InfoGAIL 的模態標簽均為離散的形式,而VAE-GAIL 推斷的模態隱變量為連續的形式.

另外Fei 等人[22]將各個模態定義為不同的技能,在GAIL 模型基礎上增加了輔助選擇器,提出了Triple-GAIL.在Triple-GAIL 中,輔助選擇器根據智能體所處的不同狀態,選擇適合的技能.

1.4 余弦相似度

余弦相似度(cosine similarity)又稱余弦相似性,是一種通過計算2 個向量之間的余弦值來評估兩者相似程度的方法.當2 個向量正交時,則稱它們線性無關,其余弦相似度為0;當2 個向量平行且同向時,它們的余弦相似度為1.定義在線性空間 R中有限維空間 V 中任意2 個非零向量α,β ∈R.α 和 β的余弦相似度可以定義為

余弦相似度反映了向量之間的相關性,向量之間的余弦值越大,表示2 個向量包含的相似信息越多.在MCS-GAIL 中,將智能體根據不同模態策略分別采集的樣本和專家樣本輸入編碼器.編碼器根據不同模態的狀態-動作對,輸出相應的特征向量.對于不同模態的樣本,編碼器輸出的特征向量各不相同.另外,將不同模態的專家樣本輸入編碼器,得到不同模態特征向量的信息也各不相同.在采樣樣本與專家樣本中,相同模態樣本的特征向量應該是相似的.使用余弦相似度衡量特征向量的相似度,并將余弦項加入智能體的策略損失中,對策略組進行梯度下降,在強化學習方法的指導下求解不同模態的最優策略.通過計算不同模態特征向量間的余弦相似度,使各個模態的策略以互補的方式學習專家策略.

2 MCS-GAIL

2.1 整體框架

如圖2 所示,基于MCS-GAIL 由策略組(policies)、鑒別器(discriminator)和編碼器(encoder)構成.策略組和鑒別器延續GAIL 中的結構.其中策略組的輸入為智能體所處的狀態s,輸出為在所處狀態下智能體根據策略選擇的動作a.鑒別器和編碼器的輸入均為狀態-動作對(s,a).鑒別器的輸出為狀態-動作對來自專家樣本的概率,編碼器則根據不同模態的狀態-動作對,輸出不同的特征向量.在MCS-GAIL 中,策略組中子策略模塊的個數與專家策略模態數量相同,每一個子策略模塊根據輸入的狀態與模態標簽,輸出對應模態的動作.在訓練策略組時,MCS-GAIL 以各個子模態采樣樣本的模態特征與各個專家樣本的模態特征計算余弦項,并使用余弦項引導各個子策略學習相應模態的專家策略.

Fig.2 Illustration of MCS-GAIL圖2 MCS-GAIL 示意圖

在MCS-GAIL 訓練開始前,以不同模態間的余弦相似度作為約束,預訓練編碼器,使編碼器可以根據不同模態的專家樣本輸出不同的模態特征.在MCS-GAIL 訓練時,智能體依據策略組與環境進行交互,采集當前策略組的樣本.在逆向強化學習過程中,根據智能體采集到的樣本與專家樣本共同更新鑒別器,提高鑒別器的辨別能力.在強化學習過程中,使用策略損失更新策略組,MCS-GAIL 的策略損失由2部分構成:1)根據編碼器輸出的樣本特征向量計算的余弦項;2)根據鑒別器輸出的概率值而計算的優勢函數.通過強化學習過程與逆向強化學習過程的交替迭代,智能體利用專家樣本中不同模態樣本的特征信息以及特征信息間的余弦關系,學習不同模態的專家策略.

2.2 編碼器的預訓練

為了構建樣本的特征向量,編碼器將不同模態的樣本分布映射到不同的樣本特征分布.在GAIL 模型訓練結束時,當前策略采樣的樣本分布會趨近于專家的樣本分布.此時,采樣樣本與專家樣本間相同模態的特征向量一一對應.另外,在進行策略開始訓練之前,可以使用專家樣本對編碼器進行預訓練,加快策略模型的訓練速度,提高訓練的穩定性.

如何使用專家樣本對編碼器進行預訓練是一個關鍵的問題.為了解決該問題,MCS-GAIL 利用不同模態樣本特征向量的余弦相似度對編碼器進行預訓練.2 個向量之間的夾角范圍為[0,π],2 個向量的余弦相似度絕對值的范圍為[0,1].在向量的余弦相似度關系中,當2 個向量正交時,兩者包含的相似信息最少;而當2 個向量平行時,兩者包含的相似信息最多.在專家樣本的余弦相似度關系中,相同模態專家樣本的特征向量應該是相似甚至相同的,所以相同模態專家樣本的特征向量應該是平行同向的,故2 個特征向量之間余弦相似度值應該為1,不同模態專家樣本之間的特征向量應該是不同的,所以不同模態專家樣本的特征向量應該是正交的,故余弦相似度值應該為0.綜合上述信息,編碼器應該使相同模態樣本的特征向量平行,即相同模態樣本特征向量間的余弦相似度值為1.同樣,編碼器應該使得不同模態樣本間的特征向量正交,即不同模態樣本特征向量間的余弦值為0.故預訓練專家樣本特征向量間的余弦相似度關系公式為

其中E表示編碼器,cos()表示余弦函數,(s,a)表示專家樣本的狀態-動作對,狀態和動作下標對應不同的模態標簽,k表示模態的數量.

對編碼器進行預訓練如算法1 所示:

2.3 算法分析

與GAIL 相同,MCS-GAIL 仍然是一個最大化鑒別器D和 最小化策略π1:k的極小極大博弈問題.即智能體采集的樣本應該與專家樣本相似,使鑒別器難以區分專家樣本和采樣樣本.而鑒別器負責抽取專家樣本的特征,并利用這些特征區分專家樣本與采樣樣本.策略組與鑒別器在互相博弈中逐漸優化,最終收斂.另外,在MCS-GAIL 方法中,不同模態的策略采集的樣本各不相同,這是由于編碼器構建的余弦項對策略組的約束.綜上所述,MCS-GAIL 方法進行極小極大博弈的公式為

其中,k表示策略組中不同模態策略的數量,λ 和 μ為余弦相似度關系的系數;E表示編碼器,用于提取k個模態策略采集樣本的特征向量;π(a|s)表示智能體位于狀態為s時,根據策略 π選擇的動作為a;πi(a|s)和πj(a|s)分別表示模態i和模態j選擇動作的策略;pei表示模態i專家樣本的分布.

在MCS-GAIL 的強化學習過程中,策略組以余弦項作為約束,學習對應模態的專家策略,使鑒別器難以區分采樣樣本與專家樣本.在MCS-GAIL 的逆向強化學習過程中,通過提升鑒別器D(s,π1:k(a|s))的分類能力,使鑒別器可以最大限度地將正確標簽分配給采樣樣本和專家樣本.MCS-GAIL 優化鑒別器D與策略π1:k的公式分別為

在MCS-GAIL 中,策略組在余弦項的約束下,與鑒別器進行極小極大博弈,最終達到納什均衡.此時pπi與pei基本重疊.當策略 πi的樣本分布與pei完全重疊時,鑒別器也會收斂到最優值D*(s,a),即鑒別器D將會在pe=(pπ1+pπ2+…+pπk)/k處取得最優值.為了簡化推導過程,本文后續部分將pπ1+pπ2+…+pπk記為pπ.

引理 1.對于策略π1:k,最優鑒別器D*(s,a)為

證明.在給定策略組π1,π2,…,πk聯合構成分布的情況下,通過最大化MCS-GAIL 的目標函數,對鑒別器D進行更新.MCS-GAIL 目標函數為

計算鑒別器函數關于(s,a)的偏導數,并令該項為0,整理得到

進一步整理,目標函數LMCS-GAIL(π1:k,D)在點D*(s,a)=pe/(pe+pπ/k)處取得最優值D*(s,a)= 1/2,此時pe=pπ/k.

證畢.

結合引理1,將式(7)代入式(5),得到

當鑒別器為最優值時,策略損失中的余弦項取得最小值,將式(10)中后2 項,即余弦項記作 δ.并將式(10)進一步整理得到式(11):

其中fJS表示JS 散度,表示策略組的聯合分布pπ/k.從式(11)可知,MCS-GAIL 的目標函數主要由2 部分構成:1)策略組的聯合樣本分布與專家樣本分布間的JS 散度;2)專家樣本特征向量與采樣樣本特征向量間余弦關系的約束項.

定理1.當且僅當每個模態策略的樣本分布與對應模態的專家樣本分布重合時,MCS-GAIL 的目標函數取得的最優值=-2log2+δ.

證明.由引理1 可知,當策略組的分布與專家樣本分布相等時,即pe=pπ/k,鑒別器的目標函數取得的最優值D*(s,a)=1/2.由JS 散度的數學性質可知,式(11)中,專家樣本分布與策略采集的樣本分布之間的JS 散度是非負的.而且當策略組的分布滿足pe=pπ/k時,JS 散度達到最小值0;當策略組樣本分布逐漸趨近于專家樣本的分布,滿足引理1 時,JS 散度達到最小值,余弦項也到達最小值.此時MCSGAIL 的目標函數取得的最優值=-2log2+δ.

證畢.

另外,在基于單模態設定的GAIL 中,當初始策略的樣本分布與專家樣本分布完全沒有重疊或重疊部分可以忽略不計時,策略的樣本分布與專家樣本分布之間的JS 散度是一個常數.此時,出現梯度消失問題,策略模型難以更新.而在MCS-GAIL 中,即使初始的策略組的樣本分布與專家樣本分布完全沒有重疊,MCS-GAIL 仍然可以學習到最優策略.假設在某個時刻策略組樣本分布與專家樣本分布完全沒有重疊,2 個分布的JS 散度值為2log2.在這種情況下,雖然難以通過策略組的損失項更新策略組,但仍然可以通過余弦項更新策略組.因此,在MCS-GAIL 的策略更新過程中不會出現梯度消失問題.

如式(10)(11)所示,MCS-GAIL 方法仍然是一個極小極大博弈問題,其目標函數L(π1:k,D)是一個凸函數.根據Sion 極小極大定理[23],凸函數的最大值一定包含在其上確界的次導數中,即如果任意α,fα(x)對于x都是凸函數,并有f(x)=fα(x),則?fβ(x)∈?f,β=argsupfα(x).設pe和是2個線性拓撲空間的非空凸緊集 ,有L(π1:k,D)≥L(π1:k,D).在給定最優鑒別器D和 1 組策略組的情況下,對策略組進行梯度下降,更新當前的策略組,優化當前策略分布pπ1:k.在優化過程中supL(π1:k,D)是凸的,具有唯一的全局最優,因此pπ1:k在夠小的更新下可以收斂到pe.

3 實 驗

本節主要介紹MCS-GAIL 的實驗部分.為了更全面地比較各個模式塌縮方法的性能,MCS-GAIL 既選取了較為簡單的離散狀態-動作空間的格子世界任務作為實驗環境,又選取了較為復雜的連續狀態-動作空間的MuJoCo[24]平臺作為實驗環境.

MCS-GAIL 基于已知模態標簽的設定進行模式塌縮問題的研究,選取2 種已知模態標簽的多模態模仿學習方法與MCS-GAIL 進行對比.

3.1 格子世界環境

3.1.1 實驗環境

如圖3 所示,MCS-GAIL 使用狀態空間為7×7的格子世界環境,格子世界的狀態數值范圍為從左下角開始向右依次遞增,分別為{0,1,…,48},動作空間為{上,下,左,右}.圖3 中的圓形為智能體;白色格子為智能體可到達的狀態;黑色格子為智能體不可到達的狀態,即放置了障礙物.

Fig.3 Illustration of grid world environment圖3 格子世界環境示意圖

智能體從左上角格子出發,到達右下角五角星格子時,視為完成任務,當前情節結束.若智能體與障礙物碰撞,則會停留在原地,并獲得負獎賞.在這種設定下,智能體應該盡量避免與障礙物發生碰撞,并以盡可能短的路徑到達終點.

3.1.2 專家數據

由于格子世界任務較為簡單,故使用經典的強化學習方法Q-Learning 訓練專家策略,并使用專家策略采集專家樣本.在格子世界的模式塌縮問題中,不同模態策略完成任務的軌跡各不相同.在此次實驗中,設置6 種不同模態的專家策略,6 種策略完成任務的路徑各不相同.

專家樣本中不同模態策略的狀態軌跡如圖4 所示.其中黑色格子為障礙物,箭頭表示采樣軌跡中智能體移動的軌跡.

Fig.4 Trajectories diagram of expert strategy states in different modals圖4 不同模態專家策略狀態軌跡圖

3.1.3 實驗結果

在格子世界任務中,各個方法均使用深度神經網絡對鑒別器進行建模,鑒別器均包含一層全連接層和一層輸出層.全連接層由32 個神經元組成,并使用tanh 函數作為激活函數,同時使用RMSprop 優化算法更新鑒別器.由于格子世界環境較為簡單,故使用經典的Q-Learning 方法學習多模態策略.其中,價值函數的維度為6,49,4,這3 個維度分別表示模態數量、狀態維度以及動作維度,并使用ε-greedy方式更新價值函數.在訓練結束后,使用策略分別對環境進行采樣,評估各個模態方法采集的樣本狀態軌跡與專家樣本狀態軌跡之間的差異.在格子世界環境中設置式(5)中 λ 和 μ參數的值均為0.8,另外表1 給出了格子世界任務中3 個多模態方法的超參數.

Table 1 Hyperparameters of Methods in Grid World Task表1 格子世界任務中方法的超參數

1)GAIL 策略的狀態軌跡如圖5 所示,GAIL 并沒有考慮專家樣本的多樣性,而是將多模態專家樣本學習到單個策略中.為了更清楚地展示GAIL 中的模式塌縮問題,使用6 個隨機種子對GAIL 進行訓練.從圖5 中可以看出,GAIL 雖然可以完成格子世界任務,但進行6 次模型訓練后,僅僅從6 種模態專家樣本中學習到3 種模態的專家策略和1 種混合專家路徑的策略.綜上所述,在1 次訓練中,GAIL 沒有考慮專家樣本中的多模態特性,只能學習到1 個模態的專家策略或1 個混合專家路徑的策略;在6 倍于模式塌縮模仿學習方法訓練量的情況下,GAIL 的策略也難以覆蓋全部的模態策略.

Fig.5 GAIL policy sampling state trajectory diagram圖5 GAIL 的策略采樣的狀態軌跡圖

2)CGAIL 策略采樣的狀態軌跡如圖6 所示,CGAIL 將模態標簽加入策略中,學習多種模態的專家策略.從圖6 中可以看出,CGAIL 可以學習到大部分模態的專家策略.但與專家狀態軌跡相比,CGAIL并沒有學習到所有模態的專家策略.CGAIL 中5 個模態的策略采樣狀態軌跡與圖4 中專家的狀態軌跡相同.而模態4 的策略采樣的狀態軌跡為混合專家狀態軌跡.由此可見,CGAIL 在解決具有多模態的模仿學習問題中仍有缺陷.

Fig.6 CGAIL policy sampling state trajectory diagram圖6 CGAIL 的策略采樣狀態軌跡圖

3)圖7 為ACGAIL 的策略采樣狀態軌跡,ACGAIL雖然在CGAIL 的基礎上增加了輔助分類器,將專家樣本的模態特征加入模型訓練,但是ACGAIL 的策略與鑒別器共享參數,導致在訓練過程中神經網絡的更新會相互影響.與CGAIL 相比,ACGAIL 雖然也只學習到5 種模態的專家策略,但是ACGAIL 學習到的重復的策略狀態軌跡與專家模態6 的軌跡相同.

Fig.7 ACGAIL policy sampling state trajectory diagram圖7 ACGAIL 的策略采樣狀態軌跡圖

4)MCS-GAIL 在格子世界中的策略采樣狀態軌跡如圖8 所示,MCS-GAIL 將各個模態特征向量間的余弦相似度關系加入模型訓練后,各個模態策略的狀態軌跡與專家的狀態軌跡完全一致.由此可見,與其他3 種方法相比,MCS-GAIL 可以準確學習到所有模態的專家策略,很好地完成多模態模仿學習任務.

Fig.8 MCS-GAIL policy sampling state trajectory diagram圖8 MCS-GAIL 策略采樣狀態軌跡圖

3.2 MuJoCo 環境

Gym 是人工智能公司OpenAI 針對強化學習方法開發的仿真平臺,涵蓋了豐富的實驗環境,例如經典控制游戲、Box2D 環境、Atari 游戲環境以及MuJoCo環境等.

3.2.1 實驗環境

為了探究多模態模仿學習方法在復雜連續狀態-動作空間環境中的性能,使用MuJoCo 環境中的3 個環境區分機器人速度的任務(Hopper-v2,HalfCheetahv2,Walker2d-v2).這3 個實驗環境的狀態空間和動作空間均為連續空間,其具體介紹如表2 所示.

Table 2 Introduction for MuJoCo Experimental Environment表2 MuJoCo 實驗環境介紹

CGAIL,ACGAIL,MCS-GAIL 在MuJoCo 環境訓練過程中,對各個模態策略進行若干個情節的評估,得到平均每情節回報,簡稱平均回報.在訓練結束后,將GAIL 加入評估,比較在MuJoCo 環境中4 種方法的回報誤差率[25].

3.2.2 專家樣本數據集

在MuJoCo 環境中,使用柔性行動者-評論家 (soft actor-critic,SAC)算法訓練專家策略[26].為了區分不同模態,在每個實驗環境下均訓練2 個不同速度的專家策略,并使用訓練后的專家策略對環境進行采樣,得到專家樣本數據集.每個數據集包含1 500 個狀態-動作對序列,每個序列包含1 000 個狀態-動作對.

在MuJoCo 環境中,智能體的速度與平均回報的大小成正比.速度較快的狀態-動作對與速度較慢的狀態-動作對相比,具有較大的獎賞,所以在進行模型評估時,速度較快的專家策略的平均回報也比速度較慢的專家策略的大.因此,可以將策略的平均回報作為模態的區分準則.在MuJoCo 各個環境的數據集中,不同模態專家樣本的平均回報如表3 所示.

Table 3 Average Returns for Different Modals in the MuJoCo Expert Demonstrations表3 MuJoCo 專家樣本中不同模態的平均回報

3.2.3 評價標準

在模仿學習方法中,一般通過比較專家策略平均回報與模仿學習方法策略平均回報之間的差異,衡量方法的性能.為了準確衡量不同方法的性能,首先計算策略與專家策略之間期望回報的誤差,然后將該誤差與專家策略期望回報之間的比率作為評價標準,稱為回報誤差率.回報誤差率公式為

其中k為模態的數量,(c)表示模態標簽為c的策略評估的平均回報,(c)表示模態c的專家樣本的平均回報,p(c)表示模態c出現的概率分布.

3.2.4 實驗結果

在策略的訓練過程中,每次強化學習迭代后,將策略進行10 次評估的平均回報作為當前策略的回報.另外,在評價最終模型的回報誤差率時,將GAIL加入對比,評估GAIL 中的模態丟失情況.

在MuJoCo 實驗中,各個方法均使用深度神經網絡對策略、鑒別器以及編碼器進行建模.鑒別器、策略以及編碼器均使用3 層全連接層和1 層輸出層,全連接層由100 個神經元組成,并使用tanh 函數作為激活函數,同時使用RMSprop 優化算法更新策略模型,但是在更新編碼器和鑒別器時使用Adam 優化算法;在強化學習過程中策略的更新均使用信賴域策略優化[27](trust region policy optimization,TRPO)算法.MuJoCo 環境中設置式(5)中 λ 和 μ參數的值均為0.8,另外表4 給出了MuJoCo 任務中3 個多模態方法的超參數.

Table 4 Hyperparameters of Methods in MuJoCo Task表4 MuJoCo 任務中方法的超參數

圖9 給出了MCS-GAIL 與其他基線模型在3 個MuJoCo 實驗環境訓練過程中所獲得的平均回報.其中實線表示在迭代過程中評估的平均回報,虛線表示專家樣本的平均回報.為了區分不同的模態,使用不同顏色表示不同模態策略的平均回報.圖9(a)~(c)為MCS-GAIL 在訓練過程中的平均回報,圖9(d)~(f)為CGAIL 在訓練過程中的平均回報,圖9(g)~(i)為ACGAIL 在訓練過程中的平均回報.

Fig.9 Average returns during the training of each method in the MuJoCo environment圖9 MuJoCo 環境中各個方法訓練過程中的平均回報

根據圖9 可以看出MCS-GAIL 在多模態任務中的表現明顯優于CGAIL 和ACGAIL,具體分析有4 點.

1)MCS-GAIL 中2 個模態策略的分離程度遠遠大于基線方法,MCS-GAIL 中2 個模態策略的平均回報分離程度明顯超越了CGAIL 和ACGAIL.這是因為余弦項對不同模態策略的約束,提高了不同模態策略的區分程度,避免策略學習其他模態的專家樣本信息.

2)由于余弦項對同模態專家樣本與當前采樣樣本的約束,在策略組的迭代過程中,MCS-GAIL 策略朝著對應模態專家策略的方向更新,增加了MCS-GAIL策略與對應專家模態策略的近似程度.從圖9 中可以看出,MCS-GAIL 的策略與同模態專家策略的平均回報的趨近程度遠遠優于其余2 種方法.

3)在訓練過程中,3 種方法平均回報的值都存在一定的波動,但是MCS-GAIL 的波動相對較小.平均回報產生波動的原因有2 個方面:1)強化學習訓練過程中,策略參數的更新,即使策略參數變化很小,也會導致整個情節的狀態-動作對產生很大的改變.2)生成對抗框架的不穩定性,這是由于訓練最優鑒別器與最小化策略之間相互矛盾所致[28].MCS-GAIL 在余弦項的約束下,大大減小了在訓練過程中平均回報的波動程度.

4)在強化學習過程中,隨機種子不同的情況下,MCS-GAIL 策略的方差遠小于其余2 種方法.可見,相比于其他2 種方法,MCS-GAIL 具有更好的魯棒性.

綜上所述,在MuJoCo 實驗平臺下,MCS-GAIL在訓練過程中更加平穩、高效,充分表明了該方法在解決多模態模仿學習問題過程中的優越性.

圖10 展示了在HalfCheetah-v2 環境的訓練過程中,MCS-GAIL 采樣樣本與專家樣本特征向量間的余弦損失.從圖10(a)可以看出,MCS-GAIL 采樣樣本與同模態專家樣本特征間的余弦損失隨著迭代次數的增加而增大.當同模態策略越接近時,采樣樣本特征間向量的余弦損失越大.從圖10(b)中可以看出MCSGAIL 的樣本與不同模態專家樣本間的特征值隨著迭代次數的增加而減小.當不同模態策略分離程度越大時,采樣樣本間特征向量的余弦損失越小.綜上所述,特征向量間的余弦損失可以準確地反映模態間關系,并以此為依據訓練策略,使其更為接近專家策略.

Fig.10 Cosine loss during training in the HalfCheetah-v2 environment圖10 HalfCheetah-v2 環境中訓練過程中的余弦損失

在MCS-GAIL 的訓練初期,各個模態策略的樣本分布與對應模態的專家樣本分布相距較遠,余弦項也不符合預期.在訓練中期,利用式(11)的最終結果作為損失函數對策略組進行梯度下降,策略損失隨著神經的更新而減小,同時余弦損失也在減小.在訓練末期,各個模態策略的樣本分布接近對應模態專家樣本的分布,余弦項的值也逐漸接近最小值.在訓練結束時,各個模態策略的樣本分布與對應模態的專家樣本分布完全重合,余弦項也取得最小值.

圖11 展示了在HalfCheetah-v2 訓練過程中,鑒別器對采樣樣本和專家樣本的分類正確率.從圖11 可以看出,在訓練的開始階段,鑒別器判別樣本的正確率會急劇上升到1.0 附近.這是由于在訓練的開始階段,MCS-GAIL 的采樣樣本與專家樣本差距較大,兩者樣本特征的差距同樣很大,鑒別器很容易區分專家樣本和MCS-GAIL 的樣本.隨著訓練次數的逐漸增加,MCS-GAIL 策略逐漸逼近專家策略.此時MCSGAIL 的樣本分布與專家樣本分布的重合程度越來越高,鑒別器難以區分樣本是來自于MCS-GAIL 還是專家樣本.在訓練的最后階段,鑒別器已經完全無法區分樣本是否為專家樣本,即可以認為該策略的決策與專家行為一致.

Fig.11 Classification accuracy of discriminator during training in HalfCheetah-v2 environment圖11 HalfCheetah-v2 環境訓練中鑒別器的分類正確率

為了更全面地對多模態模仿學習方法進行比較,3 個多模態方法的時間成本如表5 所示.表5 中數據的單位為每運行10 000 個時間步所花費的秒數.從表5 中可知,由于CGAIL 僅僅使用模態標簽對學習多模態數據進行指導,故其在3 個MuJoCo 環境中的時間成本均為最小.而ACGAIL 在CGAIL 的基礎上增加了輔助分類器提取模態特征,因此時間成本有所增加.MCS-GAIL 相對ACGAIL 來說不僅增加了組件提取模態特征,而且增加了模態特征余弦關系的運算.因此與ACGAIL 相比,MCS-GAIL 在3 個MuJoCo環境中的時間成本有略微地提高.但MCS-GAIL 更側重于提高多模態模仿學習方法的準確性,以微小的時間成本換取學習多模態專家策略的精度,這表明了MCS-GAIL 具有較高的應用價值.

Table 5 Time Cost of Multi-Modal Methods表5 多模態方法的時間成本s

各種方法均使用5 個隨機種子對MuJoCo 環境中的3 個任務進行采樣,不同多模態模仿學習方法的回報誤差率如表6 所示.從表6 中可以看出,在3個環境中,GAIL 在多模態生成對抗模仿學習任務中只能學習到單一模態的策略,導致訓練完成后策略的回報誤差率比較高;而CGAIL 和ACGAIL 利用專家樣本模態信息優化策略,從而大大降低了回報誤差率;MCS-GAIL 不僅利用模態信息優化策略,而且在策略的損失函數中加入余弦項,進一步縮小學習策略與專家策略間的差距,提高了學習策略與專家策略的擬合程度.從表6 可以看出,MCS-GAIL 的回報誤差率遠小于其他3 種方法,表明了MCS-GAIL 方法可以很好地解決模仿學習中的模態塌縮問題,準確地學習到專家策略.

Table 6 Return Error Rates of Different Methods in MuJoCo Environment表6 MuJoCo 環境下不同方法的回報誤差率%

4 結 論

本文提出了用于解決模式塌縮問題的多模態模仿學習方法MCS-GAIL.MCS-GAIL 首先在編碼器提取專家樣本特征向量的同時,對編碼器進行預訓練;然后將依據余弦關系構建的余弦項加入強化學習的策略損失中,更新策略組.現有的大部分多模態模仿學習方法僅使用模態標簽,或者利用模態特征學習專家策略,而沒有衡量所學策略與專家策略間的樣本分布的趨近程度.與現有多模態對抗模仿學習方法相比,MCS-GAIL 在使用模態標簽和模態特征的基礎上,使用余弦相似度衡量策略與專家策略間樣本分布的關系.策略組在余弦項的約束下模仿專家樣本學習專家策略,使策略組可以更準確地學習專家策略.另外,通過理論分析證明了,在假設條件成立的情況下,MCS-GAIL 的收斂性.

在實驗方面,MCS-GAIL 使用離散狀態-動作空間的格子世界環境和連續狀態-動作空間的MuJoCo平臺對現有多模態模仿學習方法的性能進行評估.實驗結果表明:在格子世界問題中,與現有模式塌縮問題的方法相比,MCS-GAIL 可以準確地學習到多個模態的專家策略.在MuJoCo 環境訓練過程中,隨著迭代次數的增加,相同模態采樣樣本的特征向量間的余弦值越來越大,不同模態采樣樣本的特征向量間的余弦值越來越小.這表明隨著迭代次數的增加,訓練的策略越來越接近相同模態的專家策略,而遠離不同模態的專家策略.在MuJoCo 平臺上對4 種多模態模仿學習方法的回報誤差率進行比較,MCSGAIL 的回報誤差率遠遠低于其他方法,充分證明了所提方法的可行性、穩定性以及優越性.

作者貢獻聲明:郝少璞提出整體研究思路、撰寫與修改論文;劉全負責論文結構設計指導;徐平安負責方法的整理與部分章節內容的修訂;張立華負責部分章節的內容設計和修訂;黃志剛負責文章的格式修改、插圖設計.

猜你喜歡
模態策略方法
例談未知角三角函數值的求解策略
我說你做講策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
國內多模態教學研究回顧與展望
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
基于HHT和Prony算法的電力系統低頻振蕩模態識別
Passage Four
由單個模態構造對稱簡支梁的抗彎剛度
計算物理(2014年2期)2014-03-11 17:01:39
主站蜘蛛池模板: 少妇露出福利视频| 黄网站欧美内射| 乱系列中文字幕在线视频| 99久久免费精品特色大片| 国产乱子伦无码精品小说| 9啪在线视频| 国产麻豆永久视频| 无码AV高清毛片中国一级毛片| 亚洲男人的天堂在线观看| 青青青国产视频手机| 谁有在线观看日韩亚洲最新视频| 一区二区偷拍美女撒尿视频| 午夜人性色福利无码视频在线观看| 久久伊伊香蕉综合精品| 极品国产在线| 成年女人18毛片毛片免费| 国产综合色在线视频播放线视| 中文无码日韩精品| 成人毛片免费观看| 国产精品hd在线播放| 老司国产精品视频91| 欧美精品v| 黄片一区二区三区| 国产亚洲精品自在久久不卡| 国产精品嫩草影院视频| 永久成人无码激情视频免费| 国产美女91视频| 婷婷六月综合| 曰韩人妻一区二区三区| 激情视频综合网| 精品国产Av电影无码久久久| 在线观看免费人成视频色快速| 久久久久久久蜜桃| 日本成人福利视频| 亚洲最大福利网站| a级高清毛片| 亚州AV秘 一区二区三区 | 草逼视频国产| 国产偷国产偷在线高清| 久久精品一品道久久精品| 97影院午夜在线观看视频| 亚洲国产一成久久精品国产成人综合| 免费国产一级 片内射老| 99久久精品国产精品亚洲 | 男人天堂亚洲天堂| 国产精品自拍合集| 97国产精品视频人人做人人爱| 国产美女精品一区二区| 日韩A∨精品日韩精品无码| 亚洲精品色AV无码看| 国内精品自在欧美一区| 综合天天色| 人妻精品全国免费视频| 女人毛片a级大学毛片免费| 亚洲成人高清无码| 91精品国产91欠久久久久| 国产精品成人AⅤ在线一二三四| 欧美日韩亚洲国产主播第一区| 免费在线不卡视频| 亚洲大尺码专区影院| 亚洲国产天堂久久综合| 国产日韩欧美精品区性色| 欧美精品亚洲日韩a| 青青青国产视频手机| 久久久久九九精品影院| 亚洲国产天堂在线观看| 久久国产高清视频| 亚洲人成网18禁| 超碰精品无码一区二区| 一区二区三区毛片无码| 狠狠做深爱婷婷综合一区| 国产无码制服丝袜| 欧美区一区| 成人久久18免费网站| 日韩 欧美 小说 综合网 另类| 国产人在线成免费视频| 国产噜噜在线视频观看| 久久久黄色片| 26uuu国产精品视频| 国产97区一区二区三区无码| 国产丝袜啪啪| 无码电影在线观看|