999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于示范主動采樣的行為克隆方法

2021-11-10 09:09:34黃文宇黃圣君
南京航空航天大學學報 2021年5期
關鍵詞:動作智能策略

黃文宇,黃圣君

(南京航空航天大學計算機科學與技術學院/人工智能學院,南京 211106)

強化學習[1]旨在為智能決策任務學習出有效的策略,使智能體獲得的長遠獎賞最大。傳統的強化學習更多關注離散狀態和動作空間的任務,難以在狀態和動作連續的任務上應用。深度強化學習通過將策略用深度神經網絡來表示可以有效地解決這一問題。最近研究表明,深度強化學習在很多富有挑戰性的任務上都取得了成功,例如圍棋[2]、游戲[3]和模擬機器人任務[4?5]。但是深度強化學習在訓練智能體的策略時需要與環境進行大量的交互,因此面臨著訓練效率低下的挑戰。模仿學習通過從專家的示范中學習可以有效應對這一挑戰,其主要思想是從專家的示范中去模仿專家的行為,因而無需與環境進行交互。

模仿學習大體上可被分為兩大類:行為克隆和逆強化學習。行為克隆[6?7]運用監督學習的方式直接從示范中學得一個策略,其將狀態視為監督學習中的示例,將動作視為監督學習中的標簽。與行為克隆直接學得一個策略不同,逆強化學習[8?9]首先學得一個獎賞函數,然后通過標準的強化學習算法學習策略。生成對抗模仿學習[10]是當前較為前沿的模仿學習方法,其主要思想是同時學習策略和判別器。判別器的目標是將專家生成的狀態?動作對與智能體生成的狀態?動作對有效區分,而智能體策略的目標是混淆判別器,使得判別器將智能體生成的狀態?動作對判別為專家生成的狀態?動作對。

盡管模仿學習可以緩解訓練效率低下的問題,但是現有的模仿學習算法需要獲得大量的專家示范作為訓練數據,在實際任務中往往導致高昂的示范代價。例如Waymo 公司為了訓練自動駕駛的智能體收集了3 000 萬個專家駕駛的數據,專家提供每一個數據都需付出時間上的代價,在提供路況不好的駕駛數據時更是要面對安全風險。主動學習[11]是監督學習任務中降低標注成本的一類主流方法。它通過挑選最有價值的樣本向專家查詢,可以有效地降低訓練所需樣本。關于主動學習的大量研究都專注于如何設計好的選擇標準以便更好地計算樣本的價值。不確定性采樣[12?13]是最常用的一種選擇策略,它傾向于選擇分類器的預測最不確定的樣本。委員會采樣[14?15]是另一種常用的選擇策略,它從訓練集的多個子集中學習多個模型,然后選取多個模型的預測分歧最大樣本進行查詢。最近,有一些工作試圖將樣本的信息量與代表性相結合來評估樣本的價值[16?17]。

目前主動學習多應用于傳統的分類任務,應用于模仿學習的工作較少。文獻[18]將主動學習應用于逆強化學習,選取獎賞最不確定的狀態并查詢對應的動作。但該方法在現實任務中的應用存在較大局限性,因為對于專家而言,提供一條軌跡比起提供單個動作更方便。以駕駛為例,選取道路上的某個點,專家進行一段時間的控制顯然比只做一個動作方便。文獻[19]將主動學習應用于自動導航任務中,它從起點?終點對的候選集中挑選起點?終點對,查詢起點至終點的路徑,然而在其他任務中無法保證專家的示范軌跡一定會通過終點。同時,以上的兩個工作都是應用在逆強化學習中,難以直接應用于行為克隆方法。本文提出了一種基于示范主動采樣的行為克隆方法,目的是以更少的示范代價學得一個有效的策略。具體地,本文提出了不確定性采樣和不相似性采樣兩種方法,挑選完狀態后向專家查詢固定長度的示范軌跡,并進一步用于策略更新。

1 背景知識

本文方法中的基礎模型涉及到近端策略優化算法和行為克隆方法,因此本節先對其進行簡要介紹。

1.1 近端策略優化算法

1.2 行為克隆

行為克隆是一種通過對示范集合運用監督學習,從而直接學習智能體策略的算法。設示范集合D由n個 狀 態?動 作 對 構 成 ,即D={(s1,a1),(s2,a2),…,(sn,an)},其中si為狀態,ai為專家示范的動作。設智能體的策略為π,智能體的策略可通過最小化如下目標函數得到

2 基于主動學習的行為克隆方法

本文提出的基于主動采樣的行為克隆方法框架如圖1 所示。在每一輪迭代過程中,該方法首先從示范集合D中訓練智能體的策略π,然后從候選集Us中挑選最有價值的狀態s1,并向專家查詢示范軌跡,專家以該狀態為起點,返回一條長度為n的示范軌跡d={(s1,a1),…,(sn,an)}。之后該軌跡中的狀態?動作對會被加入示范集合中,用作策略的重新訓練。

圖1 基于主動采樣的行為克隆方法框架Fig.1 Framework of behavioval cloning with active sampling

2.1 不確定性采樣

第1 種選擇策略是從候選集中選取當前策略的決策動作最不確定的狀態。其動機是,如果策略對于某狀態的動作越不確定,那么以該狀態為起點的軌跡對學習策略的幫助越大。以自動駕駛為例,假設任務的目的是訓練一個能夠有效駕駛的智能體,如果該智能體只在直道上訓練過,那么它在遇到直道時將更確定如何控制。相反地,如果它遇到一個彎道,那么對于在彎道如何控制一定會有較大的不確定性。通過不確定性采樣,一個彎道更有可能被挑選到,以其為起點的示范軌跡會對策略的性能提升作用更大。

在傳統的主動學習中,不確定性利用分類器的預測去計算,如以各類別概率的熵作為不確定性,或者以最大的類別概率與第二大類別概率的差衡量不確定性[20]。然而該采樣策略無法直接運用于強化學習問題,因為對于連續動作的任務不存在類似的分類器。考慮到智能體的隨機策略由動作分布來表示,本文基于動作分布估計策略的不確定性,以動作分布的標準差作為不確定性的標準,有

式中:std(?)為標準差函數,用于計算分布的標準差;π(a|s)為狀態s下動作a的概率分布。

對于多維動作,動作向量的不確定性可視為所有動作元素的不確定性之和。在本文模型中,動作向量的每個元素ai都遵循正態分布N(μi,σi),μ、σ分別為均值和標準差,因此ai的不確定性可用σ衡量,狀態s的不確定性為

式中m為動作向量的維度。計算完候選集中所有狀態的不確定性之后,不確定性最大的狀態會被挑選出來,以讓專家提供最有價值的示范軌跡。

2.2 不相似性采樣

第2 種策略挑選和示范集合中已有狀態最不相似的狀態。其動機是如果某狀態和示范集合中的狀態很相似,那么智能體可能已經學會如何在該狀態進行決策,因此以該狀態為起點的示范軌跡對智能體的幫助不大。再次以自動駕駛為例,假如智能體的策略已經在直道上表現得很好,如果遇到的狀態仍然是一條直道,那么對應的示范軌跡對于學習策略的幫助很小。相反地,如果某狀態是一個障礙物,由于策略從未在與該狀態相似的狀態下訓練過,因此對應的示范軌跡對于策略的提升有更大的作用。

考慮到不相似的狀態不太可能有相同的動作,因此用動作的差異來衡量狀態的差異。對于隨機策略來說,兩個動作分布之間的距離是一個衡量分布差異的很好的標準。對于計算兩個分布之間的距離,已經有不少的研究工作,比如KL 散度[21]和最大均值差異(Maximum mean discrepancy,MMD)距離[22]。在這些方法中,本文選用Wasser?stein 距離[23]作為度量距離的標準。具體來說,為了計算狀態s與示范集合中狀態的不相似度,需依次計算該狀態與集合中每個狀態的不相似度并求均值

式中:n為集合中狀態的數量;W2為兩個分布間的2?Wasserstein 距離,定義為

式中:p和q為兩個概率分布,且x~p,y~q。在本文模型中,以多元正態分布來表示隨機策略,文獻[24]證明了兩個多元正態分布的2?Wasserstein 距離的計算方式為

式中:x~N(μx,Σx),y~N(μy,Σy);μ為分布的均值向量;Σ為分布的協方差矩陣;tr(?)為矩陣的跡。在本文的模型中,任意兩個動作元素的協方差為0,因此Σx和Σy都為對角矩陣,式(8)可以改寫為

算法1 總結了本文提出的方法。算法的輸入是初始的示范集合D,包含了少量的示范,以及未標記狀態集Us,示范軌跡長度H,專家的策略πE和迭代次數T。在每輪迭代中,算法首先根據不確定性采樣或者不相似性采樣選擇狀態,然后專家以提供的狀態為起點做示范,示范結束后返回一條長度為H的示范軌跡;接著示范軌跡中的狀態?動作對會被加入示范集合中;同時,示范集合中的狀態會從候選集中移除;最后更新智能體的策略。

算法1 面向行為克隆的主動學習方法

3 實驗過程和結果

3.1 任務介紹

實驗中所有的任務都在OpenAI Gym[25]環境庫中定義,并在MuJoCo[26]上模擬。下面對其進行簡單介紹。

(1)HalfCheetah。此任務目標是讓一個2 維獵豹跑得盡可能地快(https://gym.openai.com/en?vs/HalfCheetah?v2/)。在這個任務中,狀態由17維的向量表示,動作由6 維的向量表示。

(2)Hopper。此任務目的是讓一個只有一條腿的機器人盡可能快地向前跳(https://gym.ope?nai.com/envs/Hopper?v2/)。狀態由11 維向量表示,動作由3 維向量表示。

(3)Swimmer。此任務智能體是一個有3 個關節的游泳機器人,它的目標是在粘性液體中盡可能快 地 游 泳(https://gym. openai. com/envs/Swimmer?v2/)。狀態由8 維向量表示,動作由2 維向量表示。

(4)Walker2d。此任務目的是讓一個2 維的雙足動物機器人盡可能快地向前走(https://gym.openai.com/envs/Walker2d?v2/)。在這項任務中,狀態由17 維的向量表示,動作由6 維的向量表示。

3.2 實驗設置

專家和智能體策略均由3 層神經網絡構成,每層均為全連接層,激活函數為tanh,其中隱藏層的神經元數量為100,輸入層的神經元數量等于狀態的維度,輸出層神經元的數量2 倍于動作的維度,其中一半神經元輸出每個動作元素的均值,另一半神經元輸出每個動作元素的標準差。在實驗中先用PPO 算法訓練策略作為專家策略,以用來模擬專家提供示范軌跡。在用行為克隆算法訓練智能體的策略時,用Adam 優化器進行優化,每次迭代選取的Batch 大小為128,算法迭代10 000 次。由于任務的狀態均為連續向量,狀態空間無窮大,因此先用專家策略生成部分示范軌跡,然后將軌跡中的狀態作為候選集。

由于本文提出的是一個全新問題,沒有相關方法可以直接應用到該問題中,因此實驗部分將提出的方法不確定性采樣(Uncertainty)和不相似性采樣(Dissimilarity)與隨機采樣(Random)對比。對于每個方法而言,其初始示范集合均一樣,訓練完智能體的策略后,將學得的智能體與環境進行交互,生成50 條長為1 000 的軌跡,計算50 條軌跡的平均累積獎賞作為策略的性能,每個算法均進行5次實驗,每次實驗都隨機初始化示范集合,然后取5 次的平均值作為最終的性能。

為了驗證提出方法的魯棒性,在每個任務上,均設置了不同的示范軌跡的長度,在HalfCheetah任務上,將長度設置為50,100 和500;在Hopper上,軌跡的長度同樣設置為50,100 和500;在Swimmer 任務上,軌跡的長度設置為20,100 和500;在Walker2d 任務上,長度設置為300,500 和1 000。

隨著迭代次數的增加,將所查詢的示范軌跡的總長度作為橫坐標,將每輪迭代完成后,策略從環境獲得的累計獎賞作為縱坐標,繪制了不同方法所對應的獎賞曲線,并對比在查詢了同樣長度的示范軌跡后,基于不同采樣方法所訓練得到的策略性能。

3.3 實驗結果

圖2 是實驗的結果,其中:每1 行對應1 個任務,每1 行的每1 列對應1 種軌跡長度的設置;紅線對應不確定性采樣,藍線對應不相似性采樣,黑線對應隨機采樣。從圖2 中可以很容易看出,在所有任務中,在任意長度設置下,本文所提出的兩種方法都顯著地優于對比方法,其中不確定性采樣的效果最好。在查詢了同樣長度軌跡后,基于不確定性采樣和不相似性采樣訓練得到的策略,其獲得的獎賞遠大于基于隨機采樣的策略獲得的獎賞。可以發現,本文所提出的方法以更少的示范學得了性能更優的策略,這表明提出的方法可以有效地降低示范代價。

圖2 4 個任務上的累計獎賞對比結果Fig.2 Comparison results of accumulated reward on four tasks

3.4 討 論

對于本文提出的方法,如果將其在軌跡長度更短時的表現與其在軌跡長度更長時的表現對比,可以發現本文方法在軌跡長度更短時的效果更優越,一個可能的原因是更長的軌跡會有更大的概率含有冗余信息。以自動駕駛為例,假如學得的策略已經可以在直道上進行有效控制,若此時挑選出的狀態是一個障礙物,而障礙物后面又是一條直道,那么更長的軌跡就會有更大的概率包含后面的直道,從而有更大的概率含有冗余信息。

4 結論

本文提出了基于示范主動采樣的行為克隆方法,目的在于減少行為克隆算法的示范代價。具體的,本文提出了不確定性采樣和不相似性采樣兩種方法,試圖挑選出對于策略性能提升幫助最大的示范軌跡。實驗結果表明,本文方法的效果顯著優于對比方法,其中不確定性采樣的效果最好。相比隨機采樣,本文方法顯著地降低了示范代價,同時訓練的策略性能更好。在以后的研究工作中,將計劃設計一種自適應調整示范長度的方法,進一步提升基于主動采樣行為克隆的實用性。

猜你喜歡
動作智能策略
例談未知角三角函數值的求解策略
我說你做講策略
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
動作描寫要具體
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
畫動作
動作描寫不可少
主站蜘蛛池模板: 国产成人一区在线播放| 老汉色老汉首页a亚洲| 91无码视频在线观看| 亚洲国产成人麻豆精品| 99热国产这里只有精品9九| 国产91丝袜在线播放动漫 | 国产丝袜一区二区三区视频免下载| 不卡视频国产| 免费在线不卡视频| 亚洲中文字幕av无码区| 中文字幕在线不卡视频| 日韩毛片在线播放| 午夜丁香婷婷| 成人在线观看一区| 亚洲欧美成aⅴ人在线观看 | 亚洲有无码中文网| jizz在线免费播放| 天天操天天噜| 在线视频亚洲色图| 久草视频一区| 少妇露出福利视频| 亚洲欧美综合另类图片小说区| 国产综合色在线视频播放线视| 精品国产99久久| 亚洲国产高清精品线久久| 国产精品男人的天堂| 日韩人妻无码制服丝袜视频| 亚洲一级无毛片无码在线免费视频 | 欧美午夜性视频| 日本三区视频| 动漫精品啪啪一区二区三区| 巨熟乳波霸若妻中文观看免费| 国内黄色精品| 激情综合婷婷丁香五月尤物| 国产精品观看视频免费完整版| 久久影院一区二区h| 国产精品视频a| 国产精品乱偷免费视频| 色哟哟国产精品一区二区| 亚洲精品va| 欧美午夜视频在线| 成人国产精品视频频| 91精品小视频| a级毛片免费网站| 国产大全韩国亚洲一区二区三区| 青青青亚洲精品国产| 久久久久青草大香线综合精品 | 日韩黄色在线| 超级碰免费视频91| 亚洲经典在线中文字幕| 久久精品视频一| 伊人久久久久久久| 日韩人妻无码制服丝袜视频| 成人伊人色一区二区三区| 国产成人综合久久精品下载| 色悠久久久| jizz在线观看| 91丝袜乱伦| 亚洲一区毛片| 99热免费在线| 伊人无码视屏| 日韩欧美国产三级| 天天色综网| 在线国产资源| 狠狠v日韩v欧美v| 欧美一级专区免费大片| 精品欧美视频| 午夜老司机永久免费看片| 亚洲国产系列| 在线观看国产精品日本不卡网| 福利国产在线| 亚洲国产天堂久久综合226114| 在线免费亚洲无码视频| 在线无码私拍| 久青草网站| 91小视频在线| 亚洲日韩精品无码专区97| 青青青草国产| 午夜一级做a爰片久久毛片| 国产丝袜无码精品| 国产黄色免费看| 日韩高清中文字幕|