999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習的自動駕駛技術研究

2021-01-15 09:22:04楊霄李曉婷
網絡安全技術與應用 2021年1期
關鍵詞:深度策略

◆楊霄 李曉婷

基于深度強化學習的自動駕駛技術研究

◆楊霄 李曉婷

(北方自動控制技術研究所軍種指控系統研發部 山西 030000)

傳統的自動駕駛行為決策算法需要人為設定復雜的規則,從而導致車輛決策時間長、決策效果不佳、對于新的環境不具有適應性,而強化學習作為近年來機器學習和智能控制領域的主要方法之一,車輛僅通過與環境交互便可以學習到合理、有效的策略。本文基于DDPG((Deep Deterministic Policy Gradient)算法,通過設計合理的獎勵函數、深度卷積網絡、探索策略,在Carla模擬器中實現指定路線的自動駕駛。

自動駕駛;深度強化學習;行為決策

自動駕駛汽車(Autonomous Car)是指一類能夠自我感知環境、規劃路徑并對實時路況進行合理決策的智能汽車[1]。行為決策模塊是自動駕駛汽車的“大腦”,受到傳統車企乃至相關高校的高度關注[2]。強化學習在20世紀80年代已經興起,但隨著問題的復雜度逐漸增大,傳統的表格式強化學習已經難以解決龐大的狀態空間和搜索空間,因此,利用深度神經網絡擬合Q值或輸出行為策略的深度強化學習被提出,并在策略游戲、直升機特技表演、火電廠控制等領域取得了極大的成功,其中,DDPG算法在目前的深度強化學習算法中應用是最廣的[3-4]。本文基于DDPG算法,通過設計合理的獎勵函數、深度卷積網絡、探索策略,在Carla模擬器中實現指定路線的自動駕駛。

1 行為決策

根據現代決策理論的發展,可以將行為決策理論分為理性決策理論和行為決策理論,理性決策理論在20世紀80年代之前一直處于主導地位,之后隨著行為科學研究的興起,行為決策理論逐步發展壯大。

行為決策理論是一個多學科交叉的研究領域,旨在探討“人們實際是怎樣決策的”以及“這樣決策的根據是什么”,目前,關于機器人的行為決策理論較為成熟,從機器人學科的角度來看,無人駕駛汽車可以看作是一種移動輪式機器人,因此移動機器人的行為決策方法也可以應用在無人駕駛汽車中[5]。

無人駕駛行為決策的目標是對可能出現的駕駛的道路環境都給出一個合理的、實時的行為策略,核心任務是消化上層規劃模塊的輸出軌跡點,通過一系列結合自身屬性和外界物理因素的動力學計算,轉換成對汽車控制的油門、剎車、方向盤信號[4,6-7]。

2 深度強化學習

隨機性策略梯度算法被廣泛應用于解決大型空間或者連續動作空間的強化學習問題中,直到2014年,效力于谷歌公司旗下Deepmind實驗室的David Silver提出確定性策略梯度理論,不僅從數學上證明了確定性策略梯度的存在,同時提出確定性策略梯度算法(Deterministic Policy Gradient,DPG)。DDPG便是深度神經網絡與DPG算法結合的產物,實現端到端的學習。

2.1 確定性策略

隨機性策略:

確定性策略:

確定性策略的動作是確定的,避免了隨機性策略需要在高維空間頻繁采樣的問題,有效提高決策的效率。

2.2 DPG算法

2.3 DDPG算法

DQN是強化學習中第一個將深度學習與強化學習結合的產物,通過神經網絡的引入,使智能體可以從高維視頻像素中直接學習控制策略的方法,但是,DQN對于連續動作問題便顯得無能為力,而DPG算法可以有效解決動作空間連續問題,DDPG結合DQN與DPG,實現了從原始數據中進行端到端學習。

算法框架如圖1:

圖1 DDPG算法框架

其中:

參數更新采用了一種更新目標網絡的有效方式:滑動平均(soft-update),可以大大提高學習的穩定性:

3 訓練細節

3.1 行為決策

根據接口定義,通過調整油門(throttle)、方向盤(steer)、剎車(brake)信號實現自動駕駛車輛的控制(表1)。

表1 行為決策

3.2 深度卷積網絡

(1)預處理,原始輸入圖像為RGB圖像,這樣不僅浪費算力,還導致深度卷積網絡的計算時間較長,因此,將RGB圖像編碼成單通道的灰度圖像。

(2)深度卷積網絡結構如表2。

表2 深度卷積網絡

3.3 獎勵函數

經過對比訓練,設計復合獎勵函數如下:

3.4 探索策略

本文通過給確定性策略添加噪聲N來構建行為策略,保證智能體可以高效的探索:

式中,選擇隨機噪聲。

4 實驗

4.1 仿真環境

Carla作為一款專業的自動駕駛模擬環境,提供多元化的Python接口實現地圖切換、傳感器信號切換、汽車控制等[4-8]。

4.2 實驗環境

實驗環境為ubuntu18.04操作系統、256G內存、Tesla V100顯卡*(4)Carla 0.9.2、python 3.7。

訓練7000個回合,每個回合500步。

4.3 實驗結果

(1)獎勵

圖2 獎勵

由圖可以看出,DDPG算法引導的自動駕駛車輛經過大約3000個回合后,獎勵逐漸趨于穩定。

(2)指定路線成功率

測試選擇20條不同的路線,每條路線測試5次,成功率如表3所示:

表3 成功率

5 結語

本文采用深度強化學習的方法,通過設計合理的獎勵函數、深度卷積網絡、探索策略,實現車輛指定路線的自動駕駛。同時,通過測試回放發現,車輛在包含環島路況的路線時效果欠佳,未來的工作,將針對此進行算法優化和改進。

[1]王鑫鵬,陳志軍,吳超仲,熊盛光.考慮駕駛風格的智能車自主駕駛決策方法[J].交通信息與安全,2020,38(02):37-46.

[2]張一弛. 自動駕駛汽車縱向控制的強化學習算法研究[D].吉林大學,2020.

[3]劉偲.基于深度強化學習的自動駕駛研究[J].自動化應用,2020(05):57-59.

[4]方川. 基于深度強化學習的無人駕駛車道保持決策的研究[D].南京大學,2019.

[5]朱向陽. 基于深度強化學習的無人駕駛決策控制研究[D].湖南大學,2019.

[6]Daniel Casini, Alessandro Biondi, Giorgio Buttazzo. Timing isolation and improved scheduling of deep neural networks for real‐time systems. 2020, 50(9):1760-1777.

[7]李志航.基于深度遞歸強化學習的無人自主駕駛策略研究[J].工業控制計算機,2020,33(04):61-63.

[8]吳俊塔. 基于集成的多深度確定性策略梯度的無人駕駛策略研究[D].中國科學院大學(中國科學院深圳先進技術研究院),2019.

猜你喜歡
深度策略
基于“選—練—評”一體化的二輪復習策略
深度理解一元一次方程
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
深度觀察
深度觀察
深度觀察
深度觀察
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
主站蜘蛛池模板: 久久semm亚洲国产| 亚洲区一区| 第九色区aⅴ天堂久久香| 国产人人干| 国内毛片视频| 99热国产这里只有精品无卡顿"| 九九视频免费在线观看| 亚洲另类第一页| 9966国产精品视频| 女高中生自慰污污网站| 强乱中文字幕在线播放不卡| 日韩免费中文字幕| 三上悠亚在线精品二区| 污污网站在线观看| 高清不卡毛片| 三级欧美在线| 欧美日韩中文字幕在线| 亚洲毛片一级带毛片基地| 亚洲国产欧美国产综合久久| 国内精品久久人妻无码大片高| 真实国产乱子伦高清| 欧美精品啪啪一区二区三区| 亚洲精品在线91| 亚洲性视频网站| 成人在线第一页| 精品伊人久久久大香线蕉欧美 | 91丝袜乱伦| 国产99久久亚洲综合精品西瓜tv| 噜噜噜综合亚洲| 欧美亚洲国产一区| 第一页亚洲| 麻豆精品视频在线原创| 香蕉蕉亚亚洲aav综合| 日韩国产无码一区| 久久久精品久久久久三级| 日韩不卡高清视频| 国产色婷婷| 亚洲视频无码| 999国产精品永久免费视频精品久久 | 91原创视频在线| 欧美啪啪网| 国产网站免费看| 日本精品视频一区二区| 永久免费无码成人网站| 亚洲国产中文精品va在线播放| 久久精品一品道久久精品| 干中文字幕| 国产美女叼嘿视频免费看| 伊人国产无码高清视频| 天堂网亚洲综合在线| 又大又硬又爽免费视频| 日韩美一区二区| 亚洲h视频在线| 色综合a怡红院怡红院首页| 又粗又大又爽又紧免费视频| 另类欧美日韩| 亚洲欧美不卡中文字幕| 日韩AV无码免费一二三区| 四虎永久免费在线| 日韩欧美中文字幕在线精品| 亚洲第一视频网| 国内熟女少妇一线天| 欧美国产综合视频| 欧美中文一区| 国产精品久久久久久久久久久久| 国内自拍久第一页| 国产大片喷水在线在线视频| 91在线无码精品秘九色APP| 欧美日韩资源| 免费看的一级毛片| 色综合激情网| 尤物精品视频一区二区三区| 99一级毛片| 在线观看国产一区二区三区99| 91精品视频网站| 精品人妻一区无码视频| 亚洲女同欧美在线| 全免费a级毛片免费看不卡| 一级片一区| 福利国产微拍广场一区视频在线| 中文字幕在线看| 67194亚洲无码|