基于深度強化學習的自動駕駛技術研究

2021-01-15 09:22:04楊霄李曉婷

網絡安全技術與應用 2021年1期

◆楊霄李曉婷

基于深度強化學習的自動駕駛技術研究

◆楊霄李曉婷

（北方自動控制技術研究所軍種指控系統研發部山西 030000）

傳統的自動駕駛行為決策算法需要人為設定復雜的規則，從而導致車輛決策時間長、決策效果不佳、對于新的環境不具有適應性，而強化學習作為近年來機器學習和智能控制領域的主要方法之一，車輛僅通過與環境交互便可以學習到合理、有效的策略。本文基于DDPG（（Deep Deterministic Policy Gradient）算法，通過設計合理的獎勵函數、深度卷積網絡、探索策略，在Carla模擬器中實現指定路線的自動駕駛。

自動駕駛；深度強化學習；行為決策

自動駕駛汽車（Autonomous Car）是指一類能夠自我感知環境、規劃路徑并對實時路況進行合理決策的智能汽車[1]。行為決策模塊是自動駕駛汽車的“大腦”，受到傳統車企乃至相關高校的高度關注[2]。強化學習在20世紀80年代已經興起，但隨著問題的復雜度逐漸增大，傳統的表格式強化學習已經難以解決龐大的狀態空間和搜索空間，因此，利用深度神經網絡擬合Q值或輸出行為策略的深度強化學習被提出，并在策略游戲、直升機特技表演、火電廠控制等領域取得了極大的成功，其中，DDPG算法在目前的深度強化學習算法中應用是最廣的[3-4]。本文基于DDPG算法，通過設計合理的獎勵函數、深度卷積網絡、探索策略，在Carla模擬器中實現指定路線的自動駕駛。

1 行為決策

根據現代決策理論的發展，可以將行為決策理論分為理性決策理論和行為決策理論，理性決策理論在20世紀80年代之前一直處于主導地位，之后隨著行為科學研究的興起，行為決策理論逐步發展壯大。

行為決策理論是一個多學科交叉的研究領域，旨在探討“人們實際是怎樣決策的”以及“這樣決策的根據是什么”，目前，關于機器人的行為決策理論較為成熟，從機器人學科的角度來看，無人駕駛汽車可以看作是一種移動輪式機器人，因此移動機器人的行為決策方法也可以應用在無人駕駛汽車中[5]。

無人駕駛行為決策的目標是對可能出現的駕駛的道路環境都給出一個合理的、實時的行為策略，核心任務是消化上層規劃模塊的輸出軌跡點，通過一系列結合自身屬性和外界物理因素的動力學計算，轉換成對汽車控制的油門、剎車、方向盤信號[4，6-7]。

2 深度強化學習

隨機性策略梯度算法被廣泛應用于解決大型空間或者連續動作空間的強化學習問題中，直到2014年，效力于谷歌公司旗下Deepmind實驗室的David Silver提出確定性策略梯度理論，不僅從數學上證明了確定性策略梯度的存在，同時提出確定性策略梯度算法（Deterministic Policy Gradient，DPG）。DDPG便是深度神經網絡與DPG算法結合的產物，實現端到端的學習。

2.1 確定性策略

隨機性策略：

確定性策略：

確定性策略的動作是確定的，避免了隨機性策略需要在高維空間頻繁采樣的問題，有效提高決策的效率。

2.2 DPG算法

2.3 DDPG算法

DQN是強化學習中第一個將深度學習與強化學習結合的產物，通過神經網絡的引入，使智能體可以從高維視頻像素中直接學習控制策略的方法，但是，DQN對于連續動作問題便顯得無能為力，而DPG算法可以有效解決動作空間連續問題，DDPG結合DQN與DPG，實現了從原始數據中進行端到端學習。

算法框架如圖1：

圖1 DDPG算法框架

其中：

參數更新采用了一種更新目標網絡的有效方式：滑動平均（soft-update），可以大大提高學習的穩定性：

3 訓練細節

3.1 行為決策

根據接口定義，通過調整油門（throttle）、方向盤（steer）、剎車（brake）信號實現自動駕駛車輛的控制（表1）。

表1 行為決策

3.2 深度卷積網絡

（1）預處理，原始輸入圖像為RGB圖像，這樣不僅浪費算力，還導致深度卷積網絡的計算時間較長，因此，將RGB圖像編碼成單通道的灰度圖像。

（2）深度卷積網絡結構如表2。

表2 深度卷積網絡

3.3 獎勵函數

經過對比訓練，設計復合獎勵函數如下：

3.4 探索策略

本文通過給確定性策略添加噪聲N來構建行為策略，保證智能體可以高效的探索：

式中，選擇隨機噪聲。

4 實驗

4.1 仿真環境

Carla作為一款專業的自動駕駛模擬環境，提供多元化的Python接口實現地圖切換、傳感器信號切換、汽車控制等[4-8]。

4.2 實驗環境

實驗環境為ubuntu18.04操作系統、256G內存、Tesla V100顯卡*（4）Carla 0.9.2、python 3.7。

訓練7000個回合，每個回合500步。

4.3 實驗結果

（1）獎勵

圖2 獎勵

由圖可以看出，DDPG算法引導的自動駕駛車輛經過大約3000個回合后，獎勵逐漸趨于穩定。

（2）指定路線成功率

測試選擇20條不同的路線，每條路線測試5次，成功率如表3所示：

表3 成功率

5 結語

本文采用深度強化學習的方法，通過設計合理的獎勵函數、深度卷積網絡、探索策略，實現車輛指定路線的自動駕駛。同時，通過測試回放發現，車輛在包含環島路況的路線時效果欠佳，未來的工作，將針對此進行算法優化和改進。

[1]王鑫鵬，陳志軍，吳超仲，熊盛光.考慮駕駛風格的智能車自主駕駛決策方法[J].交通信息與安全，2020，38（02）：37-46.

[2]張一弛. 自動駕駛汽車縱向控制的強化學習算法研究[D].吉林大學，2020.

[3]劉偲.基于深度強化學習的自動駕駛研究[J].自動化應用，2020（05）：57-59.

[4]方川. 基于深度強化學習的無人駕駛車道保持決策的研究[D].南京大學，2019.

[5]朱向陽. 基于深度強化學習的無人駕駛決策控制研究[D].湖南大學，2019.

[6]Daniel Casini， Alessandro Biondi， Giorgio Buttazzo. Timing isolation and improved scheduling of deep neural networks for real‐time systems. 2020， 50（9）：1760-1777.

[7]李志航.基于深度遞歸強化學習的無人自主駕駛策略研究[J].工業控制計算機，2020，33（04）：61-63.

[8]吳俊塔. 基于集成的多深度確定性策略梯度的無人駕駛策略研究[D].中國科學院大學（中國科學院深圳先進技術研究院），2019.