999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的自動駕駛決策研究綜述 *

2023-05-04 10:06:58金立生韓廣德謝憲毅郭柏蒼劉國峰朱文濤
汽車工程 2023年4期
關鍵詞:策略

金立生,韓廣德,謝憲毅,郭柏蒼,劉國峰,朱文濤

(燕山大學車輛與能源學院,秦皇島 066004)

前言

自動駕駛技術作為汽車產業未來轉型升級的重要方向[1],在緩解交通擁堵、提高交通安全性、降低能耗等方面具有巨大潛能。隨著自動駕駛車輛在局部道路測試中的快速部署,自動駕駛車輛和人類駕駛車輛之間相互影響的混合交通場景正成為一種新常態[2]。決策技術作為自動駕駛車輛智能、高效完成各項行駛任務的核心體現,需要有效應對復雜環境信息不確定性帶來的挑戰,以滿足車輛安全性、經濟性和乘車舒適性等需求。因此,復雜交通場景下的智能決策技術已成為自動駕駛智能化的重要標簽。

現階段,自動駕駛的決策技術多采用基于規則(rule-based)的分解式方案,主要應用于稀疏交通工況[3],面對復雜的交通環境,依據現有預測模型難以編寫出涵蓋所有交通場景與行為的全部決策方案。強化學習(reinforcement learning,RL)領域的進步極大推動了自動駕駛決策技術的發展。RL 基于馬爾科夫過程(Markov decision process,MDP)采用閉環學習的形式,利用回報函數作為激勵,采用探索試錯的方法自主迭代學習[4],逐步改善決策能力。基于RL 的自動駕駛決策技術具有較好的自主決策能力,能夠依據有效的回報函數(安全性、舒適性等)指導相應的駕駛行為。RL 憑借對高維信息較好的提取能力,通過不斷探索學習從復雜的交通場景中抽象出最優策略的隱藏映射,可較好應對場景特征難以顯性表達的難題和減緩不確定性的影響,在自動駕駛決策領域具有巨大的應用潛力。

學者們基于RL 算法在自動駕駛決策領域開展了諸多研究,在駕駛模擬器Carla、Torcs、Prescan 等仿真環境中展現出RL算法強大的優越性和靈活性,涵蓋L3-L5 級自動駕駛的車道保持、跟馳、換道、交叉口通行等駕駛任務。RL 可以通過處理非結構化數據,利用高維度感知信息學習實現數據驅動的決策映射,即端到端方案[5]。端到端方案與分解式方案相比,具有框架簡潔、環感信息無損輸入等優點[6],在自動駕駛決策領域得到廣泛應用。但是端到端方案存在可解釋性低、遷移性不強等缺點[7-8],尤其面臨交互式駕駛場景的復雜性和不確定性,實現完全自主決策仍然是一個非常具有挑戰性的問題。

現階段的學者們和車企普遍專注于單車智能決策的解決方案,本文中以RL 算法發展為主線,梳理RL 算法演變、分類、主要思想及在單車智能決策領域的應用;歸納了RL前沿發展,以逆強化學習、分層強化學習、混合策略等算法為例著重分析其在決策領域的應用;總結分析了RL在自動駕駛決策應用的不足,并提出了研究展望。

1 RL算法發展與決策應用

1.1 RL傳統算法演變歷程

RL 主要由智能體(Agent)、環境(Env)、狀態(State)、動作(Action)、獎勵(Reward)組成[9]。RL 概念由Minsky(1954)首次提出[10],歷經動態規劃方法[11](1957)、策略迭代[12](1960)、獎懲機制應用控制理論[13](1965)、時間差分算法[14](1988)、Q-learning算法[15](1989)、SARSA 算法[16](1994)、神經動態規劃方法[17](1996)、置信上限樹算法[18](2006)、確定性策 略 梯 度(deterministic policy gradient,DPG)[19](2014)等傳統算法發展,形成試錯法、最優控制及時序差分法等學習思想,RL 算法不依賴標簽數據,關注Agent與Env之間的交互。

其中應用較為廣泛的傳統算法Q-learning 和SARSA 都是基于時序差分法的RL 算法,依據QTable 實現決策,二者的Q(s,a)值更新方式看似相似,實現原理卻截然不同。

式 中:s為 當 前State;a為 當 前Action;r為 獲 得 的Reward;s′為下一個State;a′為下一個Action;α為學習率;γ為折扣系數;Q(s,a)、Q(s′,a′)為動作價值Q函數。

Q-learning 為離線策略算法,依據ε-greedy 策略選擇當前s對應的動作a,與Env 交互得到r、s′[20],maxa′Q(s′,a′)中的動作a′不依賴于當前ε-greedy 策略,動作a和a′并非來自同一個策略。SARSA 屬于在線策略算法,動作a和a′是來自同一個策略,即Q(s′,a′)中的a′為依據ε-greedy策略獲得。

現階段RL 算法在自動駕駛決策領域的應用較少,學者們基于值函數的RL算法執行一些離散的駕駛動作策略,這類傳統算法通常只能處理一些相對簡單且低維State空間的駕駛場景。

Pyeatt 等[21](1998)將Q-learning 算法應用于賽車模擬器中賽車的轉向、加速等基本任務。Qlearning 和SARSA 等RL 傳統算法,面對連續或高維State 的 動 態 駕 駛 場 景 時,Agent 受Q-Table 容 量 限制,很難快速迭代出最大行為價值函數值并選擇相應的Action 或找到全局最優解,可能會導致自動駕駛車輛在超車環節因輸入空間不能更好地擴展而無法完美地避免碰撞發生。

1.2 DRL經典算法與決策應用

直至DQN 算法[22](2015)在《Nature》發表,新的子領域—深度強化學習(deep reinforcement learning,DRL)真正推動自動駕駛決策技術的發展。學者們借鑒DQN 算法利用深度神經網絡(deep neural networks,DNN)近似行為價值函數的思想,結合深度學習(deep learning,DL)算法的感知能力與RL 算法的決策能力,將相機、模擬器界面等采集的圖像作為State輸入,較好地完成車輛車道保持和避障等任務[23]。

此后,RL 研究進展與成果備受關注,DRL 典型算法相繼被提出,算法多樣化,應用靈活性較高。以單智能體為例,根據算法是否依賴模型,RL 可分為基于無模型的強化學習(model-free RL,MFRL)和基于模型的強化學習(model-based RL,MBRL)兩類[24]。Guan 等[25]按照最優策略的獲得方式進一步細分為直接式RL 和間接式RL,見表1。直接式RL基于梯度下降法,直接優化累積獎勵的期望值求解最優策略;而間接式RL 則根據貝爾曼方程,間接求解最優性條件獲得最優策略。

1.2.1 基于MFRL的決策研究

(1)MFRL經典算法

MFRL 不依賴轉移概率,算法框架相對簡單,可分為基于值、策略以及結合值與策略(actor-critic,AC)3類[26]。

基于值的MFRL算法,以DNN逼近價值函數,應用于離散的動作空間問題,如DQN 系列算法,見表2。

表2 DQN系列算法

基于策略的MFRL 算法,無須估計State 或State-Action 的價值,通常直接將策略以參數化表示[34],可以應用于連續的動作空間問題,但樣本利用率偏低。如策略梯度法,由于梯度每次更新后會根據新分布進行采樣,造成新梯度的估計只與現策略有關而獨立于過去的估計。

Lillicrap 等[35](2015)結合DQN、DPG、AC[36-38]等算法思想,提出了深度確定性策略梯度算法(deep deterministic policy gradient,DDPG),基 于AC 的MFRL 算法,可以提升RL 算法對連續動作空間的適應性。隨后,TRPO、PPO、SAC 等各類典型算法相繼提出,見表3。

表3 MFRL典型算法更新

(2)基于MFRL的決策研究

車聯網(vehicle to everything,V2X)技術為自動駕駛車輛獲取全面、有效的感知數據提供了強有力的支撐和新的發展思路。面對合作駕駛、對抗駕駛等多種駕駛策略,RL以環境狀態完全可知作為MDP成立的必要條件,目前學術研究主要側重于完全可觀察的確定性環境。MFRL 算法因框架簡潔、種類多樣,被廣泛應用于自動駕駛的決策子任務,不同算法適用駕駛場景的復雜程度、Reward 時效性、樣本數量等各不相同。

基于值的MFRL 算法,面臨自動駕駛決策技術中連續或大的離散動作空間問題時,依據貪婪策略很難找到最優值。雖然可以將車速和轉向角的控制范圍劃分為均勻的離散動作空間,達到降低復雜性的目的,但若步長值過大,易產生不穩定的動作輸出。

車速和轉向角采用連續動作輸出有利于車輛的穩定運行。基于策略的MFRL 算法旨在通過無梯度或梯度法直接評估最佳策略,適用于自動駕駛連續動作空間決策問題,但若每步策略改變過多,易破壞決策算法訓練的穩定性。

趨于AC 框架的MFRL 算法兼顧基于值、策略算法的優點,針對決策領域的適應性更強,同時一些優異算法融入MFRL 算法框架,如內在獎勵指導智能體探索環境的好奇心機制、改善輸入特征的注意力機制、考慮歷史行為影響的長短期記憶(long shortterm memory,LSTM)等優化方法,以此提升算法的效率和決策效果。

① 車道保持

自動駕駛車輛根據當前車道、導航、地圖等信息,考慮安全、效率、舒適性等需求輸出相應的決策動作,車道保持作為自動駕駛決策技術中必不可缺的基礎子任務,側重于車輛的橫向控制,故在此僅做簡要分析。DDPG、PPO、SAC 等經典算法基于端到端方案,能夠依據視覺等信息直接輸出連續動作,從而提供更平滑的軌跡,在駕駛模擬器中較好完成了直線道路和彎道等車道保持任務[47-50]。其State、Action等參數的常見設置見表4。

表4 車道保持任務State、Action等設置

② 跟馳

跟馳以車道保持技術為基礎,主要集中于主車的縱向速度策略優化研究。作為自動決策技術關鍵性的基礎子任務,可采用基于RL算法端到端的方案集成舒適性、駕駛風格等決策需求進行統一設計。跟馳效果受道路條件的不確定性、車輛參數以及前車運動的隨機性等因素影響。基于MFRL 的跟馳算法能夠根據車輛狀態及周圍環境信息進行自主決策,在滿足駕駛習慣、乘坐舒適性等決策需求的同時,實現車輛加速、減速或勻速等縱向速度的策略映射,體現決策系統的人性化。跟馳算法的獎勵函數可結合安全性、乘車舒適性等多部分組成。其State、Action等參數的常見設置見表5。

表5 跟馳任務State、Action等設置

朱冰等[51](2019)利用真實駕駛數據對前車運動的隨機性建模并引入PPO 算法框架中,實現跟馳決策策略,并在真實駕駛數據庫中驗證了跟馳效果。Gao 等[52](2019)考慮駕駛風險,通過人性化地設計Reward 函數,采用Q-learning 算法,基于端到端方案實現了跟馳的自主決策,在跟車效率、安全性等方面都取得較好效果。

跟馳決策結合人類專家數據集,可提高訓練過程的穩定性或經驗回放機制的效率。Vecerik 等[53](2017)使用示教數據(模擬器采集的專家數據)、Agent 與仿真環境交互所得的采集數據混合于經驗池中,采用優先經驗回放機制提升Rward 收斂速度。Liu 等[54](2021)提出了SAC 算法結合人類專家數據集(模擬器采集)的新框架,Agent自適應調整探索和人類專家數據集之間的采樣率,提升學習進程。Li等[55](2021)運用真實世界的人類駕駛數據集與Agent采集數據交互存儲到經驗池,采用 DDPG 算法結合優先經驗的方式在Carla 模擬器中訓練自動駕駛車輛的跟馳任務。不同專家的數據來源屬性不同,跟馳效果存在一定區別。

③ 換道

面對交通場景的不確定性,換道決策仍然是自動駕駛汽車復雜且具有挑戰性的任務之一。目前,主動換道以直線多車道場景為主,強制換道多為高速公路、城市高架道路合流區場景的匯入、匯出任務。換道決策的研究有助于提升自動駕駛車輛應對復雜駕駛工況的決策水平。

高速公路場景因其路況良好、不確性因素少,是自動駕駛技術落地應用的最佳場景,學者們運用MFRL 經典算法能訓練出較好的換道策略[56]。而城市道路交通復雜,通常受限于MFRL 經典算法傳統框架稀疏獎勵、獎勵設定不合理等問題,影響RL 算法的收斂程度和訓練效果。

除LSTM、注意力機制、動作約束等改善RL學習效率的方法外,Liu等[57](2020)通過收集多名駕駛員的換道等駕駛操作和習慣、機器視覺和車輛狀態信息等數據,提取駕駛風格等特征融入DDPG 框架,實現自動駕駛個性化駕駛的策略。

考慮周圍車輛的影響,結合風險評估進行Reward 設計,對Agent 規避危險動作具有一定的指導性。Li等[58](2022)基于概率模型的駕駛風險評估方法,提出了基于DQN 算法的風險感知決策策略,面對相鄰車道附近車輛的影響,在Carla 駕駛器中較好地完成換道決策。

強制換道,以高速公路合流區匯入任務為例,車輛匯入受合流區的幾何設計、車道通行規則(限速等)及主線交通流狀況等因素影響。車輛在有限的加速匝道選擇合適的車速及匯入時機,對決策技術是個考驗。RL 多采用交通環境、周圍車輛等信息(主線車速度、匝道自主車速度、兩車縱向/橫向車距等參數)作為State輸入。

LSTM 算法可以將歷史和交互駕駛數據對Action 選擇的影響融入DNN,提升車輛匯入效率。Wang等[59](2018)通過LSTM算法學習自主車輛與其他車輛的交互駕駛行為作為內部State 輸入DQN 網絡中,在SUMO仿真環境完成車輛匯入任務。

根據映射思想對Reward 做進一步設計引導目標函數的收斂性。Lin 等[60](2019)采用DDPG 框架,將處于匝道的匯入車輛向主干道做投影,以映射的等效碰撞距離作為Reward 設計依據之一,有效提升了車輛匯入效率。

④ 交叉口通行

城市道路交叉口的自動駕駛安全通行屬于多目標優化及策略問題,其不確定性和交通事故率高而備受關注。自動駕駛車輛在交叉路口的通行決策通常為連續的動作控制問題,是自動駕駛汽車最具有挑戰性的任務之一。

以十字形交叉路口場景為例,其中筆直交叉路徑、左轉越過橫向方向路徑和左轉越過相反方向路徑是碰撞風險較高的3種典型場景[61]。

MFRL 經典算法基于信號燈規律可實現十字形交叉路口無車流干擾的規則通行,結合LSTM、鳥瞰圖、注意力機制、風險評估等方法,可以提升十字形交叉路口場景的通行效率。

Li等[61](2022)根據車輛前端相機以兩個不同時間步長采集的交通圖像,結合CNN-LSTM 網絡框架提取空間、時間特征作為DQN 算法框架的State 輸入,在Carla 模擬器中實現無信號燈十字形交叉口的安全通行。Kargar等[62](2022)在無紅綠燈的城市道路仿真環境中,將高精度地圖的可行駛區域、道路邊界等信息以及車輛參考路徑、自主車、其他車輛的相關信息轉換成鳥瞰圖作為State 輸入,結合視覺注意力機制提取地圖中的重要車輛和關鍵部分的特征,提升學習收斂速度,采用DQN 算法較好地完成十字路口通行任務。基于風險評估的Reward 相對于基于碰撞的Reward,可以加快策略的收斂速度,針對十字形交叉口可以適應一定程度的遮擋等突發場景。Kamran 等[63](2020)考慮風險度量和效用的Reward,設計了最低安全Reward指導DQN算法框架的十字形交叉口通行策略,通行任務效果良好。

1.2.2 基于MBRL的決策研究

MBRL 源自最優控制領域[64],Agent 根據Env 建立的模型進行學習并獲取下一State 的Action,對策略進行優化并找到最優策略,以獲得最大的累積Reward。由于每一個樣本都可以用來逼近模型,在數據效率上明顯優于MFRL。如人工智能AlphaGo采用樹搜索與DNN 結合的MBRL 方法在圍棋博弈中擊敗人類頂尖選手[65]。

MBRL與MFRL兩種方法各有優劣,適用不同的任務場景。雖然MBRL 的研究相對于MFRL 更為前沿,但Agent 的學習效果與模型的準確性息息相關。由于交通環境的不確定性以及駕駛策略的多樣性,MBRL 模型的設計難度相對較高。相對于MFRL 在自動駕駛決策領域的廣泛應用,目前,MBRL 算法主要集中在控制、能量管理、生態駕駛等領域,在智能決策領域通常采用前沿算法的混合策略,單純MBRL算法應用較少。

Puccetti 等[66](2021)基 于 自 回 歸 模 型ARX 的MBRL 算法,設計了一種車輛最優速度的控制器,用于實現車輛最優的速度跟蹤策略,表現出較好的魯棒性和學習效率。

學者們借助V2X 技術,采用DRL 方法結合道路坡度、交通規則、信號燈、曲率等因素進行經濟駕駛,開展智能網聯汽車巡航研究。Lee 等[67](2022)基于Q-learning算法結合車輛縱向動力學、電池能耗等方面分析,考慮道路坡度與跟車距離等駕駛條件,建立Dyna 風格的MBRL 算法調整車輛巡航速度,達到最小化能耗的目的,見圖1。

圖1 考慮道路坡度與跟車距離的巡航速度策略

2 POMDP決策應用

環境狀態完全可觀測是RL 算法MDP 建模成立的前提,基于V2X 的自動駕駛技術正迅速成為解決眾多交通問題的解決方案之一。但受其信號傳輸效率、建設成本等問題的制約,大規模應用尚未實現。

自動駕駛車輛進入無通信路口易受到靜態遮擋和動態遮擋,由于傳感器噪聲干擾、采集范圍受限和感知結果的不確定性,存在駕駛盲區、中遠距離感知不穩定等問題。非完全可觀測情況下的自動駕駛任務可視為MDP 的一般表現形式,即部分可觀察的馬爾可夫決策過程(partially observable Markov decision processes,POMDP)。

POMDP 作為環境狀態部分可知或動態不確定環境下序貫決策的理想模型,POMDP可由類似MDP的描述方式六元組< S,A,O,T,R,Z>來描述,S表示有限狀態集合,A 表示有限動作集合,O 表示有限觀察集合,T是一個狀態轉移矩陣,R是獎勵函數,Z是觀察函數[68]。由于Agent 在受遮擋的環境中無法直接觀察某些狀態信息,例如周圍車輛的駕駛意圖,可將其概率分布轉換至狀態。用于表示觀察確定的情況下環境所處狀態的概率分布,稱為信念狀態,通常以b表示。當前置信b的情況下,在執行動作a和 得 到 觀 察O 后,需 要 更 新 置 信 為b'[69]。POMDP 利用信念狀態映射Action,令累積Reward 的期望最大化,找到最優策略。當前Action 影響下一步的State及Reward。

面對動態不確定性的駕駛環境,基于POMDP構建包含自動駕駛汽車所有可執行Action 的信念搜索樹,通過樹搜索得出順序決策,應用框架如圖2所示。

圖2 POMDP決策應用框架[68]

Bai 等[70](2015)基 于 在 線POMDP 算 法 之 一DESPOT 算法,結合貝爾曼方程對置信度樹內部節點選擇最佳動作,在動態的多行人環境中完成實車自動駕駛。提出的POMDP 規劃器僅控制車輛沿參考路徑行駛的加速度大小,實現加速、保持和減速等行為動作。未對行人模型進行意圖變化分析,但在POMDP 算法中進行了置信度更新和重規劃處理。Hoel等[71](2019)針對主干道連續行駛和靠近出口匝道行駛的兩種交通場景轉化為POMDP 問題進行研究,通過蒙特卡洛樹搜索改進神經網絡訓練過程,根據AlphaGo Zero 算法建立的決策框架,在仿真環境中實現自動駕駛車輛換道和跟馳任務。

結合駕駛員過交叉口慢行、待轉、習慣性觀察的思想,在十字形交叉口設置左轉關鍵位置點,可以輔助十字形交叉口左轉任務的實施。Shu 等[72](2020)針對十字形交叉口有遮擋的左轉通行進行研究,依據大量十字路口左轉自然駕駛數據得出待轉位置關鍵左轉點,如圖3 所示,建立基于POMDP 理論的分層規劃框架,仿真驗證結果令左轉通行效率提升20%以上。

圖3 基于關鍵點轉向示意圖

面對復雜場景下不完全狀態信息的建模,如添加動態貝葉斯網絡推理交通參與者的意圖或非正態分布的多模態不確定性POMDP 問題,求解POMDP的最優策略需消耗巨大算力。

3 RL前沿與決策應用

RL 算法通常以DNN 近似駕駛決策策略,但其DNN 往往只是一個平滑的映射,DRL 經典算法很難學習一個能夠表現出不同行為的策略。例如城市環境中自動駕駛由多項任務組成,由于周圍車輛的交互影響,復雜任務的決策算法可能會被多個子任務所影響,自動駕駛決策技術迫切需要適應性更強的RL決策模型和發展前沿。

3.1 RL前沿發展

RL 作為人工智能的主流方向之一,已經進入百家爭鳴的時代。學者們針對RL算法樣本復雜性、超參數的敏感性、可解釋性和安全性等問題,面向單智能體決策,圍繞以下幾個方面開展前沿性研究:逆強化學習[73](IRL)、分層強化學習[74](HRL)、元強化學習[75](Meta RL)、離線強化學習[76](Offline RL)、多任務強化學習[77](MTDRL)、混合型強化學習[78]等,見表6。同時遷移強化學習[79]、量子強化學習[80]、分布式強化學習[81]、Transformer 強化學習[82]、安全強化學習[83]、貝葉斯強化學習[84]、可解釋的強化學習[85]等方面也是近年的研究熱點。

表6 RL主要前沿方向

3.2 RL前沿決策應用

面向單車智能駕駛的RL前沿決策技術,目前應用廣泛、相對成熟的前沿主流為IRL、HRL 及混合策略等算法,且均取得了突破性進展。

3.2.1 基于IRL的行為決策研究

IRL 起源于模仿學習,將專家做出的決策視為最優或接近最優的策略,即專家策略所產生的累積Reward 設為最高。IRL 基于最大邊際化或概率模型的角度出發,從已有策略或觀察到的專家行為推斷Reward,從而改善Reward 誤差過大、獎賞稀疏、收斂困難等問題。

在自動駕駛決策研究中,IRL 通常借助專家駕駛員的行為數據進行學習并推理出Reward,再根據Reward 正向執行RL 算法,結合駕駛場景的特征優化駕駛行為策略。其中結合GAN 思想的反向RL 方法—對抗性逆強化學習(GAIL)近年來被廣泛應用[127-128],如圖4所示。

圖4 GAIL結構圖

You等[129](2019)考慮駕駛員的駕駛風格建立基于State-Action 的獎勵函數,采用Q-learning 結合最大熵原理的IRL 框架確定車輛在多車道環境的最優駕駛策略。Wang等[130](2021)將元學習算法與GAIL算法相結合,把保守和中性駕駛風格作為元訓練任務,并用挑戰性駕駛風格(攻擊性駕駛)作為元測試任務,仿真環境中實現自動駕駛車輛換道決策。Liu等[131](2022)采用主成分分析法將專家先驗知識提取駕駛風格,采用基于最大熵的IRL 框架根據駕駛風格定制自動駕駛車輛變道任務。

IRL 算法多適用于車道保持、跟馳、巡航或簡易換道等任務。由于復雜交通場景中周圍參與者的不確定性,所需的專家駕駛數據通常較大,且相同情況下不同的專家駕駛員做出的決策可能完全不同,推理出的Reward 指導性過弱而導致策略不適應。現實世界的部分專家數據集(NGSIM等)僅涵蓋具體任務的交通場景。模擬環境中采集的專家數據,會存在泛化性弱和數據集偏差等問題。

3.2.2 基于HRL的行為決策研究

依據駕駛員實際駕駛過程為離散與連續的分層次駕駛思想,HRL 算法以MDP、POMDP 作為數學基礎,建立離散的上層決策與連續的下層執行框架。分層系統中不同的局部策略作為一個獨立的子功能,如高速公路主干道行駛總策略可細分為左/右換道、車道保持、跟馳等多個獨立子任務,簡化了State空間容量,可以較好地應對RL經典算法中可能出現的維度災難等問題,提升整體決策性能。

Option、HAM、MAXQ、Skill系列算法抽象出不同級別的控制層,實現HRL 多級控制。而基于目標(Goal)的HRL 算法,其Goal 則屬于目標層面上的定義,上層控制器根據上層策略選擇一個關鍵Goal,下層控制器根據Goal及下層策略選擇Action。

Chen 等[132](2018)針對具有人行道與紅綠燈設施的駕駛場景,采用基于策略梯度算法的HRL 框架,設定了紅燈、黃燈、綠燈分別執行的子通行策略,在仿真環境中實現自動駕駛車輛的信號燈通行任務。Chen 等[133](2019)基于DDPG 的HRL 框架融入時間/空間注意力機制,提升了神經網絡的結構性和換道效率,在TORCS 模擬器中實現換道任務。Duan等[134](2020)針對高速公路主干路駕駛場景,采用HRL 思想將駕駛任務分解為車道內行駛、左/右車道變更3個Option,采用異步并行的訓練方法學習每個動作的子策略和主策略。周圍車輛社會偏好性的融入可以較好地體現超車決策算法的舒適性和穩定性。呂超等[135](2022)基于周圍車輛的社會偏好性(利他型、利己型和互惠型)概率模型,結合Qlearning 算法搭建HRL 框架,通過實車采集數據與Carla模擬器完成自車超車任務的聯合驗證。

HRL 算法可很好地解決自動駕駛多任務決策,但是與MTDRL的原理截然不同,HRL上下層次同時訓練的不穩定問題,高價狀態遷移函數的平穩性、自動學習分層結構及避免人工定義Goal 空間是進一步有待解決的問題。

3.2.3 基于混合策略的RL算法

直接采用端到端方案在解決自動駕駛復雜決策任務時,由于須考慮的影響因素多,框架設計存在困難,結合多種決策方案組成混合策略,可以兼容多種方案的特點,提升決策能力。

(1)分解式框架與端到端方案的混合策略

將基于先驗知識(車輛模型、駕駛行為數據、交通規則等)的Rule-base 算法與RL算法聯合實施,提升自動駕駛車輛決策能力的適應性。Qiao 等[136](2019)針對具有停止線的十字形交叉路口場景將基于啟發式的決策結構與基于Option 類型的DQN 分層算法構建混合模型框架,完成跟隨前車和停止線停止的任務。Lubars 等[137](2020)針對高速合流區匯入任務,利用DDPG 算法提升匯入效率和乘客舒適度、MPC算法提升車輛匯入安全性的特點,將兩種算法相聯合作為匯入決策,在SUMO 模擬器單加速車道和單主干道的仿真環境中較好地完成了匯入決策。Bai 等[138](2022)提出了一種混合型決策框架,該框架基于Rule-base 的IDM 算法和Dueling DQN算法的共同協作,如圖5 所示。考慮安全規則的影響,實現自動駕駛車輛在有信號交叉口的安全通行。

圖5 基于規則和RL協作策略框架

利用MBRL 算法的決策能力,結合下層Rulebase 算法執行軌跡跟蹤任務,可在一定程度上提升車輛軌跡的穩定性,遇到突發狀況,可結合Rulebase 方法執行安全冗余設計。Shi 等[139](2019)提出基于h-DQN 的變道決策與純跟蹤控制體系搭建的混合式結構,仿真環境中完成自動駕駛車輛完整換道任務。HRL 算法開展換道時間和換道軌跡的決策,純跟蹤算法執行軌跡跟蹤任務。Naveed 等[140](2021)將一種HRL結構結合PID控制器構建自動駕駛決策和軌跡跟蹤的混合框架,利用LSTM 來處理不完全觀測的問題,在Carla 模擬器中完成車輛換道/跟馳任務。

針對自動駕駛生態駕駛,基于MBRL 算法構建混合策略可以較好地應對交通規則,并兼顧車輛的能量管理。Yavas 等[141](2022)針對自適應巡航任務,將傳統跟馳模型IDM 與基于Dyna 思想的MBRL算法組成混合策略,提升巡航效果的優越性。

(2)集成式決控混合策略

將決策和控制問題整合為集成式決控框架,使用統一的約束模型。Guan 等[78](2021)針對十字交叉路口交通場景,提出了集成式決策和控制框架(IDC),采用基于MBRL 的GEP 算法,實現不同交通條件下的無碰撞駕駛,并進行了實車驗證。Jiang等[142](2021)針對基于靜態路徑規劃和最佳動態跟蹤模塊組成的IDC 框架,通過融入有限狀態機選擇路徑進行改進,實現十字交叉路口識別信號燈的通行。

任何RL算法都非常依賴算力。基于RL的自動駕駛決策技術,無論采用先離線訓練策略、后在線應用策略的方式,還是同時訓練和應用策略的方式[143],都需要面對車載單元有限資源的限制和安全性的約束。智能網聯云系統的發展為此提供了較好支撐。李升波[143](2022)依托李克強院士[144](2020)提出的云支持智能網聯汽車架構,通過云端平臺獲取車輛狀態及環境信息、迭代訓練基于RL的自動駕駛策略,車端接收成熟的RL策略、測試驗證和應用,循環往復,實現車云路一體化的自動駕駛策略進化與應用。

4 總結與展望

智能決策能力是衡量和評價自動駕駛能力的核心指標。RL 技術在仿真環境中可以有效地用于不同級別的自動駕駛決策任務,經過RL相關技術及前沿算法的開發與應用,訓練效率、收斂性與穩定性、場景泛化能力均得到一定的提升與改善,但除特定場景的自動駕駛車輛應用外,現有的相關研究并未在實際環境中開展,基于RL的自動駕駛決策技術在工程化落地存在諸多困難。RL 在智能決策方面的應用需要實質性的突破,對其決策技術展望如下。

(1)安全冗余決策系統的設立

決策系統對自動駕駛汽車的安全性具有決定性作用。DRL 算法固有的DNN 黑盒特性,除網絡結構改進外,可結合自動駕駛多層鳥瞰語義地圖、其他模型(如樹模型、混合決策策略等)來提高RL智能決策的可解釋性;“長尾效應”作為自動駕駛的難題,海量數據是解決問題的核心資源,先驗知識和基于RL的學習融合、V2X 的信息共享等技術是解決“長尾”的算法基礎;Reward 無法兼顧策略安全性與穩定性,安全深度強化學習算法的前沿發展是提高RL 算法安全性的趨勢之一。自動駕駛作為系統化工程,無法從單點解決問題,尤其面對決策系統自身算法性能的局限性、決策輸入/輸出信息準確率的影響,車輛安全、平穩、高效的行駛需要安全冗余的決策系統。從整車框架層面、功能定義層面進行決策技術的安全冗余設計,也是自動駕駛真正落地的基礎和前提。

(2)虛擬環境向真實的轉換

目前,基于RL的自動駕駛決策應用大部分研究工作是在仿真環境下完成的,只有少數研究成果實現工程化應用。真實環境和虛擬環境之間的較大差異,令仿真環境中RL的應用效果與實際部署之間存在較大差距。借助云端化網聯自動駕駛技術的虛實結合模式,如平行駕駛技術等,也是引導決策算法由虛擬邁入現實的有效手段之一;虛擬到現實的策略遷移,可以通過域自適應、域隨機化和圖像翻譯等學習方法縮小兩者之間的差距;遷移強化學習等研究的投入有助于加快虛擬環境向真實環境的轉換。仿真中的環境狀態信息全部可知,但面對真實環境下無V2X 應用、存在遮擋情況的實際駕駛場景,自動駕駛RL 技術的工程化落地面臨很多挑戰,現階段RL 技術的應用還處于摸索階段,自動駕駛決策的潛力還沒有被完全發掘出來,但這一領域仍然具有廣闊前景。

猜你喜歡
策略
基于“選—練—評”一體化的二輪復習策略
幾何創新題的處理策略
求初相φ的常見策略
例談未知角三角函數值的求解策略
我說你做講策略
“我說你做”講策略
數據分析中的避錯策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
“唱反調”的策略
幸福(2017年18期)2018-01-03 06:34:53
價格調整 講策略求互動
中國衛生(2016年8期)2016-11-12 13:26:50
主站蜘蛛池模板: 精品国产成人a在线观看| 成人在线不卡视频| 天堂网亚洲系列亚洲系列| 永久免费精品视频| 久久99这里精品8国产| 天天综合网亚洲网站| 国产精品专区第1页| 亚洲欧美在线看片AI| 亚洲一区二区三区香蕉| 国产第二十一页| 四虎精品黑人视频| 精品少妇人妻av无码久久| 99久久99这里只有免费的精品| 国产成人乱无码视频| 国产精品爽爽va在线无码观看 | 国产一区二区三区日韩精品| 伊人成色综合网| 制服无码网站| 奇米精品一区二区三区在线观看| 国产农村1级毛片| 久久久久久久蜜桃| 欧美成人综合在线| 久久人搡人人玩人妻精品| 亚洲国产日韩在线观看| 精品无码专区亚洲| 伊人色在线视频| 国产夜色视频| 激情無極限的亚洲一区免费| 中文字幕欧美日韩高清| 无码人中文字幕| 无码中文AⅤ在线观看| 亚洲人成网站在线观看播放不卡| 毛片网站免费在线观看| 综合久久久久久久综合网| 国产jizz| 欧美国产在线看| 美女潮喷出白浆在线观看视频| 国产69精品久久久久妇女| 欧美在线伊人| 中文字幕人妻无码系列第三区| 午夜无码一区二区三区| 黄色国产在线| 国产亚洲视频中文字幕视频 | 亚洲av无码牛牛影视在线二区| 日韩中文无码av超清| 激情视频综合网| 一区二区日韩国产精久久| 国产精品va免费视频| 欧美日本在线一区二区三区| 中文国产成人精品久久| 青草视频久久| 国产自无码视频在线观看| 精品成人免费自拍视频| 国产成人精品男人的天堂| 一本一道波多野结衣av黑人在线| 91精品国产麻豆国产自产在线 | 国产精品冒白浆免费视频| 在线免费亚洲无码视频| 日韩区欧美区| 91年精品国产福利线观看久久| 久久人人97超碰人人澡爱香蕉| 日本一区二区三区精品AⅤ| 婷婷五月在线视频| 在线日韩一区二区| 久久香蕉国产线看精品| 97se亚洲综合| 国产亚洲欧美日韩在线一区二区三区| 亚洲综合色婷婷| 免费国产在线精品一区| 无码AV动漫| 国产性精品| 国产精品亚洲va在线观看| 国产av一码二码三码无码 | 欧美伦理一区| 激情综合婷婷丁香五月尤物| 国产福利影院在线观看| 精品国产中文一级毛片在线看| 午夜免费小视频| 国产综合网站| 在线观看欧美国产| 亚洲中文字幕在线一区播放| 亚洲—日韩aV在线|