999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于強化學習的無人駕駛車輛行為決策方法研究進展

2021-05-12 13:47:22張佳鵬
電子科技 2021年5期
關鍵詞:環境模型

張佳鵬,李 琳,朱 葉

(上海理工大學 光電信息與計算機工程學院,上海 200000)

當今社會逐漸向著智能化的方向發展,無人駕駛變成了一個十分受關注的熱點。自動駕駛車輛的系統架構可以分為環境感知、行為決策、運動控制3個部分。環境感知系統[1-2]能夠利用攝像頭、雷達等車載傳感器與計算機視覺、傳感器信息融合技術來感知環境信息。行為決策系統[3]用來對環境及自車信息進行理解并做出合理的駕駛行為決策。運動控制系統[4]能夠根據決策系統給出的控制信號來控制車輛的運動。如果將環境感知模塊比作自動駕駛車輛的眼睛和耳朵,將運動控制模塊看作自動駕駛車輛的手和腳,那么行為決策模塊就相當于是自動駕駛車輛的大腦,是實現自動駕駛最為核心的技術。

強化學習[5]作為一種新興的人工智能算法,其通過智能體與環境不斷的交互產生評價性的反饋信號,并利用反饋信號不斷改善智能體的策略,最終使智能體能夠自主學習到適應環境的最優策略。該方法在序貫決策問題上表現出了強大的優越性和靈活性。在自動駕駛決策領域,基于規則的傳統行為決策方法[6-9]缺乏對動態變化環境的適應能力,于是研究人員嘗試使用強化學習算法來得到適應性強的決策模型。文獻[10]使用強化學習算法為一個具有14自由度的仿真車輛建立決策模型,幫助自動駕駛車輛在仿真環境中完成沿道路行駛的任務。文獻[11]將跟車行駛場景建模為馬爾科夫決策過程模型(Markov Decision Process,MDP),并使用Q-Learning算法為該模型求解最優的跟車策略,最終通過多次不同情況下的仿真實驗驗證了算法的有效性。

基于強化學習算法的決策模型雖然取得了初步的成功,但仍存在很多缺陷:(1)決策模型的精度較低。傳統強化學習算法采用低維的狀態空間和離散的動作空間建立模型,這導致自動駕駛車輛只能根據粗糙的感知做出粗糙的決策,無法在復雜的環境中很好的應用;(2)決策模型的廣度不夠。傳統強化學習算法只能針對某一種駕駛場景或駕駛任務進行設計,訓練完成后的決策模型只能夠在該類場景下發揮作用,無法像人類駕駛員一樣采用一個決策模型就能綜合處理多種駕駛任務;(3)在真實的道路交通環境中存在一些不確定因素,例如車載傳感器的噪聲、傳感器范圍受限或受到遮擋以及周圍其他的交通參與者意圖未知等。而基于傳統強化學習的決策模型屬于確定性推理模型,在環境中存在不確定因素的條件下進行決策難以保證行車安全。

本文對近年來基于強化學習的決策模型在提高決策精度、提高決策廣度、應對不確定因素以提高行車安全這3個方面的研究進展進行介紹,以期為后來的研究者提供參考。

1 決策精度的提升

基于傳統強化學習算法的決策模型采用低維的環境信息來組成狀態空間,少量離散的動作值來組成動作空間,訓練完成后得到的決策模型只能依據簡略的環境信息給出粗糙的駕駛行為。這種精度較低的決策模型無法在具有復雜信息的駕駛環境中發揮良好的作用。

深度強化學習算法[12]將深度學習[13-14]的表征能力與強化學習的決策能力相結合,顯著地提升了強化學習模型中狀態空間以及動作空間的維度和規模,使智能體能夠根據高維特征輸入給出精密的動作輸出,為提高復雜場景下的決策精度提供了方向。文獻[15]首次將卷積神經網絡(Convolutional Neural Network,CNN)與Q-Learning算法相結合提出了深度Q網絡算法(Deep Q Network,DQN)。訓練完成后的DQN算法在Atari游戲中的表現超過了人類專家。文獻[16]進一步將DQN算法與蒙特卡洛樹搜索算法(Monte Carlo Tree Search,MCTS)相結合開發出了AlphaGo程序。AlphaGo在動作空間更大,策略更復雜的圍棋游戲上先后擊敗了人類頂級棋手李世石和柯潔。文獻[17]基于DQN算法的理念提出了深度確定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG),成功將深度強化學習擴展到連續動作域中,使其在20多個具有連續高維動作空間的物理任務上取得了較好的性能。OPENAI團隊使用深度強化學習算法在狀態空間和動作空間更加復雜的DOTA2游戲中戰勝了人類頂級玩家。鑒于在復雜空間問題上的優異表現,深度強化學習算法被研究人員引入到自動駕駛車輛的行為決策領域,用來提高決策模型的精度。

文獻[18]提出了一種基于DQN算法的車道保持(Lane Keeping)決策模型。該方法以高維相機圖像特征作為狀態輸入,以離散化后的方向盤轉角作為動作輸出,采用DQN算法計算出最優狀態動作價值,使得自動駕駛車輛能夠在勻速行駛的基礎上根據高維傳感器圖像輸入選擇合適的方向盤轉角,達到以端到端方式控制車輛的目的。文獻[19]提出了一種基于DQN算法的復雜動態城市道路環境下的自主制動決策系統,車輛與行人在隨機的環境中進行交互,障礙物的位置會隨著時間的變化而變化,每一次的碰撞風險也會隨之變化。該研究將駕駛場景建模為一個馬爾科夫決策過程,然后采用深度Q網絡算法來學習制動策略,使得自動駕駛車輛能夠利用從傳感器獲取的障礙物信息以及自身速度等特征,在遇到碰撞風險時自主決定何時進行制動以及制動的程度大小。DQN算法雖通過提高狀態空間的維度,增加動作空間的規模,極大提高了決策模型的精度,但其依舊采用離散的動作空間,這在一定程度上限制了模型的精度。

基于DDPG算法在連續空間控制問題上的優異表現, 文獻[20]提出了一種基于DDPG算法的車道跟隨(Lane Following,LF)的決策模型。該模型使用連續的動作空間,并在TORCS仿真環境中對算法的有效性進行驗證并與DQN算法進行對比。該研究結果證明,基于DDPG算法的決策模型能夠更加平滑和精準地完成單車道行駛。 文獻[21]將文獻[20]中的方法從仿真環境擴展了到真實環境中,以高維單眼圖像作為狀態輸入,以方向盤轉角和速度等連續值作為動作輸出,根據車輛行駛的距離給出獎勵,然后采用DDPG算法來求解最優的決策模型,并通過實車測試驗證了該模型在真實駕駛環境中的有效性。 文獻[22]提出了一種基于DDPG算法的跟車行駛(Car Following, CF)決策方法。該研究將跟車場景建模為一個馬爾科夫決策過程模型,然后采用DDPG算法來求解最優的跟車策略,并在一個貼近真實的VISSIM高可靠性仿真駕駛環境中驗證算法的有效性。實驗結果表明,在保證駕駛舒適度的前提下,與經典的自適應巡航控制和智能駕駛員模型相比,訓練后的車輛的跟車效率分別提高了7.9%和3.8%。

綜上所述,基于深度強化學習的決策模型能夠有效地提高決策模型的精度。但是精度提高的同時也增加了策略學習的復雜度,造成算法的收斂困難,魯棒性差。因此,在提升決策模型精度的同時保證算法能夠快速收斂并提高模型的魯棒性是未來的研究重點。

2 決策廣度的提升

全自動駕駛是一個十分復雜的問題,其中包含多種不同的駕駛場景:車道保持、跟車行駛、換道、超車、交叉口通行等?;趥鹘y強化學習算法的行為決策系統只能夠針對某一種駕駛場景進行設計。針對跟車行駛場景得到的決策模型只能夠用于跟車行駛,無法應用于換道(Lane Changing,LC)場景,更無法像人類駕駛員一樣能夠綜合處理各種場景下的駕駛任務。使用傳統的強化學習算法綜合學習多個駕駛任務往往會產生維數災難。為了解決這個問題,研究人員將分層的思想引入到強化學習理論中。

自然界中大部分的復雜系統都具有分層結構。從理論角度講,層次結構為從簡單進化為復雜提供了可能性;從動力學角度講,復雜系統具有可分解性,這一特性使其行為過程和描述方式更加簡化。從這個角度來講,一個復雜的強化學習問題可以通過分層的方式加以簡化。分層強化學習[23]致力于將一個復雜的強化學習問題分解成幾個子問題并分別解決,可以取得比直接解決整個問題更好的效果。它能夠緩解維數災難,是解決大規模強化學習問題的潛在途徑。分層是通過抽象實現的,分層強化學習中常用的抽象技術[24-25]包括狀態空間分解、時態抽象、狀態抽象。其中,時態抽象是最為常用的一種分層技術。由于能夠通過任務分解進行多任務學習的優點,分層強化學習算法被研究人員引入到自動駕駛的決策領域,用于增加決策模型的決策廣度。

文獻[26]提出了一種基于分層強化學習的多場景行為決策方法,該方法將駕駛任務劃分為高層任務級與底層控制級兩個層次。其中,高層任務級采用一些離散量如道路行駛、進入交叉口、進入停車區域等作為狀態空間,以左轉、右轉、換道、停車等高層選項作為動作空間;底層控制級以速度、車身角度等動力學參數作為狀態空間,以方向盤轉角、加速度等底層連續控制量作為動作空間。使用時序邏輯為高層動作選項設定約束,并根據車輛兩層狀態以及是否滿足約束來給出獎勵。然后,使用DQN算法來學習高層任務級策略,采用DDPG算法來學習底層控制級策略。最終使得自動駕駛車輛能夠先根據高層狀態執行相應的高層任務級駕駛策略,并在高層選項的基礎上根據車輛的底層狀態執行底層控制級策略,用以完成復雜的駕駛任務。文獻[27]提出一種基于分層強化學習的多車道巡航場景下的多任務決策方法。多車道巡航場景中包含著多種駕駛任務:車道保持、跟車行駛和換道等,是一個復合多個駕駛任務的復雜場景。該研究利用空間抽象技術將多車道巡航場景下的駕駛任務分為高層任務級與底層控制級,其中高層任務包括車道保持、換道、跟車行駛,底層控制層針對不同的高層任務執行不同的底層控制策略。在SimpleTraffic仿真模擬器中的實驗表明,分層決策模型能夠很好地完成多車道巡航場景下的駕駛任務。

由上述的研究成果可知,分層強化學習算法通過分層的方法將一個復雜的駕駛任務分解為多個相對簡單的子任務,可以在不產生維度災難的情況下實現多任務學習,增加了決策模型的廣度。但是,高層任務分解目前是通過人工實現的,這種分解方法費時費力且容易忽視任務之間的某些內在聯系或造成任務之間的重疊或者空白。使算法能夠自主學習到合理的分層是未來研究的重點。另外,底層控制策略也并不完美,存在一定程度的震蕩,造成這種現象的原因也需要進一步研究。

3 應對不確定因素

基于傳統強化學習的決策模型屬于確定性的推理模型,只能適用于環境狀態完全已知的駕駛環境。在真實的交通場景中,由于傳感器噪音、范圍受限、受遮擋以及其他交通參與者意圖未知等因素的存在導致自動駕駛車輛無法準確的得到全部的環境信息。確定性推理模型忽略了這些不確定因素的潛在影響,可能會導致決策系統做出錯誤的決定并引發嚴重的后果。因此,使車輛的決策系統在不確定條件下給出合理的行為決策并保證行車安全是一個非常重要的問題。

部分可觀測馬爾科夫決策過程(Partially Observable Markov Decision Process,POMDP)[28-30]是一種基于不確定性的序貫決策模型,它假設系統的狀態信息無法直接觀測得到,而是部分可知的。POMDP引入了信念狀態空間(Belief State Space)的概念,它能夠根據環境狀態的觀測值推理出環境狀態有可能的真實值及其發生的概率。早在1971年,研究人員就提出了利用信念狀態空間求解POMDP模型的精確算法,并從理論上證明精確算法是可以獲得最優解的,但是計算復雜度會隨著問題的規模呈指數級增長。鑒于POMDP模型精確求解的困難性,后來的研究人員以精確算法為基礎開發出了多種高效的近似算法。研究人員將POMDP模型引入自動駕駛車輛的決策系統中,用來規避不確定因素可能會給決策帶來的風險。

傳感器噪聲、感知范圍受限或受到遮擋是各類駕駛場景下普遍都存在的一種不確定因素。其他交通參與者的速度、位置、角度等信息會因為傳感器噪聲的存在而無法準確測量,確定性的推理模型基于不準確的信息做出決策就可能會導致危險的情況發生。文獻[31]研究了在傳感器具有噪聲的條件下完成跟車行駛的行為決策方法。該研究使用一個POMDP模型將傳感器噪聲帶來的不確定因素納入考慮之中,使用信念空間表示當前真實狀態的概率分布,并且采用了一種在信念狀態空間中采樣的QMDP值算法來近似求解模型的最優策略,在盡可能減少計算復雜度的情況下得到具有抗干擾性的決策模型。實驗證明,該決策模型能夠使自動駕駛車輛在不同的感知置信度下表現出不同程度的保守性,規避行車中可能存在的風險,保證了行車安全。文獻[32]提出了傳感器噪聲的條件下進行全自動駕駛時的換道決策方法。該研究將換道場景建模為一個POMDP模型,并采用一個兩步算法來求解最優策略。該方法首先使用兩個信號處理網絡對POMDP模型的信念狀態空間進行處理,得到一個簡化的信念狀態空間。然后,采用QMDP值方法與盲策略(Blind Policy,BP)計算價值函數的上下界,并結合分支界限樹搜索(Branch and Bound Tree Search)算法來在線求解當前信念空間下的最優策略。實驗證明,該方法相對于傳統基于規則的方法以及傳統強化學習方法能夠更加謹慎更加安全的做出換道決策。雖然上述方法[31-32]都取得了成效,但是其POMDP模型中的狀態空間、動作空間、獎勵函數等都是針對相應的駕駛場景專門設計的,難以推廣到其他駕駛場景中使用。于是,研究人員又提出了將帶有不確定因素的駕駛場景建模為一個連續空間的POMDP模型,并采用連續狀態分層貝葉斯模型結合值迭代算法來求解最優策略[33]。這個方法的好處在于它不僅能夠針對當前的駕駛任務做出安全可靠魯棒性強的決策,還能夠針對不同的駕駛場景自動進行優化而無需重新設計POMDP模型中的狀態量或其他參數。

另一類重要的不確定因素是其他交通參與者的意圖。自動駕駛車輛往往要與其他交通參與者共同在道路上行駛,不同的交通參與者的意圖不同。通過感知其他交通參與者當前的意圖以及在該意圖下有可能的產生的運動能夠提高行車安全。但是,由于人類行為的多樣性和微妙性以及沒有測量人類意圖的傳感器,得到其他交通參與者的意圖往往比較困難。文獻[34]提出了一種假設有限個未知意圖集合來構造實際模型的方法。該方法首先為集合中的每個意圖構造一個運動模型;然后將這些模型與其他環境信息一起組合成一個混合可觀測馬爾科夫決策過程(POMDP的一種結構化變體);最終采用相應的強化學習算法為模型求解最優策略。仿真實驗結果表明,該方法具有較強的識別意圖和有效利用環境信息進行決策的能力。文獻[35]提出將其他交通參與者的意圖建模為子目標位置,將其運動模型建模為以意圖為條件的隱變量,然后使用一個兩層的規劃算法來計算駕駛策略。其中,高層使用Hybird A*算法來規劃出一條穿越其他交通參與者的無碰路徑。底層利用POMDP模型來計算車輛沿該路徑行駛時的速度。雖然將意圖建模為子目標的方法在復雜應用中取得了成功,但是在一定程度上受到了特定環境的限制,缺乏通用性。文獻[36]則提出了一種融合道路環境與車輛運動意圖的道路態勢模型。其中,車輛的運動意圖是通過車輛的反應推斷出來的,即觀察到的車輛狀態與道路環境代表的參考車輛狀態的偏差。這種意圖模型具有更強的通用性。然后,將道路態勢模型融入POMDP模型中,通過DESPOT算法在線求解最優策略。文獻[37]將其他交通參與者的意圖建模為一個隱馬爾可夫模型,它能夠輸出其他交通參與者的橫向意圖(左轉、右轉、直行)與縱向意圖(屈服程度)。然后使用POMDP模型來對相應的駕駛環境進行建模并求解最優策略。該研究在一個交叉口的場景下對環境的有效性進行驗證,實驗結果證明該方法能夠幫助自動駕駛車輛安全高效地通過交叉口。

由上文的總結與分析可知,基于POMDP的決策模型能夠極大地提升自動駕駛車輛在具有不確定因素的環境中行車的安全性。但是這種方法也存在計算復雜度高的缺點,難以在復雜空間場景中應用。因此開發一種高效且具有低復雜度的策略求解方法是未來研究的重中之重。另外,開發出更加精確的意圖感知模型也是非常有意義的。

4 結束語

本文總結了基于強化學習的無人駕駛車輛行為決策算法的相關研究進展,從提高決策精度、提高決策廣度以及應對不確定因素這3個方向進行系統性的描述??梢钥闯?,基于深度強化學習、分層強化學習、POMDP的決策模型已經在相應的方向上取得了突破性的進展,但是依舊面臨著許多問題:深度強化學習可以提高決策模型的精度但同時也增加了模型的訓練復雜度,導致模型難以收斂;分層強化學習提升了決策模型處理復雜任務的能力,但是任務分解卻費時費力。POMDP模型的求解復雜度太高也限制著它在復雜場景中的進一步應用。

根據上述問題,基于強化學習的行為決策方法未來的研究重點集中為以下3個方面:(1)通過駕駛員數據預訓練或改進經驗回放機制等方法提升深度強化學習的訓練效率,加快模型收斂速度;(2)使用監督學習幫助分層強化學習自主學習合理的任務分解方式,避免人工分解的麻煩;(3)在已有算法的基礎上繼續開發更加高效POMDP求解算法,降低計算復雜度。

猜你喜歡
環境模型
一半模型
長期鍛煉創造體內抑癌環境
一種用于自主學習的虛擬仿真環境
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
孕期遠離容易致畸的環境
不能改變環境,那就改變心境
環境
孕期遠離容易致畸的環境
3D打印中的模型分割與打包
主站蜘蛛池模板: 欧美自慰一级看片免费| 日本一区中文字幕最新在线| 亚洲精品成人7777在线观看| 国产色爱av资源综合区| av天堂最新版在线| 欧美国产精品拍自| 欧美精品1区| 香蕉久人久人青草青草| 亚洲视频免| 亚洲三级a| 91久久偷偷做嫩草影院| 精品一区二区三区无码视频无码| 青青青伊人色综合久久| 无码内射中文字幕岛国片| 成人欧美日韩| 欧美翘臀一区二区三区| 日韩午夜伦| 日本午夜精品一本在线观看| 国产永久免费视频m3u8| 亚洲乱码在线播放| 国产免费久久精品99re不卡 | 热伊人99re久久精品最新地| 亚洲色欲色欲www网| 午夜少妇精品视频小电影| 九色视频在线免费观看| a级毛片免费看| 第九色区aⅴ天堂久久香| 中文国产成人精品久久| 欧美第九页| 日韩成人在线网站| 日本爱爱精品一区二区| 亚洲欧洲日本在线| 四虎永久免费网站| 夜夜操国产| 一级毛片免费不卡在线 | 久久伊人久久亚洲综合| 日韩欧美国产成人| 欧类av怡春院| 日本尹人综合香蕉在线观看| 狠狠操夜夜爽| 嫩草国产在线| 亚洲天堂精品在线| 亚洲一区二区三区香蕉| 免费中文字幕在在线不卡| h网站在线播放| 欧美黄网站免费观看| 中文国产成人精品久久一| 精品一区二区久久久久网站| 91精品国产福利| 91久久国产成人免费观看| 99久久人妻精品免费二区| 四虎综合网| 国产乱子伦精品视频| 欧美午夜在线视频| 欧美第九页| 免费女人18毛片a级毛片视频| 亚洲一区第一页| 欧美亚洲一二三区| 欧美精品亚洲日韩a| 99久久亚洲精品影院| 日韩天堂在线观看| а∨天堂一区中文字幕| 国产精品性| 看你懂的巨臀中文字幕一区二区| 福利小视频在线播放| 亚洲码在线中文在线观看| 国产在线视频自拍| 在线无码九区| 萌白酱国产一区二区| 99re精彩视频| 99re免费视频| 99久久国产综合精品2020| 99热这里只有精品久久免费| A级全黄试看30分钟小视频| 亚洲成人福利网站| 欧美精品不卡| 国产va视频| 亚洲日本在线免费观看| 国产精品v欧美| 精品国产成人av免费| 国产精品三级专区| 国产在线自在拍91精品黑人|