張智飛





0? 引言
車輛實現自動駕駛,對于緩解城市擁堵、提高行駛安全性以及降低運輸成本等方面具有公認的作用。如何實現車輛的自動駕駛是目前汽車行業非常重要的發展和研究方向。
1? 自動駕駛車輛行為決策問題分類及難點
1.1 車輛決策問題分類? 車輛的決策以橫縱向駕駛行為可分為:①駕駛行為推理問題,如停車、避讓和車道保持等;②速度決策問題,如加速、減速或保持速度等。也可根據車輛駕駛行為將問題分為車輛控制行為、基本行車行為、基本交通行為、高級行車行為、高級交通行為。
1.2 決策難點分析? 實現自動駕駛關鍵在于車輛的行為決策是否合理可行。如何綜合車輛運行環境及車輛信息,結合行駛目的做出具有安全性、可靠性以及合理性的駕駛行為是決策控制的難點亦是實現自動駕駛的難點。
應對環境多變性、檢測不準確性、交通復雜性、交規約束性等諸多車輛行駛不利因素,如何降低或消除其產生的不利影響,是行為決策模塊的研究重點。此前已有研究人員提出了許多應對不同環境的決策方法,可分為基于規則的行為決策方法和基于統計的行為決策方法。但其中仍有許多亟待解決的問題。本文分別對兩種方法中應用較廣的模型及基于有限狀態機模型和深度強化學習模型的自動駕駛決策方法進行探討,對其適用性、可靠性及實現原理進行對比分析。提出行為決策方法的發展趨勢,為自動駕駛車輛行為決策方法的研究提供參考。
2? 基于有限狀態機的行為決策模型
有限狀態機模型作為經典的智能車輛駕駛行為決策方法,因其結構簡單、控制邏輯清晰,多應用于園區、港口等封閉場景。在這些封閉場景中道路具有固定的路線和節點,因此可預先設計行駛規則。這種預先設計行駛規則的方法將特定場景的車輛決策描述為離散事件,在不同場景通過不同事件觸發相應的駕駛行為。這種基于事件響應的模型稱為有限狀態機決策模型。
2.1 有限狀態機模型的原理? 有限狀態機(FSM,Finite-State Machine)是對特定目標在有限個狀態中由特定事件觸發使狀態相互轉移并執行相應動作的數學模型。已經被廣泛應用在特定場景無人駕駛車輛、機器人系統等領域。有限狀態機主要由四部分組成:事件(Event)、轉換(Transition)、狀態(State)及動作(Action)。
式中:∑是輸入集,也稱事件集,是狀態集能接受的所有可能輸入;Λ是輸出集,也稱動作集,是FSM的響應動作集合;S是狀態集,包含對象特定場景下的所有狀態;s0是初始狀態,表示FSM的初始條件或默認狀態;f是終止狀態,是FSM狀態集的子集,可以是空集;δ是轉換邏輯,是FSM的狀態轉移條件。
使用此模型時應滿足:①以上所有集合為有限集。②任意時刻均有對應狀態,任意狀態均有對應動作。③忽略狀態轉移時間。
2.2 有限狀態機模型在車輛決策中的應用? Junior車隊[1]在2007年的DAPRA比賽中使用并聯結構有限狀態機模型實現了包括初始狀態、車道跟隨等13種行駛狀態的相互切換,圖1中顯示了11種情況省略了避障(ESCAPE)和交通堵塞(TRAFFIC JAM)兩種情況。
BOSS車隊[2]采用了如圖2所示的有限狀態機層次式混聯結構模型,此結構根據車輛自身的行為和駕駛場景分為兩層,各層對應不同的狀態,一定程度上解決了有限狀態機模型在駕駛狀態增多時,結構凌亂難以維護的缺點。
中國科學技術大學研發的智能先鋒Ⅱ[3]智能車采用分為行為決策和駕駛動作執行(運動規劃、控制)的兩層有限狀態機決策模型。
綜上所述,基于有限狀態機模型及其拓展模型的決策系統其結構相對簡單、框架清晰應用較為廣泛。但是當智能車輛行駛環境比較復雜時,其狀態集和輸入集大量增加,結構變得復雜且場景劃分比較困難。因此此方法適用于簡單場景時具有較高可靠性。
3? 基于深度強化學習的行為決策模型
人工智能自誕生以來,經過六十多年的發展,已經成為一門具有日臻完善的理論基礎、日益廣泛的應用領域的交叉學科。近年來,對深度強化學習算法的進一步認識和挖掘,是人工智能實現應用的重要研究方向。深度強化學習技術方法越來越廣泛的應用于智能車輛的環境感知與決策系統[4]。
3.1 深度強化學習模型的原理? 深度強化學習(Deep Reinforcement Learning,DRL)結合了深度學習算法的“感知能力”和強化學習算法的“決策能力”,為復雜駕駛場景的感知決策問題提供解決方案。DRL的原理框架是一種是端到端感知和決策控制系統。其框架如圖3所示。
其學習過程可概括為:①智能體與環境交互得到觀測信息,并利用深度學習識別觀測信息的特征;②基于預期回報評判動作價值,并根據相應策略將當前狀態映射到相應動作;③隨動作變化而導致智能體與環境交互得到的觀測信息發生變化,進入三者的循環最終得出目標的最優策略。
3.2 深度強化學習算法? 基于深度學習的方法通常需要大量人工標記的數據來訓練模型,再以此深度網絡實現自動駕駛決策,對于車輛這個動態對象來說這是不現實的。而基于強化學習的方法則具有一定的自主決策能力,符合車輛行駛的動態特性。但強化學習方法是將所有的狀態-動作映射的評價值儲存為一個列表,這對于車輛的復雜工況很難實現,因此基于強化學習的自動駕駛決策算法沒有廣泛應用。
研究者嘗試將深度學習和強化學習結合形成了圖3所示的深度強化學習模型。其代表性算法是由Mnih等提出的DQN(Deep Q-Network)算法[5]。此算法針對離散動作空間,并不適用于車輛自動駕駛控制系統。2016年,Google DeepMind將DQN算法改進為深度確定性策略梯度(Deep Dterministic Policy Gradient,DDPG)算法,可實現連續動作空間的控制決策。此算法更加符合人類決策方式。由王丙琛[6]等,在DDPG的基礎上提出了結合專家經驗的決策控制算法(Deep Dterministic Policy Gradient with Expert,DDPGwE)。與DDPG算法相比,DDPGwE算法縮短了訓練時間,提高模型的穩定性和泛化性。
3.3 基于深度強化學習模型的應用? 英偉達公司[7]研發的駕駛行為決策系統使用的是端到端神經網絡進行,其模型訓練框圖4所示。
國內百度公司的端到端系統使用長短時記憶神經網絡(Long short term memory network,LSTM)算法實現車輛縱向決策與控制,使用卷積神經網絡深度強化學習模型實現車輛的橫向決策與控制,同時實現了對車輛橫縱方向上的駕駛行為決策與車輛控制。
通過對已經應用深度強化學習模型的案例的研究發現,此模型具有解決復雜環境車輛決策與控制的潛力。但是,隨著車輛環境信息復雜程度的加大決策控制模塊需要處理和分析的數據量也會大大增加,對控制算法及模型的時效性提出更高的要求。
4? 結論
文章就目前應用較多的基于有限狀態機模型的自動駕駛決策方法和基于深度強化學習算法的決策方法進行了分析。從應用上講,基于有限狀態機模型的決策模型更適用于封閉場景的駕駛決策,但應對實際場景,還要在有限狀態機模型的基礎上結合相應的前沿控制算法解決決策控制問題。基于深度強化學習的決策方法的應用場景則更廣泛,是未來決策控制的發展方向。從可靠性上講,目前的自動駕駛技術都處于實驗或應用測試階段,自動駕駛技術的可靠性都需要較長時間的檢驗及驗證。
參考文獻:
[1]Montemerlo M, Bhat S, Bhat S, et al. Junior: The Stanford entry in the urban challenge[J]. Journal of Field Robotics, 2009, 25(9):569-597.
[2]陳佳佳.城市環境下無人駕駛車輛決策系統研究[D].合肥: 中國科學技術大學,2014.
[3]杜明博.基于人類駕駛行為的無人駕駛車輛行為決策與運動規劃方法研究[D].合肥:中國科學技術大學,2016:1-18.
[4]Pan X, You Y, Wang Z, et al. Virtual to real reinforcement learning for autonomous driving.[C]. British Machine Vision Conference, 2017.
[5]Chung J. Playing Atari with Deep Reinforcement Learning[J]. Computer ence, 2013.
[6]王丙琛,司懷偉,譚國真.基于深度強化學習的自動駕駛車控制算法研究[J/OL].鄭州大學學報(工學版),2020:1-6.
[7]Bojarski M, Testa D D, Dworakowski D, et al. End to End Learning for Self-Driving Cars[J]. arXiv: Computer Vision and Pattern Recognition, 2016.
摘要:為了研究自動駕駛車輛行為決策方法的原理及發展,文章通過分析目前駕駛行為決策方法的研究成果,對行為決策方法進行綜述。主要分析基于有限狀態機模型和深度強化學習模型的行為決策方法的原理及優劣,分析相應決策方法的適用場景。總結實現高級別自動駕駛行為決策的技術難點,并對相應的解決方案進行分析。
關鍵詞:自動駕駛;行為決策;深度強化學習;有限狀態機