楊 璐 王一權 劉佳琦 段玉林 張榮輝
(1.天津理工大學天津市先進機電系統設計與智能控制重點實驗室 天津 300384;2.天津理工大學機電工程國家級實驗教學示范中心 天津 300384;3.中國農業科學院農業資源與農業區劃研究所 北京 100081;4.中山大學廣東省智能交通系統重點實驗室 廣州 510275)
在復雜多變的環境中學習最優駕駛策略是自動駕駛領域一直面臨的挑戰,傳統的決策方法主要基于規則[1-3],通過有限狀態機、決策樹等方法對狀態、規則進行劃分,進而進行計算、決策。然而基于規則的方法無法覆蓋所有可能出現的場景,難以適應復雜的環境。隨著機器學習在自動駕駛領域的應用,決策模型利用神經網絡處理駕駛相關環境信息,輸出車輛控制信號,實現端到端的決策控制,成為了研究熱點。
目前端到端的自動駕駛決策方法主要基于模仿學習和強化學習。基于模仿學習的方法旨在模仿專家(人類駕駛員)進行學習,實現對專家行為的再現[4]。英偉達最初基于深度神經網絡,在端到端自動駕駛系統中取得了成功,然而在新的環境中表現不佳。為此,巴明月[5]在輸入中增加語義分割深度圖像,并在動作輸出前加入高級控制命令提高模型的魯棒性。Toromanoff等[6]對數據進行增強,僅使用1個魚眼相機實現了端到端自動駕駛橫向控制。Chen等[7]在專家數據中加入了隨機噪聲,提高了模型的泛化能力。然而,基于模仿學習的決策方法仍存在局限:①訓練時需要大量的專家數據以保證其泛化性,導致算法難以訓練;……