李升波,占國建,蔣宇軒,蘭志前,張宇航,鄒文俊,陳 晨,成 波,李克強
(清華大學車輛與運載學院,汽車安全與節能國家重點實驗室,北京 100084)
智能化是汽車新四化變革的重要方向之一,自動駕駛技術因為具有提升交通安全、增強道路通暢、減少燃油消耗的巨大潛力,受到學界和業界的廣泛關注[1]。麥肯錫報告顯示[2]:自動駕駛的全面普及可將交通事故發生率降低至原來的十分之一。據蘭德公司預測[3]:自動駕駛汽車可提升30%的交通效率,減少67%的碳排放量,潛在的經濟與社會效益顯著。因此,自動駕駛系統的應用與普及有望全面改變人類的出行方式與社會結構[4]。
從概念上說,自動駕駛汽車是指搭載先進車載傳感器、控制器、執行器等裝置,具備復雜環境感知、自主決策、運動控制等功能,可實現“安全、高效、舒適、節能”行駛,最終替代人類駕駛員并實現自主駕駛的新一代汽車[5]。我國2021 年制定了《汽車駕駛自動化分級》標準(GB/T 40429—2021),該標準根據自動化程度將智能汽車分為6 級:應急輔助(0 級)、部分駕駛輔助(1 級)、組合駕駛輔助(2 級)、有條件自動駕駛(3 級)、高度自動駕駛(4 級)和完全自動駕駛(5 級)。第1 級的LKS(lane keeping system)、ACC(adaptive cruise control)等系統屬于部分駕駛員輔助級別,已實現大規模應用。目前諸多汽車企業已推進至第2 級系統的量產階段,例如特斯拉AutoPilot、通用Super Cruise、蔚來NIO Pilot 等。這類組合駕駛輔助系統具備稀疏交通場景的車道保持、跟車巡航、主動換道等功能。為進一步將功能擴展至密集交通場景,如城市道路工況,部分企業已開始瞄準第3 級或第4 級自動駕駛系統,積極布局關鍵技術的研發。谷歌的高級別自動駕駛項目開始于2009 年,已經在美國10 個州超過25 個城市進行路測,截止到2021年,行駛里程超過2 000萬英里。百度于2017年發布了全球首個開放自動駕駛系統Apollo,截止到2021年,路測里程超過1 600萬km。
然而,面向城市交通場景的高級別自動駕駛系統仍然面臨一系列高難度的技術挑戰。首先,道路的拓撲結構高度復雜,不同于高速公路場景的標準多車道結構,城市交通路網中涵蓋立交橋、交叉路口、環島、進出匝道等各式各樣的道路類型;其次,周圍交通參與者混雜多樣,不同于封閉園區場景僅需考慮固定路線的駕駛任務,道路場景的開放性使得自車需要考慮交通參與者,與周圍的乘用車、公交車、貨車、行人、騎行人等競爭道路資源;最后,交通參與者行為意圖高度隨機化,典型的異常行為包括騎線行駛、右側超車、鬼探頭等,導致大量難以預測的未知因素,對行車安全產生嚴重威脅??傮w而言,道路結構的高度復雜性、交通流的高度動態性,交通參與者的高度隨機性,使得城市道路場景的復雜程度和安全風險急速提升。另外,車載控制器的計算資源十分有限,能耗/成本限制與高計算負擔之間存在強烈的沖突,這使得自動駕駛系統的算法設計受到車載計算資源的強制約束,不能像巨型服務器一樣運行復雜的功能層算法。
環境感知、自主決策和運動控制是自動駕駛汽車的3 大核心功能[1]。環境感知是指通過GPS、慣性導航裝置等對自車進行定位與姿態估計,利用攝像頭、毫米波雷達、激光雷達、超聲波雷達等主要車載傳感器及V2X 通信系統感知周圍交通路況和動靜態障礙物等信息。自主決策是指對于周圍交通參與者進行意圖識別和軌跡預測,進而根據全局行車目標、自車狀態、感知信息和預測結果,決定駕駛行為模式并規劃期望參考軌跡。運動控制是結合車輛的運動學或者動力學特性,將決策結果轉化為油門、制動和轉向盤等底層執行機構的控制指令。由于自主決策與運動控制均可以建模為動態過程的最優化問題,且后者的輸入高度依賴于前者的輸出,因此這兩個模塊的設計具有較強的耦合性,二者可以集成為一個功能模塊進行開發,即“決控系統”。一般來說,決控系統相當于自動駕駛汽車的大腦部分,決控水平的高低體現了自動駕駛汽車的智能性。
從發展歷史看,自動駕駛汽車的研發歷史可追溯至20世紀60年代,如斯坦福大學的Cart號。21世紀初,自動駕駛的研發熱潮迅速升溫,尤其是受美國DARPA 挑戰賽鼓勵,一批高科技公司涌入這一領域,極大增強了自動駕駛的工程化能力。作為行駛智能性的核心,決控系統一直是自動駕駛團隊最為關注領域之一。到目前為止,這一領域的技術方案已發展了3 代,即專家規則型、監督學習型和類腦學習型。早期的決控功能均圍繞專家規則進行設計。例如:2007 年卡耐基梅隆大學的Boss 號[6]獲得了DARPA 城市挑戰賽的冠軍,它的決控系統預先對于車道保持、車道變更、U 型掉頭等場景設計了專門的行為規則,在線進行最佳的行為選擇,然后規劃一條局部的參考軌跡,最后解算底層控制指令;同一年斯坦福大學的Junior號[7]獲得了亞軍,它的決控系統包含一個具有13 個狀態的有限狀態機,用于直行、停車等待、駛過交叉口、掉頭等駕駛行為的選擇,使用了前向預瞄方法進行期望參考軌跡的跟蹤。這些設計都是典型的專家規則型方案,而監督學習型方案的出現則依賴于深度學習技術的興起。2016 年英偉達公司[8]采集了72 h 的自然駕駛數據,建立了從攝像頭圖像輸入到轉向盤轉角輸出的標簽數據集,以卷積神經網絡構建模型進行監督學習,實現了車道保持功能。2017年蘇黎世聯邦理工大學[9]收集了真實換道工況下與周車的間距和相對速度數據集,使用支持向量機訓練換道決策分類器。專家規則型和監督學習型這兩種技術方案都采用被動式的設計思路,其中前者依靠人工設計的經驗規則,后者模仿人工標注的示范動作。雖然可以較快實現車道保持等初級功能,但對于復雜場景的高級別自動駕駛任務仍然表現不佳,智能性的進一步提升存在瓶頸,難以達到人類駕駛員的水平。
自動駕駛的最終目標是替代人類執行駕駛動作,為了進一步提升智能性水平,從人腦學習機制中尋求啟發是具有潛力的發展方向。對于生物學習機制的研究可追溯至19 世紀末,巴甫洛夫以狗為研究對象,提出條件反射機制,表明生物具有從獎勵中“學習”的能力[10]。桑代克進一步研究了行為學習機制,關在籠中的貓經過多次重復嘗試可以熟練掌握逃離迷籠獲取食物的技能,表明生物的行為學習基于“探索試錯”原理[11]。20 世紀末,劍橋大學提出了獎賞預測誤差假說用于解釋人腦的學習機制,指出人腦中的多巴胺激素正是外界輸入激勵所產生的獎勵信號,可以刺激人腦中的神經元活動從而調整行為模式[12]。對于駕駛車輛這一具體任務,人類駕駛員并不是簡單牢記專家規則,也不是以大量駕駛過程為示范進行直接模仿,而是主動式地通過駕駛動作在交通環境中進行探索交互,根據接收的反饋信號(例如偏離車道程度、與目的地的距離等)調整自身的行為策略,逐步熟練掌握駕駛技能。
類腦決控的發展動機正是從人腦學習機制尋求啟發,其定義如下:類腦學習型自動駕駛決控系統以深度神經網絡為策略載體,以強化學習為訓練手段,利用車端與云端協同收集的環境交互數據更新自動駕駛策略,通過數據閉環持續進化的方式不斷提升智能性水平。2016 年谷歌[13]使用深度確定性策略梯度算法,利用仿真平臺實現了以攝像頭圖像為輸入,以轉向盤、加速度等連續控制量為輸出的車道保持功能。從2018 年開始,清華大學提出并推動了集成式決控架構的設計與應用[14],將自動駕駛的決控任務統合為一個最優控制問題,通過Actor-Critic 強化學習算法進行求解,首次實現了紅綠燈通行、無保護左轉等交叉路口駕駛任務的實車驗證[15-16]??傮w而言,類腦決控技術不依賴于標簽化的駕駛數據,通過與環境的交互探索實現策略的自我更新和自我進化,這是高級別自動駕駛系統的下一代發展方向。
本文將聚焦于類腦學習型自動駕駛決控方案以及關鍵技術的探討,涉及界定策略設計的系統框架、支持交互訓練的仿真平臺、決定策略輸入的狀態表征、定義策略目標的評價指標和驅動策略更新的訓練算法等5 個層面。首先梳理了自動駕駛決控的兩類模塊化架構以及3 種典型技術方案;概述了當前主流的自動駕駛仿真平臺;分析了類腦決控的3 類環境狀態表征方法;同時介紹了自動駕駛汽車的五維度評價指標;然后詳述了用于自動駕駛的典型強化學習訓練算法及應用現狀;最后總結了類腦自動駕駛的問題挑戰和發展趨勢。
從設計思想看,自動駕駛決控系統分為模塊化和黑箱化兩個大類。前者將系統分解為一系列功能獨立的模塊,每一個模塊單獨設計,組合到一起實現自動駕駛的決策與控制功能;后者又稱為端到端決控系統,它將決控系統視作一個黑箱,訓練一個神經網絡得到感知結果到控制命令的直接映射。從目前的行業應用看,模塊化設計更適合團隊分工合作,具有更好的工程落地能力,它的開發通常分為兩個階段:首先是確定體系架構,將決控任務劃分為若干個具有獨立性的功能模塊,同時定義模塊之間的信息傳遞關系;其次是確定技術方案,即核心模塊所采用的算法及實現方式。
對于模塊化設計而言,合理的體系架構是開發一個高可靠、易擴展決控系統的關鍵,有利于減少算法復雜度,降低工程實現的難度。模塊化系統的典型架構包括兩類:分層式決控(hierarchical decision& control ,HDC)和集成式決控(integrated decision &control ,IDC)。前者將自動駕駛的自主決策與運動控制嚴格分為兩層單獨設計,二者之間通過期望的行駛軌跡進行銜接;后者將自動駕駛決控任務整合為一個統一的約束型最優控制問題,僅包含一個性能指標、一個動力學系統,并求解一個最優策略。進入深度學習時代,部分學者試圖采用黑箱化思想進行決控系統設計,即采用端到端架構(end-to-end,E2E),利用深度神經網絡實現從感知結果到控制命令的直接映射。端到端架構雖然更加類似人類駕駛員的大腦工作機制,但目前受車載控制器算力的限制,神經網絡的規模不大、智能性不佳,尚處于實驗室研究階段,難以工程落地應用。
與體系架構不同,技術方案是指自動駕駛決控系統核心功能模塊的實現手段。常見的方案包括專家規則型、監督學習型和類腦學習型。專家規則方案以駕駛行為選擇為核心模塊,通過專家經驗預先設計一定的規則條件,選擇最合理的駕駛行為模式。監督學習方案,通常以深度神經網絡為載體,通過專家駕駛數據構建關鍵模塊的輸入輸出模型。類腦學習方案則以神經網絡為載體,利用強化學習算法進行訓練,通過自主探索環境進行策略的自我進化。表1 總結了典型設計思想之下的架構類型與技術方案。

表1 自動駕駛決控系統總結
(1)分層式決控(HDC)架構
分層式決控架構的廣泛使用可追溯至美國的DARPA 挑戰賽,包括卡耐基梅隆大學的Boss 號[6]和斯坦福的Junior號[7],這也是目前工業界常見的系統開發架構。HDC 架構將自動駕駛的自主決策與運動控制嚴格分為兩層,二者之間通過期望的行駛軌跡進行銜接,因此期望行駛軌跡既是決策層的輸出,又是控制層的輸入。為了便于工程化開發,一般進一步分解為周車行為預測、駕駛行為選擇、動態軌跡規劃、橫向運動控制和縱向運動控制5 個功能模塊,如圖1所示。

圖1 分層式決控(HDC)架構
各模塊的基本功能如下:(1)周車行為預測模塊對周圍車輛、行人、騎行人等進行意圖或軌跡預測,供之后的駕駛行為選擇和動態軌跡規劃模塊使用;(2)駕駛行為選擇模塊根據包括安全、能耗、時效、合規、舒適等行車性能指標,選擇最合理的當前行為模式,這一模塊是自動駕駛智能性的核心,它的設計通常需要提前定義駕駛行為的集合,如車道保持、跟車、換道、超車、掉頭等;(3)動態軌跡規劃模塊結合行為選擇、預測軌跡以及路網約束,計算一條考慮行車性能且滿足車輛動力學、行車安全性等約束的時空曲線作為參考軌跡,即期望行駛軌跡;(4)橫向運動控制模塊根據決策層給出的期望行駛軌跡,解算轉向盤轉角等橫向控制指令;(5)縱向運動控制模塊根據決策層給出的期望行駛軌跡,解算油門踏板角度、制動踏板角度等縱向控制指令。另外,部分HDC 框架將縱向運動控制和橫向運動控制進行組合,稱為縱橫向聯合控制。還有一些框架將控制層分解為路徑跟蹤和速度跟蹤兩個模塊,分別設計控制器進行實現。
HDC 架構的優勢十分明確,它具有問題可拆解、任務可拆分的優點,便于工程化開發時的團隊分工和組織協調。但是,其模塊間的信號傳遞不可避免地存在信息丟失的風險,而且各模塊具備各自獨立的優化目標,目標之間存在一定矛盾和沖突,不利于提升決控系統的整體智能性。同時,因為HDC 架構的模塊分解比較平均化,缺乏一個主導性模塊,不利于深度學習、強化學習等智能化算法的引入,過于依賴工程師的設計經驗,難以獲得理想的駕駛智能性。
(2)集成式決控(IDC)架構
為了更好地提升駕駛過程的智能性,清華大學于2018 年提出了用于高級別自動駕駛汽車的集成式決控(IDC)架構[14]。與HDC 架構不同,IDC 架構將自動駕駛決控任務進行了重塑,整合為一個統一的約束型最優控制問題(optimal control problem,OCP),僅包含一個性能指標、一個動力學系統,最終僅求解一個最優的決控策略。這一主導性模塊的存在使得IDC 架構更適合引入以神經網絡為基礎的學習型算法,便于實現數據驅動的閉環訓練流程(即車端采集數據、云端集中訓練、策略遠程升級),增強了對稀有交通場景的自我適應能力,有助于獲得更高智能性的自動駕駛功能。
與HDC 架構不同,IDC 架構包括靜態路徑規劃和動態優選跟蹤兩個功能模塊,如圖2 所示。前者是輔助性的,后者是主導性的。靜態路徑規劃模塊僅根據靜態道路環境信息(如道路幾何結構、路側及地面指示標識等,但不包括紅綠燈控制、交通參與者等信息),輸出一套可被跟蹤的備選路徑集合。特別值得注意:這是一套備選路徑的集合,而不是單條最優的參考軌跡,具體跟蹤哪一條備選路徑將由動態跟蹤優選模塊進行確定。動態優選跟蹤模塊作為主導模塊,則構造為一個跟蹤備選路徑集合的約束型最優跟蹤控制,通過強化學習求解為評價函數和策略函數兩個模型。這兩個模型通常都采用神經網絡進行表示。訓練之后的評價函數可評價不同備選路徑的代價值,實現對靜態參考路徑的優化選擇,達到類似于“自主決策”的功能。訓練之后的策略函數則可根據優選得到的參考路徑,輸出油門、制動、轉向盤等控制指令,實現類似于“運動控制”功能。

圖2 集成式決控(IDC)架構
簡單而言,IDC 架構雖然也存在路徑規劃模塊,但它的規劃算法是十分簡單的,通過與地圖綁定的道路幾何結構、路面及路側標識等信息進行制定,而不使用動態時變的紅綠燈信號、交通參與者等信息,這是稱之為“靜態”的原因。這一做法的目的是為自動駕駛功能的實施提供一定的先驗知識,降低后續最優控制問題的求解難度。決控過程的主體功能都集成于動態優選跟蹤模塊,通過求解統一的約束型最優控制問題,整合了自主決策與運動控制兩項獨立的功能,避免了模塊之間性能指標沖突的難題。
IDC 架構的優點在于:(1)靜態路徑規劃僅使用道路的靜態信息,在線計算效率高,甚至可將預先制定的路徑集合存入自動駕駛地圖,應用時直接讀取所需路徑信息,極大提高在線應用的實時性,同時“靜態化”的處理手段特別適用于結構化道路(如高速公路、城市道路等),且應用場景類型十分廣泛(如交叉路口、環島、多車道、進出匝道等);(2)動態優選跟蹤本質是一個約束型最優跟蹤控制問題,通過最優控制命令的求解體現了“自車跟蹤參考路徑”與“周車約束自車行為”的博弈過程,理論上具有較好的可解釋性,對于最優控制問題,典型的求解方法如模型預測控制、近似動態規劃、強化學習均可采用,尤其是后兩者是可以先離線訓練策略,再在線應用策略,這也極大降低了在線計算的負擔。IDC 架構的挑戰在于主導模塊的集成度過高,性能指標與訓練算法的設計十分復雜,對工程人員的理論功底和算法能力提出了更高的要求。受框架結構集成度高的影響,各設計要素之間強耦合,性能呈現典型的木桶原理特性,因此即使個別要素的設計不合理,會導致自動駕駛性能急劇下降,所以對于缺乏經驗的設計者,很多時候IDC 呈現的自動駕駛水平反而不如HDC架構。
(1)專家規則型
專家規則型方案是圍繞駕駛行為選擇為核心的一套經驗性設計技術,一般只用于分層式架構。典型特征是利用專家經驗設計自車的行為選擇模塊,結合規劃算法進行動態路徑規劃,利用誤差反饋設計參考軌跡的跟蹤控制器。一般來說,首先對場景進行分類,例如多車道、交叉路口、環島、進出匝道等,然后根據專家經驗對每一種場景定義專門的行為狀態以及狀態之間的轉移條件。典型的設計形式是有限狀態機,其節點是行為狀態(例如車道保持、換道、超車等),邊是狀態轉移的條件,如圖3 所示。自動駕駛汽車在行駛時根據道路環境以及自車狀態,按照預定規則確定當前最佳的駕駛行為。

圖3 專家規則型方案
該方案的難點在于如何劃分行為狀態并確定狀態之間的轉移條件。對于高速公路等稀疏交通場景,通過少量行為狀態便可以覆蓋大部分行車工況然而對于城市道路等密集交通場景,行駛工況的復雜程度與安全風險大幅提升,僅依靠工程師的經驗與規則難以窮盡所有可能性,因此開發迭代過程往往需要向狀態機不斷增加補丁,導致維護難度爆炸式增長??傮w而言,該方案的優點在于直接使用道路交通規則與人類駕駛經驗等先驗知識,駕駛行為選擇的可解釋性好,但由于高度依賴人工設計,難以覆蓋所有工況,嚴重缺乏特殊場景的適應性。特別是在高密度、高動態、高隨機的城市道路交通環境下,其智能化水平遠不及人類駕駛員,安全風險居高不下,還不能滿足高級別自動駕駛的智能性要求。
(2)監督學習型
監督學習型方案一般以某一類型的深度神經網絡為模型載體,如全連接神經網絡、卷積神經網絡或Transformer 網絡等,利用大量的自然駕駛數據構建訓練數據集,通過監督學習擬合決控過程的核心模型。圖4 展示了一個端到端自動駕駛決控系統的案例,其中專家駕駛數據由駕駛狀態(樣本)和對應的駕駛操作(標簽)組成,駕駛狀態包括攝像頭、毫米波雷達、激光雷達等傳感器感知到的道路環境信息,駕駛操作包括轉向盤轉角、縱向加速度等控制命令。監督學習的基本原理是同等樣本輸入條件之下,通過最小化模型輸出與標簽的誤差,對模型參數進行迭代更新。該方案既可用于HDC 架構,又可用于IDC 架構。對于HDC 架構而言,它用于解決各功能模塊的設計,例如:對于周車行為預測模塊,可預先采集大量真實車輛軌跡段,以軌跡段的前一部分為樣本,剩余部分為標簽構建訓練數據集進行監督學習;對于運動控制模塊,可預先收集大量規劃好的期望行駛軌跡作為樣本,通過某一類型的高性能運動控制器輸出最優控制指令作為標簽構建數據集進行監督學習。

圖4 監督學習型方案
該方案不需要人工經驗設計特定的規則,本質是通過離線數據集模仿專家駕駛員的行為。得益于深度神經網絡強大的擬合能力,這一方法在訓練數據集的樣本空間內,可以取得不錯的模仿效果,但無法超越專家駕駛員的性能表現。此外,隨著自動駕駛性能要求的提升,所需駕駛數據量及駕駛場景豐富度迅速增長,據蘭德公司預測,該方案要達到人類駕駛水平,所需標簽數據量高達160 億km[16]。同時,該方案還面臨著樣本分布不均衡、罕見工況數據難以獲取等挑戰,場景泛化能力不足,安全保障能力有限。
(3)類腦學習型
類腦學習型方案是一種模仿人腦試錯學習的技術方案,基本原理是通過重復正向獎勵的行為,避免負向懲罰的行為,以最大化累積獎勵回報從而實現自動駕駛策略的自我進化與更新。具體而言,該方案以深度神經網絡為策略載體,以強化學習為訓練手段,通過與交通環境的交互探索實現策略的自我進化,最終獲得從環境狀態到執行動作的最優映射,即最優駕駛策略。如圖5 所示,該方案包括反饋控制與策略更新兩個閉環。反饋控制環中,自車觀測反饋的環境狀態,經策略函數輸出控制動作,與環境進行交互;策略更新環中,自車根據當前執行動作與環境狀態計算獎勵信號,利用強化學習算法驅動策略參數更新。通過這兩個閉環的循環迭代,最終收斂到最優的自動駕駛策略。

圖5 類腦學習型方案
該方案與監督學習的主要區別在于:(1)類腦學習擺脫了對標簽數據集的依賴,可通過在仿真平臺或真實物理環境中的自我探索求解最優策略;(2)類腦學習并不是擬合給定的示范動作,而是在以獲得更多的獎勵回報為目標求解最優策略,因而具有超越人類駕駛員的潛力;(3)類腦學習不局限于標簽數據集中的樣本(狀態)與標簽(動作)空間范圍,能夠在交通環境中收集任意狀態-動作對的樣本進行策略求解。總體而言,該方案可實現一定程度的自主探索與自我學習,適合未知場景條件求解最優駕駛策略,但同時面臨著策略訓練效率低下、易對訓練環境過擬合、在線探索環境安全性差等挑戰。
自動駕駛系統的實車道路測試面臨著安全風險高、成本高、效率低、重復性差等諸多方面的挑戰,而利用自動駕駛仿真軟件,研發人員能以極低的成本進行場景的靈活配置與復現重演,快速實現原型開發與性能評估。此外,對于類腦決控系統的訓練過程,真實道路環境的數據采集依賴于探索試錯機制,這往往意味著極低的采樣效率與極高的安全風險,因此利用自動駕駛仿真平臺進行訓練與測試是開發高級別自動駕駛系統的必由之路。到目前為止,常見的自動駕駛仿真軟件包括TORCS、CARLA、Prescan、Apollo、TADSim、Cognata、DriverGym、AirSim、MetaDrive、LasVSim 等。自動駕駛仿真軟件如此之多,那么如何評價一款自動駕駛仿真軟件的優劣呢?從自動駕駛工程化的角度看,關鍵點不在于駕駛場景3D渲染的美觀程度,而在于各核心模塊可否準確反映真實物理對象的主要特性,也就是自動駕駛關聯要素的保真度,尤其是道路地圖建模、交通參與者行為、環境傳感器特性與車輛動力學特性、自動駕駛性能評估等。
一般來說,典型自動駕駛仿真軟件至少包括道路場景模擬、交通參與者模擬、網聯通信模擬、環境傳感器模擬、車輛動力學模擬、駕駛性能評估,以及自動駕駛系統本身感知、定位、預測、決策與控制等算法模塊。不同仿真平臺的功能特點可從4 個方面進行對比評析:(1)界面渲染類型,即3D物理引擎渲染或2D俯視平面渲染;(2)地圖自定義能力,即是否完備支持手動編輯、真實數據導入、隨機生成場景等方式;(3)典型仿真要素的模擬準確度,包括車輛動力學、環境傳感器、微觀交通流等典型要素是否能夠提供完備的高保真模型;(4)仿真計算效率,這對大規模仿真測試以及交互式訓練至關重要。表2 總結了主流自動駕駛仿真軟件的功能特點和維護機構(注:○越多,表示該項性能越好)。

表2 自動駕駛仿真平臺
監督學習和類腦學習兩種技術方案均以深度神經網絡作為策略載體,它的輸入要求是一個長度固定的一維向量[32-33]。然而自車感知到的環境狀態信息并不能直接滿足這一要求,例如行駛過程周圍交通參與者的數量總是動態變化的,且周車或行人之間不存在明確的空間順序關系,導致不能拼接為定維向量,難以滿足策略網絡的輸入要求。因此,通過狀態表征(state representation)將環境狀態信息表達為定維表征向量是使用神經網絡策略的必然要求[34]。
對于類腦學習而言,自動駕駛決控任務屬于典型的馬爾科夫過程,即每一時刻的最優動作僅通過當前的環境狀態得到,因此對應時刻的表征向量需要充分包含決控所需信息。表征向量的選取直接影響策略訓練難度和訓練效率,如何在有限的表征向量維度下有效抽取影響自動駕駛的關鍵特征,是狀態表征的研究重點[33]。從原理上說,狀態表征的本質是將復雜多元的環境感知信息壓縮為一維向量,主要手段包括兩個大類,即語義級別的“目標識別”和元素級別的“特征提取”。根據這兩種技術手段的應用方式,自動駕駛決控策略的狀態表征方法分為目標式(object-based)、特征式(feature-based)和組合式(combined design)3個子類,如圖6所示。

圖6 類腦決控的3種狀態表征方法
目標式狀態表征首先需要指定待識別目標類別,并分別設計不同類別目標的狀態;然后從感知信息中進行目標識別;最后將各識別目標的狀態直接拼接為表征向量[35]。交通環境中的待識別目標主要包括自車、道路環境和周圍交通參與者3類。
3.1.1 自車
自動駕駛汽車可近似為僅在平面運動,有橫向平動、縱向平動和橫擺轉動3 個運動自由度,每個自由度的運動狀態可由一個位置量和一個速度量表示。因此,自車狀態包括6 項:橫向位置、縱向位置、橫擺角度、橫向速度、縱向速度和橫擺角速度[36]。
自車狀態的表征按照坐標系可分為3 種:(1)大地坐標系,將6 項狀態量直接作為表征,但是由于包含絕對位置,只適用于固定場景[23];(2)Frenet 坐標系,將各狀態量投影至沿車道方向和垂直車道方向作為表征,便于直觀表達與車道中心線的相對位置關系,一般適用于多車道場景,但難以應用于交叉路口等復雜開放場景[37-38];(3)自車坐標系,以自車為中心,只需平面,3 自由度的速度量作為表征。由于不需要輸入位置信息,因此可與場景解耦,但道路環境、周圍交通參與者等其他目標需表達為與自車的相對信息[39]。
3.1.2 道路環境
道路環境信息主要包括道路連通關系、道路邊緣和交通信號燈。
道路連通關系指示行駛路徑。一般表征為參考軌跡點序列,主要有兩種方式[40]:(1)等時間距,相鄰兩點間距為參考速度與時間步長的乘積,每個軌跡點的信息包括橫縱向坐標;(2)等空間距,相鄰兩點間距固定,但每個軌跡點的信息還應包括在該位置的參考速度。
道路邊緣指示可行駛區域的邊界。表征方式主要有:(1)最小間距式,即車輛質心與道路邊緣的最短距離,僅需要計算一個變量,表征維數低[25];(2)固定方位式,即在自車坐標系下,計算車輛質心沿N個固定方向與道路邊緣的距離。由于同時包含距離與方位信息,還額外表達了自車與可行駛區域的空間位置關系[41]。
交通信號燈指示通行規則,包括信號燈顏色和剩余時間。信號燈顏色一般獨熱(one hot)編碼為三維向量,對應紅黃綠3 種信號燈;再拼接剩余時間作為交通信號燈表征。前方無信號燈時,一般設為具有最大剩余時間的綠燈信號[23]。
3.1.3 周圍交通參與者
周圍交通參與者(周車)集合主要有以下特點[34]:(1)類型混雜,典型的城市道路環境中存在機動車、行人和騎行人等不同類型的交通參與者,其形狀尺寸、活動范圍、運動能力、行為模式及風險特征差異巨大;(2)數目時變,由于道路結構、車流密度、感知遮擋等因素,自車感知到的周車數量總是動態變化。
對于類型混雜、數目時變的周車集合,現有研究一般采用固定排序方案[34],即首先固定最大周車數量N,假定每輛周車的狀態為m維,通過規則排序得到一個N×m維向量作為表征。排序規則的設計依據主要包括相對距離、相對方位和沖突關系等。這種方案簡潔易操作,但是最大周車數量N難以選取:當實際周車數目大于N時,須將距離較遠者剔除,導致信息遺漏,影響策略求解最優性;當實際周車數目小于N時,須在離自車較遠處添加虛擬周車,導致信息冗余,增大策略求解難度。
總體而言,目標式狀態表征的優勢在于:(1)可解釋性強,作為表征的目標狀態一般具有明確的物理意義;(2)可遷移性好,無論是仿真環境還是實車平臺,無論傳感器如何搭配組合,只要能夠提供識別目標的狀態信息,便可對所學駕駛策略進行部署。劣勢在于:(1)部分目標狀態需要在線規劃計算;(2)如何選取待識別目標、定義目標狀態以及對目標進行排序嚴重依賴人工設計,存在擴展性難題。
特征式狀態表征不進行目標識別,僅預先指定特征的維數,通過一個特征提取模塊直接從感知信息(如攝像頭圖像、激光雷達點云等)中提取表征向量。目前,特征提取模塊一般以深度神經網絡為載體,訓練方法主要可分為在線進化和自監督兩種模式。
在線進化模式是指特征提取模塊與策略函數同時進行訓練,均以最大化環境反饋的獎勵信號為目標,以強化學習為訓練手段,實現自我進化,如圖7所示。特征提取模塊的典型網絡結構包括多層感知機MLP[42]、卷積神經網絡CNN[42]、點網絡PointNet[43]和循環神經網絡RNN[44]等。

圖7 在線進化模式
自監督模式是指特征提取模塊的訓練與策略訓練相解耦,采用自監督的方式預先訓練?!熬幋a器-解碼器”是典型的自監督訓練架構,它通過比較輸入的環境狀態與編解碼之后輸出的重建狀態之間的誤差,以自監督學習的方式訓練一個編碼器和一個解碼器,其中編碼器即為特征提取模塊,如圖8 所示。該架構的典型網絡結構包括生成對抗網絡GAN[45]、自 動 編 碼 器AE[46]、變 分 自 動 編 碼 器VAE[47]和Transformer[48]等。

圖8 自監督模式
在線進化模式可同時訓練特征提取網絡和策略網絡,結構清晰,但劣勢在于容易對訓練環境過擬合;自監督模式可利用來自多個環境的樣本預先訓練特征提取器,抑制對特定環境的過擬合,但劣勢在于需要大量樣本來構建訓練數據集。
總體而言,特征式狀態表征的優勢在于信息損失少,直接從原始觀測輸入到表征輸出。劣勢在于:(1)可解釋性差,特征提取過程是一個黑箱;(2)訓練難度大,原始觀測信息的維數較高,特征提取困難;(3)可遷移性差,仿真訓練平臺的傳感器模型與真實道路的實際傳感器通常存在較大差異,此外,傳感器的安裝位置、角度、型號不同也將造成觀測空間的差異,導致所訓策略難以向真實世界遷移。
為了擺脫對周車排序規則的依賴,同時加速特征提取,組合式狀態表征融合了前兩種方法的優勢,即在目標識別的基礎上,通過編碼聚合函數對目標集合進一步提取特征,得到關于集合內元素排列不變的定維表征[49]。編碼聚合過程可數學化描述為xset=Agg(X),其中X 為識別的目標集合,xi為目標集合中第i個目標的狀態,xset為對該集合編碼聚合后得到的表征向量,Agg(·)為編碼聚合函數[50],由編碼網絡和聚合算子組成。
典型的編碼網絡結構包括多層感知機MLP 和卷積神經網絡CNN 等,既可以采用自進化模式,也可以采用自監督模式進行訓練;典型的聚合算子包括求極大(max)、求平均(mean)、求和(sum)、注意力(attention)等[50]。Duan 等[34]首先將求和式編碼聚合網絡用于周車集合的狀態表征。如圖9 所示,首先使用MLP的編碼網絡分別處理所有周車的狀態xi得到單車編碼vi,然后通過求和(sum)算子聚合。Guan等[15]設計了基于注意力(attention)機制[51]的編碼聚合網絡,可在特征提取過程中動態甄別不同周車的重要性,如圖10所示。

圖9 求和式編碼聚合[34]

圖10 注意力式編碼聚合[51]
總體而言,組合式狀態表征方法的優勢在于:(1)相比于目標式,不依賴于人工設計周車排序規則,通過編碼聚合函數實現可變數目周車集合的排列不變表征;(2)相比于特征式,可遷移性好,可以復用成熟的目標識別模塊,只要求提供待識別目標的狀態信息,便可編碼聚合得表征向量。劣勢主要在于從環境狀態輸入到表征輸出之間同時包含目標識別和特征提取兩個過程,可能導致較大的信息損失。
自動駕駛性能評價是系統功能測試以及策略訓練改進的基礎,關鍵在于建立準確可靠的評價指標體系。通常評價維度至少包括安全性(driving safety)、舒 適 性(driving comfort)、通 暢 性(travel efficiency)、經 濟 性(energy efficiency)和 合 規 性(regulatory compliance)等,各個維度又包括評價當前時刻的瞬時指標和評價單次駕駛任務或單位駕駛里程的統計指標。統計指標一般為瞬時指標的均值或累積值。對于類腦學習系統而言,驅動策略更新的唯一信息來源于環境反饋的獎勵信號,因此策略性能取決于以評價指標為基礎的獎勵函數設計。
保障道路安全是自動駕駛技術發展的重要挑戰[52]。早期的安全性評價模型主要考慮與碰撞工況相關的物理性特征[53],例如車間距離、碰撞時間(TTC)、沖突時間差(PET)、避免碰撞的減速度(DRAC)等,然而這些指標與具體的碰撞事件緊密綁定,難以至一般性的無沖突場景。另一些安全指標基于運動場的概念進行設計,如駕駛員風險場(driver’s risk field)[54]等,可用于一般性的無沖突場景,但一方面該類模型的參數較多,標定困難,另一方面缺少客觀的真實風險標準,難以對模型的準確性進行定量評估。為了實現安全風險的量化建模,清華大學于2021 年提出了潛在碰撞損傷風險(PODAR)模型,核心思想是以碰撞損傷度(包括人損和車損)作為行車安全性的客觀標準,將當前的運動狀態折算為未來某一時刻的碰撞損傷度[55]。PODAR 模型首先假定預測時域之內碰撞將會發生,考慮碰撞雙方的質量、相對速度和相對方向等因素計算碰撞損傷值,這是被動安全領域十分成熟的模型;然后從空間和時間兩個維度對未來時刻的碰撞損傷值進行折減,得到當前時刻的潛在碰撞損傷,用于衡量駕駛過程的安全性。
合規性是指自動駕駛行為是否符合交通法規。需要說明的是,不少行車風險模型將安全性與合規性兩者混為一談,實際上合規性與安全性并不等價,行車合規不代表安全,但行車安全也不一定合規。一個典型例子是如果當車輛在紅燈前停止,且后方車輛高速逼近時,繼續保持紅燈等待狀態雖合規,但可能導致后車追尾碰撞,損害了安全性;而提前加速起步雖闖紅燈違規,但可能避免后車碰撞,提升了安全性。因此,將安全性和合規性進行解耦,分解為兩個不同的評價維度,有利于解決自動駕駛的行車風險評估難題。一般來說,不同違規行為的嚴重程度可根據交通法規衡量,例如我國交通法明確規定:高速公路不按規定車道行駛扣3 分,城市路口場景中闖紅燈扣6分等,這是合規性建模的基本原則。
車輛行駛的過程中,乘客的舒適性主要與車輛縱橫向運動的沖擊特性相關。具體而言,人體乘坐舒適性可由縱向、橫向兩個維度的加速度值進行衡量,例如加權均方根值。一般來說,加速度的均方根值越大,舒適程度越低,反之更好。
通暢性是指車輛經過一段道路的通行效率。一般可由自車速度與周圍交通流平均速度(無車時可采用道路限速)的比值進行衡量。該比值越大,說明自車行駛的通暢性越好。
經濟性是指車輛行駛過程的能量消耗水平。對于同樣的駕駛任務,能量消耗越少則經濟性越好[56]。根據動力能源形式,例如燃油汽車或電動汽車,可由燃油消耗率和電能消耗率等指標進行衡量。
類腦決控系統以強化學習(reinforcement learning, RL)為訓練手段,通過與交通環境的不斷交互實現策略的更新優化。強化學習的設計思想源于生物的試錯學習機制,即生物如何在環境給予的獎勵或懲罰的刺激下,逐步形成對刺激的預期,產生能獲得最大利益的習慣性行為模式?,F代意義的強化學習屬于人工智能和自動控制的交叉領域:從前者視角看,它是指智能體如何通過與環境交互試錯,利用反饋的獎懲信號來改進自身策略的學習機制;從后者視角看,它是指用于最優控制問題的全狀態空間求解器,獲得從環境狀態到執行動作的最優映射,即最優策略[57]。目前,車云協同訓練是將強化學習應用于高級別自動駕駛任務的一個常見開發模式。它的基本原理如圖11 所示,核心是訓練以深度神經網絡為載體的策略函數,其中訓練數據的來源同時包括云端的海量存儲和車端的數據上傳。同時借助云端的高性能算力,實現高性能強化學習算法的離線應用,訓練之后的神經網絡通過OTA(on the air)模式遠程下載至車端,升級自動駕駛功能??傮w而言,車云協同訓練的數據流動形成了反饋控制環和策略更新環兩個閉環。前者是指自動駕駛系統根據傳感器的實時感知數據,得到執行器動作,控制車輛持續行駛,形成反饋控制閉環。后者是指車端收集當前策略對應的環境感知與控制命令數據,上傳至云端用于策略訓練與OTA 升級,接著對更新后的策略繼續收集行駛數據上傳云端訓練升級,形成策略參數更新閉環。

圖11 車云協同訓練架構
強化學習一般將待求解問題構造為馬爾可夫決策過程(Markov decision process, MDP),求解過程主要包含4 個基本元素[57]:狀態動作對(st,at)、策略π、獎勵信號rt和環境模型f。每個時間步t,智能體根據狀態st與策略π決定動作at,然后環境會給出下一時刻狀態st+1與獎勵信號rt(st,at)。強化學習的目標是學習到能夠最大化期望累積回報的策略:
式中:d0(s)為t= 0 時的狀態分布;γ∈[0,1]為折扣系數。目前,廣泛使用的強化學習算法多屬于Actor-Critic 架構。為了評估當前狀態的優劣,通常引入狀態價值函數V(s)或動作價值函數Q(s,a),估計未來的期望累積回報,因此稱為評估器(Critic)。策略函數用于輸出動作使得環境向更高價值的狀態轉移,因此也稱為執行器(Actor)。值得一提的是,IDC 架構的評價函數和策略函數恰好可以對應于Critic 和Actor 的功能定位,這是IDC 架構設計的巧妙之處,也是它與強化學習算法特別匹配的原因[15]。
強化學習算法的發展歷史悠久,但引起工業界的廣泛關注始于深度化版本的開發。2015 年Mnih等人提出了DQN(deep Q network)算法[58],首次在Atari 游戲中超越了人類的表現,自此至今,DDPG(deep deterministic policy gradients)[13]、TD3(twin delayed deep deterministic policy gradient)[59]、PPO(proximal policy optimization)[60]、RMPC(recurrent model predictive control)[21]、SAC(soft actor critic)[61]、DSAC(distributional soft actor critic)[62]、MPG(mixed policy gradient)[63]等性能優異的深度強化學習算法層出不窮,令人眼花繚亂。
強化學習的算法種類如此繁多,急需合理的分類方式進行梳理,以便更為深入地理解原理。常見的分類方式包括:根據模型和數據的利用方式[64],分為模型驅動型(model-driven 或model-based)、數據驅動型(data-driven 或model-free)以及融合使用模型與數據的混合驅動型(mixed-driven);根據采樣策略與目標策略是否相同[57],分為在軌型(on-policy)和離軌型(off-policy)。然而,這些分類方式都是根據訓練過程的表象差異進行區分,不利于設計者深入了解算法的本質差別,進行更為合理的算法設計和選擇。目前,更為基礎的分類是根據最優策略的求解方式進行劃分,將強化學習分為如下間接法和直接法兩類[65]。
(1)間接法的基本原理是求解貝爾曼方程,即最優解的充分必要條件,將貝爾曼方程的解作為最優策略。按照迭代方式進一步可分為策略迭代(policy iteration,PI)和值迭代(value iteration,VI):前者的本質是使用Newton-Raphson 迭代法求解貝爾曼方程[57],通過交替策略評估和策略改進兩個環節,不斷改進當前策略以逐步逼近最優策略;后者則根據不動點迭代直接更新值函數,直至收斂到最優值,而最優策略即為最優值函數的貪心搜索。
(2)直接法將強化學習視為一種對目標函數求極值的迭代優化方法,典型求解方法可分為零階梯度法、1 階梯度法、2 階梯度法等。以遺傳算法為代表的零階梯度法,可適用于非光滑問題,但收斂速度較慢,求解效率不佳。1 階、2 階等策略梯度方法均沿著梯度下降方向迭代逼近最優策略,適用于凸性較好的問題。理論上說,階次越高收斂速度越快,但是2 階導數的計算成本太大,反而會惡化訓練速度,因此目前仍是1階策略梯度法最為常用。
值得一提的是,Actor-Critic 作為一類廣泛使用的強化學習架構,既可來源于間接法,又可來源于直接法[65]。從間接法角度看,Critic 和Actor 的更新分別對應了策略評估和策略改進兩個環節的參數化近似,如圖12 所示;從直接法角度看,Actor-Critic 可被視為一類帶值估計的策略梯度(policy gradient)方法,其中Critic 是利用值估計機制構造目標函數,Actor 計算目標函數對策略參數的梯度并執行策略更新,如圖13所示。

圖12 間接法導出的Actor-Critic架構[57]

圖13 直接法導出的Actor-Critic架構[57]
間接法和直接法分類的優勢在于它區分了最優策略求解方式的本質原理,同時又均可衍生出Actor-Critic 架構,證明了兩類方法在理論層面具有最優性等價關系,這對強化學習的原理理解具有重要意義。根據這一分類方式的理解:從直接法角度可致力于更綜合的目標函數設計;從間接法角度可發掘更多最優解的等價或必要條件構造迭代方程,這為強化學習領域的新型算法設計提供了全新的視角。
隨著車載控制器的算力增長以及對自動駕駛困難性的認識加深,類腦自動駕駛技術正得到越來越多的關注。到目前為止,這一技術已經能夠解決多車道、交叉路口、環島、進出匝道等諸多工況的決策與控制功能,正逐步邁向真實交通場景的工程應用和測試驗證。典型的自動駕駛案例如表3所示。

表3 類腦決控典型案例
早期的類腦自動駕駛主要采用端到端架構,直接利用深度神經網絡實現從感知結果到控制命令的映射。例如:2016 年Lillicrap 等提出了DDPG 算法,利用TORCS 仿真平臺實現了封閉道路的車道保持功能[13];2019 年Chen 等針對城市道路中的環島場景,使用TD3 和SAC 等算法,使用CARLA 仿真平臺實現了密集交通流工況的安全高效通行[27];2022 年Li 等設計了MetaDrive 仿真平臺,可以自動生成隨機拓撲結構的道路場景,使用PPO 和SAC 算法在大規模場景庫中進行訓練,提升了策略泛化能力[29];2022 年Duan 等將DSAC 算法應用于高速多車道場景,通過引入值分布有效抑制了值函數的過估計難題,超越了SAC 的性能表現,并進行了實車試驗驗證[30]。
類腦學習與HDC 架構的結合主要用于典型功能模塊的開發,如駕駛行為選擇、車輛運動控制等。2018年Hoel等設計了車道保持、左換道、右換道3種車輛行為狀態,使用DQN 算法實現了高速多車道場景的換道決策[18]。2020 年Yurtsever 等以轉向盤轉角和縱向加速度構造離散的動作空間,使用DQN 算法在CARLA 仿真平臺實現了對于給定軌跡的跟蹤控制[19]。2022 年Liu 等針對連續動作空間的預測型車輛橫縱向運動控制任務,設計了循環模型預測控制算法,可根據計算資源等約束條件動態調整預測時域的長度,離線訓練得到的控制策略與經典的在線規劃型MPC控制器的軌跡跟蹤性能相當[21]。
與HDC 架構相比,IDC 架構更適合與類腦學習算法結合。作為主導模塊,動態跟蹤優選模塊集成了選擇最優路徑和輸出控制命令的任務,通過求解統一的約束型OCP 整合決策與控制功能。2022 年Guan 等依托IDC 架構設計了一種混合策略梯度算法,在交叉口場景完成了直行、右轉和無保護左轉等駕駛任務[14]。2022年Gu等采用IDC 架構,同時引入模型提升SAC 算法的訓練效率,在高速公路場景實現了安全、高效、經濟的駕駛表現[24]。2022年Ren等進一步考慮機動車、行人與騎行人混雜的交通流,將信號燈、限速、與不同交通參與者的安全距離等規則與經驗作為先驗知識融入IDC 架構,實現了信控交叉路口場景混雜交通流中的安全通行[23]。
針對高級別自動駕駛汽車的決策與控制功能設計,類腦學習提供了一種自主探索、試錯迭代的策略求解機制,可在全狀態空間上近似求解從環境狀態到執行動作的最優映射,即最優策略。本文聚焦于類腦學習型自動駕駛決控系統開發,從系統框架、仿真軟件、狀態表征、評價指標和訓練算法5個方面系統性探討了它的關鍵技術及發展趨勢。簡要總結如下。
(1)面向落地應用的自動駕駛決策控制架構分為分層式(HDC)和集成式(IDC)兩類。HDC 架構的模塊解耦更細,便于工程化開發時的任務分工和組織協調,但不可避免地存在模塊之間信息丟失的風險,且各模塊具有自己的優化目標,不利于提升整體智能性。IDC 架構將自動駕駛決控任務進行了重塑,將二者整合為一個統一的約束型最優控制問題,僅包含一個性能指標、一個動力學系統,求解一個決控策略。這一主導性模塊的存在使得IDC 架構更加適合類腦學習算法的應用,通過車云協同訓練增強對稀有場景的適應性,以獲得更高的駕駛智能性。特別值得指出的是,IDC 架構的策略函數和評價函數恰好對應于強化學習的Actor-Critic 訓練架構,二者具有良好的適配度。
(2)從動態環境的狀態信息提取定維表征向量是應用類腦學習技術的必然要求,也是提升策略訓練效率與性能表現的關鍵之處。狀態表征方法可分為目標式、特征式和組合式。目標式表征因物理意義明確、易遷移等優勢被廣泛采用,但依賴于人工設計目標識別模塊以及目標集合中各元素的排列順序;特征式表征直接從感知信息中提取表征,結構簡單清晰,但仍面臨訓練效率低、可解釋性差、難以向真實場景遷移等困境;組合式設計對于識別后的目標進行編碼聚合得到表征,既可擺脫對目標排序規則的依賴,又可保障訓練效率。狀態表征的下一步發展趨勢主要在于更好地融合先驗知識和深度學習的特征提取能力,實現狀態表征的高效提取,以及結合對抗學習、因果挖掘等手段提升泛化能力。
(3)強化學習是類腦學習系統的核心算法,驅動策略更新的信息來源于環境反饋的獎勵信號,因此策略性能取決于以評價指標為基礎的獎勵函數設計。其發展趨勢是圍繞安全、合規、舒適、通暢和經濟的五維度視角開展指標設計,重點建立客觀性的量化評價模型,使用統一尺度評測各類行駛工況的駕駛性能表現。類腦決控系統以深度神經網絡為策略載體,以強化學習為訓練手段,目前已經能夠實現多車道、交叉路口、環島、進出匝道等諸多工況的自動駕駛功能,正逐步邁向真實場景的實車測試驗證。下一步發展趨勢主要在于如何提升策略訓練效率與穩定性、融合模型與數據驅動策略更新。
(4)當前類腦學習型決控系統的實車應用仍面臨安全性和泛化性等方面的諸多挑戰。安全性是現階段制約類腦決控實車應用的主要原因,典型的強化學習方法面對安全約束,均難以實現零約束違反。安全強化學習方法顯式考慮安全約束,在保證約束滿足的前提下最大化期望累積回報,能夠從理論上保證策略的安全性,是目前值得攻關的重點子領域。對泛化性能的要求體現在面對不同場景以及擾動時,類腦學習策略應當能夠保持合理的決控智能水平,而當前算法表現通常不夠理想。采用對抗學習等技術并進行大規模多場景訓練,有望增強類腦學習的泛化性能,實現更可靠的自動駕駛決控??傮w而言,下一步發展趨勢在于如何減少狀態約束違反、保障在線安全探索以及增強環境泛化能力,同時通過車云協同閉環訓練實現數據驅動的閉環進化,逐步增強自動駕駛汽車的智能性,破解稀有交通場景的行車安全困局。