主題詞:自動駕駛大模型 決策和規劃
中圖分類號:U463 文獻標志碼:A DOI:10.19620/j.cnki.1000-3703.20250293
Large Language Models for Decision-Making and Planning in Autonomous Driving: A Survey
SongZiyul2,ChenJie3,JiangLinlin,Xia Zhaochenl2,DingHaitao1,2
(1.NationalKeyLaboratoryofAutomotiveChasis IntegrationandBionics,Jilin University,Changchunl3o25;2.College
of Automotive Enginering,Jilinuniversity,Changchun130o25;3.GlobalRamp;DCenter,ChinaFAWCorporationLimited, Changchun 130013)
【Abstract】Existing autonomous driving systems face numerous challenges in terms of interpretability,reward design, andgeneralization.Thispapersystematicallyreviewsthemulti-roleintegrationmechanismsandengineringimplementation pathsof large languagemodelsand visual language models inautonomous driving decision-making and planning.Firstly,a unified role-basedframework isproposed,dividing large modelsinto3functional modules:decisionand planningoutput, featureandactiongeneration,andreward functionmodeling.Onthisbasis,thispapercomprehensivelyreviewsthe representativeintegrationmethodswith reinforcement learning and imitationlearning,achievingaful-chainsummaryof empowerment mechanisms frominformation procesing to behavior output.The latestadvancementsof representative large modelsateach stageinbothdomesticandinternationalcontextsaresummarizedaswell.Furthermore,thispaperhighlights typicalsolutions topracticalengineeringchallnges,suchasinferencelatencyotimzation,automaticrewardsignalgeation end-to-end interpretabilityandcollaborativereasonng,whileexpandsthereviewtoincludeemerging topicssuchasreward model assistanceandmultimodal feature generation.Finally,futureresearch directionsareproposed inresponse to key chalenges including inferencelatency,model stabity,representationgaps,andtrainingandvalidation.Thisworkimsto provideasystematictheoreticalfoundationandapracticalengineeringroadmap forempoweringautonomousdrivingdecisionmaking and planning with foundation models.
Key words: Autonomous driving, Large Language Models (LLM),Decision-making and planning
【引用格式】宋子鈺,陳捷,姜琳琳,等.基于大模型的自動駕駛決策與規劃研究進展綜述[J].汽車技術,2025(10):21-31.SONG ZYCHENJ,JIANGLL,etal.LargeLanguage Models forDecision-MakingandPlannngin AutonomousDriving:ASurvey[J].Automobile Technology,2025(1O): 21-31.
1前言
自動駕駛的研究范式正逐步從傳統的模塊化架構向端到端學習過渡[1-2]。模塊化架構將感知、決策、規劃和控制等子任務拆解后獨立處理,嚴重依賴人工規則,難以覆蓋駕駛過程中的長尾場景,且在面對復雜交通環境時表現出適應性不足問題。相比之下,端到端方法可直接從原始傳感器數據中學習駕駛策略,更貼近人類駕駛的感知-決策過程,有望提升自動駕駛系統的整體性能。
然而,該范式在實際應用中仍面臨以下關鍵挑戰:(1)可解釋能力不足,端到端模型缺乏透明的推理鏈條,難以進行因果分析,限制其在安全可控和人機協同中的應用。(2)泛化性能有限,訓練數據難以涵蓋所有交通場景,模型在分布外環境下易出現性能崩潰,缺乏魯棒性。(3)稀疏獎勵困境,在強化學習(ReinforcementLearning,RL)框架下,常在抵達目標或發生碰撞等稀疏事件后獲得反饋,影響策略學習效率;在模仿學習(ImitationLearning,IL)框架下雖可繞開獎勵設計,但易累積偏差,且難以處理涉及長期規劃的復雜任務。
大語言模型(LargeLanguageModels,LLM)為緩解端到端方法面臨的核心挑戰提供了新思路[3-6],LLM以自然語言外顯決策過程,緩解了傳統端到端方法“黑盒化”問題,提升了系統的可解釋性與推理透明度;LLM通過整合豐富的跨模態與常識性知識,增強模型在罕見場景與突發狀況下的泛化性與魯棒性;通過自然語言表達環境的高層語義與行為意圖,LLM為稀疏獎勵問題提供細粒度的策略引導,輔助策略學習的穩定收斂。但單一語言模態難以滿足端到端自動駕駛對時序密度和動態反饋的需求,研究范式正逐步由LLM向視覺語言模型(Vision-LanguageModel,VLM)過渡[7-10]。在實踐中,攝像頭圖像、激光雷達點云與高精地圖等多模態感知數據均可直接編碼跨模態表征輸入至VLM,最大程度地保留空間動態特征,有效降低語義抽象過程中的信息損失,從而顯著增強系統的場景語義理解能力與長尾魯棒性。
本文聚焦大模型在單車自動駕駛體系中的應用,不涉及車路協同或多車協同任務,旨在系統地梳理最新進展,構建智能駕駛與大模型基礎理論間的映射關系。
2理論背景與關鍵概念
2.1決策與規劃范式
行為決策通過利用交通環境的語義信息,如車道、信號燈狀態、周圍車輛的行為意圖等,在離散的高層策略空間內進行換道、跟馳等離散動作決策;運動規劃以高層決策結果為目標或約束,在連續的狀態-控制空間中,生成滿足車輛動力學與安全約束的軌跡,并在此基礎上優化平滑性、能耗與行駛時間等性能指標。
根據建模與求解范式,決策與規劃技術可分3類:
a.模塊化架構,如基于規則的有限狀態機、基于優化的模型預測控制方法等。此類方法的可解釋性和穩定性較好,但在應對復雜或未見場景時泛化能力有限。
b.基于強化學習的方法將決策或規劃視作智能體與環境交互的試錯過程,通過設計適當的獎勵函數r(s,a) 評估策略的質量,并學習策略 π ,最大化期望累計回報。
c.基于模仿學習的方法[13通過尋找一個策略 π ,使其在演示數據集的狀態-動作分布貼近專家策略 πE 。
基于強化學習和基于模仿學習的方法均以學習策略為核心,具備更強的自適應性與泛化能力。
2.2大模型
鑒于大模型在大規模語料與多模態數據上進行預訓練,模型不僅能夠學習交通文本的統計規律,還可建??鐣r序、跨主體的上下文依賴,進一步捕捉面向駕駛決策的復雜語義關系。其輸入可表示為一組詞元(Token):
X={?xi,j|i∈1,…,N,j∈1,…,Ti}
式中: :xi,j 為第 i 個句子中的第 j 個詞元。
LLM的輸出是對下一個詞元的概率分布,可表示為一個函數將輸入 xi,j 映射到輸出 yi,j=f(xi,j) 在此基礎上,VLM可處理圖像、視頻、文本、點云等多模態輸入,將多模態輸人集合 {Δxi,j(1),Δxi,j(2),...,Δxi,j(n)} 映射到輸出 yi,j

式中: xi,j(k)∈X(k) 為第 (i,j) 個樣本在第 k 種模態(如圖像、文本、點云)的輸入。
VLM的關鍵組件包括各模態的編碼器 E 、多模態融合模塊 F 、語言模型f以及輸出投影器 P,VLM 的輸出可表示為:
yi,j=P{f[F(Ei,j(1)(xi,j(1)),E(2)(xi,j(2)),...,E(n)(xi,j(n)))]}
目前,BLIP- ?2[14] 、LLaVA[15]和Flamingo[等VLM,已在視覺問答、圖像描述、多模態推理等任務上取得優異表現。在復雜的場景中引入VLM,將視覺、文本等多模態傳感信息融合,為決策和規劃提供更豐富的上下文語義信息。
在大模型的研究中,預訓練與微調[8是兩個關鍵階段。其中,在預訓練階段,模型常在海量通用數據(如網絡文本、圖像數據集)中進行自監督學習,掌握豐富的語言或多模態表征能力;而微調階段是在特定領域或任務的數據,對預訓練模型進行有監督或任務導向訓練,使其能夠適應具體應用場景并輸出高質量結果。通過這種“先廣泛學習,再聚焦優化\"的策略,既能夠融合大規模數據的普適性知識,又能保證模型在自動駕駛任務中的高性能。
微調的主要技術包括參數高效微調[9](Parameter-Efficient Fine-Tuning,PEFT)、提示詞調優[2o(PromptTuning)、指令調優2(InstructionTuning)和人類反饋強化學習[2-23](Reinforcement Learning from HumanFeedback,RLHF)。其中,PEFT的目標是在凍結大部分原始模型參數的情況下,僅對極少數新引入的可訓練參數進行優化,在小幅增加顯存和計算負擔的前提下,使預訓練模型快速適配特定的下游任務。PEFT以LoRA[24為代表,通過低秩插入可訓練分支,有效減少微調參數量與計算需求,支持大模型高效適配決策和規劃等任務;提示詞調優使用可學習的連續向量提升模型下游任務表現,通過訓練極少量的軟提示向量,實現高效且低資源的大模型遷移,適用于需要頻繁適配不同任務、計算資源有限的自動駕駛和智能交通等實際場景;指令調優通過在大規?!爸噶?響應\"格式的數據集上進行監督微調,引導模型學習按照自然語言指令進行任務推理與回答,從而實現多任務泛化和人機交互能力提升。RLHF通過將人類反饋視為獎勵信號來微調大模型,使其輸出更加安全且符合人類偏好。
3面向自動駕駛決策與規劃的大模型概述
通過對基于大模型的決策與規劃的典型范式分析,分類方法如圖1所示。
3.1大模型直接生成決策或規劃范式
在直接生成決策或規劃范式中,大模型通常生成高階決策指令(如行為意圖、動作類別)或規劃的軌跡(如一系列參考軌跡點),其與端到端模型結合的典型架構分別為并行模式和串行模式,如圖2所示。
圖1基于大語言模型的自動駕駛決策與規劃分類方法
圖2大模型與端到端模型結合的典型架構

在圖2a中,大模型生成離散高階決策指令,根據決策結果,端到端模型生成精細化軌跡規劃;圖2b中,大模型生成低頻參考軌跡后,端到端模型基于參考軌跡進一步細化,輸出高頻軌跡。這種設計不僅能夠提升系統的可解釋性與靈活性,還充分發揮了大模型在環境語義理解、推理過程透明性與規則合規性等方面的優勢。
通過系統地梳理該范式下代表性研究工作,對其核心思路、技術實現路徑、典型應用場景及主干模型架構等關鍵要素進行全面總結,如表1所示。
表1基于大模型直接生成決策/規劃的代表性方法

LLM4AD將LLM設計為獨立的決策模塊,細粒度規劃和控制由傳統模塊負責。通過系統化輸入特征,引導LLM在決策過程中實現規則遵循、環境理解與個性化推理,同時提升決策透明度和靈活性。但僅依賴預訓練大模型,極易出現幻覺現象[35],從而影響推理的可靠性。
針對LLM的幻覺問題,DrivingwithRegulation引人了檢索增強生成(Retrieval-AugmentedGeneration,RAG)機制。在推理階段,系統實時檢索交通法規知識庫中與當前環境及候選動作相關的法規片段,并作為推理上下文輸人至LLM,指導模型進行合規性推理與解釋性判斷。該方法顯著減少了幻覺和推理偏差,提升了動作選擇的可靠性。
基于本體的結構化知識建模通過明確定義、對象屬性、關系與規則邏輯表達,在推理過程中為大模型提供準確、一致的交通環境語義理解,避免因文本歧義導致的推理錯誤或幻覺,促進大模型在復雜交通規則約束下的泛化推理與決策能力提升。
HighwayLLM結合RL與LLM技術,首先由RL模塊輸出高階決策指令,隨后LLM基于動作和環境信息推理生成軌跡點序列,并提供自然語言形式的推理解釋,提升系統可解釋性。但該模型推理過程依賴長提示詞(Prompt)構建與歷史軌跡檢索,導致軌跡規劃推理延遲遠高于自動駕駛系統所需的毫秒級響應要求。由于試驗僅在Highway數據集和仿真環境中驗證,尚未在復雜的交通條件下進行測試。
LimSim ++ 基于HighwayLLM提出決策與規劃解耦的閉環驗證框架,由LLM生成高層決策,使用獨立的規劃器細化執行,并在SUMO和CARLA[38仿真環境中完成完整閉環測試。該模型引入了反思機制與記憶機制,在每段駕駛任務完成后,系統通過評估決策優劣,存儲高質量決策樣本、反思并改進低質量決策,實現決策質量的持續優化,其技術框架如圖3所示[28]。盡管LLM在模擬環境中展現出卓越的性能,但推理延遲問題仍未徹底解決,且該短板在需要高頻連續決策的城市駕駛場景中尤為明顯。
圖3LimSim++技術示意

DriveVLM采用鏈式推理(Chain-of-Thought,CoT)機制39,分階段完成場景描述、場景分析和分層規劃,增強模型對復雜駕駛環境的理解與決策能力的同時,降低了大模型的計算開銷和推理延遲。
為了克服VLM在空間推理和實時性方面的局限,DriveVLM-Dual系統通過慢系統周期性生成高層策略和參考軌跡,快系統高頻自主決策、靈活微調,形成異步協同、自適應采納的慢-快雙軌機制,無需強制切換,兼顧推理深度與實時響應。該系統實現了實際車輛部署,展現出大模型輔助自動駕駛系統在理解復雜場景、處理長尾案例方面的巨大潛力。
針對自動駕駛決策與規劃信息的直接生成任務,大模型研究在環境認知精度、推理邏輯透明度、規則適配性上具有顯著優勢,但仍面臨推理延遲偏高、多模態融合欠佳、真實環境驗證不足等挑戰。
3.2大模型生成輔助特征范式
在生成輔助特征范式中,大模型作為輔助特征生成器,增強端到端方法在復雜環境感知、異常檢測與決策容錯性方面表現,該范式下具有代表性的研究工作,如表2所示。
表2基于大模型生成輔助特征范式的代表性方法

PromptGPT提出了一種融合LLM輔助的端到端框架,旨在提高傳統端到端方法在復雜環境下的推理能力與容錯性。該方法通過構建可學習的多模態聯合Token,將視覺、激光雷達感知數據和自車狀態編碼作為Prompt,引導LLM進行場景理解與動作合理性推理。在此基礎上,PromptGPT引入糾錯和重查詢機制,當端到端方法預測出現偏差或存在潛在安全風險時,大語言模型能夠輔助生成修正建議,建立端到端方法與大模型間的協同推理。
然而,由于長Prompt的構建與大語言模型推理存在天然延遲,PromptGPT仍存在一定局限性,其輔助推理過程難以滿足系統實時毫秒級響應的需求,僅適用于離線訓練或低速仿真測試場景。而且端到端方法自身的黑盒特性限制了外部糾錯機制對內部決策邏輯的直接干預,PromptGPT只能通過訓練階段的偽監督信號間接引導模型優化,仍無法避免推理不可解釋性與安全驗證難題。
VLP提出了一種在訓練階段引人LLM推理特征的方法,結合LLM輸出具有豐富語義的場景描述特征,在訓練階段,將這些特征融人IL的損失函數,通過自然語言描述和推理能力,提升模型復雜環境理解、軌跡預測與規劃能力,增強自動駕駛系統在多變場景下的決策精準度與適應性。相較于PromptGPT,VLP的LLM特征僅作為輔助訓練信號,不會引入推理時延,所以更適合實際部署。
VLP在訓練階段加入有效特征,而AsyncDriver面向實際部署的實時性需求,提出了異步LLM增強的閉環框架,如圖4所示。在推理階段,LLM以低頻率運行,周期性產出場景輔助特征,高頻軌跡規劃器融合場景輔助特征與基礎感知結果共同生成實時軌跡。具體而言,LLM以較低頻率運行,基于感知信息與路由指令,提取場景關聯特征(如當前環境復雜度、障礙物威脅等級、道路優先級等);高頻實時規劃器融合LLM注入的輔助特征,在基礎感知輸入上,生成細粒度、實時更新的軌跡輸出。AsyncDriver的異步特征增強設計在保持推理深度的同時,有效平衡了實時性與推理精度。
圖4AsyncDriver技術示意

3.3大模型生成動作范式
在大模型生成動作范式中,大模型通過微調或結合RL訓練,發展為可感知環境變化、執行動作決策的智能體,如圖5所示。與傳統RL方法從零起步學習動作策略不同,這類方法充分利用了大模型的推理與語義理解能力,通過微調策略、動作輸出機制的優化,進而提高任務適應性與采樣效率。
以預訓練LLM直接作為智能體并微調動作頭的代表性范式為例,TWOSOME4針對動態環境下的動作分布漂移,先進行動作概率歸一化校準,再通過PEFT參數高效微調,最終在多步決策中提升樣本效率與總體性能。Zhai等將LLM的中間思考步驟顯式納入決策過程,經過微調后,大幅提高智能體對視覺語義的理解和任務完成率。基于策略優化 + 動作分解 + 功能對齊的參數化微調框架,使LLM智能體能夠在動態場景中穩定對齊分布、提升推理與語義理解,并在適應性、樣本效率與累計回報等指標上較基線取得顯著提升。
圖5大模型生成動作范式

與前述方法不同,開環范式為LLM僅離線產生專家偏好并用于蒸餾,部署時不會在控制回路內被調用。TeLL-Drive[5提出一種開環的專家引導(Teacher-Student)式訓練框架,將LLM作為專家,基于場景推理產生對候選動作的偏好/評分,通過蒸餾、訓練一個RL學生策略,從而將大模型的推理優勢轉移到一個輕量、可實時部署的策略中。
3.4大模型生成獎勵范式
多輪對話不斷完善生成的結果。
在模型生成獎勵范式中,大模型參與獎勵設計或評價,即幫助RL方法定義或學習獎勵信號,獎勵設計在RL中更具挑戰性。由于手工設計常依賴大量領域知識且易受稀疏反饋的影響,可采用逆強化學習或偏好強化學習,從專家示例或成對的偏好中學習獎勵模型,但在訓練分布之外(Out-Of-Distribution,OOD)的場景中,所學獎勵的外推缺乏可靠性保證。
在該范式中,大模型能夠從高層描述中自動生成獎勵函數(見圖6a),或直接充當獎勵模型,給定狀態-行為軌跡輸出評分(見圖6b)。具體而言,一條路徑是由大模型依據任務與規則生成可執行的獎勵函數代碼,經校驗后直接供RL優化使用;另一條路徑是由大模型對軌跡對或文本進行偏好判別,產生訓練信號,再據此擬合參數化獎勵模型作為未知真實獎勵的代理。兩條路徑均能夠減少大模型對手工獎勵塑形的依賴,為RL智能體提供更豐富、可遷移的反饋。表3系統整理了該范式下具有代表性的研究工作。
3.4.1獎勵函數或信號的生成
利用LLM生成獎勵函數的方法使用大模型對任務目標的語言描述,其產出可執行的獎勵函數代碼,有效緩解了強化學習中“獎勵工程\"難題。傳統的獎勵函數受限于人工設計,耗時費力且無法涵蓋任務的全部需求。通過引入大模型自動生成獎勵計算邏輯,人為試錯過程大幅降低,模型能夠發掘人類未曾意識到的獎勵成分,同時使生成的代碼具備良好的可解釋性。在具體實現中,為了確保大模型生成高質量的獎勵函數,部分研究會在提示中提供編程環境的抽象或示例代碼,并通過在利用LLM生成獎勵函數的范式中,不同方法的主要區別為:獎勵的迭代改進策略與人類偏好反饋的介人形式與強度。例如,Text2Reward51通過大模型反復嘗試采用Python語言編寫獎勵函數,直到代碼能夠成功執行。在初步訓練出RL策略后,允許非專業用戶觀察智能體行為,并用語言描述不滿意之處,大模型據此進一步修改獎勵函數,從而迭代提升策略表現。Zeng等[52提出,先由大模型根據任務要求辨識關鍵行為特征,形成初始參數化獎勵函數,隨后大模型通過反復比較智能體執行軌跡并進行排序,不斷調整獎勵參數,使策略逐步朝向期望的行為收斂。Eureka等采用一種進化搜索策略,每一輪迭代中,大模型會生成多個候選獎勵函數并分別訓練對應的策略,選擇表現最佳的策略所對應的獎勵函數,進入下一輪繼續生成。其中,選擇標準不僅需要考慮策略的累積回報,還應包括獎勵函數組件的多樣性等度量,從而鼓勵生成更豐富的獎勵形態。
(b)大模型輔助獎勵函數范式圖6大模型生成獎勵范式

表3基于大模型生成獎勵范式的代表性方法

除了生成獎勵函數外,一些研究探索通過直接生成獎勵信號來指導強化學習訓練。LGDRL54將LLM作為獎勵生成器與RL結合,在訓練階段根據任務目標與期望行為,動態生成與智能體當前行為一致的獎勵信號,進而引導RL代理學習。但在測試階段則不再調用大模型,由已訓練的RL策略獨立閉環執行,從而保證推理實時性與自主性。
上述方法能夠生成表現優于人工獎勵設計的獎勵函數和獎勵信號,并具備良好的遷移性,少量人為干預即可適配新任務?,F有研究結果表明[65-66],自然語言描述通常包含任務目標、約束與優先級等關鍵信息,LLM可將其解析并轉譯為可執行的獎勵項與權重,從而有效指導復雜任務的獎勵構建。然而,此類方法對提示設計模板與上下文構成較為敏感,不同的語序、解碼設置等可能引入獎勵項集合或相對權重的結構性漂移。同時,LLM也可能產生不符合事實的幻覺或遺漏關鍵的安全約束。此外,生成的獎勵因基于對環境的簡化表征,難以覆蓋傳感器噪聲、開放集目標與長尾交互等真實復雜性,在實際道路環境中的可擴展性和可靠性仍有待檢驗。
3.4.2獎勵模型輔助
獎勵模型輔助不會直接生成獎勵函數或獎勵信號,而是借助大模型定義或訓練獎勵模型,即針對決策或軌跡進行評分的模型。在該范式下,大模型主要發揮2類作用:
a.直接充當代理獎勵模型,將對期望行為的文本描述映射為數值獎勵信號。VLM-RL將VLM作為代理獎勵,通過設定正向和負向語言目標,計算當前駕駛狀態與目標間的特征相似度,直接生成密集、方向明確的獎勵信號,引導端到端的策略學習,顯著提升模型安全性與泛化能力。這種直接利用大模型判斷優劣的簡單方案,其性能更接近使用真實獎勵訓練的策略,同時避免了模型對大規模偏好標簽或專家演示的依賴。
b.輔助訓練獨立獎勵模型,大模型通過解讀人類偏好或結合視覺觀察進行更準確的獎勵評估。PREDILECT在收集偏好對時,標注者不僅需在兩段軌跡中擇優,還需附注1~2句自然語言說明依據。大模型通過讀取此類自然語言釋義,提取出軌跡中“好\"或“壞”的關鍵片段標記,并將此信息以正則項形式融入獎勵模型的訓練目標。對于被標記為好的片段,獎勵模型在擬合偏好時,會給予更高權重,反之則降低。因此,PREDILECT訓練出的獎勵模型更加準確地反映了人類偏好細節。
現有研究表明,大模型能夠將自然語言中的任務目標、約束與優先級解析并轉譯為可用于策略學習的獎勵信號/函數。在若干基準與模擬任務上,其基于LLM的獎勵在成功率、累計回報等指標上可達到或超過人工設計獎勵的水平,表明自然語言可作為復雜任務獎勵規范的可行接口。但此類方法對提示模板、措辭、示例順序與解碼參數比較敏感,容易造成獎勵項或權重的不穩定,從而出現幻覺或遺漏關鍵安全約束。為了提升模型的可實現性與效率,獎勵更局限于環境的簡化表示,而在高保真環境下的穩定性較差。
因此,后續研究應在高保真仿真-封閉場-道路測試的多級評測框架下,系統驗證此類的可擴展性與可靠性。通過結合人類監督與顯式安全約束,糾正并約束大模型可能產生的偏差。
4關鍵挑戰和技術發展趨勢
4.1推理延遲與實時性
由于大模型在推理階段的計算量較大,如在GPT、LLaMa等模型計算階段,每步決策和規劃均存在較高的延遲。而引入糾錯及重查詢(Re-query)機制后,系統響應速度會進一步下降。在現有研究中,大模型生成完整駕駛動作序列所需時間遠超傳統方法,難以滿足實際自動駕駛對毫秒級響應的需求。因此,如何降低推理延遲、提升系統實時性成為大模型賦能自動駕駛應用的關鍵挑戰。同時,圍繞降低推理延遲與提升實時性,可行的路徑包括:通過模型蒸餾或壓縮,將大體量模型裁剪為小型、高效版本,便于車載硬件部署;設計增量式決策輸出機制,使模型能夠持續生成并動態調整決策,無需在各周期進行重新推理。
4.2提示穩定性與輸出可靠性
大模型的決策和規劃輸出對Prompt設計非常敏感,表述方式、上下文順序均會導致結果差異,在實際應用中,極易出現輸出不穩定或不完整等問題。例如,輸入環境描述中,模型可能中途停止,無法生成有效的控制指令。
為了確保自動駕駛系統的安全性,提升大模型進行決策和規劃的確定性和一致性已成為核心任務:可通過約束生成格式(如要求嚴格的JSON結構或固定的詞槽填充)減少歧義;強化學習微調、多樣場景的提示訓練,同樣有助于提高模型在不同提示下輸出決策和規劃的魯棒性。
4.3感知-語言接口設計
將連續的感知數據融入離散的語言模型同樣具有挑戰性。現有方案需要經過復雜的多模態編碼和提示構建,導致系統架構復雜且評估難度較大。尤其在在線閉環狀態下,受時延與非確定性影響,問題定位與復現試驗更困難。
設計高效的感知-語言接口應兼顧傳感器數據的細節保留與大模型的可用性,未來的研究方向可包括:a.借鑒專用多模態大模型,在Transformer架構中直接嵌入視覺模塊,實現多模態特征聯合表示。b.開發可微分的橋接模塊,將大模型的高層指令高效映射為低層可執行控制信號(如轉向角、油門開度),減少當前提示-解析機制的信息損失。
4.4訓練開銷與數據依賴
大模型驅動的端到端方法在訓練上消耗巨大資源,數十億參數的大模型需依賴大規模算力和數據進行微調。為了訓練其糾錯能力,需訓練一個獨立的駕駛模型,離線收集其失敗案例,將其轉化為語言描述后用于訓練語料。這種兩階段訓練流程不僅繁瑣且計算開銷巨大,違背了端到端方法追求簡潔高效的初衷。
為此,未來應致力于降低對訓練數據的依賴與資源消耗,可引入生成對抗、自監督等技術,使大模型在更少的真實駕駛數據上學習更強的泛化能力;或采用參數高效微調方法(如LoRA、Adapter),在保持模型規模不變的前提下,降低參數更新量與樣本需求。此外,還可借助模擬器自動生成多樣化場景及其對應語言指導,通過強化學習與在線數據增強,持續優化大模型的決策與規劃策略,無需依賴大規模人工標注。
4.5傳統范式與大模型協同
盡管在特定場景下,基于規則和基于學習的方法已展現出良好的可靠性與實時性,其設計理念與工程實踐仍具有重要參考價值。大模型驅動的決策與規劃不應簡單替代既有范式,應實現深度融合、互補優勢,可采用以下協同路徑:
a.權重共享與融合機制:引入可學習的融合網絡,根據場景不確定性動態加權,整合規則模塊與大模型的輸出。
b.級聯與混合推理:第一級由輕量級規則(或小模型)快速生成初始的決策或安全邊界;第二級由大模型負責對邊界內的復雜場景做精細化決策或規劃,實現硬實時性與泛化能力的統一。
c.知識互補:在統一網絡結構中,神經網絡與大模型模塊設計共享底層特征提取層,實現跨模塊的知識融合。
4.6安全與可靠性驗證
在大模型介入決策與規劃過程中,由于引入新的不確定性因素,使系統的安全性評估更加復雜。因此,亟需構建完善的驗證框架,涵蓋仿真測試與實際道路測試,系統性評估其在極端情況下的行為表現,并確保輸出具有可解釋性與可控性。具體措施可包括:對潛在錯誤進行分類,制定故障應對機制(如觸發人工接管或安全停車),及引入形式化驗證方法,從概率角度驗證關鍵安全屬性的可保障性。只有充分解決上述挑戰,大模型與端到端自動駕駛的融合才能真正走向實際應用,在提升系統智能水平的同時,確保其安全與高效運行。
5結束語
融合大模型的自動駕駛決策與規劃已成為當的研究熱點之一,本文在統一角色框架下梳理了大模型在決策與規劃輸出、端到端賦能和獎勵構建3類環節的作用:決策與規劃輸出作為高層決策器生成離散策略,或直接產出軌跡(軌跡集),用于下游控制;端到端賦能通過參數高效微調將通用模型適配到駕駛域,或在推理時注入場景先驗(關鍵特征)以增強策略質量;獎勵構建可由大模型合成可執行的獎勵函數代碼,并經校驗后用于策略優化;也可利用大模型解析人類偏好以訓練獎勵模型,部署時由輕量策略閉環執行。
盡管當前方法仍面臨推理延遲、模型穩定性、表示鴻溝以及訓練與驗證體系等核心瓶頸,隨著模型壓縮與蒸餾、確定性輸出與安全約束、多模態接口設計以及分級驗證框架的逐步完善,大模型有望在更復雜、動態的道路環境中展現更強的泛化能力與工程價值。
參考文獻
[1] CHIB PS, SINGHP.Recent Advancements in End-to-End Autonomous Driving Using Deep Learning: A Survey[J]. IEEE Transactions on Intellgent Vehicles,2023,9(1):103- 118.
[2] CHEN L,WU P H,CHITTA K,et al. End-to-End Autonomous Driving:Challenges and Frontiers[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024,46(12):10164-10183.
[3]陳妍妍,田大新,林椿眄,等.端到端自動駕駛系統研究綜 述[J].中國圖象圖形學報,2024,29(11):3216-3237. CHENYY,TIAN DX,LINCM,et al. Survey of End-toEnd Autonomous Driving Systems[J]. Journal of Image and Graphics,29(11),3216-3237.
[4]FOURATI S,JAAFAR W,BACCAR N,et al.XLM for AutonomousDrivingSystems:A Comprehensive Review[EB/OL]. (2024-09-16)[2025-06-10]. https://arxiv. org/abs/2409.10484.
[5] GANL,CHUWB,LIGF,et al.Large Models for Intelligent Transportation Systems and Autonomous Vehicles:A Survey[J].Advanced Engineering Informatics,2024,62.
[6] MAHMUD D, HAJMOHAMED H, ALMENTHERI S, et al. Integrating LLMs with ITS:Recent Advances,Potentials, Challenges,and Future Directions[J]. IEEE Transactions on Intelligent Transportation Systems,2025,26(5): 5674-5709.
[7] LIU S H, YU S, LIN Z Q,et al. Language Models as BlackBoxOptimizersforVision-LanguageModels[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Nashville,TN,USA: IEEE, 2024:12687-12697.
[8] GAO P, GENG SJ, ZHANG RR, et al. Clip-Adapter: Better Vision-LanguageModelswithFeatureAdapters[J]. International Journal of Computer Vision,2024,132(2): 581- 595.
[9]LIU P,LIU HP,LIU HC,et al. VLM-E2E: Enhancing Endto-End Autonomous Driving with Multimodal Driver Attention Fusion[EB/OL]. (2025-02-25) [2025-06-10]. https://arxiv.org/abs/2502.18042.
[10] SANDERSON K.GPT-4 is Here:What Scientists Think[J]. Nature,2023,615(7954).
[11]金彥亮,顧晨杰,高塬.基于多模態大語言模型的低延遲 端到端自動駕駛模型[J].工業控制計算機,2025,38(3): 32-34. JIN YL,GU C J,GAO Y. Low-Latency End-to-End Autonomous Driving Model Based on Multimodal Large Language Model[J].Industrial Control Computer,2025, 38(3): 32-34.
[12]金立生,韓廣德,謝憲毅,等.基于強化學習的自動駕駛 決策研究綜述[J].汽車工程,2023,45(4):527-540. JINL S,HANGD, XIE XY, et al. Review of Autonomous Driving Decision-Making Research Based on Reinforcement Learning[J]. Automotive Engineering,2023, 45(4): 527-540.
[13]鄭川,杜煜,劉子健.基于模糊收斂和模仿強化學習的自 動駕駛橫向控制方法[J].汽車技術,2024(7):29-36. ZHENG C,DUY,LIU ZJ.A Lateral Control Method of Autonomous Driving Based on Fuzzy Convergence and Imitation Reinforcement Learning[J]. Automobile Technology,2024(7): 29-36.
[14] LI JN,LI D X, SAVARESE S,et al. BLIP-2: Bootstrapping Language-ImagePre-TrainingwithFrozenImage Encoders and Large Language Models[C]// Proceedings of the 40th International Conference on Machine Learning. Honolulu, Hawaii USA: ICML,2023: 19730-19742.
[15]LI CY,WONG C, ZHANG S, et al.LLaVA-MED: Training a Large Language-and-Vision Assistant for Biomedicine in One Day[C]// Proceedingsofthe 37th International Conference on Neural Information Processing Systems.New Orleans,LA, USA: PMLR,2023: 28541-28564.
[16] ALAYRAC JB,DONAHUE J,LUC P,et al. Flamingo: A VisualLanguage Model for Few-Shot Learning[C]// Proceedingsof the 36th International Conference on Neural Information Processing Systems.New Orleans,LA,USA: PMLR,2022: 23716-23736.
[17] LI J, YIN HX,PING W,et al. VILA: On Pre-Training for Visual Language Models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville,TN,USA: IEEE,2024:26689-26699.
[18]LINXY,WANGWJ,LIYQ,et al.Data-Efficient FineTuning for LLM-Based Recommendation[C]// Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval. Washington DC, USA, 2024: 365-374.
[19] LIU H K,TAM D,MUQEETH M,et al.Few-Shot Parameter-Eficient Fine-Tuning is Better and Cheaper than In-Context Learning[C]// Proceedings of the 36th International Conference on Neural Information Processing Systems.New Orleans,LA,USA: PMLR,2022: 1950-1965.
[20] JIA M L, TANG L M,CHEN B C,et al. Visual Prompt Tuning[Cl// European Conference on Computer Vision. Tel Aviv,Israel: Springer,2022: 709-727.
[21] LIU HT,LI CY,WUQQ,et al.Visual Instruction Tuning[Cl//Proceedingsofthe37thInternational Conference on Neural Information Processing Systems. New Orleans,LA, USA: PMLR,2023: 34892-34916.
[22] BAI Y T,JONES A, NDOUSSE K,et al. Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback[EB/OL]. (2022-04-12)[2025-06-10].
[23]DWARACHERLA V,ASGHARI S M, HAO B T,et al. Efficient Exploration for LLMs[EB/OL]. (2024-02-01) [2025-06-10]. https://arxiv.org/abs/2402.00396.
[24]HU E,SHENYL,WALLISP,et al.LoRA:Low-Rank Adaptation of Large Language Models[EB/OL]. (2021-10- 16)[2025-06-10]. https://arxiv.org/abs/2106.09685.
[25] CUI C,MAYS,YANG ZC, etal. Large Language Models for Autonomous Driving (LLM4AD): Concept, Benchmark, Simulation,and Real-Vehicle Experiment[EB/OL]. (2024- 10-20)[2025-06-10]. https://arxiv.0rg/abs/2410.15281.
[26] CAI TH,LIU Y F, ZHOU Z W,et al. Driving with Regulation:InterpretableDecision-Making for Autonomous Vehicles with Retrieval-Augmented Reasoning via LLM [EB/OL]. (2024-10-07) [2025-06-10]. htps://arxiv.org/ abs/2410.04759.
[27]YILDIRIM M,DAGDA B,FALLAH S.Highwayllm: Decision-Makingand Navigation in Highway Driving with RL-Informed LanguageModel[EB/OL]. (2024-05-22) [2025-06-10]. https://arxiv.org/abs/2405.13547.
[28]FUDC,LEI W J,WEN L C,et al.LimSim++:A ClosedLoop Platform for Deploying Multimodal LLMsin Autonomous Driving[C]// 2024 IEEE Intelligent Vehicles Symposium (IV). Jeju Island,Korea: IEEE,2024:1084- 1090.
[29] SHAO H,HU Y X,WANGL T, et al. LMDrive: ClosedLoopEnd-to-EndDrivingwithLargeLanguage Models[C]// 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle,WA,USA: IEEE,2024:15120-15130.
[30] PAUL P, GARG A, CHOUDHARY T, et al. LeGo-Drive: Language-Enhanced Goal-Oriented Closed-Loop End-toEnd Autonomous Driving[C]// 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Abu Dhabi,United Arab Emirates:IEEE,2024:10020-10026.
[31] YUANJH,SUN SY,OMEIZA D,et al.RAG-Driver: GeneralisableDrivingExplanationswith RetrievalAugmented In-Context Learning in Multi-Modal Large Language Model[EB/OL]. (2024-02-16) [2025-06-10]. https://arxiv.org/abs/2402.10828.
[32] TIAN X Y,GUJR,LI BL,et al.DriveVLM:The Convergence of Autonomous Driving and Large VisionLanguage Models[EB/OL]. (2024-02-19) [2025-06-10]. https://arxiv.org/abs/2402.12289.
[33]HWANG JJ,XU R S,LINH, et al. EMMA:End-to-End Multimodal Model for Autonomous Driving[EB/OL].(2024- 10-30)[2025-06-10]. https://arxiv.0rg/abs/2410.23262.
[34] XING S, QIAN C Y, WANG Y P, et al. OpenEMMA: OpenSource Multimodal Model for End-to-End Autonomous Driving[U// ZUZ? ILLL/UvrWinterGonerenceon Applications of Computer Vision Workshops (WACVW). Tucson,AZ,USA: IEEE,2025:1001-1009.
[35] HUANG L,YU WJ,MA W T,et al.A Survey on Hallucination in Large Language Models:Principles, Taxonomy,Challenges,and Open Questions[J]. ACM Transactions on Information Systems,2025,43(2): 1-55.
[36] COSTA A A B, IRVINE P, ZHANG X Z, et al. OntologyBased Scenario Generation for Automated Driving Systems Verification and Validation Using Rules of the Road[J]. IEEE Transactions on Intelligent Vehicles,2O24: 1-11.
[37] KRAJZEWICZ D. Fundamentals of Traffic Simulation: Traffic Simulation with SUMO-Simulation of Urban Mobility[M].New York: Springer,2010: 269-293.
[38] DOSOVITSKIY A, ROS G, CODEVILLA F, et al. CARLA: An Open Urban Driving Simulator[C]// Conference on Robot Learning. Mountain View,California:PMLR,2017: 1-16.
[39] ZHANG X,DU C, PANG T Y,et al. Chain of Preference Optimization: Improving Chain-of-Thought Reasoning in LLMs[C]//Proceedingsofthe38thInternational Conference on Neural Information Processing Systems. Vancouver, Canada: PMLR,2024: 333-356.
[40] DUAN YQ, ZHANG Q,XU RJ. Prompting Multi-Modal Tokens to Enhance End-to-End Autonomous Driving Imitation Learning with LLMs[C]//2024 IEEE International ConferenceonRoboticsandAutomation(ICRA). Yokohama,Japan: IEEE,2024: 6798-6805.
[41] PAN CB,YAMAN B,NESTI T,et al.VLP:Vision Language Planning for Autonomous Driving[Cl// 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle,WA,USA:IEEE,2024: 14760-14769.
[42] CHEN Y,DING ZH,WANG Z Q,et al. Asynchronous Large Language Model Enhanced Planner for Autonomous Driving[C]// European Conference on Computer Vision. Milan,Italy: Springer,2024: 22-38.
[43] ZHENG X J, WU L X, YAN Z J,et al. Large Language Models Powered Context-aware Motion Predictionin Autonomous Driving[Cl// 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).Abu Dhabi,United Arab Emirates: IEEE,2024: 980-985.
[44] FAN JQ,WU J H,GAO JC,et al.MLLM-SUL: MultimodalLargeLanguageModelforSemantic SceneUnderstandingand Localization inTraffic Scenarios[EB/OL].(2024-12-27) [2025-06-10].https:// arxiv.org/abs/2412.19406.
[45] HEGDE D, YASARLA R, CAI H, et al. Distilling Multimodal Large Language Models for Autonomous Driving[EB/UL]. (ZUZ5-U1-10)[ZU25-U0-10]. nttps:// arxiv.org/abs/2501.09757.
[46] HOU X M,WANG W Q,YANG L, et al. DriveAgent: Multi-Agent Structured Reasoning with LLMand Multimodal Sensor Fusion for Autonomous Driving[EB/OL]. (2025-05-04) [2025-06-10]. https://arxiv.org/abs/2505. 02123.
[47]LUBBERSTEDT J,RIVERA E,UHLEMANN N,et al. V3LMA: Visual 3D-Enhanced Language Model for Autonomous Driving[EB/OL]. (2025-04-30) [2025-06- 10].https://arxiv.org/abs/2505.00156.
[48] TAN WH, ZHANGW T,LIU SQ, et al. True Knowledge Comes from Practice: Aligning LLMs With Embodied Environments via Reinforcement Learning[EB/OL]. (2024- 03-11)[2025-06-10]. https://arxiv.org/abs/2401.14151.
[49] ZHAI Y X,BAI H,LIN Z P,et al. Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning[C// Proceedings of the 38th International Conference on Neural Information Processing Systems. Vancouver,Canada:PMLR,2024:110935- 110971.
[50] XU CK,LIU JQ,FANG SY,et al.TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided DeepReinforcement Learning[EB/OL]. (2024-02-20) [2025-06-10]. https://arxiv.org/abs/2502.01387.
[51] XIE TB,ZHAO S H,WU C H,et al. Text2Reward: Automated Dense Reward Function Generationfor Reinforcement Learning[EB/OL]. (2024-05-16)[2025-06- 10]. https://arxiv.org/abs/2309.11489.
[52] ZENG Y W,MU Y,SHAO L. Learning Reward for Robot SkillsUsingLargeLanguageModelsviaSelfAlignment[EB/OL]. (2024-05-16) [2025-06-10]. https:/ arxiv.org/abs/2405.07162.
[53] MA YJ,LIANG W,WANG G Z, et al. Eureka: HumanLevel Reward Design via Coding Large Language Models[EB/OL]. (2024-04-30)[2025-06-10]. https://arxiv. org/abs/2310.12931.
[54] PANG H,WANG Z P, LI G Q. Large Language Model guided Deep Reinforcement Learning for Decision Making in Autonomous Driving[EB/OL]. (2024-12-24)[2025-06- 10]. https://arxiv.org/abs/2412.18511.
[55]HUANG ZL, SHEGN ZH,QU Y S,et al.VLM-RL: A Unified Vision Language Models and Reinforcement Learning Framework for Safe Autonomous Driving[EB/OL]. (2024-12-20)[2025-06-10]. https://arxiv.org/abs/2412. 15544.
[56]HOLK S,MARTA D,LEITEI.Predilect:Preferences Delineated With Zero-Shot Language-Based Reasoning in ReinforcementLearning[C]// 202419thACM/IEEE International Conference on Human-Robot Interaction (HRI). Boulder, CO,USA: IEEE,2024: 259-268.
[57]KWON M, XIE S M, BULLARD K,et al. Reward Design with Language Models[EB/OL]. (2023-02-27) [2025-06- 10]. https://arxiv.org/abs/2303.00001.
[58] SONG J Y,ZHOU Z H,LIU JW,et al.SelfRefined Large Language Model as Automated Reward Function Designer for Deep Reinforcement Learning in Robotics[EB/0L]. (2023-10-02) [2025-06-10].https:// arxiv.org/abs/2309.06687.
[59] WU Y,FAN Y W,LIANG P P,et al. Read and Reap the Rewards:Learning to Play Atari with the Help of InstructionManuals[C]//Proceedingsofthe37th International Conference on Neural Information Processing Systems.New Orleans,LA, USA: PMLR,2023:1009-1023.
[60] CARTA T, ROMAC C, WOLF T, et al. Grounding Large Language Modelsin Interactive Environments with Online Reinforcement Learning[C]// Proceedings of the 40th International Conference on Machine Learning.Honolulu, Hawaii USA:ICML,2023:3676-3713.
[61] CHU K, ZHAO X F, WEBER C, et al. Accelerating Reinforcement Learning of Robotic Manipulationsvia Feedback from Large Language Models[EB/OL]. (2023-11- 04)[2025-06-10]. https://arxiv.org/abs/2311.02379.
[62] KIMCY,SEO Y,LIUH,et al. Guide Your Agent with Adaptive Multimodal Rewards[C]//Proceedings of the 38th International Conference on Neural Information Processing Systems.Vancouver,Canada: PMLR,2024: 54472-54495.
[63] YU W H, GILEADI N,FU C Y, et al. Language to Rewards forRobotic Skill Synthesis[EB/OL]. (2023-06-16) [2025- 06-10]. https://arxiv.org/abs/2306.08647.
[64] ADENIJI A, XIE A, SFERRAZZA C, et al. Language RewardModulationforPretrainingReinforcement Learning[EB/OL]. (2023-08-23) [2025-06-10]. https:/ arxiv.org/abs/2308.12270.
[65]LILIN,TAN RJ,FANGJW,etal.LLM-Augmented Hierarchical Reinforcement Learning for Human-Like Decision-MakingofAutonomousDriving[J].Expert Systems with Applications,2025,294.
[66] SUN S J, LIU R Z,LV JF,et al. A Large Language ModelDriven Reward Design Framework via Dynamic Feedback for Reinforcement Learning[J]. Knowledge-Based Systems, 2025,326.
(責任編輯 瑞秋)