
主題詞:自動駕駛車輛強化學習車輛行為決策隱式時間信息
中圖分類號:U46 文獻標志碼:A DOI:10.19620/j.cnki.1000-3703.20250168
HighwayDecision Making for Autonomous Vehicles Based on Implicit TimeInformation
Guo Cangyan,Wang Shu, ZhangHaichuan,Zhao Xuan (School of Automobile,Chang'an University,Xi'an 710000)
【Abstract】In order to improve the continuityof vehicle decision making on highway,a behaviordecision model of autonomousvehicle basedonimplicit timeinformationis proposed.Firstly,thediscrete dynamicdecisionsolvingenvironment isconstructedtocalculatethestatevaluematrixbasedonimplicittimeinformation,forsolvingcontinuous-timebehavioral decisions,andthesolvabilityofthestatevalue matrix basedonimplicittimeinformationisanalyzed.Then,adualLSTM networkstructurebasedonresidualfiting isproposed torecognizevehiclelanechanging intention,whichmakes thebehavior decisionwithimplicittimeinformationbeteradapttothedyamicenvironment.Inaddition,inordertoimprovetheral-time performanceofdecision-making methods,rule-basedandlearning-basedupdatingmethodsareintegrated,andastatevalue updating method basedon backpropagation isproposed to improve thestate valueupdating eficiencyofdecision-making models intheexplorationand movement stage.Finally,arule-based intellgent environmentvehicle model isconstructedto simulate therealtraficenvironment,andthebehavioraldecisionmodelisvalidatedintheconstructedenvironment.The verification results show that the proposed method increases the success rate of decision-making by 26% and reduces the assistance rate of trigger rules in the dynamic decision-making environment by 19% .Thismethod has higher decision continuity.
Key words:Autonomous vehicle,Reinforcement learning,Vehicle behavior decision-making, mplicit time information
【引用格式】虢滄巖,王妹,張海川,等.基于隱式時間信息的自動駕駛車輛高速公路決策[J].汽車技術,2025(10):41-51.GUOCY,WANGS,ZHANGHC,etal.Highway Decision Making forAutonomousVehiclesBasedon Implicit TimeInformation[J]. Automobile Technology,2025(1O): 41-51.
1前言
盡管自動駕駛技術進展顯著,其安全性與運行效能仍受現(xiàn)有技術瓶頸制約。車輛決策模塊承接感知模塊信息,為軌跡規(guī)劃及控制模塊提供決策指導,是提升駕駛安全性和效率的關鍵環(huán)節(jié)[2]。
自動駕駛決策主要分為基于規(guī)則的決策方法、基于學習的決策方法、基于規(guī)則與學習融合的決策方法。基于規(guī)則的決策方法中,瞿麗等3將車輛行為決策與局部路徑規(guī)劃結合,利用改進勢場動態(tài)規(guī)劃無人車局部路徑;王明強等4基于碰撞風險評估智能汽車局部路徑規(guī)劃; Ma 等5融合基于規(guī)則的方法與快速探索隨機樹,提升車輛運動規(guī)劃,但該方法的決策效果局限于規(guī)則,且通用性較差。基于學習的決策方法無需制定復雜的規(guī)則,對不同場景的適應性較強。Lee等基于多狀態(tài)擴展偏差校正的Q-Learning算法,通過控制最大算子偏差提升算法性能;Cao等利用蒙特卡洛樹搜索優(yōu)化狀態(tài)價值矩陣更新方法,提高了自動駕駛車輛在高速公路駛離場景的決策效率。由于神經網絡的黑盒特性無法完全保障決策的安全性,Lin等融合基于規(guī)則與學習的方法,對深度強化學習的動作空間進行約束,但深度強化學習的響應性較弱。
環(huán)境的感知作為交互過程的上層階段,Liao等[10]使用基于極致梯度提升樹的駕駛評估和風險預測特征學習方法,根據選擇的關鍵特征預測車輛駕駛的風險水平;Shangguan等[發(fā)現(xiàn)車輛在左、右換道中存在影響差異,經過長短期記憶(Long Short TermMemory,LSTM)網絡識別換道意圖,并利用光梯度提升機預測換道風險;Liu等[2]基于非線性多項式回歸和循環(huán)隱半馬爾可夫模型的識別方法,實現(xiàn)駕駛員的換道意圖快速捕捉; Zan 等[13]在高速公路移動瓶頸條件下,基于LSTM建立換道意圖識別模型,將行駛工況作為先驗信息,提升了在特定工況下的換道意圖識別準確率,但基于深度學習或馬爾可夫模型的方法仍存在錯誤率困擾。
針對車輛行為決策存在決策延續(xù)性不足、與規(guī)則融合深度不足等問題,本文提出基于隱式時間信息學習(ImplicitTimeInformationLearning,ITIL)的車輛行為決策方法,將決策環(huán)境動態(tài)化,提升求解決策的延續(xù)性,基于殘差擬合的雙LSTM網絡結構,強化換道意圖的檢測能力,并將其融入決策環(huán)境的建模與更新過程。同時,結合基于規(guī)則與基于學習的方法,設計基于反向傳播的狀態(tài)價值更新方法,建立基于意圖累加的環(huán)境車輛模型,通過仿真試驗驗證本文方法的有效性。
2基于隱式時間信息的車輛行為決策模型
求解長期決策問題時,決策范式需具備對環(huán)境長期演化規(guī)律的動態(tài)認知與表征能力。基于隱式時間信息的車輛行為決策的總體流程如圖1所示,通過構建動態(tài)的決策環(huán)境賦予離散狀態(tài)時變獎勵值,經貝爾曼最優(yōu)方程傳遞至狀態(tài)價值矩陣,形成帶有隱式時間信息的狀態(tài)價值矩陣。同時,根據該矩陣建立基于隱式時間信息的車輛行為決策模型。
2.1基于隱式時間信息的車輛行為決策方法
2.1.1 動態(tài)決策環(huán)境
考慮到高速公路中車輛的密集程度相對較低,將高速公路連續(xù)的場景離散化,構建離散動態(tài)決策環(huán)境。以車輛的長、寬定義離散單元信息,即單元寬度與車道寬度相等,單元長度為 5m ,離散單元對應狀態(tài) S(i,j) 如圖2所示。
車輛在高速公路行駛時,任意時刻存在約束條件Vxgt;0 ,因此動作空間可表示為:

式中: ai 為動作選擇,其中,
為縱向移動, a3,a4 為側向移動; S(i,j)-a 為車輛在狀態(tài) S(i,j) 執(zhí)行動作 a 后的狀態(tài), i,j 分別為狀態(tài)所在車道和縱向位置。
在靜態(tài)環(huán)境中進行強化學習決策,由于當前時刻的安全決策在下一時刻可能成為危險決策,可根據動態(tài)的決策環(huán)境進行決策求解。通過對環(huán)境車輛的行為預測,建立移動規(guī)則函數(shù)f,環(huán)境車輛按照設定的規(guī)則動態(tài)變化,基于時間信息的狀態(tài)獎勵值取決于采樣時刻的位置信息:

式中: r(i,j)n 為探索階段第 n 時刻的狀態(tài)獎勵值,
為靜態(tài)環(huán)境內所有車輛的位置集合 ,fn 為移動規(guī)則函數(shù) n 次累加。
由于規(guī)則函數(shù)的擬真程度影響決策效果,本文基于殘差擬合的雙LSTM車輛換道意圖識別模塊優(yōu)化規(guī)則函數(shù),通過對周圍車輛的行為預測,構建動態(tài)決策求解環(huán)境。在規(guī)則函數(shù)中,周圍車輛將根據換道意圖識別結果及縱向跟車習慣進行假設性移動,此時動態(tài)的獎勵值為:
圖1基于隱式時間信息的車輛行為決策流程


式中 ?A(i,j) 為各時刻的自車位置。
圖2離散決策環(huán)境

動態(tài)的獎勵值表征環(huán)境在時間線上的變化,但該變化是對周圍車輛行駛情況的部分推測,與實際環(huán)境存在誤差。環(huán)境車輛的位置為:

式中: Cchange 為LSTM換道意圖辨識結果。
2.1.2帶有隱式時間信息的狀態(tài)價值矩陣
面對動態(tài)環(huán)境的決策求解,常規(guī)強化學習或深度強化學習方法依賴于采樣時刻,可將動態(tài)環(huán)境拆解為多個靜態(tài)環(huán)境,設計對應數(shù)目的靜態(tài)狀態(tài)價值矩陣或神經網絡,得到各時刻的瞬時決策。所以在 (n,n+t) 時段內的動態(tài)環(huán)境,需同時更新連續(xù)顯式時間的狀態(tài)價值矩陣 (Qn,Qn+1,…,Qn+t) ,其中, Q 為隱式時間刻度狀態(tài)價值矩陣。狀態(tài)價值矩陣更新難度隨著時域 χt 增加而增大,且不同時刻的瞬時決策沖突可能引發(fā)車輛非必要換道、反復換道等問題,即決策延續(xù)性不足問題。為此,本文建立帶有隱式時間的狀態(tài)價值矩陣,替代多個顯式時間矩陣,并通過求解該矩陣獲得一段時間內有效延續(xù)的長期決策。
帶有隱式時間的狀態(tài)價值矩陣中,每個矩陣單元對應1個狀態(tài),包含4個動作選擇對應價值:
Q=

式中: V(i,j,ai) 為狀態(tài) S(i,j) 執(zhí)行動作 ai 的價值。
基于貝爾曼最優(yōu)方程進行動態(tài)環(huán)境更新:
式中: V(i,j,ai)k 為第 k 次更新時狀態(tài) S(i,j) 下動作 ai 的價值, α 為學習率, γ 為衰減率, max(Q(S(i,j)-a)) 為對應狀態(tài)的動作空間內的最大動作價值, r(i,j)-ain 為對應狀態(tài)在第 n 時刻的獎勵值。
如圖3所示,從起點出發(fā)的自車代理,在式(1)的動作空間下抵達狀態(tài) S(2,3) 的路徑,選擇路徑集合
,獲得不同抵達狀態(tài)的時刻的 r(i,j)n( 當
確定時,對應狀態(tài)的獎勵為固定值。因此,整個更新過程是一個前向傳播的過程,當?shù)诌_ S(i,j) 的時刻與該狀態(tài)前一時刻的動作選擇確定,下一時刻的動作信息才會得到有效更新。因此,狀態(tài)價值矩陣中狀態(tài) S(i,j) 的動作價值可定義為車輛經過動作
后抵達該狀態(tài)時的動作價值,但狀態(tài)價值矩陣沒有顯式的時刻信息,稱為隱式時間信息的車輛決策方法。隱式狀態(tài)動作價值矩陣可表示為:

圖3隱式時間狀態(tài)抵達時刻示例

2.2隱式狀態(tài)價值矩陣可求解性分析
帶有隱式時間信息的狀態(tài)距離起始點越遠,車輛駛入該狀態(tài)的時刻的可能性越多,獲得不同的動態(tài)環(huán)境獎勵易與更新結果沖突,從而無法求解路徑。在強化學習理論中,求解 Q 可得到可行路徑
L=[(S(i,j)1,a1);(S(i,j)-a12,a2);…;(S(i,j)-a1…an-1n-1);(S(i,j)n)]
式中: S(i,j)1 為路徑的第1個狀態(tài),即自動駕駛車輛起點;
a1 為第1個狀態(tài)所選動作; VL 為 K 時刻路徑的總價值; V?為同起、止點任意路徑的總價值。
當Q充分更新且過程獎勵為負值時,該路徑是確定的,其價值總和為同起、止點任意路徑的最大值。將離散距離以單元格表示,假設起始點與目標點的側向離散距離為 c 縱向離散距離為 Z ,本文動作空間下,可行路徑 L 可由 c 個側向移動動作 ?Z1 個縱向動作 a1 和 Z2 個縱向動作 a2 組成,其中, Z=Z1+2Z2° 因此,可行路徑的組成長度 m 是有界的。有界路徑內的縱向選擇排布為斐波那契數(shù)列,遞推公式為:
m?[C+Z2,C+Z1]
f(m)=f(m-1)+f(m-2)
對于可行路徑,其縱向組合的上限為 f(Z) ,總組合的上限為 f(Z)×AZ1+Z2°c 。本文動作空間下,可行路徑的長度的上限確定了組合的上限,因此,該路徑是可被求解的。
2.3基于殘差擬合的雙LSTM網絡結構的車輛換道意圖識別
2.3.1 特征選擇與提取
本文的車輛行為特征數(shù)據源于NGSIM(NextGenerationSimulation)數(shù)據集,該數(shù)據集的高速路段場景歷時 45min ,采集連續(xù)3個時段的通行數(shù)據,涵蓋通暢時間段、半通暢時間段和擁堵時間段,分別對應US-101道路中3個時段 (4:00~4:15pm.5:00~5:15pm.5:15~ 5:30pm 和I-80道路中3個時段 (7:50~8:05am.8:05 8:20am.8:20~8:35am) ,數(shù)據集的采樣頻率為 10Hz 。
數(shù)據集中交通參與者由轎車、卡車和摩托車組成,其中,轎車占比約為 92% 。考慮到數(shù)據集中車輛換道數(shù)據占比遠低于車輛直行數(shù)據,所以刪除部分直行數(shù)據,最終使車輛直行數(shù)據與換道數(shù)據占比分別達到 75.82% 與 24.18% 。將跟車距離、縱向車速與側向車速進行最小-最大歸一化,降低因不同行為特征單元所致數(shù)據數(shù)值差異對網絡擬合效果的影響,并將所有車輛行駛數(shù)據以車輛為單位隨機劃分為訓練集與驗證集。
車輛在行駛過程中,不同類型車輛的行為特征對車輛換道意圖識別存在差異,一定范圍內的有效關鍵特征能夠提升識別效果[14],本文選擇8個直接特征,分別為:車輛型號、縱向車速、縱向加速度、側向車速、側向加速度、橫擺角速度、車道位置和跟車距離。由于各特征對于換道意圖識別的貢獻程度不同,考慮到神經網絡的黑盒特性,特征間高度耦合的擬合關系無法使用顯式表達。為了探究不同特征的重要程度,從8個特征中提取重要特征建立殘差擬合節(jié)點,以減少某一特征的方式,逐個分析特征對換道意圖的識別效果。基于LSTM網絡對不同輸入特征組合進行訓練,結果如表1所示。
以8個特征輸人為基線,缺失側向車速特征的召回率下降幅度最大,均方根誤差(Root Mean Square Error,RMSE)上升程度最大;單一側向車速作為輸入的驗證結果也擁有較高的召回率,但略低于其他7個特征輸入網絡。因此,可判斷側向車速為8個特征中最重要的特征,其余特征在其他行駛工況下的換道意圖識別仍有正向貢獻。
表1不同網絡驗證結果

2.3.2 基于殘差擬合的雙LSTM網絡
換道意圖的識別偏差會直接引發(fā)駕駛決策行為的偏離,進而破壞決策的合理性與安全性。本文基于殘差擬合的雙LSTM網絡,提升換道意圖辨識的準確率,其網絡結構如圖4所示。殘差擬合方法通過對重要的特征構建關鍵節(jié)點并利用關鍵節(jié)點進行分類,可將車輛換道意圖識別視為分類過程。由于神經網絡擬合過程中節(jié)點隨機更新,關鍵節(jié)點的構建設在網絡外,如圖4所示。其中
分別為雙LSTM網絡的8特征和單特征輸入。
圖4基于殘差擬合的雙LSTM網絡

(b)關鍵節(jié)點殘差擬合流程

當8個特征的輸人網絡的輸出結果擁有較高置信度時,關鍵節(jié)點不生效,能夠防止側向車速特征的錯誤影響原網絡效果;當結果置信度位于中段時,根據 f1(8) 與 f2(1) 的結果設置殘差擬合公式,用以判斷當前結果的可信度:

式中: Tn 為擬合后置信度, T1,T2 分別為網絡 f1(8) 和 f2(1) 經分類器后產生的置信度。
結合表1發(fā)現(xiàn),相較于8特征輸人的LSTM網絡,殘差擬合網絡結構將成功檢測、但誤識別的數(shù)目減至最低,即不會輸出置信度較低的正確結果。在車輛行為決策過程中更注重換道意圖識別的準確性,因此,本文的車輛行為決策方法,基于殘差擬合的雙LSTM網絡在提升換道意圖識別準確性的同時,更加適配決策階段。
2.4強化學習更新方法與移動方法改進
可行路徑的組合上限確定了隱式時間信息的狀態(tài)價值矩陣的可求解性,但其求解的實時性受決策求解效率的影響,即強化學習狀態(tài)價值更新效率。隱式時間信息的狀態(tài)價值矩陣僅使用式(7)的更新方法效率較低,為了提升ITIL方法的實時性,融合預設策略、基于反向傳播和基于規(guī)則的方法優(yōu)化狀態(tài)價值更新,采用基于規(guī)則與基于動量法的局部最優(yōu)突破方法改進移動方法。
2.4.1基于預設探索概率的探索方法
動作選擇策略分為隨機探索策略與貪心探索策略[15],其中,隨機探索策略可實現(xiàn)局部狀態(tài)間價值平衡,貪心策略可實現(xiàn)可行路徑中狀態(tài)價值平衡,相關表達式為:

式中:rand為隨機選擇函數(shù)。
將探索次數(shù) iv 作為探索循環(huán)階段的前、后期邊界,其取值取決于環(huán)境大小與離散化程度。在探索循環(huán)階段前期,使用隨機探索策略建立局部區(qū)域動作關聯(lián);在探索循環(huán)階段后期,使用貪心探索策略進行全局動作關聯(lián)。由于車輛主要為空間內縱向移動,在隨機探索策略中,使用預設概率探索策略,調整動作間的選擇概率進行偽隨機探索,從而增加地圖遠端探索次數(shù)。路徑中第 K 個狀態(tài)下的最大價值動作選擇概率為:

2.4.2基于動量法的局部最優(yōu)突破
在密集交通場景中,環(huán)境車輛的負值獎勵易使車輛路徑陷入局部最優(yōu),反復探索的方式耗時較長,可使用基于動量法的局部最優(yōu)突破提高路徑探索效率。基于車輛行駛路徑狀態(tài)點判斷車輛是否陷入局部最優(yōu):
SK=SK-2
當車輛陷入局部最優(yōu)時,沿車輛動量方向進行局部最優(yōu)突破并更改動作選擇,該方法在周圍車輛密度較大時能有效提升求解效率:
a(sK)=a(sK-2)
a(sK-1)=a(sK-2)
式中: a(SK) 為路徑中第 K 個狀態(tài)下的最大價值動作選擇。
2.4.3基于反向傳播的狀態(tài)價值更新方法
基于貝爾曼最優(yōu)方程的狀態(tài)價值更新,其目標點的獎勵值難以形成有效的價值傳播,導致車輛動作狀態(tài)價值差異小,易受隨機過程影響。因此,本文提出基于反向傳播的狀態(tài)價值更新方法,對探索移動階段成功抵達目標點的路徑中的動作價值,進行帶有衰減的價值增強,衰減的價值增強可維持狀態(tài)價值間的應有數(shù)值差異:

式中: V(L(n-t,1),L(n-t,2)) 為抵達目標點前 Φt 時刻的路徑中的狀態(tài)與對應動作選擇, (im,jm) 為目標點坐標。
2.4.4基于規(guī)則的探索方法
基于反向傳播法的價值更新在提升更新效率的同時,在動態(tài)環(huán)境下易形成局部路徑錯誤。利用基于規(guī)則的探索方法,對發(fā)生碰撞的動作進行禁用并執(zhí)行動作重選,可輔助反向傳播法快速形成可行路徑主體:

式中: S(i,j)-ain-1 為上一時刻狀態(tài) S(i,j)n-1 下,經過動作 ai 移動后的狀態(tài)。
2.4.5 基于規(guī)則的移動方法
探索式強化學習在提升重要狀態(tài)更新次數(shù)的同時,可能存在部分狀態(tài)更新不充分。在隱式時間信息的方法中,部分時間維度下的狀態(tài)更新不充分,會導致移動階段可行路徑檢驗失敗,且重復探索階段無法解決該問題。本文利用規(guī)則約束改進局部路徑組成,通過調整宏觀路徑組成解決上述問題:


Sn=S(i,j)n-1
當式(20)的規(guī)則移動失敗,車輛決策存在過程性錯誤,會觸發(fā)自動緊急制動(AutonomousEmergencyBraking,AEB)機制,則移動階段失敗。
3智能環(huán)境車輛模型
使用模擬真實交通環(huán)境的仿真模型驗證自動駕駛車輛決策方法的有效性。目前,環(huán)境車輛模型多為基于規(guī)則的縱向跟車的智能駕駛員模型[18](IntelligentDriverModel,IDM)和換道行為模型最小化總體制動力的車道改變(MinimizingOverall BrakingInducedbyLane-changes,MOBIL)模型[19],但這些模型的規(guī)則參數(shù)固定且無法表征因駕駛風格與駕駛目標導致的行為差異[2]。為此,本文構建考慮駕駛風格與駕駛目標的基于規(guī)則由意圖累加的環(huán)境車輛模型(IntensionAccumulationModel,IAM)。
在IAM中,車輛行為包括跟車行為和換道行為,其中,跟車行為受駕駛風格影響,換道行為受駕駛風格和駕駛目標共同影響。使用概率 P∈[0,1] 表示不同駕駛風格, m(i,j) 表示環(huán)境車輛駕駛目標。 P 越小,駕駛風格越保守、跟車距離越長、執(zhí)行換道行為的閾值越高。
3.1跟車行為
在離散化環(huán)境中,不同駕駛風格的IAM跟車距離區(qū)間為:

式中:round為取整函數(shù), kc1AA,kc2 為不同場景平均跟車距離的可變參數(shù)。
IAM根據跟車距離區(qū)間進行制動或加速,以滿足環(huán)境車輛的安全性與通行高效性的需要:

式中: dr?dm 分別為實際跟車距離和移動距離。
3.2換道行為
IAM的換道行為由換道意圖產生,在滿足換道條件時執(zhí)行。車輛總換道意圖可視為基于通行效率的超車換道意圖和駕駛目標指引的目標換道意圖的和,換道條件由環(huán)境車輛與其周圍車輛相對位置組成。智能環(huán)境車輛參數(shù)如圖5所示。
圖5智能環(huán)境車輛參數(shù)示例

3.2.1 超車換道意圖
跟車距離與相鄰車道跟車距離是換道意圖識別的重要參數(shù),當前車道跟車距離越短、相鄰車道跟車距離越長,車輛換道意圖越強烈,但跟車距離對換道意圖的影響存在一定限制[13]。因此,本文根據當前車道與換道后跟車距離的差值構建非線性函數(shù):
xd=(drf/dlf-dr)gt;0

式中: xd 為車況差異變量, drf?drl 分別為換道至左、右 車道的跟車距離, Iinten,c 為超車換道意圖, kh1 為可變參 數(shù)。
不同可變參數(shù)下超車換道意圖曲線如圖6所示,曲線的斜率表征 xd 對超車換道意圖的影響程度。隨著 xd 增加,換道意圖逐漸增加;但增至一定程度時,換道意圖收斂至上限。基于數(shù)據分析并調整可變參數(shù),可模擬不同場景下的超車換道行為。
3.2.2駕駛目標指引的換道意圖
當車輛不在目標車道并逐漸靠近目標點,駕駛目標指引的換道意圖逐漸上升。以目標點的縱向距離為自變量,構建非線性函數(shù):
xm=jm-jr

式中: jm 為目標點縱向位置 ,jr 為環(huán)境車輛當前位置,Iinten,m 為駕駛目標意圖, kh2?kb1 為可變參數(shù)。
圖6不同可變參數(shù)超車換道意圖曲線

隨著 xm 減小,駕駛目標換道意圖逐漸上升,但接近目標點時,換道行為、換道意圖逐漸下降。可變參數(shù) kh2 表征不同場景下的駕駛目標指引的換道意圖與 xm 的非線性關系,可變參數(shù) kbl 表征不同場景下的駕駛目標指引的換道意圖轉折點。當 kbl=3 時,不同 kh2 的駕駛目標換道意圖曲線如圖7所示,曲線斜率表征 xm 對駕駛目標換道意圖的影響程度。
圖7不同可變參數(shù)駕駛目標換道意圖曲線

3.2.3 換道條件
換道條件由基于駕駛風格的換道意圖閾值和基于周圍車輛參數(shù)信息的可換道范圍構成。相關公式為:

Iinten=Iinten,c+Iinten,m

式中: Tc 為觸發(fā)變量, Iinten 為總換道意圖, Yinten 為駕駛風格決定的換道意圖閾值, drfΩr 分別為換道后自車與前車、后車的距離 ,ky11,ky2,kt11kt2 為可變參數(shù)。
在相同換道意圖下,將駕駛風格作為閾值組成部分,可細化并差異化不同駕駛風格的行為。換道條件中的可變參數(shù) ky1 能夠表征當前場景下?lián)Q道所需的安全距離,通過調節(jié)該參數(shù)可模擬不同交通場景。
3.3對比試驗
將IDM與MOBIL共同控制的車輛模型(IDM-MOBIL)與IAM控制的車輛模型進行對比,驗證IAM的先進性。仿真試驗環(huán)境設置為:從五車道、長 200m 的高速公路環(huán)境中隨機生成初始車輛的數(shù)目、位置、駕駛風格和目標,分別使用IAM控制、IDM與MOBIL聯(lián)合控制,在仿真時間內駛出的仿真環(huán)境的車輛數(shù)目 Nr 表征車輛模型的整體通行效率,駛出仿真環(huán)境時成功行駛至目標車道的車輛數(shù)目為 N2 ,使用二者比值 R=N1/N2 評價車輛的換道決策效率。
IDM與MOBIL模型的控制參數(shù)中,IDM期望通行速度為 72km/h (4個離散單元/s),MOBIL安全閥值為4個離散單元,換道增益閾值為4個離散單元。MOBIL模型的禮貌因子 PM 越小,駕駛風格越激進。在仿真過程中,相同初始車輛的隨機駕駛風格 P ,禮貌因子對應為 PM=1-P IAM車輛模型控制參數(shù)如表2所示。
表2可變參數(shù)數(shù)值

交通密度分為低交通密度、中交通密度和高交通密度,分別使用1、2、3表示。3種交通密度下,每 100m 車道的初始車輛數(shù)目分別在[1,7]輛、[3,10]輛、[5,12]輛范圍內隨機生成,每種交通密度下各進行100次仿真試驗,初始狀態(tài)均隨機產生,仿真結果如表3所示。
表3不同環(huán)境車輛模型仿真結果

由表3可知,低交通密度下,IDM與MOBIL聯(lián)合控制車輛的換道規(guī)則有效性高于IAM,這是由于IAM在距離目標點較遠時,目標換道意圖較低,不會產生換道行為。通過降低可變參數(shù) kh1 ,可提高IAM在低密度下的換道規(guī)則有效性。中交通密度下,相較于IDM與MOBIL聯(lián)合控制,IAM的駛過終點車輛數(shù)目為3845輛,通行效率與換道決策效率分別提高 2.6% 和 2.05%?↑ 。由于換道安全閾值和增益閾值固定,IAM在該密集交通場景下的應用性能有所下降。高交通密度下,相較于IDM與MOBIL聯(lián)合控制,IAM的駛過終點車輛數(shù)目為4650輛,通行效率與換道決策效率分別提高 3.9% 和 1.45% 。
中、高交通密度下,IAM的通行效率提升主要源于以下2個因素:式(23)中,相較于IDM中固定的期望跟車速度,IAM期望行駛車速更高;式(25)中,超車換道意圖的設置使IAM模型在距離駛出點較遠時可執(zhí)行基于通行效率的非目標指向換道。仿真結果表明:IAM和IDM-MOBIL的換道決策效率隨交通密度的增加而逐漸減低,但IAM控制車輛在中、高交通密度下?lián)Q道決策效率與通行效率均高于IDM-MOBIL。因此,中、高交通密度下,IAM更適用于模擬交通環(huán)境。
4仿真試驗與結果分析
仿真驗證與分析分為2個階段,即探索移動階段與行駛階段。探索移動階段可以檢驗預設策略的探索方法、基于動量法的局部最優(yōu)突破方法和基于反向傳播等更新方法的有效性;行駛階段檢驗ITIL方法在模擬交通環(huán)境中的有效性。行駛階段中將IAM模型作為境車輛模型,提高環(huán)境車輛模型的換道謹慎程度。模型控制參數(shù)見表2,可變參數(shù)設置為 kt2=2 。
4.1 探索移動階段
探索移動階段的仿真環(huán)境中,自動駕駛車輛的起點、目標點分別位于 S(1,7)?S(5,40) ,環(huán)境車輛初始位置隨機生成。探索移動階段環(huán)境車輛不進行實際移動,僅驗證改進狀態(tài)價值更新方法的有效性。
將平均探索次數(shù)作為更新方法的效率評價指標。在規(guī)定探索次數(shù)內找到可行路徑視為成功,該路徑需滿足路徑終點為目標點,且行駛過程不會過度繞行:
S(i,j)n=S(5,40)
n?Z+C+2
不同探索效率改進方法間相互影響,可通過逐個疊加的方式驗證改進方法的效果。非動態(tài)環(huán)境探索和動態(tài)環(huán)境探索存在本質區(qū)別,因此探索效率驗證均在動態(tài)環(huán)境中進行。不同探索移動階段的仿真結果如表4所示,在100次探索仿真中,以Q-learning算法為基礎,其僅 70% 成功得到可行路徑,在地圖遠端更新過度依賴策略設置,大決策環(huán)境下更新效率較低;基于預設策略的Q-learning算法的平均探索次數(shù)降低 93% ,但成功率仍有提升空間;增加基于規(guī)則的探索方法,會禁用探索過程中危險的探索動作,其成功率相較于Q-learning算法提升 10% 。由于失敗仿真的探索次數(shù)不計入平均探索次數(shù),探索效率相較于基于預設策略的方法下降19.4% ;基于規(guī)則方法與反向傳播方法的相互作用下,成功率提升 3% 的同時,探索效率提升 18.7% 。因此,本文提出的狀態(tài)價值更新改進方法可以有效且穩(wěn)定地提升探索移動階段的狀態(tài)價值更新效率。
4.2行駛階段
在車輛行駛階段,決策延續(xù)性可分為決策連貫性和決策有效性:連貫性為車輛經過環(huán)境移動與自車移動后,長期決策能否維持大幅度一致;有效性為車輛行駛過程中不觸發(fā)規(guī)則輔助,降低自動駕駛車輛規(guī)劃模塊難度。
表4探索移動階段仿真結果

在高速公路環(huán)境下,行駛階段決策頻率為 1Hz 的低頻決策,車輛根據動作選擇每次行駛3~6個離散單元,環(huán)境車輛一次行駛3~5個離散單元。一次仿真過程中,對比無隱式時間信息(Non-Implicit TimeInformationLearning,NITIL)的決策方法與ITIL方法的決策行為和決策生成效率,2種方法在探索移動階段更新方法均一致,結果如圖8所示,行駛階段仿真結果如表5所示。
圖8車輛決策在隱式時間信息下的探索軌跡與探索過程熱圖

表5行駛階段仿真結果

由圖8可知,在相同仿真環(huán)境下,NITIL方法因使用靜態(tài)環(huán)境進行決策求解,對于非可行路徑點的探索次數(shù)(41156次)明顯優(yōu)于ITIL方法(9521次),降低77% 。因此,盡管動態(tài)決策環(huán)境復雜程度高于靜態(tài)決策環(huán)境,使用基于隱式時間信息的狀態(tài)價值矩陣以及相應探索更新改進方法,其實時性優(yōu)于現(xiàn)有靜態(tài)環(huán)境的決策方法。
NITIL方法的決策路徑在第一階段錯過了目標點,第二階段在尾端陷入了局部最優(yōu)。而ITIL方法的換道節(jié)點中環(huán)境車輛變化與動態(tài)環(huán)境預測的一致,所以ITIL方法具有較好的連貫性。
由表5可知,相較于NITIL,ITIL的無規(guī)則觸發(fā)成功率提高 19% ,規(guī)則平均觸發(fā)次數(shù)降低 73% ,表明ITIL方法的決策有效性和決策連貫性更佳。由于動態(tài)環(huán)境預測與環(huán)境車輛實際行為存在差異,且該差異影響在本次決策生成,因而ITIL仍存在AEB機制觸發(fā)。相較于ITIL,NITIL平均行駛時間降低 11% ,非必要換道較少,通行效率更高,說明ITIL具有較好的決策有效性。基于動態(tài)環(huán)境的ITIL方法,將環(huán)境車輛視為可互動的交通參與者而非障礙物,可形成更符合人類駕駛習慣的跟車行為。
常規(guī)強化學習方法形成超車決策,極易錯過目標點且通行效率降低。對于圖9的跟車駛出場景,盡管2類方法最終均成功抵達目標點,但實際決策具有顯著優(yōu)勢。
圖9特定行駛工況車輛行為分析

5結束語
本文構建基于隱式時間信息的決策模型,通過構建動態(tài)決策環(huán)境與動態(tài)獎勵值的方法,使用帶有隱式時間信息的狀態(tài)價值矩陣,提供了一種適應環(huán)境變化并進行長期決策求解的方法。在實際工程應用中,通過增加環(huán)境的離散化程度,增加了動作空間中動作選擇,無需額外增加路徑規(guī)劃。在移動規(guī)則函數(shù)中增加行為預測模塊,提高動態(tài)環(huán)境的擬真程度,從而優(yōu)化決策模型效果。后續(xù)考慮將動態(tài)決策環(huán)境由離散狀態(tài)遷移至連續(xù)狀態(tài)空間,為深度強化學習等方法提供較優(yōu)的長期決策求解環(huán)境。
參考文獻
[1]劉倩,王雪松.交叉口自動駕駛車輛事故前場景生成與致 因分析[J].中國公路學報,2024,37(4):299-309. LIUQ,WANG X S.Pre-Crash Scenario Generationand Causation Analysis for Autonomous Vehicle Crashesat Intersections[J]. China Journal of Highway and Transport, 2024,37(4):299-309.
[2] ZHAO C, LI L, PEI X, et al. A Comparative Study of Stateof-the-Art Driving Strategies for Autonomous Vehicle[J]. Accident Analysis and Prevention,2O21,150.
[3]翟麗,張雪瑩,張閑,等.基于勢場法的無人車局部動態(tài)避 障路徑規(guī)劃算法[J].北京理工大學學報,2022,42(7):696- 705. ZHAIL, ZHANG X Y, ZHANG X,et al. Local Dynamic Obstacle AvoidancePath Planning Algorithm for Unmanned Vehicle Based on Potential Field Method[J]. Transactions of Beijing Institute of Technology,2022,42(7): 696-705.
[4]王明強,王震坡,張雷.基于碰撞風險評估的智能汽車局 部路徑規(guī)劃方法研究[J].機械工程學報,2021,57(10):28- 41. WANG M Q,WANG Z P,ZHANG L.Local Path Planning for Intelligent Vehicle Based on Collision Risk Evaluation[J].Journal of Mechanical Engineering,2021, 57(10): 28-41.
[5] MAL, XUE JR, KAWABATA K,et al. Efficient SamplingBased Motion Planning for On-Road Autonomous Driving[J]. IEEE Transactions on Intelligent Transportation Systems, 2015, 16(4): 1961-1975.
[6]JEBESSA E,OLANAK,GETACHEWK, etal. Analysis of Reinforcement Learning in Autonomous Vehicle[Cl/ 2022 IEEE12thAnnual Computingand Communication Workshop and Conference (CCWC). Las Vegas, NV, USA: IEEE,2022: 87-91.
[7] LEE D, POWELL W B. Bias-Corrected Q-Learning with Multistate Extension[J]. IEEE Transactions on Automatic Control,2019,64(10): 4011-4023.
[8] CAO Z, YANG DG,XU SB,etal. Highway Exiting Planner for Automated Vehicles Using Reinforcement Learning[J]. IEEE Transactions on Intelligent Transportation Systems, 2021,22(2): 990-1000.
[9] LIN J X, ZHOU W H, WANG H, et al. Road Traffc Law Adaptive Decision-Making for Self-Driving Vehicles[C]// 2022IEEE 25th International Conference on Intelligent Transportation Systems (ITSC). Macau, China: IEEE, 2022: 2034-2041.
[10] LIAO YP,YU G Z, CHEN P, et al. Integration of DecisionMaking and Motion Planning for Autonomous Driving BasedonDouble-LayerReinforcementLearning Framework[J].IEEETransactions on Vehicular Technology,2024,73(3): 3142-3158.
[11] SHANGGUAN Q Q,F(xiàn)U T, WANG JH, et al. A Proactive Lane-Changing Risk Prediction Framework Considering DrivingIntention Recognition and Different LaneChanging Patterns[J].Accident Analysis and Prevention, 2022,164.
[12]LIUQ X,XUS H,LUC,et al. Early Recognition of Driving Intention for Lane Change Based on Recurrent Hidden Semi-Markov Model[J].IEEE Transactionson Vehicular Technology,2020,69(18):10545-10557.
[13]ZANYY,WANGX,XUBB,etal.LaneChangeIntention Recognition for Human Driving Vehicles under Moving BottleneckonFreeway[Cl//2O22IEEEthe7th International Conference on Intelligent Transportation Engineering.Beijing,China:IEEE,2022:586-591.
[14]CAIJ,LUOJW,WANGST,etal.FeatureSelectionin Machine Learning:ANew Perspective[J].Neurocomputing, 2018,300:70-79.
[15]任偉,朱建鴻.改進的自校正Q-learning應用于智能機 器人路徑規(guī)劃[J].機械科學與技術,2025,44(1):126- 132. REN W, ZHU J H. Improved Self-Tuning Q-Learning AlgorithmAppliedtoPathPlanningof IntelligentRobot[J]. Mechanical Scienceand Technology forAerospace Engineering,2025,44(1):126-132.
[16]韋洪旭,隴盛,陶蔚,等.基于AdaGrad+的自適應HeavyBall動量法及其最優(yōu)個體收斂性[J].計算機科學,2023, 50(11): 220-226. WEIHX,LONG S, TAOW,etal.AdaptiveHeavy-Ball Momentum Method Based on AdaGrad+andits Optimal Individual Convergence[J]. Computer Science, 2020,33(11):125-138.
[17]余榮杰,田野,孫劍.高等級自動駕駛汽車虛擬測試:研 究進展與前沿[J].中國公路學報,2020,33(11):125-138. YURJ,TIAN Y,SUNJ.Highly Automated Vehicle Virtual Testing:A Review of Recent Developments and Research Frontiers[J].China Journal of Highwayand Transp0rt,2020,33(11):125-138.
[18] TREIBER M,HENNECKE A,HELBING D.Congested Traffic Statesin Empirical Observations and Microscopic Simulations[J]. Physical Review E,200o,62(2): 1805- 1824.
[19] TREIBER M,KESTING A. Modeling Lane-Changing Decision with MOBIL[C]// Conference on Trafficand Granular Flow.Heidelberg,Berlin:Springer,2Oo9:211- 221.
[20]LIYF,GUANH,JIAX,etal.Decision-MakingModel for Dynamic Scenario Vehicles in Autonomous Driving Simulations[J].Applied Sciences,2023,13(14). (責任編輯瑞秋) 修改稿收到日期為2025年5月12日。
《汽車工藝與材料》投稿須知
《汽車工藝與材料》于1986年創(chuàng)刊,是由中國第一汽車集團有限公司主辦的國內外公開發(fā)行的汽車材料與制造技術類月刊,目前已入選《中文核心期刊要目總覽》第二版)RCCSE中國準核心學術期刊 (B+) 、中國核心期刊(遴選)數(shù)據庫、中國學術期刊綜合評價數(shù)據庫、歐洲學術出版中心數(shù)據庫(EuroPub)、哥白尼精選期刊數(shù)據庫(ICIJournals Master List)、EBSCOInternational數(shù)據庫、J-Gate數(shù)據庫。
《汽車工藝與材料》以“為中國報道汽車制造,為汽車引領工藝材料\"為辦刊宗旨,致力于報道以汽車輕量化技術和智能制造技術為核心的先進制造技術與材料應用技術,重點關注電動汽車蓄電池、電機、電控關鍵材料技術,燃料電池材料技術,高強度鋼、鋁鎂合金、非金屬材料及其成形技術,連接技術,智能裝備與綠色制造等,以期通過高質量學術內容的出版和傳播助推行業(yè)創(chuàng)新技術的交流與發(fā)展。
《汽車工藝與材料》雜志關注領先的整車及零部件企業(yè)和材料、裝備等供應商,及時報道汽車行業(yè)最新的產品設計、制造、材料、加工技術、生產裝備、檢測技術等方面的成功案例。
主要欄目:
ATamp;M視界、生產現(xiàn)場、材料應用、生產裝備、檢測技術、數(shù)字化園地、行業(yè)動態(tài)等。
投稿要求:
(1)來稿須具有獨創(chuàng)性并與實踐相結合,文章字數(shù)最好控制在5000~8000字之內。
(2)來稿不能在國內、外公開雜志上發(fā)表過,請勿一稿多投。
(3)來稿的試驗方法、試驗數(shù)據、試驗結論必須準確、可靠。
(4)來稿須包括以下項目:題名、作者姓名、作者單位、摘要(200字左右)參考文獻等。來稿采用word文檔的格式。
(5)來稿文章格式應符合一般科技論文格式,或參考近期本刊所刊登文章格式。
(6)文章必須附有公開發(fā)表的、體現(xiàn)本領域最新研究成果的參考文獻,且在文中應標注文獻引用處。
(7)本刊使用網站投稿,投稿網址:http:/qcgyycl.cbpt.cnki.net,咨詢電話:0431-82026054。
竭誠歡迎汽車行業(yè)及相關各界的專家學者積極向本刊投稿。