黃輝 隗寒冰
(重慶交通大學,重慶 400074)
主題詞:軌跡規劃 駕駛特征 成本優化 逆強化學習
自動駕駛車輛需要在換道軌跡規劃時反映擬人化需求,以提高行駛平順性及乘坐舒適性,避免換道過程中引起駕乘人員不適。因此,學習駕駛員軌跡特征在自動駕駛車輛換道軌跡設計中具有十分重要的現實意義。
國內外學者對車輛軌跡規劃問題已進行了廣泛研究[1]。規劃方法按照原理可大致分為圖搜索、數值優化、插值法和采樣法。目前,基于軌跡采樣與成本函數優化相結合的方法作為主流的軌跡規劃方法被廣泛應用于自動駕駛車輛。如M.Werling等[2]以軌跡采樣與成本函數優化相結合的方法規劃軌跡,實現各換道場景的軌跡生成。該方法規劃的換道軌跡基本滿足換道行為功能需求,但忽略了駕駛員駕駛行為特征因素[3]。
在換道軌跡規劃中考慮駕駛員換道特征,即擬人化換道軌跡規劃,是近年來研究的熱點。如黃晶[4]等運用K均值聚類法將駕駛風格分類,結合舒適性約束及換道行為數據進行不同駕駛風格換道軌跡規劃,但忽略了軌跡曲線特征。Schnelle 等[5]提出了組合駕駛員模型和確定駕駛員期望路徑的方法,對駕駛員模型和所需路徑參數進行優化,僅考慮了駕駛員的橫向控制,無法反映駕駛員的速度特征及行駛軌跡曲率特征。X.He 等[6]提出從自然駕駛數據中學習仿人軌跡規劃方法,以softmax函數建立軌跡的概率模型,但該方法存在奇異值問題與學習特征上的局限。
機器學習方法被用來從人類演示的數據中學習成本函數或參數設置,研究成果同樣應用于自動駕駛。Abbeel等[7]通過逆強化學習策略學習駕駛特征。Ziebart等[8]為了解決逆強化學習中存在的奇異值問題,將逆強化學習擴展到基于最大熵的方法。但這些研究都限于全局路徑規劃問題,而且更偏向于駕駛員路徑選擇的離散空間問題。Kuderer 等[9]運用最大熵逆強化學習策略學習軌跡特征后應用到局部軌跡規劃中,在學習過程中通過最大似然求解二維空間中六自由度無窮軌跡的最大熵模型,該方法存在計算量龐大的弊端。
為生成反映駕駛員特征的換道軌跡,本文開展基于最大熵逆強化學習策略的換道軌跡特征學習方法研究,以軌跡采樣方法為基礎,對學習過程中的計算進行簡化,通過軌跡采樣與成本優化相結合的方式規劃換道軌跡。
軌跡采樣與成本優化相結合的方法主要思路是依據設計的成本函數篩選采樣軌跡以生成最優軌跡。為了平衡軌跡規劃的效率、舒適性、安全性,成本函數項權重需要基于專家經驗設計,調試過程繁雜,具有一定的局限性。為解決目前存在的弊端,生成與駕駛員換道特征相匹配的軌跡,本文通過逆強化學習方法從駕駛員自然換道軌跡數據中迭代學習成本函數權重,并基于軌跡采樣的方法優化學習過程中的迭代計算,使自動駕駛車輛能夠規劃出與人類駕駛員駕駛特征相近的換道軌跡。基于逆強化學習的換道軌跡規劃流程如圖1所示。
基于逆強化學習的換道軌跡規劃由軌跡規劃、駕駛特征建模及逆強化學習過程組成。在某一軌跡規劃周期τ中,軌跡規劃部分首先依據換道規劃起點、終點的車輛坐標及其關于時間的一階微分及二階微分狀態,通過軌跡采樣的方式,生成備選換道軌跡序列TS=(Ts1,Ts2,Ts3,…,Tsn),駕駛特征建模部分采集駕駛員換道軌跡離線坐標點,以多項式曲線擬合方式構建駕駛員換道軌跡TD=(TD1,TD2,TD3,…,TDn),依據設計的軌跡特征函數向量f(TD)計算駕駛員換道軌跡各成本項的經驗特征值。為解決軌跡分布中存在的奇異值問題[8],將軌跡特征函數向量f(T)與備選軌跡序列TS依據最大熵原理構建軌跡的最大熵模型pMaxEnt,其中T為任意軌跡集輸入,再依據最大熵模型求解各備選軌跡的期望特征值Ep[f]。通過梯度變化迭代調整軌跡特征函數中的各成本項權重向量系數λ,使得經驗特征值與期望特征值Ep[f]盡可能接近:


圖1 基于逆強化學習的換道軌跡規劃流程
當期望特征值Ep[f]與經驗特征值的差值收斂于最小值時,便得到表征駕駛員軌跡特征的權重向量λImi。依據λImi分配各成本函數項權重比,重新調整駕駛員特征成本函數CImi,最后通過CImi篩選采樣軌跡序列,以生成與駕駛員換道特征相匹配的換道軌跡。
對自動駕駛車輛局部軌跡規劃問題進行簡化,同時便于軌跡特征函數定義,采用曲線坐標系為參考坐標系。在結構化道路下進行軌跡規劃時,曲線坐標系通常以道路中心線作為參考線,將駕駛軌跡規劃問題分解為沿道路中心線方向及其切線的法向量方向進行規劃處理,圖2所示為笛卡爾坐標系與曲線坐標系的轉化關系。

圖2 笛卡爾坐標系與曲線坐標系的轉化關系
不同于笛卡爾坐標基準(x,y),曲線坐標系是以車輛位置與參考線投影點P之間的距離d為縱坐標,以參考線起始點到投影點P的曲線長度s為橫坐標建立曲線坐標系基準(s,d)[10]。坐標系之間的映射關系與轉化關系表示為:

式中,x為笛卡爾坐標系下的車輛位置坐標向量;s(t)、d(t)分別為t時刻車輛位置到參考線Lref上投影點的弧長距離與法向距離;nr(s(t))為投影點的單位法向量;r(s(t))為投影點上的位置向量。
為保證換道軌跡曲率、速度、加速度上的連續性及軌跡邊界條件的完整性,采用五次多項式曲線擬合換道軌跡。根據峰值加速度準則,五次多項式函數比其他路徑函數更具舒適性優勢[11]。在任意t時刻,換道軌跡可以表示為:

式中,a0~a5與b0~b5分為d、s方向上五次多項式函數的系數。
當換道軌跡的起點、終點狀態確定時,可依據五次多項式換道軌跡推導出其一階微分及二階微分狀態。起點狀態由換道時的縱向速度及偏離道路中線距離決定,終點狀態依據換道任務的縱向偏移距離及目標車速定義。在一個規劃周期τ中,五次多項式的系數可由起點、終點狀態及其一階、二階微分狀態求解得到,規劃周期τ由規劃起點時刻ts與規劃終點時刻te決定。
在每個規劃周期中,依據s、d方向起始狀態及終點狀態的采樣,依據五次多項式函數便可規劃出一系列備選換道軌跡序列集TS。
通過采樣方法生成備選換道軌跡集后,還需定義合理的成本函數用于備選換道軌跡篩選。本文的研究目標是從駕駛員換道軌跡中學習駕駛軌跡特征,因此,成本函數應為考慮更加全面且能表征駕駛員特征的成本函數項,同時為逆強化學習過程需求定義合理的特征函數。考慮如下成本函數項:
在整個換道軌跡中,以軌跡曲線函數在任意一點的三階微分量表征換道過程中的沖擊度特征J,整個換道軌跡s、d方向上的沖擊度特征成本CJ定義為:

以軌跡曲線在某一點上的二階微分量表征換道過程中的加速度特征a,整個換道軌跡s、d方向上的加速度特征成本Ca定義為:

以換道軌跡曲線上某一點處的曲率為曲率特征κ,整個換道軌跡上的曲率特征成本Cκ定義為:

以換道過程中s方向實際速度與期望速度偏差量vdev定義特征成本Cvdev:

以換道軌跡偏離道路中線Lref(τ)的距離ddev定義特征成本Cddev:

通過將設計的各成本項整合,同時分配權重系數便構成完整的成本函數COpt:

式中,λ N為每個成本項的系數權重向量;N為成本函數的最大指數系數;C=(CJ(s(t)),CJ(d(t)),Ca(s(t)),Ca(d(t)),Cκ(s(t),d(t)),Cvdev(s(t)),Cddev(d(t)))為成本項向量。
本文通過逆強化學習的方法學習得到權重向量系數λ,實現各成本項還原駕駛員特性分配。依據設計的成本函數定義逆強化學習中的特征函數向量f:

式中,fJ(s(t))、fJ(d(t))分別為s、d方向上的沖擊度特征函數;fa(s(t))、fa(d(t))分別為s、d方向上的加速特征函數;fκ(s(t),d(t))為s、d方向上的曲率特征函數;fvdev(s(t))為s方向上的速度偏差特征函數;fddev(d(t))為d方向上的距離偏差特征函數。
依據駕駛員多次自由換道情況下的離線換道軌跡點,擬合出一系列換道軌跡曲線TD=(TD1,TD2,TD3,…,TDn),依據特征函數向量f計算出逆強化學習過程中駕駛員軌跡經驗特征值:

逆強化學習的目的是生成與演示結果相似的軌跡,以特征值為相似性的評判度量。逆強化學習的關鍵是找到預期的參數λ使得期望特征與觀察到的經驗特征相匹配。以采樣軌跡為基礎,構建軌跡的最大熵概率模型pMaxEnt,優化問題的最大熵模型有如下形式:

式中,Z(λ)為滿足歸一化條件的正規化因子,歸一化條件為:

將λTf(TS)解釋為成本函數,與軌跡規劃部分的成本函數COpt相對應,可以理解為駕駛員更有可能選擇成本較低的軌跡進行換道軌跡規劃。權重向量參數λ的解析解通常無法計算,但可以計算關于λ的拉格朗日函數的梯度,該梯度是期望值與經驗特征值的差值:

通過對演示軌跡TD求對數似然函數得到:

求其關于λ的一階微分為:

式中,pλ(T)為λ權重下關于任意軌跡輸入的概率。
通過基于采樣的軌跡生成方法,可以簡捷地計算出期望特征值:

選擇合適的采樣軌跡數量可以優化逆強化學習過程中的計算量。基于特征匹配的最大熵分布問題等價于假設指數族分布時訓練數據的最大似然問題,從而將目標轉化為找到符合預期的一組演示的特征分布。找到期望的分布意味著計算參數權重向量λ,使得期望特征值與經驗特征值相匹配。參數向量λ無法求解,但可以根據這些參數計算梯度,從而應用基于梯度的優化。梯度調整優化過程通過計算特征函數的全微分,同時控制步長使函數到達極小值。對于部分特征項不可解析的計算梯度,可采用數值積分及解析導數相結合的方式計算。曲率特征梯度的近似求解公式為:

式中,Δt為在規劃周期τ內的采樣周期。
基于逆強化學習方法學習駕駛員換道軌跡特征的權重分配算法流程如圖3所示。
通過逆強化學習過程學習到權重向量λ后,依據λ為成本函數COpt各成本項分配權重篩選備選軌跡,便實現了包含駕駛員特征的換道軌跡生成。
為驗證本文提出的基于逆強化學習的換道軌跡規劃的有效性,在“行遠”自動駕駛車輛試驗平臺[12]上開展試驗,分別執行駕駛員換道軌跡點采集與實時換道軌跡規劃及跟蹤控制任務。駕駛員換道軌跡點處理及逆強化學習過程均離線完成。試驗平臺硬件配置如圖4 所示:感知系統由雙目攝像頭及激光雷達構成;定位系統配置差分GPS用于實現厘米級車輛定位與導航;所有算法部署在車載工控機上以實現車輛的感知、定位、決策、規劃及控制。

圖3 學習駕駛員換道特征分配權重算法流程

圖4 “行遠”自動駕駛車輛試驗平臺
以重慶交通大學校園試驗區作為試驗場景分別進行駕駛員1、駕駛員2 換道軌跡點的采集工作。試驗場地如圖5a 所示,其為標準單向雙車道場地。駕駛員進行自由換道操作,僅收集駕駛員從右向左的換道軌跡,且駕駛員每次換道僅跨越1 個車道位置。考慮校園試驗場場景,規定駕駛員理想換道車輛速度為35 km/h。為了提高軌跡的隨機性,不預先告知駕駛員采集任務,僅告知其需控制車速在35 km/h附近自由換道操作。
共采集到2名駕駛員有效換道軌跡20條,平滑濾波處理后駕駛員換道軌跡如圖5b、圖5d所示。2名駕駛員均具有3~5 年駕齡,能夠穩定執行換道操作,依據換道軌跡集邊界定義駕駛員換道區域如圖5c、圖5e 所示。在曲線坐標系下,依據換道軌跡點橫、縱坐標以及每個軌跡點的時間序列,擬合s、d方向上的五次多項式函數,并依據式(11)計算出駕駛員各換道特征經驗特征值,統計結果如表1所示。相比于駕駛員換道軌跡縱向相關特征,橫向相關特征更為顯著。

圖5 校園試驗場及駕駛員換道軌跡
將駕駛員換道軌跡經驗特征值代入逆強化學習過程中進行迭代學習,如圖6 所示,基于梯度下降的權重系數調整策略導致特征值差值曲線出現微小振幅,而非單調下降。在經過接近25次迭代后,2位駕駛員的經驗特征值向量與期望特征值向量的差值基本收斂。由于軌跡規劃基于采樣的方式完成,僅能在軌跡集中篩選出最接近駕駛特征的某條軌跡,導致特征差值不為零。依據學習得到的權重向量λ,對規劃系統的成本函數權重進行重新分配調整,依據調整更新后的成本函數篩選實時規劃的備選軌跡。

表1 駕駛員換道特征值

圖6 特征值差值迭代過程
圖7所示為成本權重更新前、后實時軌跡規劃對比情況。從圖7中可以看出:未調整權重情況下實時車輛備選規劃軌跡序列大部分偏離2 位駕駛員的換道軌跡區域;學習駕駛員1 換道特征后,車輛實時規劃的換道軌跡基本包含在駕駛員1換道區域內,部分偏離駕駛員2換道區域;學習駕駛員2換道特征后,車輛規劃的換道軌跡基本包含在駕駛員2換道軌跡區域內。
如圖8、圖9 所示,將成本權重更新前、后換道軌跡特征對比情況以百分率形式表現,即以駕駛員特征為基準。自動駕駛車輛局部軌跡規劃系統在均等權重比下,s方向上的特征偏離基準較小,能較好地匹配,而在d方向上,調整前特征偏離基準較大。學習駕駛員特征后,特征偏離情況降低,向駕駛員特征靠近。對比調整前、后,表征乘員舒適度的縱向特征J與加速度特征a指標明顯降低,且趨近于人類駕駛員換道操作水平,改善了換道過程中的乘員舒適性體驗。
將駕駛員換道軌跡曲線及換道特征進行對比,結合成本權重更新前、后的試驗結果可以發現:在均等成本函數權重下生成的軌跡部分偏離駕駛員換道軌跡區域,相對于駕駛員換道軌跡曲線,曲率變換更為劇烈,換道軌跡曲線特征除縱向特征外,較駕駛員各特征相差較遠;通過逆強化學習方法更新成本權重后的規劃軌跡基本包含在駕駛員換道軌跡內,換道軌跡曲線各特征與駕駛員特征相近,更能反映駕駛員主觀感受。


圖7 成本權重更新前、后軌跡規劃對比

圖8 學習駕駛員1特征對比

圖9 學習駕駛員2特征對比
本文采用軌跡采樣及成本優化相結合的軌跡規劃方法設計了自動駕駛車輛軌跡規劃算法。考慮換道規劃過程中的駕駛員主觀感受,運用最大熵逆強化學習策略從駕駛員換道軌跡中學習軌跡特征分配,并將學習得到的權重向量用于成本函數權重分配,依據更新后的成本函數在采樣軌跡中篩選匹配,最終生成與駕駛員換道軌跡特征相近的換道軌跡。試驗結果表明,本文開發的基于逆強化學習的換道軌跡能較好地包含在駕駛員換道區域內,且軌跡特征與駕駛員軌跡特征相近,即滿足擬人化駕駛需求。