史培龍 常宏,2 王彩瑞 馬強 周猛
(1.長安大學,西安 710064;2.比亞迪汽車有限公司,西安 710119)
主題詞:無人駕駛 路徑跟蹤控制 模型預測控制 粒子群尋優 BP神經網絡
無人駕駛汽車的關鍵技術包括環境感知、決策、運動規劃和跟蹤控制等。其中路徑跟蹤的目標是在保證行駛穩定性的前提下,使被控車輛沿著期望的路徑行駛。目前常用的路徑跟蹤控制方法有斯坦利(Stanley)前輪反饋控制[1]、比例積分微分(Proportional Integral Derivative,PID)控制[2]、滑??刂芠3]、線性二次最優(Linear Quadratic Regulator,LQR)控制[4]以及模型預測控制(Model Predictive Control,MPC)[5]等算法,MPC以車輛動力學模型作為預測模型,加入約束條件,能夠顯著提高控制精度。
Falcone 等[6]基于線性車輛模型建立了MPC 路徑跟蹤控制器,并對輪胎側偏角進行約束,提高了車輛在低附著路面上的跟蹤精度及穩定性;龔建偉等[7]利用MPC 算法進行路徑跟蹤,通過離散變步長,提高車輛高速行駛時的跟蹤實時性,同時考慮了車輛操縱穩定性問題;張睿等[8]采用基于非線性預測及沿軌跡線性化的MPC 算法,提高了路徑跟蹤的實時性以及車輛在低附著系數路面條件下的跟蹤精度。然而,上述研究并未考慮跟蹤控制器時域參數對控制效果的影響。劉溯奇等[9]針對不同車速下恒定預測時域跟蹤誤差大的問題,設計了適用于變車速、變預測時域的MPC 控制器,以此提高控制精度;白國星等[10]設計了可變預測時域的MPC 路徑跟蹤控制器,利用三次多項式擬合最佳預測時域與速度的關系,在不同車速下使用不同的預測時域參數,提高了控制器對速度的自適應性。但是,上述研究忽略了不同路面附著系數與時域參數的關系。吳施鵬等[11]基于MPC 算法,利用遺傳算法獲得最優時域參數,提高了車輛在低附著路面條件和高速行駛時的行駛穩定性;范賢波等[12]采用模糊控制法對MPC 控制器的預測時域及控制時域進行在線優化,根據車輛的橫向及縱向車速自適應選擇預測時域參數,優化后的MPC 控制器提高了車輛路徑跟蹤的穩定性及跟蹤精度。但對時域參數進行在線優化會增加MPC 的計算量,影響控制器的實時性。
綜合考慮時域參數、路面附著條件及控制時效性對控制效果的影響,本文利用粒子群尋優-反向傳播(Particle Swarm Optimization-Back Propagation,PSO-BP)離線優化MPC 控制器的預測時域和控制時域參數,通過在不同路面附著系數及車速條件下自適應選擇最優時域參數,保證控制器具有較好的效果。
汽車是高度非線性的復雜系統,車輛模型越復雜,其仿真結果越接近真實運動規律,但當系統模型復雜時,計算量增加,會降低控制器的時效性,影響跟蹤效果,甚至引發危險。為此,本文對車輛模型進行簡化,建立了三自由度車輛動力學模型[13],如圖1 所示。建模過程考慮了轉向輪輪胎的側偏特性,忽略了垂向運動、空氣動力學特性、橫向載荷及前、后軸荷轉移帶來的影響。

圖1 三自由度車輛動力學模型
由牛頓第二定律可得:
式中,m為整車整備質量;φ為車輛的航向角;Fxf、Fxr分別為前、后軸輪胎的縱向力;Fyf、Fyr分別為前、后軸輪胎的側向力;vx、vy分別為質心的縱向及橫向速度;Iz為繞z軸的轉動慣量;a、b分別為質心到前、后軸距離。
大地坐標系與車身坐標系的轉換以及車輛動力學模型為:
式中,Ccf、Ccr分別為車輛前、后輪側偏剛度;Clf、Clr分別為前、后輪胎縱向剛度;Sf、Sr分別為前、后輪胎縱向滑移率;δf為前輪轉角;X、Y為車輛在大地坐標系下的縱向、橫向位置。
3.1.1 MPC控制器
MPC由預測模型、滾動優化和反饋校正3個部分組成,其流程如圖2所示。MPC控制器依據預測模型及目標函數進行最優求解,得到最優序列u(t)并輸出,通過滾動優化、反饋校正保證被控車輛沿著期望路徑行駛??紤]到車輛模型的非線性特性,為了提高控制精度,本文基于非線性MPC模型進行路徑跟蹤控制器設計。

圖2 基于MPC的路徑跟蹤控制流程
3.1.2 預測模型及其離散化
本文采用三自由度車輛動力學模型作為控制器的預測模型。式(2)經狀態轉換,得到系統狀態為:
系統輸出量η為:
η的構造公式為:
3.1.3 目標函數與約束條件設計
考慮到跟蹤過程中車輛的穩定性,為車輪轉角變化量和跟蹤誤差分別賦予權重,建立目標函數。設控制器預測時域為Np,控制時域為Nc,建立目標函數:
式中,ηref(k+i)、η(k+i)分別為以當前時刻k起,預測時域Np內第i個時刻的期望輸出量、輸出量預測值;ρ為常量;ε為松弛因子;Q、R分別為跟蹤過程中準確性和平穩程度的權重。
式(7)中第1 項為系統輸出與期望軌跡間的偏差,表征無人駕駛汽車路徑跟蹤的準確性,第2項為系統輸入的變化量,表征車輛路徑跟蹤過程中的平穩程度。為獲得最優解,目標函數改寫為:
為了防止控制量超出范圍,對輸出的前輪轉角和增量進行約束:
式中,Umin、Umax分別為車輪轉角的最小值和最大值;ΔUmin、ΔUmax分別為車輪轉角增量的最小值和最大值。
3.2.1 評價指標
為了保證控制精度和車輛行駛穩定性,建立評價函數,判斷時域參數Np和Nc的優劣。文獻[14]以平均橫向偏差、最大偏差和平均橫擺角偏差作為路徑跟蹤準確性評價指標,文獻[15]以質心側偏角和橫擺角速度作為車輛行駛穩定性的評價指標。為此,本文選擇平均橫向偏差emean、最大橫向偏差emax、最大質心側偏角βmax和最大橫擺角速度作為路徑跟蹤過程評價指標。
路徑跟蹤時,emean、emax越小,控制器精度越高;βmax、超過路面允許值[16]時,車輛將失穩。βmax、、車速及路面附著系數存在約束關系:
式中,g為重力加速度;μ為路面附著系數;v為車輛行駛速度。
為了消除不同量綱的影響,將評價指標emean、emax、βmax和進行歸一化處理。用最大橫向偏差和平均橫向偏差歸一化總和E表征控制器的控制精度;用最大橫擺角速度、最大質心側偏角歸一化總和W表征行駛穩定性。
考慮到Np較大時,能夠預測未來更多信息,轉向動作時間充裕,車輛行駛穩定性較好,但控制精度會降低,因此一組Np和Nc控制參數難以保證控制精度E和穩定性W同時達到最小。為此,設計評價函數S,獲得最優時域參數時,能夠兼顧控制器控制精度和跟蹤時車輛的行駛穩定性的時域控制參數:
式中,A為控制精度E的權重;B為穩定性W的權重。
3.2.2 基于PSO-BP的MPC時域參數優化策略
為了獲得不同路面附著系數及車速下的最優時域控制參數,本文提出基于PSO-BP 算法的MPC 優化策略,如圖3 所示。首先,訓練基于BP 神經網絡模型,輸入層為時域控制參數Np、Nc、路面附著系數μ和車速v,輸出層為控制精度E和穩定性W;其次,在不同μ和v條件下產生粒子群,并賦予粒子不同的時域控制參數Np、Nc,再次獲得E和W;通過不同的Np、Nc進行迭代尋優,利用評價函數S判斷Np、Nc是否為最優時域參數,直至達到最大迭代次數,并輸出最優時域參數,由MPC控制器進行路徑跟蹤控制。

圖3 基于PSO-BP算法的MPC優化策略
3.2.3 不同時域參數下試驗數據獲取
為了獲取最優時域參數Np、Nc,利用設計的MPC 路徑跟蹤控制器獲取試驗數據,并對數據進行分析處理。在路面附著系數μ=0.4,車速分別為18 km/h、36 km/h 和54 km/h低、中速條件下,以及μ=0.8,車速分別為18 km/h、36 km/h、54 km/h、72 km/h 和90 km/h 低、中、高速條件下,利用遍歷的方法,對不同時域參數Np和Nc的MPC控制器進行仿真,得到評價指標emean、emax、和βmax。Np的取值范圍為15~36,Nc的取值范圍為1~Np-1,剔除異常值后獲得數據4 094組,訓練數據結構如圖4所示。

圖4 訓練數據結構
利用獲取的試驗數據訓練BP神經網絡,其中80%的數據作為訓練集,剩余20%的數據作為測試集。輸入層為路面附著系數μ、車速v以及時域控制參數Np和Nc,輸出層為控制器控制精度E和車輛行駛穩定性W,隱藏層數為3層,每層神經元數量為50個,最大迭代次數為1 000次,最大均方誤差為0.000 01,訓練迭代過程如圖5所示。

圖5 BP神經網絡訓練效果
由圖5 可知,第378 次迭代時,均方誤差9.991×10-6小于0.000 01,停止迭代,此時相關性系數R=0.999 96,擬合效果較好。此時,輸出控制精度E和穩定性W的訓練集擬合效果和測試集預測效果如圖6和圖7所示,控制精度E訓練集及測試集擬合最大誤差分別為0.038和0.062,穩定性W訓練集及測試集擬合最大誤差分別為0.023 和0.051,真實值與預測值基本吻合,表明神經網絡訓練和測試效果較好。

圖6 控制精度E神經網絡訓練和測試結果

圖7 穩定性W神經網絡訓練和測試結果
為了驗證本文設計控制器的實際效果,分別進行低路面附著系數低速工況、高路面附著系數低速和高速工況及中路面附著系數中速工況雙移線跟蹤仿真對比驗證??紤]實際運行安全因素,取目標函數權重A=8、B=2。
設置路面附著系數μ=0.4、車速v=40 km/h,利用PSO-BP 算法得到Np=15、Nc=7;選擇對比驗證固定時域參數Np=25、Nc=10。將參數輸入MPC控制器進行仿真,各評價指標如表1所示,跟蹤效果及跟蹤偏差如圖8所示,質心側偏角及橫擺角速度如圖9所示。

表1 低附著低速工況仿真結果

圖8 低附著低速工況跟蹤效果及橫向偏差

圖9 低附著低速工況質心側偏角及橫擺角速度變化
由表1可知,固定時域MPC橫向偏差的最大值和平均值均大于PSO-BP優化的MPC對應值,其最大值分別為0.400 5 m 和0.204 7 m,后者降低了近50%。仿真結果顯示,PSO-BP優化的MPC控制器最大質心側偏角和最大橫擺角速度較固定時域MPC 控制器大,但二者僅相差0.014°和0.042(°)/s,因為后者采用了較大的時域控制參數,車輛穩定性相對增加,但橫向偏差較大。由圖8 可知:PSO-BP 優化的MPC 控制器控制車輛跟蹤的橫向偏差始終小于固定時域MPC作用時的橫向偏差;2種控制器分別作用時,質心側偏角及橫擺角速度相差較小,均能保證車輛進行路徑跟蹤時的穩定性,如圖9 所示。由此可見,PSO-BP優化的MPC路徑跟蹤控制策略能夠提高路徑跟蹤精度。
設置路面附著系數μ=0.8、車速v=40 km/h,利用PSO-BP 算法得到Np=12、Nc=3;選擇對比驗證固定時域參數Np=25、Nc=10。將參數輸入MPC控制器進行仿真,各評價指標如表2所示,跟蹤效果及跟蹤偏差如圖10所示,質心側偏角及橫擺角速度如圖11所示。

表2 高附著低速工況仿真結果

圖10 高附著低速工況跟蹤效果及橫向偏差

圖11 高附著低速工況質心側偏角及橫擺角速度變化
由表2可知,固定時域MPC橫向偏差的最大值和平均值均大于PSO-BP優化的MPC對應值,其最大值分別為0.351 7 m 和0.157 8 m,后者降低了55%。仿真結果顯示,PSO-BP優化的MPC控制器最大質心側偏角和最大橫擺角速度較固定時域MPC 控制器略大,但其僅相差0.226 7°和0.455 8(°)/s,因為后者采用了較大的時域控制參數,車輛穩定性相對增加,但其橫向偏差較大。由圖10可知:PSO-BP優化的MPC控制器控制車輛跟蹤的橫向偏差始終小于固定時域MPC 作用時的橫向偏差;2 種控制器分別作用時,質心側偏角及橫擺角速度相差不大,均能保證車輛進行路徑跟蹤時的穩定性,見圖11。由此可見,PSO-BP優化的MPC路徑跟蹤控制策略能夠提高路徑跟蹤精度。
設置路面附著系數μ=0.8、車速v=80 km/h,利用PSO-BP 算法得到Np=36、Nc=21;選擇對比驗證固定時域參數Np、Nc不變。將參數分別輸入控制器進行仿真,得到仿真結果如表3、圖12及圖13所示。

表3 高附著高速工況仿真結果

圖12 高附著高速工況跟蹤效果及橫向偏差

圖13 高附著高速工況質心側偏角及橫擺角速度變化
由表3可知:相比于固定時域MPC,PSO-BP優化的MPC各項評價指標均小于前者;前者橫向偏差較大,控制精度較低,最大質心側偏角接近10°,最大橫擺角速度達到39.476(°)/s,車輛行駛穩定性較差,可能產生側滑等危險。
設置路面附著系數μ=0.6、車速v=60 km/h,利用PSO-BP 算法得到Np=19、Nc=9;選擇對比驗證固定時域參數Np、Nc不變。將參數分別輸入控制器進行仿真,得到仿真結果,如表4、圖14及圖15所示。

表4 中附著中速工況仿真結果

圖14 中附著中速工況跟蹤效果及橫向偏差

圖15 中附著中速工況質心側偏角及橫擺角速度變化
由表4可知,固定時域MPC橫向偏差最大值和平均值均大于PSO-BP 優化的MPC 對應值,分別為0.531 m和0.441 m,最大質心側偏角和最大橫擺角速度小于后者,但是后者顯著提高了跟蹤精度,如圖14所示。由圖15 可知,后者最大質心側偏角和橫擺角速度分別為2.168°和20.457(°)/s,車輛處于穩定狀態,在保證車輛穩定性的前提下,能夠提高跟蹤精度。
4種工況下雙移線跟蹤仿真驗證結果表明:車輛以中低車速行駛時,基于PSO-BP獲得時域參數的MPC控制器,能夠在保證車輛行駛穩定性的前提下提高控制器的跟蹤精度;車輛高速行駛時,利用PSO-BP 優化算法獲得時域參數的MPC 控制器,不僅能夠提高控制器的跟蹤精度,還能提高車輛的行駛穩定性。
為了兼顧時域參數、路面附著條件及控制時效性對無人駕駛汽車路徑跟蹤控制效果的影響,本文提出了基于PSO-BP優化的MPC路徑跟蹤控制策略,并在低路面附著系數低速、高路面附著系數低速、高路面附著系數高速及中路面附著系數中速工況下驗證了控制效果,得出以下結論:
a.PSO-BP優化后的MPC控制器路徑跟蹤過程中,高附著、低附著路面低速工況下橫向控制精度提高了50%以上;中速工況和高速工況下橫向控制精度分別提高了20%和9%。
b.基于PSO-BP 優化的MPC 路徑跟蹤控制策略能夠依據路面附著條件和車速自適應Np、Nc參數,與固定時域參數相比,不僅能提高車輛路徑跟蹤精度,還能兼顧車輛行駛穩定性。
c.利用PSO-BP 離線優化MPC 控制器的預測時域和控制時域參數,利用BP神經網絡泛化能力,降低在線數據復雜程度,可有效提高控制的時效性。
本文BP 神經網絡訓練樣本附著系數只有0.4 和0.8,后續研究工作需要進一步優化;控制策略僅在仿真環境驗證,需要進一步開展實車驗證。