基于參數自學習的無人車越野環境跟蹤控制方法

2022-10-18 01:03:18吳永剛梁華為

計算機工程與應用 2022年19期

吳永剛，梁華為，余彪，孫超

1.安徽大學物質科學與信息技術研究院，合肥 230601

2.中國科學院合肥物質科學研究院，合肥 230088

在搶險救災、消防救援、軍事作戰等典型應用領域[1-2]，往往要求無人車具有高度靈活的機動性，且需要兼顧跟蹤精度和行駛穩定性，準確的模型和合理的控制律設置是路徑跟蹤控制算法的關鍵[3]。

在現有的控制理論領域，傳統控制算法如比例積分微分（PID）控制[4]、純跟蹤控制算法[5]，這些控制算法利用幾何關系，在一個或多個預瞄位置計算誤差，只能在一定范圍內簡單適用。為了適應更多場景，研究人員探索了如模糊控制[6]、滑模控制[7]等方法，然而這些控制方法只能對當前狀態量計算控制動作，無法預測未來狀態信息，且無法處理如偏離軌道等極限工況。為了提高控制器的魯棒性和保持車輛航向的能力，文獻[8]提出了魯棒控制器，將車輛航向偏差用于跟蹤誤差建模，可以在一定干擾條件下減小車輛航向偏差。文獻[9]提出了一種通過跟蹤車輛航向來計算轉向的控制器，并通過低摩擦系數的路況實驗來驗證該控制器。然而這些控制器沒有考慮車輛運動過程中的瞬時動力學特性，如在側滑等情況時，減小航向偏差的同時無法保證橫向偏差較小。模型預測控制方法（model predictive controller，MPC）能夠有效處理車輛和輪胎動力學[10-11]，且考慮的是未來一段時間內的最優控制量，因此有利于提高車輛控制穩定性[12]。但在進行高速復雜路況的路徑跟蹤時，這些基于固定參數模型設計的控制器無法克服車輛未建模的不確定性和復雜路況的干擾，難以保證穩定的跟蹤性能。隨著人工智能和傳感器技術等的發展，文獻[13]有效考慮模型偏差的問題，基于模型預測控制建立學習的高斯擾動模型，但其超參數選擇較為復雜，文獻[14]采用模糊算法自適應調整MPC 的權重系數，以改善跟蹤性能，但并不能克服不確定性干擾的影響。文獻[15]提出了一種數據驅動的無模型自適應控制方法，用于無人駕駛車輛橫向運動控制，這種方法的參數需要大量數據集進行訓練，文獻[16]考慮了未建模的車輛非線性動力學和道路不確定性，通過無模型的迭代學習控制方法研究賽車的跟蹤控制，這種方法適合參考軌跡固定的路徑跟蹤，遇到新的場景和干擾需要重新進行訓練學習來確定參數。

考慮到在高速跟蹤越野環境復雜路況的場景，無人車在高速運動過程中的非線性動力學特性較為復雜，無法建立精確的車輛動力學模型，導致控制參數和控制律設置較為困難[17]，并且越野環境下復雜路況不斷變化的曲率和路面條件、地形因素等也給路徑跟蹤控制帶來了影響[18]，這使得現有的路徑跟蹤控制技術難以滿足跟蹤精度和穩定性要求。

針對越野環境下高速跟蹤復雜路況的任務需求，為了減小模型失配和道路曲率等干擾帶來的影響，本文基于車輛動力學誤差模型，設計了一種在線更新學習系數的參數自學習前饋控制器（parameters self-learning feedforward controller），與模型預測控制方法構成前饋-反饋控制框架，并在越野路況進行了實驗驗證。越野環境實車實驗結果表明，相比傳統模型預測控制方法，所設計的控制器在跟蹤精度和穩定性上都有較大改善。

1 車輛模型

1.1 車輛動力學模型

無人車以較高的速度在越野環境下進行復雜路況的路徑跟蹤時，簡單的車輛運動學模型難以滿足復雜工況下的車輛行駛的瞬態特性和穩定性需求。因此，進行了車輛動力學模型的建立，基于車輛單軌模型，如圖1所示，推導出了車輛運動過程中的狀態量與控制量前輪偏角之間的關系式。

圖1 車輛單軌模型Fig.1 Vehicle monorail model

車輛動力學模型采用的狀態量：y表示車輛橫向位置信息，φ表示車輛偏航角信息，δ為前輪偏角，經推導計算可得到如下車輛動力學模型狀態方程：

其中，m為整車質量，Iz為車輛繞z軸轉動的轉動慣量，Vx為車輛速度，lf和lr為車輛質心距前、后軸的距離，Cαf和Cαr為車輛前、后輪的側偏剛度。

1.2 車輛動力學誤差模型

在復雜環境下，為有效提高無人車路徑跟蹤精度，使用相對于參考路徑的位置誤差和航向角偏差作為動力學模型的狀態變量建立動力學誤差模型，求解控制變量前輪偏角。因此，在現有車輛動力學模型的基礎上經推導可得出以下基于跟蹤誤差變量的狀態空間模型：

式中，ey為橫向誤差，eφ為航向偏差，φ?des為參考橫擺角速度。

2 控制器設計

傳統控制方法基于誤差模型在參考路徑附近近似線性化，沒有考慮車輛動力學模型與實際系統的不匹配，此外，路況等實驗環境存在無法建模的干擾，如路面起伏顛簸程度、土壤條件等，導致路徑跟蹤控制器的效果難以達到預期目標。基于動力學誤差模型，設計了一種參數自學習控制器結構，前饋控制器根據誤差在線更新學習系數，模型預測控制器作為反饋控制。控制器結構如圖2所示。

圖2 控制器框圖Fig.2 Controller block diagram

如式（3），控制輸入由前饋動作和反饋動作組成：

其中，δb為反饋控制輸入量，δf為前饋控制輸入量，在以下小節中闡述。

2.1 反饋控制量求解

式（3）中反饋動作δb由動力學MPC 計算所得，考慮以下動力學線性時域模型：

式中，Np和Nc分別為預測時域和控制時域，Q和R是系統權重矩陣，η為狀態向量，Δu為控制量增量。

在每個控制周期完成上述求解后，得到控制時域內的一系列輸入增量：

2.2 前饋控制量求解

前饋控制動作δf由參數自學習控制算法求得：

式中，δr為參考前饋控制動作，由參考路徑信息獲得。L和H為前饋控制輸入的更新系數，也即參數自學習控制算法所要求解的學習系數。

3 自學習前饋控制器設計

3.1 學習系數

由上述動力學誤差模型，得到控制量和橫向誤差及航向誤差的表達式：

其中，λ為正的常數，即λ ＞0，也就是說，如果代價函數E收斂于0，則滿足魯棒控制性能條件，e?y+2λe?y+λ2ey=0，e?φ+2λe?φ+λ2eφ=0，也即橫向誤差和航向誤差收斂于0。

梯度下降法是一種尋找函數最小值的一階迭代優化算法，在這種方法中，步長的取值與閉環誤差函數梯度的負值成正比，以下用梯度下降法尋找代價函數E的最小值：

故而，前輪偏角的前饋控制輸入表達式中的學習系數L的更新式為：

3.2 穩定性分析

代價函數E是半正定的李雅普諾夫函數，即E≥0，為驗證參數自學習控制算法的穩定性，將李雅普諾夫函數E對時間求導數：

可知，如果學習系數選取合適，李雅普諾夫函數E的時間導數為負，即E?＜0，證明參數自學習控制算法的漸進穩定性。

3.3 收斂性分析

參數自學習控制算法中還需要考慮的問題是系統可能會停留在某些局部極小值而無法求得全局最小值解。接下來我們將分析參數自學習控制算法是否能夠跳出局部最小值，求解出全局最小值，這里取代價函數

式（22）和式（23）表明前輪偏角的代價函數的二階導符號是正的，因此沒有局部最小值，這就說明系統達到了全局最小值，由于α為常數，δr是有界的，表明學習系數收斂到有界值，穩態下系數的有界值計算出有界前饋動作。

4 實驗驗證

4.1 實驗平臺

實驗平臺采用的是基于奇瑞瑞虎車改裝后的“智能先鋒號”無人車，車載感知系統有64線激光雷達1臺、彩色攝像頭1臺以及GPS慣導組合導航系統，計算平臺配有兩臺工控機，自動駕駛軟件架構包含感知、決策、規劃、控制四部分，相互之間進行TCP 通信，各自并行計算。實驗平臺如圖3所示，平臺參數如表1所示。

圖3 實車實驗平臺Fig.3 Real vehicle experimental platform

表1 實車平臺參數Table 1 Parameters of real vehicle platform

4.2 實驗方案

為保證路徑跟蹤實車實驗的安全性以及有效性，選取了起伏顛簸的磚石場地和起伏大曲率的越野路面兩個實驗場景分別進行30 km/h速度下的直角轉彎路徑跟蹤和50 km/h速度下的S型路徑跟蹤實驗，如圖4和圖5所示。初始時，車輛位置從參考軌跡起點出發，航向與參考軌跡初始方向一致。每組實驗分別進行多次，選取其中3 組較為合理的實驗數據取平均值進行數據處理。實驗參數設置如表2所示。

表2 實驗參數Table 2 Experimental parameters

圖4 直角彎實驗場地Fig.4 Right-angle turning experimental site

圖5 S型實驗場地Fig.5 S-type path experimental site

4.3 實驗結果

本次實驗目的為驗證所設計的參數自學習控制器的路徑跟蹤控制效果，并與不加前饋控制的模型預測控制器（MPC）的路徑跟蹤控制結果對比，實驗結果對比圖如圖6 和圖7 所示，控制器A 代表所設計的參數自學習控制器結構，控制器B代表傳統模型預測控制器。橫向誤差和航向誤差分別代表了無人車控制算法位置跟蹤和航向跟蹤的能力；橫擺角速度和車輛的穩定性直接相關，且極限值與路面摩擦系數等道路條件有關。這里只考慮數值大小，分別對直角彎路徑跟蹤和S型路徑跟蹤兩種路況下的實驗數據進行了分析處理，處理結果如表3所示。

圖6 直角型路徑跟蹤實驗結果對比Fig.6 Comparison of experimental results of right-angle path tracking

圖7 S型路徑跟蹤實驗結果對比Fig.7 Comparison of experimental results of S-type path tracking

表3 實驗數據Table 3 Experimental data

由實驗結果對比圖分析，誤差的波動是因為高速跟蹤起伏顛簸的復雜路況需要及時地修正誤差，而誤差較大的地方是在道路曲率快速變化的地方，這也說明了高速復雜路況路徑跟蹤的控制難點，結合實驗數據表格，與模型預測控制（MPC）相比，所設計的參數自學習控制器在兩種高速越野場景下的路徑跟蹤實驗中橫向誤差和航向誤差都較小，表明所設計的控制器比MPC 跟蹤精度更高；且在兩種路況下，所設計的控制器的橫擺角速度最大值在極限值范圍內比MPC 更小，表明路徑跟蹤過程中車輛橫擺穩定性更好，安全性更高，驗證了所設計的控制器能夠在一定程度上克服車輛動力學未建模的不確定性和路況的干擾對路徑跟蹤控制帶來的影響，相比模型預測控制（MPC）有著更好的跟蹤控制性能。

5 結束語

針對越野環境下高速復雜路況的路徑跟蹤場景，為了克服車輛動力學未建模的不確定性和道路條件的干擾，提高跟蹤精度和車輛行駛穩定性，以車輛動力學誤差模型為基礎，設計了一種參數自學習的前饋補償控制器，與模型預測控制構成前饋-反饋的控制器結構，根據實時狀態的誤差大小在線更新前饋控制器參數，自適應調整前饋控制動作和反饋控制動作的權重，并在野外場景進行了復雜路況的實驗驗證。實驗結果表明，與傳統的模型預測控制（MPC）相比，所設計的控制器在兩種場景下路徑跟蹤的橫向誤差和航向偏差更小，橫擺角速度也在穩定范圍內有所減小，即所設計的控制算法在進行高速復雜路況的路徑跟蹤中，跟蹤精度和車輛穩定性都有所改善，能夠保證較好的路徑跟蹤性能。