司明玉,周金應,褚觀耀,龍軍,程前
(中國汽車工程研究院股份有限公司,重慶 401122)
自適應巡航控制系統作為一種先進的駕駛輔助系統,可以實時控制自車與前車的距離,顯著提高了道路車輛的行駛安全性,受到了廣泛的關注。文獻[1-2]研究了自適應巡航控制的經濟性,采用基于動態規劃的算法,兼顧了安全與節油。文獻[3]提出了基于多目標優化的模型預測控制算法,以提高車輛跟隨工況下的燃油經濟性和跟隨性能。文獻[4]設計了一種魯棒的自適應巡航控制器,用于改善車輛加速度和換擋策略,使車輛在不同交通狀況下都能保持良好的燃油經濟性,但由于換擋策略是離線設計的,無法保證發動機處于最佳工作點。文獻[5-6]采用脈沖滑模控制方法,使發動機在高效率的區域工作,可有效降低車輛行駛時的燃油消耗。文獻[7-8]將道路坡度和車距信息加入到控制系統,優化了車輛的加速度輸出,可改善車輛的燃油經濟性。
綜上所述,針對自適應巡航控制的研究日益得到重視,但對于如何基于車輛的動力響應特性,實現安全與節油的協同控制并兼顧控制的最優性,還有待進一步研究。
本文以自適應巡航控制器為研究對象,在分析其結構與特性的基礎上,提出一種基于在線學習的經濟自適應巡航控制器,該控制器可以同時實現換擋控制和牽引力控制,以提高燃油經濟性和行駛安全性。基于執行依賴啟發式動態規劃(ADHDP)方法得到車輪牽引力,控制車輛速度,確保安全行駛。通過設定換擋控制策略,調整發動機工作點,從而提高車輛的燃油經濟性。
本文設計的經濟自適應巡航控制器的主要優點有:1)所提出的控制方法是基于在線學習的,不依賴于車輛動力學模型,可以適應不同的行駛工況;2)將牽引力與換擋控制相結合,兼顧車輛的燃油經濟性和行車安全性,可實現在線計算。
本文研究的汽車跟隨過程如圖1所示。vp和vh分別表示前車和自車速度,L為兩車的實際距離,可以通過雷達傳感器等測得。在跟隨前車過程中,自車在自適應巡航控制器的作用下,保持期望的安全距離Ldes行駛。

圖1 跟車工況
自車的縱向動力學模型如式(1)所示。
(1)
其中:Ft是車輪的牽引力,當Ft<0時,表示其為制動力;ρ為空氣密度;A為車身迎風面積;Cd為空氣阻力系數;m為車輛質量;f為滾動阻力系數;α為路面坡度。
燃油消耗率如圖2所示。燃油消耗率是發動機轉矩Te和發動機轉速ωe的非線性函數,可表示為

圖2 燃油消耗率圖
(2)
自車采用自動機械傳動(AMT),將發動機轉矩傳遞到車輪上,以滿足行駛動力要求,發動機和車輪的速度和轉矩關系分別由下式確定:
(3)
其中:ig為齒輪位置g對應的傳動比;rw為車輪半徑;ηg為傳動效率。
AMT中的換擋策略決定了齒輪傳動比,并以此調整發動機的工作點。為了避免跳躍式換擋所帶來的車輛舒適性變差的問題,僅允許順序換擋。設計的換擋策略根據上一時刻的齒輪位置g(t-1)來控制當前時間步長的齒輪位置g(t),并且根據如下的動態模型來發出換擋指令:
g(t)=g(t-1)+ug(t)
(4)
其中:ug屬于集合{-1,0,1},-1表示下降,1表示上升,0表示保持不變。
在車輛跟隨情況下,經濟自適應巡航控制的目標有兩個:最低燃油消耗率和為了保證安全行駛所需的期望車輛間距Ldes。車輛距離偏差定義為ΔL=L-Ldes,相對速度偏差定義為Δv=vp-vh,Ldes的表達式如下:
Ldes=τhvh+d0
(5)
其中:τh是采樣時間間隔;d0是靜止距離。
車輛距離偏差ΔL和相對速度偏差Δv的動態模型可以表示為:
(6)
其中ap是前車加速度。
通過車輛距離偏差和車速偏差來評價車輛跟車工況下的跟蹤性能,為了改善燃油經濟性和跟蹤性能,設置目標函數為
(7)
其中Tcyc是車輛的行駛里程。
經濟自適應巡航控制的最優問題是綜合考慮經濟和安全指標,求解控制變量u=[Ft,ug]T,使得目標函數式(7)最小。因此,設置如下的約束條件:
amin≤ah≤amax
ΔLmin≤ΔL≤ΔLmax
Δvmin≤Δv≤Δvmax
Te,min≤Te≤Te,max
ωe,min≤ωe≤ωe,max
ig∈{ig1,ig2,ig3,ig4,ig5}
(8)
本節介紹基于Actor-Critic結構的自適應動態規劃(ADP),并討論其在經濟自適應巡航控制中的應用。
ADP作為強化學習的一種主要變體,是一種基于學習的控制方法,它根據與環境的交互進行決策。
如圖3所示的Actor-Critic結構,從Actor網絡中可生成一個行為,并使用Critic網絡進行評估,得到一個增強信號。通過最小化從Critic網絡獲得的值來改善控制策略。ADP通常可以在不依賴系統模型的情況下,在線近似地求解最優控制問題[9]。

圖3 Action-Critic結構
設有如下非線性離散時間系統:
r(xt,ut)=r(xi,ut)+βV(xt+1)
(9)
其中:0<β<1;r(xi,ui)是根據控制輸入ui和狀態量xi得到的瞬時值。
ut=h(xt)的貝爾曼最優方程如下:
(10)
由式(10)可得
h*(xk)=argmin[r(xt,h(xt))+βV*(xt+1)]
(11)
1)Critic網絡和在線學習

圖4 Critic網絡的結構

Critic網絡的誤差函數定義為估計值與實際值之間的誤差,如下所示:
(12)
其中r(t)為外部增強信號。
Critic網絡的學習目標是通過更新參數wc,使誤差函數ec(t)最小化,如下所示:
(13)
基于鏈推導規則的梯度下降自適應算法可用于更新權重,得到修正的權重為[10]:

(14)
其中ηc(t)是Critic網絡的學習速率。
2)Action網絡與在線學習



(15)
Action網絡的訓練和Critic網絡類似,其權重如下所示:

(16)
其中ηa(t)是Action網絡的學習速率。
經濟自適應巡航控制的目標是保持與前車的安全距離,并且使相同時間內的燃油消耗最小。通過調整牽引力Ft來控制自車的速度,使其跟隨前車安全行駛,并由最優換擋控制ug來調整發動機工作點,總體控制算法如圖5所示。

圖5 控制算法
假設已經測得車輛距離偏差ΔL和車速偏差Δv,在每個時間步長,可以從集合{-1,0,1}選擇換擋指令ug。由式(3)和式(4)可得ug對應的發動機轉矩和發動機轉速。牽引力Ft可由Action網絡中的ADHDP方法計算得到。

在學習過程開始時,Critic和Action網絡的參數在[0,0.4]中隨機選取。在每一個時間步長中,利用Critic網絡對式(13)進行迭代。迭代停止判據為最大迭代次數Nc和容差Tc。如果迭代滿足任意一個條件,則停止迭代過程,并從Critic網絡中導出近似值函數。同理,利用Action網絡對式(15)進行迭代,迭代停止判據為最大迭代次數Na和容差Ta,當滿足任意一個條件時,停止迭代過程,并從Action網絡中導出最優牽引力和換擋指令,最終應用于車輛。
針對城市道路和高速公路的行駛場景,對所提出的控制方法進行了仿真。仿真參數如表1所示。

表1 仿真參數
針對城市道路循環工況(UDDS)進行了經濟自適應巡航控制器的仿真。前300 s的仿真結果如圖6所示,自車的速度曲線與前車的速度曲線非常接近,距離偏差保持在-2 m~2 m的范圍內,這表明車輛具有良好的跟蹤性能和安全性。車輛的加速度<2 m/s2,可保證良好的乘坐舒適性。

圖6 城市道路循環工況(UDDS)仿真
與文獻[11]中給出的基于規則控制策略產生的擋位相比,獲得了更高的擋位,這有利于發動機燃油經濟性。
UDDS工況仿真的燃油消耗量如表2所示。相比本文提出的換擋策略,基于規則的換擋控制方法的燃油消耗率要高出23.3%。另外,在仿真過程中,前車所消耗的燃油量比同一檔位的自車多3.7%左右。由此表明,本文設計的經濟自適應巡航控制器不僅能保證行車安全,而且能夠提高燃油經濟性。

表2 UDDS仿真燃油消耗量對比
高速公路燃油經濟性測試(HWFET)工況前300 s仿真結果如圖7所示。自車的速度可以很好地跟隨前車的速度,使得車距偏差的變化范圍很小,并保持安全行車所需的車輛間距。

圖7 HWFET仿真
車輛行駛過程中,加速度始終處于小范圍內,因此可保證車輛具有良好的舒適性。相對于基于規則的控制策略,本文所提出的換擋方案能夠產生更高的擋位調節發動機工作點,從而改善車輛的燃油經濟性。
表3給出了高速公路燃油經濟性測試的仿真燃油消耗量。基于規則的控制方案燃油消耗比本文所提出的換擋策略高3.8%,并且,與相同換擋控制的前車相比,自車的燃油消耗少0.7%。

表3 HWFET仿真燃油消耗量對比
本文基于車輛縱向動力學特性分析與辨識,設計了一種兼顧安全與節油的車輛經濟自適應巡航控制器。采用執行依賴啟發式動態規劃(ADHDP)方法控制車輪的牽引力,實現跟車功能。通過設置在線換擋策略來調整發動機工作點,從而改善車輛的燃油經濟性。通過仿真對比,驗證了系統的有效性,得出如下結論:
1)基于在線學習的經濟自適應巡航控制器,能在保證安全跟車的前提下,改善車輛的燃油經濟性。仿真結果表明,該控制器實現了車輛的安全與節油的協同優化。
2)設計的控制器無需模型,通過在線計算可以適應不同的行駛工況,在兼顧最優性的同時,能夠保證控制的實時性。