基于動態規劃與機器學習的插電式混合動力汽車能量管理算法研究＊

2020-10-26 07:27:40陳渠殷承良張建龍秦文剛

汽車技術 2020年10期

陳渠殷承良張建龍秦文剛

（1.上海交通大學，汽車電子控制技術國家工程實驗室，上海 200240；2.聯合汽車電子有限公司，上海 201206）

主題詞：插電式混合動力汽車能量管理算法動態規劃 K-均值聚類 BP神經網絡

1 前言

插電式混合動力汽車（Plug-in Hybrid Electric Vehicle，PHEV）的能量管理算法通常分為3 類，即基于規則的、基于優化理論的和基于工況自適應的能量管理策略[1]?；谝巹t的能量管理算法通常根據特定的規則分配發動機和電機的扭矩，從而達到節能的目的[2]。基于優化的能量管理算法可以分為瞬時優化和全局優化兩種。等效燃油消耗最小策略（Equivalent Fuel Consumption Minimization Strategy，ECMS）是目前混合動力汽車上應用最廣泛的瞬時優化策略[3]，通過等效系數將電量平衡所需能量轉換為燃油消耗量，當等效系數選擇合適時，ECMS 作為次優解，可以獲得接近全局最優解的控制效果[4]?；谌謨灮哪芰抗芾聿呗?，如動態規劃（Dynamic Programming，DP）算法，雖然可以獲得全局最優解，但需預知行駛工況信息，且計算時間長，難以用于實車控制[5]。

基于工況自適應的能量管理策略通過已有的工況信息進行數據分析整理，進而對未來的行駛工況進行預測，根據預測的工況信息調整能量管理策略中的相關參數進而實現PHEV根據工況變化的自適應控制[6]。隨著人工智能的快速發展，越來越多的學者將機器學習應用到工況識別和整車能量分配上。文獻[7]應用學習向量量化（Learning Vector Quantization，LVQ）神經網絡進行工況預測，根據不同的預測結果應用不同類型的能量管理策略。文獻[8]建立了馬爾科夫模型預測駕駛員行為，結合ECMS 調整等效燃油系數，實現功率的自適應分配。文獻[9]在統計若干城市循環工況數據的基礎上建立需求功率的馬爾科夫預測模型，對預測的結果應用動態規劃算法，獲取發動機和電機之間的功率優化分配。

基于對上述PHEV能量管理算法的探討，本文提出基于動態規劃與機器學習（Dynamic Programming and Machine Learning，DPML）的PHEV能量管理算法。首先選擇能夠代表各種工況類型的20 個標準工況，分別將其劃分為時長150 s 的工況段，以平均速度和巡航時間比為特征參數，采用K-均值聚類算法將其劃分為3 個類型，然后利用動態規劃算法對20 個標準工況進行仿真計算，得到不同類型工況的最優功率分配方式，分別對每種工況段類型訓練相應的神經網絡模型。最后針對某隨機工況提取特征參數，進行工況識別，根據當前所屬的工況段類型選擇相應的神經網絡模型進行功率分配，驗證本文算法的有效性。

2 PHEV整車模型

2.1 整車及動力系統模型

本文采用的P2構型PHEV 整車結構如圖1所示[10]，發動機和電機模型均采用查表方式進行建模，整車和動力系統模型參數見文獻[11]。

圖1 PHEV動力傳動系統結構

不考慮車輛的振動和操縱穩定性時，車輛的縱向動力學表達式為：

式中，Tw為需求扭矩；m為整車質量；g為重力加速度；fr為滾動阻力系數；θ為坡道角度；CD為空氣阻力系數；ρd為空氣密度；A為迎風面積；v為車速；δ為旋轉質量換算系數；t為時間；r為車輪滾動半徑。發動機和電機的扭矩和轉速關系為：

式中，ηT為變速器與驅動橋的總傳動效率；R(i)為變速器第i擋速比與主減速比的乘積；Te為發動機輸出扭矩；Tm為電機輸出扭矩；Tb為摩擦制動器的制動扭矩；ωw為車輪轉速；ωe為發動機轉速；ωm為電機轉速。

2.2 電池模型

SOC是整車能量管理的重要變量，直接影響需求扭矩在發動機和電機之間的分配。本文將動力電池簡化為等效電路模型，可得：

式中，I為電池電流；U0為電池開路電壓；R為電池內阻；Pb為電池充、放電功率；ηm為電池充、放電效率；Q為電池容量；SOC(k)為k時刻荷電狀態。

當電機輸出扭矩Tm≥0 時，電池處于放電狀態，當Tm<0 時，電池處于充電狀態。

3 能量管理算法

首先將標準工況劃分成等長的工況段，利用K-均值聚類算法將工況段劃分成不同的聚類中心；然后利用動態規劃算法求解不同標準工況的最優控制規律；最后，針對不同類型的工況段，利用神經網絡模型離線探索其能量管理最優控制規律，進而提出基于動態規劃與機器學習的PHEV能量管理算法。

3.1 K-均值聚類算法工況識別

車輛在行駛過程中從某時刻開始，經過時間tl后到達下一時刻，2個時刻之間的運動過程作為一個數據單元，這種運動學片段稱為工況段。工況識別是實時歸納過去tp（識別周期）時間內的車速變化規律，預測未來tq（預測周期）時間內的行駛趨勢變化，當識別周期為150 s，預測周期為3 s 時，識別結果的精度較高[12]，所以本文設tp=150 s，tq=3 s。

工況特征參數的作用是進行工況識別，目前工況特征參數約有62種，參照文獻[8]，選取平均速度和巡航時間比為本文的特征參數：

式中，vmean為工況段的平均速度；sseg為工況段的總路程；tseg為工況段的總時間，本文取150 s；rdrive為工況段的巡航時間比；tdrive為工況段的巡航時間。

本文從ADVISOR 車輛仿真軟件中選取20 個標準工況進行K-均值聚類分析，標準工況包括：WLTC、NEDC、UDDS、HWFET、LA92、NYCC、US06、UNIF01、SC03、REP05、OCC、NurembergR36、MANHATTAN、INRETS、INDIA_HWY、INDIA_HWY、IM240、HL07、HHDDT65、ARB02。

將以上20個標準工況劃分為時長150 s的216個工況段，利用K-均值聚類分析，得到最終的聚類中心，結果如圖2所示。圖2中工況段數據劃分為3個簇，簇1代表擁堵工況，簇2代表緩行工況，簇3代表高速工況，最終的聚類中心分別為(14.01,71.73%)、(34.47,83.38%)、(66.40,97.37)。其中擁堵工況88個樣本，緩行工況63個樣本，暢通工況65 個樣本，各類型工況分布平均，說明以上20個標準工況的選取較為合理。

圖2 標準工況段的聚類分析結果

K-均值聚類算法工況識別的思路是：提取當前時刻前的識別周期內工況的特征參數，將提取的特征參數作為一個數組，計算出該數組與各最終聚類中心的歐氏距離，與數組距離最近的聚類中心為該數組所屬的簇，當前時刻所屬的工況為此簇所代表的工況類別。

3.2 動態規劃算法

3.2.1 原理

動態規劃算法求解需要2 個過程：第1 個過程逆向進行，利用遞歸方程從最后一個階段開始，求得各階段每個狀態的最優性能指標和最優控制變量參數；第2個過程為正向遞推過程，進行最優控制序列和最優軌跡的復原，從給定的初始狀態找到對應的最優控制，并根據系統狀態轉移方程求得下一時刻的狀態，得到對應的最優控制。

定義系統的狀態變量x(k)和控制變量u(k)為：

式中，S(k)為系統k階段的換擋信號。

系統的狀態轉移函數為式（6）和式（10）：

本文所研究的全局最優控制策略以燃油消耗量最小為目標，不考慮排放問題，因此定義k階段的燃油消耗量代價函數L(x(k),u(k))為：

式中，b(x(k),u(k))為k階段車輛的燃油消耗率，可以由發動機的輸出扭矩Te(k)和轉速ωe(k)查表獲得。

k階段目標函數Jk,N定義為第k～N階段的代價函數之和：

所以最優目標函數的動態遞歸方程為：

3.2.2 計算可行域

由于DP 程序由多層循環嵌套，根據所選工況的不同及狀態變量和控制變量離散化程度不同，其計算時間可達十幾甚至幾十小時。參照文獻[13]和文獻[14]的方法，求解整個循環工況下SOC的可行域，預先去除不可行的SOC離散點，從而減少計算時間。

3.2.3 計算結果

PHEV 的SOC初始值可以是0～1 內的任意值。所以針對以上20 個標準工況，利用動態規劃算法分別求解10 組不同SOC初始值（0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0）的最優功率分配，在較好地覆蓋PHEV 動力電池在車輛實際行駛中的情況的同時可以增加神經網絡模型的訓練數據量。動態規劃求解的WLTC 標準工況初始SOC為0.6 時的狀態變量和控制變量結果如圖3所示。

圖3 WLTC工況動態規劃計算結果

3.3 神經網絡模型

在特定循環工況下，動態規劃算法的最優控制變量與狀態變量之間存在確定的非線性關系。本文采用BP神經網絡對動態規劃算法計算出的不同類型工況段的最優控制律與狀態變量之間的非線性關系進行解析，分別得到3個適應不同類型工況段的神經網絡模型。

采用前文動態規劃方法求解PHEV 在各工況下最優控制問題，獨立的狀態變量有電池SOC和變速器擋位，獨立的控制變量有電機扭矩信息和換擋信息。假設車輛的行駛速度能完全跟蹤給定的循環工況速度軌跡，即車速、需求轉矩在每個時刻均為已知量，發動機和電機轉速信息可以根據式（3）確定，發動機扭矩信息可以由式（2）確定。因此，本文建立的BP神經網絡的輸入量為當前時刻和前一時刻的車速、駕駛員需求轉矩、電池SOC和擋位信息，其輸出變量為當前時刻驅動電機的扭矩和換擋信息，模型如圖4所示。

圖4 BP神經網絡模型

本文以擁堵類型的工況段為例說明神經網絡的訓練過程。擁堵類型的工況段數量為88 個，針對每個標準工況，前文利用動態規劃算法均求解了10 組不同SOC初始值的最優功率分配，即每個標準工況下的工況段均有10組計算結果，而每個工況段時長為150 s，所以每個工況段均有150 個最優狀態點，則共有132 000 個樣本點，其他類型的數據量如表1所示。

表1 神經網絡訓練數據量

隨機分配70%的樣本數據作為訓練數據，另15%的樣本數據作為驗證數據，剩余的15%作為測試數據。參考文獻[15]，建立隱含層層數為2的神經網絡，第1隱層的節點數量為20個，第2隱層的節點數量確定為10個，訓練算法采用Lervenberg-Marquardt，用均方誤差測量訓練性能。網絡的訓練誤差曲線如圖5 所示，經過102次訓練迭代后，驗證誤差為0.007 857 8，表明此時的網絡輸出較為精確。最后，將訓練完成的神經網絡進行封裝，生成MATLAB 神經網絡模型自定義函數。至此，擁堵工況段類型的神經網絡模型構建完成。

圖5 神經網絡的訓練誤差

4 仿真分析

4.1 控制策略流程

基于動態規劃與機器學習的PHEV 能量管理算法控制流程如圖6 所示。該算法將動態規劃與機器學習算法相結合，具體分為4個步驟，其中前3個步驟為離線運算，第4步為實時運算：

a.將20 組標準工況段劃分為時長150 s 的工況段，提取特征參數，利用K-均值聚類算法對工況段進行聚類分析，得到聚類中心；

b.利用動態規劃算法得到20 組標準工況的最優功率分配方案；

c.將得到的最優功率分配方案根據每個工況段所屬的類型進行劃分，得到不同類型工況的最優功率分配方案，并分別訓練神經網絡模型；

d.針對某段隨機工況，提取特征參數，利用K-均值聚類算法進行工況識別，根據當前所屬工況段類型選擇相應的神經網絡模型進行功率的優化分配，提高PHEV的燃油經濟性。

圖6 控制策略流程

4.2 仿真結果分析

利用MATLAB/Simulink搭建整車仿真模型，評估和驗證本文提出的能量管理算法。采用上海市某段隨機工況進行控制策略的驗證，該工況如圖7 所示。采用K-均值聚類算法的工況識別結果如圖8所示，可知該隨機工況較均勻地包含了3種類型的工況段。

圖7 隨機工況

圖8 工況識別結果

表2 對比了CD-CS、DPML 和DP 算法在不同初始SOC值而終點SOC≈0.2 時的燃油消耗量，由表2 可知，相較于CD-CS 策略，DPML 和DP 算法的優化效果呈現先上升再下降的趨勢，因為在終點SOC值不變的情況下，當初始SOC值較大，滿足純電動行駛時，全程不起動發動機，DPML與DP算法的優化效果不明顯，而當初始SOC值較小，接近終點SOC值時，發動機需要全程起動，DPML與DP算法的優化效果也不明顯。當初始SOC值為0.7 時，基于DPML 的能量管理算法燃油消耗量為1.385 8 L/(100 km)，與CD-CS 策略相比，下降了7.51%，具有明顯的優化效果，雖相較于DP 算法的優化效果下降了0.97%，但其克服了DP 算法需要提前獲取實車路譜和不滿足實時性要求的缺點。

圖9 所示為發動機工作點分布情況，基于DPML 的能量管理算法得到的發動機工作點大多分布在最佳效率曲線附近，以達到提高整車燃油經濟性的目的。圖10～圖12分別為3種算法計算得到的發動機扭矩、電機扭矩和電池SOC隨時間的變化曲線。CD-CS 策略先進行純電動行駛，進入電量消耗模式，SOC減小到臨界值后起動發動機，進入電量維持模式，所以SOC曲線呈現先下降再維持的趨勢，整車燃油經濟性較差。DP 算法利用遞歸方程可以求得全程每個狀態點的最優控制量，在最優的時間起動發動機，其最優SOC曲線呈現全程緩慢下降的趨勢。DPML算法以DP算法的最優功率分配數據分別訓練3個類型工況段的神經網絡模型，在控制過程中基于K-均值聚類算法選擇適當的神經網絡模型，在隨機工況下控制規律與DP算法相似，即提前起動發動機，SOC曲線呈現全程緩慢下降的趨勢，從而可以接近DP全局最優解。

表2 不同策略下燃油消耗量對比

圖9 發動機工作點

圖10 發動機扭矩對比

根據動態規劃算法計算得到的20 組標準工況結果，按照不同的工況類型，統計發動機起動時間與該工況類型總時間的比值如圖13所示，由圖13可以看出，擁堵工況、緩行工況和暢通工況下該比值依次增大，說明在動態規劃控制策略下，發動機更傾向于在擁堵工況下關閉，在暢通工況下運行，從而確保了發動機運行在高效區域，提高燃油經濟性。

圖11 電機扭矩對比

圖12 SOC曲線對比

圖13 不同工況下發動機起動時間與總時間比值

擁堵工況、緩行工況、暢通工況的神經網絡模型分別記為NNL、NNM 和NNH，單獨采用以上3 個模型，不根據工況識別結果切換進行仿真，當初始SOC值為0.7時，得到的發動機扭矩、電池SOC隨時間變化曲線與DPML的對比如圖14和圖15所示。不同模型的燃油消耗量對比如表3所示。

SOC值下降到門限值前，NNL起動發動機的時間較短，控制規律與前文訓練數據的分析相符，當SOC值下降到門限值后，發動機才開始長時間運行，與動態規劃的最優控制規律不同。其燃油消耗量為1.402 7 L/(100 km)，與DPML 相比，油耗增加了1.22%。由圖8 可知，擁堵工況時長占總時長的44%，在該隨機工況下，由于DPML 有大部分的時間切換到NNL 控制策略，所以兩者的燃油經濟性接近。NNM 的SOC曲線較NNL 下降更平緩，燃油消耗量為1.397 4 L/(100 km)，僅比DPML增加了0.84%的油耗。由圖13 可知，緩行工況下訓練數據的發動機起動頻率為26.79%，而在該隨機工況下DPML 發動機的理論起動頻率（工況類型時間占比與該工況下發動機起動頻率乘積之和）為24.95%，兩者十分接近，所以NNM 的燃油經濟性也接近于DPML。而NNH 模型在整個工況下都更加傾向于起動發動機，所以其發動機運行時間最長。其SOC曲線雖然緩慢下降，但到終點時，還有多余電量，不能最大程度發揮PHEV 的節能潛力。

圖14 發動機扭矩對比

圖15 SOC曲線對比

表3 不同模型的百公里油耗對比

綜上所述，DPML可以根據工況類型切換神經網絡模型進行控制，在擁堵的工況采用NNL模型，降低發動機運行的頻率，避免發動機運行在低效區，在緩行工況采用NNM 模型，適時起動發動機，在暢通工況采用NNH模型，增大發動機運行的頻率，發動機可以運行在高效區，從而提高了算法在不同工況類型下的適應性，優于單個工況類型神經網絡模型，體現了根據工況類型切換相應控制模型的必要性。

5 結束語

本文設計了基于動態規劃與機器學習的插電式混合動力汽車能量管理算法，首先利用K-均值聚類算法將20個標準工況劃分為3個類型的工況段，然后利用動態規劃算法的最優功率分配數據，分別訓練3個類型工況段的神經網絡模型，最后在控制過程中根據實際工況段類型選擇相應的神經網絡模型優化能量分配。仿真結果表明：其控制規律與動態規劃算法相似，相較于CD-CS 策略，整車油耗下降了7.51%，且優于單個工況類型的神經網絡模型，從而驗證了本文算法的有效性。

本文的仿真結果中，基于動態規劃與機器學習的算法相較于擁堵工況和緩行工況神經網絡模型燃油經濟性的提升有限，不同工況類型的占比會影響其優化性能，后續研究可進一步探討工況分類的合理性以及工況類型的分布對其優化性能的影響。