強化學習在混合動力汽車能量管理上的研究綜述

2021-09-09 02:15:44

汽車實用技術 2021年16期

（重慶交通大學機電與車輛工程學院，重慶 400074）

引言

混合動力汽車（HEV）具備傳統汽車和純電動汽車的優點，其通過調節發動機和電機之間的能源分配，來保證發動機工作在高效率低能耗的區域[1]，目前在混合動力汽車能量管理策略上的研究已經成熟發展，早期主要采用基于規則的策略，如張冰戰[2]等設計了一種雙層次的規則控制策略，后來廣泛采用基于優化控制理論的策略，如解少博[3]等提出了一種基于DP-ECMS的插電式混合動力城市客車能量管理策略。

近年來一些學者和研究人員對基于學習的能量管理方法展開了研究，其中RL方法是一種普遍且有效的具有實時應用的潛力的技術。RL方法在HEV能量管理中，可以分為兩類，一是單一算法，例如LIU T[4]等人提出基于Q-learning算法的混合動力車輛能量管理策略。二是混合算法，其他算法與RL相結合，如隗寒冰[5]等利用深度學習與RL結合，提出基于深度RL的混合動力汽車多目標優化控制策略。這些其他的算法與信息被集成到RL的框架中，可以實現更高效和實時的控制。

本文首先描述HEV能量管理問題，然后總結了RL在HEV能量管理上的不同應用，比較了它們的關鍵性能指標，最后對于RL在能量管理系統的研究前景進行了展望。

1 HEV能量管理系統問題描述

HEV能量管理系統的核心問題通常被描述為一個具有期望控制目標和特定物理約束的最優控制問題[6]。其控制目標可以包括一種或多種選擇，如排氣溫度、排放、燃油消耗、電池荷電狀態等。

最優控制問題通常受到三種物理約束：動力系統的動力學、狀態變量的初始值和終值以及對控制變量和狀態變量的限制。系統地輸入一般為需求功率、當前SOC等，系統的狀態變量一般為SOC、發動機和電機的轉速等，系統的控制變量一般為發動機輸出功率、電機的輸出功率、換擋和離合器狀態等。為了解決最優控制問題，需要對這些參數進行限制界定。

2 強化學習

RL的目標就是通過智能體與環境之間的試錯學習，找到最優策略，使得累積回報的期望最大[7]，其中智能體是學習者和決策者，智能體首先根據觀測到的環境狀態來選擇對應的動作作用到環境中，得到對應的回報獎勵和下一步的狀態，然后根據回報的大小不斷試錯學習改進其策略，以獲得大的回報獎勵[8]。對應的混合動力汽車能量管理問題中的RL框架如圖1所示，在混合動力汽車能量管理問題中環境可以看作車輛的行駛工況、系統動力學和動力系統建模模型。而智能體可以看作具有不同算法的特殊的功率分流控制器，該控制器的目的是根據所接收的狀態和獎勵信息來搜索一系列動作。

圖1 HEV能量管理問題中的RL框架

3 RL在HEV能量管理中的應用

在本節中，首先討論了RL單一算法和基于RL的混合算法在HEV能量管理中的各種應用以及發展，最后總結了HEV能量管理領域中最新的RL方法。

3.1 單一RL算法在HEV上的應用

近年來單一RL算法在混合動力汽車能量管理中得到了廣泛發展，在過去幾年Fang Y[9]等人應用TD(λ)學習算法根據收集到的歷史駕駛數據訓練和學習最優的Q價值函數，結果表明提高了燃油經濟性。

除此之外，陶吉利[10]等人提出了一種基于Q學習的HEV能量管理策略，結果表明此策略有良好的燃油經濟性。Liu C[11]等人利用TD(0)算法訓練估計狀態值表格，并取得了比較好的效果。XU B[12]等人提出了基于Q學習的HEV能量管理策略，分別對比了Q學習、ECMS和恒溫控制策略對HEV燃油經濟性的影響，結果表明基于Q-學習的控制策略更有效。N Yang[13]等人提出了基于Dyna能量管理策略，此策略下的仿真結果表明所提出的算法在學習速率方面取得很大的進步。

3.2 混合RL算法在HEV能量管理問題上的應用

近年來，隨著深度學習和人工智能的快速發展，兩種以及兩種以上的算法被集成到RL框架中。如DL與RL結合形成深度強化學習，其中包括DQN、DDPG、TD3等算法已經應用到混合動力汽車能量管理領域。如張昊[14]等人提出了基于DQN算法的能量管理策略，訓練結果表明所提算法在維持SOC的情況下還有很好的燃油經濟性。隗寒冰[15]等人提出了一種基于DQN的多目標優化的PHEV能量管理策略，結果表明此策略取得比較好的效果。

DQN算法雖然可以有效解決維度災難問題但是針對連續動作輸出并不能達到最優，所以有學者用DDPG進行了改善。如王勇[16]等人以一款豐田PHEV和HEV作為研究對象，提出了基于DDPG的HEV實時能量管理策略，訓練結果表明此策略的HEV的燃油經濟性較高。DDPG算法會出現高估Q值的情況，可能使得算法陷入次優策略中并且導致算法不收斂。所以有學者對此問題進行了改進。如Zhou J[17]等人提出一種基于TD3算法的混合動力汽車能量管理策略，結果表明改進的TD3算法策略收斂速度快，燃油經濟性好。RL除了與深度學習結合，還能與其他算法相結合。如Du G[18]等人提出了一種將啟發式規劃與Dyna智能體相結合的新的RL方法Dyna-H，并應用到HEV能量管理中，證明了所提算法的可以很好地解決維數災難等問題，同時保證了汽車的燃油經濟性。

上述概述了RL單一和混合算法在混合動力汽車能量管理方面的應用，其中他們的具體應用對象及優缺點如表1所示。

基于RL的能量管理策略優于基于規則的策略，但有很多條件限制了它們的實時應用，首先是車載電腦計算能力，再一個是RL需要大量的駕駛數據才能使衍生的策略適應不同的駕駛情況。

3.3 RL在混合動力汽車能量管理領域應用趨勢

基于RL的HEV能量管理未來的發展趨勢有三種情況：

（1）出現新型高效的RL算法應用到此領域中。可以利用不同類型的深度學習算法對大量數據進行分類訓練和學習。如深度信念網絡[19]、循環神經網絡[20]是從大量數據中學習特殊模型得很有前景的方法。

（2）基于RL的能源管理將與智能交通系統相結合，構建智能電網。智能交通系統可以提供實時出行信息、特殊交通情況和天氣情況等，對改進基于RL的能源管理的過程中提供很大幫助。

（3）優化目標將變得更全面和復雜。從優化燃油經濟性的單一目標過渡到多個目標是未來RL在混合動力汽車能量管理領域的研究趨勢。

4 總結

本文首先介紹了能量管理問題的RL框架，在此基礎上討論了基于RL的各種算法在能量管理上的應用，最后對此應用進行了展望。