999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LSTM-DDPG的車速預(yù)測(cè)對(duì)增程式汽車能量管理研究

2025-06-25 00:00:00唐建星楊超岳志剛羅佳鑫于恒彬孫國(guó)陽(yáng)
專用汽車 2025年5期
關(guān)鍵詞:控制策略模型

中圖分類號(hào):U461 收稿日期:2025-02-12 DOI: 10.19999/j.cnki.1004-0226.2025.05.001

Study on Speed Prediction for Energy Management of Add-on Vehicles Based on LSTM-DDPG

Tang Jianxing Yang Chao Yue Zhigang Luo Jiaxin Yu Hengbin Sun Guoyang Automotive Technology Co.,Ltd.,Beijing 10260o,China

Abstract:Inordertoenhancetheenergy management eficiencyofanad-onelectricvehicle(EREV),thepaperfirstlyuses a longshort-term memory(LSTM)neuralnetwork topredictthevehiclesped.Basedonthispredictionresult,thepowerdemandrequiredatfuture momentsisfurthercalculatedandcombinedwiththepowerdemandatthecurent moment,andthesedataare fedto getherintothedeepdeterministicplicygadient (DDPG)intellgence.Tisintellgentbodyisesponsibleforeneratingctrolcommands,andsubsequentlysimulationexperimentsareconductedtoverifytheeal-tieresponsivenessoftheproposedcontrolstrategy. TheexperimentalresultsshowthattheLSTM-DDPGenergymanagement strategyproposed inthisstudyreduces theequivalent fuel consumption by 0.613kg , 0.350kg ,and 0.607kg ,respectively,compared with the DDPG strategy only,the deep Q-network(DQN) strategy,andtheconventionalpower-folowingcontrolstrategyundertheworldheavycommercialvehicletransientcycling(WTVC) operating conditions. In addition, the difference in equivalent fuel consumption is only 0.128kg when compared to the dynamic programming (DP)control strategy,which showsthe advantagesand high eficiencyof this strategy interms ofenergy saving.

Key words: Incremental electric vehicles;Long andshor-term memory neural networks;Deepreinforcement learing;Energy management

1前言

增程式電動(dòng)汽車(EREV)作為一種新能源汽車技術(shù),正受到越來(lái)越多的關(guān)注。EREV通過(guò)車載輔助發(fā)電系統(tǒng)(增程器)提供電能,以延長(zhǎng)電動(dòng)汽車的續(xù)駛里程,有效緩解純電動(dòng)汽車的\"里程焦慮\"問(wèn)題[1]。隨著技術(shù)的進(jìn)步和市場(chǎng)的拓展,EREV的純電續(xù)航能力已能夠達(dá)到 150km 以上,滿電滿油的綜合續(xù)航能力可達(dá) 1000km 左右。

政策的支持是推動(dòng)EREV發(fā)展的重要因素。我國(guó)將新能源汽車產(chǎn)業(yè)視為國(guó)家戰(zhàn)略,密集出臺(tái)了多項(xiàng)相關(guān)政策和發(fā)展規(guī)劃,以實(shí)現(xiàn)碳達(dá)峰、碳中和的目標(biāo)2]。此外,智能網(wǎng)聯(lián)技術(shù)的發(fā)展為EREV的能量管理策略帶來(lái)了革命性的突破,通過(guò)車-車(V2V)通信和車-基礎(chǔ)設(shè)施(V2I)通信,車輛可以交換、共享數(shù)據(jù),以及優(yōu)化能量管理。

在技術(shù)層面,EREV的能量管理策略(EMS)是關(guān)鍵技術(shù)之一。例如,基于優(yōu)化功率跟隨控制的E-REV能量管理策略,通過(guò)灰狼優(yōu)化算法對(duì)增程器啟停功率閾值參數(shù)進(jìn)行優(yōu)化,減少了發(fā)動(dòng)機(jī)頻繁啟停現(xiàn)象,提升了整車的燃油經(jīng)濟(jì)性[3]。此外,氫燃料電池EREV技術(shù)也在快速發(fā)展,如榮威iMAX8氫燃料增程式混合動(dòng)力MPV,該車型搭載了捷氫科技的小功率燃料電池系統(tǒng),實(shí)現(xiàn)了零碳排放和高能量轉(zhuǎn)化效率。

基于長(zhǎng)短時(shí)記憶(LSTM)因其在時(shí)間序列預(yù)測(cè)方面的優(yōu)勢(shì)被廣泛用于車速預(yù)測(cè),而深度確定性策略梯度(DDPG)智能體則利用這些預(yù)測(cè)數(shù)據(jù)來(lái)計(jì)算需求功率,并輸出相應(yīng)的控制量以優(yōu)化能量管理。這種策略不僅提高了能量使用的效率,還通過(guò)仿真實(shí)驗(yàn)驗(yàn)證了它在世界重型商用車輛瞬態(tài)循環(huán)(WTVC)工況下的實(shí)時(shí)響應(yīng)能力。

動(dòng)態(tài)規(guī)劃(DP)作為一種傳統(tǒng)的能量管理策略,因其能夠提供全局最優(yōu)解而在研究中占有一席之地。然而,隨著系統(tǒng)規(guī)模的擴(kuò)大,DP方法面臨著較大的計(jì)算量和存儲(chǔ)需求,即“維數(shù)災(zāi)”問(wèn)題。為了解決這一問(wèn)題,自適應(yīng)動(dòng)態(tài)規(guī)劃(ADP)方法應(yīng)運(yùn)而生,它通過(guò)使用函數(shù)近似結(jié)構(gòu)來(lái)近似解決漢密爾頓-雅可比-貝爾曼(HJB)方程,從而有效處理非線性系統(tǒng)的優(yōu)化控制問(wèn)題[4]。

在現(xiàn)有研究中,盡管已經(jīng)應(yīng)用了多種深度學(xué)習(xí)算法,但未能充分發(fā)揮車速預(yù)測(cè)和強(qiáng)化學(xué)習(xí)兩者的優(yōu)勢(shì)。基于此,本文提出了一種結(jié)合車速預(yù)測(cè)和模型預(yù)測(cè)控制(MPC)強(qiáng)化學(xué)習(xí)的方法來(lái)進(jìn)行能量管理;構(gòu)建了增程式電動(dòng)汽車動(dòng)力系統(tǒng)模型和LSTM的車速預(yù)測(cè)模型,并創(chuàng)建了車速預(yù)測(cè)訓(xùn)練集。利用LSTM方法進(jìn)行車速預(yù)測(cè),并與支持向量回歸(SVR)方法進(jìn)行了比較分析,為了確保足夠的探索性,在DDPG算法中引入了一個(gè)離策略學(xué)習(xí)算法,該算法從一個(gè)探索性的行為策略中學(xué)習(xí)確定性目標(biāo)策略。通過(guò)使用確定性策略梯度,DDPG算法能夠在高維動(dòng)作空間中顯著優(yōu)于其隨機(jī)對(duì)應(yīng)物,并且在計(jì)算上與先前的方法相當(dāng),每次更新的計(jì)算成本與動(dòng)作維度和策略參數(shù)的數(shù)量成線性關(guān)系。

2增程式電動(dòng)汽車工作原理及動(dòng)力系統(tǒng)建模

2.1工作原理

本文研究對(duì)象是某款增程式電動(dòng)汽車,其核心動(dòng)力系統(tǒng)由發(fā)動(dòng)機(jī)、永磁同步ISG電機(jī)、動(dòng)力電池和驅(qū)動(dòng)電機(jī)組成(圖1)。ISG電機(jī)具有雙重角色,既可以作為發(fā)電機(jī)將發(fā)動(dòng)機(jī)的機(jī)械能轉(zhuǎn)換為電能,也可以作為電動(dòng)機(jī)直接驅(qū)動(dòng)車輪。發(fā)動(dòng)機(jī)與ISG電機(jī)的轉(zhuǎn)子剛性連接,共同構(gòu)成增程器,為車輛提供額外的電能或機(jī)械能。動(dòng)力電池不僅為驅(qū)動(dòng)電機(jī)供電,還能在制動(dòng)過(guò)程中回收能量,同時(shí)存儲(chǔ)ISG電機(jī)產(chǎn)生的多余電能[5]。根據(jù)增程器是否工作,車輛可以切換至純電模式或增程發(fā)電模式,以適應(yīng)不同的行駛需求。傳動(dòng)系統(tǒng)則將驅(qū)動(dòng)電機(jī)的動(dòng)力傳遞至驅(qū)動(dòng)輪,確保車輛的高效行駛。這種設(shè)計(jì)優(yōu)化了能源使用效率,提高了電動(dòng)汽車的續(xù)航能力和靈

活性[6]。

本文對(duì)增程式電動(dòng)車進(jìn)行了前向仿真建模。通過(guò)對(duì)車輛運(yùn)行狀態(tài)的分析,得到車輛運(yùn)行狀態(tài)的實(shí)時(shí)數(shù)據(jù),并根據(jù)實(shí)際行駛速度,對(duì)油門、剎車踏板的開度進(jìn)行歸一化處理,并將這些數(shù)據(jù)輸入到整車控制系統(tǒng)中。基于整車的狀態(tài)及組件的限制,整車控制器根據(jù)能量管理的要求,將整車的目標(biāo)功率分配到增程器和電池上。首先,將增程器的目標(biāo)功率分解成速度和轉(zhuǎn)矩兩個(gè)命令,并將其分別傳遞到發(fā)動(dòng)機(jī)控制器和ISG電機(jī)控制器[7]。由增程器與動(dòng)力電池構(gòu)成的能源系統(tǒng)為驅(qū)動(dòng)電動(dòng)機(jī)供電,通過(guò)整車控制器的轉(zhuǎn)矩管理策略來(lái)控制電動(dòng)機(jī)的輸出轉(zhuǎn)矩,并結(jié)合汽車的動(dòng)力學(xué)特性,計(jì)算出模擬速度。利用MATLAB/Simulink仿真軟件對(duì)路譜信息和駕駛員模型進(jìn)行了仿真。在此基礎(chǔ)上,對(duì)整車控制器中的轉(zhuǎn)矩管理策略進(jìn)行了簡(jiǎn)化,轉(zhuǎn)矩管理策略通過(guò)接收駕駛員踏板的開度信號(hào),然后把它與當(dāng)前車速下的驅(qū)動(dòng)電機(jī)的最大驅(qū)/制動(dòng)轉(zhuǎn)矩相乘,就可以獲得驅(qū)動(dòng)電機(jī)的目標(biāo)轉(zhuǎn)矩,并把目標(biāo)轉(zhuǎn)矩與當(dāng)前轉(zhuǎn)速相乘,從而算出整車的需要功率,并以此來(lái)作為能量管理策略的輸入信號(hào)[8]。圖2為增程式電動(dòng)汽車仿真計(jì)算信號(hào)流圖。

圖1增程式電動(dòng)汽車結(jié)構(gòu)拓?fù)鋱D
圖2增程式電動(dòng)汽車仿真計(jì)算信號(hào)流圖

2.2動(dòng)力系統(tǒng)建模

2.2.1車輛縱向動(dòng)力學(xué)模型

整車模型以車輛的運(yùn)動(dòng)阻力為研究對(duì)象,由整車動(dòng)力學(xué)的基本理論出發(fā),得出車輛在行駛過(guò)程中所受的阻力總和,公式如下:

式中, G 為施加在車輛上的重量 ;f 為滾動(dòng)阻力系數(shù); α 為路面坡度; GD 為空氣阻力系數(shù); A 為迎風(fēng)面積; u 為速

度;8為轉(zhuǎn)動(dòng)質(zhì)量轉(zhuǎn)換系數(shù); m 為車身質(zhì)量; 為運(yùn)行加速度。

2.2.2發(fā)動(dòng)機(jī)與發(fā)電機(jī)

建立發(fā)動(dòng)機(jī)數(shù)值模型所需的臺(tái)架試驗(yàn)數(shù)據(jù)主要包括發(fā)動(dòng)機(jī)萬(wàn)有特性數(shù)據(jù),如圖3所示。燃油消耗率BSFC由發(fā)動(dòng)機(jī)轉(zhuǎn)速和扭矩查萬(wàn)有特性MAP得到,公式如下:

圖3發(fā)動(dòng)機(jī)與發(fā)電機(jī)模型

2.2.3動(dòng)力電池模型

本文所研究的增程式電動(dòng)汽車中,電池系統(tǒng)通過(guò)逆變器與驅(qū)動(dòng)電機(jī)和發(fā)電機(jī)相互連接,以實(shí)現(xiàn)能量的有效轉(zhuǎn)換和傳遞。在構(gòu)建電池模型時(shí),本文采用了一種簡(jiǎn)化的等效電路方法,該方法將電池系統(tǒng)模擬為一個(gè)理想電壓源與一個(gè)串聯(lián)電阻的組合。這種模型能夠捕捉電池的基本電氣特性,包括它在不同荷電狀態(tài)下的開路電壓(Open-CircuitVoltage,OCV)特性。

具體來(lái)說(shuō),電池的端電壓 U 與其荷電狀態(tài)(SOC)和流經(jīng)電池的電流 I 有關(guān),而電池內(nèi)阻 R 則影響電流通過(guò)電池時(shí)的電壓降[9]。圖4展示了電池的開路電壓 Uvoc 與荷電狀態(tài) Ssoc 之間的關(guān)系,這有助于理解電池在不同充放電狀態(tài)下的性能表現(xiàn)。通過(guò)這種模型,可以更準(zhǔn)確地預(yù)測(cè)電池在實(shí)際運(yùn)行中的電壓響應(yīng)和能量消耗,為電動(dòng)汽車的能量管理和控制系統(tǒng)設(shè)計(jì)提供理論依據(jù)。

圖4動(dòng)力電池模型

在 χt 時(shí)間內(nèi),功率電池電流及荷電狀態(tài)的計(jì)算公式如下:

2.2.4驅(qū)動(dòng)電機(jī)模型

該驅(qū)動(dòng)電機(jī)也是一種準(zhǔn)靜止模式,它與電機(jī)的速度n?m 扭矩 T?m 相關(guān),其效率 的查表函數(shù)如下:

在本文所研究的增程式電動(dòng)汽車的車輛模型中,4個(gè)電機(jī)均采用了統(tǒng)一的模型進(jìn)行描述和分析。每個(gè)電機(jī)的性能特性通過(guò)其性能圖(MAP圖)來(lái)表示,如圖5所示。這種性能圖詳細(xì)描述了電機(jī)在不同工作點(diǎn)的效率和輸出功率,是評(píng)估和優(yōu)化電機(jī)性能的重要工具。通過(guò)統(tǒng)一模型,可以對(duì)整個(gè)車輛的動(dòng)力系統(tǒng)進(jìn)行綜合分析,從而更好地理解和預(yù)測(cè)車輛在不同駕駛條件下的動(dòng)態(tài)響應(yīng)和能量消耗。

圖5單個(gè)驅(qū)動(dòng)電機(jī)MAP圖

3車速預(yù)測(cè)

本文采用了LSTM神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)對(duì)增程式電動(dòng)汽車未來(lái)車速的預(yù)測(cè)。研究的第一步是確定LSTM網(wǎng)絡(luò)的超參數(shù)設(shè)置和預(yù)測(cè)車速所需的時(shí)間范圍。在這些參數(shù)確定后,使用歷史車速數(shù)據(jù)作為訓(xùn)練集來(lái)訓(xùn)練LSTM網(wǎng)絡(luò)。

訓(xùn)練過(guò)程中,LSTM網(wǎng)絡(luò)學(xué)習(xí)如何根據(jù)當(dāng)前和過(guò)去的車速數(shù)據(jù)來(lái)預(yù)測(cè)下一時(shí)刻的車速。一旦模型的預(yù)測(cè)精度達(dá)到預(yù)定的標(biāo)準(zhǔn),該車速預(yù)測(cè)模型將被保存并進(jìn)一步使用。接下來(lái),將車速預(yù)測(cè)模型集成到能量管理系統(tǒng)中,以實(shí)現(xiàn)更精確的能量需求預(yù)測(cè)。

具體來(lái)說(shuō),控制策略會(huì)根據(jù)LSTM網(wǎng)絡(luò)預(yù)測(cè)的未來(lái)車速,計(jì)算出在預(yù)測(cè)時(shí)間范圍內(nèi)所需的功率。這些預(yù)測(cè)值將與當(dāng)前時(shí)刻的實(shí)際需求功率一起,作為狀態(tài)輸入,用于訓(xùn)練DDPG智能體。DDPG智能體的目標(biāo)是學(xué)習(xí)一個(gè)最優(yōu)策略,以實(shí)現(xiàn)車輛的能量管理,從而在保證動(dòng)力需求的同時(shí),提高能源利用效率。

整個(gè)車速預(yù)測(cè)和DDPG能量管理的流程,包括模型訓(xùn)練、預(yù)測(cè)和智能體訓(xùn)練等步驟,均在圖6中進(jìn)行了詳細(xì)展示。通過(guò)這種集成方法,可以更有效地預(yù)測(cè)和響應(yīng)車輛的動(dòng)態(tài)需求,優(yōu)化增程式電動(dòng)汽車的能量流。

3.1基于LSTM的車速預(yù)測(cè)

在圖7中,將歷史時(shí)間域上的車輛速度作為輸入,利用周期預(yù)測(cè)法求出在預(yù)測(cè)時(shí)間域上的車輛速度,這里, Nh 是歷史時(shí)間步長(zhǎng)。由于模型在訓(xùn)練時(shí)既要考慮各種特性,又要考慮噪聲因素的影響,因此對(duì)訓(xùn)練用例具有良好性能,但對(duì)測(cè)試用例卻存在表現(xiàn)欠佳、過(guò)度擬合等問(wèn)題。引入隨機(jī)去激活(Dropout)層,使得網(wǎng)絡(luò)在保證泛化能力的同時(shí)避免過(guò)度學(xué)習(xí)。為了保證神經(jīng)網(wǎng)絡(luò)有適當(dāng)?shù)母怕?p ,采用一種基于遺傳算法的試驗(yàn)方法來(lái)確定各種可能的可能性,最后將 p=0.4 確定為0。在遺傳算法的求解期間,適應(yīng)函數(shù)的改變過(guò)程如圖5所示,公式如下:

式中, ΨtΨt 和 α 分別為當(dāng)前拋棄概率下的速度預(yù)測(cè)時(shí)間和它們的權(quán)重; erms 為預(yù)測(cè)速度的均方根差; P(?) 為適應(yīng)函數(shù)。

3.2車速預(yù)測(cè)結(jié)果及性能對(duì)比

在本研究中,使用MATLAB/Simulink軟件平臺(tái)構(gòu)建了增程式電動(dòng)汽車的整車模型,并在配備Inteli7-12700H處理器 (2.3GHz) 和16GB內(nèi)存的計(jì)算機(jī)上進(jìn)行了車速預(yù)測(cè)的仿真實(shí)驗(yàn)。選定了LSTM網(wǎng)絡(luò)的超參數(shù)后,對(duì)網(wǎng)絡(luò)進(jìn)行了1000次迭代的訓(xùn)練,以優(yōu)化車速預(yù)測(cè)的性能。

圖7LSTM車速預(yù)測(cè)過(guò)程示意
圖8適應(yīng)度函數(shù)變化過(guò)程

5.5各代最優(yōu)值各代平均值mWmm

為了評(píng)估LSTM網(wǎng)絡(luò)的預(yù)測(cè)效果,將WTVC作為仿真的工況條件。同時(shí),將LSTM的預(yù)測(cè)結(jié)果與支持向量回歸(SupportVectorRegression,SVR)方法進(jìn)行了對(duì)比。兩種方法均使用過(guò)去30s的車速數(shù)據(jù)作為輸入,預(yù)測(cè)未來(lái)5s內(nèi)的車速。

在預(yù)測(cè)時(shí)域?yàn)?s的情況下,LSTM網(wǎng)絡(luò)的均方根誤差(RootMeanSquareError,RMSE)達(dá)到了 3.15km/h 而SVR方法(設(shè)置懲罰系數(shù) ∣c∣ 為0.76,核函數(shù)寬度 g 為0.6的RMSE為 4.25km/h 。通過(guò)圖9展示的訓(xùn)練過(guò)程中的均方根誤差和損失變化,可以看到在最初的50次迭代中,誤差和損失有顯著下降,之后逐漸趨于穩(wěn)定。最終,LSTM網(wǎng)絡(luò)在訓(xùn)練完成后的均方根誤差降至0.29km/h 以下,損失降至0.04,均滿足所設(shè)定的精度要求。

由上表明,LSTM網(wǎng)絡(luò)在車速預(yù)測(cè)任務(wù)上具有較高的準(zhǔn)確度和穩(wěn)定性;相較于SVR方法,LSTM提供了更優(yōu)的預(yù)測(cè)性能。

圖10是通過(guò)兩種預(yù)測(cè)方法對(duì)車輛速度分布預(yù)測(cè)結(jié)果的比較,可以看到,相同的預(yù)測(cè)算法具有更少的預(yù)測(cè)時(shí)間和更高的準(zhǔn)確性,與支持向量回歸法相比,LSTM的預(yù)測(cè)結(jié)果更加貼近實(shí)際數(shù)據(jù),具有更好的預(yù)測(cè)性能。盡管預(yù)測(cè)時(shí)間越短,預(yù)測(cè)的準(zhǔn)確性越高,但是如果時(shí)間間隔太短,則會(huì)影響到車輛速度的預(yù)報(bào)效果,從而使車輛速度預(yù)報(bào)的時(shí)間范圍變得沒(méi)有意義。

網(wǎng)絡(luò)中設(shè)置隱含層節(jié)點(diǎn)數(shù)為10,迭代次數(shù)為100,利用試驗(yàn)獲得的170000組數(shù)據(jù)對(duì)車速預(yù)測(cè)模型進(jìn)行訓(xùn)練。隨著預(yù)測(cè)時(shí)域的增長(zhǎng),預(yù)測(cè)誤差逐漸增大,但是預(yù)測(cè)時(shí)域過(guò)短,在實(shí)際行駛過(guò)程中,由于各種因素導(dǎo)致延遲,將無(wú)法達(dá)到預(yù)期的控制效果。此外隨著歷史數(shù)據(jù)使用數(shù)量的增多,預(yù)測(cè)誤差的大小呈現(xiàn)先降低后增大的變化特點(diǎn),在歷史車速數(shù)據(jù)為7s時(shí)預(yù)測(cè)誤差最小,所以要獲得最優(yōu)的預(yù)測(cè)誤差,需要選擇合適的歷史數(shù)據(jù)量。圖11表示不同預(yù)測(cè)時(shí)域下最優(yōu)預(yù)測(cè)結(jié)果曲線。

圖9訓(xùn)練過(guò)程中的損失與均方根誤差變化情況
圖10不同預(yù)測(cè)方法車速預(yù)測(cè)熱圖

該結(jié)果表明,當(dāng)前預(yù)測(cè)車速與實(shí)際車速之間具有良好的擬合性,但是預(yù)測(cè)周期的增加會(huì)使預(yù)測(cè)精度出現(xiàn)較大的偏差。由于后續(xù)基于模型預(yù)測(cè)的能量管理策略的優(yōu)化性能受到預(yù)測(cè)水平和預(yù)測(cè)精度的綜合,根據(jù)相關(guān)研究人員的研究,發(fā)現(xiàn)4s的預(yù)測(cè)水平可以兼顧速度預(yù)測(cè)精度和計(jì)算成本,達(dá)到了較好的優(yōu)化效果。為此,文中采用4s的預(yù)測(cè)層。從局部放大的細(xì)節(jié)可以看出,預(yù)測(cè)層內(nèi)的預(yù)測(cè)速度平滑且接近實(shí)際速度,預(yù)測(cè)效果較好。

4基于車速預(yù)測(cè)的深度強(qiáng)化學(xué)習(xí)能量管理

4.1深度確定性策略梯度算法

深度強(qiáng)化學(xué)習(xí)是一種馬爾可夫決策(MDP),它通過(guò)狀態(tài)集合 Sν 行動(dòng)集合A、狀態(tài)轉(zhuǎn)移概率矩陣 P 、獎(jiǎng)賞函數(shù) R 、折扣系數(shù) 組成了五元集合, 。在增強(qiáng)學(xué)習(xí)模型中,行為與狀態(tài)轉(zhuǎn)換均是隨機(jī)的,對(duì)于狀態(tài) s ,策略 π(a|s) 將輸出行為 Ψa ,狀態(tài)轉(zhuǎn)變的概率分布用 P(s|s) 表示,這里 s 是轉(zhuǎn)變后的狀態(tài)。在每個(gè)時(shí)間點(diǎn)上,環(huán)境都會(huì)隨著狀態(tài)的改變而生成收益 R 。為評(píng)估當(dāng)前行動(dòng)的優(yōu)勢(shì),引進(jìn)了折現(xiàn)收益率 Gt,R 和 Gt 都是隨機(jī)變量,需要用 Gt 的期望值來(lái)評(píng)估當(dāng)前行為 at 和狀態(tài) st 的優(yōu)劣。對(duì)于 Gt 的期望值,可以獲得一個(gè)值函數(shù) Qπ ,對(duì)于 Qπ ,可以獲得一個(gè)狀態(tài)值函數(shù) Vπ(st) (2號(hào)

DDPG是一種基于兩層神經(jīng)網(wǎng)絡(luò)的演員-批評(píng)家(Actor-Critic)算法。該方法利用批評(píng)性(Critic)網(wǎng)絡(luò)對(duì)由Actor網(wǎng)絡(luò)產(chǎn)生的行為進(jìn)行評(píng)價(jià),從而對(duì)策略進(jìn)行修正。與傳統(tǒng)的Actor-Critic算法不同,DDPG中的Actor網(wǎng)絡(luò)不是按照行為的概率分布來(lái)生成行為,而是直接輸出具有最大 Q 值的行為。

4.2基于車速預(yù)測(cè)的DDPG能量管理

圖11不同預(yù)測(cè)時(shí)域下最優(yōu)預(yù)測(cè)結(jié)果曲線

在DDPG能量管理算法中,每個(gè)迭代智能體都會(huì)從該模型中提取一些經(jīng)驗(yàn)來(lái)進(jìn)行培訓(xùn),本文的經(jīng)驗(yàn)池容量是 1000 。DDPG利用值網(wǎng)路來(lái)估算目前的行動(dòng)品質(zhì),并透過(guò)策略網(wǎng)路來(lái)產(chǎn)生行動(dòng)。與深度 Q- 網(wǎng)絡(luò)(DQN)方法相似,DDPG也有一個(gè)目的網(wǎng)絡(luò),以防止過(guò)高或過(guò)低估計(jì)。在 χt 時(shí)刻,策略網(wǎng)絡(luò)基于狀態(tài) st 和行為 at ,轉(zhuǎn)換為狀態(tài) st+1 ,價(jià)值網(wǎng)絡(luò)基于狀態(tài) st 和行為 at 來(lái)計(jì)算價(jià)值Q(st+1,at+1,w) ,這里 w 是當(dāng)前網(wǎng)絡(luò)的權(quán)重,目標(biāo)戰(zhàn)略網(wǎng)絡(luò)基于狀態(tài) st+1 對(duì)下一時(shí)間的行動(dòng) at+1 進(jìn)行預(yù)測(cè),并且不執(zhí)行,目的值網(wǎng)絡(luò)基于 st+1 和 at+1 來(lái)計(jì)算 at+1 的值 和時(shí)間序列差分目標(biāo)( ,其表達(dá)式如下:

式中, rt 為 χt 時(shí)刻的回報(bào); w- 為目標(biāo)網(wǎng)絡(luò)的權(quán)重。

5仿真結(jié)果對(duì)比

5.1迭代訓(xùn)練過(guò)程

深度強(qiáng)化學(xué)習(xí)的核心目標(biāo)是最大化累積獎(jiǎng)勵(lì)。在評(píng)估DDPG算法的訓(xùn)練效果時(shí),關(guān)鍵指標(biāo)是 Q 值,要考查該指標(biāo)是否能夠持續(xù)增長(zhǎng)并最終穩(wěn)定在一個(gè)接近最大值的水平。在本文提出的LSTM-DDPG能量管理策略中,LSTM車速預(yù)測(cè)網(wǎng)絡(luò)構(gòu)建為一個(gè)5層的回歸模型,而DDPG的價(jià)值網(wǎng)絡(luò)由6層狀態(tài)層、2層動(dòng)作層和5層共享層組成,動(dòng)作網(wǎng)絡(luò)則是一個(gè)10層的反向傳播神經(jīng)網(wǎng)絡(luò),負(fù)責(zé)生成控制動(dòng)作。兩個(gè)網(wǎng)絡(luò)都采用了RMSProp優(yōu)化算法進(jìn)行訓(xùn)練。圖12展示了DDPG和LSTM-DDPG能量管理策略的訓(xùn)練過(guò)程。

圖12不同強(qiáng)化學(xué)習(xí)能量管理策略迭代過(guò)程

經(jīng)過(guò)訓(xùn)練,DDPG算法在最后一次迭代中得到的獎(jiǎng)勵(lì)值為-10847,而LSTM-DDPG策略在同一迭代中的獎(jiǎng)勵(lì)值為-6109.1。LSTM-DDPG策略通過(guò)將預(yù)測(cè)時(shí)域內(nèi)的需求功率信息提供給智能體,使得智能體能夠在訓(xùn)練過(guò)程中進(jìn)行更有效的規(guī)劃,從而使訓(xùn)練結(jié)果逐漸穩(wěn)定并優(yōu)化。相比之下,DDPG算法僅考慮當(dāng)前時(shí)刻的需求功率,缺乏在時(shí)間維度上的規(guī)劃能力,這可能是其最終獎(jiǎng)勵(lì)值較低的原因。

總的來(lái)說(shuō),LSTM-DDPG策略通過(guò)引入車速預(yù)測(cè),增強(qiáng)了智能體對(duì)環(huán)境變化的適應(yīng)性和規(guī)劃能力,從而在能量管理任務(wù)中取得了更好的性能表現(xiàn)。

5.2仿真結(jié)果

圖13的觀察結(jié)果揭示了不同控制策略在WTVC工況下對(duì)SOC和燃料消耗量的影響。所有控制方案的起始SOC均設(shè)定為0.3,如圖 13a 所示。在與DDPG和DQN控制策略的比較中,本文提出的LSTM-DDPG控制策略展現(xiàn)出與設(shè)定值0.3非常接近的SOC值,整體波動(dòng)較小,而DDPG和DQN的偏差較大,這表明增程器在這兩種策略下承擔(dān)了較多的工作負(fù)荷。這兩種算法雖然都通過(guò)發(fā)電機(jī)產(chǎn)生電力,但在功率分配上仍有改進(jìn)空間。

DP控制策略在SOC變化的穩(wěn)定性以及等效燃油消耗量方面均表現(xiàn)出色,這得益于它作為全局優(yōu)化算法的本質(zhì),能夠計(jì)算出理論上的最優(yōu)解,并常作為其他控制策略性能評(píng)估的基準(zhǔn)。

相較于其他控制策略,本文提出的LSTM-DDPG控制策略在等效燃油消耗量上的表現(xiàn)緊隨DP之后,顯示出優(yōu)異的節(jié)能效果。同時(shí),SOC的穩(wěn)定性也得到了保障,這對(duì)于延長(zhǎng)電池壽命和優(yōu)化整車性能至關(guān)重要。這些結(jié)果表明LSTM-DDPG策略能夠非常接近理論上的最優(yōu)解,同時(shí)維持電池狀態(tài)的穩(wěn)定,對(duì)于提升電池使用效率和整車性能具有顯著的促進(jìn)作用。

圖13不同控制策略下SOC與燃油消耗量的變化情況

6結(jié)語(yǔ)

本文提出了一種融合LSTM神經(jīng)網(wǎng)絡(luò)與DDPG算法的LSTM-DDPG能量管理策略,用于增程式電動(dòng)汽車。該策略通過(guò)精確的車速預(yù)測(cè),優(yōu)化了能量分配和增程器的功率輸出,顯著提升了能量使用效率。

仿真結(jié)果表明,LSTM-DDPG能量管理策略在WT-VC工況下相較于傳統(tǒng)DDPG、DQN策略和功率跟隨控制策略,實(shí)現(xiàn)了燃油消耗量的顯著減少,分別降低了 。與動(dòng)態(tài)規(guī)劃策略相比,等效燃油消耗量的差距僅為 0.128kg ,驗(yàn)證了所提策略的高效性和接近最優(yōu)解的性能。

本研究不僅為增程式電動(dòng)汽車的能量管理提供了一種有效的控制策略,還通過(guò)維持電池SOC的穩(wěn)定,為延長(zhǎng)電池壽命提供了支持。未來(lái)的工作將進(jìn)一步優(yōu)化算法性能,提高預(yù)測(cè)精度,探索該策略在不同工況和更多車型中的應(yīng)用潛力,以期達(dá)到更高的能效和更優(yōu)的駕駛性能。

參考文獻(xiàn):

[1]張光洲,梅琳.基于A-ECMS的增程式電動(dòng)汽車能量管理策略設(shè)計(jì)及應(yīng)用[J].安慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2024,30(2):47-51.

[2]鐘勇,邱煌樂(lè),李方舟,等.基于模糊控制的增程式電動(dòng)汽車能量管理控制研究[J].車用發(fā)動(dòng)機(jī),2024(2):68-74+82.

[3]楊淇,鞏少鵬,李渝麗.增程式電動(dòng)汽車能量管理優(yōu)化控制策略研究[J].汽車測(cè)試報(bào)告,2023(23):155-157.

[4]常雪嵩,賈絮影,齊曉慧,等.增程式電動(dòng)汽車控制策略及能量回收技術(shù)分析[J].現(xiàn)代車用動(dòng)力,2023(4):16-19.

[5]孫云祥,王貴勇,王偉超,等.運(yùn)用改進(jìn)蜉算法的增程式電動(dòng)汽車能量管理策略研究[J/OL].機(jī)械科學(xué)與技術(shù),1-10[2024-08-14].

[6]趙靖華,張雨彤,曹派,等.壓縮天然氣發(fā)動(dòng)機(jī)增程式電動(dòng)汽車能量管理優(yōu)化[J].吉林大學(xué)學(xué)報(bào)(工學(xué)版),2024,54(3):600-609.

[7]張微奇,王超,曹力,等.基于能量管理的增程式電動(dòng)汽車控制策略研究[J].內(nèi)燃機(jī)與配件,2022(20):117-120.

[8]陳勇,魏長(zhǎng)銀,李曉宇,等.融合工況識(shí)別的增程式電動(dòng)汽車模糊能量管理策略研究[J].汽車工程,2022,44(4):514-524+600

[9]白書杰,魏長(zhǎng)銀,陳勇,等.GA-BP工況識(shí)別的增程式電動(dòng)汽車能量管理策略優(yōu)化[J].機(jī)械科學(xué)與技術(shù),2022,41(7):1112-1120.

作者簡(jiǎn)介:

唐建星,男,1998年生,助理工程師,研究方向?yàn)樾履茉窜囕v能量管理。

猜你喜歡
控制策略模型
一半模型
考慮虛擬慣性的VSC-MTDC改進(jìn)下垂控制策略
能源工程(2020年6期)2021-01-26 00:55:22
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
工程造價(jià)控制策略
山東冶金(2019年3期)2019-07-10 00:54:04
現(xiàn)代企業(yè)會(huì)計(jì)的內(nèi)部控制策略探討
3D打印中的模型分割與打包
容錯(cuò)逆變器直接轉(zhuǎn)矩控制策略
基于Z源逆變器的STATCOM/BESS控制策略研究
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 免费一级大毛片a一观看不卡| 亚洲综合色吧| 国产精品免费福利久久播放 | 国产真实二区一区在线亚洲| 色婷婷色丁香| 亚洲成人黄色在线| 久久亚洲黄色视频| 香蕉视频在线观看www| 国产亚洲精品自在久久不卡 | 激情影院内射美女| 国产精品一区二区久久精品无码| 国产免费福利网站| 91色在线观看| 亚洲黄色视频在线观看一区| 精品国产福利在线| 国产精品成人一区二区不卡| 亚洲永久精品ww47国产| 91精品免费高清在线| 国产高清在线观看91精品| 综合亚洲网| 久久永久视频| 国产91九色在线播放| 9久久伊人精品综合| 日韩最新中文字幕| 亚洲精品图区| 国产区成人精品视频| 日韩精品免费一线在线观看| 青青青伊人色综合久久| 伊人色综合久久天天| 国产女人18毛片水真多1| 日韩欧美中文字幕在线精品| 狠狠色噜噜狠狠狠狠奇米777| aaa国产一级毛片| 成年网址网站在线观看| 久久黄色视频影| 欧美成人a∨视频免费观看| 久久久黄色片| 亚洲日韩精品无码专区| 天堂亚洲网| 亚洲无码电影| 丰满人妻中出白浆| 亚洲精品国产自在现线最新| 国产在线自在拍91精品黑人| 国产丝袜精品| 鲁鲁鲁爽爽爽在线视频观看| 青草午夜精品视频在线观看| 国产精品福利尤物youwu| 在线观看无码av免费不卡网站 | 老司机久久精品视频| 久久这里只有精品国产99| 无码中文字幕加勒比高清| 美女国内精品自产拍在线播放| 不卡午夜视频| 国产午夜看片| 一级毛片在线直接观看| 日韩人妻精品一区| 日韩精品一区二区三区免费| 久久久久久久97| 无码在线激情片| 色香蕉网站| 伊人久久精品无码麻豆精品| 伊人久久大香线蕉影院| 欧美日韩在线第一页| 午夜爽爽视频| 国产在线观看99| 国产在线欧美| 午夜爽爽视频| 国产欧美日韩资源在线观看| 国产免费久久精品99re不卡| 国产欧美亚洲精品第3页在线| 亚洲一级无毛片无码在线免费视频| 久久午夜夜伦鲁鲁片不卡| 日韩欧美中文| 人妻无码AⅤ中文字| 国产乱人免费视频| 大学生久久香蕉国产线观看| 十八禁美女裸体网站| 久久亚洲日本不卡一区二区| 欧美精品成人一区二区视频一| 鲁鲁鲁爽爽爽在线视频观看| 日韩区欧美国产区在线观看| 国产美女主播一级成人毛片|