999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

混合動(dòng)力公交車深度強(qiáng)化學(xué)習(xí)能量管理策略研究

2021-12-10 06:48:08王坤羽
內(nèi)燃機(jī)工程 2021年6期
關(guān)鍵詞:策略

張 松,王坤羽,楊 蓉,黃 偉

(1.廣西玉柴機(jī)器股份有限公司,玉林 537005;2.廣西大學(xué) 機(jī)械工程學(xué)院,南寧 530004)

0 概述

混合動(dòng)力系統(tǒng)能量管理策略可以大致分為基于規(guī)則的控制策略、基于優(yōu)化的控制策略及基于學(xué)習(xí)的控制策略3類[1]。基于規(guī)則的控制策略因其具有可靠、高效的特點(diǎn),已廣泛應(yīng)用于實(shí)車控制系統(tǒng)中,但其規(guī)則的制定主要依賴于專家經(jīng)驗(yàn),面對(duì)復(fù)雜多變的行駛工況很難保證規(guī)則的最優(yōu)性[2]。基于優(yōu)化的控制策略可分為全局優(yōu)化策略和實(shí)時(shí)優(yōu)化策略,常見的全局優(yōu)化策略如動(dòng)態(tài)規(guī)劃策略(dynamic programming, DP)[3]具有前后統(tǒng)籌性,可以獲得全局最優(yōu)解,但需要預(yù)知行駛工況且計(jì)算量龐大,并不適用于實(shí)車實(shí)時(shí)控制,常作為離線對(duì)比標(biāo)準(zhǔn)[4]。鑒于此,研究人員提出了實(shí)時(shí)優(yōu)化策略,如依托于極小值原理的等效燃油消耗最小策略(equivalent consumption minimization strategy, ECMS)[5],通過求解成本函數(shù)的瞬時(shí)最優(yōu)解來進(jìn)行動(dòng)力分配。相比于DP,ECMS計(jì)算量大幅度降低,但相比于規(guī)則控制仍對(duì)控制器的算力有較高要求。此外,基于優(yōu)化的控制策略通常需要對(duì)連續(xù)型控制變量作離散化處理,使控制變量失去了本身連續(xù)性的優(yōu)勢。綜上,基于規(guī)則的能量管理策略和基于優(yōu)化的能量管理策略存在著高效性、最優(yōu)性、適應(yīng)性不可兼具的問題。

面對(duì)上述難題,學(xué)習(xí)型能量管理策略成為最具潛力的解決方案,尤其是基于深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)的能量管理策略。深度Q網(wǎng)絡(luò)(deepQ-network, DQN)是首個(gè)應(yīng)用于混合動(dòng)力能量管理的DRL算法,仿真結(jié)果也證明了其控制效果與全局優(yōu)化相當(dāng)[6]。文獻(xiàn)[7]中將DQN應(yīng)用于串聯(lián)式混合動(dòng)力構(gòu)型,證明了DRL策略面對(duì)不同工況具有很強(qiáng)的適應(yīng)性。但DQN策略只能面向離散控制,為實(shí)現(xiàn)DRL策略的連續(xù)控制,文獻(xiàn)[8]中將深度確定性策略梯度(deep deterministic policy gradients, DDPG)引入混合動(dòng)力能量管理,有效避免了控制變量離散化帶來的離散誤差。文獻(xiàn)[9]中進(jìn)一步引入遷移學(xué)習(xí),以普銳斯車型的DDPG策略為基礎(chǔ),通過遷移學(xué)習(xí)加速了另外3類車型DDPG算法的收斂速度。然而,廣受研究人員青睞的DQN和DDPG算法均存在價(jià)值過高估計(jì)、穩(wěn)定性差、調(diào)參困難等缺陷,有必要研究更多先進(jìn)DRL算法在混合動(dòng)力能量管理中的應(yīng)用。此外,目前在混合動(dòng)力公交車上應(yīng)用DRL策略的研究還相對(duì)較少,而這類車型具有路線單一、駕駛風(fēng)格固定、每日行駛里程較長等特點(diǎn),且這些特點(diǎn)都十分利于DRL策略的實(shí)施。

本文中將探究先進(jìn)的DRL算法在混合動(dòng)力公交車(hybrid electirc bus, HEB)能量管理中的應(yīng)用。針對(duì)控制變量的離散控制,采用解決DQN價(jià)值高估問題的雙深度Q網(wǎng)絡(luò)(double deepQ-learning, DDQN)算法[10];而針對(duì)控制變量的連續(xù)控制,使用相比于DDPG價(jià)值估計(jì)更準(zhǔn)確、穩(wěn)定性更強(qiáng)的雙延遲深度確定性策略梯度(twin delayed deep deterministic policy gradients, TD3)算法[11]。同時(shí),為提高DDQN和TD3策略的學(xué)習(xí)效率,用優(yōu)先級(jí)經(jīng)驗(yàn)回放的記憶庫形式對(duì)策略進(jìn)行優(yōu)化。最后,以DP策略作為基準(zhǔn),評(píng)估了DDQN和TD3策略的有效性。

1 混合動(dòng)力系統(tǒng)模型

某款雙行星排混合動(dòng)力公交車的主要參數(shù)如表1所示,其構(gòu)型簡圖如圖1所示。該車的動(dòng)力驅(qū)動(dòng)系統(tǒng)主要包括柴油機(jī)、電池組、電機(jī)MG1、電機(jī)MG2及雙行星排(P1和P2)。

表1 某型混合動(dòng)力公交車樣車參數(shù)

圖1 雙行星混合動(dòng)力系統(tǒng)構(gòu)型

1.1 雙行星排耦合機(jī)構(gòu)

前行星排P1作為功率分流機(jī)構(gòu),其太陽輪、行星架分別與MG1、柴油機(jī)相連。后行星排P2作為MG2的減速機(jī)構(gòu),其齒圈固定在機(jī)架上。前行星排P1的齒圈與后行星排P2的行星架相連,最終將動(dòng)力經(jīng)主減速器傳遞到驅(qū)動(dòng)輪上。

不計(jì)系統(tǒng)內(nèi)部的轉(zhuǎn)動(dòng)慣量和摩擦損失,根據(jù)柴油機(jī)、電機(jī)與前后行星排的連接關(guān)系,可推算出雙行星排耦合機(jī)構(gòu)輸出轉(zhuǎn)速轉(zhuǎn)矩的關(guān)系,如式(1)、式(2)所示。

(1)

(2)

式中,ωout為輸出軸的轉(zhuǎn)速;Tout為輸出軸的轉(zhuǎn)矩;ωe、ωMG1、ωMG2分別為柴油機(jī)、電機(jī)MG1、電機(jī)MG2的轉(zhuǎn)速;i1、i2分別為前后行星排特征系數(shù);Te、TMG2分別為柴油機(jī)、電機(jī)MG2的轉(zhuǎn)矩。

1.2 整車模型

采用后向建模,忽略道路坡度,可得整車需求功率Preq,如式(3)所示。

(3)

式中,m為車輛質(zhì)量;δ為質(zhì)量系數(shù);CD為空氣阻力系數(shù);A為迎風(fēng)面積;v(t)為車速;g為重力系數(shù);ζ為滾動(dòng)阻力系數(shù)。

本文中對(duì)柴油機(jī)、電機(jī)的建模忽略了其復(fù)雜的瞬態(tài)響應(yīng)和物理化學(xué)變化,僅根據(jù)相應(yīng)的臺(tái)架試驗(yàn)數(shù)據(jù)建立準(zhǔn)靜態(tài)仿真模型。此外,基于柴油機(jī)萬有特性對(duì)柴油機(jī)的工作點(diǎn)進(jìn)行了優(yōu)選,即將每個(gè)轉(zhuǎn)速下油耗最低的轉(zhuǎn)矩點(diǎn)逐一連線,提取出柴油機(jī)最優(yōu)工作曲線,如圖2所示。

圖2 柴油機(jī)最優(yōu)工作曲線

在能量管理問題中,電池荷電狀態(tài)(state of charge, SOC)是最重要的狀態(tài)變量之一?;谠囼?yàn)數(shù)據(jù)建立電池等效Rint模型,其SOC與開路電壓關(guān)系如圖3所示。

圖3 電池電壓隨SOC變化曲線

2 深度強(qiáng)化學(xué)習(xí)HEB能量管理問題建模

2.1 深度強(qiáng)化學(xué)習(xí)基礎(chǔ)理論

強(qiáng)化學(xué)習(xí)問題通常以馬爾可夫決策過程(Markov decision process, MDP)為理論框架進(jìn)行建模[12],MDP包括智能體、環(huán)境兩個(gè)要素和S、A、T、r、λ這5個(gè)元組。其中,S為狀態(tài)變量集合;A為動(dòng)作變量集合;T為狀態(tài)轉(zhuǎn)移函數(shù);r為獎(jiǎng)勵(lì)函數(shù),r(st,at) 表示在狀態(tài)st執(zhí)行at可獲得的立即獎(jiǎng)勵(lì);λ∈[0,1),為獎(jiǎng)勵(lì)折扣因子。在MDP中,智能體與環(huán)境始終處于循環(huán)交互。首先,智能體感知當(dāng)前狀態(tài)st∈S并從A中選擇at;環(huán)境接收at后,根據(jù)r反饋給智能體立即獎(jiǎng)勵(lì)rt;最后,環(huán)境根據(jù)T轉(zhuǎn)移到下一狀態(tài)st+1,完成一次交互。同時(shí),智能體會(huì)在交互中根據(jù)rt不斷調(diào)整策略函數(shù)π,π(a|s)是從狀態(tài)s∈S映射到動(dòng)作a∈A的概率分布,是智能體選擇動(dòng)作的根據(jù)。而智能體的最終目標(biāo)是尋找最優(yōu)策略π*,使智能體在任意時(shí)間步長、任意狀態(tài)都能獲得最大長期累積獎(jiǎng)勵(lì)Rt,即:

(4)

為尋找π*,許多強(qiáng)化學(xué)習(xí)算法采用行為值函數(shù)Qπ(st,at)也稱Q值來評(píng)估策略π的優(yōu)劣,其貝爾曼方程如式(5)所示。

Qπ(st,at)=r(st,at)+λEπ[Qπ(st+1,at+1)]

(5)

式中,Eπ為期望;at+1為下一時(shí)刻動(dòng)作。

2.2 深度強(qiáng)化學(xué)習(xí)用于HEB能量管理

混合動(dòng)力系統(tǒng)DRL能量管理問題轉(zhuǎn)為MDP進(jìn)行求解,可將整車控制器視為智能體,將整車動(dòng)力系統(tǒng)和行駛工況視為環(huán)境,而控制器的目標(biāo)是尋找最優(yōu)控制策略。此外,還需對(duì)狀態(tài)、動(dòng)作及獎(jiǎng)勵(lì)進(jìn)行定義。

狀態(tài)定義:綜合考慮整車動(dòng)力系統(tǒng)、行駛工況及混合動(dòng)力公交車的特性,本文將歸一化后的加速度、車速、電池荷電狀態(tài)、剩余行駛里程作為狀態(tài)變量。

動(dòng)作定義:就雙行星排動(dòng)力耦合系統(tǒng)而言,柴油機(jī)與車輪解耦,需同時(shí)對(duì)柴油機(jī)轉(zhuǎn)速、轉(zhuǎn)矩進(jìn)行控制。為提高模型學(xué)習(xí)效率,減小動(dòng)作探索空間,僅將柴油機(jī)轉(zhuǎn)速作為動(dòng)作變量,使柴油機(jī)運(yùn)行在上述最優(yōu)工作曲線上[1]。同時(shí),在下文的DDQN策略中,需要對(duì)柴油機(jī)轉(zhuǎn)速離散化處理,本研究中采用等間隔離散。

獎(jiǎng)勵(lì)定義:就非插電式混合動(dòng)力系統(tǒng)而言,其控制目標(biāo)為在保持SOC的同時(shí)使燃油消耗最小化。因此,本文中的獎(jiǎng)勵(lì)函數(shù)由燃油消耗項(xiàng)和電量波動(dòng)懲罰項(xiàng)組成。t時(shí)刻的立即獎(jiǎng)勵(lì)RHEB(t)如式(6)所示。

RHEB(t)=αmfuel(t)+β[QSOCref-QSOC(t)]2

(6)

式中,mfuel(t)為t時(shí)刻柴油機(jī)燃油消耗率;QSOCref為期望SOC;QSOC(t)為t時(shí)刻SOC;α為燃油消耗項(xiàng)系數(shù);β為電量波動(dòng)懲罰項(xiàng)系數(shù)。

MDP中還需加入必要的約束條件,避免柴油機(jī)、電機(jī)、電池出現(xiàn)不合理的工作點(diǎn),約束不等式如式(7)所示。

(7)

式中,QSOCmax、QSOCmin分別為電池SOC上下限;Ibatmax、Ibatmin分別為電流上下限;Tmmax、Tmmin分別為電機(jī)轉(zhuǎn)矩上下限;Temax為柴油機(jī)最大轉(zhuǎn)矩;ωemax、ωemin分別為柴油機(jī)轉(zhuǎn)速上下限;ωmmax、ωmmin分別為電機(jī)轉(zhuǎn)速上下限。

3 基于雙深度Q網(wǎng)絡(luò)的能量管理策略

3.1 DDQN

DDQN是一種以DQN[13]為基礎(chǔ),面向離散動(dòng)作控制的無模型DRL算法。DDQN在一定程度上緩解了DQN價(jià)值高估的問題,提高了算法的穩(wěn)定性。DDQN中使用兩個(gè)結(jié)構(gòu)相同的神經(jīng)網(wǎng)絡(luò)來近似行為值函數(shù)Qπ(st,at),即通過估計(jì)Q網(wǎng)絡(luò)來計(jì)算Q值,通過目標(biāo)Q網(wǎng)絡(luò)來計(jì)算目標(biāo)Q值。其中,估計(jì)Q網(wǎng)絡(luò)根據(jù)時(shí)序差分誤差(temporal difference error, TD-error)來構(gòu)造損失函數(shù)L(θ),并以最小化L(θ)來更新網(wǎng)絡(luò)權(quán)值θ,如式(8)所示。

(8)

式中,n為訓(xùn)練集樣本量;TDDQNk為k樣本的TD-error;θ′為目標(biāo)Q網(wǎng)絡(luò)權(quán)值。

而目標(biāo)Q網(wǎng)絡(luò)采用延遲更新的方法,即每經(jīng)過Tr次迭代,將估計(jì)Q網(wǎng)絡(luò)的參數(shù)θ復(fù)制給目標(biāo)Q網(wǎng)絡(luò)的θ′。

3.2 優(yōu)先級(jí)經(jīng)驗(yàn)回放

為降低訓(xùn)練樣本間的相關(guān)性,DDQN采用經(jīng)驗(yàn)回放機(jī)制(experience replay, ER),即將MDP中的交互樣本(st,at,rt,st+1)存入經(jīng)驗(yàn)緩沖區(qū),并通過隨機(jī)采樣來獲取訓(xùn)練樣本,但ER并不利于算法的高效學(xué)習(xí)。本文中采用優(yōu)先級(jí)經(jīng)驗(yàn)回放機(jī)制(prioritized experience replay, PER),根據(jù)每條樣本的TD-error決定其被采樣的概率,定義j樣本的采集概率P(j)如式(9)所示。

(9)

式中,p為樣本TD-error的絕對(duì)值;η∈[0,1],用于調(diào)節(jié)隨機(jī)性程度。

為消除因PER中樣本分布不同而造成的模型更新偏差,需要使用重要性采樣方法,在訓(xùn)練樣本前增加更新權(quán)重,定義j樣本的更新權(quán)重?j,如式(10)所示。

?j=(C·P(j))-Ψ/maxi?i

(10)

式中,C為PER中樣本容量;Ψ∈[0,1],為超參數(shù)。

由此建立DDQN能量管理策略,訓(xùn)練代碼流程如下:(1) 初始化估計(jì)Q網(wǎng)絡(luò)權(quán)值θ、目標(biāo)Q網(wǎng)絡(luò)權(quán)值θ′=θ、θ′更新頻率Tr、最大訓(xùn)練步長Emax、最大單次探索步長Smax、訓(xùn)練集樣本量N、PER經(jīng)驗(yàn)緩沖區(qū)M、貪婪率ε0、折扣因子λ。(2) for循環(huán)(episode =1∶Emax)。(3) 初始化狀態(tài)st。(4) for循環(huán)(step=1∶Smax)。(5) 當(dāng)隨機(jī)概率ε大于ε0時(shí),從A中隨機(jī)選擇動(dòng)作at,否則根據(jù)式(11)選擇at。

(11)

(6) 執(zhí)行at,獲得立即獎(jiǎng)勵(lì)rt及新狀態(tài)st+1。(7) 將樣本(st,at,rt,st+1)存入M,若為初始樣本,采集概率為1,否則根據(jù)式(9)計(jì)算采集概率。(8) 從M中采樣N個(gè)訓(xùn)練樣本,并根據(jù)式(10)計(jì)算每個(gè)樣本的更新權(quán)重?j,j=1,2,…,N。(9) 根據(jù)式(8)計(jì)算每個(gè)訓(xùn)練樣本的時(shí)序差分誤差TDDQNj,j=1,2,…,N,并根據(jù)式(9)更新其在M中的樣本采集概率。(10) 最小化式(12)中的L(θ)來更新Q網(wǎng)絡(luò)權(quán)值。

(12)

(11) 每間隔Tr步更新目標(biāo)Q網(wǎng)絡(luò)權(quán)值θ′=θ。(12) 將新狀態(tài)轉(zhuǎn)為當(dāng)前狀態(tài)st=st+1。(13) 判斷終止條件結(jié)束step循環(huán)。(14) 判斷終止條件結(jié)束episode循環(huán)。

4 基于雙延遲深度確定性策略梯度的能量管理策略

TD3是一種以DDPG為基礎(chǔ)并采用演員-評(píng)論家(Actor-Critic)框架的連續(xù)控制無模型DRL算法。TD3由Actor部分和Critic部分組成,其中Actor部分用于近似策略函數(shù)π,由Actor網(wǎng)絡(luò)及其目標(biāo)網(wǎng)絡(luò)組成;而Critic部分用于近似行為值函數(shù)Qπ(st,at),由兩個(gè)Critic網(wǎng)絡(luò)及其相對(duì)應(yīng)的目標(biāo)網(wǎng)絡(luò)組成。為減小Actor-Critic的高估偏差,TD3使用截?cái)嚯pQ學(xué)習(xí)來構(gòu)造TD-error,并通過最小化損失函數(shù)L(τi)來更新Critic網(wǎng)絡(luò)參數(shù),如式(13)所示。

(13)

(14)

為進(jìn)一步減小Critic網(wǎng)絡(luò)的更新方差,Actor網(wǎng)絡(luò)的更新頻率要低于Critic網(wǎng)絡(luò),而目標(biāo)網(wǎng)絡(luò)則采用式(15)延遲軟更新的方式。

(15)

式中,γ為目標(biāo)網(wǎng)絡(luò)軟更新權(quán)重,通常γ遠(yuǎn)小于1以保證目標(biāo)網(wǎng)絡(luò)權(quán)值變化平緩。

(16)

(11) 每間隔Tr步,根據(jù)式(14)利用策略上升更新Actor網(wǎng)絡(luò)權(quán)值,根據(jù)式(15)更新目標(biāo)網(wǎng)絡(luò)權(quán)值。(12) 將新狀態(tài)轉(zhuǎn)為當(dāng)前狀態(tài)st=st+1。(13) 判斷終止條件結(jié)束step循環(huán)。(14) 判斷終止條件結(jié)束episode循環(huán)。

5 仿真結(jié)果分析

通過仿真分析對(duì)研究進(jìn)行驗(yàn)證。首先,基于Python搭建HEB能量管理深度強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境;然后基于PyTorch分別搭建DDQN和TD3能量管理策略控制模型;最后以C-WTVC循環(huán)為目標(biāo)工況進(jìn)行整車經(jīng)濟(jì)性仿真試驗(yàn)。模型的初始SOC設(shè)為0.6,SOC上下限設(shè)為0.5和0.7。為驗(yàn)證DDQN和TD3策略的有效性,將DP策略作為基準(zhǔn)與所研究策略進(jìn)行對(duì)比分析。

5.1 算法設(shè)置及收斂性

DDQN中估計(jì)Q網(wǎng)絡(luò)和目標(biāo)Q網(wǎng)絡(luò)的結(jié)構(gòu)完全一致,其隱藏層均采用3層全連接層,每層神經(jīng)元個(gè)數(shù)分別為300、200、100。其參數(shù)經(jīng)調(diào)試后確定學(xué)習(xí)率為0.000 5,獎(jiǎng)勵(lì)折扣因子為0.95,記憶庫容量為1×105,樣本集數(shù)量為64,貪婪率從0.55逐步增加到0.95。而TD3中,Actor部分和Critic部分共6個(gè)神經(jīng)網(wǎng)絡(luò)均采用3層全連接層的隱藏層結(jié)構(gòu),每層神經(jīng)元個(gè)數(shù)分別為200、100、50。其參數(shù)經(jīng)調(diào)試后確定Actor網(wǎng)絡(luò)學(xué)習(xí)率為0.001,Critic網(wǎng)絡(luò)學(xué)習(xí)率為 0.000 5,獎(jiǎng)勵(lì)折扣因子為0.95,動(dòng)作噪聲為0.1,目標(biāo)動(dòng)作噪聲為0.2,記憶庫容量為2×105,樣本集數(shù)量為64。根據(jù)以上設(shè)置,分別使用DDQN和TD3策略進(jìn)行1 000次能量管理策略學(xué)習(xí)。圖4為DDQN和TD3策略的獎(jiǎng)勵(lì)曲線收斂情況。由圖4可以看出,在學(xué)習(xí)150次之后DDQN和TD3策略都開始收斂,總獎(jiǎng)勵(lì)值趨于穩(wěn)定,表明DDQN和TD3算法對(duì)混合動(dòng)力系統(tǒng)能量管理具有較好的適用性。

圖4 DDQN和TD3策略的獎(jiǎng)勵(lì)曲線

5.2 能量管理策略效果分析

圖5顯示了DP、DDQN及TD3這3種策略下的SOC軌跡。從圖5中可以看出3種策略均未出現(xiàn)電池過充、過放現(xiàn)象,終止時(shí)刻也均實(shí)現(xiàn)了SOC平衡。同時(shí)也可以看出,與DP策略全局統(tǒng)籌的SOC軌跡相比,DDQN和TD3策略更傾向于利用制動(dòng)回收模式補(bǔ)充電量的特點(diǎn)來尋找一個(gè)SOC平衡點(diǎn),尤其是TD3策略幾乎全程都處于電量維持狀態(tài)。

圖5 DP、TD3、DDQN策略的SOC軌跡

C-WTVC工況包括城市循環(huán)、公路循環(huán)及高速循環(huán)3個(gè)階段。圖6~圖8為C-WTVC工況不同階段3種策略下驅(qū)動(dòng)模式分布圖。圖9為不同循環(huán)階段下,3種策略的混合驅(qū)動(dòng)模式占比情況。由圖6~圖9分析可知,在城市循環(huán)階段,3種策略均傾向于純電驅(qū)動(dòng),尤其是DDQN策略,其混合驅(qū)動(dòng)模式占比僅為32%。在公路循環(huán)階段,3種策略均傾向于混合驅(qū)動(dòng),DP策略混合驅(qū)動(dòng)占比最高,傾向于行車充電來保證下一階段高速低轉(zhuǎn)矩工況可以純電驅(qū)動(dòng),而DDQN和TD3策略則沒有DP策略的預(yù)見性,傾向于通過混合驅(qū)動(dòng)維持電量在平衡點(diǎn)附近。在高速循環(huán)階段,TD3和DP策略較為相似,均選擇高轉(zhuǎn)矩時(shí)混合驅(qū)動(dòng),低轉(zhuǎn)矩時(shí)純電驅(qū)動(dòng);而DDQN策略由于前期SOC平衡在較低值,不得不通過混合驅(qū)動(dòng)來提高電量,混合驅(qū)動(dòng)模式占比高達(dá)88%??傮w來看,DDQN和TD3策略在驅(qū)動(dòng)模式的控制邏輯上與DP策略表現(xiàn)出較強(qiáng)的相似性,3種策略下純電驅(qū)動(dòng)模式均主要分布于低速和較低轉(zhuǎn)矩區(qū)間,而混合驅(qū)動(dòng)模式則主要分布于高速和較高轉(zhuǎn)矩區(qū)間。

圖6 DP策略不同階段驅(qū)動(dòng)模式分布

圖7 DDQN策略不同階段驅(qū)動(dòng)模式分布

圖8 TD3策略不同階段驅(qū)動(dòng)模式分布

圖9 DP、DDQN及TD3策略不同階段混合驅(qū)動(dòng)模式占比

3種策略百公里油耗如表2所示,DDQN和TD3策略的百公里油耗分別為19.51 L和19.48 L。

表2 3種策略下整車能耗對(duì)比

3種策略下柴油機(jī)工作點(diǎn)分布如圖10所示,不同區(qū)間下柴油機(jī)轉(zhuǎn)速占比如圖11所示。由 圖10(a) 可以看出,TD3策略可以對(duì)本文中的控制變量(柴油機(jī)轉(zhuǎn)速)進(jìn)行連續(xù)控制,相比需要對(duì)變量離散化處理的優(yōu)化算法而言具有一定優(yōu)勢。由 圖11 可知,為獲得低油耗,DDQN和TD3策略下輸出的柴油機(jī)轉(zhuǎn)速分布區(qū)間和DP策略大致相同,這也使得DDQN和TD3策略的經(jīng)濟(jì)性均達(dá)到了DP策略的93%。

圖10 DP、DDQN及TD3策略下柴油機(jī)工作點(diǎn)

圖11 DP、DDQN、TD3策略下柴油機(jī)轉(zhuǎn)速分布

6 結(jié)論

(1) DDQN和TD3策略均以較快的速度實(shí)現(xiàn)了自適應(yīng)收斂,表明DDQN和TD3算法在混合動(dòng)力系統(tǒng)能量管理問題中具有較強(qiáng)的適用性。

(2) DDQN和TD3策略的驅(qū)動(dòng)模式控制邏輯與DP策略較為相似,總體上表現(xiàn)為低速和較低轉(zhuǎn)矩時(shí)純電驅(qū)動(dòng),高速和較高轉(zhuǎn)矩時(shí)混合驅(qū)動(dòng)。

(3) DDQN和TD3策略下的柴油機(jī)工作點(diǎn)分布情況與DP策略大致相同,3種策略下柴油機(jī)均主要工作于中低轉(zhuǎn)速高效區(qū)間,且TD3策略可以對(duì)本文中的控制變量即柴油機(jī)轉(zhuǎn)速進(jìn)行連續(xù)控制。

(4) DDQN和TD3策略的百公里油耗分別為19.51 L和19.48 L,經(jīng)濟(jì)性均達(dá)到了DP策略的93%,表明了DDQN和TD3策略的有效性。

猜你喜歡
策略
基于“選—練—評(píng)”一體化的二輪復(fù)習(xí)策略
幾何創(chuàng)新題的處理策略
求初相φ的常見策略
例談未知角三角函數(shù)值的求解策略
我說你做講策略
“我說你做”講策略
數(shù)據(jù)分析中的避錯(cuò)策略
高中數(shù)學(xué)復(fù)習(xí)的具體策略
“唱反調(diào)”的策略
幸福(2017年18期)2018-01-03 06:34:53
價(jià)格調(diào)整 講策略求互動(dòng)
主站蜘蛛池模板: 国产精品久久久久久影院| 日本一本正道综合久久dvd | av在线手机播放| 亚洲欧美日本国产综合在线| 久久婷婷色综合老司机| 久久semm亚洲国产| 亚洲中文字幕在线一区播放| 东京热高清无码精品| 日韩第一页在线| 91尤物国产尤物福利在线| 狠狠色噜噜狠狠狠狠色综合久| 国产精品女人呻吟在线观看| 99在线视频网站| 91国内视频在线观看| 丁香五月婷婷激情基地| 亚洲啪啪网| 青青青视频91在线 | 国产麻豆精品在线观看| 亚洲国产看片基地久久1024| 中文无码日韩精品| 黄色网在线| 国产午夜人做人免费视频中文| 国产麻豆福利av在线播放| 国产在线高清一级毛片| 国产精品尤物在线| 国产福利小视频在线播放观看| 亚洲国产精品无码AV| 99re这里只有国产中文精品国产精品| 国产欧美日韩在线在线不卡视频| 亚洲av无码牛牛影视在线二区| 91麻豆精品视频| 91网红精品在线观看| 熟女日韩精品2区| 99无码中文字幕视频| 精品三级网站| 久久青草视频| 欧美成人二区| 亚洲三级片在线看| 国产丝袜第一页| 99久久国产综合精品女同 | 久热精品免费| 欧美精品v日韩精品v国产精品| 日韩成人午夜| 中文字幕亚洲无线码一区女同| 国产欧美在线观看一区| 亚洲午夜国产片在线观看| 国产精品无码AV中文| 亚洲a免费| 国产99久久亚洲综合精品西瓜tv| 91成人免费观看在线观看| 91精品久久久久久无码人妻| 色欲综合久久中文字幕网| 国产成人一区免费观看| 一级毛片免费的| 国产美女在线观看| 国产在线观看一区二区三区| 亚洲日产2021三区在线| 欧美无遮挡国产欧美另类| 国产久操视频| 成人va亚洲va欧美天堂| 91小视频版在线观看www| 欧美成一级| 国产成人无码久久久久毛片| 亚洲综合一区国产精品| 国产成人精品亚洲日本对白优播| 久久国产精品嫖妓| 国产91精品最新在线播放| 国产十八禁在线观看免费| 精品亚洲欧美中文字幕在线看| 国产一区亚洲一区| 久青草网站| 乱色熟女综合一区二区| 国产福利在线免费| 久久天天躁夜夜躁狠狠| 久久精品国产精品青草app| 在线网站18禁| 在线国产欧美| 全部无卡免费的毛片在线看| 亚洲男人的天堂久久香蕉| 青青青国产免费线在| 亚洲无码视频喷水| 国产国语一级毛片|