周恒恒, 高松, 王鵬偉, 崔凱晨, 張宇龍
(山東理工大學(xué)交通與車輛工程學(xué)院, 淄博 255000)
隨著社會(huì)的發(fā)展,車輛保有量和駕駛?cè)藛T數(shù)量持續(xù)上升,交通事故、環(huán)境污染、交通堵塞問(wèn)題日益嚴(yán)重,智能化是引領(lǐng)汽車變革的技術(shù)之一,具有提高道路安全,減少燃油消耗,提高道路通暢性的巨大潛力,將改變?nèi)祟惖某鲂蟹绞胶蜕鐣?huì)結(jié)構(gòu)。
傳統(tǒng)的自動(dòng)駕駛系統(tǒng)主要基于傳感器信號(hào)結(jié)合人類駕駛的規(guī)則構(gòu)造由環(huán)境到駕駛控制動(dòng)作的模型系統(tǒng),其優(yōu)點(diǎn)是擁有較強(qiáng)的可解釋性,但面對(duì)復(fù)雜多變的現(xiàn)實(shí)環(huán)境,模型的表達(dá)能力有限,自主學(xué)習(xí)能力和泛化能力[1-3]有限,魯棒性難以保證。
DeepMind團(tuán)隊(duì)通過(guò)強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)在雅達(dá)利游戲中控制智能體輸出合適的離散的動(dòng)作,后續(xù)的研究者針對(duì)連續(xù)動(dòng)作問(wèn)題,將David Sliver團(tuán)隊(duì)證明的確定性策略方法與DQN(deep Q-network)結(jié)合,提出DDPG(deep deterministic policy gradient)算法[4-6],該算法使得深度強(qiáng)化學(xué)習(xí)在解決連續(xù)空間問(wèn)題上有了長(zhǎng)足的發(fā)展。由于深度強(qiáng)化學(xué)習(xí)在各種場(chǎng)景中超越人類的表現(xiàn),深度強(qiáng)化學(xué)習(xí)中環(huán)境和智能體的交互模式與自動(dòng)駕駛中環(huán)境感知模塊和決策控制模塊的交互模式相似及深度強(qiáng)化學(xué)習(xí)表現(xiàn)出的優(yōu)秀自主學(xué)習(xí)能力和面對(duì)不同場(chǎng)景的泛化能力,使得研究者開(kāi)始通過(guò)深度強(qiáng)化學(xué)習(xí)解決自動(dòng)駕駛行為決策的問(wèn)題。
深度強(qiáng)化學(xué)習(xí)可以應(yīng)用于自動(dòng)駕駛的控制器優(yōu)化、路徑規(guī)劃、超車換道、復(fù)雜導(dǎo)航策略的開(kāi)發(fā)等策略中[7]。Huval等[8]基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)結(jié)構(gòu),在大量數(shù)據(jù)集基礎(chǔ)上,通過(guò)深度學(xué)習(xí)和計(jì)算機(jī)視覺(jué)算法,完成了在高速公路環(huán)境下的車輛、車道實(shí)時(shí)檢測(cè)任務(wù)。Bojarski等[9]提出了基于CNN網(wǎng)絡(luò)結(jié)構(gòu)搭建了自動(dòng)駕駛端到端模型,分別在模擬器中和真實(shí)環(huán)境中進(jìn)行了訓(xùn)練和測(cè)試,結(jié)果表明:CNN網(wǎng)絡(luò)可以學(xué)習(xí)到有意義的道路特性及轉(zhuǎn)向決策。Sallab等[10]將離散動(dòng)作DQN算法和連續(xù)動(dòng)作DDAC (deep deterministic actor critic algorithm) 算法應(yīng)用于車道保持系統(tǒng),證明了DDAC優(yōu)于DQN。張永梅等[11]針對(duì)深度強(qiáng)化學(xué)習(xí)前期訓(xùn)練前期獎(jiǎng)勵(lì)隨機(jī)性高難以獲取問(wèn)題,提出了內(nèi)在好奇心驅(qū)的深度確定性策略梯度算法來(lái)完成機(jī)器人路徑規(guī)劃任務(wù)。結(jié)果表明:所提出的算法決策效果更優(yōu)越,但實(shí)驗(yàn)中只測(cè)試了單一場(chǎng)景,模型在不同場(chǎng)景下的適應(yīng)性無(wú)法得到驗(yàn)證。Cheng等[12]開(kāi)發(fā)了CNN模型,通過(guò)標(biāo)記的MSA(motion-sensitive area)數(shù)據(jù)集學(xué)習(xí)駕駛策略,在SUMO(simulation of urban mobility)中測(cè)試表明,基于強(qiáng)化學(xué)習(xí)的換道策略優(yōu)于基于規(guī)則的換道策略。Zhao等[13]為了解決智能車輛受環(huán)境因素影響難以準(zhǔn)確做出變道決策的問(wèn)題,提出了一種基于貝葉斯優(yōu)化的XGBoost(extreme gradient boosting)決策模型,實(shí)驗(yàn)結(jié)果表明:此模型決策識(shí)別準(zhǔn)確率可達(dá)到95%以上,具有良好的決策效果,但該研究只選取前車和自車相關(guān)的數(shù)據(jù)作為模型的輸入,忽略了環(huán)境信息對(duì)自車行為決策的影響。上述研究實(shí)現(xiàn)了端到端的行為決策,但訓(xùn)練過(guò)程需要大量人工標(biāo)注數(shù)據(jù)且輸出變量單一,模型適應(yīng)能力有待提升。
鑒于此,利用深度強(qiáng)化學(xué)習(xí)的強(qiáng)擬合和交互特性針對(duì)動(dòng)態(tài)場(chǎng)景中的超車行為,構(gòu)建基于DDPG算法的端到端決策模型,結(jié)合場(chǎng)景及人類駕駛員操作習(xí)慣對(duì)輸入端信息進(jìn)行篩選,以篩選后的車輛狀態(tài)、環(huán)境信息為輸入,輸出連續(xù)影響車輛行駛性能的多維度控制量,完成車輛端到端行為決策,省略了車輛系統(tǒng)的復(fù)雜建模過(guò)程。針對(duì)DDPG算法訓(xùn)練過(guò)程的獎(jiǎng)勵(lì)震蕩現(xiàn)象引發(fā)的輸出變量值突變問(wèn)題,為進(jìn)一步提升決策模型的控制精度和穩(wěn)定性將控制變量作為輸入對(duì)DDPG算法進(jìn)行反饋優(yōu)化,理論方面在強(qiáng)化學(xué)習(xí)中引入了反饋思想,實(shí)踐方面提供了一種增加強(qiáng)化學(xué)習(xí)穩(wěn)定性的方法。
車輛自動(dòng)駕駛過(guò)程可以看作車輛在復(fù)雜狀態(tài)空間中的決策問(wèn)題[14],深度強(qiáng)化學(xué)習(xí)作為深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合的產(chǎn)物,擁有深度學(xué)習(xí)優(yōu)秀的感知理解能力和強(qiáng)化學(xué)習(xí)的決策能力,綜上所述深度強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛領(lǐng)域擁有廣闊的前景。
深度強(qiáng)化學(xué)習(xí)通常會(huì)把要解決的問(wèn)題抽象成馬爾科夫決策(Markov decision process, MDP)[15]過(guò)程,令{S,A,R,S′}為當(dāng)前狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)和下一時(shí)刻狀態(tài)的集合,設(shè)定t時(shí)刻狀態(tài)st、動(dòng)作at、獎(jiǎng)勵(lì)rt、t+1時(shí)刻的狀態(tài)st+1作為一個(gè)元組{st,at,rt,st+1}進(jìn)行收集便構(gòu)成{S,A,R,S′}。智能體與環(huán)境依據(jù)策略π進(jìn)行交互,收集多條包含回報(bào)的軌跡,如式(1)所示。
R=rt+1+γrt+2+γ2rt+3+…
(1)
式(1)中:γ為折扣因子。
求出所有軌跡的回報(bào)的平均值,通過(guò)優(yōu)化策略π來(lái)最大化R,γ∈(0,1),代表未來(lái)的獎(jiǎng)勵(lì)對(duì)R影響逐漸減少。
Q函數(shù)Qπ=Er~π[Rt|st,at],其中,Er~π為獎(jiǎng)勵(lì)r在策略π下的期望,Rt為在狀態(tài)s下選取動(dòng)作at的獎(jiǎng)勵(lì)集合。強(qiáng)化學(xué)習(xí)的優(yōu)化目標(biāo)為尋得最優(yōu)策略π*使得R的期望最大,即尋找使得式(2)成立的π*。
Qπ*=Er~π*[Rt|st,at]
(2)
式(2)中:Qπ*為狀態(tài)st在最優(yōu)策略π*下選取動(dòng)作at的價(jià)值;Er~π*為獎(jiǎng)勵(lì)r在最優(yōu)策略π*下的期望。

(3)

自DQN算法出現(xiàn)之后,一系列深度強(qiáng)化學(xué)習(xí)算法針對(duì)DQN所不能解決的問(wèn)題應(yīng)運(yùn)而生,其中DDPG算法是針對(duì)DQN不能處理連續(xù)控制性問(wèn)題提出的。其中,θQ′為目標(biāo)網(wǎng)絡(luò)Q′的權(quán)重,θu′為目標(biāo)網(wǎng)絡(luò)u′的權(quán)重,si、ai、ri分別為n條軌跡中的第i條軌跡的狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì),yi為計(jì)算的實(shí)際的Q值,θμJ為求出的策略梯度,n為采樣的軌跡數(shù)量,a為Q對(duì)a求梯度,τ為更新幅度,使得網(wǎng)絡(luò)權(quán)重緩慢更新,提高學(xué)習(xí)穩(wěn)定性。

DDPG算法隨機(jī)初始化Q網(wǎng)絡(luò)Q(s,aθQ)和策略網(wǎng)絡(luò);μ(sθμ),其權(quán)重為θQ和θμ;初始化目標(biāo)網(wǎng)絡(luò)Q'和μ'并復(fù)制權(quán)重θQ'←θQ,θμ'←θμ;初始化經(jīng)驗(yàn)回放池R;執(zhí)行M個(gè)回合循環(huán),對(duì)于每個(gè)回合初始化探索動(dòng)作的隨機(jī)過(guò)程,即噪聲N;接收初始化狀態(tài)s1;執(zhí)行T個(gè)時(shí)間步長(zhǎng),對(duì)于時(shí)間t根據(jù)當(dāng)前的策略和探索噪聲選擇動(dòng)作at=μ(stθμ)+Nt;環(huán)境根據(jù)at反饋獎(jiǎng)勵(lì)rt和下一個(gè)狀態(tài)st+1;存儲(chǔ)軌跡(st,at,rt,st+1)到經(jīng)驗(yàn)回放池R中;從經(jīng)驗(yàn)回放池R中隨機(jī)采樣n條軌跡(si,ai,ri,si+1);計(jì)算實(shí)際的Q值yi=ri+γQ'[si+1,μ'(si+1θμ']θQ');通過(guò)最小化損失函數(shù)L來(lái)更新Q網(wǎng)絡(luò):L=1n∑i[yi-Q(si,aiθQ)]2;使用采樣策略梯度來(lái)更新策略網(wǎng)絡(luò):θμJ≈1n∑iaQ(st,atθQ)st=si,at=μ(si)θμμ(stθμ)si軟更新目標(biāo)網(wǎng)絡(luò):θQ'←τθQ+(1-τ)θQ'θμ'←τθμ+(1-τ)θμ'結(jié)束T循環(huán)結(jié)束M
自動(dòng)駕駛的研發(fā)路線[16]通常是在實(shí)車上進(jìn)行數(shù)據(jù)測(cè)試和駕駛算法策略的設(shè)計(jì)與驗(yàn)證,然而實(shí)車測(cè)試研發(fā)成本高、調(diào)試周期長(zhǎng)。隨計(jì)算機(jī)技術(shù)發(fā)展,模擬仿真技術(shù)被廣泛應(yīng)用于自動(dòng)駕駛算法開(kāi)發(fā),因此,研究者可通過(guò)自動(dòng)駕駛仿真平臺(tái)預(yù)先進(jìn)行行為決策算法的測(cè)試和驗(yàn)證,其次再部署到實(shí)車中以提升研發(fā)效率。
本文行為決策為單車和多車環(huán)境下利用狀態(tài)信息直接控制車輛行駛動(dòng)作(轉(zhuǎn)向,油門(mén),剎車),在車輛不駛出道路和不發(fā)生碰撞的前提下超越前方車輛。智能體-環(huán)境交互模型如圖1所示,策略網(wǎng)絡(luò)根據(jù)輸入狀態(tài)輸出動(dòng)作,Q網(wǎng)絡(luò)根據(jù)輸入狀態(tài)和動(dòng)作估計(jì)動(dòng)作Q值,目標(biāo)策略網(wǎng)絡(luò)和目標(biāo)Q網(wǎng)絡(luò)保證未來(lái)獎(jiǎng)勵(lì)Qtarget計(jì)算更加穩(wěn)定,獎(jiǎng)勵(lì)函數(shù)輸出當(dāng)前動(dòng)作的獎(jiǎng)勵(lì)并作為計(jì)算Qtarget的真實(shí)獎(jiǎng)勵(lì)項(xiàng),經(jīng)驗(yàn)回放池負(fù)責(zé)存儲(chǔ)軌跡{st,at,rt,st+1},TORCS仿真平臺(tái)作為車輛運(yùn)行交互環(huán)境。交互流程可以抽象為:①智能體接收環(huán)境給出的觀測(cè)狀態(tài)。在實(shí)際開(kāi)發(fā)過(guò)程中,此狀態(tài)實(shí)際是由智能體需求決定,而非環(huán)境直接給出;②智能體根據(jù)此狀態(tài)通過(guò)策略網(wǎng)絡(luò)做出相應(yīng)的動(dòng)作反饋給環(huán)境;③ 環(huán)境根據(jù)智能體做出的動(dòng)作進(jìn)行一次環(huán)境重置,同時(shí)給出新的觀測(cè)狀態(tài)以及對(duì)應(yīng)的獎(jiǎng)勵(lì); ④ 循環(huán)①~③的交互步驟。

圖1 系統(tǒng)模型Fig.1 System model
為了獲得更好的解釋性和穩(wěn)定性,采用傳感器信息作為車輛與環(huán)境的交互數(shù)據(jù)。
針對(duì)高速公路環(huán)境,遵循人類駕駛員的能力、經(jīng)驗(yàn)和駕駛習(xí)慣等[17-18]可設(shè)定保守駕駛員模型、普通駕駛員模型和激進(jìn)駛員模型,普通駕駛員模型和激進(jìn)駕駛員模型是同一類具有經(jīng)驗(yàn)的駕駛員模型。行車過(guò)程中,駕駛員通常根據(jù)視覺(jué)和感覺(jué)來(lái)感知車輛及環(huán)境信息,感知信息的多少是上述三類駕駛員模型的不同之處。假設(shè)三類駕駛員反應(yīng)時(shí)間相同,設(shè)定視覺(jué)參數(shù)V和感覺(jué)參數(shù)T(路況反饋和車輛振動(dòng)等信息)保守駕駛員和經(jīng)驗(yàn)豐富駕駛員的行為決策,如圖2所示。

Vf為遠(yuǎn)處視野;Vn為近處視野;Kf為視覺(jué)預(yù)測(cè)參數(shù),是視覺(jué)補(bǔ) 償參數(shù);ωi為i類駕駛員風(fēng)格系數(shù);Ti為i類駕駛員的感覺(jué)參數(shù); Kb為感覺(jué)滯后參數(shù);n為不同駕駛員感覺(jué)類信息的種類; s為復(fù)頻率,是傳遞函數(shù)中的自變量
如圖2所示,模型中的預(yù)測(cè)決策部分可作為比例系統(tǒng),補(bǔ)償和滯后決策部分可作為一階系統(tǒng)。以通過(guò)彎道為例,對(duì)于缺乏經(jīng)驗(yàn)的保守駕駛員,通常只考慮遠(yuǎn)處視野做出決策,不會(huì)借助近處視野對(duì)決策進(jìn)行微調(diào)和對(duì)感覺(jué)信息不一定做出正確的判斷,且決策不成熟,因此Kf參數(shù)較小,缺少補(bǔ)償和滯后系統(tǒng)的微調(diào);對(duì)于經(jīng)驗(yàn)豐富的駕駛員,通常借助遠(yuǎn)處視野進(jìn)行較好的決策,其次根據(jù)近處視野對(duì)決策進(jìn)行微調(diào),最后根據(jù)感覺(jué)信息對(duì)決策進(jìn)行更加細(xì)微的調(diào)整,因此Kf參數(shù)較大,對(duì)于激進(jìn)駕駛員Kn和Kb較大。綜上所述,駕駛員收獲信息的容量關(guān)乎決策的好壞。根據(jù)經(jīng)驗(yàn)豐富的駕駛員模型,圖2三系統(tǒng)需要考慮的傳感器信息如表1所示。

表1 經(jīng)驗(yàn)豐富的駕駛員感知信息Table 1 Perception information of experienced driver
智能駕駛車輛應(yīng)在一個(gè)動(dòng)態(tài)的、復(fù)雜的交通流中實(shí)施不同的行為,如車輛跟隨、變道和超車。其中,超車策略由于交通的不確定性和復(fù)雜性發(fā)生碰撞可能性較大,因此完成超車策略具有挑戰(zhàn)性。選取典型的超車場(chǎng)景如圖3所示。

Δd為相鄰車輛的縱向距離
結(jié)合表1和圖3,根據(jù)策略需求,最終選取表2所列9類信息作為輸入狀態(tài)信息。

表2 狀態(tài)信息Table 2 State information
基于DDPG算法可知,交互數(shù)據(jù){st,at,rt,st+1}對(duì)策略網(wǎng)絡(luò)和目標(biāo)策略網(wǎng)絡(luò)參數(shù)的更新具有重要影響,其中{st,rt,st+1}狀態(tài)和獎(jiǎng)勵(lì)信息由環(huán)境提供。表3所示的歸一化動(dòng)作信息{at}由智能體提供,動(dòng)作取值可在[0,1]內(nèi)平滑連續(xù)的變化,與真實(shí)的駕駛控制動(dòng)作相近,圖4表征個(gè)別狀態(tài)參數(shù)在道路環(huán)境中的位置。

表3 動(dòng)作信息Table 3 Action information

圖4 駕駛過(guò)程關(guān)鍵參數(shù)Fig.4 Key parameters of driving process
為了使智能體更快地學(xué)到合理的策略,對(duì)于獎(jiǎng)勵(lì)函數(shù)rt的設(shè)計(jì)尤為重要。隨著強(qiáng)化學(xué)習(xí)的發(fā)展,許多相關(guān)研究放棄了用傳統(tǒng)的手工設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)的方式,采用逆強(qiáng)化學(xué)習(xí)來(lái)直接得到獎(jiǎng)勵(lì)函數(shù),然而本文為了深入理解各個(gè)參數(shù)對(duì)行為決策的影響,依然采用傳統(tǒng)的方式來(lái)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),獎(jiǎng)勵(lì)函數(shù)和DDPG算法的超參數(shù)選定直接影響算法的收斂速度和性能呢。
在深度強(qiáng)化學(xué)習(xí)中,獎(jiǎng)勵(lì)函數(shù)通過(guò)具體化和數(shù)值化任務(wù)策略與深度強(qiáng)化學(xué)習(xí)算法溝通,引導(dǎo)圖5設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)探索狀態(tài)空間中的決策相關(guān)因素構(gòu)成狀態(tài)-動(dòng)作對(duì)。根據(jù)駕駛過(guò)程中的關(guān)鍵參數(shù)與狀態(tài)信息對(duì)車道保持策略和超車策略分別進(jìn)行了獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)。

圖5 網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Network architecture
針對(duì)車道保持策略,參考文獻(xiàn)[19]提出的道路不滿意度評(píng)價(jià)方法,提出以下3個(gè)約束。
(1)設(shè)定正向獎(jiǎng)勵(lì)sx(cosθ),使車輛以合理的速度沿道路中心前進(jìn),保證行車效率。
(2)設(shè)定懲罰項(xiàng)sy(sinθ),當(dāng)車輛橫向移動(dòng)偏離道路中心時(shí),給與負(fù)向獎(jiǎng)勵(lì)。
(3)高速狀態(tài)下可能導(dǎo)致車輛漂移跑出道路,因此設(shè)定懲罰項(xiàng)sx(trackP),使車輛保持貼近道路中心。
根據(jù)上述約束,車道保持策略的獎(jiǎng)勵(lì)函數(shù)為
Rkeep=sx(cosθ)-sy(sinθ)-sx(trackP)
(4)
超車策略可以簡(jiǎn)化為車輛學(xué)習(xí)到合理的車道保持策略,與此同時(shí)學(xué)習(xí)超車策略。因此只需將車道保持的獎(jiǎng)勵(lì)函數(shù)添加超車項(xiàng)。超車策略的獎(jiǎng)勵(lì)函數(shù)為
(5)
式(5)中:Rover為僅考慮超越車輛數(shù)的獎(jiǎng)勵(lì)函數(shù);Rtaking為超車行為總獎(jiǎng)勵(lì)函數(shù);n′為車道中包括智能體在內(nèi)的車輛個(gè)數(shù);order為自車的位次。
為了防止神經(jīng)網(wǎng)絡(luò)模型陷入局部最小值,需要設(shè)計(jì)額外的獎(jiǎng)勵(lì)以及一個(gè)回合的終止條件,如表4所示。
在深度強(qiáng)化學(xué)習(xí)中,使用神經(jīng)網(wǎng)絡(luò)作為擬合狀態(tài)-動(dòng)作對(duì)的復(fù)雜非線性函數(shù),根據(jù)表2所選的狀態(tài)信息,設(shè)計(jì)圖5所示的Q網(wǎng)絡(luò)和策略網(wǎng)絡(luò)。
在訓(xùn)練時(shí)對(duì)動(dòng)作添加噪聲,以更好的探索可能正確的行為,使訓(xùn)練的網(wǎng)絡(luò)模型能夠更好地遷移到不同的場(chǎng)景中。車輛行駛可以看作慣性系統(tǒng),為了保護(hù)系統(tǒng)的安全性,采取OU(ornstein-uhlenbeck)噪聲進(jìn)行動(dòng)作探索,如式(6)所示,OU噪聲各參數(shù)的選擇如表5所示。在動(dòng)作探索的開(kāi)始階段,噪聲較大,隨著訓(xùn)練回合的增加,隨著式(7)衰減至0,此外測(cè)試階段取消噪聲,避免噪聲對(duì)測(cè)試結(jié)果的影響。DDPG算法的各超參數(shù)結(jié)合經(jīng)驗(yàn)[20]和進(jìn)行多次實(shí)驗(yàn)后給出,策略網(wǎng)絡(luò)學(xué)習(xí)率la為0.000 1,Q網(wǎng)絡(luò)學(xué)習(xí)率lr為0.001;下一步動(dòng)作的獎(jiǎng)勵(lì)所占比重γ′為0.95,目標(biāo)網(wǎng)絡(luò)軟更新參數(shù)τ為0.01;經(jīng)驗(yàn)回放池(大小為100 000,抽樣批次為32,訓(xùn)練回合為5 000,即M。

表5 動(dòng)作探索的OU噪聲系數(shù)Table 5 OU noise coefficient of action exploration
dxt=θm(μ-xt)dt+σdWt
(6)
式(6)中:xt為自變量;θm為反映變量均值回歸快慢的參數(shù);μ為均值;σ為回歸過(guò)程的波動(dòng)程度;Wt為維納過(guò)程(布朗運(yùn)動(dòng))。
(7)
式(7)中:noise為噪聲量;i_ep為訓(xùn)練回合;explore為噪聲遞減程度,取10 000。
TORCS(the open racing car simulator)是一款開(kāi)源的自動(dòng)駕駛仿真平臺(tái),用戶可以查閱使用不同的API來(lái)制定不同的行為決策,與駕駛環(huán)境進(jìn)行交互。
TORCS中提供了不同種類的道路場(chǎng)景供研究者使用。在深度強(qiáng)化學(xué)習(xí)問(wèn)題中,若訓(xùn)練過(guò)程中,選用簡(jiǎn)單的道路場(chǎng)景,在測(cè)試中容易出現(xiàn)欠擬合現(xiàn)象,選用復(fù)雜道路則容易出現(xiàn)過(guò)擬合現(xiàn)象。針對(duì)車道保持策略,為了使訓(xùn)練的網(wǎng)絡(luò)適應(yīng)不同路段,選擇了包括左轉(zhuǎn)彎、直線、反向轉(zhuǎn)彎和急轉(zhuǎn)彎4種常見(jiàn)路段的Aalborg道路,具體信息如圖6(a)所示。設(shè)定策略完成距離為5 000 m,目標(biāo)速度為120 km/h,在測(cè)試階段,為進(jìn)一步測(cè)試訓(xùn)練模型的普適性,選定的測(cè)試道路如圖6(b)所示。

圖6 車道保持策略訓(xùn)練和測(cè)試車道Fig.6 Lane keeping strategy training and testing lanes
為對(duì)高速行車工況超車策略進(jìn)行針對(duì)性測(cè)試,選擇圖7所示的高速路車道。在該測(cè)試場(chǎng)景中當(dāng)前方車輛行駛速度慢于自車速度時(shí),自車為了尋求更高的駕駛速度和更廣的駕駛空間,在符合安全要求的條件下實(shí)施超車行為。由于高速道路相對(duì)封閉,且路段類型一致,因此本文超車策略在同一道路進(jìn)行訓(xùn)練和測(cè)試。

圖7 超車策略訓(xùn)練和測(cè)試車道Fig.7 Overtaking strategy training and testing lane
4.2.1 車道保持策略仿真結(jié)果
在車道保持策略中,通過(guò)5 000回合的訓(xùn)練,如圖8所示,平均獎(jiǎng)勵(lì)曲線趨于平穩(wěn),平穩(wěn)時(shí)段內(nèi)的獎(jiǎng)勵(lì)值和獎(jiǎng)勵(lì)函數(shù)相符,模型達(dá)到收斂。在圖6所示的道路測(cè)試,測(cè)試表明自車可以根據(jù)實(shí)時(shí)環(huán)境信息順利完成5 000 m的規(guī)定距離。

圖8 車道保持訓(xùn)練獎(jiǎng)勵(lì)Fig.8 Training reward of lane keeping
由圖9可知,以道路中心為基準(zhǔn),trackP∈[-1,1]表明車輛使用訓(xùn)練出的模型,在不同道路場(chǎng)景下依然可以較好地貼近道路中心行駛;當(dāng)車輛偏移道路中心時(shí),位置曲線波動(dòng)幅度較大,說(shuō)明自車能及時(shí)地根據(jù)實(shí)時(shí)環(huán)境信息調(diào)整動(dòng)作以貼近道路中心行駛,表明模型具有較好的控制精度和適應(yīng)性。

圖9 橫向誤差Fig.9 Lateral error
測(cè)試階段的車輛橫向誤差分布可以一定程度反映模型的適應(yīng)能力,選取車道保持策略中的兩次測(cè)試數(shù)據(jù),橫向誤差分布如圖10所示,可以看出,由于訓(xùn)練車道Aalborg彎道較多,故在測(cè)試中大橫向誤差(>0.5 或者 <-0.5)概率較高;在CG Speedway測(cè)試車道中存在較少的急轉(zhuǎn)彎,大橫向誤差概率較小,表明訓(xùn)練的模型可以在合適的時(shí)刻進(jìn)行剎車以降低車速通過(guò)彎道。兩次仿真實(shí)驗(yàn)中,橫向誤差集中分布在0值附近;訓(xùn)練車道仿真中橫向誤差均值為-0.043 m,中位數(shù)為-0.049 m;測(cè)試車道仿真中橫向誤差均值為-0.048 m,中位數(shù)為-0.039 m,結(jié)合圖9測(cè)試車道橫向誤差波動(dòng)和訓(xùn)練賽道幾乎同步,表明模型更熟悉訓(xùn)練環(huán)境,對(duì)環(huán)境有依賴性,測(cè)試環(huán)境下橫向誤差均值接近0,說(shuō)明模型可以正確提取陌生環(huán)境中和策略相關(guān)的特征,可以完成既定策略;訓(xùn)練車道的橫向誤差中位數(shù)絕對(duì)值劣于測(cè)試車道,說(shuō)明模型在較為復(fù)雜的車道環(huán)境中訓(xùn)練,沒(méi)有出現(xiàn)過(guò)擬合現(xiàn)象,模型具有一定的可靠性。上述分析表明,自車在不同的道路環(huán)境中可以完成車道保持任務(wù),驗(yàn)證結(jié)果總體表明:車輛能夠根據(jù)傳感器信息識(shí)別不同的道路環(huán)境,模型具有一定適應(yīng)不同場(chǎng)景的能力。

圖10 橫向誤差分布Fig.10 Lateral error distribution
4.2.2 超車策略仿真結(jié)果
在超車策略中,迭代訓(xùn)練6 000回合,如圖11所示,獎(jiǎng)勵(lì)曲線相對(duì)平穩(wěn),可以完成既定策略,模型達(dá)到收斂,自車可以在無(wú)碰撞的前提下,超越前方速度慢于自身的車輛。如圖12所示,將超車過(guò)程簡(jiǎn)化為準(zhǔn)備超車、選擇超車位置和超車完成。

圖11 超車訓(xùn)練獎(jiǎng)勵(lì)Fig.11 Training reward of overtaking

圖12 超車子過(guò)程Fig.12 Overtaking sub-process
通過(guò)測(cè)試可知,測(cè)試過(guò)程中自車可根據(jù)實(shí)時(shí)干擾車輛信息,輸出當(dāng)前最優(yōu)控制量,如圖13所示。多次實(shí)驗(yàn)結(jié)果表明:實(shí)驗(yàn)過(guò)程中自車能夠根據(jù)實(shí)時(shí)場(chǎng)景信息,在不發(fā)生碰撞的前提下完成超車;當(dāng)前車留有足夠空間時(shí),自車會(huì)自動(dòng)探索更大的行駛空間,更符合人類的駕駛員操作習(xí)慣。

圖13 超車軌跡Fig.13 Overtaking track
4.2.3 改進(jìn)模型效果分析
在車道保持策略中,從圖14可以看出,DDPG平均獎(jiǎng)勵(lì)曲線雖然最終趨于平穩(wěn),然而會(huì)在某些時(shí)刻發(fā)生突變,表明車輛多次嚴(yán)重偏離道路中心,針對(duì)該問(wèn)題,將自車上一時(shí)刻的控制變量反饋給算法輸入端,如圖14所示,對(duì)算法反饋優(yōu)化后,平均獎(jiǎng)勵(lì)的突變次數(shù)會(huì)減少,說(shuō)明所訓(xùn)練的模型控制精度有所提高,對(duì)于車輛的轉(zhuǎn)向,剎車和油門(mén)的調(diào)節(jié)更加合理。

圖14 獎(jiǎng)勵(lì)對(duì)比Fig.14 Reward comparison
圖15和圖16對(duì)兩種訓(xùn)練的模型在測(cè)試車道中x、y分解速度進(jìn)行分析,在測(cè)試中發(fā)現(xiàn),改進(jìn)模型可以完成車道保持策略,且完成距離遠(yuǎn)遠(yuǎn)大于DDPG模型,表明改進(jìn)模型對(duì)新車道環(huán)境適應(yīng)性優(yōu)于DDPG模型。

圖15 改進(jìn)模型和DDPG模型測(cè)試結(jié)果Fig.15 Improved model and DDPG model testing results

圖16 改進(jìn)模型和DDPG模型的縱向速度箱線圖Fig.16 Longitudinal velocity box line diagram of improved model and DDPG model
選取DDPG模型和改進(jìn)模型的完成策略時(shí)間段基于統(tǒng)計(jì)學(xué)進(jìn)行數(shù)據(jù)分析。從圖15可以看出,DDPG模型與改進(jìn)模型相比橫向速度突變次數(shù)較多,縱向速度變化趨勢(shì)不穩(wěn)定,且DDPG模型忽略完成時(shí)刻橫向速度最大為39.8 km/h,改進(jìn)模型橫向速度最大為22 km/h,說(shuō)明改進(jìn)的模型能更好地提取環(huán)境中和決策有關(guān)的特征信息。可以看出,縱向速度波動(dòng)和橫向速度波動(dòng)同步,且集中在20 s和60 s處,此時(shí)大多位于彎道位置,符合駕駛習(xí)慣。表明改進(jìn)模型的降速控制學(xué)習(xí)效果較優(yōu),所提出的方法能夠根據(jù)實(shí)時(shí)道路信息輸出合理控制量同時(shí)兼顧行車效率及行車安全。
此學(xué)習(xí)策略中目標(biāo)車速為120 km/h,從表6和圖16可以看出,改進(jìn)模型測(cè)試中的速度平均值和中位數(shù)更接近于目標(biāo)速度120 km/h且離散程度較小,說(shuō)明改進(jìn)的模型能更好地控制動(dòng)作隨時(shí)間連續(xù)變化。結(jié)合圖15可以看出,改進(jìn)模型可以更平滑的達(dá)到目標(biāo)速度且發(fā)生的速度波動(dòng)較小,測(cè)試結(jié)果總體表明改進(jìn)模型能夠使自車根據(jù)實(shí)時(shí)場(chǎng)景信息輸出更為精確的動(dòng)作,且能增加車輛的橫向穩(wěn)定性及行駛效率。
針對(duì)傳統(tǒng)決策過(guò)程中規(guī)則庫(kù)建立繁瑣,交互模型構(gòu)建復(fù)雜問(wèn)題,基于DDPG深度強(qiáng)化學(xué)習(xí)算法,提出一種端到端智能車輛行為決策方案,為使自車能夠更清晰地關(guān)注周圍車輛和環(huán)境的關(guān)鍵信息,結(jié)合駕駛員模型對(duì)自車狀態(tài)信息、環(huán)境信息和周圍車輛狀態(tài)信息進(jìn)行選取作為輸入端,通過(guò)構(gòu)建的模型直接輸出控制量完成行為決策。為減弱由于模型適應(yīng)不同環(huán)境時(shí)控制量突變問(wèn)題使自車平穩(wěn)地完成駕駛行為,利用相鄰時(shí)刻控制量連續(xù)性對(duì)DDPG模型信息輸入端進(jìn)行優(yōu)化形成輸出對(duì)輸出控制量的反饋。得出如下結(jié)論。
(1)DDPG模型能夠根據(jù)實(shí)時(shí)環(huán)境信息輸出合理的駕駛行為和控制量,與DDPG模型相比,改進(jìn)的模型對(duì)車輛的轉(zhuǎn)向,剎車和油門(mén)的調(diào)節(jié)更加合理;且車輛橫向速度顯著減小,最大橫向速度減少39.24%,車輛舒適性以及車輛穩(wěn)定性明顯改善。
(2)基于深度強(qiáng)化學(xué)習(xí)的策略實(shí)現(xiàn)模型如何遷移到真實(shí)環(huán)境中一直是個(gè)難題,在未來(lái)的工作中,希望針對(duì)這一難題實(shí)現(xiàn)模型的遷移并在實(shí)車上進(jìn)行實(shí)驗(yàn)。