999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于規(guī)則約束的深度強(qiáng)化學(xué)習(xí)智能車輛高速路場景下行駛決策*

2023-09-26 03:45:44王新凱王樹鳳王世皓
汽車技術(shù) 2023年9期
關(guān)鍵詞:規(guī)則動(dòng)作智能

王新凱 王樹鳳 王世皓

(1.山東科技大學(xué),青島 266590;2.山東五征集團(tuán)有限公司,日照 262306)

主題詞:深度強(qiáng)化學(xué)習(xí) 行駛決策 智能車輛 規(guī)則約束 改進(jìn)DQN算法

1 前言

行駛決策是智能駕駛的核心技術(shù),也是目前的研究熱點(diǎn)之一。行駛決策算法主要分為基于規(guī)則的算法和基于機(jī)器學(xué)習(xí)的算法[1-2]。

基于規(guī)則的行駛決策算法模型主要有有限狀態(tài)機(jī)[3]、模糊邏輯模型[4]等,規(guī)則類算法的可解釋性好,但無法處理較為復(fù)雜和隨機(jī)的動(dòng)態(tài)道路場景,每添加一條規(guī)則,都需要考慮與規(guī)則庫中的其他規(guī)則是否存在沖突。

基于機(jī)器學(xué)習(xí)的換道決策算法模型主要有決策樹模型[5]、深度學(xué)習(xí)模型[6]、強(qiáng)化學(xué)習(xí)模型[7-9]等。隨著深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的迅速發(fā)展,基于機(jī)器學(xué)習(xí)的算法在行駛決策算法中所占比重不斷增加。

文獻(xiàn)[5]使用隨機(jī)森林和決策樹對數(shù)據(jù)集進(jìn)行分析,并輸出決策結(jié)果,但算法對數(shù)據(jù)集的依賴性強(qiáng),數(shù)據(jù)中的噪聲會(huì)直接影響算法的準(zhǔn)確性。文獻(xiàn)[6]設(shè)計(jì)了基于長短時(shí)記憶(Long Short-Term Memory,LSTM)神經(jīng)網(wǎng)絡(luò)的端到端決策算法,但算法缺少探索能力且存在“黑箱”問題,可解釋性差。強(qiáng)化學(xué)習(xí)克服了決策樹模型和深度學(xué)習(xí)模型依賴人工標(biāo)注數(shù)據(jù)的問題,通過與環(huán)境的交互學(xué)習(xí)最優(yōu)策略,為復(fù)雜交通環(huán)境下的決策提供了新的解決思路。文獻(xiàn)[7]使用DQN 完成高速公路場景下的端到端自動(dòng)駕駛決策,并在部分路段達(dá)到了人類駕駛員水準(zhǔn)。文獻(xiàn)[8]使用深度確定策略梯度(Deep Deterministic Policy Gradient,DDPG)算法建立了連續(xù)型動(dòng)作輸出的端到端駕駛決策,在開放式賽車模擬器(The Open Racing Car Simulator,TORCS)平臺上進(jìn)行驗(yàn)證。文獻(xiàn)[9]使用NGSIM(Next Generation Simulation)數(shù)據(jù)集搭建高速路場景,并采用競爭網(wǎng)絡(luò)(Dueling Network)、優(yōu)先經(jīng)驗(yàn)回放等方式對DQN 網(wǎng)絡(luò)進(jìn)行了改進(jìn)。但DQN 算法存在隨機(jī)性強(qiáng)、收斂速度慢等不可避免的缺陷。

為更好地解決強(qiáng)化學(xué)習(xí)算法下智能車輛訓(xùn)練過程中的動(dòng)作選擇隨機(jī)性強(qiáng)、訓(xùn)練效率低等問題,本文提出一種基于規(guī)則約束的DQN 智能車輛行駛決策模型。DQN 算法輸出智能車輛的行駛決策,基于最小安全距離與可變車頭時(shí)距的動(dòng)作檢測模塊實(shí)現(xiàn)對DQN動(dòng)作的硬約束,將規(guī)則引入獎(jiǎng)勵(lì)函數(shù)實(shí)現(xiàn)對智能車輛的軟約束,同時(shí)結(jié)合對算法結(jié)構(gòu)的改進(jìn),實(shí)現(xiàn)智能車輛安全高效的駕駛行為。

2 強(qiáng)化學(xué)習(xí)原理

2.1 DQN算法

DQN 是在Q-Learning 算法的基礎(chǔ)上演變而來,利用深度卷積神經(jīng)網(wǎng)絡(luò)代替Q-Learning的表格解決“維度災(zāi)難”問題,實(shí)現(xiàn)了連續(xù)狀態(tài)空間下強(qiáng)化學(xué)習(xí)的應(yīng)用。

首先,DQN算法基于ε-貪心(ε-greedy)的探索策略與環(huán)境進(jìn)行交互。Q 估計(jì)網(wǎng)絡(luò)對Q值(從某個(gè)動(dòng)作出發(fā),到最終狀態(tài)時(shí)獲得獎(jiǎng)勵(lì)總和的獎(jiǎng)勵(lì)期望)進(jìn)行估計(jì),并選擇Q值最大的動(dòng)作輸出,在更新一定次數(shù)后,再將評估網(wǎng)絡(luò)參數(shù)的權(quán)重復(fù)制給Q目標(biāo)網(wǎng)絡(luò),Q目標(biāo)網(wǎng)絡(luò)負(fù)責(zé)目標(biāo)值yt的計(jì)算。通過最小化損失函數(shù)L(θ)來更新Q估計(jì)網(wǎng)絡(luò)。算法的整體框架如圖1所示。

圖1 DQN整體框架

DQN目標(biāo)值的計(jì)算公式為:

式中,yt為t時(shí)刻目標(biāo)值;rt+1為(t+1)時(shí)刻獲得的瞬時(shí)獎(jiǎng)勵(lì);γ為折扣系數(shù),可調(diào)節(jié)未來獎(jiǎng)勵(lì)對當(dāng)前動(dòng)作的影響;Q(st+1,at+1,θ-)為Q目標(biāo)網(wǎng)絡(luò)對狀態(tài)st+1所有下一步動(dòng)作at+1的Q值估計(jì);θ-為Q目標(biāo)網(wǎng)絡(luò)的參數(shù)。

DQN的損失函數(shù)為:

式中,Q(st,at,θ)為Q估計(jì)網(wǎng)絡(luò)對狀態(tài)st和動(dòng)作at的Q值估計(jì);θ為Q估計(jì)網(wǎng)絡(luò)的參數(shù);E為求期望操作。

2.2 DQN算法的改進(jìn)

DQN 算法在實(shí)際應(yīng)用中存在著過估計(jì)、更新效率低、Q值估計(jì)不準(zhǔn)確等問題,針對以上問題,本文分別采用雙重深度Q 網(wǎng)絡(luò)(Double DQN)、競爭深度Q 網(wǎng)絡(luò)(Dueling DQN)、N 步深度Q 網(wǎng)絡(luò)(N-Step DQN)對原始的DQN 算法進(jìn)行改進(jìn)。將結(jié)合競爭網(wǎng)絡(luò)和雙重網(wǎng)絡(luò)(Double Network)的DQN 變體稱為D3QN,將引入NStep學(xué)習(xí)的D3QN稱為ND3QN。

2.2.1 雙重深度Q網(wǎng)絡(luò)

DQN 算法對Q值的估計(jì)和最大Q值動(dòng)作的選擇均在Q 估計(jì)網(wǎng)絡(luò)中完成,存在過度估計(jì)的問題,使得估計(jì)值大于真實(shí)值,可能導(dǎo)致次優(yōu)動(dòng)作的Q值大于最優(yōu)動(dòng)作的Q值,算法收斂到局部最優(yōu)。

Double DQN[10]針對DQN 過度估計(jì)的問題,將動(dòng)作的選擇和評估過程進(jìn)行了解耦。Q估計(jì)網(wǎng)絡(luò)選擇動(dòng)作,Q目標(biāo)網(wǎng)絡(luò)擬合當(dāng)前動(dòng)作的Q值。

Double DQN目標(biāo)值的計(jì)算公式為:

2.2.2 競爭深度Q網(wǎng)絡(luò)

DQN算法不同動(dòng)作對應(yīng)的Q值需要單獨(dú)學(xué)習(xí),無法更新相同狀態(tài)下的其他動(dòng)作。同時(shí)在Highway-env環(huán)境的某些狀態(tài)下,Q值的大小與當(dāng)前狀態(tài)有著直接的聯(lián)系。

Dueling DQN[11]對網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行了改進(jìn),將其分為2個(gè)部分,將信息先分流到2個(gè)支路中:一路代表狀態(tài)值函數(shù)V(s),表示環(huán)境狀態(tài)本身具有的價(jià)值;另一路代表當(dāng)前狀態(tài)下的動(dòng)作優(yōu)勢函數(shù)A(s,a),表示選擇某個(gè)動(dòng)作額外帶來的價(jià)值。最后將這2 個(gè)支路聚合得到Q值。同時(shí),Dueling DQN 中限制同一狀態(tài)下動(dòng)作優(yōu)勢函數(shù)A(a)的平均值為0,這意味著當(dāng)前狀態(tài)的某個(gè)動(dòng)作對應(yīng)的Q值更新時(shí),其他動(dòng)作的Q值也會(huì)進(jìn)行更新,將大幅提高算法的訓(xùn)練效率。

競爭網(wǎng)絡(luò)結(jié)構(gòu)目標(biāo)值的計(jì)算公式為:

式中,β為狀態(tài)值函數(shù)獨(dú)有部分的網(wǎng)絡(luò)參數(shù);α為動(dòng)作優(yōu)勢函數(shù)獨(dú)有部分的網(wǎng)絡(luò)參數(shù);為所有可能采取的動(dòng)作;A為動(dòng)作空間的維數(shù)。

2.2.3 N步深度Q網(wǎng)絡(luò)原始DQN 采用了單步時(shí)序差分方法,需要后一步的單個(gè)即時(shí)收益和狀態(tài)對當(dāng)前狀態(tài)進(jìn)行更新。蒙特卡洛方法(Monte Carlo Method)則必須采樣到終止?fàn)顟B(tài)才能更新對應(yīng)狀態(tài)價(jià)值,只有走完完整的仿真步長才能更新Q值。N-step DQN[12]則是這2 種方法的折中,向后采樣的時(shí)間步長n靈活可變,在訓(xùn)練前期對目標(biāo)價(jià)值可以估計(jì)得更準(zhǔn)確,從而加快訓(xùn)練速度。

步長n截?cái)嗪竽繕?biāo)值的計(jì)算公式為:

3 基于規(guī)則約束的DQN

為了減少智能車輛訓(xùn)練過程中無意義的碰撞,將規(guī)則引入深度強(qiáng)化學(xué)習(xí)算法,在保證智能車輛合理探索區(qū)間的前提下,減少訓(xùn)練過程中的危險(xiǎn)動(dòng)作。將引入的規(guī)則分為與換道相關(guān)的硬約束和與車道保持相關(guān)的軟約束,分別通過動(dòng)作檢測模塊與獎(jiǎng)勵(lì)函數(shù)實(shí)現(xiàn)。

3.1 基于規(guī)則約束的DQN整體構(gòu)架

基于規(guī)則約束的DQN整體構(gòu)架如圖2所示,所用仿真環(huán)境是Highway-env平臺中的高速路場景。

圖2 基于規(guī)則約束的DQN整體構(gòu)架

與DQN 普通構(gòu)架相比,基于規(guī)則約束的DQN 構(gòu)架主要增加了動(dòng)作檢測模型,并將規(guī)則分為硬約束和軟約束分別加入動(dòng)作檢測模型和獎(jiǎng)勵(lì)函數(shù)中。

在行駛過程中,智能車輛首先獲取自身和周圍車輛的參數(shù)信息作為當(dāng)前時(shí)刻的狀態(tài)值,同時(shí)將動(dòng)作值、獎(jiǎng)勵(lì)值、下一時(shí)刻的狀態(tài)值作為一個(gè)元組存儲(chǔ)到經(jīng)驗(yàn)池,從中抽取樣本,并將狀態(tài)值分別輸入到Q 估計(jì)網(wǎng)絡(luò)和Q 目標(biāo)網(wǎng)絡(luò)中。算法輸出動(dòng)作at,動(dòng)作檢測模塊獲得輸出動(dòng)作at和環(huán)境反饋的狀態(tài)空間信息st后,對屬于規(guī)則庫中的危險(xiǎn)動(dòng)作進(jìn)行剔除并重新輸出動(dòng)作決策。深度強(qiáng)化學(xué)習(xí)通過動(dòng)作與環(huán)境的交互獲得即時(shí)獎(jiǎng)勵(lì)并對損失函數(shù)進(jìn)行計(jì)算,進(jìn)而更新網(wǎng)絡(luò)參數(shù),直到算法完成迭代。

3.2 動(dòng)作檢測模塊

基于規(guī)則庫建立的規(guī)則算法可以實(shí)現(xiàn)智能車輛的自動(dòng)駕駛,但是其設(shè)計(jì)和驗(yàn)證難度隨著場景復(fù)雜度的提高不斷增加。在遵守交通法規(guī)和符合日常駕駛習(xí)慣的基礎(chǔ)上,可通過一系列簡單的規(guī)則建立動(dòng)作檢測模塊,以改善DQN 駕駛決策的性能,提升智能車輛在高速路場景下的行駛安全性和通行效率。

動(dòng)作檢測模塊主要由換道最小安全距離(Minimum Safety Distance,MSD)理論[13]和可變車頭時(shí)距(Variable Time Headway,VTH)模型[14]建立。換道最小安全距離即保證換道安全而兩車之間必須保持的最小行車間距。最小安全間距策略具有計(jì)算速度快、結(jié)構(gòu)簡單的優(yōu)點(diǎn)。可變車頭時(shí)距模型可以根據(jù)自車車速、相對車速等因素對跟車間距進(jìn)行調(diào)整,可實(shí)現(xiàn)對可行性、安全性、靈活性的綜合考慮。

換道最小安全距離模型應(yīng)用場景如圖3所示,其中Lo為當(dāng)前車道的前車,Ld為相鄰車道的前車,F(xiàn)o為相鄰車道的后車,M 為換道車輛,而車輛M 的車速大于當(dāng)前車道后車的車速,所以忽略當(dāng)前車道后車。

圖3 基于最小安全距離的換道場景

換道最小安全距離為:

式中,W為車輛寬度;Gmin為換道結(jié)束后兩車的車頭間距;φ為換道中換道車輛與車道線所成的夾角;Di為換道過程中車輛i的縱向位移。

可變車頭時(shí)距安全距離為:

式中,v為智能車輛自車速度;d0為最小車間距,指自車停車時(shí)車輛前端與前車末端的間距;Th為可變車頭時(shí)距參數(shù)。

可變車頭時(shí)距參數(shù)Th的計(jì)算公式為:

式中,Th_max、Th_min分別為可變車頭時(shí)距參數(shù)設(shè)置的最大、最小值;kr為相對車速的系數(shù);vr為自車與前車的相對車速;t0為自車與前車的車頭時(shí)距。

動(dòng)作檢測模塊對當(dāng)前狀態(tài)空間信息st進(jìn)行處理得到前車車距與換道空間信息,根據(jù)最小安全距離和可變車頭時(shí)距對DQN 算法輸出的動(dòng)作at進(jìn)行檢測,禁止導(dǎo)致碰撞的危險(xiǎn)動(dòng)作,并輸出當(dāng)前環(huán)境下的最優(yōu)或次優(yōu)動(dòng)作,所遵循的規(guī)則如表1所示。

表1 主要來源于對日常駕駛習(xí)慣的總結(jié)及動(dòng)作檢測模塊所需要完成任務(wù)的理解。在高速路場景中,智能車輛主要面臨換道與跟馳這2種決策任務(wù),因此分別在動(dòng)作檢測中引入換道最小安全距離和可變車頭時(shí)距這2 種對應(yīng)規(guī)則模型,對智能車輛輸出的動(dòng)作進(jìn)行篩選。同時(shí),車輛駕駛可以解耦為縱向和側(cè)向2 個(gè)方向,可變車頭時(shí)距的約束范圍為縱向,換道最小安全距離的約束范圍為縱向和橫向。縱向約束上采用與前車的車距作為指標(biāo),而在與前車接近的過程中,智能車首先受到可變車頭時(shí)距模型作用,然后受到換道最小安全距離模型影響。側(cè)向約束只受換道最小安全距離模型的影響。

表1 中的前2 條主要對智能車輛的無意義換道(即智能車輛執(zhí)行換道指令必然導(dǎo)致碰撞)進(jìn)行約束,避免由換道引發(fā)的碰撞。第3條、第4條主要對智能車輛的跟隨與換道決策進(jìn)行判斷,當(dāng)前車已經(jīng)小于跟隨距離但還存在換道空間時(shí),車輛繼續(xù)直行保持車速或加速的行為是明顯錯(cuò)誤的,需要換道。第5條只是對智能車輛在訓(xùn)練過程的隨機(jī)行為進(jìn)行屏蔽,即使碰撞不可避免,但加速行為依然是明顯錯(cuò)誤的。需要說明的是,規(guī)則表并不是為了完全避免碰撞,而是通過簡單明了的規(guī)則約束來減少智能車輛在訓(xùn)練中的無效輸出與探索。

3.3 獎(jiǎng)勵(lì)函數(shù)的設(shè)置

深度強(qiáng)化學(xué)習(xí)通過智能車輛與環(huán)境的不斷交互產(chǎn)生數(shù)據(jù),通過迭代學(xué)習(xí)到相應(yīng)環(huán)境下的最佳策略。獎(jiǎng)勵(lì)函數(shù)的設(shè)置對深度強(qiáng)化學(xué)習(xí)有至關(guān)重要的影響,智能車輛通過累計(jì)獎(jiǎng)勵(lì)(Reward)達(dá)到最大來判斷當(dāng)前的策略是否為最佳策略。仿真平臺中的高速路場景中默認(rèn)獎(jiǎng)勵(lì)函數(shù)考慮的因素較少,不利于算法的訓(xùn)練。

3.3.1 原獎(jiǎng)勵(lì)函數(shù)分析

原環(huán)境中獎(jiǎng)勵(lì)函數(shù)主要由以下2個(gè)部分組成:

a.車速獎(jiǎng)勵(lì)。鼓勵(lì)智能車輛以較高車速行駛,車速獎(jiǎng)勵(lì)函數(shù)為:

式中,vmin為智能車輛的最小速度;vmax為車道限制的最大速度。

b.碰撞懲罰。對智能車輛與其他車輛發(fā)生碰撞的情況進(jìn)行懲罰,其數(shù)值為:

原環(huán)境中獎(jiǎng)勵(lì)函數(shù)公式為:

式中,wv、wc為各項(xiàng)權(quán)重系數(shù),原獎(jiǎng)勵(lì)函數(shù)的各權(quán)重設(shè)置為0.4、1;Normal為歸一化函數(shù),將獎(jiǎng)勵(lì)函數(shù)輸出范圍線性變換至[0,1]。

在實(shí)際應(yīng)用中發(fā)現(xiàn),該獎(jiǎng)勵(lì)函數(shù)在探索中對碰撞不敏感,輸出減速動(dòng)作的頻率低,更傾向于追求高車速而導(dǎo)致碰撞發(fā)生。因?yàn)楠?jiǎng)勵(lì)歸一化的原因,智能車輛以最低速度行駛在車道上就將得到較高的單步獎(jiǎng)勵(lì),在個(gè)別情況下智能車輛將學(xué)到以最低車速堅(jiān)持到整個(gè)回合結(jié)束的極端保守行為決策。

3.3.2 修改后的獎(jiǎng)勵(lì)函數(shù)分析

針對原獎(jiǎng)勵(lì)函數(shù)存在的問題,將相對車速與相對距離等因素加入獎(jiǎng)勵(lì)函數(shù),提高碰撞時(shí)的扣分值,并取消獎(jiǎng)勵(lì)的歸一化操作,提高智能車輛對前車車距的敏感性,加快智能車輛訓(xùn)練進(jìn)程:

a.車距懲罰。通過VTH、MSD、相對車速對智能車輛與前車的車距給出反饋,其獎(jiǎng)勵(lì)函數(shù)為:

其中,Df為車距系數(shù):

式中,vf為前車車速;d為智能車輛與前車的車距。

b.車道獎(jiǎng)勵(lì)。鼓勵(lì)智能車輛行駛在與前車碰撞時(shí)間(Time to Collision,TTC)最大的車道上,當(dāng)所在車道為智能車輛與前車的TTC 最大的車道時(shí),其獎(jiǎng)勵(lì)函數(shù)為:

c.換道懲罰。車輛行駛過程中應(yīng)避免頻繁變速換道,以保證乘員乘坐舒適性,換道懲罰項(xiàng)為:

綜上,修改后的綜合獎(jiǎng)勵(lì)函數(shù)為:

式中,wv、wc、wT、wlc、wd為各項(xiàng)權(quán)重系數(shù)。

4 仿真分析

4.1 仿真參數(shù)與環(huán)境設(shè)置

為了驗(yàn)證基于規(guī)則約束的DQN 算法的有效性,選取Highway-env 中的高速路場景搭建仿真環(huán)境,將基于規(guī)則約束的DQN 算法應(yīng)用于智能車輛駕駛行為決策,驗(yàn)證算法在典型交通場景中的有效性和收斂速度,并與原始DQN算法進(jìn)行對比。

仿真環(huán)境如下:CPU 為Inter Core i5-10400,內(nèi)存為16 GB,GPU為NVIDIA GTX 2080,深度強(qiáng)化學(xué)習(xí)編譯框架為Pytorch。根據(jù)車輛決策的適用場景和需求,設(shè)置Highway-env 的環(huán)境為單向4 車道場景,各車道從左到右的編號分別為0、1、2、3,場景中的其他車輛的數(shù)量為30 輛,其他車輛由最小化變道引起的總制動(dòng)(Minimizing Overall Braking Induced By Lane Change,MOBIL)和智能駕駛員模型(Intelligent Driver Model,IDM)進(jìn)行橫、縱向控制,高速路環(huán)境的各參數(shù)如表2所示。

表2 高速路環(huán)境的各參數(shù)

智能車輛在高速環(huán)境中的動(dòng)作有5種,分別為左轉(zhuǎn)向、保持、右轉(zhuǎn)向、加速、減速,對應(yīng)動(dòng)作空間為[a0,a1,a2,a3,a4]。

DQN算法各超參數(shù)設(shè)置如表3所示。

表3 DQN算法超參數(shù)設(shè)置

4.2 獎(jiǎng)勵(lì)函數(shù)分析設(shè)置

在原獎(jiǎng)勵(lì)函數(shù)的基礎(chǔ)上,修改后的新獎(jiǎng)勵(lì)函數(shù)經(jīng)多次仿真驗(yàn)證后,各權(quán)重取值為0.4、5.0、1.0、1.0、1.0。統(tǒng)一用DQN 算法在不同獎(jiǎng)勵(lì)函數(shù)下訓(xùn)練12 000 回合,結(jié)果如表4所示。

表4 不同獎(jiǎng)勵(lì)函數(shù)測試結(jié)果

從表4中可以看出:DQN在采用原獎(jiǎng)勵(lì)函數(shù)時(shí)的表現(xiàn)不佳,即使通過12 000回合訓(xùn)練,成功率僅為3.53%;修改獎(jiǎng)勵(lì)函數(shù)后,再次訓(xùn)練DQN 的成功率達(dá)到了33.16%,碰撞次數(shù)下降了30.71%,在新獎(jiǎng)勵(lì)函數(shù)車距懲罰的影響下,智能車輛跟馳行為所占的時(shí)間增加,車速有所下降。以上結(jié)果表明,獎(jiǎng)勵(lì)函數(shù)的設(shè)置對深度強(qiáng)化學(xué)習(xí)表現(xiàn)有著直接的影響,修改后的獎(jiǎng)勵(lì)函數(shù)大幅提高了智能車輛與前車保持車距的能力。

4.3 對仿真結(jié)果的對比分析

將測試中所有深度強(qiáng)化學(xué)習(xí)算法訓(xùn)練到完全收斂并達(dá)到最佳水平,所花時(shí)間很長,以原獎(jiǎng)勵(lì)函數(shù)下的DQN為例,算法在訓(xùn)練27 400回合后,成功率曲線依然有緩慢上升的趨勢,時(shí)間成本較高。因此受時(shí)間成本影響,在仿真分析時(shí),統(tǒng)一訓(xùn)練12 000回合。同時(shí),深度強(qiáng)化學(xué)習(xí)輸出數(shù)據(jù)具有波動(dòng)性,為使輸出結(jié)果更加直觀,對深度強(qiáng)化學(xué)習(xí)輸出的速度、位移、回報(bào)值等數(shù)據(jù)均使用Python內(nèi)置庫中的Savitzky-Golay濾波器進(jìn)行平滑處理。Savitzky-Golay 濾波器能夠在不改變信號趨勢的情況下進(jìn)行數(shù)據(jù)的平滑處理。

4.3.1 原獎(jiǎng)勵(lì)函數(shù)下不同算法對比分析

原獎(jiǎng)勵(lì)函數(shù)下,不同算法的成功率、單回合平均車速、單回合平均行駛距離、單回合累計(jì)回報(bào)值,如圖4~圖7所示。

圖4 不同算法在原獎(jiǎng)勵(lì)函數(shù)下的成功率

圖6 不同算法在原獎(jiǎng)勵(lì)函數(shù)下的單回合平均行駛距離

圖7 不同算法在原獎(jiǎng)勵(lì)函數(shù)下的單回合累計(jì)回報(bào)值

不同算法在環(huán)境原獎(jiǎng)勵(lì)函數(shù)下的各項(xiàng)測試結(jié)果如表5所示。

表5 不同算法在原獎(jiǎng)勵(lì)函數(shù)下測試結(jié)果

由表5 可以看出,即使未改動(dòng)獎(jiǎng)勵(lì)函數(shù),得益于網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn),D3QN 算法也表現(xiàn)出更高的學(xué)習(xí)效率,成功率達(dá)到了11.91%。ND3QN算法在引入多步學(xué)習(xí)能力后,通過對Q值的更精準(zhǔn)估計(jì),在前2 000 回合的表現(xiàn)即超過了D3QN 算法12 000 回合訓(xùn)練的效果,但在4 000 回合后成功率出現(xiàn)了一定下降,雖然在總成功率上超過了D3QN 算法,但在最后1 000 回合成功率低于D3QN算法。

深度強(qiáng)化學(xué)習(xí)的目標(biāo)是獲得最大累計(jì)獎(jiǎng)勵(lì),進(jìn)一步結(jié)合各對比圖可以看出,ND3QN 算法的平均車速在4 000 回合附近出現(xiàn)了大幅提高,但單回合的累計(jì)回報(bào)值下降并不劇烈,之后隨著平均車速的小幅提升,回報(bào)值出現(xiàn)波動(dòng)。綜上,可以得出ND3QN 算法成功率出現(xiàn)下滑的原因是,算法采用累計(jì)回報(bào)值作為學(xué)習(xí)目標(biāo)而不是成功率,ND3QN算法優(yōu)先穩(wěn)定車速,通過增大平均行駛距離來提升累計(jì)回報(bào)值,平均行駛距離達(dá)到穩(wěn)定后,提高平均車速來增加自己的單步獎(jiǎng)勵(lì)。提高車速后,原低速狀態(tài)下的車間距在高車速下將不再安全,ND3QN算法的碰撞次數(shù)增加,成功率出現(xiàn)下滑。ND3QN 算法訓(xùn)練過程成功率的下滑也再次從側(cè)面證明了原獎(jiǎng)勵(lì)函數(shù)的不合理之處。

4.3.2 動(dòng)作檢測模塊與新獎(jiǎng)勵(lì)函數(shù)影響分析

在使用原始DQN 算法的情況下,分別引入動(dòng)作檢測模塊與新獎(jiǎng)勵(lì)函數(shù),將引入動(dòng)作檢測模塊的DQN 算法稱為動(dòng)作檢測深度Q 學(xué)習(xí)(Action Detection Module DQN,ADQN),新獎(jiǎng)勵(lì)函數(shù)下的DQN函數(shù)記為R+DQN,完全引入規(guī)則約束的DQN算法記為規(guī)則約束深度Q學(xué)習(xí)(Rule Constrained DQN,RCDQN)。引入不同修改項(xiàng)后算法的成功率、單回合平均車速等信息如圖8 和表6所示。

表6 DQN算法引入動(dòng)作檢測模塊與新獎(jiǎng)勵(lì)函數(shù)測試結(jié)果

圖8 DQN算法添加不同修改項(xiàng)后的成功率

由圖8 可知:動(dòng)作檢測模塊在訓(xùn)練的初期(即平均車速處于低速區(qū)段時(shí))能夠減少智能車輛的碰撞;訓(xùn)練1 000回合后,引入新獎(jiǎng)勵(lì)函數(shù)的DQN算法的成功率超過了ADQN,與前車保持車距的能力則成為了智能車輛成功的關(guān)鍵;將動(dòng)作檢測模塊和修改后的獎(jiǎng)勵(lì)函數(shù)結(jié)合后,智能車輛在訓(xùn)練中成功率得到了大幅提升,成功率達(dá)到了72.32%。

4.3.3 引入規(guī)則約束框架后各算法對比分析

在統(tǒng)一使用動(dòng)作檢測與新獎(jiǎng)勵(lì)函數(shù)的規(guī)則約束框架(Rule Constrained)情況下,分別對DQN、D3QN、ND3QN 算法表現(xiàn)進(jìn)行分析,規(guī)則約束框架下各算法的成功率、單回合平均車速等信息如圖9和表7所示。

圖9 規(guī)則約束框架下各算法成功率

結(jié)合圖9 和表7 可得,引入規(guī)則約束框架的各算法的平均車速隨著算法改進(jìn)程度的提高而依次降低,成功率隨著算法改進(jìn)程度的提高而增大,RCND3QN 算法總成功率達(dá)到了90.51%,比RCDQN 算法提高出了18.19百分點(diǎn),表明在算法的改進(jìn)將進(jìn)一步提高智能車輛性能的上限,而規(guī)則約束框架的引入提高了智能車輛性能的下限。

4.3.4 智能車輛行駛過程分析

以RCND3QN算法為例,對算法在10 000回合時(shí)的部分關(guān)鍵幀進(jìn)行分析,關(guān)鍵幀如圖10所示。

圖10 規(guī)則約束框架下ND3QN算法行為決策

由圖10可知:初始時(shí)刻,智能車輛車速為25 m/s,由所在第4 車道轉(zhuǎn)向空曠的第3 車道;第1 次換道結(jié)束時(shí)刻,智能車輛在第3 車道由25 m/s 加速至27.5 m/s;第2次換道時(shí)刻,智能車輛預(yù)見到在第3 車道的障礙車后,由第3車道轉(zhuǎn)至第2車道;第3次換道時(shí)刻,智能車輛減速至25 m/s并由所在第2車道轉(zhuǎn)向空曠的第1車道;第4次換道時(shí)刻,智能車輛在行駛中逐漸左轉(zhuǎn)進(jìn)入第2 車道;跟馳時(shí)刻,智能車輛減速至22.5 m/s 與前車保持車距,等待時(shí)機(jī);第5次換道時(shí)刻,智能車輛判斷第3車道的車間距滿足換道條件,準(zhǔn)備由第3車道轉(zhuǎn)向第4車道;換道結(jié)束加速時(shí)刻,智能車輛轉(zhuǎn)移至第4 車道,開始重新加速,由22.5 m/s加速至30 m/s。

5 結(jié)束語

針對智能車輛決策問題,本文在保證智能車輛合理探索區(qū)間的前提下,使用規(guī)則對DQN 算法的輸出進(jìn)行約束,并對算法結(jié)構(gòu)進(jìn)行了改進(jìn),仿真結(jié)果表明:

a.在引入Dueling-DQN、Double DQN、N-step DQN對算法進(jìn)行改進(jìn)后,更改結(jié)構(gòu)后算法的表現(xiàn)優(yōu)于原始DQN。

b.算法分別通過動(dòng)作檢測模塊與修改獎(jiǎng)勵(lì)函數(shù)來實(shí)現(xiàn)規(guī)則約束,僅引入單一改進(jìn)項(xiàng)時(shí)修改獎(jiǎng)勵(lì)函數(shù)的提升大于動(dòng)作檢測模塊,但引入完整規(guī)則約束框架后智能車輛在訓(xùn)練中成功率遠(yuǎn)超兩者單獨(dú)作用的線性相加之和。

c.算法的改進(jìn)將進(jìn)一步提高智能車輛決策性能的上限,而規(guī)則約束框架的引入提高了智能車輛決策性能的下限。

同時(shí)研究也存在以下不足:

a.規(guī)則框架中的硬約束對DQN 算法干預(yù)比較粗糙,僅僅是初步的引入,沒有將規(guī)則與算法進(jìn)行深入融合。

b.受限于時(shí)間成本,算法參數(shù)并沒有調(diào)整至最佳,僅根據(jù)經(jīng)驗(yàn)進(jìn)行了粗略的調(diào)整,算法成功率與實(shí)際應(yīng)用的要求差距較大,仍有繼續(xù)上升的空間。

猜你喜歡
規(guī)則動(dòng)作智能
撐竿跳規(guī)則的制定
數(shù)獨(dú)的規(guī)則和演變
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
動(dòng)作描寫要具體
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
畫動(dòng)作
動(dòng)作描寫不可少
主站蜘蛛池模板: 亚洲综合色在线| 欧美亚洲第一页| 国产三区二区| 欧美一级色视频| 亚洲国产天堂久久综合226114| 国产哺乳奶水91在线播放| 激情成人综合网| 亚洲啪啪网| 久久国产成人精品国产成人亚洲| 亚洲成人精品在线| 久久99国产综合精品1| 国产二级毛片| 久久综合亚洲鲁鲁九月天| 国产不卡国语在线| 亚洲男人天堂久久| 在线观看无码a∨| 国产精品男人的天堂| 日本一区二区不卡视频| 免费无码AV片在线观看中文| 亚洲国产欧洲精品路线久久| 久久综合国产乱子免费| 国产精品女在线观看| 黄色网址免费在线| 国产精品黄色片| 永久在线精品免费视频观看| 狠狠色狠狠综合久久| 无码免费试看| 老司机久久精品视频| 美女视频黄频a免费高清不卡| 久操线在视频在线观看| 久久中文无码精品| 亚洲综合极品香蕉久久网| 亚洲第一色网站| 亚洲色图另类| 色综合中文综合网| 久久久久九九精品影院| 国产丝袜第一页| 九色在线观看视频| 色播五月婷婷| 国产精品漂亮美女在线观看| 国产极品粉嫩小泬免费看| 欧美日韩综合网| 天天爽免费视频| 好吊色妇女免费视频免费| 亚洲精品欧美重口| 国产亚洲精久久久久久久91| 精品视频一区二区观看| 黄色网在线| 91午夜福利在线观看精品| 本亚洲精品网站| 蜜桃臀无码内射一区二区三区 | 欧洲精品视频在线观看| 天堂亚洲网| 亚洲开心婷婷中文字幕| 欧美性久久久久| 99热6这里只有精品| 欧美亚洲国产一区| 四虎成人在线视频| 国内嫩模私拍精品视频| 欧美爱爱网| 国产一区二区色淫影院| 亚洲二三区| 亚洲精品无码不卡在线播放| 国产欧美日韩在线一区| 亚洲性网站| 日韩高清在线观看不卡一区二区 | 99精品视频在线观看免费播放| 国产午夜无码片在线观看网站| 人妻无码中文字幕第一区| 无码中文字幕精品推荐| 亚洲精品免费网站| 欧美精品综合视频一区二区| 国产乱子伦手机在线| 日本精品中文字幕在线不卡| 欧美乱妇高清无乱码免费| 国产精品久久久久婷婷五月| 极品性荡少妇一区二区色欲| 日本一本正道综合久久dvd| 国产精品林美惠子在线观看| 中文字幕乱妇无码AV在线| 国产亚洲欧美另类一区二区| 色欲综合久久中文字幕网|