999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強(qiáng)化學(xué)習(xí)與風(fēng)險(xiǎn)矯正的智能車輛決策研究

2023-10-12 04:28:42詹吟霄劉瀟梁軍
汽車工程學(xué)報(bào) 2023年5期
關(guān)鍵詞:智能模型

詹吟霄, 劉瀟, 梁軍

(浙江大學(xué) 工業(yè)控制技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,杭州 310058)

近年來,為提高駕乘的舒適性和安全性,對(duì)智能車輛自動(dòng)駕駛系統(tǒng)的研發(fā)顯著加速。自動(dòng)駕駛系統(tǒng)的結(jié)構(gòu)從上至下可分為感知模塊、決策規(guī)劃模塊和控制模塊[1]。其中,決策模塊負(fù)責(zé)各種離散的駕駛?cè)蝿?wù)分解,如跟車、換道、超車等宏觀指令的產(chǎn)生。同時(shí),決策模塊是上層感知與下層規(guī)劃控制模塊間的重要橋梁,它利用感知信息做出行為決策,并為下層規(guī)劃控制提供目標(biāo)引導(dǎo)。作為自動(dòng)駕駛系統(tǒng)的“大腦”,先進(jìn)的決策模塊為安全、高效的自動(dòng)駕駛提供了強(qiáng)有力的保障。

目前,智能車輛決策系統(tǒng)主要由基于規(guī)則、基于博弈論和基于學(xué)習(xí)的3類方法實(shí)現(xiàn)[2-5]。基于規(guī)則法是利用專家經(jīng)驗(yàn)、交通規(guī)則等建立決策規(guī)則庫(kù),智能車輛則根據(jù)駕駛場(chǎng)景匹配合適的行為策略。其中,有限狀態(tài)機(jī)(Finite State Machine,F(xiàn)SM)是一種常見的基于規(guī)則的決策方法,它由有限個(gè)狀態(tài)組成,當(dāng)前狀態(tài)接收事件,并產(chǎn)生相應(yīng)的動(dòng)作,引起狀態(tài)的轉(zhuǎn)移[6]。但此類事先確定場(chǎng)景-規(guī)則的方法無(wú)法應(yīng)對(duì)環(huán)境中的不確定性。此外,有限狀態(tài)機(jī)法均需人為劃分狀態(tài)并制定狀態(tài)轉(zhuǎn)移規(guī)則,因而存在規(guī)則完備性的固有問題[7]。

基于博弈論法是將車輛的換道決策視為一種使自身利益最大的非合作博弈行為。該方法充分考慮具有博弈沖突車輛的行為交互,在解決換道沖突的過程中有較好的表現(xiàn)效果。KITA 等[8]首次將博弈論法引入到車輛匝道匯入場(chǎng)景中,換道車輛與目標(biāo)車道車輛通過互相預(yù)測(cè)對(duì)方行為選擇最佳決策。張妙然[9]利用信號(hào)傳遞博弈融合不同駕駛員的特性,設(shè)計(jì)了不同場(chǎng)景下不同風(fēng)格駕駛員的收益函數(shù),提出了一個(gè)混合交通流中的換道決策機(jī)制。但此類方法的博弈矩陣制定存在問題,車輛的決策組合制定通常是不完整的,無(wú)法將各類換道情況包含在內(nèi),適用條件有限,在突發(fā)情況或極端工況下,難以保證正常使用[10]。

基于學(xué)習(xí)法是通過適當(dāng)?shù)膶W(xué)習(xí)方式從數(shù)據(jù)中優(yōu)化行駛策略,根據(jù)實(shí)時(shí)環(huán)境信息匹配合理的駕駛動(dòng)作,主要以模仿學(xué)習(xí)(Imitation Learning,IL)[11-12],強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)[13]為代表。BOJARSKI 等[14]基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN),對(duì)車載視覺傳感器的圖像數(shù)據(jù)進(jìn)行模仿,學(xué)習(xí)決策控制,并在不同道路場(chǎng)景中進(jìn)行了測(cè)試。宋威龍[15]將復(fù)雜的行為決策問題分解為橫、縱向決策兩個(gè)子問題,針對(duì)縱向決策,建立了基于部分可觀測(cè)馬爾科夫過程(Partially Observable Markov Decision Process,POMDP) 的決策模型,使智能車輛能考慮道路中其他車輛的駕駛意圖,以便安全有效地行駛。PAN Yunpeng等[16]提出了一種端到端的模仿學(xué)習(xí)系統(tǒng)。該方法通過模擬配備先進(jìn)傳感器的模型預(yù)測(cè)控制器,訓(xùn)練了一種深度神經(jīng)網(wǎng)絡(luò)控制策略,將原始高維觀測(cè)值映射到連續(xù)的轉(zhuǎn)向和油門指令。但模仿學(xué)習(xí)方法需要大量的數(shù)據(jù)支持,存在模型訓(xùn)練成本高、泛化能力差等不足[17]。

強(qiáng)化學(xué)習(xí)是一種解決序貫決策問題的方法,可在與環(huán)境在線交互過程中習(xí)得優(yōu)化策略。深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)是強(qiáng)化學(xué)習(xí)與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合的一種學(xué)習(xí)方法[18],近年來已在諸多領(lǐng)域得到迅速發(fā)展,如游戲(Atari Games and Go)[19-20]、機(jī)器人控制[21]和股票交易[22-23]。眾多學(xué)者也將該項(xiàng)技術(shù)應(yīng)用到無(wú)人駕駛領(lǐng)域,如MIRCHEVSKA 等[24]使用深度Q 網(wǎng)絡(luò)(Deep Q-Network,DQN)法進(jìn)行智能車輛高速場(chǎng)景換道行為決策,在仿真環(huán)境下證明了該方法性能優(yōu)于傳統(tǒng)的基于規(guī)則法;MO Shuojie 等[25]在SUMO 環(huán)境下,利用雙深度Q 網(wǎng)絡(luò)(Double Deep Q-Network,DDQN)法對(duì)智能車輛的縱向速度和換道決策進(jìn)行學(xué)習(xí)。但是,這些方法在策略學(xué)習(xí)過程中存在高偏差、學(xué)習(xí)效率低等缺點(diǎn)[26]。同時(shí),安全性是所有自動(dòng)駕駛系統(tǒng)開發(fā)的第一要義。而強(qiáng)化學(xué)習(xí)法的核心思想是通過與環(huán)境的交互探索以期獲得最大的獎(jiǎng)勵(lì),但不一定保證學(xué)習(xí)或執(zhí)行階段的安全,即智能體可能會(huì)執(zhí)行不安全的操作。

因此,本文提出了一種基于深度強(qiáng)化學(xué)習(xí)與風(fēng)險(xiǎn)矯正的智能車輛決策模型。主要工作包括以下4項(xiàng):

1)利用Highway-env[27]環(huán)境搭建高速交通環(huán)境,并采用強(qiáng)化學(xué)習(xí)中的近端策略優(yōu)化算法(Proximal Policy Optimization,PPO)[28]構(gòu)建智能車輛決策模型,輸出離散動(dòng)作空間下的自動(dòng)駕駛決策指令;

2)在模型框架中引入自注意力安全機(jī)制,使目標(biāo)車輛能過濾行駛中的復(fù)雜信息,重點(diǎn)關(guān)注與決策指令存在潛在風(fēng)險(xiǎn)的相關(guān)車輛;

3)為了進(jìn)一步提高學(xué)習(xí)和執(zhí)行階段的安全性,本文增加了風(fēng)險(xiǎn)矯正模塊,以降低在復(fù)雜交通環(huán)境下智能車輛執(zhí)行危險(xiǎn)行為的風(fēng)險(xiǎn);

4)通過仿真驗(yàn)證本文決策模型的有效性。

1 整體框架

本文決策研究的整體框架,如圖1 所示。決策模型將仿真環(huán)境中的車輛行駛信息作為輸入,通過自注意力安全機(jī)制驅(qū)動(dòng)的深度強(qiáng)化學(xué)習(xí)模塊學(xué)習(xí)駕駛策略,并利用風(fēng)險(xiǎn)矯正模塊矯正決策動(dòng)作,從而指導(dǎo)智能車輛在高速駕駛環(huán)境中更安全地行駛。在模型的狀態(tài)空間中須包含智能車輛駕駛過程中的運(yùn)動(dòng)學(xué)信息,即包括自身狀態(tài)以及周圍環(huán)境信息。本文選取了5 個(gè)特征量作為狀態(tài)空間,并建立了由5種駕駛決策指令構(gòu)成的動(dòng)作空間,結(jié)合風(fēng)險(xiǎn)矯正模塊,智能車輛可以根據(jù)指令執(zhí)行不同的駕駛操作。最后,決策模型在獎(jiǎng)勵(lì)函數(shù)的引導(dǎo)下進(jìn)行優(yōu)化策略探索學(xué)習(xí)。

圖1 決策研究整體框架

2 行為決策模型

2.1 深度強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)的基礎(chǔ)模型為馬爾科夫決策過程(Markov Decision Processes,MDP),它常被定義為一個(gè)五元組M=(S,A,P,R,γ)。其中,S 和A分別為狀態(tài)和動(dòng)作;P為狀態(tài)轉(zhuǎn)移概率函數(shù)P(s′|s,a);R:S × A →R為當(dāng)前狀態(tài)-動(dòng)作對(duì)下的獎(jiǎng)勵(lì)值;γ定義為折扣因子,用來衡量未來獎(jiǎng)勵(lì)在當(dāng)前狀態(tài)下的累計(jì)獎(jiǎng)勵(lì)中的權(quán)重。強(qiáng)化學(xué)習(xí)的最終目標(biāo)是尋找一個(gè)最優(yōu)策略π*,使智能體在其指引下所獲累計(jì)獎(jiǎng)勵(lì)最大。

PPO 算法是一種基于演員-評(píng)論家(Actor-Critic,AC)框架的強(qiáng)化學(xué)習(xí)算法,它不僅具有適應(yīng)性強(qiáng),訓(xùn)練穩(wěn)定等特點(diǎn),并且相較于之前的置信域策略優(yōu)化[29](Trust Region Policy Optimization,TRPO)算法更易于實(shí)現(xiàn)。因此,本文采用PPO 算法作為智能車輛決策模塊的決策算法。

為了使算法在采樣數(shù)量減少的情況下也可以達(dá)到較好的訓(xùn)練效果,PPO算法引入了比例項(xiàng)r(θ)來描述新舊策略之間的差異,如式(1)所示。

在此基礎(chǔ)上的目標(biāo)函數(shù)為:

式中:π(a|s)為策略在狀態(tài)s下選擇動(dòng)作a的概率;θ為策略參數(shù);為t時(shí)刻的優(yōu)勢(shì)函數(shù);ε為超參數(shù),表示Clip 的截?cái)喾秶lip 函數(shù)的引入限制了策略的更新幅度。此外,本文采用一種廣義優(yōu)勢(shì)估計(jì)(Generalized Advantage Estimator,GAE)來估算優(yōu)勢(shì)函數(shù),其計(jì)算式為:

式中:V(st)為值函數(shù);rt為獎(jiǎng)勵(lì)函數(shù)。γ一般取0.99,而λ取0.95~1。PPO 算法提出的目標(biāo)函數(shù)可以在多回合訓(xùn)練中以小數(shù)量樣本迭代更新,解決了策略梯度中步長(zhǎng)難以確認(rèn)和更新差異過大的問題。

2.2 狀態(tài)空間與動(dòng)作空間

使用深度強(qiáng)化學(xué)習(xí)法解決車輛的換道決策問題,首先需要定義狀態(tài)空間S。通常情況下,目標(biāo)車輛的狀態(tài)可以由其運(yùn)動(dòng)學(xué)信息,如位置、速度和航向角描述[30-32]。同時(shí),為了運(yùn)用自注意力安全機(jī)制表征不同個(gè)體間的交互關(guān)系,狀態(tài)空間的描述還應(yīng)包含周圍車輛關(guān)于本車的相對(duì)運(yùn)動(dòng)狀態(tài)。

因此,智能車輛所處的高速道路環(huán)境可以由一系列車輛狀態(tài)向量s表示,如式(4)所示。

目標(biāo)車輛和周圍車輛的狀態(tài)向量分別為s0和si,如式(5)~(6)所示。

本文的研究場(chǎng)景為同向三車道的高速公路,為覆蓋較復(fù)雜的行駛情況,選取目標(biāo)車輛相鄰兩車道距離最近的各3 輛車,以及目標(biāo)車輛和前后距離最近的2 輛車,共計(jì)9 輛車構(gòu)成狀態(tài)空間。其次,相比普通公路其路面鋪設(shè)質(zhì)量較好,車速變化較為緩慢,所以假設(shè)車身和懸架系統(tǒng)都是剛性系統(tǒng),并忽略車輛在垂直方向的運(yùn)動(dòng),認(rèn)為車輛是一個(gè)在二維平面上的運(yùn)動(dòng)物體,可使用自行車模型的狀態(tài)量來描述車輛的當(dāng)前狀態(tài)。

因此,本文中N= 8,s1,2,…,8為目標(biāo)車輛周圍的8 輛車。狀態(tài)空間如圖2 所示,圖中,S0由目標(biāo)車輛的絕對(duì)運(yùn)動(dòng)信息構(gòu)成;x0,y0為目標(biāo)車輛在環(huán)境中的橫縱坐標(biāo);,為橫向速度和縱向速度;φ0為車身航向角;Δxi,Δyi為臨近車輛與目標(biāo)車輛之間的相對(duì)橫縱距離;,為橫縱速度差;φi為車身航向角。如果周圍車輛不足8 輛,則將空缺si中的Δxi,Δyi設(shè)置為較大值,,設(shè)置為較小值,φi=φ0。

圖2 狀態(tài)空間表示

深度強(qiáng)化學(xué)習(xí)算法的動(dòng)作空間A 由自動(dòng)駕駛車輛的所有決策指令構(gòu)成,如式(7)所示。

本文共定義了5 種駕駛行為,即車輛向左側(cè)換道a0= LC_Left,右側(cè)換道a1= LC_Right,直行加速a2= LK_Up,直行減速a3= LK_Down 和保持當(dāng)前駕駛狀態(tài)a4= LK。

2.3 自注意力安全機(jī)制

自注意力機(jī)制(Self-attention Mechanism)是一種將內(nèi)部信息觀察和外部信息觀察相對(duì)齊,以增加局部特征表達(dá)準(zhǔn)確度的注意力方法[33-34]。該項(xiàng)機(jī)制能自動(dòng)學(xué)習(xí)數(shù)據(jù)間的特征,無(wú)需人工標(biāo)注,降低了對(duì)外部信息的依賴。基于此特性,本節(jié)提出了一種自注意力安全機(jī)制,并將其結(jié)合到提出的行為決策模型中。自注意力安全機(jī)制可使目標(biāo)車輛過濾無(wú)用信息,并重視與車輛行駛軌跡存在潛在碰撞風(fēng)險(xiǎn)的周圍車輛,從而使模型可以作出避免碰撞并且保持安全行駛的行為決策。

本節(jié)自注意力安全機(jī)制采用的是基于transformer 框架[35]的multi-head 結(jié)構(gòu),與之不同的是本文只計(jì)算目標(biāo)車輛對(duì)應(yīng)分支的輸出,如圖3 所示。首先,將目標(biāo)車輛和周圍車輛的狀態(tài)變量si∈R1×5輸入相同的編碼器(Encoder),得到對(duì)應(yīng)的嵌入量ei∈R1×dx(Embedding),編碼器通常為多個(gè)相同的規(guī)范化操作和共享權(quán)重的多層感知機(jī)(MLP)。之后所有車輛的嵌入量共同傳入多頭注意力層(Muti-Head Attention)。

圖3 自注意力安全機(jī)制網(wǎng)絡(luò)結(jié)構(gòu)

圖4 展示了目標(biāo)車輛分支中一個(gè)注意力頭(Ego-attention Head)的工作原理[36]:為了篩選當(dāng)前環(huán)境中可能會(huì)對(duì)本車行駛造成影響的周圍車輛,首先,目標(biāo)車輛的嵌入量e0通過線性映射Lq∈Rdx×dk, 生成一個(gè)查詢單元(Query) Q =[q0]∈R1×dk。其次,將查詢單元與一組鍵值單元(Key)K =[k0,…,kN]∈RN×dk進(jìn)行比較。這些鍵值單元包含每輛車的描述性特征ki,是不同車輛的嵌入量ei用共享參數(shù)的線性映射Lk∈Rdx×dk計(jì)算得到。最后,為評(píng)估查詢單元和鍵值之間的相似性,對(duì)Q 和K 進(jìn)行點(diǎn)積運(yùn)算q0kTi。將計(jì)算結(jié)果按1/dk進(jìn)行縮放,其中dk是鍵值單元的維度,并應(yīng)用softmax 函數(shù)歸一化,獲得對(duì)應(yīng)表征單元(Value)V =[v0,…,vN]的權(quán)重。其中,v0∈R1×dv也使用共享線性映射Lv∈Rdk×dv進(jìn)行計(jì)算。特別注意,K和V 的值是由當(dāng)前駕駛環(huán)境中所有車輛計(jì)算而來,而查詢單元Q 僅由目標(biāo)車輛生成。綜上所述,每個(gè)注意力頭的注意力向量,如式(8)所示。

圖4 目標(biāo)車輛自注意力頭的結(jié)構(gòu)

式中:o為單個(gè)注意力頭輸出的注意力向量。

多個(gè)不同頭的注意力向量堆疊形成注意力矩陣M∈Rn×dv,其中n為注意力頭的數(shù)量。

所有注意力頭的輸出最終與一個(gè)多層感知機(jī)相連接,產(chǎn)生的張量可被視為輸入信息添加到基于強(qiáng)化學(xué)習(xí)的行為決策模型中。通過引入自注意力安全機(jī)制,可使決策模型更關(guān)注決策目標(biāo)車輛的行駛安全性,有效減少訓(xùn)練過程中的碰撞風(fēng)險(xiǎn)。

3 決策風(fēng)險(xiǎn)校正

通過改變優(yōu)化指標(biāo)和在執(zhí)行階段采用行為矯正是兩種較常見的提高強(qiáng)化學(xué)習(xí)安全性能的方法[37]。僅修改模型的目標(biāo)函數(shù),會(huì)使智能體的行為策略變得更謹(jǐn)慎,但仍無(wú)法保證其不執(zhí)行危險(xiǎn)行為。而驗(yàn)證行為的安全性并對(duì)風(fēng)險(xiǎn)行為進(jìn)行矯正,可以確保智能體在執(zhí)行過程中的安全。因此,本文在PPO 算法的輸出層后新增風(fēng)險(xiǎn)矯正模塊,對(duì)可能產(chǎn)生的風(fēng)險(xiǎn)決策行為進(jìn)行矯正,從而保證模型在探索和執(zhí)行階段的安全性。

深度強(qiáng)化學(xué)習(xí)算法的輸出是自動(dòng)駕駛車輛的決策指令。本文將PPO 算法產(chǎn)生的決策指令輸入風(fēng)險(xiǎn)矯正模塊中,判斷當(dāng)前決策是否存在與周圍車輛發(fā)生碰撞的可能。某個(gè)高速行駛場(chǎng)景中的風(fēng)險(xiǎn)矯正案例,如圖5 所示。圖中,綠色矩形為目標(biāo)車輛,藍(lán)色矩形表示周圍車輛。在圖5a時(shí)刻,目標(biāo)車輛做出向左車道換道的決策。通過行駛軌跡預(yù)測(cè),對(duì)駕駛風(fēng)險(xiǎn)進(jìn)行評(píng)估,判斷目標(biāo)車輛與前車有碰撞的風(fēng)險(xiǎn),如圖5b 所示。因此,矯正模塊會(huì)對(duì)決策指令進(jìn)行矯正:停止向左換道的行為并判斷當(dāng)前車道的行車狀態(tài)。由于當(dāng)前車道前車與目標(biāo)車輛距離較遠(yuǎn),所以目標(biāo)車輛可選擇加速行駛超過左側(cè)車輛,如圖5c所示。

圖5 風(fēng)險(xiǎn)矯正場(chǎng)景

在運(yùn)行過程中,目標(biāo)車輛需實(shí)時(shí)與當(dāng)前車道的前后車輛保持安全的行車距離。在本文中,理想的行車間距如式(9)~(10)所示[38]。

式中:vf為后車速度;δ為通信時(shí)延;δ·vf(t)為因通信延遲導(dǎo)致決策發(fā)生變化前,后車?yán)^續(xù)行駛的距離。δ取值大小應(yīng)按照實(shí)際通信情況而定,較大的數(shù)值會(huì)使決策模型偏于保守,通行效率降低,反之則偏于激進(jìn),增加碰撞風(fēng)險(xiǎn),本研究將其設(shè)為20 ms。Gmin為預(yù)先設(shè)定的最小安全距離,防止車輛低速行駛時(shí)(如前方道路擁堵vf≈0,Gsafe≈0)與前車間距過近。其取值大小可按駕駛者偏好設(shè)定,但不宜過小,僅在極限狀況下生效,對(duì)決策模型性能的影響較小,本研究將其定義為3 m。dp和df則分別表示前、后車輛的制動(dòng)能力。

同時(shí),在產(chǎn)生換道決策時(shí),也要兼顧換道目標(biāo)道路上的行車安全,對(duì)車輛規(guī)劃的駕駛軌跡進(jìn)行安全性評(píng)估也是矯正模塊中的重要環(huán)節(jié)。如果換道動(dòng)作的未來軌跡與臨近車輛的距離不在安全范圍內(nèi),則應(yīng)保持車道選擇合適速度維持安全距離。

然而,如何對(duì)車輛未來的行駛軌跡進(jìn)行有效預(yù)測(cè)是一個(gè)挑戰(zhàn)。本文仍采用較傳統(tǒng)的假設(shè)[39-40],即車輛在縱向保持當(dāng)前速度勻速直線運(yùn)動(dòng),后續(xù)會(huì)嘗試運(yùn)用更加先進(jìn)的軌跡預(yù)測(cè)技術(shù)。車輛的縱向軌跡可被定義為:

式中:xt,分別為當(dāng)前采樣時(shí)刻車輛的縱坐標(biāo)和縱向速度。風(fēng)險(xiǎn)矯正模塊通過對(duì)車輛駕駛決策的評(píng)估,對(duì)危險(xiǎn)行為進(jìn)行矯正,使車輛始終接收和執(zhí)行更加安全的決策指令。

4 獎(jiǎng)勵(lì)函數(shù)

深度強(qiáng)化學(xué)習(xí)在獎(jiǎng)勵(lì)函數(shù)的引導(dǎo)下進(jìn)行優(yōu)化策略探索學(xué)習(xí),如何設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)尤為關(guān)鍵。本文中的獎(jiǎng)勵(lì)函數(shù)R包括3 項(xiàng),它們反映了效率、安全及最優(yōu)目標(biāo)車道。設(shè)計(jì)的目標(biāo)是在避免與周圍車輛發(fā)生碰撞的前提下,智能車輛可以在安全的車道上盡可能快地行駛。模型的獎(jiǎng)勵(lì)函數(shù)可分為瞬時(shí)獎(jiǎng)勵(lì)和動(dòng)作獎(jiǎng)勵(lì),瞬時(shí)獎(jiǎng)勵(lì)項(xiàng)定義為:

式中:rcollision∈{0,1}為智能車輛的碰撞情況;vmin,vmax分別為高速允許通行的最低速度和最高速度,本文的速度范圍為[20,30] m/s。vsv為智能車輛的行駛速度。Flane為最優(yōu)車道項(xiàng),其函數(shù)定義為:

式中:lane_id為車道編號(hào)。在本文的環(huán)境中,車道編號(hào)自右及左逐次為1、2、3 車道。最優(yōu)目標(biāo)車道項(xiàng)的目的是規(guī)范智能車輛盡量不要占用最右側(cè)車道,應(yīng)保持中間車道或超車道行駛,而在同向三車道的場(chǎng)景下,車輛在中間車道遇險(xiǎn)時(shí)相對(duì)擁有更多的換道選擇,因此,在中間車道行駛的獎(jiǎng)勵(lì)值更高。ω1,ω2和ω3分別為3 項(xiàng)的系數(shù),依據(jù)試驗(yàn)經(jīng)驗(yàn),取值為0.5、0.1 和1。同時(shí),為避免過多的換道行為對(duì)交通環(huán)境造成不利影響,獎(jiǎng)勵(lì)函數(shù)會(huì)增加懲罰項(xiàng)RLC= -0.1。特別注意,雖然風(fēng)險(xiǎn)矯正模塊已將危險(xiǎn)決策進(jìn)行糾正,但獎(jiǎng)勵(lì)函數(shù)上仍需要體現(xiàn)該錯(cuò)誤決策所帶來的危險(xiǎn),因此,設(shè)置該錯(cuò)誤決策的懲罰項(xiàng)Ra= -0.1。當(dāng)輸入風(fēng)險(xiǎn)矯正模塊的決策行為是安全無(wú)需矯正的,則該懲罰項(xiàng)為0。Ra需區(qū)別于瞬時(shí)獎(jiǎng)勵(lì)中懲罰發(fā)生碰撞后果的rcollision項(xiàng)。

綜合上述影響駕駛決策行為的瞬時(shí)獎(jiǎng)勵(lì)和動(dòng)作獎(jiǎng)勵(lì)項(xiàng),最終的獎(jiǎng)勵(lì)函數(shù)為:

此外,MNIH 等[41]指出,獎(jiǎng)勵(lì)的規(guī)范化在DRL 中有加快收斂的作用。為方便與其他方法比較,本文將獎(jiǎng)勵(lì)函數(shù)的值規(guī)范化在[0,1]區(qū)間內(nèi)。

5 試驗(yàn)與分析

5.1 試驗(yàn)環(huán)境

Highway-env 是一個(gè)輕量級(jí)的自動(dòng)駕駛決策仿真環(huán)境。本文利用該環(huán)境建立一個(gè)三車道高速駕駛場(chǎng)景,其中包括采用自動(dòng)決策系統(tǒng)的目標(biāo)車輛(Subject Vehicle,SV)及其周圍的行駛車輛。目標(biāo)車輛中配置一個(gè)模擬激光雷達(dá)傳感器,可以在目標(biāo)車輛周邊感知車輛駕駛信息,包括左右前方、正前方、正后方和左右后方的車輛。傳感器的感知范圍為150 m。仿真環(huán)境及車輛的主要參數(shù)信息見表1。

表1 仿真環(huán)境及車輛主要參數(shù)說明

在仿真環(huán)境中,行為決策模型輸出的5 種駕駛行為由獨(dú)立的底層連續(xù)控制器實(shí)現(xiàn)。縱向控制器為比例控制器,其車輛加速度控制量如式(15)所示。

式中:a為車輛加速度控制量;v為車輛速度;vr為目標(biāo)速度;Kp為控制器比例增益。動(dòng)作a2,a3,a4在執(zhí)行層面的區(qū)別在于vr不同。橫向控制器為結(jié)合了逆向運(yùn)動(dòng)學(xué)模型中非線性因素的比例-微分控制器,其位置控制計(jì)算和航向控制計(jì)算分別如式(16)~(17)所示。

式中:vlat,r為橫向速度指令;Δlat為車輛與車道中線的橫向距離;Δφr為應(yīng)用橫向速度指令的航向變化;φL為車道線的航向;φr為跟隨車道線航向和位置的車輛目標(biāo)航向;φ˙r為偏航角速度指令;δ為前輪轉(zhuǎn)角控制量。動(dòng)作a0,a1的區(qū)別在于Δlat和φL的不同。

為體現(xiàn)環(huán)境的隨機(jī)性,周圍車輛在場(chǎng)景中的原始位置為隨機(jī)給定。同時(shí),為了更好地模擬真實(shí)的高速環(huán)境,周圍車輛的駕駛行為不會(huì)一成不變,而是根據(jù)實(shí)時(shí)的駕駛信息自主決策。本文采用智能行駛模型[42](Intelligent Driver Model,IDM)和最小化變道引起的整體制動(dòng)(Minimizing Overall Braking Induced by Lane Changes,MOBIL)模型[43]對(duì)周圍車輛實(shí)行行為決策和控制。

5.2 試驗(yàn)分析

本文利用Highway-env 搭建了三車道動(dòng)態(tài)高速駕駛仿真環(huán)境,將每次仿真的最大時(shí)長(zhǎng)設(shè)置為40 s,并對(duì)每個(gè)模型進(jìn)行20 萬(wàn)次訓(xùn)練。為了驗(yàn)證自注意力安全機(jī)制對(duì)決策安全性能的提升,本章節(jié)同時(shí)設(shè)計(jì)了3 種不同結(jié)構(gòu)的深度強(qiáng)化學(xué)習(xí)決策模型(PPO_attention、PPO_CNN、PPO_mlp),模型的結(jié)構(gòu)信息見表2。

表2 決策模型網(wǎng)絡(luò)結(jié)構(gòu)

同時(shí),為了不影響智能體的探索過程,在訓(xùn)練過程中,沒有將風(fēng)險(xiǎn)矯正模塊連接至決策模型的輸出端,該模塊只在測(cè)試階段與基于自注意力機(jī)制的PPO 決策算法相結(jié)合形成智能車輛安全決策模型(PPO_safe)。試驗(yàn)定義安全率為無(wú)碰撞仿真次數(shù)與仿真次數(shù)之比,3個(gè)模型在訓(xùn)練過程中每階段(2 048次仿真)的安全率和累積獎(jiǎng)勵(lì)值,如圖6所示。

圖6 模型訓(xùn)練過程中的安全率和獎(jiǎng)勵(lì)值

由圖6a 可知,自注意力安全機(jī)制驅(qū)動(dòng)的PPO_attention 模型在訓(xùn)練初始就保持了較高的安全率,并在整個(gè)訓(xùn)練階段始終保持在90%左右;而對(duì)比模型PPO_cnn和PPO_mlp的安全率雖然整體都呈上升趨勢(shì),但二者的安全率分別穩(wěn)定在80%和60%左右,意味著二者在訓(xùn)練階段常發(fā)生碰撞事故。圖6b 是3 個(gè)決策模型的累積獎(jiǎng)勵(lì)值,其中PPO_cnn的獎(jiǎng)勵(lì)值最高,這是因?yàn)楠?jiǎng)勵(lì)函數(shù)的設(shè)計(jì)鼓勵(lì)快速行駛,而該模型偏向于追求更快的行車速度,忽略行駛安全。雖然PPO_attention模型的獎(jiǎng)勵(lì)值略低于PPO_cnn 模型,但其安全通過測(cè)試的成功率明顯高于PPO_cnn模型,同時(shí)獎(jiǎng)勵(lì)值也優(yōu)于未結(jié)合自注意力安全機(jī)制的傳統(tǒng)PPO_mlp模型。

為了保障智能車輛在執(zhí)行階段的安全,本文將完成訓(xùn)練的PPO_attention模型和風(fēng)險(xiǎn)矯正模塊相結(jié)合,并構(gòu)建智能車輛安全決策模型PPO_safe。分別對(duì)4種模型進(jìn)行測(cè)試,每個(gè)仿真片斷(epoch)時(shí)長(zhǎng)為100 s,無(wú)碰撞事故發(fā)生的安全率,如圖7 所示。PPO_safe模型在測(cè)試執(zhí)行階段保持了較高的安全率(99%),其安全性得到了驗(yàn)證。

圖7 模型測(cè)試階段的安全率

測(cè)試執(zhí)行階段中,不同模型在每個(gè)仿真周期內(nèi)的平均速度和換道次數(shù),如圖8 所示。結(jié)合圖7 可知,雖然PPO_cnn和PPO_mlp模型到達(dá)了較高的駕駛速度,換道頻率也遠(yuǎn)大于其他對(duì)比模型,但二者的行駛安全率卻低于60%,表明其在行駛過程中容易發(fā)生事故,并不能保證行為決策的安全。雖然PPO_safe 模型的換道頻率要低于PPO_attention,但在測(cè)試中其整體速度要高于PPO_attention模型。結(jié)果表明本文提出的PPO_safe模型,在執(zhí)行階段保證安全性的前提下可以做出更有效的決策,即以較少的換道行為獲得更快的駕駛速度,規(guī)避了一些無(wú)意義的換道操作,使智能車輛的行駛過程更為安全高效。

圖8 模型測(cè)試階段的平均速度和換道次數(shù)

在測(cè)試階段,試驗(yàn)選擇模仿學(xué)習(xí)中的BC 模型[44]、GAIL 模型[45]和強(qiáng)化學(xué)習(xí)中常用的離散決策模型DQN[46]作為對(duì)比模型。模仿學(xué)習(xí)中的專家數(shù)據(jù)集由PPO_safe 模型生成,共采集了300 組決策序列作為專家數(shù)據(jù)。此外,對(duì)比模型中還包含了基于規(guī)則的MOBIL+IDM 模型和自適應(yīng)巡航模型(IDM with no lane change),其模型參數(shù)與Highwayenv 中的默認(rèn)參數(shù)保持一致。表3 中記錄了BC 模型、GAIL 模型、DQN 模型、MOBIL+IDM 模型、IDM 模型和已經(jīng)完成訓(xùn)練的PPO_safe 模型、PPO_attention 模型的安全率、平均速度和平均換道次數(shù)。由表可知,基于模仿學(xué)習(xí)的BC模型和GAIL模型的安全率并不高,凸顯了二者泛化能力較差的缺點(diǎn);同時(shí),這兩種模型并沒有出現(xiàn)換道決策動(dòng)作,是因?yàn)閷<覕?shù)據(jù)集中的換道指令占比較小,而基于模仿學(xué)習(xí)的駕駛行為決策通常高度依賴于專家數(shù)據(jù),導(dǎo)致模型沒有成功習(xí)得換道策略。其中,結(jié)合風(fēng)險(xiǎn)矯正模塊的PPO_safe模型的安全率最高,表明其在測(cè)試過程中發(fā)生碰撞的風(fēng)險(xiǎn)最小。同時(shí),PPO_safe 模型的平均速度也在7 種模型中位列第2。相較于沒有換道行為的IDM 模型,PPO_safe 模型利用有限的換道操作提升了駕駛效率;反觀相對(duì)頻繁換道的PPO_attention模型,其平均速度并沒有提升。因此,在保障安全駕駛的要求下,有效的換道行為可以提升行駛速度,改善道路通行效率。

表3 各模型測(cè)試結(jié)果

最后對(duì)PPO_safe 模型的魯棒性進(jìn)行試驗(yàn)分析。在真實(shí)的系統(tǒng)運(yùn)行過程中,智能車輛傳感器采集的實(shí)時(shí)信息會(huì)受到噪聲的影響。通過在狀態(tài)空間中加入不同等級(jí)標(biāo)準(zhǔn)差的高斯白噪聲(White Gaussian Noise)可模擬傳感器數(shù)據(jù)可能產(chǎn)生的誤差及噪聲。分別在狀態(tài)空間加入低等噪聲(1%)、中等噪聲(5%)和高等噪聲(15%),對(duì)PPO_safe 模型進(jìn)行100 個(gè)仿真片斷的測(cè)試,并使用信噪比(Signal-to-Noise Ratio,SNR)衡量所有信號(hào)和噪聲平均功率的對(duì)比。3 種等級(jí)噪聲影響下的決策結(jié)果,見表4。

將表4 與表3 對(duì)比可知,在加入低等噪聲干擾時(shí),模型的安全率不會(huì)受到明顯影響。而在中等噪聲和高等噪聲的干擾下,PPO_safe模型的安全率會(huì)下降,其換道次數(shù)也會(huì)降低,但決策系統(tǒng)整體上仍體現(xiàn)出較高的安全性能。

此外,周圍車輛駕駛意圖的不確定性也會(huì)對(duì)模型的決策產(chǎn)生影響。改變IDM模型的安全車頭時(shí)距(默認(rèn)值為1.5 s)和MOBIL 模型的換道效益閾值(默認(rèn)值為0.2 m/s2)會(huì)形成不同的縱、橫向駕駛策略。因此,向周圍車輛決策模型中的參數(shù)引入隨機(jī)擾動(dòng)可以模擬駕駛意圖的不確定性。分別為IDM和MOBIL 模型的參數(shù)加上標(biāo)準(zhǔn)差為其默認(rèn)值15%、20%和25%的高斯噪聲,并對(duì)PPO_safe 模型進(jìn)行100 個(gè)仿真片斷測(cè)試。在3 種等級(jí)不確定性影響下,PPO_safe模型的決策表現(xiàn),見表5。

表5 引入駕駛意圖不確定性后的模型測(cè)試結(jié)果

將表5 與表3 對(duì)比可知,周圍車輛駕駛意圖的不確定性并未使PPO_safe模型的安全率和平均速度顯著下降,決策系統(tǒng)仍表現(xiàn)出較高的穩(wěn)定性。

上述試驗(yàn)表明,本文提出的PPO_safe模型對(duì)傳感器誤差和噪聲具有良好的魯棒性,并且能較好地應(yīng)對(duì)周圍車輛駕駛意圖的不確定性。

6 結(jié)論

本文設(shè)計(jì)了一種基于強(qiáng)化學(xué)習(xí)與風(fēng)險(xiǎn)矯正的智能車輛決策模型。在行為決策框架中引入了自注意力安全機(jī)制,提高了智能車輛在復(fù)雜高速場(chǎng)景下決策的安全性。此外,還設(shè)計(jì)了風(fēng)險(xiǎn)矯正模塊,在執(zhí)行階段對(duì)決策動(dòng)作進(jìn)行風(fēng)險(xiǎn)評(píng)估與矯正,保證智能車輛的駕駛安全。該模型利用目標(biāo)車輛及其周圍車輛的實(shí)時(shí)駕駛信息,在每個(gè)采樣點(diǎn)使用深度強(qiáng)化學(xué)習(xí)法生成車輛決策指令。仿真結(jié)果表明,該方法相比單純的強(qiáng)化學(xué)習(xí)法在策略執(zhí)行的安全性和學(xué)習(xí)速度上有顯著提升,且相比模仿學(xué)習(xí)和傳統(tǒng)基于規(guī)則的決策模型,基于強(qiáng)化學(xué)習(xí)和風(fēng)險(xiǎn)矯正的決策模型在復(fù)雜高速場(chǎng)景下具有更高的行車效率和低事故率。

雖然基于深度強(qiáng)化學(xué)習(xí)的決策模型能通過訓(xùn)練獲得使未來回報(bào)最大化的最優(yōu)策略,在每個(gè)采樣時(shí)刻根據(jù)當(dāng)前實(shí)時(shí)、確定的信息做出最優(yōu)決策,但是道路中其他交通參與者的駕駛行為充滿不確定性,僅從單一時(shí)刻的交通狀態(tài)難以正確辨別其他車輛的意圖,做出合理決策。未來的研究會(huì)嘗試向深度強(qiáng)化學(xué)習(xí)模型中引入RNN 或LSTM 等序列數(shù)據(jù)處理網(wǎng)絡(luò),使決策模型能充分利用本車以及周圍車輛的歷史狀態(tài)信息。

猜你喜歡
智能模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
智能制造 反思與期望
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
智能制造·AI未來
商周刊(2018年18期)2018-09-21 09:14:46
3D打印中的模型分割與打包
主站蜘蛛池模板: 日韩第一页在线| 国产青榴视频在线观看网站| 欧美在线三级| 亚洲国产欧美自拍| 亚洲中久无码永久在线观看软件 | 亚洲色图欧美在线| 黄色成年视频| 亚洲人成影视在线观看| 国产精品久久久久久影院| 欧美性久久久久| 无码啪啪精品天堂浪潮av| 亚洲无码精彩视频在线观看| 人妖无码第一页| 国产又色又爽又黄| 国产欧美精品专区一区二区| 欧美综合在线观看| 刘亦菲一区二区在线观看| 久久精品无码中文字幕| 色婷婷久久| 亚洲男人的天堂久久香蕉网| 国产呦精品一区二区三区网站| 久久久久国产一级毛片高清板| 在线欧美一区| 国产第一福利影院| 亚洲日韩图片专区第1页| 一本一道波多野结衣一区二区| 2019国产在线| 日韩在线永久免费播放| 国产美女免费网站| 蝴蝶伊人久久中文娱乐网| 欧美视频在线第一页| 亚洲国产91人成在线| 午夜不卡视频| 亚洲中文字幕国产av| 国产精品所毛片视频| 国产精品理论片| 亚洲色图欧美| 亚洲无码精彩视频在线观看| 中文字幕一区二区人妻电影| 又污又黄又无遮挡网站| 天天综合亚洲| 亚洲成在线观看| 不卡国产视频第一页| 亚洲精品无码av中文字幕| 午夜国产精品视频| 国产美女在线免费观看| 青青草国产免费国产| 国产理论一区| 不卡午夜视频| 久久男人资源站| 国产乱子精品一区二区在线观看| 日韩大片免费观看视频播放| 狠狠ⅴ日韩v欧美v天堂| 午夜精品久久久久久久无码软件 | 亚洲欧洲自拍拍偷午夜色| 免费国产黄线在线观看| 无码中文AⅤ在线观看| 精品国产免费观看一区| www.狠狠| 亚洲浓毛av| 欧美亚洲国产一区| 国产精品自拍合集| 亚洲综合二区| 国产精品人成在线播放| 91精品啪在线观看国产| 国产日本欧美亚洲精品视| 色综合五月| 大陆精大陆国产国语精品1024| 97国产在线视频| 亚洲av无码牛牛影视在线二区| 亚洲成在人线av品善网好看| 噜噜噜久久| 国产成人狂喷潮在线观看2345| 四虎免费视频网站| 日本一区二区三区精品国产| 4虎影视国产在线观看精品| 亚洲成人精品| 一级不卡毛片| 久久精品人妻中文系列| 婷婷伊人五月| 在线人成精品免费视频| 在线国产欧美|