基于主從博弈的智能車匯流場景決策方法

2021-09-02 06:51:16胡益愷莊瀚洋王春香明a

上海交通大學(xué)學(xué)報 2021年8期

關(guān)鍵詞：方法模型

胡益愷，莊瀚洋，王春香，楊明a,

(上海交通大學(xué) a.自動化系；b.密西根學(xué)院；c.系統(tǒng)控制與信息處理教育部重點實驗室，上海 200240)

智能車作為當(dāng)下的研究熱點之一，獲得了學(xué)術(shù)界與工業(yè)界的廣泛關(guān)注[1].在車輛的正常行駛過程中經(jīng)常會遇到上下匝道、車道合并、道路施工等匯流場景，盡管交通法規(guī)對這些場景有著一些指導(dǎo)性的規(guī)定，但由于場景的獨特性和駕駛員不同的理解方式，導(dǎo)致匯流過程成為典型的博弈場景.如何有效提升該場景下車輛通行的效率及安全性，是智能車決策系統(tǒng)開發(fā)中的一個關(guān)鍵問題.

近年來，一些學(xué)者提出了基于車間協(xié)同與車路協(xié)同的方法，即運用車輛彼此之間[2-3]以及與道路基礎(chǔ)設(shè)施之間[4-6]的通信來解決交通沖突.雖然基于車與車通訊(V2V)與車聯(lián)網(wǎng)(V2X)的策略能夠提高路口交通的安全性和效率，但其過度依賴于車間通訊設(shè)備以及路側(cè)基礎(chǔ)設(shè)施，在短期內(nèi)仍然難以大范圍推廣.與此同時，大量的研究工作聚焦于對單輛智能車的決策研究，例如：基于可達性分析方法[7]，基于學(xué)習(xí)類方法[8-10]以及基于博弈論的方法[11-13]等.其中，基于博弈的方法被科研工作者視為對理性決策者之間交互建模的合適工具，并被多名科研人員進行討論與實驗驗證.文獻[11]將存在交互行為的所有決策個體視為非合作博弈中的參與者，以各方的狀態(tài)改變作為博弈策略，通過構(gòu)建收益矩陣后求解得到博弈模型的納什均衡，以作為雙方的最優(yōu)駕駛策略組合.該方法雖在匯流場景中取得了優(yōu)異的效果，但其并沒有考慮匯流場景中路權(quán)的差異，忽略了人類駕駛員在實際駕駛中的禮貌因素，并且缺乏對車輛感知范圍的合理限制，從而在決策建模時和實際產(chǎn)生偏差，降低了決策方法的穩(wěn)健性.

本文提出基于主從博弈(Stackelberg-game)理論的智能車輛決策方法框架，該模型結(jié)合了兩個參與者的不對稱角色特性，并賦予了一個參與者相對于另一個參與者的優(yōu)勢[14-15].該決策方法有效地將匯流場景中的路權(quán)因素考慮其中，例如在匝道口交替通行路段，滿足交替通行規(guī)則的車輛擁有較高的路權(quán)，可以將其視為主從博弈中的領(lǐng)導(dǎo)者，而未獲得交替通行權(quán)限的車輛被合理地視為跟隨者.同時，本文提出駕駛員合作收益，并考慮車輛的傳感器感知范圍有限性以提升決策方法的安全性、合理性與穩(wěn)健性.本文工作可為智能車輛在匯流場景下運用博弈方法解決決策問題的可行性提供理論驗證.

1 車輛與環(huán)境建模

建立基于主從博弈的車輛博弈模型，并分別從雙車博弈以及多車博弈進行討論.同時，建立環(huán)境的參數(shù)化模型與以此為基礎(chǔ)的車輛軌跡模型，以提升方法的可遷移性.

1.1 車輛博弈模型

選擇主從博弈作為基礎(chǔ)博弈模型，分別定義al與af為領(lǐng)導(dǎo)車輛和跟隨車輛的決策，Al與Af分別為二者對應(yīng)的決策集合.在博弈中，參與者通過選擇合適的策略，最大化收益函數(shù)，領(lǐng)導(dǎo)車輛的收益函數(shù)以Rl(s,al,af)表示，跟隨車輛的收益函數(shù)為Rf(s,al,af)，其中s∈S,S={(sl,sf)t}為當(dāng)前時刻t的車輛集合狀態(tài)空間.根據(jù)主從博弈均衡解的概念[15]，對兩車博弈進行建模，并得到領(lǐng)導(dǎo)車輛的均衡解γl與跟隨車輛的均衡解γf，則有：

(1)

(2)

考慮到該場景下的博弈可以視為完全信息場景，即領(lǐng)導(dǎo)車輛了解跟隨車輛的決策方案，從而式(1)的博弈模型可以轉(zhuǎn)化為

(3)

(4)

當(dāng)環(huán)境中出現(xiàn)眾多車輛時，現(xiàn)有方法常通過建立兩兩參與者之間的博弈模型后通過均衡解得到最優(yōu)決策，但該方法隨著參與者數(shù)目的增加，計算復(fù)雜度將呈指數(shù)級增長[17].考慮到駕駛員的視覺感知范圍以及智能駕駛車輛的傳感器感知范圍有限，并結(jié)合領(lǐng)導(dǎo)車輛與跟隨車輛的從屬關(guān)系，有效地提高多車博弈模型的求解速度，可以表示為

(5)

圖1 匯流場景參數(shù)化建模Fig.1 Parameterized modeling of merging scenario

式中：S(t)為t時刻環(huán)境中所有車輛的狀態(tài)；sp,q(t)為t時刻第p輛車與第q輛車之間的相對狀態(tài)；leader為領(lǐng)導(dǎo)車輛；follower為跟隨車輛；kp為笛卡爾坐標(biāo)系下第p輛車的極限感知范圍；xp為第p輛車的x軸坐標(biāo)；yp為第p輛車的y軸坐標(biāo)；ap為第p輛車的決策；Ap為第p輛車的決策集.該多車博弈模型與現(xiàn)實匯流場景中駕駛員的交互行為有較高的一致性，人類駕駛員無論是在加速車道還是在主車道都會對感知視野內(nèi)不同目標(biāo)分配不同的注意力進行判斷與評估.

1.2 參數(shù)化環(huán)境模型

以參數(shù)組P表征匯流場景的結(jié)構(gòu)特征：

P={lO,lR,lW,lAcc,dR,1,dR,dM,

(6)

1.3 車輛軌跡模型

圖2 匯流場景中的車輛軌跡模型Fig.2 Vehicle path model in merging scenario

2 收益函數(shù)

收益函數(shù)將顯式地量化博弈參與者的目標(biāo)，在匯流場景中，駕駛員以及智能駕駛車輛擁有相同的基本目標(biāo)，可以概括為行駛過程中避免與環(huán)境車輛發(fā)生碰撞，并與環(huán)境車輛保持合理距離；通過并快速到達目標(biāo)點；控制車輛的加速度，以優(yōu)化車輛舒適性的控制收益；禮貌駕駛員的合作收益.

在計算收益函數(shù)時，運用了模型預(yù)測的思想，計算了未來幀的預(yù)測收益，從而提高模型的穩(wěn)健性和安全性.考慮到基于車輛運動學(xué)模型的預(yù)測過程中會存在預(yù)測誤差，針對收益函數(shù)設(shè)計了衰減因子，以提升決策方法的穩(wěn)定性.

(7)

式中：Ri(t)為t時刻博弈參與者的總收益函數(shù)；Ri(st,t+kτ)為總預(yù)測收益；RAi(st,t+kτ)為安全預(yù)測收益；RTi(st,t+kτ)為時間預(yù)測收益；RCi(st,t+kτ)為舒適性預(yù)測收益；RGi(st,t+kτ)為合作預(yù)測收益；τ為預(yù)測時間間隔；k為預(yù)測的時間幀數(shù)；H為預(yù)測推演的時間窗口大小；st為t時刻車輛的狀態(tài)；ω1、ω2、ω3、ω4分別為4項收益的權(quán)重；ξ為衰減因子，其表現(xiàn)形式為預(yù)測時間間隔越長的收益在收益項Ri(t)中的占比將會越小.

同時，在對車輛運動學(xué)建模的過程中，一般對車輛模型進行簡化，采用車輛二自由度模型[18-19]實現(xiàn)在預(yù)測時間窗口中的車輛狀態(tài)更新.

圖3 車輛安全收益幾何模型Fig.3 Geometric model of vehicle safety benefits

車輛安全是智能車輛行駛中最為重要的收益之一，首先定義車輛的碰撞判定以及安全距離.車輛安全收益幾何模型如圖3所示.其中：粗實線為車輛碰撞判定區(qū)域；粗虛線為安全預(yù)留區(qū)域；(xt,yt)為t時刻車輛后軸中心在笛卡爾坐標(biāo)系中的坐標(biāo)，lcf與lcr分別為車輛前、后邊緣距后軸中心的碰撞判定距離；lsf與lsr分別為車輛前、后邊緣距后軸中心的行車安全預(yù)留距離；wc為車輛的碰撞判定車寬；ws為車輛的行車安全預(yù)留車寬；Ac(st,t′)為預(yù)測時間幀t′時刻車輛碰撞判定區(qū)的重疊面積；As(st,t′)為預(yù)測時間幀t′時刻安全預(yù)留區(qū)的重疊面積.其中，安全預(yù)留區(qū)域的參數(shù)組(lsf,lsr,ws)為車速v(t)的函數(shù).安全收益定義如下：

(8)

式中：ω11、ω12分別為碰撞權(quán)重和安全預(yù)留權(quán)重；vi(st,t′)vj(st,t′)為當(dāng)前博弈參與者的速度，即二者速度越大，收益項會認為此隱患越危險，從而帶來更大的懲罰；I(Ac(st,t′))與I(As(st,t′))為0-1函數(shù)，當(dāng)相應(yīng)的安全區(qū)域出現(xiàn)重疊時取為1，不重疊時取為0.

在保證車輛安全的同時，智能車輛行駛的另一個重要收益是以較短的時間到達目的地，越快的速度將會得到更多的時間收益，從而將每一時刻車輛的速度作為時間收益，收益函數(shù)定義如下：

RTi(st,t+kτ)=RTi(st,t′)=vt(st,t′)

(9)

式中：vt(st,t′)為預(yù)測時間幀t′時刻研究對象的速度.

乘客的舒適性亦為決策的收益之一，急動度為加加速度，是加速度對時間的求導(dǎo)，為衡量車輛控制平順度的重要指標(biāo)，并且直接影響車輛成員對舒適性的感受.車輛的舒適性預(yù)測收益可以定義為

RCi(st,t+kτ)=RCi(st,t′)=-J(t′)

(10)

式中：J(t′)為t′時刻車輛的急動度.

考慮到現(xiàn)實駕駛環(huán)境中，駕駛員在進行決策時，并不采用完全自私?jīng)Q策，而會考慮到自身決策對環(huán)境其他駕駛員的影響.本文提出合作預(yù)測收益RG(st,t+kτ)，以實現(xiàn)對駕駛員合作行為的量化建模：

RGi(st,t+kτ)=RGi(st,t′)=-|uj(st,t′)|

(11)

式中：uj(st,t′)為參與者在其博弈環(huán)節(jié)環(huán)境中第j輛車輛的加速度，以表征參與者自身決策對環(huán)境其他車輛行駛的影響.uj(st,t′)的值越大，代表對其他車輛的影響越大.當(dāng)車輛所做出的決策會使環(huán)境中其他車輛的速度發(fā)生變化時，合作收益將會減少.智能車輛在進行決策過程中，將會考慮其對其他博弈參與者帶來的影響，從而表現(xiàn)出與實際駕駛相符的禮貌性.

本節(jié)從安全收益、時間收益、控制收益以及合作收益4個方面對智能車輛在匯流場景中的決策目標(biāo)收益進行定義.將式 (7)～(11)與式 (5)結(jié)合,可得到?jīng)Q策的顯式過程，同時由于收益函數(shù)均具有顯式物理含義，大大增強了決策方法的可解釋性.通過調(diào)整收益函數(shù)項的權(quán)重系數(shù)以及具體收益函數(shù)中的計算參數(shù)，即可實現(xiàn)對期望目標(biāo)的定向決策優(yōu)化.

3 決策求解方法

本文所提出的決策求解方法，以當(dāng)前時刻的環(huán)境觀測為輸入，根據(jù)車輛路權(quán)確定其在主從博弈中的優(yōu)先度，隨后根據(jù)環(huán)境觀測生成候選軌跡后，計算從當(dāng)前時刻向前推演的博弈參與者收益，并使用基于主從模型的博弈方法得到?jīng)Q策計算結(jié)果：

γ∈A={a1,a2,…,aM}

(12)

式中：γ為博弈參與者的均衡解；ai為車輛的決策，此場景下決策的值為車輛的加速度，ai=ui∈[umin,umax].

決策模塊生成的決策結(jié)果為當(dāng)前時刻應(yīng)采用的車輛加速度，該結(jié)果將傳遞給車輛的控制模塊，以實現(xiàn)車輛的縱向控制.車輛的橫向控制由路徑跟蹤模塊實現(xiàn)，此處不展開討論.所提車輛決策方法流程圖如圖4所示.

圖4 面向匯流場景的決策方法流程圖Fig.4 Flowchart of decision method for merging scenario

4 實驗結(jié)果與分析

本文分別在INTERACTION數(shù)據(jù)集以及NGSIM數(shù)據(jù)集上進行了實驗.其中，INTERACTION數(shù)據(jù)集是由加州大學(xué)伯克利分校機械系統(tǒng)控制實驗室(MSC Lab)等建立的一個具有國際性、對抗性、協(xié)作性的數(shù)據(jù)集[20].其匝道收縮場景及加速車道場景如圖5所示.其中：DR_DEU_Merging_MT數(shù)據(jù)集采集地點位于德國，是一個經(jīng)典的道路收縮場景；DR_CHN_Merging_ZS數(shù)據(jù)集采集地點位于中國，該數(shù)據(jù)集中同時出現(xiàn)了道路收縮以及加速車道匯流的場景；圖中數(shù)字編號為所采集的車輛編號.

圖5 INTERACTION 數(shù)據(jù)集Fig.5 INTERACTION dataset

NGSIM數(shù)據(jù)集[21]由美國聯(lián)邦公路局提供，本文采用文獻[11]中所采用的數(shù)據(jù)集NGSIM-US 101.

采用行為預(yù)測準(zhǔn)確率(ζ)以及平均絕對誤差(MAE)作為決策方法的評估指標(biāo).行為預(yù)測準(zhǔn)確率的定義可以表示為

(13)

(14)

分別基于3個數(shù)據(jù)集展開了決策實驗，并記錄了ζ與MAE的具體表現(xiàn)，如表1所示.其中，加粗的數(shù)據(jù)為決策表現(xiàn)更優(yōu)的評價結(jié)果.通過對比分析可知，本文方法優(yōu)于文獻[11]中所提出的方法.

表1 決策方法行為預(yù)測準(zhǔn)確率及其MAETab.1 Prediction accuracies of decision-making method behaviours and their MAE

行為預(yù)測準(zhǔn)確率與車流量的關(guān)系如圖6所示，其中：V為主路車道車輛數(shù).在不同數(shù)據(jù)集中，隨著主路車道上車流量的增大，本文所提方法與文獻[11]方法相比，行為預(yù)測準(zhǔn)確率的下降趨勢較緩，從而論證了本文方法在車流密度較高的場景下有較強的穩(wěn)定性.

通過實驗結(jié)果對比分析可知，本文所提出的基于主從博弈的智能車輛決策方法在行為預(yù)測準(zhǔn)確率方面，在INTERACTION數(shù)據(jù)集的表現(xiàn)優(yōu)于文獻[11]，但在NGSIM-US 101數(shù)據(jù)集上的準(zhǔn)確率略低于文獻[11]中的結(jié)果，原因是由于文獻[11]中針對NGSIM數(shù)據(jù)集中378對訓(xùn)練數(shù)據(jù)進行了針對性的參數(shù)標(biāo)定，所以有一定過擬合現(xiàn)象的產(chǎn)生.在決策輸出的平均絕對誤差方面，本文方法優(yōu)于對比文獻中的方法.同時，隨著主路車道上車流量的增大，本文提出的方法在行為預(yù)測準(zhǔn)確率和MAE兩個指標(biāo)上的變化較少，文獻[11]中的指標(biāo)略有下降，從而體現(xiàn)出本文方法的穩(wěn)健性.

圖6 行為預(yù)測準(zhǔn)確率與車流量關(guān)系Fig.6 Behavior prediction accuracy versus traffic flow

5 結(jié)語

本文提出了一種基于主從博弈的匯流場景智能車決策方法，該方法通過引入路權(quán)的定義，分別構(gòu)建了雙車博弈模型以及多車博弈模型，用以解決匯流場景中的決策問題.此外，本文還設(shè)計了匯流場景的參數(shù)化模型，增加了決策方法的可遷移性.本文通過設(shè)計安全收益、時間收益、控制收益以及合作收益，顯式地構(gòu)成了車輛博弈中的目標(biāo)收益函數(shù)，增加了所提決策方法的合理性與可解釋性.最后，分別基于INTERACTION與NGSIM數(shù)據(jù)集進行測試與分析，驗證了所提方法的有效性與穩(wěn)健性.結(jié)果表明，基于主從博弈的決策方法可以和匯流場景中的路權(quán)信息有效結(jié)合，提升決策的合理性.同時，合作收益的引入可以使無人駕駛車輛解算出更加類人且安全的決策.下一步工作將致力于在更加普適的場景中研究基于博弈方法的智能車決策問題.