基于博弈論的無信號交叉口沖突消解方法

2021-11-06 12:03:30馬慶祿聶振宇

重慶理工大學學報(自然科學) 2021年10期

馬慶祿，聶振宇

(重慶交通大學交通運輸學院，重慶 400074)

無信號交叉口一直是交通事故的高發地點。相比燈控交叉口根據信號燈對不同相位車流引導實現有序通過，當前的無信號交叉口通行權沖突消解方法主要包括可接受間隙模型、運動學矢量圖法和沖突表法[1-3]。但這些方法較少考慮人的主觀因素，基于人的完全理性假設，過于理想化。

近年來，不斷有學者應用博弈論解決交通領域問題，在交叉口通行權沖突模型中考慮駕駛人博弈行為的影響。邵雯[4]通過交互駕駛實驗詳細討論了視距范圍對駕駛人駕駛策略的影響，發現駕駛人基于自身所處沖突環境捕捉的更多是距離信息，并證實了駕駛人對實際道路環境認知的偏差。成英等[5]以駕駛人速度改變為策略，考慮不同類型駕駛人的駕駛行為差異，通過交叉口的收益分析達到的納什均衡建立沖突消解模型，降低通行權沖突率，并對比沖突表法，在確保安全的前提下提高了交叉口的通行效率。郭偉等[6]考慮駕駛人通過交叉口的時間和安全收益建立收益函數，雙方駕駛人在博弈中尋求自身收益最大化，最終實現了交叉口的穩定狀態。這類模型都基于完全信息下的博弈，依賴駕駛人的理性程度，在博弈時做出準確判斷以達到納什均衡狀態。劉小明等[7]在駕駛行為模型中引入博弈論復制動態理論，描述駕駛人在重復博弈中駕駛策略的改變，并驗證了演化博弈論在交叉口駕駛人行為模型中應用的合理性，該模型充分考慮了駕駛人的理性程度，但對于交叉口駕駛人行為最終呈現的穩定狀態并沒有說明。張鄰等[8]研究無信號交叉口沖突中，分析交叉口駕駛人行為所達成的納什均衡狀態只考慮了純策略的單一納什均衡狀態，并未考慮由于駕駛人理性程度不同而有可能達成的混合策略納什均衡狀態，對這種混合策略納什均衡狀態下的沖突率也沒有進行分析。

綜上所述，無信號交叉口駕駛行為博弈所達成的單一納什均衡穩定狀態研究已足夠深入，但研究模型普遍缺少對駕駛人理性程度的描述[9]，不同理性程度的駕駛人在面臨無信號交叉口通行權沖突時會形成多個穩定狀態，造成模型不適用于實際交叉口的情況，且對于交叉口均衡狀態的研究結論無法指導無信號交叉口的交通規劃應用[10]。因此，通過研究無信號交叉口駕駛人行為博弈，分析無信號交叉口所呈現出的復雜穩定狀態，通過交通設施規劃來影響駕駛人的博弈策略，使交叉口達到沖突率較低的均衡狀態。

1 無信號交叉口博弈駕駛模型

1.1 駕駛行為分析

無信號十字交叉口面臨交叉沖突時雙方駕駛人通常會有2種選擇，先行通過交叉口和避讓對方車輛后通過交叉口。與之對應的是2種駕駛行為策略。加速行駛爭取先通過交叉口和減速避讓對方車輛后通過交叉口。前一種策略會使其獲得時間上的更好收益，后一種策略在時間上的收益會降低但增加了行駛安全性的收益。基于以上情形的雙方駕駛員行為博弈是一個2×2的非合作博弈[11]。

1.2 博弈分析

A和B均為自然人，分別是由南向北和由西向東行駛車輛的駕駛人。兩車沿當前道路行駛至脫離視野遮擋區域，發現對方車輛并預計到可能的通行權沖突。如圖1，A和B所駕駛車輛的當前車速分別為vA和vB，在只考慮兩車垂直交叉沖突的情況下，無信號交叉口A和B駕駛方向的停車視距分別為LA和LB，停車視距和當前車速很大程度上決定了駕駛人的決策。駕駛人在距離沖突點一定距離處做出決策，改變自身的駕駛策略。

圖1 無信號交叉口駕駛人博弈示意圖

雙方駕駛員的目的都是在確保安全的前提下用較短的時間通過交叉口，通常會采取加速先行通過交叉口或減速避讓對方車輛后通過交叉口。駕駛人A的加速和減速策略分別為SA1和SA2，駕駛人B的加速和減速策略分別為SB1和SB2，定義雙方的策略集S={SA1，SA2，SB1，SB2}。值得注意的是，由于車輛性能不同，加減速的能力不同，因此并不認為A所駕駛的車輛加速策略SA1和B所駕駛的車輛的加速策略SB1是相同的。同理，策略SA2和SB2也不相同。

雙方駕駛員在特定的策略組合下預計得到收益U={u1，u2，…，un}，其中n=8。如圖1，駕駛員的期望收益構成不僅包括安全通過交叉口的時間收益，還包括產生沖突后的時間損失。例如，雙方距離沖突點的距離相同、車輛的加速性能相近，A采取了SA1，B采取了SB1，雙方都選擇在臨近交叉口加速行駛以搶先通過交叉口，就有一定概率發生沖突。由于駕駛人的有限理性，其在沖突前會選擇緊急剎車或其他避險行為，所產生的時間損失也包括在期望收益中。

1.3 收益分析

無信號交叉口駕駛人博弈收益由無沖突通過沖突點的時間和發生沖突后損失的時間兩部分構成。其中，無沖突通過沖突點的時間為t，時間越短則收益越大，故取時間的負數作為時間部分的收益。發生沖突后損失的時間為d，通常情況下認為d的數值是大于t的，因為無論是交叉口沖突、交織區沖突或是人類社會其他競爭，激烈沖突所造成的損失都是嚴重的。損失的利益高于所爭奪利益，這也符合交叉口沖突的通常情況。

由于駕駛水平參差不齊和理性程度有差異，因此基于傳統經濟學中的完全理性假設在交叉口駕駛人博弈中并不成立[12]。在交叉口駕駛行為博弈中，認為駕駛員的自然人假設符合不完全理性，駕駛員并不能準確判斷自己及對方的收益，而是通過不斷學習、策略的調整及經驗總結采取決策，最終達到的群體平衡是不斷重復博弈形成的[13]。此博弈的矩陣式表述如圖1所示，對于p和1-p，p∈[0，1]，分別表示駕駛人A所示意方向車流中采取策略SA1和SA2的駕駛人比例(為便于理解，也可認為是駕駛人A采取2種策略的概率)；對于q和1-q，q∈[0，1]，分別表示駕駛人B所示意方向車流中采取策略SB1和SB2的駕駛人比例(同樣可以理解為駕駛人B采取2種策略的概率)。

駕駛人A采取純策略SA1和SA2的收益分別為

(1)

駕駛人A采取SA1和SA2的概率分別為p和1-p，那么A的平均期望收益為

E(A)=p·E(SA1)+(1-p)E(SA2)=

p[q·u1+(1-q)u3]+

(1-p)·[q·u5+(1-q)u7]

(2)

同樣，駕駛人B采取純策略和SB2的收益分別為

(3)

駕駛人B采取SB1和SB2的概率分別為q和1-q，那么B的平均期望收益為

E(B)=q·E(SB1)+(1-q)E(SB2)=

q[p·u2+(1-p)u6]+

(1-q)[p·u4+(1-p)u8]

(4)

根據復制動態的思想[14]，駕駛人群體A和B中采用了收益較低策略的駕駛人通過學習會在下次通過交叉口時選擇收益較高的策略，因此在群體中不同策略的駕駛人比例會發生變化。在駕駛人群A和B中，p和q的變化速度分別為

(5)

該微分方程就是復制動態方程。從式(5)可以看出，群體中采用某種策略的駕駛人比例變化速度與其比例和這種策略的收益與策略的平均收益差值有關。

1.4 博弈均衡分析

前4種均衡狀態都是博弈中的強納什均衡[16]，下面證明第5種均衡策略(p*，q*)也是納什均衡，證明之前先引入演化博弈論中進化穩定的概念[17]。

定義1如果一個雙方博弈中，策略S滿足①、②兩個條件

①E(s，s)>E(s，s′) ?s′

②E(s，s)=E(s，s′)，E(s，s′)>E(s′，s′)

?s′≠s

那么稱策略S是一個進化穩定策略[18]。

圖2 駕駛人A和B的5個博弈均衡狀態的策略組合示意圖

在區域p=[0，1]，q=[0，1]內，所有雙方駕駛策略組合在不斷重復博弈中都會趨向于(p，q)=[(0，0)、(0，1)、(1，0)、(1，1)、(p*，q*)]的均衡狀態，某個交叉口呈現出的穩定平衡狀態是駕駛人行為策略不斷重復學習調整的結果而非一次博弈的結果。

2 實例分析

2.1 無信號交叉口屬性

以遼寧省本溪市平山區一中街與馮大中路交匯的無信號交叉口為例，交叉口構造如圖3所示。

圖3中，車輛A所在的馮大中路為東北-西南走向，雙向兩車道，日均交通量為340 pcu/h，平均車速為11 m/s；車輛B所在的一中街為西北-東南走向，雙向兩車道，日均交通量230 pcu/h，平均車速11 m/s。兩條道路交叉角度為93°，由于沿街構筑物的遮擋，兩條道路的停車視距經實測均為30 m。因為道路交通量較小，各方向車流在交叉口處尋找間隙通過。當地交通管理部門在該交叉口不設置優先權及交通管理措施。

圖3 一中街與馮大中路交匯無信號交叉口構造實景圖

2.2 實驗參數

為模擬無信號交叉口大多數情況的兩車博弈情形，設定兩車在距離沖突點5～100 m范圍內進行博弈。為便于研究，忽略車輛性能對駕駛人操控的限制，車輛的行駛動態可以自由調節，即駕駛人駕駛車輛行駛至交叉口停車視距時即可做出駕駛策略改變，博弈距離在數值上等于停車視距。車輛正常行進(除避險行為)速度限定在10～60 km/h，兩車駕駛人可以在此范圍內控制車速。

當駕駛人A和B所采取的策略計算出到達沖突點的時間差小于0.5 s，判定為兩車發生沖突，認為駕駛人A和B在即將發生碰撞時均會采取緊急避險行為，由此帶來的收益損失為d。當兩車均采取加速通過交叉口策略的緊急避險時，d=10；當兩車均采取減速通過交叉口策略的緊急避險時，d=2；當一方采取加速通過交叉口，另一方采取減速通過交叉口策略的緊急避險時，d=5；如果未發生沖突，d=0，由此得到收益陣列如表1所示。

表1中，vA和vB分別為駕駛人A和B決策時所駕駛車輛的初始速度。考慮到不同類型車輛的機械性能不同，將駕駛人A、B所駕駛車輛加速度aA+和aB+、剎車減速度aA-和aB-離散為±2、±1.7、±1.4、±1.1、±0.8、±0.5和±0.2 m/s2。

表1 駕駛人博弈收益陣列

駕駛人行為模擬軟件基于3D可視化平臺Thing.js搭建，模擬現實中駕駛人在無信號交叉口面臨通行權沖突時的決策，軟件界面如圖4所示。

圖4 不同停車視距條件駕駛行為模擬效果

軟件模擬駕駛人在給定停車視距、車輛初始速度和道路限速的情況下，遇到可能的通行權沖突時所采取的駕駛策略。實驗中共模擬20組9 680次博弈，對每次博弈實驗的碰撞情況、通過交叉口時間以及雙方收益進行記錄匯總。

2.3 實驗結果與分析

將停車視距由5 m按增量為5 m增至100 m。在無信號交叉口駕駛人群體最終達到的穩定狀態中，駕駛人選擇策略比例會發生變化，群體達到的平衡狀態也在變化。不同停車視距駕駛人群體策略變化曲線見圖5。

圖5 不同停車視距駕駛人群體策略變化曲線

圖5中，NE=1時雙方均采取加速策略即S={SA1，SB1}。此納什均衡下，A、B都認為加速策略對自己更加有利，隨著停車視距的增加，駕駛人群中更多比例的人會采取加速策略以爭取先通過路口；NE=2和NE=3時，其中一方采取減速策略，另一方采取加速策略，即S={SA1，SB2}和S={SA2，SB1}，隨著停車視距的增大，駕駛人群中很難達到這2個最理想的納什均衡；NE=4是雙方都選擇了減速避讓策略，即S={SA2，SB2}，此種策略多出現在停車視距較短的時候，當L>40時，駕駛人群中也無法達成此納什均衡點；ESS為進化穩定均衡狀態的混合策略，駕駛人群體中一定比例的人選擇了加速策略，另一部分人選擇了減速策略。

分析駕駛人群體達到混合策略的平衡狀態。在不考慮駕駛人群體速度分布的情況下，不同停車視距下計算得p和q值。由于是對稱博弈且LA=LB=L，故僅以p值進行討論。

由圖6(a)～(i)所示的9組仿真實驗中不同停車視距下p值的正態分布情況可見，停車視距較短和較長的交叉口實驗中，駕駛人群體對沖突收益的判斷往往更加一致，傾向于達成純策略的納什均衡。如圖6(e)，當停車視距為50 m時，駕駛人群體中對于沖突收益的判斷由于駕駛人認知水平不同會出現分歧，容易達到混合策略進化穩定狀態(ESS)；隨著停車視距的增加，不同停車視距下p的平均值不斷增大，意味著駕駛人群體中選擇加速搶先通過交叉口策略的比例增大。

圖6 不同停車視距混合策略納什均衡狀態下p值的正態分布

圖7中，隨著停車視距增加，混合策略平衡狀態下沖突率也在上升。因此，增加無信號交叉口可視距離或停車視距反而會激發駕駛人采取加速搶先通過路口策略的博弈心理，造成更多的通行權沖突，不僅影響交叉口的通行效率，也帶來了安全隱患。

圖7 不同均衡狀態的沖突率直方圖

為進一步探討駕駛行為與沖突率之間的關系，由圖7可知，當兩車博弈距離為40 m時，總沖突率是最低的；當停車視距很短時，總沖突率較高，因為當兩車駕駛人發現對方車輛時車距過近，無論雙方采取什么樣的策略都很容易發生沖突；由于博弈距離過近，即使達到NE=4即S={SA2，SB2}的納什均衡策略，還是有很大比例發生沖突。隨著停車視距的不斷增加，總沖突率有一定幅度的上升，因為雙方都已發現對方車輛，雙方相距沖突點的距離較遠，如果減速則損失了較多的時間收益，故雙方駕駛人群體選擇加速策略的比例會增加，以獲得更大的時間收益，反而造成了沖突率上升的趨勢。在進行的不同博弈距離的20組實驗中，當停車視距為40 m時，綜合沖突率為最低的3.699%，相比停車視距為30 m時的綜合沖突率6.670%，優化停車視距后該無信號交叉口的沖突率降低了44.543%；優化停車視距后的無信號交叉口，駕駛人之間更傾向于達成相互避讓的駕駛策略，停車視距為40 m時，不同速度車輛的駕駛人的決策會達成如圖8(a)的納什均衡狀態。

優化停車視距后，當車輛以較接近的初始速度到達博弈距離時，駕駛人會達成混合策略的納什均衡狀態(NE=5)。這種混合策略的納什均衡狀態下有發生通行權沖突的可能。如圖8(b)，隨著博弈雙方速度的增加，通行權沖突的可能性逐漸降低。可以看出，駕駛人群體的駕駛行為與道路條件存在著互動關系，駕駛行為受到道路條件和車輛初始狀態的影響。

圖8 停車視距40 m條件下駕駛人群體的策略均衡狀態示意圖

圖9展示了不同初始車速條件下，駕駛人在停車視距分別為30、40 m情況下進行決策所導致的沖突率變化。在道路平均車速為11 m/s時，沖突率由原來的4.59%降低為優化后的2.35%，降低了48.80%，優化效果明顯。

圖9 不同初始速度條件下優化前后沖突率

3 結論

1) 道路停車視距的制定不能忽略駕駛人博弈行為的因素，也不能通過無限增加視距范圍來降低無信號交叉口的沖突率。

2) 在實驗的無信號交叉口路段，按照本文的博弈模型進行無信號交叉口停車視距優化，在道路設計速度60 km/h、停車視距由30 m增加至40 m后，沖突率由4.59%降為2.35%，降低了48.80%。

3) 駕駛人車輛的初始速度同樣會影響駕駛人的博弈策略，可在基于駕駛人行為的沖突消解方法研究中對道路限速因素進一步討論。