999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于累積自學習機制的駕駛員路徑選擇博弈模型

2015-01-09 01:55:36周代平
交通運輸研究 2015年4期
關鍵詞:駕駛員機制信息

賀 琳,周代平

(1.重慶交通大學 交通運輸學院,重慶 400074;2.深圳市新城市規劃建筑設計有限公司 城市交通所,廣東 深圳 518100)

基于累積自學習機制的駕駛員路徑選擇博弈模型

賀 琳1,周代平2

(1.重慶交通大學 交通運輸學院,重慶 400074;2.深圳市新城市規劃建筑設計有限公司 城市交通所,廣東 深圳 518100)

為彌補已有駕駛員路徑選擇博弈模型將駕駛員視為完全理性的不足,探求無誘導信息情況下路網交通流臨界狀態,將駕駛員視為有限理性,其依賴累積時間感受收益做出下一次的路徑選擇策略,并以駕駛員的行程時間感受作為決策收益建立了基于累積自學習機制的無誘導信息駕駛員路徑選擇博弈模型。利用該模型,分析了駕駛員路徑選擇行為對路網交通流的影響,并通過仿真驗證得出了不同初始狀態下的模型博弈平衡結果。仿真結果表明:博弈平衡狀態與路網車流總量及初始流量分配比例密切相關。當路網車流總量小于或接近路網總通行能力時,不發布誘導信息,路網的交通流分布達到穩定平衡,路網通行能力利用率較高;當路網車流總量遠大于路網總通行能力時,不發布誘導信息,路網交通流分布會形成峰谷平衡,不能有效利用路網通行能力,應采取相應的交通管理措施。

交通誘導;累積自學習機制;模糊博弈;駕駛員路徑選擇;有限理性

0 引言

進入21世紀后,我國經濟的高速發展帶動了汽車行業的快速發展,人均汽車擁有量的增長速度相當驚人,道路建設土地面積的不足與汽車擁有量飛速增長之間的矛盾日益突出。隨著路網系統的完善,交通壓力逐漸增大,交通誘導開始引起人們的注意。由于誘導信息是建議性的,當誘導信息發布以后,駕駛員是否接受誘導信息、是否會形成擁堵漂移以及是否有必要發布誘導信息等都是管理者所需要考慮的問題。另一方面,在實際交通網絡中,大部分路網并沒有交通誘導系統,因此有必要分析在無誘導信息條件下路網交通流的分布平衡,用以指導該路網系統是否有必要發布誘導信息。由此可知,對駕駛員路徑選擇行為的研究是分析解決路網交通壓力逐漸增大問題的關鍵。

針對駕駛員路徑選擇問題,國內外學者開展了相關研究。李振龍[1]建立了駕駛員在誘導信息下的路徑選擇模型;魯叢林[2]運用Stackberg博弈建立了無誘導信息條件下的駕駛員反應行為博弈模型和完全信息條件下駕駛員反應行為博弈模型,并得出了相同的路況條件下,不同性質的誘導信息對路網交通流的分布影響不同的結論。但是,以上博弈模型都是將駕駛員視作完全理性的,這與現實情況略有出入。Katsikopoulos K.V.等[3]發現在路徑選擇的實驗中,如果一組出行時間的平均值低于某一參照出行時間,出行者表現為“風險規避”;而當平均值高于某一參照出行時間時,則表現為“風險追求”;曾松等[4]提出了駕駛員的某條路徑期望行程時間源于駕駛員的駕駛經驗;趙凜等[5]建立了基于前景理論的先驗信息下路徑選擇理論模型,指出了駕駛員的駕駛經驗能有效影響駕駛員的路徑選擇。Roth A.E.等[6]、Erev I.等[7]認為出行者進行路徑選擇的同時也是在不斷地實踐,通過多次不同的選擇,出行者會總結出幾次選擇的路徑中最佳的路徑,并將其作為自己今后選擇路徑的依據,所以路徑的選擇也是一個學習的過程,進而轉化成自身的經驗。故在實際出行中,駕駛員不是完全理性的,對駕駛員路徑選擇影響最大的是近期經驗。

本文認為自學習機制的“近期經驗”參考的不僅是駕駛員的上一次出行的路徑選擇,而是考慮駕駛員前k次的時間感受經驗對其第k+1次的路徑選擇的影響,故將每位駕駛員每次路徑選擇的時間感受進行累積,駕駛員依賴累積的時間感受收益做出下一次的路徑選擇策略,即:“累積自學習機制”。本文以模糊數學為工具,建立基于有限理性累積自學習機制的博弈模型,并給出模型的求解算法,最后對仿真結果進行分析討論。

1 累積自學習機制

交通出行是一個多人參與的復雜社會活動,出行選擇必然受到多方面的影響。首先,雖然駕駛員在出行前追求的是自身利益的最大化,但是其在做出路徑選擇策略時會受到其他駕駛員決策的影響,即駕駛員之間存在博弈的關系[8]。其次,受駕駛員自身的局限性限制(如信息了解不全面、判斷不準確等),駕駛員并不是完全理性地做出決策,故應將駕駛員看作是有限理性的決策者。最后,駕駛員每次出行所對應的交通狀況不是固定不變的,駕駛員要在一次次的出行中學習和調整策略,從而達到自己的出行期望,故應將駕駛員的出行過程看作是一個學習過程來討論。綜上所述,駕駛員的出行路徑選擇過程應作為一個有限理性博弈過程來研究。

以往的研究包括最優反應動態模型[9]、復制者動態模型[10]和虛擬行動模型[14]這三大有限理性博弈中經典的學習模型,要求局中人對其他博弈方的決策策略有一定的了解。然而在駕駛員的實際出行選擇中,駕駛員很難了解到其他大部分出行者的路徑選擇策略,故有學者提出駕駛員的策略選擇更多地取決于自身的近期經驗[7]。

因此,本文以在出行之前駕駛員對行程時間有一個模糊的預期為基礎,認為博弈的演化過程中局中人是一種“自我學習”,提出了自學習機制:若駕駛員第k次選擇的路徑行程時間能達到模糊預期,即駕駛員對第k次決策的收益感到滿意,則駕駛員第k+1次將會繼續選擇該路徑;若駕駛員在第k次選擇的路徑行程時間未能達到模糊預期,則駕駛員第k+1次就有可能改變決策,選擇其他路徑。在自學習機制的基礎上,考慮駕駛員決策收益的累積效應,提出累積自學習機制,即駕駛員將過去的各決策收益進行累積,借以判斷選擇出最佳決策。

2 模型建立

2.1 模型假設

出行時間的長短是影響路徑選擇最重要的標準[11],美國聯邦總局(BPR)提出路段行程時間函數的公式為[12]:

式中:T為自由行駛時(交通量為0)的路段行程時間(h);c為路段通行能力(pcu/h);q為路段實際交通量(pcu/h);?,γ為模型待定參數,一般取?=0.15,γ=4。

本文以駕駛員的實際行駛時間作為駕駛員選擇某條路徑所獲得的收益。考慮如圖1所示的簡單路網,A到B地有L1與L2兩條路徑,L1與L2的道路通行能力分別為c1與c2,q1,k與q2,k為駕駛員第k次通過L1與L2的實際交通量,t1,k與t2,k為車輛第k次通過L1與L2到達B地的實際通行時間,t0為駕駛員從A地開往B地的期望時間。

圖1 路網示意圖

將路徑L1與L2座位化處理:座位化處理作為一種虛擬處理手段,沒有長度之分,為了記錄每位駕駛員每次選擇了哪條路徑,同時保證每個駕駛員都能記錄到,故將兩條路徑都虛擬成具有Q個座位的路徑,如圖2所示。

圖2 路徑L1、L2的座位化處理

設每次參與博弈的局中人總數一定(等于Q),給參與博弈的每位駕駛員依次編上從1到Q的號碼,且駕駛員的編號保持不變。

設LN1p,i與LN2p,i分別表示路徑L1與L2第i次博弈第p個座位的狀態,若LN1p,i=1,LN2p,i=1,則表示路徑L1與L2第i次博弈第p個座位有人;若LN1p,i=0,LN2p,i=0,則表示路徑L1與L2第i次博弈第p個座位為空。因此,若第p位駕駛員在第i次博弈選擇路徑L1,則:LN1p,i=1,LN2p,i=0;反之,若第p位駕駛員在第i次博弈選擇路徑L2,則:LN1p,i=0,LN2p,i=1。所以第i次博弈路徑L1與L2的流量為:

2.2 滿意度隸屬函數

滿意度是指駕駛員對從A地開往B地所花實際時間的滿意程度,它是個模糊的概念。隸屬函數是模糊數學的一種理論,它的作用是將模糊信息定量化。故用隸屬度函數來確定駕駛員滿意度,其取值本身也反映了從A地開往B地所花實際時間對駕駛員滿意度的隸屬程度。取論域,模糊集A1,A2,A3分別表示“滿意”、“一般”、“差”,則它們的隸屬函數分別為[13]:

若Max(A1(t),A2(t),A3(t))=A1(t),則t∈A1,駕駛員對實際駕駛時間t感覺“滿意”;若Max (A1(t),A2(t),A3(t))=A2(t),則t∈A2,駕駛員對實際駕駛時間t感覺“一般”,若Max(A1(t),A2(t),A3(t))=A3(t),則t∈A3,駕駛員對實際駕駛時間t感覺“差”。

建立路徑L1和L2的時間感受收益函數E1(t1)與E2(t2):

式中:t1,t2為路徑L1和L2上的駕駛員時間感受。

2.3 無誘導信息累積自學習機制

無誘導信息條件下的累積自學習機制是指:在有限理性自學習機制下,第p位駕駛員第k+1次的車輛路徑選擇策略取決其前k次某條路徑選擇所獲得的累積收益。具體表達如下:

式中:AE1p為第p位駕駛員前k次路徑選擇中,選擇路徑L1的累積時間感受收益;AE2p為第p位駕駛員前k次路徑選擇中,選擇路徑L2的累積時間感受收益;E1p,i為第p位駕駛員第i次選擇路徑L1的駕駛員時間感受收益;E2p,i為第p位駕駛員第i次選擇路徑L2的駕駛員時間感受收益;Q為參與博弈的總車輛數(設每次參與博弈車輛總數不變)。若第p位駕駛員第i次選擇路徑L1,則:E1p,i=E1(t1),E2p,i=0;若第p位駕駛員第i次選擇路徑L2,則:E1p,i=0,E2p,i=E2(t2)。

在無誘導信息累積自學習機制中,第p位駕駛員的第i+1次路徑選擇策略取決于其自身的累積時間感受收益AE1p和AE2p。駕駛員通過對自身經驗的累積與學習,判斷選擇出“有限理性的最優方案”,借以得出第i+1次的路徑選擇方案,即若AE1p>AE2p,則第i+1次選擇路徑L1;若AE1p<AE2p,則第i+1次選擇路徑L2;若AE1p=AE2p,則駕駛員的第i+1次路徑選擇以行為強化理論為依據,通過第i次的路徑選擇收益來決定第i+1的路徑選擇方案。也就是,當駕駛員對第i次的路徑選擇收益滿意時,則其第i+1次的選擇將與第i次保持相同;而當駕駛員對第i次的路徑選擇收益的滿意度為差時,則其第i+1次將會選擇其他路徑;當駕駛員對第i次的路徑選擇收益的滿意度為一般時,則第i+1次駕駛員將會有β的概率選擇其他路徑。該模型的戰略表達式如下:

(1)局中人:

(2)局中人的策略集:

(3)局中人的收益函數:

3 模型求解算法

為了求解模型的博弈平衡結果,本文設計了基于累積自學習機制無誘導信息條件下的仿真實驗,仿真對象為圖1所示的簡單路網,并以路徑L1上的流量反映模型的博弈平衡結果。具體算法如下:

Step1:初始化模型,給c1,c2(c1>c2),T,β賦值(定值),給m,Q賦上初始值m=0.1(m為路徑L1的初始分配比例),Q=1000,座位化路徑L1,L2,確定路徑L1,L2的初始交通量q1(1)=round (mQ),q2(1)=Q-q1(1),將q1(1)名駕駛員隨機坐到路徑L1的座位上,將q2(1)名駕駛員隨機坐到對應L1上空位置的L2的座位上,最后找出初始時每位駕駛員路徑選擇方案;

Step2:i=1,統計第i次路徑L1和L2的交通量,計算第i次路徑L1和L2的時間感受E1p,i,E2p,i,并統計前i次的累積時間感受收益AE1p和AE2p;

Step3:判斷AE1p和AE2p大小,確定駕駛員的第i+1次路徑選擇方案;

Step4:若i>100,則轉Step5,否則i=i+1,轉Step2;

Step5:若m>1,則轉Step6,否則m=m+ 0.1,轉Step1;

4 具體算例

為了驗證基于累積自學習機制無誘導信息模型的博弈結果能否達到平衡,本文對該模型進行了仿真驗證。在模型驗證中,局中人總數Q,即參與博弈的車輛的初始值為1 000輛;道路L1的通行能力c1=1500pcu/h,道路L2的通行能力c2=1000pcu/h;自由行駛時(交通量為0)的路段行程時間T=30min;滿意度為一般時駕駛員變換路徑選擇的概率β=0.25[14];局中人總數的增加步長Δq= 500pcu/h;重復博弈的次數k=100。仿真結果如圖3所示。

圖3 第k次博弈路徑L1上的流量

由圖3可知,在局中人總數Q和路徑L1的初始分配比例m一定時,經過多次重復博弈,路徑L1上的流量總為1個定值或為某2個值,即在累積自學習機制下,無誘導信息博弈模型最終會達到平衡。若路徑L1上的流量在博弈達到平衡時總為1個定值,則其博弈結果狀態為穩定平衡,若路徑L1上的流量在博弈達到平衡時為某2個值交替出現,則其博弈結果狀態為交替平衡或峰谷平衡。圖3的仿真結果顯示,隨著參與博弈的車輛總數增加,博弈結果的平衡狀態由穩定平衡逐漸轉變成了交替平衡和峰谷平衡。為進一步分析模型的仿真結果,本文在進行足夠多次博弈后(以保證博弈達到平衡),抽取了不同的局中人總數Q下,隨著m的變化第99次和第100次的仿真結果(見圖4、圖5)。

圖4 無誘導信息下累積自學習機制第99次博弈結果

圖5 無誘導信息下累積自學習機制第100次博弈結果

對比圖4和圖5可知:當Q小于路網總通行能力2 500pcu/h時,第100次的博弈結果和第99次的博弈結果相同,當Q大于路網總通行能力2 500pcu/h時,第100次的博弈結果和第99次的博弈結果具有顯著差異,當Q保持一定時,博弈結果會隨L1的初始分配比例變化而變化。故當路網車流總量遠小于路網總通行能力時,路徑L1的初始流量所占比例m對路網博弈平衡狀態無顯著影響,博弈平衡狀態為穩定平衡;當路網車流總量接近路網總通行能力時,路網博弈平衡狀態與m相關,博弈狀態會呈現穩定平衡或交替平衡;當路網車流總量超過路網總通行能力時,博弈平衡狀態呈現峰谷平衡。

仿真結果表明,基于累積自學習機制無誘導信息模型的博弈結果最終會達到平衡,且博弈結果的平衡狀態與Q,m相關。當路網車流總量小于或接近路網總通行能力時,若不發布誘導信息,路徑L1,L2的擁擠度接近,對路網通行能力具有較高的利用率;當路網車流總量遠大于路網總通行能力時,若不發布誘導信息,路網系統會形成峰谷平衡,路徑L1,L2的擁擠度出現“兩極化”現象,對路網總通行能力的利用率較低,此時應采取相應的交通管理措施,提高路網通行能力的利用率。

5 結語

本文討論了基于累積自學習機制的無誘導信息車輛路徑選擇問題,建立了以駕駛員累積時間感受為收益函數的博弈模型,并通過仿真得出了模型的博弈平衡結果。仿真結果表明,在有些初始情形下,不發布誘導信息,路網的交通流分布也能達到穩定平衡,并且對路網通行能力具有較高的利用率;在路網總流量遠大于路網總通行能力或其他特殊初始情形下,不發布誘導信息,路網交通流分布呈現峰谷平衡,不能有效利用整個路網系統,應采取相應的交通管理措施,如發布誘導信息。

本文只研究了不發布誘導信息下的博弈平衡結果,今后的研究可以討論在發布誘導信息條件下的博弈平衡結果,借以對比得到在各種初始情形下發布誘導信息是否能有效提高路網總通行能力的利用率,是否有必要發布誘導信息等相關結論,為交通誘導決策提供依據。

[1]李振龍.誘導條件下駕駛員路徑選擇行為的演化博弈分析[J].交通運輸系統工程與信息,2003,3(2):23-27.

[2]魯叢林.誘導條件下的駕駛員反應行為的博弈模型[J].交通運輸系統工程與信息,2005,5(1):58-61.

[3]KATSIKOPOULOS K V,DUSE-ANTHONY Y,FISHER D L,et al.Risk Attitude Reversals in Driver's Route Choice When Range of Travel Time is Provided[J].Human Factors, 2002,44(3):466-473.

[4]曾松,史春華,楊曉光.基于實驗分析的駕駛員路線選擇模式研究[J].公路交通科技,2002,19(4):84-88.

[5]趙凜,張星臣.基于“前景理論”的先驗信息下出行者路徑選擇模型[J].交通運輸系統工程與信息,2006,2(6):42-46.

[6]ROTH A E,EREV I.Learning in Extensive-Form Games: Experimental Data and Simple Dynamic Models in the In?termediate Term[J].Games and Economic Behavior,1995 (8):164-212.

[7]EREV I,BEREBY-MEYER Y,ROTH A E,The Effect of Adding a Constant to All Payoffs:Experimental Investiga?tion and Implications for Reinforcement Learning Models [J].Journal of Economic Behavior and Organization,1999, 39(1):111-128.

[8]劉建美.誘導條件下的路徑選擇行為及協調方法研究[D].天津:天津大學,2010.

[9]謝識予.經濟博弈論[M].2版.上海:復旦大學出版社,2002.

[10]王濟川,郭麗芳.抑制效益型團隊合作中“搭便車”現象研究——基于演化博弈的復制者動態模型[J].科技管理研究,2013,12(21):191-195.

[11]OUTRAM V E,THOMPSON E.Driver Route Choice[C]// Proceedings of PTRC Annual Meeting.London:PTRC An?nual Meeting,1977:39-53.

[12]楊佩坤,錢林波.交通分配中路段行程時間函數研究[J].同濟大學學報:自然科學版,1994(1):27-32.

[13]楊綸標,高英儀,凌衛新.模糊數學原理及應用[M].廣州:華南理工大學出版社,2011:1-67.

[14]周元峰.基于信息的駕駛員路徑選擇行為及動態誘導模型研究[D].北京:北京交通大學,2007.

Game Theory Model of Driver's Route Selection Based on Cumulative Self-Learning Mechanism

HE Lin1,ZHOU Dai-ping2
(1.School of Traffic&Transportation,Chongqing Jiaotong University,Chongqing 400074,China; 2.Shenzhen New Land Tool Consultants Pte.,Ltd.,Urban Traffic Brunch,Shenzhen 518100,China)

In order to make up the shortage of regarding the drivers as totally rational by the existing game theory models of driver's route selection,and search the fettle of network traffic flow without induc?ing information,the drivers'rationality was deemed bounded,so he or she made the selection decision of next path according to the cumulative feeling gains of time.The driver's feeling of travel time was consid?ered as the gains of decision,then the model of the driver's routing selection without inducing informa?tion was established based on cumulative self-learning mechanism,and the impact of the driver's route choice behavior on road network traffic flow was analyzed.Finally the equilibrium results of fuzzy game on different initial states were obtained by the simulation.The simulation results show that the balance of fuzzy game is closely related to the total amount of road network traffic and initiatory flow distributionratio.When the total amount of road network traffic is less than or close to the capacity of network,the distribution of network traffic flow reaches a stable equilibrium and the utilization rate of the capacity of network is higher without inducing information.When the total amount of road network traffic is over the capacity of network,the distribution of network traffic flow forms a peak balance,the capacity of network can't be used effectively,and appropriate traffic management measures should be taken.

traffic guidance;cumulative self-learning mechanism;fuzzy game;drivers'route selec?tion;bounded rationality

U491.13

:A

:2095-9931(2015)04-0049-07

10.16503/j.cnki.2095-9931.2015.04.008

2015-04-18

賀琳(1991—),女,四川廣安人,碩士研究生,研究方向為交通規劃。E-mail:helin19911127@163.com。

猜你喜歡
駕駛員機制信息
基于高速公路的駕駛員換道意圖識別
駕駛員安全帶識別方法綜述
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
起步前環顧四周是車輛駕駛員的義務
公民與法治(2016年4期)2016-05-17 04:09:26
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
打基礎 抓機制 顯成效
中國火炬(2014年4期)2014-07-24 14:22:19
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 国产97视频在线观看| 嫩草在线视频| 91人妻日韩人妻无码专区精品| 国产亚洲精品97在线观看| 国产成人亚洲精品蜜芽影院| 超级碰免费视频91| 午夜视频在线观看免费网站| 大陆国产精品视频| 欧美视频在线不卡| 国产精品手机在线播放| jizz在线观看| 亚洲av色吊丝无码| 五月六月伊人狠狠丁香网| 亚洲人成网线在线播放va| 精品视频一区二区三区在线播| 中国毛片网| 亚洲高清资源| 久久久久免费看成人影片| 91精品国产自产在线老师啪l| 福利在线不卡| 亚洲天堂网在线视频| 亚洲欧美日韩久久精品| 国产精品自拍露脸视频| 国产精品不卡永久免费| 亚洲精品午夜天堂网页| 天堂久久久久久中文字幕| 亚洲二区视频| 久久青草视频| 亚洲永久色| 欧美成a人片在线观看| 97色伦色在线综合视频| 在线色综合| 99精品热视频这里只有精品7| 91青青视频| 91av成人日本不卡三区| 日本三级欧美三级| 亚洲欧美一区二区三区蜜芽| 91福利在线看| 美女免费黄网站| 国产91全国探花系列在线播放| 特级毛片免费视频| 亚洲色图欧美视频| 国产午夜不卡| 国产95在线 | 国产尤物视频在线| 国产免费福利网站| 亚洲色欲色欲www网| 亚洲国产清纯| 国产小视频在线高清播放| 日韩精品无码不卡无码| 一级毛片基地| 中文纯内无码H| 日韩国产亚洲一区二区在线观看| 人妻91无码色偷偷色噜噜噜| 激情無極限的亚洲一区免费| 亚洲Va中文字幕久久一区| 91一级片| 精品国产成人国产在线| 香蕉精品在线| 亚洲最大情网站在线观看| 日韩成人午夜| 国产午夜一级毛片| 91无码人妻精品一区| 国产午夜一级毛片| 无码日韩精品91超碰| 成年看免费观看视频拍拍| 色悠久久综合| 九九热视频精品在线| 怡红院美国分院一区二区| 亚洲精品人成网线在线 | 国产免费好大好硬视频| 亚洲一区二区成人| 国产男人天堂| 亚洲综合婷婷激情| 亚洲综合激情另类专区| 国产成人一级| 国产精品视频3p| 啊嗯不日本网站| 久久亚洲天堂| 成年午夜精品久久精品| 国产成人欧美| 污污网站在线观看|