李雪巖,李雪梅,李學偉,趙 云,邱荷婷
(北京交通大學經濟管理學院 北京 100044)
?
基于動態參照點的多主體有限理性路徑選擇模型
李雪巖,李雪梅,李學偉,趙云,邱荷婷
(北京交通大學經濟管理學院 北京 100044)
摘要:為了研究有限理性假設下出行者的自適應調整行為對交通網絡分流的影響,利用累積前景理論結合演化元胞自動機建立了具有個體交互機制的多主體路徑選擇模型。在模型中將出行者劃分為風險追求者與風險厭惡者,基于出行時間可靠性并借鑒元胞遺傳算法的思想設計了具有異質特點的出行者動態參照點及其演化規則,使出行者個體能夠依據決策環境的變化動態地調整自身的出行時間預算,更加符合出行者的實際行為特征。最后將多主體參照點演化規則與傳統的相繼平均算法相結合,求解路網配流。研究發現:演化模型較好地繼承了傳統模型中的路徑分流特點;不同的出行者類型比例及出行者的信息接收程度是影響路網分流結構的重要因素。
關鍵詞:有限理性;多主體;風險;元胞遺傳算法;動態參照點;交通流量分配;
0引言
不確定的交通需求、出行者的動態選擇行為決定了交通系統具有動態性、時變性、隨機性等特征,也意味著交通系統是一個典型的復雜系統。傳統的動態交通分配模型往往基于期望效用理論(expected utility theory,EUT)或隨機效用理論(random utility theory,RUT)來研究出行者的路徑選擇行為和路網分流均衡問題,在該研究框架下,通常假設出行者具備完美信息及完全理性,按照效用最大或阻抗最小原則進行路徑選擇。然而,無論是在交通網絡中還是在其他領域,許多實際現象和實驗數據都與這種完全理性的假設不符[1—3]并且無法用上述兩種理論解釋。
通過心理學實驗,Kahneman和Tversky發現人們對效用進行判斷時往往會設定一個十分重要的基準,即“參照點”,然后依據實際效用與參照點的相對位置進行決策,參照點的選取對決策結果會產生至關重要的影響,根據這一思想,先后提出了前景理論(Prospect Theory)[4]與累積前景理論(Cumulative Prospect Theory)[5],這兩大理論被不少學者應用于出行行為研究中。Erel Avineri[3]采用基于固定參照點的累積前景理論建立了一個具有反饋學習機制的出行選擇模型,研究了出行時間可靠性與出行者時間敏感度之間的關系;Jou Rong Chang[6]通過對參照點及風險態度等相關參數進行基于實證數據的估計,建立了基于累積前景理論的高速公路司機駕駛選擇模型,研究發現累積前景理論較好地反映了實際當中的駕駛選擇行為;Xu Hongli[7]將出行時間預算設置為參照點,基于累積前景理論建立了一個路徑選擇模型,進一步,在時間預算的基礎上,通過設置不同出行者的理想準點到達概率從而構造了不同類別的參照點[8];Paolo Delle Site[9]建立了一個基于“參照點依賴”的隨機用戶均衡模型,以路徑流量和時間作為參照點變化依據,研究了出行者的實際選擇與其參照路徑的偏差現象;王偉[10]在基于累積前景理論的隨機網絡均衡模型中將期望-超額出行時間作為內生參照點,模擬了出行者同時參考出行時間的可靠性和不可靠性時路網的分流情況;Giselle de Moraes Ramos[11]在利用前景理論研究出行行為時設計了出行者同質及異質條件下的參照點及其依據出行經驗對參照點的更新機制;張波[12]以早高峰工作出行為研究對象,分析和設計了出行者同時選擇出行路徑和出發時間時的參照點設定規則。
通過上述文獻可知,不同的參照點選取規則,會產生不同的交通網絡分流結果。從不同文獻中對于參照點的定義和描述來看,參照點的形成是一個復雜的心理過程,不同的決策者面對相同的決策環境可能會產生不同的參照點,而相同的決策者面對重復的決策環境也可能會產生不同的參照點。
一般認為,參照點具有“內生性”,來源于決策者的個性、歷史經驗、習慣等因素,但從實際當中人們的決策行為來看,這種“內生性”又不可避免地受到外部決策環境及各種信息傳播的影響,常見的例子如人們對某個決策的風險態度經常會隨著一些外部事件的發生而變化。目前,對參照點形成外部影響機制的研究并不多見。此外,在實際的出行決策中,受到出行信息、個人稟賦、決策環境等影響,出行者個體之間勢必存在著理性程度的差異[13],雖然許多既有的研究已對出行者群體做出有限理性假設,但這種有限理性假設大多是以“同質”性為前提,較少涉及個體理性程度的差異問題。
就出行信息的影響而言,在實際的出行決策中,出行信息(如預計時間、路徑狀況等)在出行者群體中的交互、傳播和學習[14]是影響出行者個體路徑選擇行為的重要因素,體現了出行者個體的自適應調整機制[15],依據復雜性科學的思想,這種具有交互性的自適應調整機制是交通系統內部產生正反饋的重要因素[16],而系統內部正反饋的產生勢必會打破既有解析范式下的路網分流均衡。目前的研究大多將出行者的行為模式解析化,將整體行為簡化為個體行為之和,認為局部個體間的異質特點可以相互抵消,忽略了局部反饋對整體均衡的擾動作用。
交通系統路徑選擇均衡的形成,應當是一個多主體參與的、具有局部信息交互作用及出行者自適應調整機制的動態演化過程。
針對上述問題,本文從實際決策中出行者的個體行為出發,在兩個方面對既有的基于有限理性的路徑選擇模型做出了改進工作:1)利用元胞自動機對既有研究中解析范式下的選擇模型進行離散化,將每一個元胞抽象為一個出行者,通過出行風險態度及出行預算時間這兩個屬性刻畫不同類型出行者的異質特點,從而形成多主體決策模型;2)借鑒元胞遺傳算法中種群進化的思想建立出行者的信息交互機制及參照點的動態演化規則,本文提出的模型及算法可以為交通規劃、人性化管理、動態誘導等交通管理方案的實施提供一定參考。
1基本假設
1.1路網假設


根據流量守恒原理,存在如下等價關系:
(1)
(2)
(3)
(4)
1.2出行者假設
與既有研究不同,本文不再將出行者視為一個具有同質特點的群體,而是依據多主體思想及自底向上的建模思想,將出行者還原為一個個具有自適應調整能力的個體來研究其路徑選擇行為,故本文對出行者做出如下假設:
1) 不同的出行者為出行活動預留的時間不同,該指標的變化取決于出行者的風險態度及出行信息交互情況。
2) 出行者個體依據風險態度分為兩種類型:風險追求型與風險厭惡型,風險追求型的出行者對未來的路況較為樂觀,傾向于在未來的出行活動中預留更少的出行時間;而風險厭惡型的出行者則比較保守,傾向于在未來的出行活動中預留更多的出行時間。
3) 出行者個體具有出行信息的學習能力,并且其對路徑特點的判斷會受到周圍信息的影響。每次出行活動完成后,不同出行者個體之間會進行信息交互,從而更新自身的出行偏好,如出行活動預留的時間、路徑選擇概率。
2模型建立
2.1多主體路徑選擇元胞自動機模型
作為探索復雜系統的有力工具,元胞自動機已被證明能夠較好地模擬交通系統中的路徑選擇[14]、交通運輸服務選擇[17]等行為,因此,依據上文假設,鑒于出行者的異質及信息交互特點,本文采用元胞自動機來建立出行選擇決策模型。
1) 元胞空間:n×n的網格,顯然,dw=n2。
2) 鄰居形式:Moore型鄰居,即每個出行者擁有8個鄰居,如圖1所示:
3) 元胞狀態:用一個四元組表示
(5)

4)演化規則:每完成一次OD對間的出行活動后,出行者都會依據風險態度及信息交互機制更新自身的出行預留時間,本文引入元胞遺傳算法的思想來模擬這一過程,具體步驟見2.3節。
2.2基于累積前景理論的多主體路徑選擇過程
2.2.1參照點
在前景理論的假設中,人們往往依據效用的相對數值而非絕對數值來衡量一項決策的優劣,因此,“參照點”的設置尤為重要,一般而言,出行者為了避免遲到,均會在出發前對路上所消耗的時間做一個預計,基于此,Lo H K[18]提出了出行時間預算的概念,進一步,Xu Hongli[7—8]及王偉[10]將這一概念應用于出行時間參照點的確定。本文繼續借鑒這一方法,構建多主體的出行時間參照點。
(6)
(7)
(8)

2.2.2路徑選擇決策

累積前景理論的基本觀點之一就是在不確定的條件下,人們習慣將決策結果相對于參照點的相對值作為衡量決策效用的標準,依據這個相對值將每種可能的決策結果評判為“收益”或“損失”,具體可用價值函數表示為
(9)
其中,0<α,β<1,α與β反映了出行者的風險偏好水平,其值越大表示出行者對風險越敏感,反之對風險越不敏感;λ表示損失規避系數,其值越大,表示出行者對損失的規避程度越高。
決策權重函數表示為
(10)
則累積決策權重表示為
(11)
(12)
如t時刻路網達到均衡狀態,則出行者個體(i,j)選擇OD對間路徑p的理想概率為
(13)
2.3基于元胞遺傳算法思想的多主體出行信息交互過程
2.3.1基于元胞遺傳算法的多主體建模思想
元胞遺傳算法是元胞自動機與遺傳算法的有機結合[20],其原理在于通過元胞空間內個體元胞之間的信息交互,使種群內的優秀信息得到傳播和保存,本文則將元胞遺傳算法的思想和演化規則引入多主體路徑選擇模型中的信息交互過程。
由前文的出行者假設可知,每完成一次出行活動后,不同出行者之間都會通過信息交互來更新下一次出行的預算時間(參照點),這種個體出行預算時間的更新方式可借助元胞遺傳算法的演化規則表示如下。
2.3.2參照點演化規則
對于t時刻的出行活動,個體(i,j)的參照點按照如下步驟演化。
步驟2:選擇。個體(i,j)與“鄰居”進行信息交流,選擇周圍“鄰居”中OD對間平均出行時間預算最長與最短的個體:
(14)
(15)
步驟3:交叉。個體(i,j)依據自身的風險態度類型更新其時間預算系數ρt(i,j),
如果個體(i,j)為風險追求型,即l(i,j)=1,則時間預算系數更新如:
ρt+1(i,j)=(1-pc)·ρt(i,j)+pc·ρt(imin,jmin)
(16)
如果個體(i,j)為風險厭惡型,即l(i,j)=0,則時間預算系數更新如下:
ρt+1(i,j)=(1-pc)·ρt(i,j)+pc·ρt(imax,jmax)
(17)
其中,參數pc表示出行者以何種程度吸收周圍的出行信息,該參數決定了出行者參照點的位置變化。
通過上述步驟,出行者完成參照點的更新。可見,在一定的信息傳播范圍內(鄰居),風險追求型的出行者越來越傾向于預留較少的出行時間;而風險厭惡型的出行者越來越傾向于預留較多的出行時間。元胞遺傳算法規則的引入,恰當地刻畫了這一過程。
2.4路網均衡模型
依據隨機用戶均衡原理,多主體路網平衡狀態滿足條件:
(18)
3模型求解演化算法
本文將MSA(Method of Successive Average)算法與多主體參照點演化規則進行有機結合,形成多主體有限理性(Bounded Rational Multi-Agent)路徑選擇演化算法(BRMA-MSA),具體步驟為
步驟1:路徑搜索。將OD對之間的所有簡單無環路徑作為有效路徑集Rw。

步驟4:依據2.3.2節的參照點演化規則更新出行者的風險態度系數ρt(i,j)。

(19)

步驟6:令t=t+1,返回步驟3。
4算例分析
4.1算例網絡
以目前文獻中廣泛采用的如圖3所示的路網為例,對本文提出的模型進行模擬。對于路徑行程時間,則采用BPR函數:
(20)

4.2參數取值
此外,依據Kahneman,Tversky及Prelec所給出的參數取值[19],本文取α=β=0.88,λ=2.25,γ=0.74;其余參數設置為:θ=1,dw=n2=2 500。
4.3路徑選擇演化結果
令pr=0.5,pc=0.5,對本文模型進行仿真,演化50步后,出行者群體的路徑選擇趨于穩定,將演化過程中的路徑屬性統計如表2:
由表2可見,路徑3與路徑5的流量相對較大,這是由于路徑3與路徑5的行程時間及其方差均相對較小,繼而路徑前景相對較大;雖然路徑6也具有較小的行程時間方差,但由于其行程時間最大,路徑前景最小,故其流量最小。演化結果說明,本文提出的模型較好地繼承了基于累積前景理論的路網分流模型的特點,體現了出行者群體的有限理性。
4.4出行者類型及信息接收程度變化仿真
4.4.1路徑前景
調整出行者中不同風險態度人群的比例pr及出行者的信息接受程度pc,演化至穩定狀態,圖4給出了演化過程中元胞空間內不同路徑的前景值隨pr及pc的變化情況:
觀察圖4不難發現:1)在出行者群體不同的風險態度比例條件下,路徑前景均呈現了隨出行者信息接受程度pc的變化趨勢,表明路徑分流具有顯著的參照點依賴效應。2)當出行者中風險追求者的比例較小時(pr=0,pr=0.3),各條路徑的前景效用值隨出行者信息接收程度的增加呈現增長趨勢,且pr越小,增長幅度越大;而當出行者中風險追求者的比例較大時(pr=0.6,pr=0.9),各條路徑的前景效用值隨出行者信息接收程度的增加呈現降低趨勢,且pr越大,降低幅度越大。這是由于,當風險追求者的比例較小時,出行者總體更加傾向于預留較長的出行時間,其出行前景表現為“收益”的概率較大,在此基礎上,出行者的信息接收程度越大,則意味著出行者“風險規避”的信念越強烈,使其不斷預留更長的出行時間,則不同路徑前景值的增長幅度就越大;當風險追求者的比例較大時,出行者總體更加傾向于預留較短的出行時間,其出行前景表現為“損失”的概率較大,在此基礎上,出行者的信息接收程度越大,則意味著出行者“風險追求”的信念越強烈,使其不斷預留更短的出行時間,則不同路徑前景值的降低幅度就越大。
進一步,表3給出了不同路徑之間前景值的差異隨出行者信息接收程度的變化情況,由累積前景理論可知,路徑之間前景效用的差異是決定出行者群體在路網中分流的重要因素,結合表3可以發現,在出行者信息接收程度的變化過程中,風險追求者比例pr越小,不同路徑前景之間的差異變化越大,即此時出行者信息接收程度(交互作用)的大小會較大程度影響其對不同路徑優劣的判斷,而當pr增大時,不同路徑前景之間的差異變化減弱,即此時出行者信息接收程度(交互作用)的大小對不同路徑優劣的判斷影響較小。這種不同路徑之間前景值差異的變化,體現了多主體在不同風險態度及信息接收程度影響下的有限理性特點。
4.4.2路徑分流
調整出行者中不同風險態度人群的比例pr及出行者的信息接收程度pc,演化至穩定狀態,圖5給出了演化過程中不同路徑的流量隨pr及pc的變化情況。
通過圖5可見,在演化中調節出行者群體中不同風險態度人數的比例pr,形成了不同的路網分流結構,當pr由小變大(即風險追求者由少變多)時,路徑1,5的流量增加,路徑2,3,4,6的流量減小,由4.4.1節可知,這是由于當出行者具有不同的風險態度時,不同路徑的前景效用值發生了變化。此外,當pr較小(即風險厭惡者較多)時,出行者的信息接收程度(交互作用)對路徑流量的影響較大;當pr較大(即風險追求者較多)時,出行者的信息接收程度(交互作用)對路徑流量的影響較小;由表3可知,這是由于在不同信息接收程度下,對于出行者而言,不同路徑之間前景效用的差異發生了變化。
結合4.4.1節與本節的仿真結果可知,路網分流結構的差異是多主體有限理性條件下出行者信息接收程度與群體風險態度共同作用的結果。
5實際采集數據分析
為進一步說明本文所建立模型的實際意義,特選取北京市海淀區交大東路與高粱橋斜街作為交通流量實際采集對象,記錄駛向西直門方向的車流量。選取原因在于:兩條路徑的交匯點即位于西直門商業樞紐與換乘樞紐,是大量車流流向的目的地,兩條路徑的流量分配情況能更好體現出行者群體的路徑選擇行為。
表4給出了北京市海淀區“交大東路”與“高粱橋斜街”的交通流量數據采集結果,不難發現:
1)兩條路徑在高峰期與非高峰期的車流量具有明顯差異,這是由于,出行者群體在高峰期與非高峰期往往具有不同的出行時間參照點(風險態度),高峰期的出行者往往風險厭惡者占多數(預留較多出行時間),非高峰期的出行者往往風險追求者占多數(預留較少出行時間),可見,上述采集結果較好地體現了出行者群體風險態度對路徑流量的影響。
2)高峰期選擇兩條路徑的出行者人數比例差異大于非高峰期(在高峰期,駛向西直門方向且選擇“交大東路”的出行者是選擇“高粱橋斜街”的1.6倍,而非高峰期則是1.2倍)。這說明,高峰期(風險厭惡者占據多數)出行者群體的路徑選擇行為對路徑流量的影響更大,而在本文的模型中,出行者群體路徑選擇行為通過多主體間的信息交互作用實現,因此,這一現象較好地印證了第4節中“當pr較小(即風險厭惡者較多)時,出行者的信息接收程度(交互作用)對路徑流量的影響較大;當pr較大(即風險追求者較多)時,出行者的信息接收程度(交互作用)對路徑流量的影響較小”這一仿真結果。
6小結
本文在前人工作的基礎上,對路徑選擇模型中的出行者假設做出了進一步改進,基于自底向上的復雜系統多主體建模思想,刻畫了出行者的風險態度差異及信息傳播機制,設計了具有演化機制的動態參照點,從而使新模型進一步接近現實中人們的出行決策行為。通過路網分流算例仿真及相應的實證數據采集分析,發現出行者的異質特點(風險態度、信息接收程度)是影響其對出行前景效用感知及路網分流結果的重要因素,此外,本文提出的模型較好地解釋了實際交通流分配中的流量變化現象。
本文只考慮了固定需求下的多主體路徑選擇情景,并且僅考慮了風險態度及信息接收程度的影響,因此,未來的研究包括:1)彈性需求下的多主體路徑選擇問題;2)將更多的多主體自適應屬性引入路徑選擇模型。
參考文獻:
[1]Simon H A.Behavioral model of rational choice[J].Quarterly Journal of Economics,1955,69:99-120.
[2]Ellsberg D.Risk,Ambiguity and the savage axioms[J].Quarterly Journal of Economics,1961,75(4):643-669.
[3]Avineri E,Prashker J N.Sensitivity to travel time variability:travelers learning perspective [J].Transportation Research Part C,2005,13(2):157-183.
[4]Kahneman D,Tversky A.Prospect theory:an analysis of decision under risk[J].Econometrica,1979,47(2):263-291.
[5]Tversky A,Kahneman D.Advances in prospect theory:Cumulative representation of uncertainty[J].Risk Uncertainty,1992,5(4):297-323.
[6]Jou R C,Chen K H.An application of cumulative prospect theory to freeway drivers'route choice behaviours [J].Transportation Research Part A,2013,49(3):123-131.
[7]Xu H L,Zhou J, Xu W.A decision-making rule for modeling travelers'route choice behavior based on cumulative prospect theory [J].Transportation Research Part C,2011,19(2):218-228.
[8]Xu H L,Zhou J,Xu W.A prospect-based user equilibrium model with endogenous reference points and its application in congestion pricing [J].Transportation Research Part B,2011,45(2): 3111-328.
[9]Paolo De S,Francesco F.Stochastic user equilibrium with reference-dependent route choice and endogenous reference points [J].Procedia-Social and Behavioral Sciences,2012,54(10):547-556.
[10]王偉,孫會君.基于內生參考點的交通網絡均衡模型[J].應用數學和力學,2013,34(2):190-198.
Wang Wei,Sun Huijun.Traffic network equilibrium model based on endogenous reference point [J].Applied Mathematics and Mechanics,2013,34(2):190-198.
[11]Giselle de M R,Winnie D,Serge H.Modelling travellers'heterogeneous route choice behaviour as prospect maximizers [J].The Journal of Choice Modelling,2013,6(3):17-33.
[12]張波,雋志才,林徐勛.基于累積前景理論的出發時間選擇SDUO模型[J].管理工程學報,2013,27(1):68-76.
Zhang Bo,Juan Zhicai,Lin Xuxun.Stochastic dynamic user optimum model with departure time choice based on cumulative prospect theory [J].Journal of Industrial Engineering/Engineering Management,2013,27(1):68-76.
[13]Caspar G C,Harry J P. Measuring user benefits of changes in the transport system when traveler awareness is limited [J].Transportation Research Part A,2009,43(6):536-547.
[14]Ann van A,Erik R L.Self-organising behaviour in the presence of negative externalities:a conceptual model of commuter choice [J].European Journal of Operational Research,2004,157:501-513.
[15]度巍,黃崇超,肖海燕,等.信息系統下彈性需求隨機用戶均衡演化模型[J].交通運輸系統工程與信息,2013,13(6):120-126.
Du Wei,Huang Chongchao,Xiao Haiyan,et al.Stochastic user equilibrium evolutionary model with elastic demand and advanced traveler information systems [J].Journal of Transportation Systems Engineering and Information Technology,2013,13(6):120-126.
[16]John H M, Scott E P. Complex Adaptive Systems: an Introduction to Computational Models of Social Life [M]. Princeton, New Jersey: Princeton University Press, 2007.
[17]寇勇剛,吳桐水,朱金福.航空服務創新的元胞自動機競爭演化模擬[J].系統工程理論與實踐,2011, 31(6):1071-1076.
Kou Yonggang,Wu Tongshui,Zhu Jinfu.Simulating of evolution for the aviation service innovation competition with cellular automata [J].Systems Engineering Theory & Practice,2011, 31(6):1071-1076.
[18]Lo H K,Luo X W,Siu B W Y.Degradable transport network:travel time budget of travelers with heterogeneous risk aversion [J].Transportation Research Part B,2006,40(9):792-806.
[19]張波.基于前景理論的動態路徑選擇行為研究[D].上海:上海交通大學安泰經濟與管理學院,2012.
Zhang Bo.Research on dynamic route choice behavior based on prospect theory [D].Shanghai:Antai College of Economics & Management Shanghai Jiao Tong University,2012.
[20]Asmaa A N,Ahmet T E, Tughrul A.Dynamic fault-tolerant three-dimensional cellular genetic algorithms[J]. J. Parallel Distrib.Comput,2013,(73):122-136.
(責任編輯耿金花)
Dynamic Reference Points based Bounded Rational Multi-Agent Model of Route Choice
LI Xueyan, LI Xuemei, LI Xuewei, ZHAO yun, QIU Heting
(School of Economics and Management, Beijing Jiaotong University, Beijing 100044, China)
Abstract:For the research of the impacts of travellers’ adaptive behavior on traffic flow assignment under bounded rationality, the multi-agent model of route choice with interaction among travellers is established using cumulative prospect theory and cellular automaton, in which travellers are grouped into two types: risk lovers and risk averse. Travellers’ heterogeneous dynamic reference points and evolution rules are designed based on travel time reliability and the idea of cellular genetic algorithm, so travellers can dynamically adjust their budget of travel time according to environment. The new model is more in tune with travellers’ actual behavior. Then by combining multi-passengers’ evolution rule with method of successive average, the new traffic flow assignment is solved. The study found that (1) the new model inherited the characteristics of the traditional traffic flow assignment model; (2) proportions of travellers with different risk attitude and travellers’ information receiving degree are critical factors which affecting traffic flow assignment.
Key words:bounded rationality; multi-agent; risk; cellular genetic algorithm; dynamic reference points; traffic flow assignment;
文章編號:1672—3813(2016)02—0027—09;
DOI:10.13306/j.1672-3813.2016.02.004
收稿日期:2014-05-23;修回日期:2014-12-10
基金項目:國家自然科學基金(71273023);高等學校博士學科點專項科研基金:(20130009110020);中央高校基本科研業務費專項資金(2013YJS039;2014YJS059)
作者簡介:李雪巖(1987-),男,內蒙古呼和浩特人,博士研究生,主要研究方向為管理科學及復雜系統決策理論。
中圖分類號:N945
文獻標識碼:A