高晶鑫 ,雋志才,倪安寧
(1.上海交通大學 安泰經濟與管理學院,上海 200052;2.上海交通大學 船舶與海洋工程學院,上海 200240)
出行目的地選擇研究是基于活動的出行行為預測模型研究中的重要組成部分,也是從非集計層面進行交通需求分析的研究重點。20世紀70年代以來,國內外關于非集計行為模型的理論研究取得了很大的進展,逐步邁向實用化階段。目前,國內外非集計模型在交通領域的研究和應用主要還集中于方式劃分、停車行為、路徑選擇、旅游交通、目的地選擇集合確定、數據調查和參數標定等內容。而關于城市居民出行目的地選擇模型的研究還相對較少,在目前大部分交通規劃項目中,集計層面的出行分布模型仍然占主導地位,目的地非集計選擇模型應用沒有得到有效推廣。然而,由于非集計行為模型自身的特點和優勢,隨著對目的地選擇模型研究的深入,它作為集計分布模型的代替或補充,將會越來越多地被應用到工程實踐中去。本文即是從非集計層面,應用貝葉斯網絡學習方法,對目的地選擇模型進行實證研究,為目的地選擇模型的推廣和應用進行積極的探索。
離散選擇模型最初由MacFadden在1974年提出,并對Logit模型進行了詳細的描述與分析,形成了離散選擇模型的理論體系[1]。而離散選擇模型是以隨機效用理論為前提展開分析的,隨機效用理論作為非集計行為模型的理論基石,它是以概率論為基礎,用來解決多方案選擇問題。隨機效用理論來源于古典微觀經濟消費理論,在經濟學中,效用的定義有多種。簡單的說,效用是指消費者從消費選擇中獲得的愉快,或者需求得到的滿足。在交通問題中如果將出行者的選擇行為視為和消費行為具有相類似的原理,那么就可以將效用理論適用于交通問題中的選擇行為。離散選擇模型基于如下假設:
(1)決策者n將在J個選項中進行選擇,無論他選擇哪一個選項都可以獲得一定水平的效用。決策者,從選項j中獲得的效用稱為Ujn其中,j=1,2,…,J。此效用為決策者自己感知的效用。
(2)由于決策者進行的是效用最大化的選擇,故行為模型為決策者n選擇選項i,當且僅當Uin>Ujn,?j≠i效用最大。
時空棱鏡是Haigerster[2]提出的時間地理理論中的重要概念之一,它著重研究在時間和空間限制下人行為的可能性。時空棱鏡可通過可視化和數量確定在一定時間限制下哪些空間位置的活動場所是可達的。GIS能夠表示實際復雜的城市環境,如城市交通網絡結構和城市活動場所位置的空間分布及其屬性特征,這為操作時空棱鏡和活動目的地的選擇研究提供了便利。
貝葉斯網絡學習是指通過分析數據而獲得貝葉斯網的過程,它包括參數學習和結構學習兩方面。參數學習是指已知網絡結構,確定網絡參數;結構學習則是既要確定網絡結構,又要確定網絡參數。
結構學習一般分兩步討論,即模型選擇和模型優化。模型選擇要回答的問題是用何種準則來評判不同模型結構之間的優劣,而模型優化則是要尋找最優的模型結構。確定貝葉斯網絡結構的方法是[3]:①選定一組刻畫問題的隨機變量{X1,X2,…,Xn},隨機變量即為貝葉斯網絡中的節點;②選擇一個變量順序a=〈X1,X2,…,Xn〉;③從 一個空圖G出發,按照順序a逐個將變量加入圖G中;④在加入變量Xi時,G中的變 量中包 括X1,X2,…,Xi-1。結構學習常用的方法有K2算法、爬山法和SEM算法等。由于K2算法在結構學習過程中對數據依賴性較低,能夠很好地對實際數據進行分析擬合,本文采用K2算法。
用K2算法的貝葉斯網絡結構學習是由Cooper等提出的,并證明了在無約束多項分布、參數獨立、采用Dirichlet先驗分布和數據完整的前提下,參數向量可以獨立地更新,數據的邊界似然正好等于每一個i-j節點對的邊界似然的乘積。用K2算法學習網絡結構的基本思想是:先定義一種評價網絡結構模型優劣的測度函數,再從一個空網絡開始,根據事先確定的節點次序,選擇使后驗結構概率最大的節點作為該節點的父節點,依次遍歷完所有的節點,逐步為每一個變量添加最佳父節點。
貝葉斯網絡的參數學習實質上是在已知網絡結構的條件下,來學習每個節點的概率分布表。早期貝葉斯網的概率分布表是由專家知識指定的,然而這種僅憑專家經驗指定的方法與觀測數據產生較大的偏差。當前比較流行的方法是從數據中學習這些參數的概率分布,這種數據驅動的學習方法具有很強的適應性。
貝葉斯網絡構建是通過研究居民活動出行決策行為的一般規律,建立活動出行決策行為分析的貝葉斯置信網,分析活動出行諸多影響因素之間的相互關系,并分析各影響因素對活動出行決策影響強度和次序,貝葉斯網絡構建的方法主要包括:
(1)利用已經獲取的居民出行RP與SP調查數據及路網仿真數據,應用基于活動的出行行為分析理論,分析居民的日活動安排、出行時間、方式和路徑選擇的一般規律,生成備選分析因素集,包括活動出行決策行為集和影響因素集2個集合。
(2)應用貝葉斯決策理論,初始化貝葉斯網絡,建立節點集;分析活動出行決策之間的相互作用關系及各影響因素與決策行為之間的因果關系,應用啟發式搜尋方法和搜索評分方法,形成有向連接集,并不斷優化網絡結構,構造有向連接圖。
(3)為各條有向連接添加表示節點間概率依賴關系的條件概率分布,形成條件概率集。
(4)基于搜索評分方法,逐步優化生成貝葉斯置信網。
本文即是應用K2算法進行貝葉斯網絡學習對城市居民出行目的地選擇行為進行分析和預測。
結合貝葉斯網絡學習理論方法,本文提出一種貝葉斯網絡學習與仿真方法組合的目的地選擇預測仿真流程。出行者目的地選擇行為的預測仿真流程中,由于其目的地有多種選擇枝,選擇模型的建立較為困難。因此,本文將目的地選擇流程分為3個階段。具體的流程框架如圖1所示。
依據時空棱鏡約束理論,分析出行者在給定時間窗約束下的空間約束情況,將備選小區集合進行分層處理。以出行小區為對象,統計該小區為出行起點的數據,按到目的地的各備選小區出行數從高至低的順序排列,累計出行頻數,達到閾值為出行總數85%的所有小區入選第1層選擇集合,其余小區作為第2層備選小區選擇集合。

圖1 基于貝葉斯網絡目的地選擇流程設計圖
對于第1層備選小區集合,建立貝葉斯網絡模型,分析影響目的地選擇因素,根據貝葉斯參數學習所得的條件概率表確定選擇枝概率。對于第2層備選小區集合,由于各個備選小區的被選頻數較少,故采用經驗分布擬合方法,確定各選擇枝選擇概率。
將數據處理階段整理的備選集合分層數據讀至仿真系統作為仿真輸入部分。根據貝葉斯網絡模型和經驗概率分布模型,仿真出行者目的地選擇。根據對數概率公式求得各個選擇枝的選擇概率,并得出集計層面目的地選擇命中率。分析模型標定命中率與仿真命中率,若差異不顯著,則可以按照模型標定階段所表述的方法,大規模處理剩余小區的個人出行目的地選擇;若差異較大,需要重新構建效用模型進行調整。
目的地選擇模型的建立就是為了能夠對出行者的目的地選擇情況進行分析預測,只有具有較高的命中率,該模型才具有實際應用的意義和價值。
命中率的計算可以從個人選擇層面和小區總體選擇層面分別予以分析計算。個人選擇層面命中率的定義如下:
首先,將標定出的參數和對應的變量代入概率公式,求的每個選擇枝的概率Pm。令

式中:HitR和HitRi分別表示全體命中率和選擇枝i的命中率;Jn為個人n的選擇枝數目;Ni為選擇枝i的總體樣本數目。當命中率達到80%時,既可以認為模型預測效果取得了比較好的結果[11-12]。
以2008年吉林市居民出行調查中的出行者非通勤活動為數據源,從劃分的90個交通小區中選取非通勤活動出行次數最多的第57小區(交通小區編號為57)建立模型,該小區實際非通勤活動出行的目的地小區選擇范圍以及出行次數等相關信息,如表1所示。

表1 第57小區實際非通勤出行活動目的地小區選擇信息表 %
由表1數據可得,出行次數在15次以上的8個目的地小區所有出行次數之和占57小區所有非通勤活動出行總量的88.01%,而其他56個目的地小區的所有出行僅占出行總量的11.99%,并且有近30個目的地小區出行量僅為1次。因此,本文選取表1中的8個目的地小區作為57小區的目的地選擇集合,應用貝葉斯網絡學習預測該目的地選擇集合所包含的1 064次非通勤活動出行。
貝葉斯網絡學習算法要求數據節點都取離散值,首先要對居民出行數據進行離散化預處理。將數值屬性的值域劃分為不相交的若干子區間,每個子區間對應一個離散值,最后將原始數據轉換為離散值。數值離散化算法要求能夠自動確定從連續型屬性到離散型屬性的對應關系[9]。
居民出行數據節點離散條件如表2所示。
根據K2算法,結合離散化初始數據,建立目的地選擇影響因素貝葉斯網絡如圖2所示。
出行者目的地選擇要受到出行者的個人屬性、目的地小區屬性以及出行特征的影響[7-8],本模型中所選取的變量如表3所示。
提取出行數據中的相關變量,應用Stata 10.0統計分析軟件對變量進行處理,進行回歸分析[9]。回歸以第1個選擇枝作為效用基礎項進行模型標定。模型標定的結果如表4所示。
由表4模型標定結果可見,所有的變量回歸的T值的絕對值都在1.96以上,達到了95%的置信度,而且模型的優度比系數為0.524 5,該系數達到0.2以上即可認為模型具有較高的精度[10]。分析模型變量以及變量參數,可以得到如下結論:

表2 各屬性變量定義

圖2 目的地選擇影響因素貝葉斯網絡結構圖

表3 C-Logit模型變量定義表
(1)對照表3、4中的變量變化可知,并不是所有的影響因素對出行者目的地選擇決策具有顯著影響。尤其是目的地小區屬性,小區總體可達性、小區就業可達性、OD小區間距離以及小區土地面積等屬性均對出行者目的地選擇決策的影響均不顯著。主要原因是這些屬性均與小區就業人數具有較高的相關性,因此在模型標定過程中存在共線性問題而將變量刪除。

表4 模型參數標定結果
(2)出行者出行方式影響因素對目的地選擇具有顯著的影響,參照圖1目的地小區分布圖,由表4參數模型標定結果分析得,選擇步行作為出行方式的出行者更愿意選擇本小區出行或者臨近小區出行,而選擇小汽車等出行方式出行的出行者更愿意在較大范圍內選擇目的地小區。
(3)個人屬性也是影響出行者目的地選擇決策的顯著因素,年齡越小的出行者越愿意選擇較遠的小區出行,而男性出行者比女性出行者更愿意選擇較遠的小區作為目的地。
(4)出行者在做出目的地選擇時,面對不同的選擇枝會受到不同的影響因素的影響,而并不是對于所有的選擇枝都考慮相同的影響因素,并且同一個影響因素在不同的選擇枝下對出行者的決策影響也不一定是相同方向的,這主要由于出行者對同一個影響因素在不同的選擇枝下所產生的影響有不同理解。
根據式(3)中命中率的計算方法,當命中率達到80%時,既可以認為模型預測效果取得了比較好的結果[11-12]。求得本文所建立的目的地選擇模型的命中率如表5所示。

表5 個人選擇層面目的地選擇模型命中率 %
由表5可知,除基礎效用選擇枝的命中率接近80%以外,本文建立的目的地選擇模型各選擇枝及整體命中率都達到了80%以上,并具有相對較高的命中率。
(1)本文沒有應用傳統的集計分析方法,而是從非集計層面,結合2008年某城市居民出行調查中的出行者非通勤活動數據,建立基于條件固定效用的目的地選擇模型,并對模型變量進行解釋說明與參數標定。
(2)通過模型標定得出了影響出行者進行非通勤活動目的地選擇決策的重要因素,并通過命中率指標對模型的預測效果進行分析,驗證了本文建立的目的地選擇模型具有較高的預測精度,從而提高了該模型的實際應用價值。
(3)但本文研究仍存在許多不足之處,如對出行者出行方式的考慮不夠全面,沒有考慮各個目的地小區用地性質對出行者目的地選擇決策的影響,及對出行者的選擇是基于效用最大化的完全理性假設的可靠性分析仍需要進一步研究和探討。