申健 王建鋒
摘要:以西安市城市居民出行方式為研究對象,收集西安市部分區域城市居民出行的調查數據。利用獲得的調查數據,綜合運用相關性分析方法和K2算法進行貝葉斯網絡的結構學習;應用貝葉斯參數估計方法進行貝葉斯網絡的參數學習,建立了應用于西安城市居民出行方式分析的貝葉斯網絡。應用所建網絡分析了是否有私家車、居民性別、居民年齡和出行目的對西安城市居民出行方式的影響。研究結果表明,基于貝葉斯網絡建立的西安城市居民出行方式分析模型預測精度較高,具有較高的實用價值。
關鍵詞:交通需求管理;出行方式;貝葉斯網絡;城市居民
中圖分類號:TP391 文獻標識碼:A
1引言
隨著經濟的快速發展和城市規模的不斷擴大,城市居民的出行需求迅速增長,但由于交通設施不足,道路通行能力提高有限,再加之機動車保有量的迅速增加,使得城市居民出行困難。公共交通是目前城市居民出行的主要方式,由于城市居民出行需求的多樣性,公共交通不能完全滿足城市居民的出行需求。同時由于城市居民出行方式的多樣性,各種方式都有其自身的優勢,因此如何使各種出行方式相互協調、合理匹配、發揮其優勢,對解決城市居民出行困難、優化城市交通結構有重要的意義。
由于城市居民出行方式的復雜性,各變量之間存在大量的依賴和關聯關系,因此如何建立合理的模型對其相互關聯進行研究是該領域研究的熱點。對城市居民出行方式研究最初采用集計方法,該方法只能表現整體的出行方式選擇特性,不能表示單個出行者的出行方式,所以國內外學者開始進行非集計模型研究。McFadden在Luce和Marschak研究的基礎上,對非集計模型中的典型模型Logit模型進行系統研究,建立了非集計模型的理論體系。Daniel Mefadden將效用表示為出行者出行選擇因素的函數,建立了MNL模型。DanielMefadden對MNL模型不斷優化,提出了混合Logit模型,該模型對出行者選擇出行方式的偏好表示的更清楚。鮮于建川等選擇家庭屬性、出行者屬性,活動一出行屬性,構造了通勤出行方式選擇和出行鏈模式安排及其相互作用的貝葉斯模型,利用敏感性分析了在出行者及其家庭的社會經濟屬性、活動和出行屬性影響下的出行方式。唐潔等提取相關變量,利用STATA9軟件分析得出家庭收入、家庭擁有車輛情況、駕照、是否高峰時段、月票、性別及退休人數與居民出行有關。本文在借鑒相關參考文獻研究成果的基礎上,建立城市居民出行方式分析的貝葉斯網絡模型,以此模型研究西安城市居民的出行方式。
2貝葉斯網絡建模方法
2.1貝葉斯網路
貝葉斯網絡是基于概率推理的以貝葉斯公式為基礎的圖形化網絡,是為了解決不定性和不完整性問題而提出的,對于解決復雜變量問不確定性和關聯性問題有很大的優勢,在多個領域中獲得廣泛應用。貝葉斯網絡的構建通過貝葉斯學習實現,貝葉斯網絡學習就是尋找一個能最好匹配一個給定數據訓練集網絡的過程。這個網絡包含一個有向無環圖結構和與有向無環圖中每個節點相關的條件概率表,具體包括結構學習和參數學習兩個步驟。結構學習是確定各個節點問的鏈接關系,得到貝葉斯網絡結構;參數學習是確定貝葉斯網絡結構中的各個節點之問的概率分布。
2.2貝葉斯網絡結構學習方法
貝葉斯網絡的結構學習過程是結合包含專家知識在內的先驗信息,尋找與樣本數據集擬合最好的網絡結構。貝葉斯網絡的結構學習方法可以分成三大類:基于評分搜索的方法、基于依賴分析的方法和混合方法。基于評分搜索的方法將貝葉斯網絡看成是表示變量之間聯合概率分布的拓撲結構,學習的目的是得到評分最優的網絡結構,該方法一般首先選擇網絡結構的評分函數,然后通過搜索算法尋找評分最優的網絡結構。基于依賴分析的結構學習方法把貝葉斯網絡結構看作是編碼了變量之間條件獨立關系的結構,通過學習變量之間獨立性關系來確定網絡結構。混合方法一般先采用基于依賴分析的方法獲得節點序或縮減搜索空間,然后采用基于評分搜索的方法進行貝葉斯網絡的結構學習。
評分搜索法應用較多,在定義了評分函數的情況下,貝葉斯網絡的學習問題就變成了一個搜索問題,通過搜索算法尋找具有最佳評分的網絡結構。常用的搜索算法有K2算法,爬山法、模擬退火算法、演化算法以及抽樣算法。本文采用K2算法,該算法的基本思想是:從一個空網絡開始,根據事先確定的節點次序,選擇使后驗結構概率最大的節點作為該節點的父節點,依次遍歷完所有的節點,逐步為每一個變量添加最佳父節點。在結構學習中,結構學習方法、數據等因素使學習的結果具有較大的隨機性,需要經過多次實驗才可能得到滿意的結果。為了提高效率,貝葉斯網絡的結構學習不基于實際數據,而是根據專家意見或經驗確定網絡結構,這樣必然受主觀影響,同時模型不依賴數據,模型的可移植性差。因此,為了提高網絡結構的可移植性和效率,本文采用相關分析和K2算法相結合的方法。具體過程為:先進行各因素問的相關性分析,將各變量之問的相關性按大小排序,去掉與待分析變量相關性較弱的變量;再利用K2算法進行網絡結構學習,不斷調整變量順序,最終確定合理的網絡結構。
2.3貝葉斯網絡參數學習方法
貝葉斯網絡參數學習是學習變量相對于其父節點集的概率依賴程度,進而獲得局部的條件概率分布函數。貝葉斯網絡參數學習的基本步驟是先選擇網絡參數θ的先驗分布p(θ),再根據貝葉斯公式(式1)計算參數的后驗分布,做出對未知參數的推斷。
貝葉斯網絡參數學習需要綜合先驗信息和樣本信息,通常沒有先驗知識來確定先驗分布,針對該問題Raiffa等學者提出了選取Dirichlet分布的先驗分布方法。假定參數θ的先驗分布p(θ/G)為Dirichlet分布。
2.4模型有效性驗證
通過結構學習和參數學習建立了貝葉斯網絡模型,為了驗證模型的有效性,本文從模型結果與試驗數據對比和模型預測命中率兩方面驗證所建立網絡模型的有效性。模型預測命中率計算方法如下:
記第k條數據中發生第i種出行類型的預測概率為pik,dk=i;當pik是遍歷i時的最大值時,即δk=i,認為此次命中,否則未命中。記sk=
3西安城市居民出行方式分析的貝葉斯網絡建模
3.1建模數據
本研究的數據來源于陜西省科學基金資助課題“西安市城市居民出行方式選擇模糊推理研究”。在工作日和周末分別針對西安市不同的人群進行調查,地址選擇在城區及近郊內的停車廠、周邊小區、公共車站、大型娛樂場所、高校周邊。調查方式采用問卷調查和與出行者面對面詢問的方式。調查內容主要包括出行目的、年齡、性別、學歷、收入、心情、是否有私家車、支付方式、出行時間等,調查者并記錄當天天氣情況。共計1647個有效樣本。為了滿足建模要求,將屬性變量編碼為虛擬變量,將連續變量編碼為離散變量,結合相關標準和建模經驗,出行方式分析的各變量設置見表1。
3.2結構學習
本研究先利用相關分析法,找出各變量之間相關性較大者,然后運用基于K2算法的結構學習方法進行西安市城市居民出行方式分析的貝葉斯網絡結構學習。
3.2.1相關分析
將出行方式和出行時段作為決策變量,研究各調查變量與這兩個變量之間的關系。出行方式和出行時段與各變量之問的相關分析結果見表2。
根據相關性大小,篩選出出行目的、是否有私家車、出行天氣、收入、支付方式、年齡、學歷、出行心情、性別、出行時段、出行方式,共計11個變量進行結構學習。
3.2.2基于K2算法的結構學習
應用Matlab工具的Full-BNF工具箱采用K2算法,進行結構學習,經過多次的變量篩選和排序調整,最終獲得包括8個節點和若干聯系的貝葉斯網絡結構,具體結構如圖1所示。網絡結構圖中的8個節點代表8個變量,其中包括出行時段、出行方式2個需要分析的變量。節點之問的連線表示變量之間的相互影響關系。
圖1中1為支付方式,2為是否有私家車,3為天氣,4為年齡,5為出行目的,6為收入,7為出行時段,8為出行方式。
3.3參數學習和模型驗證
應用貝葉斯方法和Matlab的Full-BNT工具箱對建立的如圖1所示的貝葉斯網絡進行參數學習,在學習中將各節點的先驗分布取作Dirichlet分布。在各因素的影響下,西安城市居民出行方式和出行時段2個變量的參數學習結果如下:
3.3.1出行方式參數學習結果
從圖1所示的貝葉斯網絡結構圖可知,出行方式的父節點是出行時段,出行時段決定出行方式,即出行時段是出行方式的直接影響因素。出行方式為1(乘小汽車)、出行方式2(乘公交車)、出行方式3(乘自行車)和出行方式4(步行)的概率見表3。表3同時也給出了居民出行方式的參數學習結果和測試數據的對比情況。
分析表3中的數據可知,西安城市居民選擇公交車出行方式的最高,尤其是在早高峰和晚高峰時段選擇公交車出行的最高。在早高峰和晚高峰時段居民選擇自行車的出行的比例也較高。在中間時段,居民選擇小汽車出行、自行車出行和步行出行的比例相當。
3.3.2出行時段參數學習
從圖1所示的貝葉斯網絡結構圖中可知,出行時段的父節點是出行目的,居民的收入和出行當天的天氣。因此,西安城市居民出行目的、居民收入情況和出行當天天氣與出行時段的參數學習結果和與測試數據的對比見表4。
分析表4的數據可知,西安城市居民的剛性出行主要集中在早高峰和晚高峰時段。居民的彈性出行主要集中在中間時段和早高峰前和晚高峰后,而且晚高峰后的比例更大。收入情況對居民在早高峰和晚高峰時段的剛性出行的影響不明顯,但對彈性出行的影響較大。天氣情況對居民早高峰和晚高峰時段的出行影響不大,但對其他時段的出行影響較大。
3.3.3模型檢驗
以上建立了西安城市居民出行方式分析的貝葉斯網絡,并對模型的參數學習結果進行驗證和對比。以下對建立的模型進行檢驗,以證明本文所建立的模型的有效性。對西安城市居民出行時段和出行方式兩個參量的預測結果的誤差值和命中率見表5。
從表5可以看出,出行時段預測模型和出行方式預測模型的預測精度都較高,出行方式預測模型的預測精度比出行時段預測模型的預測精度稍高,出行時段預測模型預測精度稍低的原因會是出行時段早高峰和晚高峰時段的精確劃分較困難,同時中間時段和早高峰和晚高峰的界限也較難劃分。
4模型應用
利用所建立的貝葉斯網絡結構模型,計算西安城市居民是否有私家車、居民性別、居民年齡和出行目的對出行方式和出行時段的影響情況,具體計算結果見表6-表9。
從表6的計算結果可以看出有私家車和無私家車的居民選擇在早高峰和晚高峰出行的比例相當。有私家車的居民選擇在其他時段出行的比例大于無私家車的居民。
在出行方式方面有私家車的居民主要選擇自駕車出行,無私家車的居民主要選擇乘公交車出行;無私家車的居民選擇自行車和步行出行的比例相當;有私家車的居民選擇乘公交車出行的比例也較大。
從以上分析可知公交車出行還是西安城市居民出行的主要方式。
從表7的計算結果可以看出男性和女性居民選擇不同出行時段的比例相當,早高峰和晚高峰仍是西安城市居民的主要出行時段。
在出行方式選擇方面,男、女居民的比例也相當,區別是男性居民選擇小汽車和公交車出行的比例略大于女性居民;男性居民選擇自行車出行的比例小于女性居民,選擇步行的比例高于女性居民。
從表8的計算結果可以看出大于30歲和小于30歲的居民在早高峰和晚高峰出行的比例都較高,其他時段出行的比例相對較小;大于30歲的居民晚高峰出行比例高于早高峰,小于30歲的居民早高峰的出行比例高于晚高峰。
大于30歲的居民和小于30歲的居民選擇公交車出行的比例相當且比其他出行方式高,這說明公交車是西安城市居民出行的主要方式。大于30歲的居民選擇小汽車出行的比例高于小于30歲的居民。
可以得到,西安年輕居民主要選擇公交車和自行車出行,中年以上居民主要選擇公交車出行和步行。
從表9的計算結果可以看出居民剛性出行主要集中在早高峰和晚高峰,彈性出行主要集中在晚高峰和其他時段。西安城市居民剛性和彈性出行的方式主要是小汽車和公交車,但彈性出行選擇小汽車的比例高于剛性出行。
5結束語
本文應用貝葉斯方法,研究西安城市居民出行方式。建立了西安城市居民出行方式和出行時段的貝葉斯網絡模型。利用所建立的模型研究了是否有私家車、居民性別、居民年齡和出行目的對出行方式和出行時段選擇的影響。所建立的貝葉斯網絡模型對深入研究西安城市居民出行方式和出行時段的影響因素,對西安的交通規劃發展有一定指導意義。