張天然
(上海市城市規劃設計研究院,上海200040)
大數據背景下的交通模型發展思考
張天然
(上海市城市規劃設計研究院,上海200040)
將傳統交通調查和模型與新的信息技術相結合,根據大數據的特征改進交通模型的方法體系,是交通模型發展面臨的極大挑戰。分析交通大數據對交通模型研發的促進作用,特別是在人口及就業崗位分布、綜合交通網絡數據和基于交通調查的模型參數等核心數據方面的支撐作用。從相關定義、市場細分以及信息完整性三個方面闡述大數據與交通模型的一致性問題。深入討論應用大數據改進交通調查技術、4D模型研發、出行分布目的地選擇模型、軌道交通出行接駁模型、出行成本校核等交通模型關鍵技術。通過對比大數據和交通模型的決策分析過程,指出大數據與交通模型互動發展的途徑。
交通模型;交通調查;大數據;一致性;決策分析
交通大數據的應用在中國已經有20多年歷史。隨著信息化技術的不斷發展和完善,大數據在定量分析決策支持中的作用也越來越大。相對于傳統技術,大數據提供了一種全面、連續觀察研究對象的手段,為城市交通分析技術帶來變革的契機。交通模型是城市交通定量分析的重要工具,探究人、車、物的移動規律,在大量數據的基礎上標定模型參數,模擬城市交通特征,進而進行交通需求預測。大數據背景下,面對大量多元化數據,如何從現象探究交通行為的本質,在既有交通模型的理論框架下,根據大數據的特征改進交通模型的方法體系,是交通模型發展面臨的極大挑戰。本文提出當前大數據應用的若干問題,并探討交通模型在研發技術上的改進方向。
交通模型系統的要素包括基礎數據、數學模型、軟件工具三個主要組成部分。其中,數據是交通模型的基本原材料,沒有數據交通模型就無法建立,數據質量和完整度很大程度上決定了所建交通模型的可靠性和精度。
交通模型是反映人、車及貨物交通規律的數學模型,需要基于大量、全面的基礎數據,并通過嚴謹的模型理論和數理算法實現。在模型建立過程中,基礎數據采集、數據庫構建以及數據綜合校核分析是最重要的基礎工作。交通模型系統運算的核心輸入數據主要包括:土地利用及人口、就業崗位分布、綜合交通網絡數據、基于交通調查的模型參數等(見圖1)。這些核心數據作為交通模型的輸入條件,直接影響模型計算的輸出結果。大數據環境一方面提供更加豐富完善的數據種類,另一方面給各種數據的準確性驗證帶來新的維度。
“互聯網+交通大數據”時代給交通模型帶來豐富的原材料。隨著智能交通技術的發展,交通信息的采集手段和來源越來越豐富,為交通模型提供更加全面的原始數據。
過去,中國城市主要依靠10年一次的人口普查和5年一次的經濟普查獲取人口和就業崗位數據。現在,可以使用手機信令調查獲得持續且動態更新的人口和就業崗位數據。例如,城市24 h的人口分布情況以及就業人口居住地和工作地的空間聯系。這是單一的人口普查和經濟普查無法實現的。傳統的居民出行調查中雖然也可反映被調查者的職住空間關系,但樣本量非常有限。
綜合交通網絡數據包括道路網、軌道交通網、公共汽車線網、模型輔助網絡要素等。道路網的很多數據已經可以通過互聯網得到。一些商業地圖提供了完整、及時的道路網信息以及公共汽車線路和車站信息。道路網和公共汽車線網模型數據庫構建的工作量巨大且耗時長。隨著互聯網信息技術及交通模型數據庫構建技術的發展,信息來源的準確性及數據庫構建的速度得到極大提高。例如,可將網絡地圖的公共汽車線路和車站數據下載后,形成線路和車站圖層,并采用地圖算法將線路和車站與道路網鏈接起來,形成交通模型專用的公共汽車線網數據庫[1]。上海市上下行約2 500條公共汽車線路,5.7萬個車站,原來人工維護需要約150個人日,通過上述方法后僅需10個人日即可完成。
交通模型的參數是利用交通調查數據,應用專業的軟件進行標定。交通調查數據包括傳統的人工調查和信息化技術采集的大數據。大數據為觀察現實世界帶來更多便利。例如,公交IC卡數據可完整記錄軌道交通乘客的站間OD,并反映不同時段的客流情況;公交IC卡數據可通過一定算法推算出通勤者搭乘公共汽車的車站OD;應用車載GPS數據可以獲取出租汽車的路段車速、出行OD以及乘客的乘距等;高速公路收費OD實時記錄不同車種的出入情況并可推算道路網的擁堵程度;高架路(橋)和地面道路的線圈數據、交叉口數據等為交通模型校核提供有力保障。當然,如何將這些數據和傳統調查數據進行綜合校核和融合分析,是大數據應用于交通模型的前提。
大數據的主要特點是采集手段自動化、覆蓋面廣、規模巨大、具有較細的空間分辨率和時間分辨率等,為交通模型的精細化研究提供了足夠的條件。例如,使用居民出行調查數據來標定出行空間分布模型的參數,由于受到調查樣本量的限制,通常無法研究較小區域的客流吸引范圍分布。使用手機信令數據、車載GPS數據分析商圈、工業園區等區域的出行分布特征,一方面解決了樣本量不足問題,另一方面通常基站分區比交通分區精細很多,可從空間精度上滿足小區域的分析要求。再如,在分析軌道交通車站接駁距離時,單純依靠抽樣率較低的居民出行調查數據無法獲得每個車站較多的接駁樣本,根據手機信令數據對應的地鐵車站的專用基站信息,便可獲知每個車站足夠的樣本來分析乘客接駁軌道交通的信息。

圖1 上海市交通規劃模型基礎數據庫Fig.1 Database of transportation planning model in Shanghai
大數據提供了海量的地圖矯正點,可通過自動化手段對傳統調查進行融合校核分析。即使是規模巨大的大數據,其分析結果也不可能完整全面,但部分具備確定性的分析結果往往可以被作為參照,用于校核分析。這些零散而準確的結果,可以作為居民出行調查擴樣校核的依據。例如,很多大數據可以反映居民出行時間分布特征,包括公交IC卡數據、車載GPS數據和高速公路收費OD數據等。此外,不少大數據可以分析空間分布特征,例如手機信令數據可以分析核查線流量和大區間OD分布,車載GPS數據可以獲得出租汽車乘客OD等。
在出行目的方面,根據多個城市居民出行調查的經驗,非基于家的出行比例往往偏低。漏填漏報的主要原因包括隱私問題以及被訪問者不在家而由其他家庭成員代為回答。應用手機信令數據分析人的出行特征時,雖然無法得到出行的具體目的,但可以識別出行是否和家相關,并作為居民出行調查中非基于家出行比例的參考。居民出行調查數據作為建立交通模型最為核心的數據庫,在通過大數據擴樣校核后,可以較大程度地減少調查中存在的偏差,準確而完整地體現居民出行特征。
傳統交通模型主要基于傳統調查和統計理論與方法。大數據并不專門為交通模型而生,某些統計特征往往是一種副產品,應用于交通模型需要進行多道工序處理。一方面,需要通過原始的海量數據盡可能挖掘有用信息;另一方面,這些有用的信息要和交通模型銜接,才能真正支撐建模工作。大數據與交通模型的一致性問題主要體現在相關定義、市場細分以及信息完整性三個方面。
相關定義的不一致性由大數據本身的特點決定,大數據在挖掘過程中有時只能找到傳統定義的近似結果。例如,居民出行調查中一次出行的定義,關鍵指標是出行距離大于400 m(各個城市有所差異),使用公共道路完成一次有目的的活動,并未限定活動持續時間的長短。如果把接送人作為一種出行目的,有時候活動持續時間很短。對應地,手機信令分析一次出行,只能依靠個體的時空電子腳印,按照某個地點的停留時間來判斷是否產生一次出行。停留時間的長短設置并沒有一個標準值,顯然與居民出行調查的出行定義不一致。手機信令分析過程中,若停留時間設置太長,可能遺漏居民出行調查中的一些短時間活動;停留時間設置過短,則容易把一次出行誤判為多次出行,例如由于交通擁堵而導致個體在同一空間上的停留。
市場細分方面的不一致性與交通模型結構直接相關。傳統的人工問詢調查雖然樣本量小,但可以得到同一樣本較多的信息。交通模型構建過程中,一般會根據樣本情況盡可能細分市場,體現交通需求的不同特征。例如,上海市交通規劃模型結構中,家庭分為有、無小汽車,人員分為6個年齡組,出行目的分6個,交通方式分9種,幾個層面的交叉分類,產生較多的細分市場。大數據要直接應用到模型中,其市場細分很難做到與原有模型結構一致。例如,手機信令數據無法獲知個體年齡、收入等社會、經濟情況,出行目的至多可以區分通勤和非通勤出行,交通方式一般只可以分析出使用軌道交通的情況。公交IC卡能夠分析出通勤的車站OD,但對非通勤的車站OD則無能為力。車載GPS數據可以得到出租汽車乘客的OD信息和時段信息,但無法獲得乘客的年齡分組、家庭經濟情況及出行目的。
信息完整性方面既包括前文提到的大數據市場細分不足的情況,也包括大數據在出行過程中信息不完整的情況。例如軌道交通站間OD、高速公路及快速路出入口OD、利用公交IC卡推算的通勤出行站間OD,都僅僅是交通設施之間而不是交通模型中所需要的交通小區間OD。因此這些數據只能部分用于模型校核,而無法作為模型的直接輸入數據,數據的應用價值因此大打折扣。為充分利用這些數據,交通模型技術得到不斷革新。例如在公共交通模型方面,已有一些專業軟件可以通過站間OD估算小區間OD;而道路交通模型方面根據出入口的車輛OD估算小區間車輛OD的工具還有待開發。
這三類調查數據分別對應大數據、抽樣調查數據和小樣本調查數據,樣本量越小,數據的完整性和精確度越高。
居民出行調查數據是現有交通模型必備的數據,主要存在樣本量受經費限制而不足、調查中易產生漏填漏報等調查技術手段無法控制的問題,需要其他兩類數據的補充校核。手機信令調查對于職住的分析技術已經相對成熟,對通勤出行的判別相對準確,而對其他出行的判別需要根據不同的停留時間參數進行敏感性分析,與居民出行調查數據進行比對。手機GPS小樣本調查通過志愿者開通智能手機的GPS功能,先由系統大致判別志愿者的出行空間和活動次序,然后由志愿者上網校核并補充交通方式、出行目的等信息,形成完整的居民出行調查數據記錄。這種調查的優點是完整地記錄了人的出行活動空間,可以最大限度地避免漏填漏報。但由于調查成本較高,無法大規模展開,一般僅作為居民出行調查中有關漏填漏報校核調整的依據,特別是非基于家的出行。
三種調查方式的結果在相互驗證的基礎上,可以更加準確地反映城市居民的出行活動。
文獻[2]提出3D模型,分別代表開發密度(Density)、用地多樣性(Diversity)和城市設計(Design);文獻[3]增加目的地可達性(Destination Accessibility)和至公共交通的距離(Distance to Transit),也稱5D模型。由于至公共交通的距離可包含在目的地可達性范疇內,故一般稱為4D模型。
4D模型中,開發密度主要指容積率,用地多樣性表現出人口和就業崗位的混合程度,城市設計主要體現在路網形態,例如街區大小和交叉口間距。用地多樣性和路網密度直接影響人員活動熱度和步行交通方式選擇。上述3D因素可以通過傳統數據進行計算。目的地可達性指標具有不同的計算方式,包括基于一定時間內覆蓋的城市活動要素絕對值,或基于效用理論計算方法等。其核心要素是城市活動要素的度量,即一定時間可達范圍內的各種公共設施、人員活動集聚情況等要素的綜合度量,過去往往以人口和就業崗位的綜合計算來確定。在大數據環境下,各種興趣點(Point of Interest,POI)數據、百度人流熱力圖、大眾點評網數據、房價網數據等,為城市活動要素的度量增加新的數據源。因此,4D模型中引入大數據分析是可行的。
重力模型在出行分布中應用廣泛,除考慮時間、費用等綜合性出行成本外,由于城市內區域之間交通需求聯系的特殊性,還需要增加K因子來調整區域間的聯系程度。但K因子代表的意義很難解釋,無法說明居民出行目的地選擇的具體因素,與數學公式中的常數項類似。目的地選擇模型可以考慮更多的居民出行目的地選擇因素,在國外模型中已得到廣泛應用。當重力模型中的阻抗函數 f(dij)=exp(-adij)時,重力模型可以改進為Logit形式的目的地選擇模型

式中:PAij是小區i至小區 j的出行量;Pi是小區i的出行生成量;kij是小區i和 j之間K因子;Aj是小區 j的出行吸引量;dij是小區i至小區 j的出行綜合阻抗;a,Sj,θk均為目的地選擇模型的參數;Kij可以表示為起點至迄點的各種變量要素,例如是否有自然河流相隔,目的地的商業活力,目的地是否滿足人的各種活動需求等。
居民出行活動中,通勤、通學的出行目的地相對固定,就餐、娛樂、購物等出行目的地選擇較為靈活,因此具有替代性和互補性。如圖2所示,假設居民從家H點出發,希望就餐后購物,A,B兩地可以就餐,C地可以購物。若H至三地距離相似,且A,B兩地至C的距離相差不多,則A,B具有替代性;若B和C較A和C臨近,則在A,B與H距離相似的情況下,由于B,C的互補關系,選擇B就餐的可能性將明顯大于A,從而滿足居民活動次序的需要。
體育鍛煉、就餐、娛樂、購物等各種公共服務設施和人員活動數據等要素是目的地選擇模型構建的關鍵變量。這些因素需要通過各種指標來剖析和探索,并需要應用交通以外的社會、經濟大數據輔助分析,例如手機應用軟件使用記錄、銀行消費數據、服務類網站使用數據等。依靠傳統的居民出行調查能夠獲得這類出行數據,但在較小區域內的樣本量往往不足。而大數據則可以彌補樣本量不足的缺點。但是,如何利用大數據判斷出行活動的詳細類型及與傳統交通模型出行目的分類的關系,仍然是目的地選擇模型需要解決的問題。

圖2 目的地選擇場景Fig.2 Scenarios of destination choice

圖3 軌道交通接駁方式復雜性Fig.3 Complexity of urban rail transit access modes
軌道交通作為城市客流主要通道的交通設施,具有多種交通方式換乘接駁的使用特征(見圖3)。換乘接駁包括進站前和出站后,具有多種組合形式。中國城市軌道交通網絡客流分析在接駁方式模型水平方面尚有較大地改進空間。建模的主要難點在于兩端接駁的組合類型較多、需要考慮接駁的站間OD與交通小區OD客流分配的配套分析功能,以及獲取支撐接駁模型參數標定的調查數據。
軌道交通網絡規模較大的情況下,單純依靠居民出行調查能夠獲取的樣本量非常有限。專門的軌道交通車站問詢調查受調查內容和規模的限制,難以獲得完整的接駁數據或確定車站的服務范圍。由于地下車站具有專門基站,結合手機信令數據分析車站全方式接駁的出行起點和訖點范圍分布是可行的。但有關接駁交通方式的數據則需要結合傳統的問詢調查和接駁距離來綜合判別。因此,改進軌道交通接駁模型的大數據應用需要深入探索。
交通模型的出行成本模塊,是出行分布模型和出行方式選擇模型的基本輸入數據,其準確度在模型中具有舉足輕重的地位。出行成本模塊中,對于步行和自行車、軌道交通等成本的準確計算相對容易,而對隨機性較大的道路交通出行時間,依靠延誤函數準確計算的難度較大。行駛過程中的延誤一般分為路段延誤和交叉口信號延誤。在交通規劃模型中,交叉口信號配時數據輸入工作量巨大,一般采用簡化方法批量處理計算。由此造成的交通小區間道路交通出行時間的偏差往往難以避免。
在大數據環境下,特別是針對浮動車數據和地圖信息的應用,可以獲得較為準確的路段車速數據及區域間的車輛出行時間。同時,采用網絡等時線圖可以比較直觀地對比交通模型和大數據的路網出行時間。圖4是美國北德克薩斯大都會(North Central Texas Council of Governments,NCTCOG)各區域至市中心的等時線,圖中虛線和實線是早高峰模型與Google地圖浮動車數據的對比[4]。可見,即使是發達國家的成熟交通模型,道路交通出行時間方面的計算仍然存在較大偏差。因此,中國城市交通模型也應適當利用大數據進行校核。
大數據和傳統交通模型都可以獨立進行決策分析。大數據可以作為交通模型的基礎數據,也可以經過技術處理后直接應用于決策參考。由于很多大數據并不是為服務交通規劃決策分析而產生,數據難以直接應用于決策分析,數據的副產品增加了利用難度,所以需要進行一系列的技術處理,實現信息挖掘。傳統的交通模型技術過程一般是數據綜合、參數標定、結果計算、決策分析,而大數據的技術處理過程一般是特征挖掘、融合分析、關聯分析、決策分析。大數據進行特征挖掘及融合分析后,便可作為交通模型數據綜合和參數標定的原材料。大數據和交通模型具有互補和促進作用,一方面大數據對模型精度具有促進作用,另一方面交通模型結合大數據可以分析出更多成果,例如通勤距離分布的計算等。
一種思潮認為大數據可能顛覆傳統調查和模型的技術框架,或者替代傳統交通模型的決策分析功能。本文認為大數據和交通模型是共同成長而非完全替代的關系。首先,交通模型具有完整的理論體系,而大數據及其處理技術并沒有上升到理論體系的層面。依靠大數據本身的數據挖潛和處理分析,無法在分析理論與方法上突破傳統交通模型。其次,大數據本身也存在諸多缺陷,有些分析仍需與交通模型結合。大數據清洗的規則有時并不明確,如何定義異常數據要根據經驗判斷;大數據的統計結果和傳統定義的一致性,也需要做出很多假設和推斷并確定一些參數;任何大數據都不可能完整,具有片面性[5]。大數據和交通模型共同成長,一方面要使大數據的分析適應傳統交通模型體系,另一方面需要在大數據環境下改進交通模型。

圖4 北德克薩斯大都會到市中心的等時線Fig.4 Contour line of travel time to downtown in big North Texas cities
交通大數據對人口和就業崗位分布、綜合交通網絡數據和基于交通調查的模型參數等交通模型核心數據的支撐都起到了較大的作用。大數據為交通模型的精細化研究提供條件,并為交通模型提供更多校核信息。大數據的應用過程中,要從相關定義、市場細分以及信息完整性三個方面判別大數據與現有交通模型的一致性問題,充分了解大數據的優點和缺點,并有效應用于交通模型研發。交通模型需要根據數據的環境變化進行相應修正,例如根據現有交通大數據的特點,可以在交通調查技術、4D模型研發、出行分布的目的地選擇模型、軌道交通出行接駁模型、出行成本校核等方面做進一步的改進。大數據和交通模型都可以獨立進行決策分析,大數據和交通模型具有互補和促進作用,今后需要互動發展。
[1]張天然.基于GIS的公交模型數據庫構建及維護[J].城市交通,2014,12(5):65-71.Zhang Tianran.Development and Maintenance of a GIS-based Transit Model Database[J].Urban Transport of China,2014,12(5):65-71.
[2]Cervero R,Kockelman K.Travel Demand and the 3Ds:Density,Diversity and Design[J].Transportation Research Part D,1997,2(3):199.
[3]Ewing R,Greenwald M N,Zhang M,et al.Measuring the Impact of Urban Form and Transit Access on Mixed Use Site Trip Generation Rates:Portland Pilot Study[R].Washing-ton DC:US Environmental Protection Agency,2009.
[4]Slavin H,Lam J,Nanduri K.Traffic Assignment and Feedback Research to Support Improved TravelForecasting[R].Washington DC:Federal Transit Administration Office of Planning and Environment,2015.
[5]陳必壯,張天然.中國城市交通調查與模型現狀實踐及未來發展趨勢[J].城市交通,2015,13(5):73-79.Chen Bizhuang,Zhang Tianran.Current Practice and Future Development Trends of Urban Transportation Survey and Modelling in China[J].Urban Transport of China,2015,13(5):73-79.
Transportation Model Development in an Era of Big Data
Zhang Tianran
(Shanghai Urban Planning&Design Research Institute,Shanghai 200040,China)
A huge challenge facing the transportation models’development is how to combine conventional travel survey with new information visual analytics and improve transportation modeling methodologies based on characteristics of big data.This paper analyzes the impact of big data on transportation model development,particularly in key modeling input data such as distribution of population and employment,comprehensive transportation network,and model parameters based on travel survey.The incompatibility of big data and transportation model is discussed in three aspects:their respective definitions,market segmentation and information integrality.The paper elaborates how to use big data to improve the crucial techniques of transportation models,such as travel survey technology,4D model development,destination choice model,urban rail transit access model,and travel cost evaluation.Finally,the paper emphasizes the interactive development of big data and transportation model through comparing the decision analysis process.
transportation model;big data;travel survey;compatibility;decision analysis
1672-5328(2016)02-0022-07
U491.1+2
A
10.13813/j.cn11-5141/u.2016.0204
2015-11-30
張天然(1980—),男,浙江紹興人,博士,高級工程師,主要研究方向:交通規劃和政策、交通模型和交通地理信息系統。E-mail:zhangtianrantj@163.com