冉江宇,戴彥欣
(中國城市規劃設計研究院,北京100037)
基于特征子序列修正的公交刷卡滯后時間推算
冉江宇,戴彥欣
(中國城市規劃設計研究院,北京100037)
針對一票制公共交通IC卡刷卡系統存在的滯后時間問題,提出基于特征子序列修正的時差匹配推算方法。依托GPS車輛到站信息序列和刷卡聚類序列,分析首末站和中途站站間運行時間分布的差異化特征,分別從兩序列中提取大時間差和連續小時間差等特征子序列;利用兩種子序列間一對一或一對多的對應關系分別進行初步搜索和二次修正,兼顧匹配過程的效率和精度。將推算流程應用于山西省大同市公共汽車系統,結果顯示,抽樣車輛的刷卡匹配率均達到99%以上,并且針對不同類型的公共汽車線路具有較強的適應性。
公共汽車;GPS;IC卡;刷卡聚類;首末站;中途站;滯后時間;特征子序列;修正
公共汽車GPS(以下簡稱“GPS”)和公共交通IC卡(以下簡稱“IC卡”)收費系統已應用于中國很多城市。無論是擁有幾百條線路的大城市還是僅僅擁有十幾條線路的中小城市,通過安裝GPS系統采集車輛的實時地理位置、時間及速度等信息,可以實現公共汽車智能調度。超過200個城市啟動了IC卡系統,累積發出可用于公共交通支付的IC卡超過3億張[1]。IC卡系統不僅方便居民支付乘車費用,也為將來實現公共交通一卡通跨地區互聯互通奠定基礎。
多數城市使用的一票制IC卡刷卡收費系統缺少對乘客上下車車站及下車時間等內容的記錄。有必要結合GPS系統數據對上述信息進行推斷,獲取公共汽車站換乘量、公共汽車站間OD等信息[2],以便與居民出行調查數據、城市用地空間分布數據等相結合,支持公共汽車系統的運營管理、城市空間結構的合理性判斷以及個體出行特征的分析等[3]。
文獻[4]基于智利圣地亞哥市的GPS和IC卡刷卡數據推算公共汽車乘客的完整出行鏈,將重點集中于公共汽車下車車站識別。文獻[5-7]基于連續性假設推斷刷卡乘客的下車車站,較少涉及公共汽車上車車站的匹配識別。
中國每輛公共汽車的IC卡收費設備與GPS設備的時間存在不同程度的偏差,有必要在處理時逐一核對每輛車的偏差。由于工作量較大,相關數據研究人員通常將其轉化為刷卡信息序列和GPS車站信息序列的匹配問題。文獻[8]基于GPS相鄰車站間運行時間序列和相鄰刷卡聚類間時間差序列,建立約束規則進行序列匹配,將匹配成功數據的到站時間差值平均后作為兩系統的調整偏差。文獻[1]提出以GPS系統時間為基準,在調整兩系統時差對刷卡數據進行修正的過程中,將刷卡數據車站識別率達到最高時的時差作為實際時差。文獻[9]將基于馬爾可夫鏈的貝葉斯決策樹算法應用到乘客上車車站的推算過程中,針對提取的首末站間相鄰刷卡聚類序列,求取條件概率乘積最大的車站序列作為匹配序列。文獻[10]針對南寧市IC卡刷卡時間數據和GPS時間數據精度不一致的情況,基于GPS數據的瞬時車速、刷卡時間以及車輛運行方向等因素推算上車車站。既有方法相對復雜且耗時[3],并易受公共汽車運行狀態、GPS數據和IC卡刷卡數據完整性的影響,也受制于搜索起點、搜索匹配范圍等因素。
本研究基于大同市GPS和IC卡刷卡數據,以公共汽車站間運行時間分布特征為突破口,將首末站和中途站的站間運行時間進行區分和融合,探索適應性和靈活性較強的推算方法。
盡管中國很多城市的IC卡發行量增長速度較快,但日刷卡量占公共汽車客運量的比例通常不超過50%[10-12]。已安裝車載刷卡機具的公共汽車并非在每個公共汽車站均有乘客上車,且并非每位上車乘客均刷卡,因此以相鄰刷卡記錄間的消費時間差為依據進行聚類,類別總數通常小于車輛運營期間經過的車站總數。
GPS數據記錄了公共汽車在每個車站的進站時間和出站時間,依據相鄰車站的進站時間可以推算車輛的站間運行時間。相鄰IC卡刷卡記錄間的時間差包括三種情況:1)在同一個中途站刷卡上車的乘客,彼此間的刷卡時間間隔相對較短;2)當相鄰刷卡乘客位于不同站臺時,彼此間的刷卡時間間隔相對較長;3)當車輛在首末站停靠時間較長時,乘客間的刷卡時間間隔存在不確定性。依據前兩種情況,相鄰刷卡聚類數據間通常包含一個或多個站間運行時間,而在第三種情況下,一個站間運行時間可能包含0至多個刷卡記錄。如何在GPS車站信息數據和IC卡刷卡聚類數據的兩個序列中選取比選子集,是實現兩個數據集成功匹配的關鍵。
以GPS車站信息數據中記錄的進站時間和IC卡刷卡聚類數據中各類別首條刷卡記錄時間為基準,分別計算各車輛全日GPS站間時間差和IC卡刷卡聚類時間差。圖1展示了山西省大同市某條公共汽車線路不同車輛兩種數據時間差的頻數分布情況。結果表明,超過80%的GPS站間時間差小于3 min,而刷卡聚類時間差小于3 min的比例不超過40%,其80%分位點大致為6 min。盡管兩組時間差序列在數量規模和分布特征上均存在差異,但兩組序列中超過15 min的大時間差不僅數量相對接近,而且一對一匹配的概率較大。這主要是由于GPS數據序列中超過15 min的大時間差通常出現在首末站,即車輛經過長時間停放后按照調度計劃重新投入運營,或受高峰時段擁堵影響、站間運行時間超出常規的中途站。無論是上述哪種情況,刷卡聚類序列中必然存在同樣數量級的大時間差,其所屬類別的首條刷卡記錄消費時間與GPS序列中出現大時間差的進站時間具有較強的對應關系。因此,盡管刷卡聚類序列中還可能存在部分大時間差是由于相鄰刷卡記錄相隔多個車站所致,但以GPS站間大時間差為準,依據相鄰刷卡聚類間大時間差、刷卡消費時間、GPS進站時間等多個字段對兩序列中提取的大時間差子集進行匹配,能夠提高準確度。此外,大時間差子序列中有限的記錄數量也有利于提高匹配效率。
依據大時間差特征子序列推算的兩系統間時差往往受刷卡記錄出現時刻的隨機性影響,產生不同程度的偏差。尤其當大時間差出現在非高峰時段的線路首末站時,偏差更加明顯,有必要在初步推算基礎上對滯后差值進行二次修正。修正的主要思路是從公共汽車刷卡聚類數據中選擇一段連續子序列作為目標,以該序列中首條刷卡記錄的消費時間、上述大時間差序列推算得到的初步滯后時間和容忍閾值共同確定GPS子序列的搜索范圍,以期找到與目標刷卡連續子序列匹配度最佳的GPS連續子序列。
目標刷卡連續子序列的選取標準為:1)盡可能避免將公共汽車首末站長時間停留期間的刷卡記錄類別納入目標序列,使目標序列中的刷卡聚類時間差與GPS連續子序列中的進站時間差均為一對多關系;2)目標序列中的刷卡聚類數盡可能多,以便充分檢驗GPS連續子序列的匹配度。

圖2 典型車輛刷卡記錄數和刷卡聚類數比例Fig.2 Ratio of the number of IC card charging records and number of clusters
本文選取IC卡系統滯后時間已得到修正的4輛公共汽車為例,將其刷卡記錄數和刷卡聚類數按照修正時段進行統計,得到刷卡記錄數波動圖和刷卡聚類數比例(即刷卡聚類數與經過車站數的比值)波動圖(見圖2)。結果表明,刷卡記錄數較多的時段,其刷卡聚類數比例相對較高,即高峰時段刷卡聚類數通常較多,線路上多個車站均有刷卡記錄的概率較大。基于上述原則和刷卡數據分布特征,以每輛車相鄰中途站進站時間差的95%分位數為基準,當IC卡聚類序列中出現一連串首記錄時間差小于等于95%分位數的刷卡類別,并且各類別所對應的刷卡數量較多時,該小時間差序列即可作為目標刷卡連續子序列。GPS站間時間差序列中所尋求的連續子序列須滿足的條件是:每條時間差記錄或相鄰時間差記錄之和與目標刷卡連續子序列中的每條刷卡聚類時間差記錄連續對應,對應記錄間的絕對誤差均小于一定閾值,即可認為上述兩連續子序列匹配。
本文提出的滯后時間推算方法所基于的刷卡數據集須包含消費時間、車輛編號等字段,GPS數據集須包括車輛編號、車站名稱、上下行方向、進站時間等字段。按照上述推算思路,提出具體推算流程如下:
1)將IC卡數據和GPS數據按照車輛編號進行拆分歸類,并分別按照消費時間和進站時間進行排序。設第i輛車的IC卡數據序列為GPS數據序列為其中 p和q分別為第i輛車IC卡數據序列和GPS數據序列的記錄編號,k和h分別為記錄編號的上限。
2)對每輛車的刷卡數據集按消費時間差進行聚類,依據聚類結果和相鄰類別時間差閾值為每一類別統計連續聚類數。設第i輛車的刷卡聚類結果為序列序列中的各記錄均包括刷卡聚類號、聚類時刻、相鄰類別時間差、刷卡數量和連續聚類數等字段,m為聚類總數(m<k,m<h)。
3)針對同一車輛號i的刷卡聚類序列和GPS序列,分別提取大時間差子序列進行初步匹配。大時間差提取閾值γ與城市公共汽車線路的平均站間距、高峰時段運營車速和車輛調度計劃等相關,通常可設置為15 min以上。設從序列中提取的大時間差子序列為序列中提取的大時間差子序列為兩序列分別按照相鄰類別時間差和進站時間差大小排序,具體匹配規則如下:
②對備選集合Si中的數據按相似度進行聚類,選取規模最大的類別中各數平均值作為初步匹配滯后時間hi。

表1 抽樣公共汽車線路現狀特征Tab.1 Characteristics of sampled bus lines
④遍歷備選集合Zi中的各數組。設中末尾的GPS記錄為當將第 ( )q+g條GPS記錄作為新的末尾GPS記錄;否則,在備選集合Zi中刪除數組
⑤當備選集合Zi中僅剩唯一數組時,該數組中首個GPS記錄的進站時刻與的差值,即為第i輛車的最終匹配滯后時間;否則,轉入步驟③。
上述流程首先將刷卡序列中的相鄰數據進行聚類,以期能夠與GPS數據序列形成匹配對應關系。其次,以刷卡聚類序列和GPS序列中的大時間差子序列為匹配依據,選取滯后時間備選集合中出現頻率最高區間的平均值作為初步匹配滯后時間,以此縮小后續搜索范圍。在確定目標刷卡連續子序列時,查找最大連續聚類數的出現位置,更易捕捉公共汽車在高峰運營狀態下的連續中途站刷卡記錄,減少首末站長時間停靠、高峰時間平均行駛車速較低等因素的干擾。
本文針對2014年9月18日大同市中心城區18路、22路、24路和59路4條公共汽車線路,每條線路隨機選取4輛公共汽車,提取其GPS數據和IC卡數據,采用基于特征子序列二次修正的推算方法對每輛車的兩組時間序列進行匹配。4條公共汽車線路的上下行車站數、抽樣車輛刷卡總數及沿線串聯用地特征狀況如表1所示。所選對象包含上下行車站不對稱線路以及抽樣刷卡數相對較少線路,線路服務區域及沿線用地特征差別較大。可以借此檢驗本文所提出的推算方法是否適用于不同情境。

表2 抽樣車輛刷卡滯后時間匹配結果Tab.2 Estimated results of IC card lag time
將16輛公共汽車的刷卡數據集按車輛號進行拆分,分別按刷卡消費時間進行排序和聚類,聚類時設置的刷卡時間差閾值α=60s,為每一類別統計連續聚類數時設置的相鄰中途站GPS進站時間差95%分位數βi和每輛車的刷卡聚類數見表2。依據出現在線路首末站的GPS大時間差統計特征,設置大時間差提取閾值γ=1 000s,大時間差匹配閾值 ε1,ε2分別設置為1 500 s和500 s,得到每輛車的初步匹配滯后時間hi如表2所示。采用逐步延伸法提取目標刷卡連續序列的過程中,GPS初始進站時刻控制容差值δ1設為900 s,相鄰站間的進站時間差控制容差值δ2設為50 s,在初步匹配滯后時間的基礎上經過有限次篩選,得到最終匹配滯后時間。以此修正每輛車刷卡記錄的消費時間,與車輛所屬線路各車站的GPS進站和出站時間進行比對,獲取每條刷卡記錄所在的公共汽車站位置。

圖3 抽樣車輛不同車站刷卡上客量分布Fig.3 Number of IC card users of boarding at each stop
表2顯示,16輛車的刷卡匹配率統計結果均在99%以上,匹配效果良好。按照線路匯總統計抽樣車輛各車站的刷卡上客量(見圖3),各線路的車站刷卡上客量分布狀況與線路各車站周邊主要用地特征吻合度較高,一定程度上證明該推算方法具有較強的適用性。此外,最終匹配滯后時間最短不小于1 min,最長可超過1 h,在數量級上存在的不確定性說明推算過程中不宜預先設置固定的搜索范圍,以適應不同城市車載刷卡機具時間校核狀況的多樣性。最終匹配滯后時間和初步匹配滯后時間的差值為30 s~7 min 34 s。可見,部分車輛僅依靠大時間差推算結果會產生較大偏差,有必要通過二次修正法對初步推算結果進行調整。
本文依托公共汽車GPS數據序列和公交IC卡刷卡聚類序列,通過比較GPS進站時間差和刷卡聚類時間差的分布特征,提出基于特征子序列二次修正的匹配滯后時間推算方法。該方法從原序列中提取大時間差和連續小時間差兩種特征子序列,很大程度上確保了子序列間各組數據的對應性。同時,基于大時間差子序列的推算結果有助于確定搜索區間,縮小后續環節的搜索范圍。而連續小時間差子序列所包含的時間數據相對精細,兩者間的互補使該推算方法整體兼顧了效率和準確,有利于實現上千輛公共汽車的批量化處理。與既有方法相比,本文所提的修正方法無須在初始階段設定匹配滯后時間的范圍,且在一定程度上能夠適應多種不同特征的公共汽車線路。該方法涉及閾值、容差值等多個參數的設置,本次研究僅選擇幾條線路的有限車輛進行嘗試。未來在推廣應用過程中,須進一步探索參數設置對更多類型線路及路況的適應性,以期實現參數隨線路特征進行針對性的調整。
[1]陳學武,李海波,侯現耀.城市公交IC卡數據分析方法及應用[M].北京:科學出版社,2014.
[2]周濤,翟長旭,高志剛.基于公交IC卡數據的OD推算技術研究[J].城市交通,2007,5(3):48-52.Zhou Tao,Zhai Changxu,Gao Zhigang.Approaching Bus OD Matrices Based on Data Reduced from Bus IC Cards[J].Urban Transport of China,2007,5(3):48-52.
[3]龍瀛,孫立君,陶遂.基于公共交通智能卡數據的城市研究綜述[J].城市規劃學刊,2015(3):70-77.Long Ying,Sun Lijun,Tao Sui.A Review of Urban Studies Based on Transit Smart Card Data[J].Urban Planning Forum,2015(3):70-77.
[4]Munizaga M A,Palma C.Estimation of a Disaggregate Multimodal Public Transport Origin-Destination Matrix from Passive Smartcard Data from Santiago,Chile[J].Transportation Research Part C:Emerging Technologies,2012,24(9):9-18.
[5]Trepanier M,Tranchant N,Chapleau R.Individual Trip Destination Estimation in a Transit Smart Card Automated Fare Collection System[J].Journal of Intelligent Transportation Systems,2007,11(1):1-14.
[6]Zhao Jinhua,Rahbee A,Wilson N.Estimating a Rail Passenger Trip Origin-Destination Matrix Using Automatic Data Collection Systems[J].Computer-Aided Civil and Infrastructure Engineering,2007,22(5):376-387.
[7]Farzin J M.Constructing an Automated Bus Origin-Destination Matrix Using Farecard and Global Positioning System Data in Sao Paulo,Brazil[J].Transportation Research Record,2008(2072):30-37.
[8]陳紹輝,陳艷艷,賴見輝.基于GPS與IC卡數據的公交站點匹配方法[J].公路交通科技,2012,29(5):102-108.Chen Shaohui,Chen Yanyan,Lai Jianhui.An Approach on Station ID and Trade Record Match Based on GPS and IC Card Data[J].Highway and Transportation Research and Development,2012,29(5):102-108.
[9]Ma Xiaolei,Wang Yinhai,Chen Feng,Liu Jianfeng.Transit Smart Card Data Mining for Passenger Origin Information Extraction[J].Journal of Zhejiang University Science C:Computer&Electronics,2012,13(10):750-760.
[10]陳君,楊東援.基于智能調度數據的公交IC卡乘客上車站點判斷方法[J].交通運輸系統工程與信息,2013,13(1):76-80.Chen Jun,Yang Dongyuan.Identifying Boarding Stops of Bus Passengers with Smart Cards Based on Intelligent Dispatching Data[J].Transportation Systems Engineering and Information Technology,2013,13(1):76-80.
[11]楊東援,段征宇.大數據環境下城市交通分析技術[M].上海:同濟大學出版社,2015.
[12]鄧春瑤.哈爾濱市居民公交IC卡數據分析方法研究[D].哈爾濱:東北林業大學,2013.Deng Chunyao.Study on Analysis Method of Bus IC Data of Harbin City Residents[D].Harbin:Northeast Forestry University,2013.
Lag Time Estimation of IC Card Charging Records Based on Revision of Characteristic Subsequences
Ran Jiangyu,Dai Yanxin
(ChinaAcademy of Urban Planning&Design,Beijing 100037,China)
To better solve the problem of lag time of IC card charging records in flat fare system,this paper proposes an estimation method for inferring time difference of IC card based on revision of characteristic subsequences.According to the arrival time sequence of GPS records and clusters of IC card charging records,the paper firstly analyzes the variation of travel time among stops which is for extracting a serial of large time difference and a serial of small time difference respectively.And then,the paper utilizes the relations of one-to-one or one-to-multiple to implement preliminary searching and revising by constraints of estimation efficiency and accuracy.The results in Datong show that the successful match ratio reaches to above 99%for sampled buses.
bus;GPS;IC card;clustering sequences of IC card charging records;terminals;bus stops;lag time;characteristic subsequences;revision
1672-5328(2017)01-0059-07
U491.1+7
A
10.13813/j.cn11-5141/u.2017.0109
2016-03-01
冉江宇(1985—),男,江蘇揚州人,博士,高級工程師,主要研究方向:城市交通規劃、交通需求分析。E-mail:jaredhaha@163.com