冷夢甜,徐鋒,曾燁,王振,耿薇
(廣東嶺南通股份有限公司,廣東 廣州 510000)*
現代城市公共交通包括常規公交、有軌電車和BRT、地鐵和輕軌三大體系.其中地鐵和輕軌在解決大城市的出行難問題中有顯著的效果,并且由于其在地下運行或郊區地面運行的特點,使其成為城市發展的主要方向之一.根據行業專家分析預測全國地鐵通車里程到2020年將達到9226.7km[1].因此為了研究城市公共交通的狀況,分析乘客上下車站點的軌跡是研究的熱點方向[2-4].李思杰、武明超等[5-9]根據手機移動信號及定位系統研究了乘客的動態OD,該方法依賴乘客使用手機定位系統的使用率.其中為了獲得終端與站點之間的關系需通過人工采集的方式[10-11].
人工采集耗時耗財,并難以常規化,因此本文研究一種可基于極低的采集成本和公開的信息,高效、準確地找出終端與站點的對應關系的方法.
此次用于研究的IC卡數據主要是通過如圖1所示的流程進行采集,具體流程如下:①數據產生:乘客將IC卡放置于車載終端上,卡號和交易時間等信息被記錄;②數據傳遞:第一步,數據通過導入或者無線傳輸等方式送至分管清算中心;第二步,數據從分管清算中心傳輸到IC卡管理中心;第三步,IC卡管理中心將數據以通訊方式傳送到數據庫[12].

圖1 公交IC卡數據采集流程
此次采用的IC卡刷卡數據為廣州市地鐵刷卡一年的數據(2017年9月1日~2018年8月31日),總共收集了約14億條刷卡數據,所得的IC卡交易數據結構包括邏輯卡號、進站時間、進站終端編號、交易票價、出站時間、出站終端編號等信息,其中此次所用的信息如表1所示.

表1 地鐵IC卡刷卡數據(部分字段)
為了更好地提高數據分析結果的準確度,本研究方法對采集數據進行清洗、融合、變換、歸約等預處理操作[13].首先,IC卡刷卡數據可能因為刷卡動作、終端環境等造成一定的影響而產生異常數據,這些數據如果不清洗加以排除,可能對分析結果的準確性造成不可預知的影響,需對數據進行如下的清理[14]:①刪除非CPU卡交易數據,因為部分非CPU卡交易的入閘終端編號不完整;②刪除進站終端編號與出站終端編號相等,或者進站終端編號為空或非法格式,或者進站終端編號為空或非法字符的交易記錄;③刪除交易金額為0的記錄;④刪除進站終端編號與上次出站終端編號不一致的記錄;⑤刪除無用字段,對交易記錄按進站終端編號、出站終端編號、票價3個字段分組;⑥進站終端與出站終端一般不會是同一編號,為清除臨時調整少量終端的影響,如果出現既是進站終端又是出站終端,記錄終端編號,比較該終端編號作為進站終端和出站終端的交易記錄數量,如作為進站終端的交易記錄數大于作為出站終端的交易記錄數,則刪除所有出站終端編號為該終端編號的交易記錄;⑦理論上交易記錄中只要進站終端編號、出站終端編號一致,票價也就應一致.但實際上有時也因數據錯誤,也存在進站終端編號、出站終端編號一致但交易票價不同的情況.這種情況下,應取信息數量最大的分組,刪除其他記錄,整理交易記錄后形成終端票價表(TP表),如表2所示.

表2 終端票價表
通過IC卡刷卡數據整理出所有產生過交易的終端編號,將其中日均使用頻率較高的1000個終端繪制成表,如表3(TL表)所示.

表3 終端編號表
在地鐵運營商網站可以很容易獲取當前地鐵線路和站點信息,再通過線路和站點信息很容易查詢到任兩個站點之間的票價信息,將票價信息整理成站點票價表.站點編號規則為“前兩位數表示廣州地鐵線路號碼,后兩位表示該線路站點序號”,如站點編號為0116表示“1號線廣州東站”,站點編號為“0613”表示“6號線東湖站”.另外廣佛線編號為“GF”,APM編號為“APM”,具體可參見廣州地鐵官網對各個站點的編號.最后各線路換乘站以前者為準,例如1號線和6號線的換乘站東山口站,按照站點編號規則其可以為“0112”或者“0614”,這里為了方便分析,采用前者“0112”來表示東山口站,部分結果如表4(SP表)所示.

表4 站點票價表
其中站點編號和站點名稱一一對應.如果站點數量為n,則共有n2條站點票價表記錄,因為互為起止站點的票價是一樣的,故進一步整理,可刪除一半的記錄.
所謂關鍵站點組是指存在一組站點,任何站點(或絕大多數站點)到這組站點的票價組合都不完全相同,關鍵站點可表示為KSi(i=1,2,…,n).
關鍵站點組內站點的選擇有幾個要求,一是按地鐵線網情況分出子組,部分城市的地鐵線網可能分割成多于一個的互不相通的網絡,因此站點組也需分出子組;二是組內站點要足夠多,使得任何站點到組內站點的票價都不完全相同;三是組內站點是有效的,如果刪除組內某個站點不影響票價組則刪除該站點,使得站點足夠少以提高后續的處理效率;四是標記特殊站點,如存在一對或多對站點到任何其他站點的票價都一樣,這種情況下需將這類站點標記好,一對站點作為一個站點處理.
然后依據票價表列出所有站點到關鍵站點的票價,形成表5關鍵票價表,按上述確定的關鍵站點的方法可知,不存在兩行的值會完全相同.
站點Si(i從1到n,n為所有站點數量)到m個關鍵站點[KS1,KS2,…,KSm]的票價形成Si到關鍵站點組的票價組如表5(KSP表).按上述確定的關鍵站點的方法可知, 不 存 在 兩行的值會完全相同的紀錄, 所有Si到確定的關鍵站點組的票價組都不完全相同,這個票價組可以認為是Si的指紋信息,也就是說,如果知道某個站點到關鍵站點的票價信息,也就確定了這個站點的位置.

表5 關鍵站點票價表
確定關鍵站點內的終端編號,可以有多種方法,包括數據分析的方法和人工采集的方法.因關鍵站點數量占站點總數的比率很小,一般不到5%,進行人工采集工作量不大,這里就采用人工采集的方式,采集到關鍵站點內各終端的編號,形成初始終端站點對應表6(TS表)的示例.其中站點類型就兩個類型,K表示初始采集到的關鍵站點,N表示后續計算添加的非關鍵站點.

表6 終端站點對應表
終端編號與站點編號的關系是多對一,一個終端一定屬于也只能屬于一個站點,一個站點可以包含多個終端.
以廣州地鐵為例,關鍵站點組中包括了東山口站點(1號線與6號線的交點),人工采集終端編號的過程如圖2所示,具體采集過程為:持卡工作人員持卡通過不同的刷卡終端進站和出站,并記下終端位置編號;例如持卡工作人員刷卡通過C-1-1進站,并記下終端位置,再刷卡通過D-6-1出站,并記下終端位置.

圖2 東山口站點終端人工采集方案圖
根據上圖所示的方法,可以得到終端編號與東山口站點的關系,如表7所示.

表7 東山口站終端對應表
終端與站點匹配過程是遍歷交易記錄中出現過的終端編號,依據終端編號與終端編號間的票價關系,站點與站點間的票價關系,確定終端與站點的關系.
具體流程如圖3所示:①從TL表順序讀取一條終端記錄記為aPID;②判斷該終端是否已經處理;③查找該終端與已知的關鍵站點內終端的票價情況;④形成該終端與關鍵站點的票價關系組;⑤將票價關系組與KSP表進行匹配,匹配上的站點即為終端所在站點;⑥將終端站點對應關系插入TS表;⑦TL表所有記錄處理完成后,TS表記錄的數據,即為通過該方法獲取的終端站點對應關系信息.圖中M為關鍵站點數量.

圖3 終端與站點匹配過程
隨機抽取1000個IC卡地鐵數據,根據上一節確定的方法,推導出其進出站點,與實際站點進行比較,結果如表8所示,從表中可以發現該方法所得到終端編號與站點的對應關系與實際情況完全相符.

表8 對比結果表(部分結果)
根據圖3所述的方法可以得到IC卡數據中終端編號與各地鐵站點的對應關系,基于此可以得到乘客乘坐軌道交通的上下車站點,同時根據謝振東等[15]研究公交車站點識別方法能夠得到乘客乘坐公交車的上下車站點.
通過乘客的上下車站點可以進一步完善乘客的出行鏈,基于此能夠對乘客的換乘行為和職住識別等方面進行分析研究:
(1)換乘行為分析,首先分析公交換乘行為的時間和空間影響因素,然后設計以公交出行記錄為基礎的公交換乘行為識別流程,通過實例推斷出研究時間段內所有對象的公交換乘行為,最后以公交換乘系數為依據判斷城市公交直達性的優劣;
(2)職住失衡問題是城市化發展必然遇到的一種空間資源配置不當問題,是新時代城市規劃建設和發展所面臨的重要課題.在大數據等新興互聯網技術逐步成熟和廣泛應用、服務于行業發展的背景下,根據乘客的出行鏈設計一種通勤人群的居住地與就業地識別模型,識別通勤人群的通勤軌跡,探討職住平衡評價指標和測度方法.
由于人工采集地鐵刷卡終端與站點的對應關系需消耗較高的人力成本,而且人工采集不可能日常化,導致搜集的數據無法實時更新,不能保證數據的準確性.因此本文首先通過分析IC卡刷卡數據以及地鐵票價等信息,同時采集極少量的關鍵站點與終端編號的關系,制作了終端票價表、終端票價表、關鍵站點票價表等,最后利用聚類分析法設計了一種基于IC卡數據的地鐵站點識別方法,能夠準確識別乘客刷卡的進出站點.
基于IC卡數據的地鐵站點識別方法能夠為后期的研究提供準確的數據支持,比如乘客動態OD分析、城市公共交通換乘分析等,并且有利于通過數據分析提高用戶的使用體驗和城市交通管理的效率.