向紅艷, 袁發濤
(重慶交通大學交通運輸學院,重慶 400074)
軌道車站是軌道交通的關鍵節點,是城市居民出行乘降、換乘的主要場所。車站客流識別是研究站點客流集散規律,挖掘乘客出行行為特征的重要方法。對軌道車站客流進行識別,探討不同類型客流模式間的差異,有助于充分發揮軌道交通在城市公共交通中的骨干作用,為軌道交通運營策略制定及評價提供理論支撐。
隨著大數據技術的發展和完善,充分利用多源數據成為精細化研究交通問題的新趨勢[1-4]。中外關于軌道車站的研究主要關注的是從乘客出行行為和站點自身屬性角度對乘客和站點進行分類,而鮮有車站客流識別研究。在軌道乘客分類方面, Yin等[5]采用模糊C均值聚類進行了基于行為特征的乘客行為模式劃分。鄒慶茹等[6]強調研究乘客分類的重要性,利用軌道自動售檢票(automatic fare collection,AFC)數據能夠較好反映乘客個體特征和出行規律的特點,將出行乘客分為5類并分析其出行特征。Kieu等[7]構建了乘客出發時間和出行起訖點(origin-destination, OD)指標,利用基于密度的DBSCAN(density based spatial clustering of application with noise)算法將乘客分為出發時間穩定型、出行起訖點穩定型、通勤乘客及不規律乘客4類。在軌道車站分類方面,冷彪等[8]從地鐵客流數據中提取了乘客出行模式和地鐵站客流模式,建立了基于隱含狄利克雷分配(latent Dirichlet allocation,LDA)主題模型的區域功能聚類模型,得到不同客流峰段內的區域功能和相互客流關系。李向楠[9]選取軌道交通站點周邊環境和站點的自身特點等相關因素,綜合因子分析和聚類算法,對站點相似度做定量計算,得到站點分類結果。關于車站客流識別方面,僅從客流密度角度進行了交通瓶頸分析。孫立山等[10]提取并標定乘客微觀行為參數,引入動態時間規整(dynamic time warping,DTW)算法,實現客流激波現象的識別與量化分析。盧佳等[11]通過計算高峰時段客流量閾值并劃分預警等級,提出一種基于自動售檢票數據的大客流識別方法。而客流識別有助于提高車站運行效率,合理配置運營資源,對已有車站的管理和未來車站的規劃都有著重要意義。為此,結合海量AFC數據,建立軌道車站客流識別指標,運用無監督聚類算法對不同類型車站客流進行精準劃分,實現軌道車站客流規律挖掘、客流模式識別等精細化研究。
截至2020年4月,重慶軌道3號線總運營里程67.09 km,共有45座軌道站點。采集重慶軌道3號線連續1個月的自動售檢票數據,超過108條出行記錄,每條出行記錄包含進出站時間、站點編號、刷卡狀態等出行屬性,具體信息如表1所示。

表1 重慶軌道3號線刷卡數據
重慶軌道AFC數據以單次刷卡為一條出行記錄,該數據格式有利于分別統計各軌道站點進、出站客流量。為研究軌道車站客流,首先提取1個月乘客刷卡數據,利用Python 編程從軌道全網數據中篩選軌道3號線各站點進出站出行記錄。然后以刷卡日期提取每日06:00—24:00共18小時的出行記錄,以刷卡時間按60 min時間粒度提取軌道車站進出站客流量。最后結合乘客出行時間維度和空間維度對數據進行再處理得到各站點客流指標數據。
數據標準化處理能夠平衡數值水平差異,消除直接用原始指標進行分析帶來的量綱影響,保證結果可靠性,解決指標間的可比性。還可有效加快梯度下降求解速度,提高計算精度。采用[0,1]標準化的方法,將數據壓縮到0~1。其計算公式為

(1)
式(1)中:x′ 為指標處理后結果;x為原始指標數據;max(x)為該類指標中變量的最大值;min(x)為該類指標中變量的最小值。
對重慶軌道3號線AFC數據進行了統計分析,提取各軌道車站進站客流和出站客流的客流量、日高峰時段及車站潮汐比等指標。軌道車站客流呈現如下3種現象。
1.4.1 軌道車站客流波動性
部分軌道車站連續1個月客流量變化規律如圖1所示。不同站點客流量呈量級差異,且波動趨勢略有不同,但整體呈現出季節波動性,工作日客流量穩定,周末客流量略有下降,節假日客流量波動明顯。
1.4.2 軌道車站客流高峰時段穩定性

圖1 軌道站點客流量Fig.1 Passenger flow at rail stations

圖2 軌道站點高峰時段 Fig.2 Rail station peak hours
軌道站點全日進出站客流量如圖2所示,不同軌道站點進出站客流高峰時段主要集中在早高峰08:00—9:00以及晚高峰18:00—19:00,高峰時段分布較穩定。
1.4.3 軌道車站潮汐性
各站點的進站客流與出站客流呈現出不同程度的潮汐性(圖3)。部分站點在早高峰進站客流較大,出站客流較小;對應地在晚高峰進站客流較小,出站客流較大。總體上不同軌道站點潮汐比呈現量級差異,且部分站點早晚高峰潮汐比差異較大。

圖3 軌道站點潮汐比 Fig.3 Rail station tidal ratio
客流指標構建旨在能夠反映不同軌道車站客流模式,區分站點客流時空特性。通過提取AFC記錄包含的軌道站點客流直接信息。主要從站點客流量、高峰時段、潮汐現象3個方面闡述具體指標。
站點客流量是通過站點的乘客數,是站點價值和人氣的體現。具體包括:①工作日客流量,反映通勤人員上班、上學形成是通勤客流數量;②周末客流量,反映以休閑娛樂為主的乘客客流量;③節假日客流量,反映由于外出旅游形成的客流量。
高峰時段即交通高峰,是一日中出現大交通量的一段時間。具體包括:①高峰小時,即一日中出現最大交通量的一個小時;②高峰小時客流量,即高峰小時內產生的客流量。③客流量高峰小時系數,是指車站高峰小時內進站量(或出站量)占全日進站量(或出站量)的比例。
潮汐交通現象指的是早高峰進城方向客流量大,而晚高峰出城方向客流量大的現象。具體指標包括:潮汐比,刻畫由于潮汐交通現象造成的軌道站點進出站客流不均衡性,即進站客流量與出站客流量的比值,分為早高峰潮汐比和晚高峰潮汐比。
聚類分析是一種無監督學習,根據相似度判定準則將樣本自動分為幾個不同群組。使得組內樣本各維變量相似,組間樣本多維變量相異。聚類算法能夠對數據進行科學合理的相似性度量,可有效挖掘數據內部特征,以達到分析數據特征的目的。采用K-means聚類算法進行車站客流識別。
McQueen首次提出了K均值聚類算法(K-means算法),迄今為止,很多聚類任務都選擇該經典算法[12]。這種聚類技術計算速度快,可解釋性強,對大數據集的處理效率較高。算法計算步驟如下。
步驟1對于給定包含m個元素的數據集,任意從該數據集中選取k個元素,作為初始聚類中心yi(i=1,2,…,k)。
步驟2依次計算每個元素到初始聚類中心的距離d(xj,yi),j=1,2,…,m;i=1,2,…,k;將各個元素xj按照歐氏距離最短原則劃分到相應的聚類中心。

步驟4根據“歐氏距離”最短原則,重新進行每個元素到各個聚類中心的分配。
步驟5判斷前后兩次形成的類是否相同,若滿足要求則迭代結束,若不滿足要求,則返回步驟2。
K-means算法可獲得指定聚類個數及其被指定屬于該聚類的數據點,難點在于初始聚類數K值的確定, 為有效評價聚類效果,度量聚類性能,采用輪廓系數法確定聚類數目,樣本輪廓系數定義為

(2)
式(2)中:s為樣本輪廓系數;a為樣本與同一簇類中的其他樣本點的平均距離;b為樣本與距離最近簇類中所有樣本點的平均距離。
通過采集重慶軌道3號線乘客刷卡數據,提取軌道站點客流量指標,采用K-means算法對車站客流模式進行聚類。利用輪廓系數法評價聚類性能,確定最佳初始聚類數K。
工作日、周末和節假日的軌道數據差異較大,工作日以通勤客流為主,客流相對穩定,早、晚高峰客流較為密集;周末和節假日以休閑娛樂、外出旅游客流為主,客流較為分散多樣。采用不同時期客流數據進行聚類,更全面分析軌道車站客流模式。為探究不同客流指標對聚類結果的影響,選取客流量、高峰時段、潮汐比3個特征變量得到聚類結果如下。
4.1.1 基于客流量的聚類結果
以1個月的工作日、周末和節假日的全日平均進出站客流量為特征變量,得到基于客流量數據指標的聚類結果如圖4所示。其中,label 1、label 2、label 3分別表示聚類結果類別1、類別2、類別3。

圖4 基于客流量聚類結果Fig.4 Clustering results based on passenger flow
根據客流量聚類結果,第1類車站客流量區間跨度較小,為一般通勤站點。第2類車站客流聚類結果不穩定,說明該類車站客流受周末、節假日影響大,結合實際站點情況分析,聚類結果變動站點均為城市大型對外樞紐接駁軌道站點,如重慶北站南廣場和四公里軌道站點。第3類車站客流量最大,聚類結果穩定,屬于持續高客流模式,是集商圈、旅游景點為一體的復合型站點。
4.1.2 基于高峰時段的聚類結果
車站客流高峰時段是乘客出行時間集中性的體現,能夠反映乘客出行目的。圖5為基于高峰時段數據指標的聚類結果。工作日高峰時段集中在早、晚高峰,早高峰07:00—09:00,晚高峰17:00—19:00。圖5(a)中,第1類客流(label 1)為進站早高峰、出站晚高峰,屬于居住區通勤站點;第2類客流(label 2)為進站晚高峰、出站早高峰,屬于工作區通勤站點;第3類客流(label 3)進出站高峰時段均在早高峰,屬于復合型站點。圖5(b)、圖5(c)中,周末、節假日客流高峰時段分散,進站早高峰現象弱化明顯,14:00—16:00出現午后高峰,晚高峰時段后延,聚類結果數目增加。說明周末、節假日乘客出行以休閑娛樂、外出旅游為主,出行彈性較大,出行時段分散。線路兩端公交樞紐站場接駁站點、旅游景點和高校屬性站點是形成午后高峰的主要原因,使得下午出行需求增加。
4.1.3 基于潮汐比的聚類結果
潮汐比能夠反映車站客流職住關系,挖掘站點周圍環境。圖6為基于軌道站點潮汐比數據指標的聚類結果。工作日第1類車站客流早、晚高峰潮汐現象較弱;第2類車站客流早高峰潮汐現象明顯,早高峰進站客流量大,出站客流量較小;第3類車站客流晚高峰進站客流量大,出站客流量小。周末、節假日將潮汐比數據聚為4類,分別為早高峰潮汐偏向型(label 1)、晚高峰潮汐偏向型(label 2)、早高峰潮汐主導型(label 3)、晚高峰潮汐主導型(label 4)。

圖6 基于潮汐比聚類結果Fig.6 Clustering results based on tidal ratio
4.1.4 綜合分類結果
利用單一客流指標來判斷軌道車站客流模式不夠全面,不能完全反映實際情況。綜合客流量、高峰時段、潮汐比客流指標,多維度提取乘客出行特征,多角度挖掘車站客流模式。聚類結果如表2所示。

表2 一日客流指標聚類結果
為驗證聚類結果穩定性,分析數據對分類結果的影響,分別選取1周數據和1個月數據為對象,對軌道車站客流進行聚類,聚類結果如表3所示。結果顯示客流模式趨于一致站點比例高達89%,驗證了聚類結果具有良好的穩定性。1月數據能夠識別出對周末、節假日更為敏感的樞紐型、旅游景點型站點客流,更全面反映站點客流類別,說明海量數據使得分類結果更為準確。
按照客流指標聚類結果對車站客流模式進行分析,挖掘站點在不同時段、不同區位的客流特征,得出如下結論。
(1)第1類車站客流特點是:早高峰進站客流稀少,出站客流密集,相反地,晚高峰進站客流大,出站客流小,全日客流總量較小,客流潮汐現象特別明顯。類中站點地區工業園布局較多,工作崗位密集,屬于城郊新興工業園區。
(2)第2類車站客流特點是:早高峰以進站客流為主,晚高峰以出站客流為主,早、晚高峰潮汐比差異大且與類別1呈相反態勢。類中站點處于線路終端,旅客乘降量較大,站點周圍以大型居住區為主,為城郊住宅區。
(3)第3類車站客流特點是:工作日客流量穩定,周末略有上升,節假日客流量激增;全日客流量較大,客流無明顯潮汐現象,各時段客流較平均。類中站點公交接駁線路多,交通用地比例大,站點客流對周末、節假日敏感,屬于城市對外交通樞紐區。
(4)第4類車站客流特點是:早、晚高峰進出站客流量大,其余時段呈客流平峰,無客流低谷時段。類中站點靠近城市商務核心區,旅客乘降量大,步行接駁環境優越,周圍建筑密度高,屬于城市中心型站點。其中,觀音橋為持續高客流站點;其余為商圈及商圈輻射站點。
(5)第5類車站客流特點是:進站客流量高峰時段在晚高峰,出站客流量高峰時段在早高峰,具有一定潮汐現象。類中站點早上出站客流較大,晚上則以進站客流為主,屬于一般工作區通勤站點。
(6)第6類車站客流特點是:全日客流量適中,早高峰進站客流量大,晚高峰出站客流量大,潮汐現象明顯,屬于一般居住區通勤站點。
(7)第7類車站客流特點是:進出站客流高峰均在早高峰期間,無明顯潮汐現象。類中站點旅客乘降量較大,各時段進出站客流量相當,屬于復合型通勤站點。
AFC數據是城市交通大數據的重要組成部分,深入挖掘其潛在價值信息對運營管理具有重要意義。通過提取AFC數據包含的軌道站點客流直接信息,構建客觀的客流分類指標,并結合K-means算法對軌道車站客流模式進行識別,以重慶軌道3號線連續1個月的AFC數據進行實證分析,探討了工作日、周末、節假日時期不同客流指標對聚類結果的影響,采用多變量客流指標將站點客流模式分為7類。但僅從站點客流數據角度分析客流模式,而未考慮站點周圍建筑環境的影響,后續將多源數據和客流數據有效結合,從更多維度、更長時間跨度對客流模式進一步深度挖掘,以促進軌道站點客流規律研究更加精細化。