李淑慶,劉耀鴻,邱豪基
(重慶交通大學 交通運輸學院,重慶 400074)
通勤出行是城市交通的主體,通勤出行特征是城市交通規劃和交通設施配置的重要依據。與傳統的調查問卷方法相比,利用大數據技術更能全面、真實、準確分析通勤出行特征,獲取通勤客流規律。基于公交IC卡與GPS數據,深入剖析公交通勤乘客的出行特征,不僅能為城市公交系統規劃與優化、定制公交線路與站點的設置提供基礎數據,也能為科學引導通勤客流使用公交系統出行、進行線路優化與運營管理、緩解城市交通擁堵提供數據支撐。
國內外學者基于IC卡與GPS數據對公交通勤出行特征研究已取得一定的成果。S.FOELL等[1]分析了葡萄牙里斯本公共交通系統中乘客刷卡的時空分布特征和個別公交車的使用情況。LI Guangxia等[2]分析了新加坡兩票制公交系統IC卡數據,通過時空聚類法篩選上下車頻率靠前的公交站點,利用頻譜分析與啟發式方法判斷乘客的居住點。;王月玥[3]提出了公交通勤出行鏈提取的“四階段”法,即出行鏈結構提取、通勤出行行為判別、出行階段起訖點時空信息匹配、出行階段行程距離和時間匹配,以北京市為例,分析了公交通勤出行特征;李瑩[4]利用公交IC卡和GPS數據對公交出行乘客進行分類,并就各類乘客在時空、換乘等方面的出行特征進行分析;羅霞等[5]基于AVL和IC卡數據,利用乘車頻次統計法和空間聚類法推導了通勤OD,并對通勤乘客進行了分析;文婧等[6]在千余份調查問卷的基礎上,對北京市4個不同就業空間結構樣本進行了不同的通勤距離、時間、效率特征比較,推導出通勤特征的內在規律;梁泉等[7]基于個體出行圖譜構建,提取了出行天數、出行次數、OD分類數、出行往返性、集中出發時間、路徑唯一性與出行空間均衡性7個指標;曹晨等[8]基于調查問卷構建結構方程模型,分析就業者通勤距離、通勤時間及通勤模式三者的關系及其對心理健康、身體健康以及健康行為的影響;翁小雄等[9]建立了機器學習算法通勤識別模型,制定調查問卷獲取訓練數據,利用GBDT算法訓練分類模型,完成通勤識別。
目前國內外基于IC卡與GPS數據,對公交通勤出行特征主要針對“車”進行的碎片化研究,而將乘客“人”作為研究對象,對公交出行鏈特征、區間客流不均衡特征、職住平衡水平及線路黏性等的出行特征研究較少,提取的特征參數不完整。因此,筆者基于公交IC卡與GPS數據,從“人”的視角,分析研究較完整的通勤特征參數提取方法。
目前城市公共交通系統一般能收集IC卡數據與GPS數據。由于數據采集設備的不穩定性及周圍環境的復雜性影響,所收集到的數據存在著異常數據、數據丟失、數據重復等問題。因此,在進行數據融合和應用之前,需要進行數據預處理。
數據異常是指數據中某些屬性值明顯超出正常范圍或者數據中存在某些格式不正確的屬性值。如IC卡數據中的刷卡時間超出了公交運營時間或者刷卡時間出現亂碼。一般這類數據量較少,可直接將其刪除。
數據丟失是指數據采集或保存的失敗造成的數據丟失現象,這類字段的缺失影響后續的分析過程。如GPS數據中的公交車速數據丟失,公交車GPS數據每條信息的時間間隔一般為10 s,可以近似地將公交運行看作勻變速運動,采用時間序列插值補缺。其他特征可采用均值插值補缺。
數據重復是指數據中某條字段重復出行的現象。如在公交IC卡數據中,出現極短時間內,甚至一分鐘內,同一卡號多次刷卡的現象,則僅保留第1條數據,其他則剔除。
公交IC卡與GPS數據預處理具體過程可參考文獻[10-11]。
公交通勤出行鏈(public transport trip chain)是指通勤出行者乘坐公交從出行起點到達終點的一個完整的過程。該出行過程由若干個出行階段構成,每一出行階段代表出行者使用一次公共交通工具[3]。
公交IC卡數據記錄了乘客上車刷卡信息和乘坐車輛信息,但不能記錄出行位置信息。目前大多數城市的公交系統采用 “一票制”收費方式,乘客只在上車時刷卡,下車不刷卡,因此無法獲取乘客的下車信息。參考文獻[3,9],基于公交IC卡與GPS數據的預處理結果,利用GPS數據推算出公交車輛的到站時間、上車站點匹配、下車站點匹配和換乘站點位置;應用通勤出行行為判別法識別出通勤乘客,完成公交通勤出行鏈的構建,構建流程如圖1。

圖1 公交通勤出行鏈構建流程Fig. 1 Construction flow chart of bus commuting travel chain
從公交出行鏈特征、區間客流不均衡系數、職住平衡水平與線路黏性系數4個維度分析計算公交通勤特征參數。
公交出行鏈特征主要包括出行鏈階段數、出行鏈個數和出行鏈換乘次數。
3.1.1 公交出行鏈階段數
公交出行鏈階段數指一天各閉合出行鏈中乘坐公交的階段數之和,單位為個/日,即乘客從居住地出發,下班后最終回到居住地,乘坐公交出行的階段總個數。出行鏈階段數一定程度反映通勤者在工作日中是否存在除通勤之外的其他活動,反映通勤者的生活多樣化。
3.1.2 公交出行鏈個數
公交出行鏈個數指通勤者在當天活動中存在的完整出行鏈個數,單位為個/日。通勤者從居住地出發到就職地上班后,一般情況是下班后再回到居住地,即只有一條閉合出行鏈,若通勤者的出行鏈次數大于1,則該通勤者的居住地可能與就職地較近,有兩次及以上的返家現象。
3.1.3 公交出行鏈換乘次數
公交出行換乘次數是指一次閉合公交出行鏈中所有出行階段產生的換乘次數的總和,單位為次/個。 換乘次數的大小一定程度上反映了公交出行者乘車出行的直達性。
參考文獻[12],定義線路長度超過15 km的線路為長線公交,不足15 km的線路為常規線公交。
不同時段或路段的公交客流量大小通常有明顯的差異,即客流不均勻性。
假設一條公交線路在某行駛方向上共有n個站點,則該線路在該行駛方向上共有n-1個運行區間。若在該行駛方向上共有m個班次,途徑n-1個運行區間,定義所有運行區間實際載客量矩陣P為:
(1)
式中:Pij為在第i[1,m]班次公交車輛在第j[1,n-1]個運行區間中的實際載客量,計算公式為:
(2)
式中:Uk和Dk分別為第i班次公交車輛在k[1,n]站點上車人數和下車人數。
區間客流不均衡系數L為當天該線路全部區間實際載客量最大值與載客量均值的比值。該指標反映線路在當天的載客量穩定程度,數值越大則說明該線路的客流在各區間上分布越不均衡,計算公式為:
(3)
隨著城市機動化水平的不斷提高,城市職住分離現象越來越嚴重[13]。參考ZHOU Xingang[14]的測度職住平衡度方法,基于區域內的居住人數、就業人數、外出通勤率、外來通勤率,用區域通勤規模和區域獨立系數指標來衡量區域的職住平衡水平。
3.3.1 區域通勤規模
區域通勤規模CCIAB反映區域之間通勤聯系程度的大小,數值等于往返兩個區域之間的通勤人數之和,計算公式為:
CCIAB=QAB+QBA
(4)
式中:QAB為居住在A區而在B區就職的通勤人數;QBA為居住在B區而在A區就職的人數。
3.3.2 區域獨立系數
區域獨立系數RIA可量化該區域的通勤獨立程度,數值等于該區域的外來通勤率ECRA與外出通勤率OCRA之和的倒數,計算公式為:
(5)
(6)
(7)
式中:DA為在A區域就職的人數;OA為在A區域居住的就職人數;QAA為在A區域居住且就職的人數。
公交通勤乘客出行一般有多條公交線路可選擇,但往往會“偏好”某條線路[15],筆者給出線路黏性系數來量化這種“偏好”程度,黏性系數大的乘客在通勤出行時傾向選擇同一條線路,而黏性系數小的乘客在通勤出行時的線路選擇往往更加多樣化。
利用生物學量化生態系統物種多樣性的辛普森多樣系數(diversity index),來研究乘客選擇公交的多樣性。假設研究時間段內共有p名通勤乘客,共選擇了q條不同線路,則所有乘客遍歷選擇公交線路的矩陣X為:
(8)

(9)
從式(9)可以看出,若乘客g只選擇一條公交線路,則DIg的值為0;若乘客g均勻地選擇乘坐q條線路(即:ng1=ng2=…=ngq),則DIg的值為1-1/q。選擇的線路越多、選擇線路分布越均勻,則該值越大,反之亦然。
顯然,黏性系數是反應乘客選擇公交線路的“偏好”性。一般說,乘客選擇公交線路多樣性越強,則黏性系數越小。當乘客僅選擇一條公交線路時具有更高的黏性。然而,多樣性同時考慮了選擇線路的豐富度與均勻度,黏性與豐富度關系較弱。線路黏性系數SIg的定義如式(10):
(10)
從式(10)可知,當通勤者均勻地選擇所有可能線路時,SIg的值為0,代表沒有黏性。當乘客只乘坐一條線路時,SIg的值為1,即SIg取值范圍為0 (11) (12) 以重慶市主城區2019年1月21日至25日,連續5個工作日650條公交線路中的47條代表性線路的公交IC卡與GPS數據進行通勤特征應用分析。 對重慶市主城區連續5個工作日47條代表性線路的公交基礎數據進行預處理,識別出261 284位通勤人員,構建通勤出行鏈,得到了乘客的通勤出行鏈數據,包括卡號、線路號、上車站點、上車時間、下車站點、下車時間、換乘站點和換乘時間,如表1。 表1 乘客出行鏈數據表示例(部分)Table 1 Data table of passenger trip chain (partial) 對構建的公交通勤出行鏈進行分析,得到出行鏈階段數、出行鏈個數和出行鏈換乘次數如圖2~圖4。 圖4 通勤換乘次數分布Fig. 4 Distribution of commuting and transfering times 由圖2可知:大部分通勤者的出行鏈階段數為2,即只有居住地—工作地—居住地這種出行模式;而階段數為3的占比不足10%,這類人在工作之余還可以中午返回居住地。計算樣本整體的出行鏈階段數均值為2.06,表明該城市通勤者生活節奏快,基本上只在居住地與工作地之間往返。 圖2 通勤出行鏈階段數分布Fig. 2 Distribution of phases in commuter travel chain 由圖3可知:出行鏈個數為一次的通勤人群占比49.95%、個數為2的占比36.50%,這符合通勤者把一天的通勤安排在一次閉合出行的現實規律。 圖3 通勤出行鏈個數分布Fig. 3 Distribution of the number of commute travel chain 由圖4可知:早高峰通勤者一次換乘占15.5%,2次換乘占6.9%;晚高峰通勤者一次換乘占16.6%,2次換乘占4.2%;通勤出行中,早晚高峰中沒有換乘的比例分別為76.9%和78.6%。總體來看,早晚高峰中沒有換乘或僅有一次換乘占比為93.8%,表明多數公交通勤者出行換乘次數較少。 在構建的所有公交線路公交通勤出行鏈中隨機選取兩條常規線(線路長度小于15 km):475路和809路,3條長線(線路長度大于15 km):872路、819路和319路。 根據式(2),計算出5條線路在各區間的實際載客量總和,其中線路475和線路872的客流量分布情況如圖5、圖6。 ③目標的確立。從醫院未來發展考慮,從兩方面入手,一方面為院內宣傳環境,另一方面為院外宣傳環境。樹立人人是標桿人人要發聲的主人翁意識陣地意識。在標識管理上,加強可視性物體醫院文化元素的植入應用,打造溫馨、安全、方便、和諧的就醫環境。加強培訓和管理,建立有效考核機制,增強主動參與意識。與院外媒體積極溝通協調,加強主流媒體發聲,擴大醫院正能量宣傳范圍和力度,了解輿情動態,提高負面輿情的主動處置能力和應對水平。對全院的工作人員進行引導,確保思想統一,從而為患者展現良好形象。 圖5 475路公交各區間客流分布Fig. 5 Passenger flow distribution of 475 bus in different sections 圖6 872路公交各區間客流分布Fig. 6 Passenger flow distribution of 872 bus in different sections 根據式(3),計算出5條線路早晚高峰及兩個行駛方向的區間客流不均衡系數,如表2。 表2 5條線路的區間客流不均衡系數Table 2 Section passenger flow imbalance coefficient of 5 lines 由圖5、圖6和表2分析可得:兩條常規公交線路長度和站點數量合適,站點客流量分布較為均衡;而3條長線公交的線路較長,站點數量多,分布為“單峰型”形態。 參考文獻[16],大城市通勤線路的區間不均衡系數L取值一般應低于1.5。分析表2可知,重慶市常規通勤線路滿足L值小于1.5,長線公交則高于1.5。這說明山地城市重慶的長線公交乘客需求較大,總體運力不足,可采取增加發車頻次、增加定制公交等方式,保持線路各站點間運力與運量的平衡。 重慶市主城區由渝中區、沙坪壩區、九龍坡區、大渡口區、渝北區、江北區、南岸區、巴南區、北碚區組成,基于公交IC卡及GPS數據,分析各區的職住平衡水平。 筆者假定通勤者在一天中的最后一次出行鏈的下車站點為通勤者的居住地,第一次出行鏈的下車站點為通勤者的就職地。根據式(4)~式(7),計算出各區的通勤規模與區域獨立系數如表3、表4。 表3 重慶市主城區不同城區的通勤規模Table 3 CCI values in different urban areas of Chongqing 表4 重慶市主城區不同城區的獨立系數Table 4 RI values in different urban areas of Chongqing 分析表3、表4得出:不論是核心城區還是外圍城區,在本地居住且就職的人數均大于外出到其他各區的就業人數,因此城區內部的CCI指標普遍大于城區外部的CCI值,這充分表明了重慶主團城市布局的特性;其中,大渡口和巴南兩個城區的內部通勤規模最大。 從就業和居住方面來看,重慶市主城各區居住與就業近一半通勤者均在同一城區。外圍城區的平均外出通勤率和外來通勤率分別為51.23%和51.15%。核心城區的平均外出通勤率和外來通勤率分別為42.11%和55.30%。居住在核心城區通勤者約58%是在本城區就業,僅有42%的通勤者外出就業,因此核心城區的獨立系數普遍比外圍城區更大。 根據式(9)~式(12),計算出通勤人群中的線路黏性系數(SI)及其均值、標準差,如圖7、表5。 圖7 黏性系數頻率分布Fig. 7 Frequency distribution of viscosity coefficient 表5 線路黏性系數總體情況Table 5 General situation of line viscosity coefficient 由圖7和表5可知:黏性系數頻率分布圖整體呈現左偏趨勢,總體樣本的SI均值與標準差分別為0.385 2和0.203 1,線路黏性系數為0.5以下的占73.9%,0.5以上的占26.1%,說明有26.1%的通勤者在選擇通勤線路時具有較強黏性,而73.9%的通勤者在選擇通勤線路時沒有特別“依賴”某條線路。 由于公交線路的多樣性,通勤者在等待公交時,會優先選擇先到達公交站點的公交線路;地面公交不同于地鐵輕軌,通勤者選擇地鐵軌道的線路相較公交線路固定單一,而公交線路比較豐富多樣,使得通勤者出行時選擇的線路具有多樣化、均等化。 基于公交IC卡與GPS數據對通勤乘客的出行特征進行研究,創新性提出了較完整反映公交通勤客流特征4個維度指標參數,包括公交出行鏈特征、區間客流不均衡系數、職住平衡水平及線路黏性系數的計算方法。以重慶市主城區連續5個工作日47條典型公交線路的公交IC卡及GPS數據為實例,進行重慶市主城區通勤出行特征分析,主要結論為: 1)大部分通勤者的出行鏈階段數為“2”;出行鏈個數為“1”的通勤人群占比49.95%,為“2”的占比36.50%;多數公交通勤者出行換乘次數較少。 2)常規線路的區間客流不均衡系數滿足小于1.5的特性;但長線公交不滿足這一特性,這反映了重慶主城區公交長距離出行需求較大的山地城市交通特征。 3)本地居住且就職的人數均大于外出到其他各區的就業人數;居住在核心城區通勤者約58%是在本城區就業,僅有42%的通勤者外出就業,核心城區的獨立系數普遍比外圍城區大。說明重慶市主城區職住平衡水平較高。 4)26.1%的通勤者在選擇通勤線路時具有較強黏性,73.9%通勤者在出行的線路選擇沒有特別“依賴”某條線路,往往具有多樣化和均等化。4 實例應用分析
4.1 出行鏈特征




4.2 區間客流不均衡系數



4.3 職住平衡水平


4.4 線路黏性系數


5 結 論