鄭晏群,周夢麟
(1.深圳市綜合交通運行指揮中心,深圳518041;2.寧波市公安局軌道分局,寧波310021)
起始于2014年,公司化運營的無樁式共享單車開始在城市的街頭廣泛出現,并逐漸成為解決城市公共交通出行“最后一公里”的優選解決方案。但是,無樁式共享單車企業在運營期間頻現的投放資源浪費、營收效率太低等問題亟需解決。通過改善車輛的投放調度效率,優化車輛供需的時空匹配效率,提升車輛使用頻次將是有效的解決手段。
地鐵口通常是公交站點和共享自行車等城市內部交通方式銜接的關鍵節點,提升地鐵站點的共享單車接駁效率對整體效率的提升將起到重要作用。在該領域中,此前的研究工作主要集中在對地鐵出站客流和騎行需求的分析預測。F.Zhang和J.Zhao等人[1-2]2016年的研究提出依靠進出站的刷卡數據對整個乘客行程進行分析,進而實現站點的客流預測,但尚未有進一步研究對其中的共享單車騎行需求進行分析和推測。
相應需求研究的缺乏,主要是受限于以前感知設備的限制,很難得到乘客步行或者使用自行車、電動車等慢行交通工具的信息。較早研究文獻中的基本思路是依靠問卷調查[3],可靠性和樣本數目都不足以去進行系統性的科學研究[4-5]。近些年共享單車的普及使用以及其上面配置的GPS設備提供了準確的使用起始位置與時間,是非常優質的分析數據源[6-7]。在此之前針對樁式公共自行車的研究中,陳超等人的相關研究接駁模式,除了共享單車運營機構自身的數據處理,該研究也通過耦合地鐵客流數據與共享單車數據研究二者之間的接駁量化關系,為進一步展開相應時空域分析提供基礎。以此為基礎,結合POI目標點位置和已有的數據分析模式[8-10],對區域的人群移動模式分析,并使整個分析系統的數據源和分析結果可視化[11-13],并分析推測其移動的目的和意義,為公共交通決策提供支撐。
該研究的數據源基礎包括共享單車企業的區域運營統計數據,單車使用狀況和時空位置數據,選定地鐵站的進出客流數據。
針對共享單車的相關數據,研究中的數據選取2018年10月深圳共享單車使用數據,相較于樁式公共自行車數據量,共享單車使用情況的刻畫更為復雜,存在大量不能直接使用的數據,為方便后期的數據處理過程,數據抽取的字段需要進行定義。
此外,需要耦合的地鐵數據客流數據,主要來源于深圳通的記錄,包括刷卡站點、ID,以及刷卡時間。
數據獲取后需要對其進行相應的清洗評估、分析挖掘、融合延展和知識增強等操作處理流程,以實現對后續業務分析結果的支撐。
首先,研究中需要清除無效記錄和重復記錄,對于有軌跡漂移的記錄判斷其經緯度是否在深圳市范圍之內,之后進行判斷選擇清除(粗略的地球面深圳市矩形經緯度范圍輪廓經度:113.766666E-114.6166666E;緯度:2.45N-22.86666N)。
從宏觀的全局統計,此次選取的數據包括2018年10月深圳市的無樁式共享單車總量均值為468568;時間范圍涵蓋2018-10-01 00:00:00到2018-10-31 23:59:59;空間位置的輪廓緯度:22.440738E-22.876659E,經度:113.7566616N-114.6220976N??紤]到單車有可能定位在深圳市與其他地區交界的范圍,清洗的經緯度范圍覆蓋:113.75666E-114.62666E,緯度22.44N-22.87666N,范圍未超出清洗的經緯度范圍。根據新范圍統計抽取,單車使用的總次數為34961797,日均單車使用次數為1127799次/天。對單車使用次數進行排序,排名最高的五輛車,使用次數超過的1000次,而且最多的達到了2360次,樣本體量相當龐大。
同時,區域范圍內地鐵客流是該研究分析預測的關鍵組成部分,基本思路是通過進出站客流統計數據的特征字段對區域內車站客流的宏觀特征分析預測。這里涉及的原始數據體量都相對較大,對其前期的處理基于Hadoop大數據處理平臺,后期算法設計與執行也是在相應的框架內實現,其中涉及的算法涵蓋了數據儲存的HBASE算法,數據處理運用了PIG和HIVE相關軟件,整個map-reduce過程都有相關算法支撐。對于深圳通ID的乘車記錄,每一次都會有兩條刷卡記錄,選取時間較晚的一條作為后續算法中與共享單車記錄的匹配。
通過共享單車使用過程數據并不能建立地鐵刷卡ID與單車使用ID的有效匹配,對此問題的基本構想是利用概率統計算法對整個過程進行數據處理。日常的慢行交通普遍通勤距離較短,因此可以在特定區域內的時間尺度上設定初始閾值,然后選擇一個較小值以實現后續的迭代分析。根據相關研究的統計,在日常通勤中用戶普遍的步行換乘區間在1.23km[5]以內,因此設定1.23km為初始迭代閾值選擇范圍上限。如果在最終迭代完成的算法中,依舊存在大量該范圍以外時刻的共享單車使用記錄,那么會進一步擴大閾值上限范圍。在選擇初始的閾值范圍以后,我們需要選擇客流出站時間與共享單車掃碼時間相匹配[14],具體匹配的算法流程如下描述:
(1)設定用戶的平均步行速度為v,掃碼時間為b。
(2)根據地鐵的時刻表,記錄所有的地鐵到站時間。以任一地鐵到站為例,單車GPS位置到地鐵站距離a,接駁時間為t+(a/v)+b,如果記錄滿足a小于閾值范圍且時間大于接駁時間,記錄改共享單車記錄為接駁記錄。
(3)由于各個地鐵站位置,地形不同,很可能出現距離較近但從地鐵接駁共享單車的時間遠大于經驗值的情況,之后重新選擇閾值范圍進行迭代。
(4)由于整個概率模型相對較為粗糙,所以需要對比上班-空閑,周末-周內,高峰-低谷等多種情況對于算法模型進行優化。初始的算法迭代需要依靠大量的歷史記錄作為基礎,且需要與地鐵整個客流情況作為判斷的基礎。
通過這樣的基本流程,可實現地鐵站出站客流與共享單車的使用數據進行匹配,在一定準確率范圍上對地鐵站點周邊共享單車需求進行分析。這里以地鐵3號線為例,選擇其中一個站點進行地鐵客流和共享單車使用數據進行耦合匹配。
得到數據后可以用算法不斷調整整個模型,目前算法已經能較為精準的判斷接駁使用情況,結合后文的移動模式分析已經可以作為初步的決策判斷輔助。
得到共享單車與相同的區位地鐵站客流相應數據處理之后,就可以結合共享單車的數據與已有的人群模式算法相結合得到更精細的移動模式結果,并實現結果的可視化。
在初步的接駁匹配結果的基礎上,為了分析共享
單車和地鐵站之間更準確的接駁關系,首先對各個地鐵站進行空間區域的功能屬性劃分。此過程使用的是深圳市地鐵POI數據,數據來源是百度提供的地圖服務器,其將POI數據分為19類,并在一級分類結果下劃分了二級行業分類。
引入POI數據后,后續研究基于DBSCAN算法[15]:一個聚類可以由其中核心對象確定,主要依靠空間點密度分類,大致算法流程為:
輸入數據:地鐵樣本集D=(x1,x2,...,xm)(已有的地鐵站信息),鄰域參數(?,MinPts)(判斷的一個范圍值),樣本距離度量方式(同樣也是一個判斷值)
輸出數據:簇劃分C(針對具體的站點的類別)。
(1)設定地鐵站位置為核心點集合Ω,聚類簇數k為地鐵站數目,對所有POI進行編號,去除沒有具體定位的POI位置。
(2)首先標出各個地鐵站的經緯度位置,在此基礎上加入POI具體的經緯度位置信息,以每個地鐵站位置作為聚類中心,在選定的鄰域參數MinPts內,只要存在POI點在地鐵站核心位置內,歸為指定類別。
(3)如果出現一個POI點的位置到兩個地鐵站的位置都在MinPts范圍之內,那么默認這個POI點被兩個地鐵站所包括。
(4)最后進行遍歷,再對所有的地鐵站進行遍歷,就可以輸出地鐵站劃分。
由于該算法的初始核心點和位置都已確定,只需更改距離閾值范圍并可以對整個算法準確性進行迭代,引入評估方法輪廓系數,則得到下列公式:

(1)s(i)計算樣本i到同簇其他樣本到平均距離ai。ai越小,說明樣本i越應該被聚類到該簇(將ai稱為樣本i到簇內不相似度)。
(2)S(i)計算樣本i到其他某簇Cj的所有樣本的平均距離bij,稱為樣本i與簇Cj的不相似度。定義為樣本i的簇間不相似度:bi=min(bi1,bi2,···,bik2)
若si接近1,則說明樣本i聚類合理;若si接近-1,則說明樣本i更應該分類到另外的簇;若si近似為0,則說明樣本i在兩個簇的邊界上;如果整體偏差過大則重新迭代。

圖1 區域功能屬性的聚類分析結果
得到POI處理結果以后,需要對所聚類點進行分類,得到各個地鐵站的特征值,用雷達圖處理較為簡便:
即每個射線表示一個維度,雷達視圖的中心值為0,往外逐漸增大,在本發明中可以直觀的顯示出各個地鐵站的特征屬性,即可以得到各個地鐵站的屬性信息這里選取的是兩個聚類之間的關系,可以看到把POI信息分類以后每個聚類項屬性權重是不相同的。
之前的慢行交通無法分析用戶使用共享單車的目的已經移動模式。根據研究上文算法判斷出哪些用戶使用了共享單車后,可以根據各個地鐵站的屬性,POI的類型點,從共享單車使用頻繁的地方,判斷其出行屬于正常通勤,住宅,還是商業因素影響客流移動,也可以分析出哪些用途會使得用戶更加青睞使用共享單車。
樁式公共自行車相較于無樁式共享單車,其由于站點位置的固定性,導致統計OD使用情況并沒有很高的統計意義。從其使用特性來看也只有通勤的使用者會選擇使用公共自行車,而政府的設定目標也是解決用戶通勤使用習慣,相較于共享單車少了許多維度可分析的意義。整個系統可視化結果如圖2所示。
由于深圳地圖的覆蓋范圍相當龐大,地圖選點數據量過大,顯示的時候對線路進行了簡化,大地圖上顯示的只有目前客流量較大的線路圖。

圖2 區域功能屬性的聚類分析結果

圖3 區域功能屬性的聚類分析結果
除了線路圖的可視化呈現,整個分析系統還可以熱力圖的形式表示換乘客客流的密度。
基于現有的數據,相較于醫院、教育等屬性,共享單車的使用者還是較為集中在住宅區域,而且明顯客流較大的地鐵站有大量的共享單車使用記錄,一方面說明確實符合人們的固有印象,另一方面也是由于較大地鐵站周圍換乘人數較多,較為方便能找到共享單車。
根據的數據分析的使用,如果出現了共享單車使用頻繁的情況且并沒有明顯的POI屬性的差距,可以把具體站點的情況重新劃定范圍進行迭代并且額外標注其屬性類別。
本文探討了共享單車接駁地鐵的相關算法和分析系統。相較于之前較為偏平,簡單的分析系統,將更加多元的數據與其他相關系統的結合能得到更加準確、有效的結果。算法研究的前半部分對判斷地鐵站周圍的無樁式共享單車使用情況提出了一個基本判斷方法,主要是基于人們出行的時間消耗容忍度;后半部分的數據分析系統,除去共享單車,目前還加入了公交和網約車的數據,讓整個數據分析更精確可靠,同時呈現的結果功能和效果更完善,可以更好地輔助決策者。
未來的研究深入可以通過關系算法的改進、新的有效數據源接入、關鍵判別字段的優化等方面使分析結果更精細化,可視化效果更具直觀性、支撐性。