楊宇偉 顏英



摘? 要:在深入研究大數據在公交行業應用的基礎上,本研究提出了公交大數據綜合管理平臺的系統框架,研究設計了面向公交行業管理者、公交營運管理者和公交出行者的關鍵應用功能。基于容器、微服務和大數據等技術研制了公交大數據集群,并接入公交業務真實數據進行了平臺示范應用的效果驗證,證明了大數據挖掘成果的準確性和系統的可靠性,也證明了該技術對提升公交智能化運營管理效率、行業監管效率和服務水平具有重要意義。
關鍵詞:公交大數據;綜合管理平臺;功能設計
中圖分類號:U495;TP311.13? ? ? ?文獻標識碼:A 文章編號:2096-4706(2019)20-0016-04
Abstract:Based on the deep study of the application of big data in the public transportation industry,the paper proposes the system framework of the public transportation integrated management platform based on big data,studied and designed key application functions for public transport industry regulators,public transport operation managers and public travelers,the big data cluster of public transport was developed based on the technology of container,micro-service and big data and access to real data of public transport business to verify the effectiveness of the platform demonstration application,the accuracy of the big data mining results and the reliability of the system was proved. the significance of the technology was also proved in improving the efficiency of bus intelligent operation management,industry supervision efficiency and service level.
Keywords:public transport big data;integrated management platform;functional design
0? 引? 言
公共交通信息系統積累的海量多源異構數據具有明顯的大數據特征,大量的數據孤島和數據分析處理能力的缺乏,導致大量數據資源沒有得到充分有效的利用。隨著移動互聯網、人工智能、大數據、云計算等新一代技術在交通領域的應用日趨成熟,國內多家公司先后在智慧交通領域建設了交通大腦,如阿里巴巴的雙核“城市大腦+交通小腦”、杭州公交云的“公交數據大腦”、海信的“城市智慧心臟”、滴滴的“滴滴大腦”等。它們都對海量數據進行了充分利用,挖掘數據之間的關聯,從已有數據中挖掘有價值的信息。
由于現有大數據產品更側重于移動支付等公交信息化應用,尚未全面覆蓋公交運營管理和決策等業務應用,所以沒有實際有效解決公交運營管理痛點。為了挖掘更多的公交應用潛力,進一步提高公交智能化管理運營效率和服務水平。本研究深入探索大型公交集團運營管理與決策應用需求,從公交行業管理者、公交營運管理者和公交出行者的角度進行了關鍵應用功能設計,自主研制了公交大數據綜合管理平臺,并基于公交運營真實數據進行了示范應用,效果證明該平臺實現和提升了公交運行的綜合管控效率和運營效率,對原有公交行業智能化管理水平的提升具有重要推動作用。
1? 公交大數據綜合管理平臺系統框架設計
公交大數據綜合管理平臺通過底層設備采集海量多源的公交業務原始數據,經過接入、存儲、處理與分析后,為公交行業管理者、公交營運管理者和公交出行者提供不同層面的信息服務。平臺系統架構如圖1所示。
整個系統架構采用插件化和分層設計思想,邏輯上主要分為數據采集層、數據集成層、平臺處理層、應用層和展示層。每一模塊層通過邊界接口與上層或下層的模塊層進行交互,避免跨層的交互,各功能模塊是高內聚、松耦合的。且平臺從物理安全、網絡安全、應用安全、數據安全和主機安全等方面確保整體的安全性。每層功能的簡要介紹如下。
(1)數據采集層:平臺將公交基礎數據、實時數據、流媒體數據、地圖數據和其他數據(如公交客流數據、車載GPS數據、信號優先數據、車輛狀態數據、站臺/車輛/場站視頻、和天氣等)通過數據集成層匯聚到公交大數據平臺中;
(2)數據集成層:數據集成層包括數據預處理服務和消息傳輸服務。為平臺提供數據導入、抽取清洗、協議轉換、格式處理、數據編碼、消息發布訂閱等功能。通過ETL工具對采集的多源異構數據進行預處理后,將數據傳輸到大數據平臺存儲,或者通過消息發布訂閱中間件將數據傳輸到平臺處理層。其中數據預處理包括數據抽取、數據清洗、數據轉換、數據編碼和數據加載等,對數據質量進行判別和處理。比如對數據格式進行規范化轉換,過濾掉對實際業務毫無意義的臟數據,對不完整的數據進行補缺操作,對錯誤數據進行修正,以及按照一定的算法篩選出滿足特定數據分析需求的數據;
(3)平臺處理層:平臺處理層包括數據存儲與管理、集群資源管理、資源協調調度、大數據處理引擎、容器管理和微服務等功能模塊,為大數據的應用提供全方位支持。負責將數據集成層清洗處理后的數據進行高效的存儲與管理,根據對數據分析實時性和數據處理場景的不同需求,利用業務規則或數據挖掘等算法在大數據處理引擎進行分布式計算,對公交非實時應用進行離線批處理,對公交車輛到站預報等實時應用進行在線流處理。為了防止集群資源的浪費,平臺對集群資源進行管理和協調調度,協調多種資源的分配和管理。輔助管理提供易用性、可維護性以及健壯性的框架,實現大數據平臺的統一管理和運維;
(4)應用層:深入研究公交相關應用的規律和機理,應用層下達任務執行指令到平臺處理層,不斷對算法模型(如到站預報、客流分析等算法)進行選取、效果評估驗證和調整優化,直至返回的測評結果符合預期,最終實現到站預報、客流分析等大數據應用;
(5)展示層:根據不同用戶的需求,設計開發面向公交行業管理者、營運管理者和公眾的可視化示范展示系統,可視化呈現公交基礎信息、公交安全運營信息、服務綜合水平信息、公交擁擠度信息和公交客流信息等各類信息。
2? 公交大數據綜合管理平臺關鍵應用功能設計
本研究主要探索設計公交典型業務的大數據應用,從公交營運管理、公交監督和決策等角度設計不同的專題,基于公交大數據平臺,對采集的海量公交業務數據進行分析,實現公交行業的大數據挖掘和應用,為公交出行者、營運管理者和行業監督者提供服務,為輔助決策提供數據指標支撐,通過大數據平臺進一步提升統計效率、精確度和實時性。
2.1? 面向公交出行者的數據挖掘與應用
本研究以提高乘客信息發布的準確度、擴充乘客信息發布的內容和形式、為公眾提供豐富智能化的公眾出行服務為目的。面向公交出行者的數據挖掘與應用包括基于視頻監控的公交擁擠度信息計算與發布和基于大數據的公交到站時間預測優化等典型應用。
2.1.1? 基于視頻監控的公交擁擠度信息的計算與發布
本研究在基于視頻終端擁擠度識別技術和視頻圖像識別技術的基礎上,研究設計了基于視頻監控的車內擁擠度判別技術,在公交大數據平臺分析海量視頻流數據,對算法模型進行迭代優化,從而實現車輛擁擠度、車輛滿載率、車輛乘坐舒適度等指標的自動發布,為公眾提供實時準確的交通出行信息服務,幫助出行者根據交通狀況選擇更合適的出行路線及換乘方式,減少因擁堵造成的時間成本浪費。
2.1.2? 基于大數據的公交到站時間預測優化
以公交基礎數據、公交車輛實時到站數據為輸入內容,考慮天氣、路段、時間段、工作日等影響因子的權重,采用支持向量機和卡爾曼濾波相結合的方案,設計基于大數據的公交到站時間預測算法,在公交大數據平臺對數據進行實時分析比對,迭代優化、自主進化,不斷對模型進行修正,提高模型的抗干擾能力和預測的準確性。利用大數據分析優化公交到站時間預測,提高到站預測的精度和性能。實時準確地為乘客提供公交車輛到站時間預測和到站距離查詢服務,優化客戶候車預期,減輕乘客等候過程中的焦慮感,從而節約乘客的出行時間,提升客戶滿意度,吸引更多乘客采用公交出行方式。
2.2? 面向公交營運管理者的數據挖掘與應用
本研究以提高營運管理者的綜合管理效率為目的。面向公交營運管理者的數據挖掘與應用包括基于大數據的公交行車計劃智能編制、基于大數據的公交客流信息分析、基于大數據的公交安全隱患監測等典型應用。
2.2.1? 基于大數據的公交行車計劃智能編制
現有的行車計劃以人工編制為主,依賴編制者的經驗,更新頻率較低,無法滿足需求供給變化和應對突發情況。利用公交大數據處理平臺匯聚的海量多源數據,設計基于大數據的公交行車計劃智能編制算法,在深度學習中對算法模型進行效果評估和不斷修正,根據不同場景(比如天氣、活動、節假日等)自動優化運行計劃,提高運行計劃編制的智能化程度,輔助公交運營部門掌握城市客流波動趨勢和線網運能飽和度,精確制定調度排班計劃,實現實時智能調配,提高調度管理效率,為進一步開辟全新公共交通線路、輔助線路優化等提供支持,實現公共出行供需側運力平衡。
2.2.2? 基于大數據的公交客流信息分析
通過客流采集設備、GPS、售票機、閘機等多源公交客流數據,結合圖像識別處理和時間對應法則等技術,對客流出行特征、人群時空分布等進行大數據分析,用各種方式(如不同顏色、報表等)向運營管理者展示線路客流情況,展示不同時空層次下不同線路、班次或站點的客流分布。為公交計劃排班、公交調度及線路調整提供數據支撐。
平臺還可以預測客流高峰時間段,通過對大客流進行自動識別、預警和實時監控,為應急預案提供輔助支撐,包括輔助高峰時間段大站排班調整,運營時間調整等優化方案的制定。在該時間段內適當增加車輛班次,緩解運力緊張。
2.2.3? 基于大數據的公交安全隱患監測分析
采集公交車輛、駕駛員、線路、場站等數據,比如駕駛員的年齡、身體狀況、駕齡方面的數據,以及線路重點站臺和路段、場站車速管控、人車分離等方面的數據。運用關聯規則算法,找到和事故有強關聯的影響因素,結合視頻圖像識別技術,在大數據平臺通過車輛實時運行數據和視頻監控畫面提取分析駕駛員的疲勞駕駛和酒駕等情況,生成公交車輛和駕駛員的安全畫像。對行車過程中的車輛和駕駛員的安全隱患進行組合風險評估和實時排名分析,實現對車輛和駕駛員安全行車的實時監測和報警預警,為安全行車提供決策支持。對安全風險較高的異常車輛(如事故高發公交車輛)進行重點監控,增加維護頻率。在行駛過程中對組合風險較高的駕駛員(如疲勞駕駛)進行實時安全提醒或報警等。為安全行車和車輛調配提供信息化判斷標準,減少惡性交通事故率。同時利用高密度采樣調查獲得秒級GPS定位數據,提高違法公交車輛的追蹤效率。
2.3? 面向公交行業監督與決策者的數據挖掘與應用
本研究以加強對行業的管理范圍和力度,且為決策提供準確合理的數據支撐為目的,為實現政府高效管理提供可能。面向公交行業管理與決策者的數據挖掘與應用主要包括基于大數據的公交行業區級管理等典型應用。
采集公交運營事故和服務等數據,在公交大數據綜合管理平臺進行處理分析,生成與企業營運服務、安全事故、違章、信訪處理、媒體投訴等有關的重要指標數據,找到公交吸引力不夠、事故發生等的深層次原因,有助于管理部門采取監管措施,加大檢查核查力度,提高檢查核查頻率,督促企業進行整改,提升服務水平和安全管理水平。實踐證明,該平臺的大數據分析結果是準確合理的,能達到管理預警的目標,從而提高管理效率。
2.4? 公交大數據平臺特點
考慮到未來幾年內或更長時間內的數據應用和業務發展要求,平臺系統框架從各個環節采用集群化微服務架構和容器管理服務,微服務架構具有可獨立部署、擴展性強、擴展時對已有系統幾乎無影響等特點,容器技術為系統的部署、升級提供了便利,確保了平臺的高可靠性和易擴展性。
2.4.1? 數據接入層面
數據采集層具有易擴展性,接入數據來源開放,可接入更多公交運營業務數據或其他行業數據。數據集成層采用集群化方式部署,確保服務的高可靠性。
2.4.2? 軟件組件層面
平臺采用集群化方式部署,提供容器管理和微服務,在實現數據共享和交換的同時,注重對數據和應用實現隔離與保護,確保了軟件的可靠性、安全性和可擴展性。
2.4.3? 應用功能層面
隨著業務需求的增多,應用功能層面可以實現更廣泛、更全面的功能。應用層采用集群化微服務和容器管理服務,微服務以鏡像的形式運行在容器中。各個算法模塊和應用通過微服務的形式進行快速部署以及對外提供服務,提高了應用層的靈活性和易擴展性。平臺還提供單點登錄功能,支持各應用系統以超鏈接或單點登錄的方式接入平臺,用戶一次登錄即可訪問多個相互信任的應用系統,無需重復登錄,有助于提升用戶體驗。
3? 公交大數據綜合管理平臺示范應用
在研究系統框架和關鍵應用功能的基礎上,本文的研究搭建了公交大數據集群環境,并接入真實數據完成了公交大數據綜合管理平臺的工程示范應用。
3.1? 平臺環境搭建
對比分析市面上受認可的Hadoop大數據平臺發行版,如華為、Intel、Cloudera、MapR以及HortonWorks等發行版,綜合考慮平臺的開源性、穩定性、強大社區支持、費用和業務需求等各方面因素,最終選擇Cloudera來搭建公交大數據的示范應用平臺。
Cloudera提供了一個穩定集成和可擴展的企業級大數據管理平臺,方便對集群各組件進行安裝部署和管理[1]。Kubernetes是一個基于容器技術和微服務架構的分布式系統支撐平臺,具備可擴展的資源自動調度和智能負載均衡等能力[2]。本研究采用Kubernetes+Cloudera部署了三節點的大數據集群環境。
集群采用50M運營商專線網絡,所有節點都連接到相同的接入層交換機,實現平臺數據互通和資源調度。網絡拓撲如圖2所示,平臺環境部署在三節點服務器上,通過交換機為公交大數據綜合管理平臺提供高效可靠安全的信息交換服務,數據流可直接在應用服務、數據與終端用戶之間傳輸。
3.2? 平臺應用數據接入
本平臺采集匯聚了公交基礎數據、實時數據、流媒體數據、地圖數據和其他數據等五類數據,實現了數據接入規范化和集中管理,為公交大數據挖掘和應用提供數據資源。接入的五類數據信息分別如下:
(1)基礎數據:停車誘導屏基礎信息、公交企業基礎信息、公交場站基礎信息、公交站點信息、站牌站桿基礎信息、公交線路基礎信息、公交車輛基礎信息、公交從業人員基礎信息等數據項;
(2)實時數據:計劃排班信息、運營調度信息、票務信息、停車誘導信息、公交客流信息、車輛到站信息、公交車輛狀態信息、場站進出口信息、車輛位置信息、公交服務信息、公交投訴信息、事故信息、能耗信息、新能源信息等;
(3)流媒體數據:場站視頻信息、公交車載視頻信息等;
(4)地圖數據:區縣行政界限、街鎮行政界限、水域、道路、河流、綠化、地形、橋梁信息等;
(5)其他數據:天氣信息、環境信息、各類統計報表等數據項。
3.3? 平臺應用效果
本平臺接入了上海某公交運營公司某些線路的真實數據,根據營運管理者和行業監督者的管理需求,可視化呈現各類管理數據信息(如綜合管理、安全管理、服務質量等)。公交大數據綜合管理平臺應用示范可視化展示如圖3所示。對面向公交行業管理者、公交營運管理者和公交出行者的關鍵應用功能進行了平臺示范應用的效果驗證,證明了大數據挖掘與應用成果的準確性和系統的可靠性,證明了本平臺對提升公交運行的智能化運營管理和服務水平具有重要意義。
4? 結? 論
本研究從工程應用的角度深入探索公交業務需求,對公交大數據綜合管理平臺的系統框架、平臺關鍵應用功能和公交大數據部署環境進行了詳細介紹。本平臺接入大量真實數據到研究環境中進行測試和驗證,證明了大數據挖掘成果的準確性和關鍵應用功能的可推廣性。在既有技術積累和項目實踐經驗的基礎上,未來本成果會面向市場,并能帶來經濟效益。
本平臺目前針對的是公交行業的綜合管理,接入的數據有限,應用不廣泛。隨著需求的不斷增多,平臺會接入更多其他行業的數據,更多數據的共享交換和深度融合會挖掘出更多更有價值的信息,使大數據應用研究更全面,給予工程應用更多智能化提升方面的幫助。
參考文獻:
[1] 宋立桓,陳建平.Cloudera Hadoop大數據平臺實戰指南 [M].北京:清華大學出版社,2019.
[2] 龔正,吳治輝,王偉,等.Kubernetes權威指南:從Docker到Kubernetes實踐全接觸:第2版 [M].北京:電子工業出版社,2016.
作者簡介:楊宇偉(1986.11-),男,漢族,上海寶山人,工程師,碩士研究生,研究方向:系統集成。