■呂珊 孫瓊
互聯網、移動互聯網、大數據等技術的普及,為高鐵網絡大數據的發展提供了良好的孕育土壤。基于高鐵網絡大數據是通過應用信息和通信技術來開發、收集和使用來自網絡、物理基礎設施等平臺的數據,以提高組織效率、旅客體驗和高鐵發展可持續性。隨著高鐵網絡大數據的積累和大數據技術的應用,利用大數據分析手段和方法進行旅客出行規劃成為高鐵研究發展的新方向。
高鐵網絡大數據是指將大數據技術應用于高鐵行業運營中,不只是數據采集技術、大數據分析技術和統計預測技術[1],還包括將大數據思想和概念應用于高鐵行業。從更深層次的角度來看,數據將從傳統的報告和統計數據分析轉換為智能、準確、聯網和協作的流程,從傳統的結構化數據分析到非結構化數據挖掘的流程,將從有限的數據轉換為具有更大維度、更細粒度的大量數據以及大量的模型和形狀。
以云計算、物聯網、虛擬現實以及大數據和智能管理系統等其他技術為代表的先進技術的應用為基于高鐵出行的旅客信息管理的發展做出了貢獻。這項技術在高鐵部門中的應用已啟動了鐵路內部各個區域的知識轉化、開發過程,從而提高了高鐵建設的整體水平。“智能”不僅是現代設備的智能使用,也是對全部工作人員智慧化的發掘。
基于高鐵網絡的大數據來源渠道豐富,以互聯網和社交媒體為核心數據來源,另有部分來自政府服務和企業運營平臺。從數據收集的角度來看,大多數研究過程都使用相對低價且便捷的互聯網和社交媒體。然而,由于諸如個人隱私或商業秘密之類的原因,從政府機構和企業獲取數據并不容易。從數據處理的角度來看,由于接收到的大部分大型高鐵出行數據都是半結構化的圖像、語音和視頻,因此處理過程變得更加復雜,容易造成處理結果的準確性下降。
在云計算、物聯網等技術的引領下,高鐵網絡大數據研究涉及了計算機科學、地理學、統計學等多學科的、綜合性的研究工具和方法,具有研究工具和方法多樣化特點。依托于計算機科學的研究工具,主要以數據挖掘和機器學習技術的應用為核心。將數據挖掘技術應用于高鐵和旅游業,可深挖高價值的信息、探索消費者旅行意愿、為旅客優化出行線路、推薦旅游項目和目的地等[1]。借助于MapReduce 的計算框架,Hadoop、PUMA、Cosmos 等運算器,保障了高鐵網絡大數據分析的精準性和有效性。在地理學相關的工具應用上,主要用到了GPS 技術和GIS 技術,研究旅客需求[2]、旅游交通[3]、旅游流[4]等。在基于統計學的工具和方法開展研究時,通常將計算機數據挖掘技術與之結合,用于估計、預測、聚類和關聯分析、多元統計分析、時間序列分析、復雜網絡分析、模糊擬合分析等[5]。
高鐵網絡大數據分析系統是在大數據算法和模型的基礎上開發的。它可以基于海量交通主數據、動態監控數據、系統運營數據和互聯網數據為政府、相關企業以及游客提供挖掘、分析功能,從而提高鐵路管理部門的行業監管能力,促進企業精準營銷效能的提升。該系統主要包括基本信息管理、旅客流量概況分析、準營銷分析、目的地流量分析、游客出行特征分析,目的地關聯影響分析,交通出行指標分析等功能[6]。
高鐵網絡大數據系統不僅限于將下一代通信網絡技術(如云計算和物聯網)應用到專用工具以及巧妙的項目和服務管理方法上,使用各種高新技術和設備。由于智能出行的標準是確保交通行業的可持續發展,同時考慮到旅客的需求和高鐵部門的管理需求。因而,諸如物聯網和云計算技術之類的下一代信息技術只是完成智能出行的途徑和手段,而不是目標。
現階段很多交通部門相互之間及高鐵內部每個部門系統相互之間的團結互助體制還未完善,外部獨立性和內部分散性相對較大。這種情況不僅僅主要在協作的業務過程中表現出來,而且也發生在信息交換和資源共享中。這會導致整個組織服務項目的效率低下,陷入無法應對乘客的問題、及時解決旅客難題以及組織發展動力不足等困境。因此,實現基于高鐵網絡的大數據發展須首先完成信息資源的共享。
數據收集和監控是基于大數據的高鐵網絡促進智能旅游發展的基礎。通常在同一時間進行數據收集和監視活動。通常包括以下幾種數據收集方法:第一,自主收集。數據收集是通過構建基站和鋪設點來進行的。其次,數據集成。一方面,數據可通過業務處理系統(12306平臺、火車票達人等)、電信運營商(移動、聯通等)、OTA(同程、攜程等)和目的地公司(如景區、酒店、碼頭等)的處理系統進行數據集成;另一方面還可借助百度搜索等搜索引擎、社交化網絡、網絡日志、微博、手機游系統等獲取部分數據[7]。第三,數據共享。與鐵路、公安、旅游、銀聯等部門實現旅客出行數據的強關聯。當數據樣本足夠豐富時,可以將流量控制在特定區域中的特定點。如今,無論是城市還是景區,數據收集方法都比較完善和綜合,數據收集和監視也正在成為管理的基本內容。
數據的挖掘和分析是基于大數據的高鐵網絡智能出行推進的依據。由大數據驅動的高鐵網絡智能出行服務于提取和分析有關旅客屬性、旅行行為、消費者交易、出行目的地等數據,為營銷決策和精準推送提供數據支撐。數據收集僅需要技術,而提取和分析則需要技術和市場敏感性。從大量大數據中提取和可視化數據結果是實現大數據價值的關鍵一步。借助旅客出行大數據可視化方式,準確、及時地獲取和了解每日的訂單數量、內容,分析客源地等信息。由此,從全局的角度來看,一方面可以看到全國客流分布行為的整體趨勢,另一方面還可以根據數據和預期結果的偏差,引導市場中心更好地調整營銷策略,提升績效。
高鐵網絡大數據的數據洞察和指導功能,可用于進一步指導高鐵網絡項目未來的建設與發展。通過數據洞察,深入梳理和分析所獲得數據,更加精準地把握市場的發展態勢,以及了解本地發展中可能存在的問題。如基于用戶畫像功能,可以加強對性別比例、消費偏好、用戶軌跡、出行習慣等的判斷,深化對目的地和目的地產品的指導與規劃。因而,所謂的數據指導即通過數據洞察結果進行的就下一步發展、改善方向提出建議,明確下一步發展目標及重點的過程。
高鐵網絡大數據以數據為中心,以通信網絡為支撐,通過終端接口開放、智能化管理的多樣化高鐵服務網絡,為旅客管理、旅客服務、旅游營銷等領域提供服務。高鐵大數據包括數據采集和檢測、數據挖掘和分析、數據洞察和指導三個步驟。數據的采集和監測是基于大數據的高鐵網絡智能出行推進的基礎,數據采集一般有自主采集、數據集成、數據共享三種方式。數據的挖掘和分析是基于大數據的高鐵網絡智能出行推進的依據。基于大數據的高鐵網絡智能出行即通過對旅客屬性、旅客行為、消費交易、旅行目的地等數據進行挖掘和分析,為市場營銷決策和精準推送提供數據支持。對數據的深入了解和引導為旅游目的的下一步發展提供方向。基于數據洞察功能,進一步增強數據挖掘和分析能力,以實現對市場趨勢和本地發展問題的及時了解和精準把控。