梁山清,李恩寧,葛紅志,王曉玲
(中電科衛星導航運營服務有限公司,河北 石家莊 050000)
作為世界上最大的互聯網市場,我國的大數據發展日異月新。2018年召開的全國網絡安全和信息化工作會議,對包括大數據產業在內的信息化發展戰略進行了全面部署,舉國上下致力于構建以數據為關鍵要素的數字經濟。在智慧交通領域,大數據技術可以改變貨運車輛 “信息孤島”現象嚴重、缺乏合作交流平臺等難題。回顧全國范圍內近年的相關研究工作可以發現,伴隨著“互聯網+物流”的快速發展,相關部門和貨運企業正在快速推進傳統業務模式向數字化、網絡化和智能化轉型,加速行業的服務升級[1-3]。但是,在基于貨運車輛位置大數據的潛在價值挖掘方面,仍然存在巨大的探索空間。
百萬級綜合車輛位置服務平臺結合北斗/GPS衛星導航定位技術[4-5]、無線通信技術,借助強大的數據存儲、融合和分析能力,對各類交通車輛提供綜合位置監控管理服務。其中,貨運車輛數據是平臺上的主要業務數據之一。
本文在本地服務器上搭建開源大數據平臺,將綜合車輛位置服務平臺的貨運車輛數據遷移到Hadoop分布式文件系統。然后,運用大數據分析與挖掘算法,對貨運車輛數據進行了大數據應用研究,對基于時空特征的K-means聚類算法以及基于專家系統和協同過濾算法的貨車未來活動區域預測方法進行設計和應用。
本文采用Hadoop2.x技術體系[6]進行大數據平臺的架構設計[7-9]。貨運車輛大數據系統的架構如圖1所示。

圖1 貨運車輛大數據系統架構
由圖1可以看出,貨運車輛大數據系統包括數據源、數據采集與存儲層、大數據分析與挖掘層、數據展示層和大數據管理層共5部分。其中,數據源為存在于關系數據庫PostgresSQL中的貨運車輛數據;數據采集與存儲層將數據源的數據遷移并存儲于分布式文件系統HDFS中;數據分析與挖掘層基于YARN計算架構,協同Mahout,Avro,Ooize和Solr等組件,對貨運車輛數據進行分析和挖掘;數據展示層對大數據分析結果進行圖形化展現;大數據管理層負責整個系統的應用程序協調、數據安全管理和系統運行動態監控等任務。貨運車輛大數據系統中各組件的功能如下:
① Sqoop:在結構化數據存儲和HDFS之間高效批量傳輸數據,進行數據同步;
② HDFS:分布式文件系統;
③ Hive:建立在Hadoop基礎上的開源數據倉庫,提供基本數據分析服務;
④ YARN:資源管理系統,可以為各類應用程序進行資源管理和調度;
⑤ MapReduce:快速并行處理大量數據,是一種分布式數據處理模式和執行環境;
⑥ Avro:序列化系統,支持高效、跨語言的RPC和持久化數據存儲;
⑦ Oozie:任務調度框架,提供對Hadoop MapReduce和Pig Jobs的任務調度與協調;
⑧ Solr:獨立的企業級搜索應用服務器,對外提供類似于Web-service的API接口;
⑨ Mahout:數據挖掘工具庫;
⑩ DataV:一站式數據可視化應用搭建工具,可實現可視化圖表制作、數據連接配置和一鍵部署發布;
本文運用Sqoop組件將貨運車輛數據從PostgreSQL數據庫遷移到Hive數據庫,并存儲于HDFS分布式文件系統[10]。貨運車輛數據信息如表1所示。
表1 貨運車輛數據信息
Tab.1 Data information of trucks

車輛基礎業務信息行業信息行業名稱、行業描述企業信息企業編碼、企業名稱、企業地址、企業聯系人、聯系人電話和聯系人郵件機構信息機構名稱、聯系人、聯系人電話、辦公地址和員工數據分組信息分組名稱、包含用戶數、車輛數和回傳時間間隔車輛信息車牌基本信息、車輛詳細信息和車機設備信息司機信息司機名稱、身份證號、駕駛證號和手機號碼人員信息人員名稱、身份證號、人員類型和手機號碼SIM信息SIM卡號、SIM類型和SIM卡關聯車輛用戶信息用戶基本信息、用戶權限信息角色信息功能權限角色信息、車輛權限角色信息入網信息入網車牌號、入網操作類型指令信息指令代碼、指令名稱、指令參數、指令級別、指令描述和指令操作密碼日志信息系統操作日志信息、用戶登錄日志信息元數據信息性別、車輛顏色、車輛類型、車輛品牌、燃油類別、用戶類型、圍欄類型、呼叫類型、人員類型、日志類型和操作類型車輛軌跡狀態信息軌跡信息經緯度、地址、時間、速度、方向、高程和油量等狀態信息車輛狀態信息、報警狀態信息和車機狀態信息等
數據分析與挖掘層采用MapReduce編程模型、Mahout組件[11-12]進行數據的并行化計算,主要包含數據預處理與數據分析挖掘2部分。
數據預處理[13]部分對車輛監控平臺原始數據的清洗、集成、轉換和規約。
數據分析與挖掘[14-15]部分對海量數據分析處理。其中,聚類算法[16-18]用于按相似性特征對數據進行分組;分類算法根據數據特征和事物分類訓練分類器,并根據分類模型判別新事物歸屬;關聯規則分析算法對海量數據中的頻繁項集進行挖掘;協同過濾算法[19]通過對用戶歷史行為數據的挖掘發現用戶的偏好,基于不同的偏好對用戶進行群組劃分并推薦品味相似的事物,Mahout組件中的協同過濾算法分為基于物品的推薦(Item-Based Collaborative Filtering)算法和基于用戶的推薦(User-Based CollaboratIve Filtering)算法;回歸分析算法用于挖掘數據倉庫中數據屬性值之間的依賴特性,預測事物發展趨勢。
數據展示層[20]將平臺分析的部分結果以直觀的形式進行展示。
本文運用Hive組件[21],進行貨運車輛數據的統計分析任務設計與開發,主要進行了某月份車輛超速次數、某月份車輛TopN超速次數、某月份企業超速次數、某月份企業TopN超速次數、年度車輛ACC總時長、年度車輛超速次數、年度企業超速次數、企業車輛上線率分析、某月份企業報警總時長、某月份企業在線總時長和某月份車輛總里程等任務分析。
本文綜合運用DataV軟件的柱狀圖、餅狀圖、折線、雷達圖、地理分布圖和氣泡圖等多種圖表化元素對上述分析結果進行可視化展示。
2.1.1 數據預處理與軌跡劃分
由于衛星定位終端設備故障、信號不良和冷啟動等原因,采集的北斗/GPS數據會存在一定的誤差。本文通過均值濾波、速度濾波和航向角檢測等方法來對數據進行預處理操作,剔除無效或者冗余的數據。然后基于時間間隔對軌跡進行劃分,并對軌跡進行了壓縮處理,降低后續軌跡處理過程的時間復雜度。
2.1.2 基于時空相似性的軌跡相似性刻畫
通過對平臺貨車速度進行大數據統計分析發現,貨車的平均車速比較接近,這與貨運車輛大多時間行駛在交通相對通暢的城際道路或者高速公路上這一事實相符。在進行軌跡相似性度量過程中,同時考慮軌跡所耗費時長的相似性和空間位置相似性,構建基于軌跡行駛時間差和軌跡距離差的軌跡相似性度量公式。軌跡L1={a1,a2,…,am}和軌跡L2={b1,b2,…,bn}之間的時空距離計算公式如下:
(1)
DF(L1,L2)min(maximax(a,b)∈Ai×BidistE(ai,bj)),
(2)
(3)
式中,T1,T2分別為軌跡L1和軌跡L2的從軌跡起點行駛到終點所耗費的小時數;Ls1,Ls2分別表示軌跡L1和軌跡L2的起始點和終點之間的直線距離;DF(L1,L2)為軌跡L1和軌跡L2的離散弗雷歇距離[22];distE(ai,bj)為經緯度點ai和bj之間的歐氏距離。
根據平臺貨車軌跡實際情況,本文取權重參數α=0.22,β=0.78。
2.1.3 聚類結果分析
根據以上距離,通過K-means聚類算法對大數據平臺上某月份的貨運車輛軌跡進行了處理,并對包含軌跡數量最多的10個軌跡類進行展示,軌跡聚類結果如表2所示。
表2 貨物運輸熱門線路聚類結果表
Tab.2 Clustering results of hot freight transport lines

線路排名線路名稱NO.1101國道—承德段NO.2102國道—唐山段NO.3106國道—滄州段NO.4110國道—張家口段NO.5112國道—保定梁各莊-龍泉莊段NO.6307國道—石家莊段NO.7省道洺李線—邯鄲段NO.8省道武館路—邢臺段NO.9省道251線—秦皇島段NO.10京昆高速—省內段
2.2.1 預測步驟
步驟1:根據上節中的軌跡聚類處理結果,假設有n個軌跡類簇,對第i(i=1,2,…,n)個聚類類簇Ci取其所有軌跡點的經緯度坐標均值分別作為該軌跡類簇中心點的經緯度坐標,取所有軌跡起始點直線長度均值的1/2作為軌跡類簇的半徑。
步驟2:根據每個聚類類簇中軌跡的數量,對軌跡類簇進行活躍度評分,通過對大數據平臺軌跡數量分布情況的大量經驗總結,采用專家系統法[23-24]對軌跡類簇的活躍度進行評分,具體評分規則為:
IFnum≥5 000,THENScore=5;
IFnum≥4 000 andnum<5 000,THEN
Score=4;
IFnum≥2 500 andnum<4 000,THEN
Score=3;
IFnum≥1 500 andnum<2 500,THEN
Score=2;
IFnum<1 500,THENScore=1。
其中,num為某軌跡類簇中軌跡的條數;Score為該軌跡類簇的活躍度評分。
步驟3:根據步驟2的評分,以某一輛車的最近一年的軌跡作為歷史數據,進行基于物品的協同過濾算法處理,計算出該車輛未來業務活動區域預測。
步驟4:根據步驟2的評分,以不同車輛的軌跡相似性為基礎,為某一車輛進行基于用戶的協同過濾算法處理,計算出該車輛未來業務活動區域預測。
步驟5:根據步驟3和步驟4的處理結果,計算預測結果的軌跡類簇的并集,對軌跡類簇按所包含的軌跡條數進行降序排序。
步驟6:選取軌跡條數最多的5個軌跡類簇,以軌跡聚類類簇的中心點和半徑,作為該車輛的未來軌跡活動區域預測結果。
2.2.2 預測結果分析
選取平臺上業務活躍的500輛貨運車輛一年的歷史軌跡數據進行軌跡預測分析,并以之后半年的軌跡數據作為預測結果比對標準。
經驗證,該預測方法準確率達到60%以上,預測方法具備一定的可行性。
本文搭建了基于Hadoop2.x技術體系的大數據平臺,將存儲于百萬級綜合車輛位置服務平臺傳統數據庫的貨運車輛數據批量遷移到分布式文件系統,并進行了貨車數據的分析和挖掘;設計并實現了基于時空特征的K-means聚類算法,對貨運車輛熱門區域進行分析;將專家系統的思路和協同過濾算法進行融合,對貨車未來一段時間軌跡的范圍進行了預測,挖掘貨車的軌跡規律和業務發展特征。本文所做工作對于挖掘熱門運輸線路和分析貨運車輛行為特征具有一定的實用價值和借鑒意義。