鐘衛東 王庭基 肖隆妍 張明俊 黃俊浦




摘要 隨著信息化的快速發展,交通運輸行業累積了大量多源異構的數據資源,治理綜合交通多源異構大數據,實現信息資源融合共享是交通運輸行業信息化管理的關鍵問題。文章通過分析綜合交通多源異構數據類別、研究多源異構數據治理技術,并運用聚類分析方法挖掘交通運輸行業數據資源價值,對實現“用數據決策、用數據管理、用數據創新”,提升行業治理能力和服務水平,促進行業轉型升級具有重要意義。
關鍵詞 大數據治理;多源異構;綜合交通;聚類分析
中圖分類號 D631.5 文獻標識碼 A 文章編號 2096-8949(2022)03-0019-03
0 引言
2019年7月和12月,交通運輸部先后印發《數字交通發展規劃綱要》和《綜合交通運輸大數據發展行動綱要(2020—2025)》,提出要以“數據鏈”為主線,構建數字化的采集體系;提出推動大數據與綜合交通運輸深度融合,有效構建綜合交通大數據中心體系,為加快建設交通強國提供有力支撐。
隨著交通信息化的快速發展,通過智能交通終端采集的軌跡、流量、視頻、圖像等數據和通過業務系統產生的多源異構數據越來越多。面對綜合交通多源異構大數據,傳統的數據存儲、處理以及分析方法已經不能充分挖掘出具有高價值密度的數據信息。因此,治理多源異構交通大數據,成為制約綜合交通信息化發展的瓶頸,必須積極采取有效措施加以解決。
1 綜合交通多源異構數據分析
綜合交通數據包含公路(高速公路、國省干線、農村公路)、運輸管理(公交、出租、網約車、兩客一危、普貨、維修、駕培)、港航、質監、綜合執法、鐵路、民航、公安交警、氣象、自然資源、互聯網數據等。詳見表1。
從表1可知,綜合交通數據來源與交通行業內外多個部門,同類的數據在不同的系統中類型和數據結構也各不相同,呈現多源異構特點,給數據的采集增加了難度。同時,大量的智能交通終端設備,如衛星導航定位、視頻監控、交調、治超等,實時采集大量數據,而業務系統也不斷在產生業務數據,導致了綜合交通數據量的龐大。但是大量的數據價值密度卻不高,因為數據可能存在樣本不完整、連續性差、重復冗余等情況。因此,綜合交通大數據的治理變得尤為重要。
2 綜合交通多源異構數據治理
數據在采集過程中會存在設備故障、信號干擾、人為失誤操作以及環境影響等誤差因素,導致所獲取多源異構數據存在不同程度的質量問題,影響后續數據分析研究。必須采取科學的理論方法控制數據質量。
2.1 冗余數據處理
可以利用Hadoop平臺處理存在于大數據中的冗余數據,步驟如下[1]:
(1)通過Eclipse開發平臺編寫MapReduce關鍵字統計程序,將程序導成jar包運行在Hadoop數據平臺處理相應文件存在的冗余數據。如交通流量數據以經過時間和車輛號碼為關鍵字;道路事故數據以事故時間、事發地址為關鍵字;執法數據以執法記錄時間、執法地址以及號牌號碼為關鍵字。
(2)若某條數據的統計結果=1次,則該條數據不屬于冗余數據,應正常輸出;若某條數據的統計結果>1次,則該條數據屬于冗余數據,因此,輸出該數據首次出現的信息即可。經過冗余數據處理后的不同類型數據需要重新存儲在HDFS分布式文件系統,以備后續數據處理所需。
2.2 缺失數據處理
綜合交通大數據普遍存在缺失現象,無法為分析研究提供準確信息,因此,需要采取相關數據處理方法補充缺失值。同樣可以采用Hadoop數據平臺檢測處理缺失數據。
針對道路事件、治超違法等非連續數據存在缺失的情況,可以通過編寫MapReduce程序Map函數判斷Value所含字段內容是否為空值,如某條元素數據字段為空值則刪除該數據,輸出不存在字段為空元素數據;在Reduce階段通過編寫Reduce函數將Map階段輸出數據保存至HDFS文件系統。
而針對交通流量等具有連續性和實時性的數據,數據的缺失值處理方法與非連續數據有所不同。通過查閱相關文獻可知,修復此類數據可采用歷史數據修復法[2]、時間序列分析法[3]等修復方法進行缺失數據處理:
(1)歷史數據修復法:數據缺失值采取賦予前幾天同一時刻以及同一天前一時刻的歷史數據不同權重且相加的方法填補。該方法的優勢在于既體現歷史數據的價值,又考慮實時數據的影響。
(2)時間序列分析法:利用同一天與數據缺失時刻相鄰時刻交通流數據,修復缺失數據的數據處理方法。它通過賦予不同時刻數據不同的權重體現影響程度的大小進行綜合計算。
具體適用情況如表2。
3 綜合交通多源異構數據聚類分析
聚類分析是大數據挖掘的主要方法,其核心思想是依據不同數據具有相同屬性的原理上,通過計算數據集中不同數據之間的相似性度量函數(歐式距離、曼哈頓距離等),將距離最近的數據劃分為相同類并且計算每類的聚類中心,不斷重復上述過程直至所有數據聚合至特定類[4-5]。
數據聚類與分類有所不同,聚類分析的數據特征以及聚合類數均未知,屬于無監督學習算法;然而,數據分類已明確數據的類數和特征,屬于監督學習算法。隨著國內外學者不斷努力完善聚類理論,聚類分析算法的研究已經越來越成熟,根據聚類算法的原理,主要包含劃分聚類、層次聚類、密度聚類以及網格聚類等四種方法[6-7]。四種不同聚類分析算法的原理和特點各不相同,查閱相關參考文獻總結,不同聚類分析算法特點如表3。
劃分聚類方法:最基礎的聚類算法,原理簡單便于理解以及計算收斂速度快,非常適用于球形以及類似球形分布的數據集。基于劃分聚類的代表性算法主要包含K-means(均值)聚類算法、K-medoid(中心點)算法。
層次聚類方法:將指定的數據集按照層次的方法進行分解,通過逐步更新迭代分解使得類的個數以及每個類中所含元素數據的個數不斷調整,最終以樹狀圖的形式清晰展示聚類結果。
密度聚類方法:依據樣本數據集的密度進行聚類。適用于凸形以及球形等任意形狀分布的數據集,可以解決不規則分布的數據聚類分析問題。
網格聚類方法:將樣本數據集劃分為有限網格數據單元,不同網格單元可代表多條元素數據,通過距離度量不同網格單元之間的相似性,合并距離相近的網格單元為相同類別。
針對綜合交通多源異構大數據,建議采取劃分聚類分析方法,且因K-means聚類算法時間復雜度低、原理簡單便于理解、計算速度快以及擴展性良好,可采用K-means算法聚類分析多源異構交通大數據(流程圖如圖1)。
K-means算法的核心思想是根據需求將數據集聚類個數設置為K,目標是通過度量不同數據之間的相似距離,將數據集根據相似性強弱劃分為K類。K-means算法聚類時,首先在數據集中選取K個數據聚類中心點,計算不同數據與每個聚類中心點之間的距離,然后,根據距離大小將相近數據合并為相同類別。雖然,該算法的數學原理簡單,但是聚類效果卻明顯優于其他聚類算法。
4 結論
綜合交通大數據以不同形式從不同角度詮釋了交通數據的多樣性,為多源異構大數據治理提供了豐富的數據源,同時也使得運用K-means聚類方法智能分析交通大數據成為可能。
數據驅動服務是綜合交通信息化的核心,隨著綜合交通數據的種類和數量快速增長,治理多源異構大數據成為關鍵核心。該文通過分析綜合交通多源異構數據情況,研究多源異構數據治理方法,并比較出適用于綜合交通多源異構數據的聚類分析方法,對于開展智慧交通數據中心暨展示平臺建設,整合大數據資源實現數據綜合展示提供技術支撐。
參考文獻
[1]游兆權.基于Hadoop大數據平臺的交通擁堵預測研究[D].北京:中國人民公安大學,2018.
[2]王騰輝.基于Spark平臺的短時交通流預測研究[D].廣州:華南理工大學,2016.
[3]王遠強.面向交通數據的事故分析與預測[D].天津:天津大學,2017.
[4]LAKSHMI K,VISALAKSHI N K,SHANTHI S.Data clustering using K-Means based on Crow Search Algorithm[J].Sadhana,2018(11):190.
[5]KHAN S S,AHMAD A.Cluster center initialization algorithm for K-means clustering[J].Pattern Recognition Letters,2004(11):1293-1302.
[6]盧躍凱.面向海量移動互聯網用戶行為的聚類算法研究與實現[D].北京:北京郵電大學,2019.
[7]呂峰.主動半監督 K-means 聚類算法研究及應用[D].石家莊:河北地質大學,2018.