于碩 李澤宇
摘要:隨著目前計算機科學技術的飛速發展以及計算機硬件對數據處理能力的飛速提升,人類已經進入了數據信息時代。文章從宏觀方面對大數據在城市交通中的應用進行了闡述,并說明了現今交通大數據的挑戰以及目前對大數據的幾種常用存儲方案以及常用的處理技術。
關鍵詞:交通大數據;大數據存儲方案;大數據處理技術;數據信息 文獻標識碼:A
中圖分類號:U495 文章編號:1009-2374(2017)04-0090-02 DOI:10.13535/j.cnki.11-4406/n.2017.04.046
1 大數據概述
1.1 大數據定義
大數據,又稱海量數據、巨量數據等,通常指那些無法通過常規存儲媒介存儲,無法通過人工或者常規數據處理軟件進行管理和處理的數據集合。大數據是一個抽象的概念,究竟多大的數據量可以定義為大數據至今沒有一個定論。大數據具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征,也就是說,大數據不僅僅體現在存儲數量級的大小上,而且還在于數據的獲取、存儲、維護、處理等方面。
1.2 大數據特點
IBM公司針對大數據的特性提出了大數據的5V特點:Volume(大量)、Velocity(高速)、Variety(多樣性)、Value(價值)和Veracity(真實性)。
其中Volume(大量)指大數據的數據量級巨大,可以從幾百TB到幾百PB甚至EB級別的規模。與幾十年前印刷品占據主流的時候不同,信息時代數據的產生速度非常快,據國際數據公司(IDC)的統計,僅在2011年時,全世界范圍內被創建和復制的數據總量就有1.8ZB左右,已經遠遠超過有史以來人類通過印刷品傳播的信息量的總和。據該公司預測,中國的大數據市場將在2012~2016年間增長5倍,中國已經真正步入了大數據時代。
Velocity(高速)指大多數場景下,我們都要求大數據要在一定的時間限制內得到及時的處理。例如美團、大眾點評等團購軟件,通過對用戶的地理位置定位實時向用戶推薦附近美食、團購優惠等。
Variety(多樣性)指大數據包含各式各樣形態以及各種格式的數據源。針對不同場景,數據有多種存儲方式,例如json格式、xml文件、數據庫文件等方式。
Value(價值)指大數據中蘊藏的有價值的信息,通過大數據的分析挖掘等手段,可以帶來巨大的商業或學術價值。例如淘寶通過對用戶購物以及瀏覽數據進行挖掘,從而給用戶推薦合適的商品,為淘寶創造了巨大的利潤。
Veracity(真實性)指大數據的數據來源,處理結果要保證與真實情況相符合,即它們可以如實反映或者折射出社會現實等。例如網上購物網站中,賣家的刷單情況就會影響數據分析結果對它的正確評價。
2 交通大數據
2.1 概述
隨著世界范圍內城鄉發展的步伐不斷加快,公路網、鐵路網的大規模覆蓋,城市的交通建設成為了越來越重要的課題。傳統模式下的城市交通建設、管理等在今天出現了種種弊端。由此,在大數據時代的背景下,通過大數據的分析、處理,對城市交通進行動態的指導規劃成為了目前大數據的主要現實應用場景之一。
在高德地圖的“2014年中國主要城市擁堵分析”報告中,北京、上海、廣州、深圳、哈爾濱和杭州位于前列,高峰期行車平均速度在20km/h左右徘徊。尤其節假日黃金周期間,擁堵情況更加嚴重,使原本脆弱的城市路網的運行可靠性越來越低。
2.2 交通大數據來源
交通大數據來源廣泛,城市交通網每天產生各類交通數據不計其數。按照類型,交通大數據的來源大致可以分為來源于人的數據、來源于交通工具的數據、來源于行業監管的數據和來源于其他方面的數據幾類。以下將分別就這幾類數據來源做簡要說明:
2.2.1 來源于人的數據。人作為道路交通的主要參與者,汽車駕駛員的駕駛軌跡、交通警察所在路口的位置、公交車乘客的刷卡記錄以及行人的行走軌跡等都是交通參與者的重要數據來源。目前,基于公共交通的電子收費數據已經有了各種豐碩的研究成果和工作。針對該類數據的工作也是目前學術界交通大數據的研究重點之一。
2.2.2 來源于交通工具的數據。車是城市交通中的主體,按照功能群體可以大致分為公交車、私家車、出租車和網約車4類。每種類型的車都有各自的特點:公交車路線固定,而且能夠直接獲得乘客的刷卡數據,得到乘客的上下車地點等信息;私家車涉及的數據相對來說難以獲取,該類數據涉及到駕駛人的個人隱私,但同時也是最為有價值的一類數據;出租車沒有固定路線,但是卻有相對固定的活動范圍;網約車是最近幾年興起的一類新興群體,通過應用平臺的私家車主可以利用空閑時間提供服務,緩解高峰期打車難等問題。
此外,基于物聯網、車聯網等數字終端設備的傳感器采集的車輛信息也是交通大數據的重要組成部分。
2.2.3 來源于行業的監管數據。很多特殊行業,如危險品運輸、快遞服務業、貨運公司等行業都會對相應的業務有一定的監管數據,該類數據雖然有一定局限性,但是數據準確性、可靠性非常高。
2.2.4 來源于其他方面的數據。除了上述提到的兩大類數據之外,城市道路本身以及天氣等客觀因素其實也屬于交通大數據的一部分。城市各個主干分支路線的擁堵程度以及天氣對路況的影響會在一定程度上決定該段道路的擁堵程度,如果能夠及時掌握這類數據,通過適當的算法分析以及調配,可以在很大程度上緩解交通壓力。
2.3 研究現狀及現階段問題與挑戰
目前交通大數據的應用場景越來越多,包括在交通管理中的應用、在智能交通中的應用、在擁堵檢測中的應用以及在事故分析與處理中的應用等多種應用場景。
首先,根據交通大數據的分析,可以為城市交通的管理、決策、規劃和運營提供有效支持,通過對客流量的分析優化交通規劃實現按需控制;其次,根據道路流量數據,通過分析預測等手段,隨時針對道路突發狀況進行處理,比如封閉事故路段,自動將車輛分流至其他路段等;再次,通長時間對交通數據的分析處理,可以找出當前城市交通網中諸如信號燈、交通崗、人行橫道等設置的不合理之處加以調整;最后,通過交通大數據我們還可以在提升城市交通網絡流暢性的同時,為車聯網應用、社會管理等提供一種新的手段和方式。
3 交通大數據存儲方案
3.1 MPP關系型數據庫
MPP架構的新型數據庫集群采用SharedNothing結構,通過粗粒度索引、列存儲等技術,結合MPP架構的分布式計算模式完成大數據的分析和存儲。該類架構具有高性能和高擴展性的特點,在企業分析類應用領域獲得了廣泛應用。而且該架構的運行環境多為低成本的服務器,經濟性上也具有很大優勢。
3.2 基于Hadoop的非關系型數據庫
Hadoop是由Apache基金會開發的分布式系統基礎架構,它的核心思想是HDFS和Map Reduce。通過對該項開源技術的擴展和封裝,可以將海量數據部署到價格低廉的硬件上,并能夠提高其吞吐量。尤其對于處理非結構化數據、半結構化數據以及復雜的ETL流程等,該類型數據庫有著獨特的優勢。
3.3 大數據一體機
大數據一體機是一種專門為大數據設計的軟硬件結合產品。它由一組集成的服務器、存儲設備、操作系統和數據庫管理系統構成。該類存儲方式具有很好的穩定性和縱向擴展性。
4 交通大數據處理技術
4.1 Apache Spark
Apache Spark是一套卓越的開源處理引擎,專門面向復雜分析、高速處理和易用性需求而打造。它提供了很多立足于數據結構上的編程接口,因此我們根據需求完成具有特定功能的處理程序。Spark的處理速度極快,而且支持多種語言為其編寫應用,能夠輕松處理實時數據流,支持復雜的分析操作。
4.2 Hadoop
Hadoop是一個開源的分布式處理軟件框架,它的可靠性非常高,它會假設元素存儲失敗等場景,維護多個數據副本,確保能夠對失敗的結點做出處理重新分配任務。Hadoop依賴于社區服務器,因此成本低廉。
4.3 MapReduce編程模型
MapReduce是一種針對大規模數據集的并行運算提出的編程模型。它使編程人員在不會分布式編程的情況下能夠將程序運行在分布式系統上。它主要運用了映射(Map)和歸約(Reduce)的思想,通過指定一個映射函數把一組鍵值對映射成一組新的鍵值對,之后制定并發的歸約函數,保證所有映射的鍵值對中的每一個共享相同的鍵組。
4.4 各類分布式數據庫
隨著數據量的日益增長,傳統的關系型數據庫暴露出越來越多的問題,由此,以NoSQL為代表的非關系型數據庫開始飛速發展,開始了數據存儲從集中式數據庫到分布式數據庫的轉變。分布式數據庫直接將數據存儲在數據庫中通過相應的查詢語句直接返回查詢結果。
5 總結與展望
大數據時代已經來臨,并且已經應用在現實生活中的方方面面,我們的生活與大數據已經密不可分。交通大數據作為與日常生活息息相關的一個大數據應用領域已經有了很多豐碩成果,但是就應用流程來看,從數據獲取到數據存儲,從數據處理到結果分析都存在著各種各樣的困難與挑戰。因此,想要真正能夠合理高效地利用大數據還有很長的路要走。
參考文獻
[1] 劉維貴.“大數據”研究綜述[J].辦公自動化:綜合版,2014,7(1).
[2] 陶雪嬌,胡曉峰,劉洋.大數據研究綜述[J].系統仿真學報,2013,(s1).
[3] 段宗濤,鄭西彬,李瑩,等.道路交通大數據及其關鍵技術研究[J].微電子學與計算機,2015,(6).
[4] 陸化普,孫智源,屈聞聰.大數據及其在城市智能交通系統中的應用綜述[J].交通運輸系統工程與信息,2015,15(5).
[5] 孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50(1).
作者簡介:于碩(1990-),女,吉林長春人,大連財經學院工商管理學院助教,碩士,研究方向:數據挖掘、圖像處理。
(責任編輯:王 波)