摘 要:大數據環境下GIS處在數據體量大、數據急劇膨脹、數據源多樣、數據不精確、數據價值密度低的環境。描述大數據環境下GIS數據顯著特征;探討大數據環境下GIS技術在數據采集、存儲、分析處理等三個方面存在的挑戰;展望面對這些挑戰GIS技術應存儲去結構化、計算內存化、分析去模型化、地圖全息化發展趨勢。
關鍵詞:大數據;GIS;Hadoop;Spark;去模型化
引言
隨著移動互聯網、智慧城市、物聯網、云計算等前沿科學技術的快速發展,數據采集方式也不斷擴展,越來越多的物體成為傳感器,諸如手機、手環、手表、眼鏡等越來越多的日常用品成為數據的生產工具。在此背景下,數據量呈爆發式增長。2013年中國產生的數據總量超過0.8ZB(相當于8億TB),是2012年所產生的數據總量的2倍,相當于2009年全球的數據總量[1]。2014年中國所產生的數據則相當于2012年產生數據總量的10倍,即超過8ZB,而全球產生的數據總量將超40ZB。數據量的爆發式增長督促我們快速邁入大數據時代。
1 GIS空間數據的大數據特征
具體什么是大數據不同的組織給出的定義也不盡相同,普遍來說大數據指的是無法通過現有的軟件工具采集、存儲和分析處理的數據集合。業界通常用5V(Volume、Variety、Velocity、Veracity、Value)特征[2]來概括大數據的顯著特征。爆發式增長的數據中80%與空間位置有關,這些GIS空間數據的大數據特征同樣可以用5V來概括。
Volume(數據量):即數據體量大,大量TB級以上數據需要采集、存儲、分析處理,如一個地級市的基礎地理信息數據。
Velocity(速度):即數據產生的速率很快,目前數據正以ms甚至微秒計的流數據源源不斷地快速產生,因此對數據處理的實時性要求也越來越更高。
Variety(多樣性):即數據具有多樣性,它包含各種結構化和非結構化數據,比如屬性數據、矢量數據、遙感影像等柵格數據。
Veracity(真實):即數據具有不精確性,因為數據存在噪音、歧義甚至是缺失,從而導致數據信息模糊,給數據的處理帶來諸多不利影響。
Value(價值):即價值密度低,大數據中蘊含各種信息,但其中有價值的數據占比較低,從中挖掘出有價值的數據是一種挑戰。
2 大數據環境下GIS面臨的挑戰
自Roger Tomlinson博士于1963年首次提出地理信息系統(Geographic Information Systems)概念之后,GIS技術一直都在快速發展。GIS技術現已廣泛應用于環境監測、國土資源管理、城市規劃、交通運輸、公共基礎設施管理、社交網絡(SNS)、位置服務(LBS)等領域,給人們生活帶來很大便利。隨著廣大從業者對GIS技術進行不斷的嘗試和實踐,發現大數據環境下GIS所面臨的數據通常是大體量的、快速增長的、異構的、非結構化的數據,這些數據采集不便、存儲困難、分析處理復雜,給傳統GIS技術帶來挑戰。
2.1 大數據環境下GIS數據的采集
大數據環境下GIS數據采集方式不再局限于全站儀、水準儀、掃描儀、衛星遙感影像等傳統設備與方式,而是來源于各種傳感器、街景圖片、網頁貼吧、視頻監測數據、歷史數據、社會動態等復雜多樣的數據源,凸現大數據的多樣性特征,這給GIS數據的采集增加了難度。另外各種傳感器等監測數據多為流數據,數據以毫秒甚至以微秒計源源不斷快速產生。所謂流數據是指一組順序、大量、快速、連續到達的數據序列,一般情況下,數據流可被視為一個隨時間延續而無限增長的動態數據集合,如車輛的行駛軌跡等階段內無限增加的動態監測數據。此外大數據環境下95%以上的數據都是存在噪音和歧義甚至缺失的不精確數據,在這種數據體量巨大的大數據環境下如何建立數據質量評價體系,從而采集到真實可靠的數據成為一大難題。
2.2 大數據環境下GIS數據的存貯
數據的存儲是數據分析和數據挖掘的基礎與前提。現有成熟的GIS數據存儲系統多依賴關系型數據庫,如Oracle、PostGIS;但是關系型數據庫由于在海量數據管理、高并發讀寫以及擴展性等方面的限制,在大數據時代已經顯示出一定的局限性[3]。
大數據環境下數據量體非常巨大,2GB大小的遙感影像已經是非常小的分析單元。另外GIS數據源呈現更大的多樣性,既有屬性信息等可以用結構化方式存儲的數據,又有街景、視頻等非結構化數據。傳統的GIS空間數據存儲方式不但難以擴展,而且隨著數據的激增讀寫性能存在極大瓶頸。
在傳統的分布式空間數據庫環境下數據雖然可以存放在不同節點上,但這種相對傳統的分布式文件系統所支持的擴展性有限,針對GIS大體量、多樣性的空間數據存儲問題仍需深入研究,從而尋找更加有效的方案。
2.3 大數據環境下的GIS空間分析
大數據環境下是處處連接的時代,英特爾預測2020年全球將有500億個連接。每個連接都是一個傳感器,這些傳感器無時無刻都在進行采集數據,其自身狀態也隨著社會環境、自然環境的變化而變化。這樣的背景下,迫切需要GIS能夠做到低延遲的分析處理工作,因為分析模型也需要隨著變化而動態變化。
另外大體量和多樣性的GIS數據同樣給分析處理帶來巨大挑戰。數據體量越大,分析模型的建立就越困難,加上GIS數據包含街景地圖、遙感影像、矢量數據等多樣性的、價值密度很低數據,從中快速提煉有價值數據無疑是一項無比艱巨的任務。
3 大數據環境下GIS技術發展
大數據環境下GIS數據體量大、增長速度快、形態多樣、不精確、價值密度低等諸多特征必將引起GIS數據采集、存貯、分析等階段的變革。大數據環境下GIS技術在空間數據采集、存儲、分析處理等方面存在諸多挑戰,應運而生的大數據分析技術則為根本上解決大數據環境GIS所面臨的挑戰提供了可能。
3.1 存儲去結構化
相對于有限的數據集,大體量數據需要可擴展的數據存儲架構,以滿足數據無限增長的需要。針對大數據時代GIS數據的多樣性,諸如HBase、Redis、MongoDB、InfoGrid等非關系型(NoSQL)數據庫顯然是不錯的選擇。
這些數據庫存儲不需要預先定義模式,并且可在系統運行的時候動態增加或刪除節點,避免停機維護,提高了拓展性和可靠性;另外非關系型數據庫沒有共享架構,數據往往被劃分后存儲在各個本地服務器上,方便就近從本地磁盤上讀取數據,提高數據讀取性能。
3.2 計算內存化
Hadoop系統是近幾年比較經典的開源大數據解決方案,但Hadoop主要進行離線數據的計算,應對低延遲的應用場景比較困難;另外Hadoop使用的是MapReduce模型,而該模型將復雜的問題用簡單的映射、歸約方式,對復雜的算法邏輯支持不充分。Hadoop方案中數據存在硬盤上,因此容易受IO瓶頸的影響,故實時處理GIS數據乏力。幸運的是大數據領域一批又一批新生技術出現,Spark是其中的一個代表。Spark啟用了內存分布式數據集,它支持更多范式,且配有一個流數據處理模型,因此在處理GIS數據上能達到更低延遲,性能更高的效果。
3.3 分析去模型化
傳統的GIS空間數據分析需要先建立分析模型,比如影響因子有哪些,權重各是多少,然后才能進行分析,做出評價。然而大數據環境下,分析模型愈發跟不上或不適應數據的快速增長與變化,以數據為最終驅動力的去模型化則必然是GIS技術的發展方向。
3.4 地圖全息化
傳統的地圖越來越不適應大數據環境下用戶的個性化定制需求,以人為本的全息化地圖可幫助用戶任何時間、任何地點獲取所需要的數據信息。其宗旨是以“人”為本,根據用戶的應用需求,基于位置來集成和關聯適宜的地理范圍、內容類型、細節程度、時間點或間隔的泛在信息,通過適應于特定用戶的表達方式為用戶提供信息服務[4]。
4 結束語
大數據的發展對世界產生深遠的影響,大數據環境下GIS也面臨著采集困難、存儲不便、分析處理復雜等諸多挑戰;當然這也是GIS技術的發展機遇,GIS從業者需要從不斷的實踐中探索出更加科學的解決方案。
參考文獻
[1]Ahalt S C. Why Data Science[J].Communications of the CCF,2013,9(12):11-15(Ahalt S C.為什么需要數據科學[J].中國計算機學會通訊,2013,9(12):11-15.
[2]陸鋒,張恒才.大數據與廣義GIS[J].武漢大學學報(信息科學版),2014,6(39):645-654.
[3]李清泉,李德仁.大數據GIS[J].武漢大學學報(信息科學版),2014,6(39):641-644.
[4]朱欣焰,周成虎,等.全息位置地圖概念內涵及其關鍵技術初探[J].武漢大學學報(信息科學版),2015,3(40):285-295.
作者簡介:沈松雨(1986,1-),男,廣東廣州,本科學歷,助理工程師、系統分析師,研究方向:大數據分析。