曾元武,陳澤鵬,方曉樂,吳永靜
大數據時代下地理信息公共平臺建設展望
曾元武,陳澤鵬,方曉樂,吳永靜
(廣東省國土資源技術中心,廣東廣州510075)
伴隨著以社交網絡、基于位置的服務( LBS)為代表的新型信息發布方式的不斷涌現,以及云計算、RFID電子標簽、物聯網等現代化技術的興起,數據正以前所未有的速度不斷地累積,這也正是所謂的大數據( big data)時代的來臨。大數據問題引起了學術界、企業界甚至是政務政府機構的密切關注,他們對其都有非常濃厚的興趣,都認為大數據作為一種新型的戰略資源,在未來會有舉足輕重的作用。
地理信息產業是信息產業中最為重要的分支之一,一般是指自然地理要素或地表人工設施的形狀、大小、空間位置及其屬性信息的總稱。因其具有空間位置特征,通常也稱為“地理空間信息”或“空間信息”,是名副其實的“大數據”。有研究指出,地球上85%的活動都是與地理空間信息相關的。研究工作者們從數據和趨勢的角度闡述了大數據時代來臨給地理信息產業帶來的沖擊和機遇,認為地理信息相關工作需要改變原有的思維模式、管理理念和服務方式[1-4];從技術角度(如MapReduce云并行計算技術)探討了大數據在地理空間計算上的應用方式,提出了大數據挖掘技術在地理空間信息決策上的無限前景[5];此外,還有大量的大數據下地理信息的應用案例[6-8]。
地理信息公共服務平臺在地理信息空間框架數據的基礎上,以地理信息系統為主要的管理工具,整合與空間信息有關的非空間信息;并通過網絡,作為各種信息終端的底層支撐,為政府、企業和公眾提供地理信息服務[9]。本文基于現有的廣東省地理信息公共平臺[10],對其下一步的建設進行展望,探討未來平臺的建設應如何抓住大數據所帶來的技術和應用的發展新機遇,從而挖掘并提供更多有用的信息用于輔助決策,提供更為先進的地理信息服務。
在全球信息化的高速發展下,隨著時間的推移,人類產生的數據量不僅以指數級增長,而且數據的結構也變得日趨復雜。大數據時代的來臨使得傳統的數據管理方式變得越來越力不從心。適應大數據需要新的處理模式才能具有更強的決策力、洞察發現力和流程優化能力。從數據的類別上看,大數據指的是無法使用傳統流程或工具處理或分析的信息,它定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統處理方法的數據集[11]。亞馬遜網絡服務的科學家指出:大數據一定是超過了一臺計算機處理能力的龐大數據量。為了能更好地使用大數據,一些新興的大數據技術相應崛起。
1.非關系型數據庫
非關系型數據庫( NoSQL)的發展最早可以追溯到1991年Berkeley DB第一版的發布,即一個keyvalue類型的Hush數據庫,適用于數據類型相對簡單、但需要極高的插入和讀取速度的嵌入式場合。
如今,對數據庫高并發讀寫、海量數據高效率存儲和訪問、高擴展性和高可用性等的需求越來越高,對傳統關系型數據庫帶來了很大的困難,而NoSQL卻能較好地適應[12]。
與關系型數據庫有幾種數據庫能夠一統江山不同;非關系型數據庫很多,且大部分都是開源的。在這些NoSQL中,除了一些共性外,很大一部分都是針對某些特定的應用需求出現的,因此,對于該類應用,具有極高的性能。依據結構化方法及應用場合的不同,主要分為以下幾類。
( 1)面向高性能并發讀寫的key-value數據庫
key-value數據庫的主要特點即具有極高的并發讀寫性能,如Redis、Tokyo Cabinet、Flare就是這類的代表。
( 2)面向海量數據訪問的面向文檔數據庫
這類數據庫的特點是可以在海量數據中快速地查詢數據,典型代表為MongoDB及CouchDB。
( 3)面向可擴展性的分布式數據庫
這類數據庫想解決的問題就是傳統數據庫存在可擴展性上的缺陷,這類數據庫可以適應數據量的增加及數據結構的變化。
在地理信息公共平臺這種提供電子地圖、空間查詢服務的平臺下,使用NoSQL可以極大地提升讀寫效率,提高平臺服務的體驗。
2.并行處理技術
MapReduce是大數據時代最典型的并行處理算法,它是一種編程模型,用于大規模數據集(大于1 TB)的并行運算。概念“Map(映射)”和“Reduce(歸約)”,以及它們的主要思想,都是從函數式編程語言里借來的,還有從矢量編程語言里借來的特性,極大地方便了編程人員在不會分布式并行編程的情況下,可以將自己的程序運行在分布式系統上。當前的軟件實現是指定一個Map(映射)函數,用來把一組鍵值對映射成一組新的鍵值對;指定并發的Reduce(歸約)函數,用來保證所有映射的鍵值對中的每一個共享相同的鍵組。
MapReduce通過把對數據集的大規模操作分發給網絡上的每個節點實現可靠性;每個節點會周期性地返回其所完成的工作和最新的狀態。若一個節點保持沉默超過一個預設的時間間隔,主節點(類同Google File System中的主服務器)將記錄這個節點狀態為死亡,并把分配給這個節點的數據發到別的節點。每個操作使用命名文件的原子操作以確保不會發生并行線程間的沖突;當文件被改名的時候,系統可能會把它們復制到任務名以外的另一個名字上去。
在地理信息領域,MapReduce可以用來進行空間任務處理,如最短路徑查詢、空間鏈接等。
3.數據挖掘分析技術
數據挖掘一般沒有什么預先設定好的主題,主要是在現有數據基礎上進行基于各種算法的計算,從而起到預測( Predict)的效果,最終實現一些高級別的數據分析需求。在地理信息數據處理中,該過程的挑戰主要是用于挖掘的算法很復雜,且計算涉及的數據量和計算量都很大的情況,常用數據挖掘算法都以單線程為主。
統計與分析主要利用分布式數據庫或分布式計算集群來對存儲于其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求。而在地理信息計算中,分析涉及的數據量大,其會對系統資源,特別是I/O有極大的占用。
廣東省地理信息公共平臺(簡稱平臺)由政務版和公眾版兩個部分組成。政務版地理信息公共平臺主要為政府部門提供地理信息服務,公眾版地理信息公共平臺則面向企事業單位和公眾提供地理信息服務。兩個版本平臺之間是邏輯隔離的,但采用了基本相同的框架結構和技術路線,只是服務的功能和數據不同而已。
平臺的目的是使分布在網絡上不同地理位置和不同平臺的用戶可以獲得對應的地理信息服務。平臺總體結構主要由運行支撐層、數據層、服務層和應用層4個部分組成。體系框架的最底層是支撐層,逐漸向上展開的是其他3層(如圖1所示)。
1)支撐層是公共服務平臺的載體,依托電子政務外網、互聯網和現有的基礎設施軟硬件環境建設,包括網絡系統、服務器集群系統、存儲備份系統等物理環境,以及專用計算機機房環境等。平臺采用了VMware的虛擬化技術,對所有的硬件資源進行了統籌和池化。
2)數據層是指通過服務層提供給應用層的地理信息數據庫內容。它是面向地理信息網絡化服務需求,依據統一技術標準和規范而構建的一體化地理信息資源體系。目前平臺采用Oracle 11 g數據庫,集中式存放電子地圖的矢量、影像瓦片、三維數據、地名地址數據等。
3)服務層是根據多數用戶對地理信息應用的共性需求而設計并實現的系列標準服務接口,以及在此基礎上建立的在線服務系統和運維管理系統。通過在線服務系統向應用層提供所需的各種應用服務,如數據服務、處理服務、表現服務、目錄服務、信息交換服務、業務訪問、業務集成、安全可信和可管理等通用性的服務。平臺以OGC( Open GIS Consortium)為標準,對外提供瓦片( WMTS)、查詢( WFS)等服務開發接口。

圖1 廣東省地理信息公共平臺框架結構
4)應用層則面向平臺服務的對象——政府、企業、公眾。平臺中,應用層構造了各種電子政務應用、門戶網站系統、移動終端及示范應用等,是面向最終用戶的層面。
平臺通過底層虛擬池化的支撐,充分利用了硬件的資源,虛擬機以地圖發布軟件的方式,從傳統關系型數據庫( Oracle)中獲取地圖瓦片和查詢數據,以ORG服務的方式推送給平臺主頁或服務對象,目前已經完全滿足國家的要求,能勝任廣東省政府部門企業和公眾的瀏覽和查詢服務[13]。然而,在大數據時代下,該架構的平臺則難以勝任其高并發、快速數據挖掘分析、服務快速推送應用的需求,需要在下一期平臺建設中作出對應的升級。
圍繞面向政府部門和社會公眾的大數據智能地理信息公共平臺服務,廣東省國土資源技術中心對平臺未來建設的一些關鍵技術開展了一些探索性的研究。
1.支撐層:GIS云原子單元技術
虛擬化技術是平臺底層支撐的關鍵,平臺采用了VMware的資源池化技術,將現有的硬件資源進行統籌規劃,工作人員可再通過對應工具選擇合適的CPU、內存存儲建立虛擬機。現階段,平臺的服務由若干臺虛擬機建立的集群服務所提供,通過負載均衡器,實現了虛擬機之間的資源彈性伸縮,也提供了足以滿足國家要求的性能[13]。然而,在大數據時代,更高的智能和效率要求被提出,目前這種虛擬云技術模式存在以下問題:
1)虛擬機資源浪費:往往很多時候,虛擬機不需要完全使用全部性能來支撐,但是作為7×24小時不間斷的地理信息服務,能夠隨時應對井噴式的用戶訪問的情況,因此往往存在盈余虛擬機資源的時候。
2)服務發布不智能:在目前的模式下,用于支撐服務的虛擬機保持全部開啟,如果有外界用戶想申請服務,工作人員需要手動地在虛擬機集群中發布該服務;根據外界用戶需要的負載情況,工作人員再將服務掛載在對應數量的虛擬機集群上。這種模式使得對外服務和平臺自身服務歸類不清晰,且不好管理,申請的流程也麻煩。
為了解決以上問題,GIS云原子單元技術的概念被引入。
首先,通過多次對單臺虛擬機在以最小資源發布各種GIS服務的狀態下進行測試,確定其勝任的用戶數量級,建立起各個對應GIS服務甚至GIS算法的虛擬機模板,那么通過這種模板建立的一臺虛擬機則成為對應GIS服務的一個GIS云單元。在GIS原子單元的試驗中,通過對比,可以發現采用Linux不帶圖形界面的系統用于服務發布,比采用Windows系統更有效率,在相同性能的狀態下,CentOS( Linux系統)模板的大小約為40 MB,而Windows則達到了近1 GB,CentOS不論在服務推送還是服務提供穩定性上(由于CentOS不帶圖形界面,理論上節省了輸出)都更勝一籌。
其次,建立了高效穩定的模板后,需要一個中間件負責快速創建和卸載GIS云原子單元。如圖2所示,當平臺訪問量劇增時,監控服務器獲取了緊急情況,直接通知中間件,中間件通過腳本控制的方式,直接通過對應模板從資源池中快速創建GIS云原子單元加入到集群中;而當訪問量減少,中間件同樣通過監控服務器的反饋,刪除GIS云原子單元,用于節省消耗。

圖2 GIS云原子單元的調用
最后,建立起智能的GIS云服務推送機制。當外界用戶想向平臺申請資源時,則在相關的頁面填寫表格,當通過審核后,后臺會根據相關需要的負載情況,自動建立GIS原子單元集群,并生成地址,推送給用戶。如當某一廳局想調用廣東省矢量地圖服務( WMTS),而其用戶負載量為X,這些信息都會填寫在表格中,發送給平臺,當審核通過,中間件則會根據需要的WMTS服務選取模板進行GIS云原子單元創建。假設每個單元可以負載Y個用戶,則自行創建X/Y個單元,組成集群,形成WMTS服務地址,自動推送回給申請廳局。
云原子單元技術解決了虛擬資源浪費和服務申請不智能的問題,能夠為平臺大數據應用提供一個良好的底層支撐,是平臺未來的升級方向之一。
2.數據層:分布式存儲技術
目前,平臺瓦片查詢服務都是基于集中式的數據庫實現的,這會導致讀取效率不高。電子地圖是由大量的小容量瓦片所組成的,而小容量式的文件讀取速度慢一直都是傳統存儲的難題。當大量用戶調用地圖時,傳統上從數據庫讀取瓦片的效率就成了瓶頸。因此,分布式存儲技術用于地理信息服務也是平臺未來的升級選項。
首先,平臺的架構必須升級,以能夠更好適應分布式NoSQL,如Hadoop,其分布式文件系統( HDFS)對碎片容量的文件讀取非常高效,同時也是海量數據分析算法的基礎,需要和中間件配合工作。
然后,地圖瓦片不再是以入庫的方式,而是以文件的形式存放,即可以為NoSQL的形式,以增強讀取效率。
最后,由于廣東省具有豐富的自然地理要素,這些都是有用的數據,用于大數據分析挖掘可能會有許多驚人的發現;甚至是傳感器接收回來的海量數據,都會以NoSQL的形式存放,方便并行分析計算( MapReduce)。
3.應用層:大數據時代的平臺應用
有了對應的大數據技術支撐,必須有對應的大數據應用,地理信息的大數據技術應用模式可以多種多樣,以下幾點是平臺未來發展的方向:
1)移動端化,在移動手機、平板電腦大行其道的今天,人們對應用的需求越來越輕量化,復雜度高的計算不再需要在客戶端進行,移動端只需要發出指令,云端進行計算后,結果返回推送給移動端即可。
2)地理信息數據關聯,能夠精準快速地通過位置、關鍵詞進行信息數據的挖掘獲取,結合移動端的使用,能夠結合現場輔助決策。
3)智能化,通過數學模型,能夠通過對一些位置傳感器的數據在平臺進行的分析,自行作出決策,一些自動化控制如城市內澇、交通管控未來可以實現,這需要平臺增加網絡傳感器功能與時空數據庫的支持。
本文結合大數據時代的技術和廣東省地理信息公共平臺的現狀,對未來地理信息公共平臺的建設提出了一些探索性的展望:支撐層服務云單元化、數據層分布式存儲化、服務層云交付化和應用層智能推送化。將來的平臺建設中,將會對這一系列理論規劃進行實踐評估。
大數據時代的來臨給地理信息帶來了前所未有的機遇,同時也帶來了巨大的挑戰,我們應當勇于創新,敢于把大數據技術結合地理信息進行應用,挖掘其價值,才能為政府部門和社會公眾提供更好的輔助信息。
[1] 周星,桂德竹.大數據時代測繪地理信息服務面臨的機遇和挑戰[J].地理信息世界,2013( 5) : 17-20.
[2] 周順平,徐楓.大數據環境下地理信息產業發展的幾點思考[J].地理信息世界,2014( 1) : 45-50.
[3] 楊哲宇.大數據在地理信息系統中的應用[J].環境與生活,2014( 4) : 49-51.
[4] 喬朝飛.大數據及其對測繪地理信息工作的啟示[J].測繪通報,2013( 1) : 107-109.
[5] 劉紀平,張福浩,王亮,等.面向大數據的空間信息決策支持服務研究與展望[J].測繪科學,2014( 5) : 8-12,17.
[6] 苗立志,焦東來,楊立君.面向地理標記語言空間數據的地理信息聚合[J].計算機應用,2014,34( 6) : 1816-1818,1824.
[7] 肖玉,安凱,謝高地.基于元數據的區域功能信息與地理信息集成模式探討[J].資源科學,2009( 5) : 867-874.
[8] 劉經南.大數據與位置服務[J].測繪科學,2014( 3) : 3-9.
[9] 徐開明.地理信息公共服務平臺建設與現代測繪服務模式[J].地理信息世界,2006( 3) : 41-48.
[10]曾元武,陳澤鵬,吳永靜,等.廣東省地理信息公共平臺的建設及其應用[J].測繪通報,2014( 6) : 66-70.
[11]王元卓,靳小龍,程學旗.網絡大數據:現狀與展望[J].計算機學報,2013,36( 6) : 1125-1138.
[12]黃賢立.NoSQL非關系型數據庫的發展及應用初探[J].福建電腦,2010( 7) : 30-45.
[13]吳永靜,胡斌,方曉樂,等.基于云平臺的地理信息公共平臺部署與測試[J].測繪地理信息,2014( 3) :82-84.
Prospect of Geographic Information System Platform Construction under Big Data Era
ZENG Yuanwu,CHEN Zepeng,FANG Xiaole,WU Yongjing
在大數據時代來臨的背景下,地理信息公共平臺不僅要在原有的地圖瀏覽、興趣點查找、定位服務等模式下提供更好的體驗,還要滿足相關信息挖掘推送、快速數據分析決策等時代趨勢要求。本文以廣東省地理信息公共平臺現有框架為基礎,結合大數據技術,概述了下一代平臺的建設方向。
大數據;云計算;數據挖掘;服務推送;智能決策
曾元武( 1964—),男,教授級高級工程師,主要從事遙感、地理信息平臺的工作和研究。E-mail: 10048392@ qq.com
曾元武,陳澤鵬,方曉樂,等.大數據時代下地理信息公共平臺建設展望[J].測繪通報,2015( 11) : 84-87.
10.13474/j.cnki.11-2246.2015.0353
P208
B
0494-0911( 2015) 11-0084-04
2014-09-29
廣東省國土資源廳科研專項( GDGTKJ2014006)