肖建華,王厚之,彭清山,郭明武
(武漢市測繪研究院,湖北 武漢 430022)
?
地理時空大數據管理與應用云平臺建設
肖建華,王厚之,彭清山,郭明武
(武漢市測繪研究院,湖北 武漢 430022)
Research on the Construction of Cloud Platform for the Spatio-temporal Big Data Management and Application
XIAO Jianhua,WANG Houzhi,PENG Qingshan,GUO Mingwu
摘要:針對當前國內地理時空大數據生產管理與應用面臨的數據存儲組織難、數據吞吐處理難、數據集成應用難和數據生產全過程管理難等問題,同時從地理實體產生消亡全過程管理與地理數據生產服務全過程管理兩個角度出發,研究了地理時空大數據全生命周期管理與應用的相關方法;并基于云計算、GIS及SOA等技術,構建了智能高效的云GIS管理平臺,實現了地理時空大數據全生命周期的高效管理與智能應用。
關鍵詞:云平臺;大數據;全生命周期管理;云GIS;時空
近年來,隨著人類生產活動的加劇及新型智能測繪技術裝備的不斷涌現,地理空間數據正呈爆炸式增長,地理時空大數據正勢不可擋地取代傳統的靜態空間數據而成為地理信息社會化應用的主要形式。與傳統的靜態空間數據相比,地理時空大數據除了包含空間及專題屬性信息外,還包含時間信息,并呈現出“4V”(Volume:體量大;Velocity:增速快;Variety:樣式多;Value:價值高)等特點[1]。地理時空大數據“4V”的特點讓其在生產管理與應用上面臨著存儲組織與分析處理難、集成應用難及數據全生命周期管理難等問題。這些問題都是傳統GIS無法解決的問題[2-4]。
本文針對當前國內地理時空大數據在生產管理與應用中面臨的上述問題,同時從地理實體產生消亡全過程管理及地理數據生產服務全過程管理兩個角度出發,研究地理時空大數據全生命周期管理與應用的相關方法;并基于云計算、GIS及SOA等技術,研發出一套智能高效的地理時空大數據管理與應用云平臺(以下簡稱平臺),能滿足數據生產管理部門對地理時空大數據生產過程管理、加工處理、分發共享與集成應用全生命周期管理的需要,同時也能滿足數據應用部門對地理時空大數據集成化、實時化、時序化、動態化、服務化、大眾化、智能化與人性化應用的需要。
一、時空數據的組織管理與集成方法
1. 矢量時空數據庫設計
時空數據庫是用于存儲與管理位置或形狀隨時間變化的各類空間對象。時空對象的變化情形主要包括以下6種情況:①屬性變化,圖形無變化;②新增;③消失;④合并;⑤拆分;⑥形變[5]。
本文設計的矢量數據時空數據庫結構如下:
1) 采用對象關系數據庫中的表來管理時空數據。
2) 通過在數據庫的表中增加時間戳的方式來記錄地理實體隨時間的變化情況。時間戳以生成時間(字段名稱為CT,字段類型為DateTime型)與消亡時間(字段名稱為DT,字段類型為DateTime型)兩個字段來表示。
3) 通過在數據庫的表中增加字段“FroObj”與“ToObj”來標識時空實體變化前后的衍生關系。FroObj標識當前實體由哪個實體(舊實體)演變而來,它記錄舊實體在表中對應的ID;ToObj標識當前實體演變成了哪個實體(新實體),它記錄新實體在表中對應的ID。
4) 通過在數據庫表中增加字段“Case”標識空間實體發生變化的情形,取值包含上述6種情形之一或兩種以上情形的組合。
5) 通過在數據庫表中增加字段“Event”標識空間實體發生變化的事件。
圖1為某地塊發生變化的示意圖。相鄰的兩地塊101與102先合并為地塊201,然后地塊201又拆分為地塊301與302。
基于以上時空數據庫結構對上述時空演變過程記錄見表1。

表1 時空數據庫結構示例

圖1 時空演變實例
2. 柵格時空數據庫設計
對應柵格數據的時空組織,采用柵格快照模型,將變化的柵格數據保存為一系列的時間快照。利用該方法,可反演出給定時刻地理實體的狀態。
3. 時空數據集成技術
(1) 多源異構時空大數據的集成組織架構
對多源異構時空大數據采用分類分級的層次結構組織。首先依據數據尺度,將數據分大類組織,每個大類下又對應一個或多個要素層,每個要素層包括若干地理空間實體。每個地理空間實體由一個幾何對象和描述幾何對象的屬性或語義兩個部分構成,它是數據集成組織的最小單元。每個要素層在數據組織和結構上相對獨立,數據更新、查詢、分析和顯示等操作以要素層為基本單位[6-7]。
(2) 面向服務(SOA)的多源異構數據網絡集成
OGC制定的開放地理數據互操作規范為在網絡環境下訪問異構地理數據和地理處理資源提供了一致性的接口定義。為了方便時空大數據在網絡環境下的共享利用,本文采用面向服務(SOA)的方式,將所有的地理空間數據處理成遵循OGC規范的標準地理數據服務(Rest、WMS、WFS和WCS)來實現多源異構數據的集成共享,并將不同的時空數據服務分布式地部署在網絡云端[8-9]。
二、平臺的設計與實現
1. 平臺邏輯結構設計
為了滿足時空大數據的存儲管理需要,同時也為了確保數據生產管理與應用的安全性,平臺基于私有云環境進行設計與研發?;谒接性骗h境,平臺的邏輯結構(如圖2所示)設計為3層,從下往上依次為:基礎設施層、中間層和數據管理與應用層[10]。其中,基礎設施層又包含物理層和虛擬層;數據管理與應用層又包含時空數據層、管理服務層和應用層[11]。

圖2 平臺的邏輯結構
1) 物理層:由均質化的服務器、網絡、存儲等硬件資源組成,所有服務器采用相同品牌、相同型號,滿足驅動程序或硬件的兼容性,這樣才能實現遷移、負載均衡、容錯等多項功能。
2) 虛擬層:利用虛擬化技術,對操作系統、網絡、應用程序、服務器、存儲等資源進行虛擬化,提供虛擬化的資源和技術。
3) 中間層:負責管理基礎設施層的虛擬化資源,提供自動化管理服務,實現虛擬資源的自動部署,包括主機管理、虛擬機管理、資源的動態部署、動態調度、服務運行狀況監控[12]。
4) 時空數據層:對應平臺管理的各類時空大數據。
5) 管理服務層:對應平臺的數據管理與訪問相關的模塊與接口。除了時空數據服務外,還包括空間數據引擎服務、空間查詢服務、空間分析處理服務等。所有數據與功能服務遵循OGC標準協議,使得不同數據服務可以聚合與疊置,不同功能服務可以互操作。
6)應用層:應用層對應基于平臺的數據服務及功能服務搭建的各類GIS應用系統。
云計算的建設、運行、管理和維護都需要在一定的安全機制下進行,并遵循一定的標準。安全控制服務保護應用程序免受外來攻擊,可以通過為虛擬機構建虛擬防火墻來實現。此外,還需要開放虛擬化格式(OVF)標準作支持。OVF對虛擬機和元數據的封裝進行了規范,以保證在任何虛擬化平臺上都能夠自動和安全地部署虛擬設備[13]。
2. 平臺的功能設計與實現
按照云計算的相關理論,設計的平臺總體架構由7個系統構成。這7個系統分別對應云GIS的基礎設施即服務(IaaS)層、軟件即服務(SaaS)層、平臺即服務(PaaS)層與數據即服務(DaaS)層[14]。IaaS層相關服務由私有云基礎設施搭建與管理系統來實現;SaaS層相關服務由數據生產全過程追蹤與管理系統、數據資源創建與管理系統和數據成果檔案建檔與管理系統來實現;PaaS層相關服務由數據服務功能接口創建與管理系統、數據應用平臺創建與管理系統、應用程序二次開發API、功能模塊及功能服務來實現;DaaS層相關服務由時空數據服務與數據資源檢索與服務系統來實現。7個系統均以托管服務的方式部署在云環境中,系統之間實現了無縫對接、聯動操作和單點登錄。平臺包含的7個系統的主要功能及實現方法如下:
(1) 私有云基礎設施搭建與管理系統
該系統為搭建、管理與維護高性能的時空大數據存儲管理云環境提供有效的支持,解決了時空大數據生產管理與應用過程中IT資源不足的瓶頸問題,主要負責平臺運行的私有云基礎設施層的管理、虛擬化、資源監測及動態彈性調度等[11]。系統功能分為5個模塊,分別為基礎資源管理、站點管理、系統監控、資源度量、系統管理。
該系統基于B/S架構,并通過VMware vSphere SDK for .NET二次開發接口,實現硬件集群及資源池的建立與管理;基于VMware vCloud SDK for .NET的二次開發接口實現資源池上的虛擬機建立和站點的配置,并對資源池的使用狀況、站點的負載情況進行實時監控。
(2) 數據生產全過程追蹤與管理系統
該系統主要實現數據生產全過程“項目登記、作業過程管理、費用管理、合同管理、質量管理、資料管理、產值管理”等環節的規范化、科學化、系統化與智能化的追蹤與管理;基于B/S架構,并綜合采用AJAX、CAS、JQuery等技術開發而成。
(3) 地理數據資源創建與管理系統
該系統主要對地理空間數據進行時空編輯處理、轉換入庫、服務創建及更新維護等。針對地理空間數據格式較多、存儲方式各異,處理轉換及數據服務創建與更新維護復雜等問題,該系統面向行業內主流GIS數據,實現了海量地理數據服務分布式、“一鍵式”與智能化的創建及更新維護。在進行時空數據的更新維護時,系統自動維護時間戳及時空索引。
由于目前最常用的地理空間數據主要包括ArcGIS數據和DWG數據,因此,本系統提供了處理這兩類數據的環境,即GIS環境和CAD環境。GIS環境主要對ArcGIS中的SHP、GeoDatabase等數據進行處理;CAD環境主要實現DWG數據格式與SHP的轉換、DWG數據創建地圖服務等。系統基于ArcGIS Engine、CAD二次開發控件開發。
(4) 數據成果檔案建檔與管理系統
該系統主要對地理數據生產過程所產生的電子資料進行數字化檔案管理,其目的是為了規范檔案資料的管理,實現檔案資料的綜合利用。其功能模塊主要包括收集積累、驗收歸檔、案卷整理、變更管理、檔案編目、檔案備份、檔案鑒定、檔案統計、發布查詢、檔案利用、檔案編研、元數據管理等。該系統基于B/S架構,并綜合采用AJAX、CAS、JQuery等技術開發而成。
(5) 數據服務功能接口創建與管理系統
該系統主要實現GIS功能模塊與功能服務的管理,方便功能模塊與功能服務的重復利用與組合搭建,為GIS應用系統的定制奠定基礎。該系統綜合采用了ArcGIS Engine、Python、工作流等技術開發而成。
(6) 數據應用平臺創建與管理系統
由于當前GIS應用系統的開發存在專業性強、開發難度大、投資成本高、擴展定制難等問題,這讓一般數據生產管理部門或數據應用部門按需定制自己GIS應用系統的愿望難以實現。該系統的主要目的是降低GIS應用系統研發的門檻,讓非專業人員根據自己的需要快速定制時空大數據集成應用GIS系統。
系統基于模塊化、先分后合和軟件復用等思想,先對GIS應用系統構成要素(數據、功能、業務邏輯、用戶界面和用戶權限等)進行離散化、通用化與模塊化劃分,并構建構件庫,讓GIS應用系統構件元素之間相互獨立、相互分離,同時又彼此互留接口;最后采用組合搭建的方法,讓用戶以裝配式的可視化、零代碼或近似零代碼方式搭建GIS應用系統。該系統基于B/S架構,并綜合采用了XML、Web Service、ASP.NET及ArcGIS Server開發而成。
在沒有進行擴展的情況下,數據應用平臺創建與管理系統搭建的用戶應用系統具備時空大數據集成應用的常見基本功能,用戶還可以在此基礎上,根據自己的需要進行功能擴展。這些基本功能可概括為8個能:①能看:能對海量時空大數據進行瀏覽及查看;②能查:能對海量時空大數據進行查詢定位;③能加:用戶能疊加顯示本地數據SHP、DWG等數據;④能下:能進行電子檔案資料的下載;⑤能算:能基于空間或屬性對地理空間要素進行定制化的統計分析計算、面積長度的計算等;⑥能比:能將不同形式的時空數據雙拼聯動比對,還能基于時間軸或時間幀對時序數據進行動態可視化的歷史回溯;⑦能繪:能進行地圖標繪,并將標繪的圖形輸出成SHP或DXF;⑧能定制:能從數據源、數據展示方式、要素操作方式、功能、用戶權限等方面對系統進行定制與維護。
(7) 數據資源檢索與服務系統
由于平臺中的數據服務均發布在云端,為了方便普通用戶快速查找并利用基于本平臺發布在云端中的各類地理數據服務,該系統為普通用戶提供了數據服務檢索及瀏覽的接口。用戶查找到數據服務后,可以在AutoCAD、ArcGIS或其他GIS應用系統中調用對應的數據服務。為了在AutoCAD下調用OGC地圖服務,本文還基于AutoCAD for ArcGIS API在AutoCAD下開發了調用地圖服務的功能接口。
3. 基于平臺的時空大數據全生命周期管理與應用流程
本文設計的基于平臺進行時空大數據全生命周期管理與應用的流程如圖3所示。

圖3 時空數據生產管理與應用的全生命周期管理流程
(1) 數據生產過程管理
數據生產管理部門對所有數據生產項目通過數據生產全過程追蹤與管理系統進行任務登記、任務分配、過程管理、成果提交及質量檢查等。管理中,成果數據以電子資料的形式通過該系統上傳與流轉。成果檢查合格后,對應的電子資料就是最終的成果資料,并被自動推送到數據資源創建與管理系統。
(2) 數據處理及電子歸檔
數據管理員根據數據的特點及應用需要,利用數據資源創建與管理系統對數據進行數據入庫或服務創建,或者兩項操作都進行。完成數據更新入庫后,形成了時空數據庫。完成服務創建(更新)后,就形成了發布在云端的數據服務。完成這兩項操作后,數據資源創建與管理系統將電子資料推送到數據成果檔案建檔與管理系統,檔案管理人員檢查、歸類及登記操作后就完成了數據生產資料的數字歸檔。
(3) 時空數據的應用
通過上述3個系統后,將所有時空數據及對應的檔案資料轉換成了數據庫、數據服務和電子檔案這3種形式的成果。用戶可以根據自己個性化的需要,利用數據服務功能接口創建與管理系統創建功能模塊或功能服務;然后結合創建好的數據服務與功能服務,利用數據應用平臺創建與管理系統快速定制自己的GIS應用系統,從而實現時空大數據及其相關的電子檔案資料的集成應用。
此外,用戶還可以利用數據資源檢索與服務系統,快速查找基于本平臺發布在云端的海量時空數據服務,然后將這些數據服務加入用戶的管理系統(如ArcGIS、AutoCAD或其他GIS應用系統)中進行應用。
三、結束語
目前,本文的研究成果已經成功應用于武漢市土地利用和城市空間規劃研究中心、長沙市規劃勘測設計研究院、昆明市測繪研究院等單位項目中。隨著地理信息產業的發展和大數據時代的到來,地理信息服務的內容、領域、方式也在發生深刻的變革。云平臺支撐下的時空信息服務將是地理信息應用的主要形式。因此,本文的研究成果將具有巨大的應用潛力與良好的應用前景。
參考文獻:
[1]龔健雅,王國良.從數字城市到智慧城市:地理信息技術面臨的新挑戰[J].測繪地理信息,2013,38(2):1-6.
[2]吳正升.GIS中時空數據組織方法研究[D].鄭州:信息工程大學,2006.
[3]喬朝飛.大數據及其對測繪地理信息工作的啟示[J].測繪通報,2013(1):107-109.
[4]郭仁忠,劉江濤,彭子鳳,等.開放式空間基礎信息平臺的發展特征與技術內涵 [J].測繪學報,2012,41(3):323-326.
[5]張山山.基于對象關系數據庫的地理時空數據組織[J].計算機工程與應用,2006(1):166-168.
[6]賈晨微.政務地理空間私有云技術研究[D]. 成都:電子科技大學,2012.
[7]馬宏斌,王青山,王珂.一種地理空間數據即服務私有云設計[J].測繪與空間地理信息,2014,37(5):20-21.
[8]AGARWAL D,PRASAD S K. Lessons Learnt from the Development of GIS Application on Azure Cloud Platform [C]∥2012 IEEE 5th International Conference on Cloud Computing.[S.l.]:IEEE Computer Socitety,2012:352-359.
[9]韓剛,何超英,陳軍,等.基于Web服務的全球地表覆蓋遙感制圖大數據集成與應用[J].測繪通報,2014(3):103-106.
[10]穆宣社.基于地理空間大數據的應急指揮輔助決策平臺研究[J].測繪通報,2015(6):93-96.
[11]汪匯兵.基礎地理信息時空一體化建模與管理方法研究[D]. 武漢:武漢大學,2011.
[12]彭義春,王云鵬.云GIS及其關鍵技術[J].計算機系統應用,2014,8(23):10-17.
[13]AHMRT I,YIGIT H,YIMAZ G.GIS Applications in Cloud Computing Platform and Recent Advances [C]∥International Conferences on Recent Advances in Space Technologies.[S.l.]:IEEE, 2011:193-196.
[14]彭義春,王云鵬,牛熠.云計算環境下的GIS研究[J]. 東莞理工學院學報,2013,1(20):17-23.
[15]常澤鋒.基于云計算數據中心的數字城市研究與應用[D].武漢:華中科技大學,2012.
中圖分類號:P208
文獻標識碼:B
文章編號:0494-0911(2016)04-0038-05
作者簡介:肖建華(1963—),男,教授級高級工程師,主要從事城市勘測技術與行政管理工作。E-mail:xjhwhkc@163.com
基金項目:精密工程與工業測量國家測繪地理信息局重點實驗室開放基金(PF2012)
收稿日期:2015-08-10; 修回日期: 2015-11-17
引文格式: 肖建華,王厚之,彭清山,等. 地理時空大數據管理與應用云平臺建設[J].測繪通報,2016(4):38-42.DOI:10.13474/j.cnki.11-2246.2016.0117.