黃家凱, 樊旭東, 秦麗娟
(湖北省地質調查院,湖北 武漢 430034)
近十年來,數據資源已成為國家基礎性戰略資源,大數據正對全球經濟運行機制、社會生活方式和國家治理能力產生著重要影響[1]。美國、歐盟、英國、澳大利亞、法國、韓國等發達資本主義國家相繼啟動國家大數據戰略,在國家安全與公共服務領域已取得顯著成效。中國自2015年國務院發布《促進大數據發展行動綱要》以來,工信部、發改委、科技部、財政部等國家部委及各省級政府先后出臺了系列配套政策,力圖利用大數據技術解決政府數據開放共享不足、缺乏頂層設計和統籌規劃、創新應用領域不廣等問題,實現信息資源互聯共享,提高政府治理效率。
地質數據具有海量、類型多和應用廣等特征,符合大數據的“5V”(Volume、Variety、Value、Velocity、Veracity)要求,是典型的大數據[2]。2015—2017年,中國地質調查局通過組織實施“地質數據更新與應用服務”計劃的“地質大數據與信息服務工程”,建成了中國“地質云1.0”,實現了地質數據的穩定匯聚和共享服務,建立了系列標準規范與技術體系。與此同時,省級地質大數據建設工作也陸續開展,并形成了階段性成果:湖北省通過開展地質大數據平臺建設研究,提出了湖北省地質大數據平臺建設總體實施方案;山東省提出以基礎平臺和數據中心建設為支撐,通過管理業務集成與協同,建成山東“數字地礦”;四川省通過與行業領先的云平臺供應商合作,計劃建成四川“智慧地礦”;貴州通過建設地質科技產業園區,集成整合了一批科研創新平臺與科研機構,開發了“大眾礦評”、“土元素”應用軟件;安徽、河南、云南等省也先后提出了本省的地質大數據建設方案。
因數據資源與應用需求的客觀差異,當前國內省級地質大數據建設過程中,各省對于省級地質大數據內涵和外延的理解不盡相同。為了實現與中國地質調查局“地質云”的縱向對接,有必要在研究中國地質調查局“地質云”數據產品標準體系、數據交換共享技術要求的基礎上,提出一個標準對接、彈性可擴充的省級地質大數據總體框架,供省級地質大數據建設參考使用。
與中國地質調查局對比,省級地勘隊伍擁有的地質數據資源有較大差異。通過對“地質云”1.0系統發布數據資源統計,中國地調局擁有的地質資料以比例尺≤1∶5萬的基礎性地質調查資料、國家投資開展的礦產勘查資料以及多種多樣的地質科研資料為主,可歸類于戰略性、基礎性、公益性地質資料。
筆者2017年對湖北省地質局屬21家地勘單位的地質數據資源現狀開展了較充分的調查。調研通過湖北省地質局質量監督處發放的《地質數據資源統計表》開展,分別調查了地學數據庫的建設情況與地質資料的存檔情況。調研表樣式見表1、表2。
通過對調查結果匯總分析,湖北省地質局共形成了52個結構化、半結構化地學數據庫(表3)。數據庫涵蓋了從1∶50萬至中大比例尺的各類尺度,數據格式包含MapGIS、ArcGIS、Access、Excel、DBF等多種類型,數據形成年代主要集中在近十幾年。

表1 已建成數據庫現狀調查表Table 1 Questionnaire on the status of completed databases

表2 地質資料現狀調查表Table 2 Questionnaire of geological data
與中國地質調查局“地質云”已入云的數據庫資源相比,省級地質數據庫與其有一部分交集,如圖幅性的區調、礦調、水工環調查數據庫。這主要是源于此類調查工作的實施單位一般是省級地勘隊伍。此外,表3中有30個數據庫屬于省級地質隊伍在中大比例尺地質找礦、管理業務等工作中形成,這一部分數據資源屬省級獨有。
省級地質隊伍成果地質資料豐富。以湖北省地質局為例,2012年以前湖北省地質局資料館代管湖北省全省地質成果資料計6 329檔。局屬地勘單位存檔保管成果地質資料計30 732檔。數據以紙質檔案、掃描電子檔案數據、office電子文檔、矢量電子數據及少量其它電子數據多種類型保管,數據量超過4.68TB(不含未形成電子檔案的部分)。電子數據的存儲介質多為光盤與普通硬盤(普通臺式機電腦硬盤或移動硬盤),僅湖北省地質調查院與湖北省地質科學研究院采用資料存儲服務器存儲。
湖北省成果地質資料按照密級劃分,非涉密成果地質資料(30 416檔)、未定密成果地質資料(2 615檔)占比達90%,由此可見,省級地質隊伍成果地質資料提供給社會公開利用潛力巨大。
省級地質隊伍原始地質資料數量巨大。以湖北省地質局為例,全局共存檔保管原始地質資料13 498檔。以紙質檔案為主,僅省第二地質大隊、省第六地質大隊、省水文隊、省地科院、省地調院的部分原始地質資料為電子檔案。因2016年以前資料管理未強制要求匯交原始地質資料,原始地質資料屬省級地質隊伍獨有的寶貴資源。
湖北省地質局原始地質資料中,非涉密類為10 450檔,占77.42%;涉密類為1 263檔,占9.36%;未定密類為1 785檔,占13.22%。可提供公開利用的潛力巨大。
近年來省級地質隊伍逐漸批量正規保管實物地質資料。湖北省地質局下屬有4家單位保管有鉆孔巖芯計84 414.85 m,有6家單位保管有化探副樣144 104件。其中省第一地質大隊、省第二地質大隊、省第六地質大隊、省第八地質大隊作為湖北省國土資源資料館實物地質資料共建單位,開始正規保管實物巖芯、化探副樣等實物地質資料,但尚未形成較大規模。
近年國內以中國地質調查局發展研究中心、西安地質調查研究中心等為代表的科研院所,開展了國家地質云的架構研究與實踐[3]。國家地質云1.0建成了物理分布式的1+6+12的國家地質大數據中心,主中心節點與各分中心基于Web Service發現、匯聚、利用、分發各類服務,這是一種典型的面向服務的架構(SOA)體系[4]。國家地質云上線運行4個月內,訪問量突破了87萬次,日均訪問超過7 000次,數據產品下載1萬多次,下載數據量超過3 817 GB,這充分說明SOA架構是契合地質云建設的技術需要的[5],因此省級地質大數據建設的總體框架也必須基于SOA架構設計。與“地質云”的總體架構相比,省級地質大數據的整體架構設計雖然層級結構和松耦合的總體思想一致,但在各層次的具體建設內容和實現方式有較大不同。
遵循面向服務(SOA)的先進架構技術,省級地質大數據建設的總體框架設計圖如圖1。

表3 湖北省地學數據庫建設情況總體一覽表Table 3 General list of the construction of geological database in Hubei Province

圖1 省級地質大數據建設總體框架圖Fig.1 General framework map of provincial geological big data construction
該架構設計以地理信息技術、云計算技術、大數據技術、互聯網技術、數據庫技術為支撐,采用基于云環境的T-C-V(Terminal-Cloud-Virtual)軟件系統架構,從下到上依次分為3層:虛擬設備層(V層),包括物理設施、虛擬資源;云計算層(C層),包括地質大數據中心和地質云服務中心;終端應用層(T層),包含基于地質大數據平臺的智能管理支撐子系統、基于地質大數據平臺的地質應用服務子系統。遵照云計算的四層架構模式分別構建地質云計算基礎設施服務層(IaaS)、地質大數據服務層(DaaS)、地質云平臺服務層(PaaS)、地質云大數據應用服務層(SaaS),面向各類管理用戶、專業技術用戶及社會公眾用戶提供所需的地質云服務。
省級地質云計算基礎設施建設有兩種方案:一是租用公有云資源,二是自建私有云環境。
租用商用云基礎設施(如阿里云、楚天云)是一種中小型企業搭建云基礎設施環境的常用方案。以湖北省“楚天云”為例,它是集云計算、大數據于一體的湖北省統一云基礎設施綜合服務平臺和數據交換樞紐平臺。“楚天云”整體部署架構主要分為下層基礎設施以及上層云平臺配置管理部分,采用基于OpenStack架構的云平臺和自主可控的基礎設施。向省直政府單位提供計算、存儲、網絡、安全等服務。租賃方案的優點是輕維護、高安全、高可用性;缺點是費用較高、部署較復雜。如果項目建設長期投入規劃偏少、數據涉及較敏感的商業秘密,要慎選租用方案及服務產品。
自建私有云環境包含機房環境建設(機房選址、分區規劃、裝修、溫度濕度控制設備、消防設施)、網絡接入設施(專線光纖)、安全防護設施(防火墻、堡壘機、VPN設備、行為審計設備等)、網絡設施(核心交換機、云計算交換機)、計算單元(X86標準服務器)、虛擬化管理平臺軟件(服務器虛擬化、存儲虛擬化、網絡虛擬化)等多項內容。自建私有云環境時需根據項目當期投入預算規模、大數據平臺系統等級保護規劃等內容綜合確定建設規模。在預算投入充分的情況下,可以參考國家地質云的物理分布式模式建設;若預算投入不足,可以建成集中式的省級統一私有云基礎環境。
省級地質大數據服務層以建成省級地質大數據中心為目標。其以物理設備資源池、虛擬資源池為依托,以信息化數據規范體系和安全保障體系為保障,進行數據資源體系的統一規劃設計。數據擁有者將地質數據抽取、轉換、清洗、加工后,注入到地質大數據管理平臺進行虛擬化和云化處理,實現多源、異構地質數據的統一管理,建立基于地質大數據管理平臺的地質數據集成應用、專業數據管理工具和數據更新交換體系,最終以標準數據服務形式提供給用戶使用。
省級地質大數據中心可先從具有較好數據基礎的成果地質資料、地質專業數據庫入手,最終目標是形成以信息與管理為一體、多級互聯互通、資源有效共享的大型地質數據資源池。為了實現與國家地質云的互聯互通,省級地質大數據中心建設時要考慮在數據編碼規范、信息產品核心元數據標準兩方面與地質云的有關標準保持一致。地質大數據中心體系結構如圖2所示。
以湖北省地質大數據中心建設為例,其參考繼承了國家地質云的數據分類編碼規范、核心元數據標準、數據整理與服務發布規范,參考成果地質資料匯交制度對成果地質資料元數據信息做了擴展,對地質圖件、地質圖空間數據庫擴展了圖層信息、屬性內容信息的元數據內容。在數據中心用戶視圖模式上,湖北省實現了地質大數據中心物理上集中統一管理、邏輯上按數據產權歸屬獨立劃分的結構模式,在建設規模和數據保護上實現了平衡。

圖2 湖北省地質大數據技術體系結構圖Fig.2 Architecture map of geological big data technology in Hubei province
省級地質大數據云平臺服務層利用底層提供的物理資源、虛擬資源、數據資源,基于本身提供的數據倉庫和功能倉庫,形成快速構建應用的基礎環境,方便用戶進行各類應用系統、工具和接口的快速搭建定制工作,極大的提高應用開發效率。云平臺服務層通常以商用GIS平臺為基礎,結合省級地質大數據建設的功能需求開發。
2.4.1 數據服務
數據服務用于提供目錄數據服務、矢量數據服務、柵格數據服務等基礎數據服務功能。目錄服務提供大數據中心中數據目錄查詢服務;矢量數據服務對矢量數據進行矢量分析,如緩沖區分析、疊加分析,并提供多核、多節點不同粒度并行策略;柵格數據服務完成包括矢量、影像、矢量影像疊加、數字地形圖、2.5維仿真地圖等多種類柵格數據服務。
2.4.2 功能服務
功能服務包括空間分析服務、遙感分析服務、數據挖掘服務等。空間分析服務含柵格分析與矢量分析,提供GIS數據分析與處理;遙感分析服務功能提供通用影像分析處理工具;數據挖掘服務根據結構化和非結構化數據信息,進行清理—分析—提取操作,挖掘特征數據信息。
2.4.3 應用接口服務
為了方便地質大數據使用者快速搭建Web應用,云平臺服務層應基于RIA技術、搭建式開發機制等技術,提供靈活的開發接口,在服務端提供Java、.NET開發庫,客戶端提供插件、腳本等開發接口,并要求保證較好的兼容性。
2.4.4 云平臺管理服務
云平臺管理服務用于地質大數據平臺的云服務管理、服務發布、資源監控、權限管理、日志管理、云服務節點管理等工作,保障地質大數據平臺綜合數據資源的持續、穩定、安全服務,為各相關應用系統提供可靠的數據支撐,保障各業務工作規范、科學執行。
省級地質大數據建設的目標是為政府提供宏觀決策數據支撐,為專業領域的科學研究提供數據服務,為社會公眾提供地質數據資源檢索服務,經過調研,服務的功能主要集中在地質“一張圖”、數字地質資料館、數據交換共享幾個方面。云應用服務層是各類用戶利用、挖掘地質大數據價值的直接工具。以湖北省地質局地質大數據平臺建設研究為例,提出近期建設基于地質大數據的智能管理支撐子系統與地質應用服務子系統;由于SOA架構彈性可擴充的特點,運行維護期可根據需要擴充在地質旅游、地質科普等專業方向的擴展,最終覆蓋地質大數據服務全體系。
2.5.1 地質大數據智能管理支撐子系統
地質大數據智能管理支撐子系統是當前省級地質工作中急需建成的部分。其基本構想是提供各類用戶一個專業的工作臺環境,在地質大數據中心提供的各類數據服務的基礎上,靈活方便地獲取、組合、分析、保存各類數據,輔助完成用戶的管理業務和技術業務。該子系統主要包含地質“一張圖”模塊、項目管理模塊和輔助決策模塊。
2.5.2 地質大數據應用服務子系統
地質大數據應用服務子系統是地質技術人員的數字地質資料館,是搭建在省級地質大數據平臺上的個人工作臺,聚焦于服務地質工作中的資料智能檢索推送、數字地質資料存檔與服務、數據交換共享與數據綜合分析等主要功能。主要包含資料查詢與智能推送模塊、數字地質資料館服務模塊、數據交換共享模塊、數據綜合分析模塊、專題地質產品定制模塊。
2.5.3 遠期規劃建設的功能
基于SOA架構的特點,省級地質大數據平臺應用服務層遠期可實現多專業標準圖集、三維模擬決策環境、大屏幕演示、輔助決策指揮、數據挖掘、大眾地質科普、專題地質產品定制、地質知識交流分享等多種功能。
為了測試SOA架構在省級地質大數據應用中的適用性,結合湖北省地質局地質大數據平臺建設研究項目的需求,筆者及其項目組成功搭建并運行了一個湖北省地質局地質“一張圖”實驗系統。
服務器:3臺,分別用于搭建地圖服務器、數據庫服務器、Web服務器。
操作系統:Windows Server 2003 Professional。
數據庫:Microsoft SQL Server 2000。
GIS平臺:MapGIS 10 I2GSS 免費開發版。
客戶端:標準Web瀏覽器。
3.2.1 數據服務發布
項目組選取了湖北省第三輪礦產資源規劃數據庫部分專題數據、工作程度數據庫作為數據服務發布的對象。首先,項目組利用MapGIS 10桌面客戶端完成了數據整理與數據脫密,制作了地圖瓦片,然后利用MapGIS 10 I2GSS發布了地圖服務。實驗過程中共發布MapGIS格式矢量和瓦片地圖服務16個,符合OGC標準的WMS服務16個。
3.2.2 多源數據疊加
基于MapGIS 10 I2GSS提供的客戶端開發JavaScript腳本庫,項目組開發了一個地質“一張圖”客戶端系統。實現了天地圖(矢量、影像、地形)與項目中發布的地圖服務的自由組合疊加顯示。實現了MapGIS地圖服務中圖層任意圖元的屬性信息瀏覽查看功能。
3.2.3 項目管理應用
項目組收集整理了湖北省地質局在建項目的基本信息表,以Microsoft SQL Server存儲管理這些數據。在客戶端,通過與地質“一張圖”結合,實現了項目信息的上圖、檢索、統計等功能。此外,項目組還實現了項目信息的標準檢索接口。
基于湖北省地質局地質大數據平臺建設研究項目的研究成果,通過對目前國內地質大數據與云計算前沿技術的充分研究,分析對比省級地質數據資源特征,吸收借鑒中國地質調查局“地質云”建設的成果,對接省級地質工作及地質信息服務的需求,在實驗分析的基礎上,面向服務架構(SOA)是一種適合省級地質大數據建設的總體框架。按照云計算的模型,省級地質大數據建設可以選擇構建集中式的地質云計算基礎設施服務層;按照擴展的“地質云”元數據標準采集生產地質元數據產品與數據實體產品,入云構建地質大數據服務層;通過部署商用時空GIS平臺及其擴展大數據模塊構建地質云平臺服務層;選擇目標用戶最急需的應用需求搭建地質大數據云應用服務層。
上述技術思路與方法,目前正應用于指導湖北省地質大數據平臺建設的實踐,也可供其它省份在研究論證本省地質大數據平臺建設、地質云省級節點建設時作為技術參考。從目前的實踐來看,也存在一些不足,主要體現在對大數據的安全防護考慮較少,對實時動態類數據(如監測類數據)的分析欠缺,留待今后在應用過程中進一步升級完善。