彭仲秋,向詩強,陳建明,黃顯義,李永華,張鵬
(1.新疆維吾爾自治區地質礦產勘查開發局地球物理地球化學探礦大隊,昌吉 831100;2.新疆維吾爾自治區地質礦產勘查開發局信息中心,烏魯木齊 830000)
地質礦產科學信息是礦產資源預測評價、地質勘查、開發利用的重要信息保證,起到積極指導作用,隨著大數據、云計算、地理信息技術的飛速發展和廣泛應用,為地質礦產科學信息共享平臺建設提供了新思路。李婧等對地質大數據存儲技術進行了探討[1],陳建平等論述了中國地質大數據的研究現狀[2],潘婷婷等提出了多源異構的地質數據集成方法[3],朱月琴等提出了一套面向地質大數據的語義檢索和聚類分析方法[4]。
本文重點從地質礦產科學信息的集成、存儲、檢索、展示和共享5 方面出發,探討構建分布式、集群化的地質礦產科學信息共享平臺所需解決的關鍵技術問題,為“新疆地質礦產科學信息共享平臺”建設提供指導,為新疆地質礦產信息的共享和融合奠定基礎。
地質礦產科學信息涉及地質行業各專業的結構化、半結構化和非結構化數據,種類繁多、形式多樣、內容豐富、格式眾多,具有多元異構性[5],嚴重影響了數據的集成、共享、分析與挖掘[3],解決這一問題的關鍵是要從現有各類數據特性出發,建立數據標準體系,規范數據模型,并采用多種類型數據庫組合,建立形式上統一的數據集成及數據訪問接口體系——多元異構數據集成技術架構(圖1)。

圖1 多元異構數據集成技術架構Fig.1 Integration technology framework of multivariate heterogeneous data
多元異構數據集成技術架構主要包括標準規范制定、數據資源池建設、數據處理以及統一訪問接口研發等內容。首先以中國地質調查局編制的《地質信息產品發布技術要求(試行)》和全國地質資料館《地質資料核心元數據內容結構和填寫說明》為基礎,從數據內容、數據分級、空間坐標系、數據模型、工作流程、質量監控、數據存儲等方面著手,編制《新疆地質礦產科學信息共享平臺技術要求》,再按照技術要求規定,利用關系型數據庫(PostgreSQL)、空間數據庫(PostGIS)、文檔型數據庫(MongoDB)、分布式文件系統(Handoop)、全文檢索數據庫(Elastic-Search)、地圖服務(IGServer、GeoServer)等建立地質礦產科學信息數據資源池,按照數據模型要求對數據進行整理、清洗、提取、整合、入庫等標準化處理,最后在數據資源池基礎上,開發統一的數據集成及數據訪問接口體系。
地質礦產科學涵蓋各種野外調查數據、勘探數據、遙感數據、文獻數據等,體量巨大,且隨著時間的推移和數據采集技術的發展,將繼續呈現爆發式海量增長[3],如何實現海量數據的存儲管理是平臺建設中需要解決的關鍵技術問題。
平臺建設中可綜合利用關系型數據庫、空間數據庫、文檔數據庫、分布式文件系統等解決海量數據存儲問題。對于結構化數據,可存儲于關系型數據庫PostgreSQL 中,通過集群、讀寫分離、分表分庫等方式解決大數據存儲問題;對于文檔、圖片、音視頻等非結構化數據,首先根據技術要求提取元數據,并將元數據存儲于關系型數據庫中,而數據本身則存儲于分布式文件系統Hadoop中(分布式文件系統能夠充分利用集群的威力高速運算和存儲,具有高可靠、高擴展可伸縮、高效讀寫、高容錯能力、低成本等特點),并通過建立元數據與數據之間的映射關系來進行關聯;對于地質圖件、遙感影像等非結構化的空間數據,可采用GIS切片和編碼技術進行處理,數據可存儲于空間數據庫或分布式文件系統中。對于字段不穩定的半結構化或非結構化數據,則可采用NoSQL類型的文檔數據庫MongoDB進行存儲。
數據檢索是地質礦產科學信息平臺的典型應用場景之一,可綜合運用各種索引技術、緩存技術來獲得高效的檢索效率。
研發關鍵詞檢索、全文檢索、空間檢索等組合檢索技術實現數據的快速匹配。
關鍵詞檢索將元數據及數據內容中能表征主題內容的、具有實質意義的詞語作為關鍵字,建立關鍵詞索引,平臺根據用戶輸入的關鍵字進行模糊匹配并返回滿足條件的數據集。
全文檢索對元數據及數據內容建立Elastic-Search 全文數據庫,將一個完整信息源的全部內容轉化為計算機可識別、處理的信息單元,平臺根據用戶輸入條件匹配并返回滿足條件的數據集。
空間檢索因地質數據具備的空間特性,需對元數據中的空間字段建立空間索引,平臺根據用戶輸入的位置信息(如:經緯度坐標、任意區域范圍等)進行匹配并返回滿足條件的數據集。
綜合使用數據庫緩存、地圖緩存等技術來提升程序運行性能和響應速度。
數據庫緩存采用Redis 作為數據庫緩存,實現高頻訪問數據的高速緩存,提高平臺的響應速度,極大緩解后端數據庫的壓力。
地圖緩存對地圖數據進行預處理,在設計的比例級別下將地圖切割成瓦片(Tile),并將其存儲在服務器中,當平臺接收到數據請求時可將已有瓦片進行拼接并返回,無需動態實時生成圖片,可在很大程度上減少GIS 服務器和數據庫服務器的壓力,有效提高WebGIS服務體驗。
可視化是利用計算機圖形學和圖像處理技術,將數據轉換為圖形或圖像在屏幕上展示,再進行交互處理的理論、方法和技術,是研究數據表示、數據處理、決策分析等一系列問題的綜合技術。在地質礦產科學信息可視化中離不開空間數據可視化技術,平臺建設中基于WebGIS技術構建地質科學信息可視化子系統,可視化子系統從層次結構上可劃分為數據層、地圖服務層、表示層,技術架構(圖2)。

圖2 地質礦產科學信息可視化技術架構Fig.2 Visualization technology framework of geology and mineral information
該架構中數據層向地圖服務層提供柵格數據、矢量數據以及結構化的空間數據等。地圖服務層部署IGServer、GeoServer 服務,提供網絡地圖服務(WMS)、Web 地圖瓦片服務(WMTS)、網絡要素服務(WFS)、網絡覆蓋服務(WCS)等標準的OGC 服務。表示層采用OpenLayers 創建交互式地圖,采用Echarts實現圖表數據可視化。
地質科學信息平臺建設的最終目的就是實現數據共享和協作,提高地質成果的社會化服務水平。因此,建立一套科學可行的數據共享機制必不可少,數據共享不僅能夠在平臺內共享,也要實現跨平臺共享。
平臺內共享是指用戶可在平臺提供的信息服務中快速檢索到有哪些地質礦產科學信息資源、保存在什么地方、數據質量如何、通過什么方式可以獲取等。
跨平臺共享是要解決不同系統訪問共享平臺數據的問題。首先要研發統一身份認證子系統,解決平臺用戶、各類應用用戶的身份識別、授權管理、訪問控制等問題,然后構建標準的數據服務接口,提供OGC、XML 等國際標準數據接口的支持,如:支持WMS、WMTS、WFS、WCS等服務接口、XML數據交換接口等,通過統一身份認證子系統的權限配置,可為用戶提供API 接口調用服務,實現地質礦產科學信息跨平臺共享和應用。