王凱,李研研
吉林省地礦信息中心, 吉林 長春 130061
地質工作是服務經濟和社會發展的先行工作,是國家高度重視的基礎行業。作為地質工作成果的主要載體,地質礦產數據具有較大的潛在經濟價值和可重復開發利用價值[1]。
相較于其他數據,地質礦產數據類型較為復雜,涉及到政治經濟基礎、法律法規、地理概況、考察報告、礦業開發、物探、化探、遙感等內容[2]。按地質礦產數據庫數據格式劃分,地質礦產數據可分為矢量數據、數據表、柵格數據和文本數據。
伴隨著大數據時代的到來,這些數據呈現出了豐富多樣、涵蓋面廣而又具備差異性的特點。在現存海量數據的狀況下,如何對地質礦產大數據進行有效分類、建立地質礦產數據庫并收納具有價值的數據則是行業內的熱門話題之一。
地質礦產數據庫存儲設計主要是結合業務場景將用到的所有地質礦產相關數據進行抽取分類存儲管理,按照結構化數據存儲、非結構化數據存儲和空間數據存儲三種方式進行混合存儲設計(圖1)。

圖1 地質礦產數據庫混合存儲設計
結構化數據采用關系型數據庫進行管理,包括Oracle、MySql、PostgreSql、Sqlserver等RDBMS關系型數據庫。存儲數據主要為矢量圖形表和業務屬性表等二維關系結構數據。
將非結構化數據本身存儲在內存存儲介質上,非結構化數據元數據(如文件路徑、文件名、文件格式、文件大小等)存儲到數據庫表中并與對應空間數據對象建立關聯關系,降低數據庫資源消耗的同時也減輕了數據維護的壓力。
(1)非關系型數據庫存儲(NoSQL)。非關系型數據庫主要采用Redis、MongoDB、ElasticSearch、ActiveMQ(消息隊列)、等NoSQL非關系型數據庫。存儲數據可包括切片數據緩存、日志緩存數據。
(2)分布式文件系統(HDFS)。分布式文件系統FastDFS存儲數據可包括辦公文檔、地質報告、文本、圖片、圖像、音頻、視頻信息等格式數據。
(1)矢量數據存儲。主要采用GIS空間數據庫+關系型數據庫來對空間數據進行物理存儲設計。矢量空間數據采用關系型數據庫RDBMS+空間數據庫引擎SDE等方式進行存儲。存儲數據包括工作區以往的1∶5萬、1∶20萬等區域地質圖、構造地質圖、基巖地質圖,細查閱調查區已有的遙感影像、地球物理、地球化學和礦區大比例尺填圖等提供全局總貌和揭示隱伏信息的各種矢量資料。
(2)柵格數據存儲。對于遙感影像等柵格類數據由于數據量巨大,直接存儲到數據庫中不僅增加了數據庫運行壓力,同時柵格數據本身的讀取速度也會大大降低。采用鑲嵌數據集(Mosaic Dataset)形式進行管理,將體量巨大的柵格數據本身保留在數據庫外部(如ArcGIS地圖服務器分布式文件系統)而僅在數據庫中保存數據的引用。不僅便于柵格數據的管理和查詢,同時能夠提供高級柵格查詢功能以及實施函數處理,還可用作提供影像服務的數據源。
在充分調研、整合存量地質礦產大數據基礎上,對存量紙質資料進行掃描和標準化處理,將所有數據進行分類,依據設計的數據庫入庫基本流程進行分類存儲,對地質礦產大數據進行統一集成調度,確保有序、高效的管理與應用地質礦產數據庫(圖2)。

圖2 地質礦產大數據入庫流程圖
2.1.1 建設模式
按照地質礦產數據庫標準規范要求對原始數據進行規范化處理,將數據質檢后入庫,對已入庫后的數據再次進行數據量、數據質量的再次檢查、驗證,形成最終整合后的成果。質檢流程與內容如圖3所示。

圖3 數據質檢流程
2.1.2 前提條件
源數據存儲管理方式、數據格式等與要求不一致,例如原始數據是以MapGIS、Access等文件格式存儲的;數據完備性、標準化較差,不符合相關數據庫標準,例如要素分類、圖層命名、屬性結構與數據庫標準不一致,屬性表達、實體對象內部及之間的關系不符合數據庫標準要求及空間拓撲關系。
2.1.3 數據整合特點
按照數據整理與加工技術要求進行數據整理,統一數據格式、坐標系、數據結構;根據應用需求,采集元數據、建立索引等;經過整理后的數據由地質礦產數據庫集中管理,按照誰生產誰更新的原則進行數據更新;該整合方式復雜、工作量大。
2.2.1 建設模式
在條件具備前提下,保持原有數據庫及數據結構不動,采用加載國際標準化組織開放地理信息聯盟OGC的標準Web地圖服務(如OGC-W*S,包括Web 地圖服務WMS、Web 要素服務WFS、Web 覆蓋服務WCS等)的方式納入地質信息系統,實現統一管理和服務。
2.2.2 前提條件
已按照國家、部、省數據庫標準建庫,地圖服務空間參考與地質礦產數據庫要求保持一致;統一集成、訪問、調用并更新維護數據。
2.2.3 數據整合特點
通過采集數據服務的元數據,統一注冊數據服務到地圖服務目錄中,數據服務集中管理,統一設置及分配對外服務權限,誰生產誰更新,數據整合集成相對簡單且工作量最小。
2.3.1 建設模式
保持原有數據庫不動,采用數據提取、轉換和加載(Extract--Transform--Load, ETL)方式,按照統一數據轉換規則集,實現業務系統數據庫向地質數據庫的結構轉換。數據提取、轉換和加載(ETL)模式可采用數據主動推送和數據被動提取兩種方式。無論是市局統一建設、縣(區)局負責應用的業務應用系統,還是市局自建自用的業務應用系統的數據皆可通過該方式進行數據整合。
2.3.2 前提條件
數據庫已按照部、省數據庫標準或者依據業務系統需求進行建庫,數據的現勢性、完備性、標準化良好;數據庫平臺、格式、坐標系等可能不統一;要素分類、命名、結構等數據與標準存在差異;重新建庫相對復雜且會影響日常業務。
2.3.3 數據整合特點
該模式較為復雜,需要建立業務管理數據之間的關聯關系,工作量適中,不影響業務辦理和審批,可通過數據提取、轉換和加載(ETL)自動完成。
地質礦產數據庫試運行合格后,數據庫開發工作就基本完成,即可投入正式運行。但是,由于應用環境在不斷變化,數據庫運行過程中物理存儲也會不斷變化,對數據庫設計進行評價、調整、修改等維護工作是一個長期的任務,也是設計工作的繼續和提高[3]。地質礦產數據庫維護工作的內容主要包括恢復、備份、安全性、完整性、日志監督等方面。
作為系統正式運行后最重要的維護工作之一,數據庫的轉儲和恢復通過制定差異化的轉儲計劃,確保在故障發生時以最快的速度使地質礦產數據庫恢復到某種一致的狀態,并盡可能減少對數據庫的破壞。
當數據庫的應用環境發生變化時,其對于安全性的要求也會隨之改變。例如某些原本是機密的數據可能轉變為允許公開查詢,而新加入的數據定義為機密數據;同時,也會對系統用戶的密級進行修訂;數據庫的完整性約束條件也會有所改變。可通過修改當前的安全性控制實現對實際情況的動態調整,確保數據庫的安全性和完整性。
數據庫運行過程中,可通過DBMS(數據庫管理系統)產品提供的監測系統性能參數的工具對系統的運行狀態進行實時監測,對獲取到的一系列性能參數的值進行分析。
本文首先對地質礦產數據庫存儲的設計分類進行了歸納,繼而從建設模式、前提條件和數據整合特點三個方面論述了三種不同的地質礦產大數據入庫模式,簡述了地質礦產數據庫維護的相關工作。在此基礎上,未來可以緊密結合邊緣計算、數據挖掘、數字地質等先進技術對地質礦產大數據的開發與利用、地質礦產數據庫的構建與完善進行深入研究。