趙汀 劉超 李厚民 鞠建華 鄧頌平 馮秋睿 王剛



摘 要:礦產資源國情調查數據庫建設工作貫穿整個礦產資源實地調查、測量、核實、三維建模、報告編制等流程,需要實現國情調查工作全程信息化、智能化,制定國情調查數據庫技術要求,建立一套先進的多維時空數據采集入庫、實時校驗、人機交互質檢、匯交、集成管理、動態更新的技術體系。開發國情調查時空數據管理云平臺,實現地學時空數據等結構化數據、非結構化數據集成管理、知識圖譜構建、智能分析等功能。研究成果為全面掌握我國礦產資源家底、保障國家礦產資源安全供應與經濟可持續發展、對礦產資源有效實施保護監督與合理利用提供了堅實的數據基礎。
關鍵詞:礦產資源安全;國情調查;國情調查數據庫;地學大數據;潛力評價
Big data integration and database on national mineral resources survey
ZHAO Ting1, LIU Chao1, LI Houmin1, JU Jianhua2, DENG Songping3,
FENG Qiurui1, WANG Gang1
(1.Key Laboratory of Mineralization and Resource Evaluation, Ministry of Land and Resources, Institute of Mineral Resources,
Chinese Academy of Geological Sciences, Beijing 100037, China;
2.Department of Mineral Resources Protection and Supervision, Ministry of Natural Resources, Beijing 100812, China;
3.Information Center, Ministry of Natural Resources, Beijing 100036, China)
Abstract: The construction of the national survey database on mineral resources exists throughout the entire process of mineral resource field survey, measurement, verification, 3D modeling, and report preparation. Such a database features advanced multi-dimensional spatio-temporal data collection and storage, real-time verification, human-computer interaction quality inspection, collection and delivery, integrated management, and dynamic update. It also provides a cloud platform for spatio-temporal data management, structured and unstructured data integration, knowledge mapping and intelligent analysis. This study lays down a solid data foundation for comprehensively survey, safe supply, effective protection and supervision, and rational utilization of national mineral resources in China so as to support sustainable economic development.
Keywords: mineral resource security; national survey; national survey database; geoscience big data; potential mineral resources assessment
礦產資源國情調查是自然資源統一調查監測體系的重要組成部分(鞠建華等,2022;李厚民等,2010),自然資源部通過開展國情調查,全面獲取當前我國各類礦產資源數量、質量、結構和空間分布等基礎數據,對不同礦種和類型礦產資源潛力狀況作出評價,查明礦產資源與各類主體功能區的空間關系,全面掌握國內礦產資源保障能力和開發利用潛力(中國地質科學院礦產資源研究所,2015)。我國礦產資源儲量數據長期以來存在重復上表、礦區礦山歸屬關系不清、坐標缺失偏移飛點、數據項漏填、數據不自洽等質量問題。2006—2013 年開展了第一輪全國礦產資源國情調查,摸清了28種礦產資源家底,開創了一套行之有效的調查模式方法,取得豐碩成果,但存在未覆蓋全部礦種,查明和潛力數據庫建庫標準未能銜接等不足。
本文通過制定全國統一的國情調查數據庫標準規范《礦產資源國情調查數據庫建設技術要求》,采集查明和潛力數據,規范數據庫的建設內容、數據庫結構、建庫方法、成果數據質量檢查和成果匯交要求等內容,按國家、省、市、縣4級建設礦產資源國情調查數據庫,實現國情調查成果集成管理、三維呈現與成果展示、應用服務等功能(趙汀等,2022)。礦產資源國情調查數據庫數據類型復雜,不僅含屬性數據,而且為了保證真實可靠也保留了非結構化的舉證材料數據,包括外業照片、航跡、采樣記錄等過程性文件,研制了查明資源儲量調查數據采集及質量檢查軟件、底數提取工具、礦產資源三維呈現系統、潛力評價建庫輔助軟件GeoMAG 2019版本,實現國情調查數據的匯交、檢查、整合、集成和入庫工作的規范化、智能化,嚴格管控屬性數據庫、空間數據庫的數據質量,最終建成了4.4萬個礦區數據庫和時空大數據平臺。
1? 國情調查數據庫設計與實現
1.1? 國情調查數據庫建設技術要求
1.1.1? 總體架構
礦產資源國情調查數據庫建設,包括查明礦產資源、潛在礦產資源、地質三維三大要素。調查成果統一使用2000國家大地坐標系和1985國家高程基準。
礦產資源國情調查數據庫的空間數據模型設計了7 大類、26種空間要素和3大類、17種非空間屬性要素(表1,表2),涵蓋了礦產資源儲量相關的各類數據類型,查明資源最小數據采集單元為礦體,潛力部分最小數據采集單元為成礦預測區。
1.1.2? 查明礦產資源國情調查數據庫
以上表礦區和待確認礦產地為數據庫入庫單元(李厚民等,2014),礦體為數據最小采集單元,主要包括查明礦產資源的數量、質量、利用現狀、成礦時代、空間坐標、專題圖件,以及從普查到勘探開發時間周期長的報告等資料數據(圖1)。數據格式分為ACCESS屬性數據和矢量空間數據。
采集的圖形數據要素分為省級、礦區和礦山3個層級,省級包括查明的省級匯總圖件;礦區級包括礦區儲量估算邊界圖、礦體儲量估算圖、礦區三維礦體展示成果;礦區三維礦體展示成果包含礦區地形地質圖、剖面圖的三維建模文件和礦體三維建模等文件;礦山級包括礦山地質及工程分布圖、礦山礦體開采現狀圖、典型中段平面圖或開采境界圖和典型勘探線剖面圖等圖件。礦區儲量估算邊界圖表達礦區范圍內礦權、儲量估算邊界、壓覆、功能區等空間關系,而礦體儲量估算圖是在綜合調查基礎信息上編制各年度生產動用空間位置,反映現在保有礦產資源的數量、結構、位置,有利于實現今后的儲量動態管理。
1.1.3? 潛在礦產資源國情調查數據庫
潛在礦產資源國情調查數據庫以預測區作為數據庫基本單元,采用統一的圖件分層結構、代碼、坐標系參數、圖層屬性表結構,編制省級單礦種(組)預測成果圖庫、省級勘查部署建議圖庫。通過潛力評價圈定預測區,充分反映地質背景研究、物化遙新發現和找礦突破等方面取得的最新成果,分析資源潛力的變化情況,調整預測資源量和空間范圍。
1.1.4? 礦產資源儲量三維建模
隨著我國儲量新分類改革工作的推進,儲量估算方式方法需要逐漸與國際接軌(鞠建華等,2018),為推動全國礦山儲量的三維化管理水平,國情調查要求大型礦區要建立礦體地質三維模型(圖2),使用三維地質建模軟件,利用地形地質圖和礦區勘探線剖面圖,建立礦區三維地表模型和礦體三維實體模型,有條件的礦區采集礦區鉆孔數據,包括鉆孔位置表、鉆孔化驗表、鉆孔測斜表生成品位塊體模型,成果三維數據以礦區為基本單元。分層提供交換格式OBJ文件,坐標體系采用2000國家大地坐標系和1985年國家高程基準,經緯度坐標。同時提供建模文件的基準點坐標文件。實現儲量的動態、可視化的管理,快速核算礦山儲量消耗、保有資源數據,而進一步優化采礦設計、生產計劃編制,實現資源利用的監督和動態管理。
1.2? 國情調查數據庫軟件系統開發
1.2.1? 國情調查查明資源的數據采集與質檢軟件
非油氣礦產資源國情調查成果數據采集及質量檢查軟件(圖3)是全國礦產資源國情調查中各省調查隊伍開展國情調查數據庫建庫和質檢的工具軟件。系統包含主索引、表單打印、數據導入、數據檢查、數據刪除、數據導出、圖形工具、查詢統計、通用工具和系統設置等功能模塊,實現非油氣礦產資源國情調查成果數據的填報、數據質量檢查和匯總,系統實現了數據采集窗口的實時填寫校驗,實現了快速質量控制的目的,形成符合技術要求的國情調查數據庫。
1.2.2? 潛在礦產資源建庫軟件
對已開展過潛力評價的礦種進行動態更新(左群超等,2016),對未開展過潛力評價的礦種進行潛力評價,潛在礦產資源建庫軟件支撐省級潛力動態評價相關成果標準化入庫(左群超,2015),相關圖件主要由GeoMAG軟件完成空間數據結構化、規范化填寫入庫和質檢(丁建華等,2016)。
1.3? 國情調查數據庫成果匯交與質量檢查
截至2021年12月31日,全國30個省已基本完成4.4萬余個調查礦區數據庫建庫,首先省承擔單位自檢,省項目辦全面檢查,然后匯交全國項目數據庫組質量檢查,采用機檢結合人工重點檢查的技術方法,發現存在一些數據不完整、缺失舉證材料、數據不一致、三維文件格式內容不規范等問題,不符合要求的返回修改,最終形成的數據庫質量較好,填寫率、邏輯一致性、圖數一致性等基本符合數據庫建設技術要求。
1.4? 礦產資源國情調查數據庫動態更新
自然資源部明確提出我國要建立礦產資源定期調查評價制度,2022年9月自然資源部標準平臺公示了《礦產資源定期調查規范 第7部分:查明礦產資源定期調查數據庫建設技術規程》《礦產資源定期調查規范 第8部分:潛在礦產資源定期調查數據庫建設》《礦產資源定期調查規范 第6部分:圖件圖示圖例》3個征求意見稿,國情調查數據庫將通過定期的礦山實地核查、測量、地質資料搜集等工作,對查明的未占用、占用、壓覆、殘留的數據進行動態更新,動態評價各成礦區帶的資源潛力,更新潛力數據,全面掌握我國的礦產資源家底、開發現狀、未來形勢變化等信息。
2? 礦產資源國情調查大數據集成云平臺建設
2.1? 礦產資源國情調查大數據虛擬化云平臺硬件搭建
各省匯交的國情海量數據分析處理需要強大的數據中心云平臺算力支撐,選用虛擬化軟件VMware vSphere進行云平臺的設計與實現,VMware vSphere的核心組件ESXi Server可直接部署在服務器硬件之上形成ESXi主機,同時管理多臺主機,集中管理存儲、計算資源。當多臺ESXi主機作為整體統一管理時,就形成了一個服務器群集,而多個服務器群集組合在一起,就構建成了一個虛擬的數據中心(宋越等,2016)。
2.2? 國情調查大數據云存儲平臺技術方案
國情調查大數據云存儲平臺基于Oracle和ArcSDE,采用客戶/服務器(即 Client/Server)體系結構,ArcSDE的主要功能是在關系數據庫管理系統(RDBM S)和地理信息系統(GIS)之間充當一個應用接口,它在現有的關系或對象關系型數據庫管理系統的基礎上進行空間擴展,可以將空間數據和屬性數據充分地集成在目前絕大多數的商用RDBMS中,實現空間數據和屬性數據的無縫連接。
本次通過ArcSDE for Oracle組件將圖元實體分類存儲到Oracle中。后臺GIS服務器數據訪問效果如圖4所示。
2.3? 礦產資源三維呈現系統
礦產資源三維呈現系統采用微服務架構,基于Postgresql空間數據庫、三維GIS平臺,集成了國情調查數據庫,實現國家—省—市—縣—礦區—礦山多層級多年度的儲量二維、三維信息一體化集成管理、三維空間信息分析、綜合查詢、統計匯總、快速服務等功能,從數量規模、環境、經濟等多維度動態分析礦產資源的可利用性。
2.4? 基于礦產資源非結構化數據的知識圖譜構建
2.4.1? 非結構化數據提取與入庫
礦產資源數據的存在形式多樣且復雜,而非結構化數據作為一種存在形式,包含了大量有價值的信息,同時,將非結構化數據融入礦產資源數據體系,充分發揮大數據技術在非結構化數據的自然語言處理方面的優勢(王永志等,2018),有利于礦產資源數據庫的構建與完善。
表格作為地學文件中重要的非結構化數據,蘊含了諸多有研究價值的信息,但由于表格數據標準不一(排列方式、大小、格式等),以人工的方式根據關鍵詞提取需要耗費大量的人力物力,為了解決這個問題,本文使用了基于關鍵詞查詢的表格提取方法,利用信息化手段規模提取非結構化數據。
可以礦山企業年報、勘查報告、統計年報等包含海量數據的信息集合為數據源,根據數據源的文件類型分配不同的函數接口。將數據源接入系統后,根據輸入的規則關鍵詞,尋找符合表頭關鍵詞的所有表格,再根據規則關鍵詞中需要屏蔽的關鍵詞,對獲得的數據集合進行進一步篩選,最后獲得規范的包含所需信息的數據文件。
以相關企業列表中的企業名稱為關聯詞,將提取出的數據相互關聯,形成知識圖譜構架所需的三元組(h,r,t)——(實體,關系,實體)以及(實體,屬性,屬性值),將所獲取的三元組進行整合,消除矛盾和歧義。對整合后的知識進行質量評估,將合格的部分加入數據庫之中。
2.4.2? 構建知識圖譜
人工智能是大數據價值挖掘與提升的關鍵,而知識圖譜則是人工智能的重要基石之一,是實現統計表征與物理表征融合的核心基礎(周成虎等,2021)。知識圖譜是結構化的語義知識庫,用于迅速描述物理世界中的概念及其相互關系,其基本單位,是“實體(Entity)-關系(Relationship)-實體(Entity)”構成的三元組,這也是知識圖譜的核心。
以知識處理后的三元組為基礎,利用neo4j圖數據庫存儲根據實體名構建的節點、根據實體間關系構建的連接節點的邊以及屬性與屬性值。并且,將相關信息以節點與邊的形式顯示(圖5)。此處以鋼鐵資源企業信息為例。
2.5? 國情庫中地質實體抽取入庫規則設計
實體,顧名思義意為“實際存在的物體”,它是一個很籠統的概念,泛指現實世界中存在的一個事實,它是現實世界中獨立存在的“事物”,它可以是物理存在的對象,也可以是概念存在的對象,就相當于面向對象方法學中對象的概念。國情庫中的實體為地質實體,地質實體和空間實體之間是具體化和抽象化的關系。
地質實體極其復雜,雖然地殼中的地質實體的成因、規模、形態結構差別較大,但從幾何學的觀點來看,各種地質實體都可以歸納為面狀構造、線狀構造和體狀構造。面狀構造主要有層理(地層)、節理和斷層(斷裂)等;線狀構造包括呈線性習性的構造以及各種平面的交線,如褶皺的樞紐和線理等;體狀構造則是富集某些礦物成分的巖石體,有層狀、似層狀、脈狀和透鏡狀之分。在現實世界中,地質實體內部以及相互間是有聯系的,實體內部的聯系通常是指組成實體的各屬性之間的聯系,實體之間的聯系通常是指兩個或兩個以上實體之間的聯系,如斷裂和地層的關系等;地質實體的屬性是用來描述實體的某些特定性質,在潛力評價基礎成果數據中,對于特定的地質實體而言,其屬性結構是固定的、數據項命名是固定的、數據項內容是由值域約束的(標準編碼)。
國情調查成果數據中所涉及海量的地質實體,以及由這些簡單實體按照指定規則、聯系、構建而成的復雜實體,這些實體以點、線、面的幾何形式存儲在海量GIS圖層文件中。
復雜實體是根據實際需求由若干簡單實體組合構建而成,具備綜合分析利用價值的、可用于描述某一帶綜合地質狀況的實體,如典型礦床、預測工作區、成礦區帶等,這些實體通常包含若干點狀構造、線狀構造或者面狀構造,它是多種地質要素、地質構造的集合,是點、線、面多層次要素的匯總,將簡單實體按照指定規則分布到不同點、線、面圖層中,由這些圖層一起構成的就是復雜實體,這里的復雜實體類似于某一個區域的完整地質圖件的概念。
國情調查數據庫集成過程中,為了研究需要通常會構建具有某個專題方面意義的復雜實體,在較高層次上對數據進行綜合、歸類和分析利用(趙汀等,2020),這種復雜實體我們稱之為專題實體,例如,對黑龍江省鎢礦分成礦區帶進行綜合研究時,需要提取出指定成礦區帶范圍內的巖體、斷裂、褶皺等簡單實體信息,和成礦區帶范圍進行疊加,所得的綜合結果就是專題實體,從而在應用層面方便地組合形成專題成果。
4? 結論
《礦產資源國情調查數據庫建設技術要求》所設計的數據標準規范能夠滿足國情調查工作的需求,它涵蓋了查明礦產資源數據庫、潛在礦產資源數據庫和三維建模三要素。在全國各級調查隊伍的辛勤工作下,這套數據標準規范首次建成了一套最小到礦體的全礦種全覆蓋的全國礦產資源國情調查數據庫。
建立了一套完善的數據采集入庫、匯交、數據質量檢查、集成管理、動態更新的技術體系,為了確保數據的準確性和可靠性,特別開發了國情調查數據采集與質檢軟件,用于控制和管理數據質量。這套體系可以有效地保證數據的準確性和可靠性,提高數據質量,滿足國情調查的需求。
搭建國情調查數據管理云平臺,實現資源共享、數據集成、地質空間實體入庫管理、國情調查非結構化數據分析與知識圖譜構建等功能。通過礦床發現到勘查階段的長周期的二三維一體化視角,充分展示了我國礦產資源數量、質量、結構和時空分布情況,為礦產資源調查管理和勘探開發提供了有力的支持。
參考文獻
丁建華,范建福,陰江寧,劉亞玲,2016.武夷山Cu-Pb-Zn多金屬成礦帶主要成礦地質特征及潛力分析[J].地質學報,90(7):1537-1550.
鞠建華,黃學雄,薛亞洲,宋猛,2018.新時代我國礦產資源節約與綜合利用的幾點思考[J].中國礦業,27(1):1-5.
鞠建華,張照志,潘昭帥,車東,李厚民,2022.我國戰略性新興產業礦產厘定與“十四五”需求分析[J].中國礦業,31(9):1-11.
李厚民,高輝,2010. 礦產資源儲量核查與評估[M].北京:地質出版社.
李厚民,吳良士,李建武,王安建,王勇毅,王高尚,2014.礦區范圍的劃分與勘查程度的確定[J].地質通報,33(05):706-714.
宋越,左群超,牛海波,梁國玲,戴愛德,李建國,周萌,2016.國家基礎地質數據庫整合與集成基本技術框架[J].中國礦業,25(6):154-159.
王永志,金樑,朱月琴,白明,包曉棟,2018.基于大數據技術的地學文檔關鍵詞提取算法研發[J].地球物理學進展,33(3):1274-1281.
趙汀,王安建,劉超,2020.基于國情調查大數據的礦產資源保障程度動態分析系統設計與實現[J].地質通報,39(Z1):400-405.
趙汀,鄧頌平,劉超,王剛,等,2022.礦產資源國情調查數據庫建設技術要求與系統開發[M].北京:地質出版社.
中國地質科學院礦產資源研究所,2015. 我國能源礦產資源2020—2030年保障程度論證綜合研究[R].
周成虎,王華,王成善,侯增謙,鄭志明,沈樹忠,成秋明,馮志強,王新兵,閭海榮,樊雋軒,胡修棉,侯明才,諸云強,2021.大數據時代的地學知識圖譜研究[J].中國科學:地球科學,51(7):1070-1079.
左群超,2015.礦產資源潛力評價數據模型研發、應用與數據集成方法技術體系[J].地質通報,34(12):2334-2351.
左群超,蔡惠慧,宋越,汪新慶,文輝,王成錫,鄧勇,張源,李林,胡海風,李林,楊東來,肖志堅,陳安蜀,張建龍,康莊,2016.礦產資源潛力評價數據模型研制、開發、應用與數據集成建設[J].地理信息世界,23(1):10-17.
收稿日期:2022-10-09;修回日期:2023-01-06
基金項目:地質礦產調查評價項目“礦產資源國情調查數據集成與動態更新”(DD20190613)及全球礦產資源戰略研究(DD20221795)、國家自然科學基金重大研究計劃集成項目“中國關鍵金屬礦產清單厘定與風險評估”(92162321)、國家自然科學基金基礎科學中心項目“數字經濟時代的資源環境管理理論與應用”(72088101)、“國內外三稀信息集成”(1212011220807)聯合資助
第一作者簡介:趙汀(1975- ),男,博士,碩士生導師,長期從事礦產資源領域研究工作。E-mail:771899460@qq.com
引用格式:趙汀,劉超,李厚民,鞠建華,鄧頌平,馮秋睿,王剛,2023.礦產資源國情調查數據庫設計實現與大數據集成平臺建設[J].城市地質,18(1):9-16