彭晶晶, 羅代洪, 林鍇, 劉成海, 尚穎
(國家地質實驗測試中心, 北京 100037)
隨著大數據時代的到來,地球科學研究進入高度信息化的發展階段,實施地質大數據戰略來驅動地球科學發展已成為地球科學領域的時代主題[1-5]。地質大數據的積累和共享對地球科學的發展起到了至關重要的作用,為地球科學研究帶來蓬勃的生命力和工作方式方法的創新。地質數據庫是地球信息科學的重要組成部分,為地球科學研究工作提供了可靠的數據基礎[6-13]。
德國美因茨-馬可斯普朗克化學研究所建設的GEOROC數據庫,匯聚了已經公開發表的火山巖和地幔捕虜體樣品數據,包括主量和微量元素、放射性和穩定同位素比值,以及全巖、玻璃質、礦物和侵入體的分析年齡、地理位置、構造環境等數據[14]。該數據庫目前樣品數達到581990個,分析數據1872990項,分別來自《Chemical Geology》、 《 Journal of Geophysical Research》等期刊公開發表的19250篇論文。由美國科學基金會資助運行于美國哥倫比亞大學拉蒙特—多爾蒂地球觀測中心的PetDB數據庫,該數據庫收錄的數據對象主要為海底火成巖和變質巖,以及來自地幔和下地殼的捕虜體樣品,包括樣品的主量元素氧化物含量、微量元素含量、同位素、年齡和礦物模式含量等內容[14-15]。目前PetDB數據庫收集的數據總量達到5073493個,源自3133篇文獻,涵蓋123083件樣品。隨著中國地質調查工作的廣泛和深入開展,積累了海量的成體系的地質數據資源,為中國地質數據庫的發展奠定了堅實的基礎。中國地質調查局主持研發的國家地質大數據共享服務平臺“地質云”,于2018年實現了160多個國家級核心地質數據庫的上云共享[16],提升了中國地質調查工作的數據管理與共享服務水平,基本建立了在線化地質調查工作模式,在自然資源管理和經濟社會發展方面發揮了積極作用。在同位素數據庫建設領域,“地質云”平臺共享了內容豐富的同位素地質測年數據,如華東地區同位素數據庫、西北地區同位素數據庫、華北地區同位素數據庫、東北地區同位素數據庫、中南地區同位素測年數據庫、西南地區同位素數據庫等。這些數據資源多由地質調查工作的開展所產生,在空間分布上具有明顯的區域化特征。
Re-Os同位素定年已經成為礦床學乃至于地質學領域最重要的定年技術之一,廣泛應用于同位素定年、礦床成因、地幔演化、海洋環境的研究中[17-22],取得重要成果。該技術在金屬礦床的成因研究中發揮了重要作用,還適應于瀝青、沉積巖地層、黑色頁巖等地質體的定年。建設Re-Os同位素定年數據庫,可有效地整合Re-Os同位素定年研究成果,提升該領域成果資料的集成化管理水平,進而為Re-Os同位素定年技術的深入發展和廣泛應用提供數據支撐。本文以中國主要地學期刊公開發表的Re-Os同位素定年及應用相關文獻資料為數據基礎,采用GIS空間數據庫構建的技術路線,從數據庫設計、資料收集、數據整合加工、空間數據處理、數據建庫等多個維度,系統性地對Re-Os同位素定年數據庫的建設方法進行研究,以期找到具有可操作性的數據庫建設方法,為同位素定年數據庫建設提供可參考的建設思路。
期刊文獻是Re-Os定年研究成果的重要記錄和傳播載體,本研究中數據庫建設以中國地學類學術期刊公開發表的Re-Os同位素定年文獻資料為研究對象,文獻資料偏重于Re-Os測年方法應用類研究成果,通過數據采集匯聚、數據規范化處理、數據建庫等系列工作,完成Re-Os同位素定年數據庫建設。數據庫采用集中式的建設及運行服務模式。在技術選型上,采用桌面端軟件ArcGIS Desktop完成數據加工處理,采用地理數據模型Geodatabase完成空間數據存儲。
數據庫建設流程如圖1所示。

圖1 Re-Os定年數據庫建設流程Fig.1 Diagram of Re-Os dating database construction
本項研究所采集的數據資料為文獻的電子資料,是非結構化數據[23],為了便于數據的存儲和應用,項目組對每一篇文獻內容進行了結構化的分析和加工處理,從內容出發提取出有價值的共性信息,并對信息結構和內容進行進一步規范化、數據空間化處理后建立數據庫,實現了對數據資料在內容層級的深度整合。有關信息提取、結構化處理、數據空間化處理等各環節的數據加工處理方法如下。
信息提取[24]環節,主要是根據文獻內容的共通性和價值性,明確對每一篇文獻需要采集的具體內容。通過對100多篇文獻資料的梳理分析,明確了提取對象為成果發表(期刊)信息、成果研究對象(如礦產地和礦床等信息)、Re-Os定年所采用的檢測技術信息等三個主要方面的數據內容。其中,成果發表信息主要涉及文獻資料發表相關的信息內容;礦產地信息主要是Re-Os定年研究目標區域的相關介紹信息;Re-Os定年檢測技術信息主要包括相關分析測試技術和檢測流程中涉及技術細節的具體內容。
結構化處理環節,主要是對提取的信息內容進行結構化處理,來實現對數據資源的有序管理。對提取的三個方面的數據內容進行加工后,將數據資源結構化為19個方面的屬性內容(表1)。

表1 數據結構化內容分類信息
第一類:成果發表信息。具體包括六方面的內容:論文編號、論文題目、發表時間、發表期刊、作者、第一作者。
第二類:礦產地信息。具體包括七方面的內容:礦產地編號、礦產地名稱、礦產地簡稱、經度、緯度、礦產地背景、主要礦種。
第三類:Re-Os定年檢測信息。具體包括六方面的內容:樣品批號、樣品信息、檢測單位、檢測設備、檢測對象、檢測結果。
完成數據加工后,可以從不同的維度對Re-Os定年研究成果進行統計分析,為下一步的定年工作提供數據支持。圖2是從檢測對象的角度對成果資料的分布進行統計的實例。

圖2 采集成果數量按檢測對象分類統計圖(篇)Fig.2 Statistic diagram of publications by object mineral analyzed
由于不同作者對成果描述的側重點不同,對文獻資料進行系統性分析后,發現部分研究成果并沒有完整地記錄數據的空間信息。在數據空間信息不完整的情況下,如何對Re-Os同位素定年數據進行空間定位[25]是Re-Os同位素定年數據庫建設要重點解決的問題。本研究以Re-Os同位素定年的目標礦床為依據,對缺失的礦床位置信息進行補充,定位策略上采用直接采集經緯度信息和通過行政點
分布來近似定位相結合的方式實現了對礦床的有效定位;同時以論文題目、礦產地名稱為復合主鍵,以礦床位置作為定位基礎,建立成果發表信息、礦產地信息、Re-Os測年檢測信息之間的關聯關系,使各類數據資源都具備空間化特征,為數據的空間化應用提供了基礎,技術路線上采用桌面端軟件ArcGIS Desktop完成空間化處理工作[26-29]。
本次研究中對文獻資料的空間定位采用了以下三種策略。
(1)通過文獻資料記錄直接采集礦產地經緯度信息,運用該方法采集位置信息的文獻資料共計27篇,占總篇數的22.88%。
(2)通過地質簡圖計算獲取礦產地經緯度信息,運用該方法采集位置信息的文獻資料共計50篇,占總篇數的42.37%。
(3)通過其他方式采集,主要是根據目標區域行政位置分布,采用GIS軟件進行近似定位,獲取經緯度信息。運用該方法采集位置信息的文獻資料共計41篇,占總篇數的34.75%。
完成數據的深度整合和空間化改造后,可以開展數據建庫工作,數據建庫工作的重點是設計好數據庫存儲模型和數據結構。
數據建庫工作的重點是設計好數據存儲模型[30]。本次建庫的數據資源是經過結構化空間化改造后的數據,具備空間化和結構化特征,本研究選用地理數據庫模型Geodatabase完成成果數據存儲。
地理數據庫是ArcGIS開發的原生數據模型,包括三種類型:個人地理數據庫(Personal Geodatabase)、文件地理數據庫(File Geodatabase)、SDE地理數據庫(SDE Geodatabase)。其中,文件地理數據庫每個數據集存儲在系統文件夾下的獨立文件中,每個文件最大可達1TB容量[31]。
本研究中數據單文件數據量在1TB大小以內,從滿足數據庫跨平臺運行和不同操作系統可進行訪問的要求來看,文件地理數據庫(File Geodatabase)更適合作為本研究的數據庫存儲模型。
在數據結構設計上,盡可能降低各類數據之間的依賴程度,使得數據調整所帶來的連鎖效應盡可能減少。在數據庫設計范式上,達到第二范式要求。本研究采用UML(Unified Modeling Language)建模語言[32-35]完成數據模型的設計工作。
UML又稱統一建模語言或標準建模語言,Geodatabase數據模型主要使用UML靜態圖來表述[36]。UML靜態圖包含:用例圖、類圖、對象圖、組件圖和配置圖。其中,類圖[37]是面向對象分析和設計的核心,相當于數據庫概念設計中應用的E-R模型。
UML數據模型圖如圖3所示。

圖3 UML數據模型圖Fig.3 UML data model diagram
數據入庫工作首先要創建出文件地理數據庫,數據庫中可存儲要素數據集、要素類、數據表、關系等對象。經過規范化空間化整合處理的要素類成果數據可在文件地理數據庫創建好后再執行入庫操作。入庫前的要素類成果數據可以以Coverage或Shapefile文件格式[38-39]來進行存儲,本研究選用Shapefile文件格式作為入庫前成果數據的存儲載體。
文件地理數據庫的創建和數據入庫均可通過ArcMap桌面組件來完成具體操作。創建數據庫的過程中,可通過導入UML數據模型xml文件來完成數據庫結構的創建,定義空間參考,在此基礎上,以導入的方式,完成相應要素類數據的入庫。
本研究文件地理數據庫中存儲的數據結構如圖4所示。

圖4 數據結構Fig.4 Data structure
Re-Os同位素定年數據庫存儲的數據資源來源于100多篇近十年來公開發表的Re-Os同位素定年文獻資料,涉及的期刊達35種以上,數據來源具有一定的權威性、廣泛性和代表性。圖5和圖6是分別從發表年份和發表期刊的角度對采集的文獻資料進行了初步統計。

圖5 文獻資料搜集量按發表年份統計Fig.5 Statistic diagrams of publications by the year

圖6 文獻資料搜集量按發表期刊統計Fig.6 Statistic diagrams of publications by the journals
Re-Os同位素定年數據庫數據資源的規范性體現在以下方面:①統一的時空框架:以公元紀年,北京時間作為時間參考;以WGS84坐標系作為空間參考;②統一的數據存儲模型:以文件地理數據庫(File Geodatabase)作為數據庫存儲模型;③統一的數據結構:在充分分析各文獻資料的共性數據內容后,提煉出統一的數據結構對采集的數據資源進行存儲;④統一的內容表述方法:在內容表述上,針對每個字段,通過對信息資源的梳理分析,對表述的方式進行規范化處理,實現了數據資源在內容表述上的一致性。
文獻資料是非結構化非空間化數據,資源之間個體獨立性較強,較不利于數據資源的整合利用。本研究以Re-Os同位素定年文獻資料中記載的查干花鉬礦、東坪碲金礦床等100多個目標礦床為定位依據,對采集到的成果發表信息、礦產地信息、Re-Os定年檢測信息等數據內容進行了空間定位,使數據庫中存儲的各類數據資源都具備空間化特征,為數據庫的空間化應用提供了基礎。
本研究探索了基于文獻數據建立空間數據庫的技術方法,解決了對非結構化文獻資料如何進行結構化處理、非空間數據如何進行空間化處理等技術問題。采用該技術方法對Re-Os文獻數據進行了結構化轉換、空間化處理,完成了Re-Os同位素定年數據庫的建設工作,并上線運行,取得非結構化碎片Re-Os文獻資料集成整合和建庫利用的較好效果。為深度整合文獻數據資源,有效建立碎片化測試數據資源的空間地學專題數據庫及其應用提供了思路和可供借鑒的方法技術。
Re-Os同位素定年數據庫目前匯聚了100多篇近十年來公開發表的Re-Os定年文獻數據,重點提取了文獻資料中成果發表信息、礦產地信息、Re-Os定年檢測信息三個主要方面的信息內容,下一步可以在本次研究基礎上,廣泛搜集相關文獻資料,深度挖掘文獻資料的信息內容,從廣度和深度不斷地豐富數據庫資源,提升數據庫的應用價值,使數據庫保持新鮮的生命力,為礦床地質調查研究工作提供數據支持。