程世秀
(1.山東省第四地質礦產勘查院,山東 濰坊 261021;2.山東省地礦局海岸帶地質環境保護重點實驗室,山東 濰坊 261021)
進入新世紀后,國際上主要的經濟體均已信息技術為抓手,開始了新一輪的技術革命,力圖掌握發展的主動權和新的技術制高點。我國大數據技術起步較晚,但是發展迅速,數字強國和數據治國戰略已經成為了國家發展和治理的主要戰略之一。在此背景下,信息行業迎來了發展的黃金機遇期,但是在具體應用層面,還有諸多需要解決的問題。實施信息化的基礎是數據,數據的高效整合和利用是信息化發展的必然要求。以信息化和數字化為標志的高新技術極大地促進了地球物理技術的發展。
隨著地質調查工作和調查技術的發展,分析測試手段逐漸增多,積累的數據要素和格式也隨之增加。高效處理和利用來源廣泛、時間跨度大、格式不一的數據技術,為資源的開發提供數據支撐,是解決數據快速積累與充分挖掘之間矛盾的最佳手段。調研中發現,現階段制約地質與地球物理數據分析的主要問題包括數據分類不統一、數據來源復雜、異構性突出、組織方式多樣等。在開展地質與地球物理數據分類與組織研究時,需要建立數據體系,最終實現海量數據的有序化存儲與處理。地質與地球物理數據涉及現場采集、室內測試分析、處理解釋和研究等環節。數據分類一般先根據流轉和加工程度劃分,然后再根據數據類型進行細分。以地質與地球物理數據加工程度和數據流轉為依據,可分為以下幾類:
(1)任務文檔類:主要包括任務合同、實施方案等,以pdf或word格式存儲;任務文檔屬于調查和勘測之前的文檔,可為后續的數據處理提供依據。
(2)原始數據類:包括勘測儀器數據和現場原位測試數據,儲存格式各異;數據多數是未經處理的。
(3)整編數據類:按照規范要求整理的分析測試數據和勘測儀器數據,質量評估報告等,以txt/excel格式存儲;整編數據集是根據《地球物理資料整編技術規程》有關要求,對地質采樣樣品分析測試數據和地球物理后處理成果數據進行整理分析形成。一般樣品室內分析測試整編數據以excel形式存儲,儀器獲取處理成果數據以文本文件形式存儲。地質與地球物理數據按樣品類型又可分為巖石、沉積物等類型。巖石測試數據包括物性測試、成分測試和化學測試等;沉積物數據包括古生物、沉積礦物、沉積物粒度及工程力學數據等是多種細分類型。整編數據類也可以按照調查手段進行分類,分為磁力調查數據、地震勘測數據、重力勘測數據、地層剖面、電磁探測數據等。
(4)標準數據集:標準數據集指的是按照規范的轉碼格式和質量控制手段,重新排列后的文件集合,處理后的數據格式相對統一,可直接導入數據庫中使用。在這一過程中,標準化發揮著重要的作用,標準數據集是地質與地球物理數據庫建設的基礎工作。
(5)項目成果。報告專著類:課題研究報告、發表的專著、專利和論文,以pdf或word格式存儲;圖片圖像類:專業拍攝設備獲取的視頻及圖像,jpg、MP4、wmv、img等,可直觀表示地質地球成果,主要有重力分布圖、沉積物類型圖等;軟件類:軟件及相應說明,軟件是進行數據處理和管理的主要工具,屬于技術支撐范疇。
由于地質與地球物理數據來源、時期和單位各不相同,導致數據的組織結構和表現方式不統一,在部分特殊地質與地球物理數據中,數據的處理參數和處理方法也各不相同。這在一定程度上影響了同一地區地質與地球物理數據的綜合分析和應用,數據的價值無法體現。從這一角度分析,實現數據的標準化是挖掘數據價值的重要前提。
在數據標準化的處理過程中,需要保證數據的真實性、一致性和完整性。與此同時,為處理海量的地質與地球物理數據,需借助于相應的處理軟件開展工作。按照數據的獲取方式不同,地質與地球物理數據可分為室內測試數據和儀器直接獲取數據兩類,其中儀器直接獲取數據包括重力/磁場/電場分布、地震及淺層剖面數據等,室內分析測試數據包括礦物成分、巖石粒度和微量元素含量等。
(1)文件命名標準化。在統一的命名規則下,地質與地球物理數據名稱通常包括項目編號、區塊編號和數據類型三部分。對于同一個區塊開展多次勘測時,不同時期數據可在一個區塊下進行合并。地質與地球物理數據的文件劃分以測線為依據,文件名稱中可直接反映測線。區塊編碼和項目編碼信息可在文件夾名稱中體現。
(2)數據完整性檢查。數據完整性檢查主要針對數據是否存在缺失及缺失的程度,對于數據不完整的數據文件,應在第一時間通過對比原始數據和資料處理報告,確定數據缺失的部分,并進行補充。尤其應注意,地質與地球物理數據中的經緯度等關鍵數據及字段信息必須完整,關鍵數據缺失將導致整體無法應用。
(3)數據代碼統一。在地質與地球物理數據標準化過程中,經常會涉及公共字段的編碼,主要是區塊、項目和勘測時間信息等。不同的項目或者勘測時間產生的數據在編碼上可能存在差異,這就需要在數據代碼統一環節中進行統一編碼和規范管理。
(4)格式轉換。地質與地球物理數據由于來源不同、采集人員不同、處理單位不同,導致數據格式不同意。對異構數據進行格式轉化,能夠為后續數據的利用奠定基礎,促進數據的共享。格式轉化的過程,需要解析源文件,將格式不同的源文件轉化為統一格式的數據。磁力、重力數據的標準格式為文本格式,關鍵字段和數據的位置相對固定,為后續查找和處理提供了便利條件。淺層剖面和地震剖面數據處理后轉化為標準格式的數據,便于通過測線進行數據調用。
(5)數據質量控制。數據質量控制可結合人工和計算機管理實現,為保證地質與地球物理數據標準化的可靠性,在預處理階段和處理后數據的抽檢階段,主要采用人工抽檢的方式。對于標準數據集等大型文件,則需要專業化的計算機軟件進行,常用的質量控制方法包括以下幾種:①站位一致性檢查:將站位表中的字段與數據中的站位信息核對,并做到一一對應;②數值范圍檢查:確定范圍檢查的經驗值,并與數據中的要素對比;③著陸點檢查等:核對數據的空間分布是否與調查區塊對應;④邏輯一致性檢查:判斷數據之間的邏輯關系;⑤統計數據檢查:依據統計學基本規則,檢查統計數據的合理性,如百分比含量之和是否為100%。
按照一定的規則或者方式,對采集或者處理的數據進行分類,存儲,管理就是數據組織。高效的數據組織形式能夠在數據的管理應用過程中起到積極作用。在數據組織架構的確定中,應結合數據本身特點和需求,建立分層次、成體系的管理框架。
基于文件的數據組織形式是地質與地球物理數據最常用的形式之一,在各種數據類型的備份存檔和組織管理中都可應用。依據管理目的的不同和管理需求的各異,可使用不同的邏輯關系,建立分層次的文件組織形式。現實中地質與地球物理勘探通常以項目為主線,建議在資源匯集過程中按照項目進行分類并建立組織管理,實現數據對象的分類和抽象。對于同一個項目,可按照不同的勘測時間或者是區塊進行分類。在同一行次范疇內,可依據數據的種類進行再次劃分。在此基礎上,根據每次任務取得的成果不同,可在文件組織架構下進行相應的擴充,通常情況下文件放置于專門的服務器中,并建立相應的索引表,便于后期文件調閱。總體來看,基于文件的組織形式管理較為便捷,后期擴充較為快捷,但是這種方式只針對于規范文件,并且對于組織結構和分類體系要求較高,否則將會導致后期檢索和應用非常繁瑣。
3.2.1 基礎數據庫
使用事務型數據庫管理系統,對地質與地球物理數據進行分類和管理,可按照方法和勘測專業的不同,建立地球物理基礎數據庫和海底地質基礎數據庫。在數據庫的建立過程中,應深入對象之間的邏輯關系和映射關系,建立關聯規則。在數據庫中又包含很多個數據庫表,每個數據庫表中包含若干信息。對于日常數據管理和目錄發布等基礎應用,可建立結構化的事務性數據庫。
3.2.2 綜合數據庫
以要素管理為主體,依托于分布式并行數據庫集群儲存技術,可建立數據庫綜合管理系統。在綜合數據庫中可進行數據抽取、清洗等復雜操作,同時綜合數據庫中的最小組成單元是列。以可視化展示和統計分析為基礎的超大規模數據庫,可為各類數據的分析研究提供助力。
3.2.3 成果數據庫
成果數據庫主要存儲非結構化的數據,現階段最主要的框架使用的是Hadoop,Hadoop是一個開源的分布式計算框架,可在大量廉價硬件基礎上組成集群,構建一個易擴展、高可用的并行分布系統,該系統既可以從非結構化數據文件,也可以存儲半結構化的數據文件。其中非結構化數據庫具有高靈活、易擴展、高讀寫優勢,可快速建立數據之間的關聯,并結合深度分析進行趨勢預測,滿足數據深度挖掘的應用需求。
借助于國家重大專項的研究和應用推廣,我國在近海、大陸架和遠洋深海等不同區域開展了大量的地質及地球物理勘測工作,積累了大量的地質地球物理數據。數據是管理的基礎,也是應用的根本條件,良好的數據分類與組織架構能夠為數據應用提供便捷條件。本文在深入分析地質與地球物理數據特性的基礎上介紹了數據分類的基礎知識,并結合質量控制和標準化處理,確定了數據存儲策略,在此基礎上探討了非結構化數據和結構化數據的組織架構,對于地質,地球物理數據管理和應用具有重要意義。