馮 斌, 吳文鸝, 王永志, 梁 萌, 郭盈宇, 陳小紅
(1.中國地質科學院 地球物理地球化學勘查研究所,廊坊 065000; 2.吉林大學 儀器科學與電氣工程學院,長春 130061;3. 北京超維創想信息技術有限公司,北京 100086)
物化探數據與其他地質調查專業數據相比,有著數據類型繁多、格式復雜和數據量大等特點[2]。隨著地質調查工作的不斷開展、數據采集技術的不斷進步,原有的物化探數據管理、應用與服務,也面臨著新的需求,主要表現在:
1)多源異構物化探數據管理的需求。物化探工作手段多樣,儀器種類龐雜,存儲格式各異,數據存在很多異構的問題,如何滿足結構化和非結構化的存儲和管理成為亟待解決的問題。
2)海量物化探數據高效存儲的需求。隨著業務的不斷開展,數據的不斷累積,傳統的單機版服務器所能提供的有限資源往往不能滿足數據存儲的要求。
3)物化探資料挖掘與二次開發利用的需求。隨著物化探資料的不斷積累,形成了大規模的數據集,這些資料如果不進行深度開發和利用,其潛在的價值就無法被挖掘出來。
4)物化探信息服務的需求。物化探數據種類繁多、數據量增長迅速、應用復雜,給物化探信息的共享和服務提出新挑戰[3]。
云計算技術作為目前最新的高性能計算技術,具有成本靈活可控、資源利用率高、彈性計算和存儲等多方面優點,使其在存儲、處理復雜結構的數據時具有較大的優勢[4]。中國地質調查局于2017年初啟動了“地質云”建設,旨在依托云計算、互聯網+、大數據等信息技術,消除數字鴻溝,整合共享數據資源,建成國內權威的地質大數據中心和“地質云”服務平臺體系,實現地質信息的開放與共享。物化探數據作為地質大數據的重要內容,是“地質云”建設不可缺少的一部分。
參照組使用基礎護理,保持患者的病室干凈整潔,定期消毒,提供心理護理,實驗組除了以上的護理內容還增加了優質護理,主要有以下一些護理內容:①對傳統護理觀念進行轉變。對護理人員進行要求,以人為本,加強護理人員的健康培訓,建立以患者為中心的護理思想,和患者溝通交流,了解患者的需求[3]。②保為患者提供舒適安靜的治療和護理環境。③強化責任護理以及優質護理。早班護理每組有 名護理人員,組內護理工作3有組織分配,管理協調,將護理計劃進行劃分,分層次和等級[4]。
為此筆者面向物化探數據管理和共享的應用需求,結合地質云對專業節點建設的相關要求,在云計算框架下,對物化探信息服務系統進行了設計,實現了各類物化探數據的入庫、管理、檢索、GIS制圖、可視化、分析等應用服務。
依托地質調查工作獲得了豐富的地球物理、地球化學勘查數據,根據調查和研究工作的階段不同,物化探數據又可以劃分為原始數據和產品。原始數據主要有地面物探數據(重力、瞬變電磁測深、大地電磁測深、磁測、地震)、航空物探數據(航磁、航電、航放)、物性數據(密度、磁化率、極化率、剩磁強度等)、地球物理測井數據、土地質量地球化學數據及區域地球化學數據;對原始數據二次開發利用后形成的主要產品有物探基礎圖件(重力異常圖、重力推斷解釋圖、磁異常剖面圖、電阻率斷面圖、地球物理測井綜合圖、地震解釋剖面圖等)、化探基礎圖件(地球化學等值線圖、地球化學異常圖等)及成果報告。具體內容及類型如圖1所示。在數據格式方面,有MapGIS和 ArcGIS 矢量數據、關系型數據庫、SEG-Y、GRID、文檔和圖片等。

圖1 物化探數據分類Fig.1 The classification of geophysical-geochemical exploration data

圖2 物化探信息服務云架構Fig.2 Cloud computing architecture of geophysical-geochemical exploration information platform
根據“地質云”節點建設的需求,以及對物化探數據情況的分析,物化探信息服務平臺的整個架構層次從底向上分為基礎設施即服務層(IaaS)、數據即服務層(DaaS)、平臺即服務層(PaaS)、軟件即服務層(SaaS)[5-7](圖2)。
1)IaaS層:負責提供基礎設施資源,包括計算資源、數據存儲資源和網絡資源。該層分為物理資源層和虛擬資源層。其中,物理資源層由服務器、存儲設備、網絡設備組成;虛擬資源層由操作系統內核、虛擬機及虛擬化工具組成,通過虛擬化工具把物理資源層的物理設備變成統一的虛擬資源池,供上層服務調用[8]。
2)PaaS層:是指將軟件研發的平臺作為一種服務,為云應用提供開發、運行、管理和監控的環境[9],云平臺的用戶就可以申請這些計算單元用以部署和運行應用程序。
3)DaaS層:該層為數據中心,主要是結構化數據和非結構化數據的存儲和管理,包括基礎地理、重磁電勘探數據、地震勘探數據、地球化學測試分析數據、成果圖件、專題報告等。
4)SaaS層:這層的作用是將產品和數據以基于Web的方式提供給用戶。
從用戶角度而言,這四層服務之間關系是獨立的,因為它們提供的服務是完全不同的,而且面對的用戶也不盡相同。但從技術角度而言,這四層之間的關系并不是獨立的,而是有一定依賴關系的,SaaS層的產品和服務不僅需要使用到SaaS層本身的技術,而且還依賴PaaS層所提供的開發和部署平臺或者直接部署于IaaS層所提供的計算資源上, PaaS層的服務是建立在DaaS層的數據和IaaS層的基礎設施服務之上的,同樣,DaaS層的構建也依賴于IaaS層的基礎設施。
建成后的系統應集數據入庫、管理、計算和共享服務于一體,具有對各類物化探數據的入庫、查詢、檢索、處理、審批、下載等功能,滿足現有數據管理需求,同時支持多用戶、多任務并發訪問,滿足不同用戶對數據資源的快速檢索需求。檢索方式包括目錄導航、關鍵詞查詢、地圖查詢等方式查詢自己所需要的資源。元數據搜索可提供語義匹配的關鍵詞搜索,元數據檢索支持基于工作程度、形成時間和資料類別的檢索與篩選功能,檢索結果以列表的形式呈現。地圖搜索提供多邊形查詢、關鍵詞語義匹配的元數據檢索功能,并以地圖空間可視化的方式呈現搜索結果的空間分布。系統可根據用戶搜索的情況,自動推薦相關數據資料信息。系統應能夠對物化探數據進行分布式計算處理,解決復雜算法對大內存、大計算的計算需求。
數據層主要包括結構化和非結構化數據的存儲,主要包括基礎地理、地震勘探、地面重磁電探測、航空物探數據(電、磁、放射性)、化探數據(巖石、水系沉積物、土壤)、文獻等數據的存儲。采用具有空間擴展的大型數據庫(Oracle、SQLServer)來存儲結構化數據??臻g矢量數據庫(ArcGIS、MapGIS)存儲各類地學數據矢量數據,采用NoSQL數據庫(HBase、MongoDB)保存非結構化數據(文檔、圖件、原始地震數據SEG-Y)[10](圖3)。

圖3 數據存儲方式Fig.3 Data storage mode of platform
數據服務構建于數據庫之上,實現對數據庫的訪問,對外提供數據服務。數據服務與數據庫的關系,可以是一對一,也可以是多對一 (多個數據服務,單個數據庫),還可以是多對一(一個數據服務,多個數據庫),其適應范圍相當靈活。具體配置的選擇需要根據提供數據的規模和訪問要求進行靈活配置[11]。物化探信息服務按數據類型有空間數據服務、非空間數據服務;按網域范圍有內部服務接口、外部服務接口;按接口技術分為WCF、WFS、WMS、WMTS等。表1列出了多級、各類服務接口列表。
本文搭建了物化探數據云計算中心的基礎設施環境,共配置了四臺服務器、一套存儲設備、一套云管軟件和網絡設備若干(交換機和防火墻等),共同構成了融合資源池的基礎架構。其中兩臺服務器用于管理節點配置,兩臺服務器用于節點計算,存儲設備用于云存儲。云管軟件用于云平臺資源的虛擬化和資源管理,本次工作采用的云軟件為華為FusionSphere。通過云軟件,對計算、存儲、網絡等物理資源進行虛擬化,提供了統一的計算、存儲、網絡資源池,同時提供了本地的基礎運維能力,包括對本地基礎設施的告警、性能、拓撲和監控等。
在云服務中心基礎設施環境的基礎上,開發和部署了基于C/S和B/S架構的物化探數據服務系統。開發工作以Visual Studio 2010作為開發工具,基于.NET的Web Service編程實現;數據存儲采用ArcSDE空間數據引擎、SQLServer大型關系數據庫及NoSQL數據庫;地圖服務器采用ArcGIS Server,發布各類地圖服務到服務器,將所有的服務統一注冊到服務中心。B/S架構的數據服務系統通過網絡瀏覽器提供基于電子地圖的空間數據服務。
瀏覽器端通過HTTP、SOAP等協議與云數據服務中心進行通信、交互,服務中心通過HTTP協議調用服務,將結果返回前端,瀏覽器端對服務調用返回的結果進行處理后以地圖、表格、文檔等多種形式顯示(圖4);C/S架構的數據管理客戶端為物化探數據提供了便捷、友好的數據錄入、編輯、自定制格式批量導入、數據查詢、可視化分析、統計和下載等功能, 使用戶能夠方便、快捷地將數據錄入到數據中心, 并且對數據進行檢索和共享(圖5)[19]。

表1 物化探信息服務接口列表Tab.1 Services lists of geophysical-geochemical exploration information

圖4 物化探數據服務界面Fig.4 Interface of geophysical-geochemical exploration data service
在云計算中心環境的基礎上,使用虛擬化技術創建了12臺虛擬機(每臺24核處理器,64GB內存),基于容器技術(Docker)搭建了可實現并行計算所需的彈性虛擬化集群,并采用開源容器編排工具將地球物理并行程序部署在該集群上,實現了地球物理數據分布式計算系統[20]。
通過在分布式計算系統部署大地電磁法(MT)三維有限差分反演并行程序(圖6), 并用實測數據進行計算測試后,發現基于分布式多節點運行機制, 有效的提高了計算效率。解決了對大內存、大計算的計算需求, 可為科研和調查提供支撐。

圖5 物化探數據管理界面Fig.5 Interface of geophysical-geochemical exploration data management

圖6 基于分布式計算集群的MT三維反演Fig.6 MT 3-D inversion software based on distributed computing cluster system
虛擬化是一種資源管理技術。它是將計算機的各種實體資源,如:服務器、網絡、內存及存儲等,予以抽象、轉換后呈現出來,打破實體結構間的不可切割的障礙,使用戶可以用更好的方式來利用這些資源[12]。虛擬化的目的是為了在同一個主機上運行多個系統或應用,從而提高系統資源的利用率,并帶來降低成本、方便管理和容錯容災等好處。本文搭建的物化探信息服務云平臺提供了基礎的計算、存儲和網絡虛擬化能力。通過虛擬化軟件(華為FusionSphere),對計算、存儲、網絡等物理資源進行虛擬化,提供了統一的計算、存儲、網絡資源池。
從實現形式上虛擬化技術分為硬件虛擬化技術和軟件虛擬化技術。而Docker屬于軟件虛擬化技術中的操作系統層虛擬化技術,它是一個應用容器引擎,Docker讓開發者可以打包他們的應用及依賴環境到一個可移植的容器中,然后可以將這個容器快速部署開發、測試或生產環境中。在物化探信息服務云平臺中,Docker為創建分布式計算節點提供了容器,從而利用更加節省的硬件資源提供了更多的計算資源。
云計算服務中心采用“一站式”服務模式實現來物化探信息服務管理。云服務中心包括物化探數據存儲中心和云服務計算中心。所有的空間服務、非空間服務統一注冊在云計算中心,形成了一個虛擬資源池,統一管理所有的虛擬化資源,可對外提供數據服務和計算服務[12-14]。其中數據服務實現對后臺云存儲內數據訪問,計算服務既可以是數據服務的消費者,也能直接訪問后臺數據。云計算服務中心的資源匯聚模式,由云計算服務資源管理中心(FusionSphere)統一管理各種資源的生命周期,服務資源可以是GIS服務器、數據庫服務器、應用服務器等[15],GIS服務器提供圖形服務,數據庫服務器提供數據存儲等服務,應用服務器提供信息檢索、制圖及可視化、數據挖掘等計算服務。這些服務匯聚于云計算中心上,提供統一出口。所有這些服務通過云計算服務中心來進行協同。以空間服務為例,空間服務部署在圖形服務器上,采用OGC標準的空間服務,由云計算服務中心完成各類空間服務資源注冊、搜索、更新、銷毀等全生命周期統一管理。客戶端不用關心服務資源掃描、解析、訪問、跳轉、計算等過程,更不關注后臺數據訪問和處理方法,呈現數據資源、計算資源的虛擬化,從而達到與數據來源、格式及內容無關,實現跨平臺的、跨域的數據信息服務。
物化探數據包括結構化和非結構化數據,在云平臺中采用Oracle、SQL Server等大型商業數據庫存儲結構化數據,采用NoSQL數據庫(如HDFS、Mongo、HBase等)保存非結構化類型的物化探數據。NoSQL是一個云計算背景下蓬勃發展的分布式、非關系型數據庫系統,支持半結構化、結構化數據的高并發讀寫,存儲Key-Value鍵值、列族、文檔、圖等多種數據類型,其產生就是為了解決大規模數據集合多重數據種類帶來的挑戰[16-17]。NoSQL本質上就是為分布式系統設計的,支持橫向擴展,能夠適應飛速增長的海量數據,并且在分布式架構下可以達到很好的性能。NoSQL的以上特性對于解決多源異構物化探數據的存儲與管理問題是非常有適合的。
物化探數據的云分析是指在云平臺上運行數據處理與分析算法,發現隱藏在物化探數據中的潛在價值的過程。在云數據中心存儲的各類異構數據構成了數據分析的原始數據,基本過程包括數據準備、數據處理、解釋和知識運用。數據處理是整個分析過程的關鍵,根據數據的類型和處理的目標要求選定合適的算法,從原始數據中提取并轉換成用戶需要的知識。就云計算框架而言,現有物化探數據處理算法不能直接在云計算平臺下運行[18],因此需要將傳統的數據處理算法改造為基于云計算平臺的并行處理算法。
中國地質科學院地球物理地球化學勘查研究所作為“地質云”建設的物化探專業節點,建立的物化探信息服務系統平臺應與“地質云”平臺實現應用對接,并持續向地質云推送數據和產品。對接以注冊接口的形式完成。
將全國地球化學基準數據、全國巖石物性數據庫、東部平原土壤基準值數據、東部巖石地殼豐度值等基礎數據庫發布為空間數據服務,提供多邊形查詢接口,可對區域內數據進行分頁查詢,返回JSON格式結果數據,供“地質云”平臺進行集成對接(圖7)。物化探數據服務云接口包括:關系型數據庫服務接口(增、刪、改、查)、空間型數據服務接口(WMS接口、WMTS接口、空間查詢接口)和文件傳輸服務接口(數據下載接口、數據上傳接口)。
根據“地質云”接口要求,按照產品分類和數據結構規范,開發了物化探圖件(GIS)、地質圖件(圖像)、地學科普(視頻)、軟件、儀器設備(元數據)、技術方法與標準、出版物(文檔)等物化探信息產品服務接口,供“地質云”平臺進行集成對接。物化探信息服務產品云接口包括產品元數據、下載、產品高清切片瀏覽等接口。
筆者面向物化探調查和研究工作的應用需求,為了實現多源異構物化探數據存儲、管理和服務,利用云計算技術構建了物化探數據云服務架構,實現了物探、化探數據的入庫、管理、檢索、計算、 下載等服務,并完成了與中國地質調查局“地質云”應用對接,實現了物化探數據和產品在“地質云”平臺的共享服務,為全國基礎地質研究、礦產資源規劃部署以及生態環境評價等領域提供了便捷的云端物化探數據服務。

圖7 全國地球化學基準數據在地質云平臺的服務Fig.7 National geochemistry benchmark data in geocloud platform service