付博 王文文 張詩檬 韓征 劉釗 陶光毅



摘? 要:城市地質數據存在“信息孤島”,打破“信息孤島”實現數據融合是城市地質大數據建設的必然要求。因此,采用多源異構技術實現數據融合是十分必要的。多源異構數據集成方法是將結構化、空間、非結構化的城市地質數據按照統一的分類方式、統一的ETL標準、統一的存儲模式和統一的調度方法在關系型、非關系型數據庫中進行有效的存儲和管理,其中涉及的關鍵技術包括用于多來源、多格式、多用途調查監測數據集成的結構化數據集成方法,用于不同介質、不同格式、不同標準成果資料集成的非結構化數據集成方法,以及用于存儲多源異構城市地質數據的信息資源管理系統的建設方法。
關鍵詞:多源異構;城市地質;監測預警;數據集成
Research on Key Technologies of Urban Geological Data Integration based on Multi-source Heterogeneity
FU Bo1, WANG Wenwen1, ZHANG Shimeng1, HAN Zheng1, LIU Zhao1, TAO Guangyi2
(1.Information Center of Beijing Institute of Geology, Beijing 100195;
2.Beijing Zhongkeguanggu Languang Technology Co., Beijing100041)
Abstract: Information islands of urban geological data are common. Breaking the information islands and realizing data fusion is an inevitable requirement for urban geological big data construction. Therefore, it is necessary to use multi-source heterogeneous technology to achieve data fusion. Structured, spatial, and unstructured urban geological data are processed according to a unified classification method, a unified ETL standard, a unified storage mode, and a unified scheduling method in relational and non-relational databases, so that data can be effectively managed and stored. The key technologies of multi-source heterogeneity are multi-source structured and unstructured data integration methods and the construction method of information resource management system, which are introduced in this paper.
Keywords: Multi-source heterogeneity; Urban geology; Monitoring and forecast; Data integration
0 前言
大數據具有規模大、種類多、生成速度快、價值巨大但密度低的特點。大數據應用就是利用數據分析的方法,從大數據中挖掘有效信息,為用戶提供輔助決策,實現大數據價值的過程(張引等,2013)。就學術界而言,Nature早在2008年就推出了Big Data專刊,Science在2011年2月推出專刊 《Dealing with Data》(孟小峰等,2013),說明大數據對于科學研究的重要性。越來越多的國家將大數據引入到生產生活的各個領域中,如美國6個聯邦部門和機構宣布投資2億美元,共同提高收集、儲存、保留、管理、分析和共享海量數據所需核心技術;英國政府發布了對公開數據進行研究的戰略決策,建立了有“英國數據銀行”之稱的data.gov.uk網站,進一步支持和開發大數據技術在科技、商業、農業等領域的發展。而在國內,2015年國務院發布了《促進大數據發展行動綱要》,明確指出了大數據的重要意義,大數據成為推動經濟轉型發展的新動力、重塑國家競爭優勢的新機遇、提升政府治理能力的新途徑(程學旗等,2016)。
物聯網的概念于1999年由麻省理工學院的Auto-ID實驗室提出,將書籍、鞋、汽車部件等物體裝上微小的識別裝置,就可以時刻知道物體的位置、狀態等信息(劉強等,2010)。目前,就物聯網概念而言,目前較為公認的物聯網的定義是:通過射頻識別(RFID)、紅外感應器、全球定位系統、激光掃描器等信息傳感設備,按約定的協議,把任何物品與互聯網連接起來,進行信息交換和通訊,以實現智能化識別、定位、跟蹤、監控和管理的一種網絡(劉楷華等,2011)。物聯網是新一代信息技術的重要組成部分,也是“信息化”時代的重要發展階段(劉曉峰等,2018),物聯網用途廣泛,遍及智能交通、環保、公共安全、智能消防、工業監測、衛生醫療、食品、敵情偵查和情報搜集等多個領域(劉浩力等,2011)。而在地質方面,北京市已經建成的“突發地質災害監測預警系統”已經部署了各類野外傳感器一千余臺套,實現了對崩塌、滑坡、泥石流及采空塌陷等山區重點突發地質災害隱患點的監測全覆蓋。系統以GPRS和北斗衛星雙通道傳輸模式實現數據傳輸,通過對其形變數據的自動和人工采集、分析,實現對其變化趨勢的中短期預報。
云計算技術的產生,使數據的處理從個人計算機或服務器轉移到了因特網,而且實現了超級計算,用戶只需要購買或通過因特網租用計算能力,不再需要購買成本昂貴的硬件系統(樸德慧,2015)。云計算通過將各種互聯的計算、存儲、數據、應用等資源進行有效整合并實現多層次的虛擬化與抽象,有效地將大規模的計算資源以可靠服務的形式提供給用戶,從而將用戶從復雜的底層硬件邏輯、網絡協議、軟件架構中解放出來(吳吉義等,2009)。云計算在科研、醫學、天文學等各個領域有著廣泛的應用前景(陳全等,2009)。而對于地質領域,中國地調局建設的“地質云”采用混合云技術架構,匯聚了大量的異構地質數據。系統完成了數十個國家地質數據庫的云端統一注冊管理,并實現13萬余檔地質資料的統一接入。地質調查專業用戶可基于“地質云”業務網獲取各類共享數據,普通社會用戶可基于互聯網在線獲取地質信息產品。“地質云”開創了全新的工作模式,地質調查用戶可以隨時隨地上傳調查結果至云端,實現云端數據處理和儲存,也可以實時從云端獲取數據。野外作業人員可以通過地質云實現各類背景數據的自動推送,地調業務管理人員可實現云端在線處理項目管理。
城市地質信息化工作主要是以傳統的方式建立獨立的信息系統,由于各系統的數據庫所采用的技術、平臺及網絡標準不統一,導致了大量的數據資源共通、共享與共用還存在較大的障礙,從而無法將大數據、云計算和物聯網技術應用到城市地質的調查和監測過程中,從而沒有“大平臺”的建設理念。
對此,未來若想要將大數據、云計算、物聯網等新一代信息技術應用到地質領域,首先需要解決的問題就是多源異構數據集成的問題,研究不同格式、不同類型、不同分類方法、不同儲存方式等多源數據的集成方法。只有打通了數據共享交互的關節,才能打破“業務壁壘”消除“信息孤島”,實現數據資源的共享互換。
首都地質資源環境承載力監測預警平臺將建設成為地質勘查管理與服務的大數據應用平臺,總體架構設計分為基礎層、數據層、支撐層、服務層、應用層、用戶層。平臺建成后將提供預警預報、決策支持、技術會商、應急處置等服務,各類專業技術人員提供地質數據綜合利用、地質資料查詢檢索、三維地質結構瀏覽展示服務,同時,向社會公眾展示各類地勘工作成果。
平臺涉及到地面沉降、地下水環境、突發地質災害、礦山地質環境等各專業領域的結構化、非結構化數據,因此需要將涉及到的結構化、半結構化、非結構化數據,使用多源異構數據集成技術進行管理和存儲。未來多源異構技術就是首都地質資源環境承載力監測預警平臺的“樞軸”和“調度中心”,將使得包含地面沉降、地下水環境在內的八大監測預警系統之間的數據自由流轉、信息交換共享成為可能。
1 多源異構數據集成的總體思路
1.1 城市地質數據存儲管理中存在的主要問題
北京各類城市地質數據由不同部門進行多頭管理,多家單位所存儲的不同類型、不同格式的地質數據無法進行數據交互,而對于數據更為深入的綜合分析和挖掘更是遙不可及。存在的主要問題包括:
(1)在城市地質數據標準化方面,存在空間數據格式不統一、結構化數據格式不統一和成果資料分類標準不統一的問題。具體表現在:①空間數據具有MapGis(WT/WL/WP)、ArcGis(Shp)、AutoCAD(dwg/dxf/dwt)等格式,上述空間數據格式之間的通用性較差,成果轉換難度較大。②結構化數據尚未建立統一的標準,如對于突發地災的雨量監測數據,有的是以每天的降水總量為監測值,有的是以每分鐘的降水增量為監測值,而對于鉆孔數據的命名方式各部門標準也不統一,這造成同一巖性的命名截然不同。③成果資料的分類方式千差萬別,有的單位按照數據類型分為結構化,空間,非結構化數據;有的單位按照專業領域分為水文地質、工程地質、環境地質類數據;有的則按照匯交格式分為標準格式和非標準格式數據。
(2)在城市地質數據的存儲介質和管理工具方面,不同單位的管理方式也是天差地別。①當前城市地質的存儲介質包括紙介質、光盤介質、電子介質等,多種介質之間很難進行有效的數據共享。②各個城市地質系統使用獨立的數據庫系統進行支撐,沒有實現集成,獨立系統造成“信息孤島”現象嚴重。③用于存儲城市地質數據的數據庫管理工具多種多樣。有的采用Oracle、MySQL、PG等數據庫管理系統,有采用存儲圖件的ArcGIS、MapGIS等管理軟件,有采用存儲檔案資料的Trip、MongoDB等管理系統,沒有形成統一的存儲方式。
1.2 城市地質多源異構數據集成技術的總體框架
城市地質多源異構數據集成技術的總體框架包括地質信息資源管理系統、關系型與非關系型數據庫、數據的ETL和多源異構空間數據(圖1)。
(1)多源異構城市地質數據的三重分類方法
所謂三重分類就是按照資料類型、所屬地質要素、數據格式的三種分類方法將城市地質數據切割為獨立的數據立方體的過程。首先將數據按照動態監測類、基礎資料類、專業成果類和三維模型類進行分類,此為一級分類。一級分類完成后,將根據數據所屬的“專業領域”“地質要素”“地質單元”進行二重分類,最后,將劃分好的二級子類數據按照結構化、空間數據,非結構化的數據再次分類,從而形成了相對獨立又緊密連接的數據立方體。
(2)關系型數據庫的架構體系
關系型數據庫主要是通過引用元數據表和地質要素,將包括地面沉降、地下水環境、突發地質災害等八大監測預警系統中所有結構化表格串聯和綁定的方式建立的體系。其物理上采用PG數據庫對178張結構化表格進行存儲,每一個監測預警體系中均使用統一的“地質要素統一編號表”進行串聯,從而將全部178張數據表進行了有機的集成。
(3)空間數據庫的架構體系
地質多源空間數據包括地下水環境、地面沉降、地熱與淺層地溫能、突發地質災害、土壤地質環境等業務領域,空間數據的主要存儲方式是采用ArcSDE+PG的架構體系,因此涉及到ArcGIS類型的數據將采用ArcSDE的方式進行存儲和管理,而涉及到MapGis和AutoCAD格式的數據將轉換為ArcGIS格式,或采用非結構化數據的管理方式進行管理。而對于全局管理而言,地質多源空間數據集成將采用TRIP非關系型數據庫、PostgreSQL關系型數據庫和ArcGIS空間數據庫共同組成多源異構空間數據庫。每個圖層及其元數據形成TRIP圖層數據庫中的一條記錄,圖層存儲在非結構化字段,圖層元數據存儲在同一條記錄的結構化字段。而圖層的元數據由TRIP數據庫導入PostgreSQL數據庫,圖層的空間數據導入ArcGIS空間數據庫。
(4)Trip非結構化數據庫的架構體系
非關系數據庫突破了關系型數據庫嚴格的表結構,解決了關系數據庫不易表達復雜嵌套數據結構的問題,存儲的數據對象包括非結構化數據、半結構化數據和結構化數據。視處理數據對象而言,目前非關系型數據庫主要有鍵值存儲、列存儲、文檔型和圖形四大類。
TRIP數據庫屬于文檔型非關系數據庫,數據庫中文檔是處理信息的基本單位。數據庫存儲每個對象的所有信息,并且每一個被存儲的對象可與任一其它對象不同。TRIP數據庫由記錄組成,記錄由字段組成,字段存放數據。TRIP數據庫允許創建不同類型的字段,包括字符串、數值、日期、時間、文本、二進制等字段,其中文本字段用于存儲文本中的句子和段落和從電子文件中抽取的字符,二進制字段用于存儲任何類型的字符,包括ASCII字符,以及圖像、視頻、音頻等二進制數據,能夠滿足多種類型、多種格式的結構化數據、非結構化數據及元數據存儲的需要。同一數據庫不同記錄的非結構化數據的格式可不同,同一條記錄中多個非結構化數據的格式可不同。一個數據庫能被分成若干個數據完整的子數據庫,若干個子數據庫可合成一個數據完整的數據庫。TRIP數據庫適用于大規模、多種類、多種格式數據的存儲、備份和管理。
TRIP數據庫能與搜索引擎集成,對結構化數據的文字信息和非結構化數據(電子文件)中抽取的文字信息進行全文索引,包括:對字符串字段每個字、詞、詞干、整個字段內容進行索引,對文本字段每個字、詞、詞干進行全文索引。對日期、時間和數值進行索引,檢索范圍包括結構化數據、非結構化數據(電子文件)中抽取的文字信息及元數據的文字信息。能夠對數值、日期、時間、文字信息進行統計分析,借助中文自動分詞和專業中文分詞詞典大幅度提高數據的查準率和檢索速度。
(5)地質信息資源管理系統
信息資源管理系統可以管理三個不同類型的數據庫,包括空間數據庫ArcGIS,關系型數據庫PostgreSQL以及TRIP非關系型數據庫。數據導入時將原文件、圖件圖層、XML關聯文件 、XML數據地理信息、監測點站井地理信息以及監測數據導入非關系型數據庫中,關系型數據庫從非關系數據庫中獲取部分數據以及關聯信息,并導入空間數據庫。空間數據庫通過關系型數據庫的導入地理信息以及關聯文件,實現空間數據的存儲、分析、調取與利用。
(6)元數據表功能和意義
元數據是描述數據的數據(data about data),主要是描述數據屬性的信息,用來支持如指示存儲位置、歷史數據、資源查找、文件記錄等功能。通過元數據表可以將數據聯系起來,如非結構化數據的元數據表可以包含項目編號、資料題名、資料類型、保護期、關鍵詞等信息,這些信息提取出來之后,就可以將元數據匯聚到統一的表格中,從而實現不同類型數據的統計分析。
(7)多源異構標準化規則
制定數據標準化處理的技術方法應當參照國家及行業相關的標準規范,如《地質信息元數據》《成果地質資料電子文件制作與匯交格式》《地質鉆孔(井)基本數據文件格式》等,并且應當按照平臺規定的空間參考系統;為了保證數據的完整性和一致性,需要建立數據ETL的標準化規則,在地質信息資源管理系統中開發實現用于數據抽取、數據的清洗轉換和數據加載的算法。
對于不同類型的數據,需要制定不同的規則(表1)。
(8)城市地質數據倉庫的結構
地勘領域空間數據將成為實現“智慧地質”的核心組件。數據倉庫將包括關系型數據庫中全部數據,通過數據抽取、轉化、上傳規則的制定,來實現數據流從數據庫向數據倉庫的定期轉移。本次數據倉庫的設計將針對城市地質數據倉庫的主題、維度和粒度進行劃分。首先,倉庫中數據的組織主要是以基礎比例尺的方式來實現不同比例尺數據的拆解與聚合,其次,確定倉庫的主題域,包括業務領域、維度、比例尺、監測預警系統、地質要素等。最后,按照地質單元、圖層、時相、地質要素進行維度劃分。數據遵循此流程進入數據倉庫,就可以實現多地質要素數據的融合。
2 關鍵技術問題
2.1 地質多源結構化數據集成方法
首都地質資源環境承載力監測預警平臺未來將通過物聯網技術接入地下水環境、地面沉降、重大線性工程等八大監測預警系統,所涉及的傳感器包括GPS、水準點、水位監測井、雨量計、泥位計、分層標、基巖標、攝像頭等數十種,數據類型具有ArcGIS、MapGIS、Auto CAD、txt、Excel、遙感影像等多種格式。數據來源也千差萬別,數據獲取方式也多種多樣。同時,為了進行綜合分析和預警預報,平臺還將接入以非結構化數據為主的歷史資料、GIS圖件、物化探數據、遙感數據、數字化成果、模型數據。
系統將根據八大監測預警系統各自的業務體系,首先建立起對應的結構化數據框架,從而形成八大結構化數據的框架體系。比如對于地面沉降監測預警系統,首先通過地面沉降監測站統一編號表對地面沉降監測站進行編號,將地面沉降監測站編號作為鍵值與地面沉降監測站基本信息表對應,將地面沉降監測站基本信息表中監測方法統一要素編號作為鍵值與多源異構數據統一編號表對應,多源異構數據統一編號表通過監測方法統一要素編號作為鍵值與地面沉降GPS水準一體化監測點、地面沉降GPS監測點、地面沉降水準監測點等各基本信息表一一對應,監測點原編號或監測井原編號作為鍵值與各個監測數據表對應。八個監測預警系統的結構化數據庫框架建立方法同上。
八個監測預警系統中的結構化數據框架都包含多源異構數據統一編號表,表中包含監測方法要素統一編號、所屬地質要素、所屬專業領域、所屬監測預警系統等字段,地質要素包括地下水水位、地溫場環境、地表形變、地層形變等類型,通過所屬地質要素為紐帶,可以將八大監測預警系統的表格進行有效的橫向集成。同時,由于元數據表可以對結構化、空間和非結構化數據進行縱向的集成,從而就形成了整個結構化數據表的集成。
2.2 地質多源非結構化數據集成方法
(1)數據來源與種類
地質多源非結構化數據包括地下水環境、地面沉降監測等領域,其數據類型包括基礎資料、三維模型數據、監測數據中的電子文件。基礎資料匯交的數據格式一般是ED-Maker,每個XML格式地質資料文件目錄關聯多個不同格式的電子文件;三維模型的數據格式一般是Creator、ArcGIS、MapGIS、網格天地等;監測數據中的電子文件有pdf格式、excel、word等。
(2)基于異構類型數據庫的地質多源非結構化數據集成
地質多源非結構化數據集成采用由TRIP非關系型數據庫、PostgreSQL關系型數據庫和ArcGIS空間數據庫組成的聚合類型數據庫,分別對基礎資料、三維模型和監測數據中的電子文件進行集成和管理。
(3)基礎資料集成
每個XML格式地質資料文件目錄中的數據形成TRIP目錄數據庫中的一條記錄,包括地理坐標,全部存儲在結構化字段,然后由TRIP目錄數據庫導入PostgreSQL目錄表,其中地理坐標再由PostgreSQL目錄表導入ArcGIS數據表。文件目錄關聯的每個電子文件和相關信息形成TRIP電子文件數據庫中的一條記錄,電子文件存儲在非結構化字段,電子文件相關信息存儲在同一條記錄的結構化字段,然后將電子文件的相關信息由TRIP電子文件數據庫導入PostgreSQL電子文件相關信息表。PostgreSQL目錄表與PostgreSQL電子文件相關信息表形成關聯。
(4)三維模型數據集成
每個三維模型和相關信息形成TRIP三維模型數據庫中的一條記錄,三維模型存儲在非結構化字段,三維模型相關信息存儲在同一條記錄的結構化字段,然后將三維模型的相關信息由TRIP三維模型數據庫導入PostgreSQL三維模型相關信息表。
(5)監測數據中的電子文件集成
每個電子文件和相關信息形成TRIP監測數據電子文件數據庫中的一條記錄,電子文件存儲在非結構化字段,電子文件相關信息存儲在同一條記錄的結構化字段,然后將電子文件的相關信息由TRIP監測數據電子文件數據庫導入PostgreSQL監測數據電子文件相關信息表。
2.3 地質多源信息資源管理及檢索系統
地質信息資源管理系統對于結構化數據多采用關系型數據庫,對于非結構化數據的儲存,基本上采用數據掛接關系型數據庫、離線存址和嵌入型關系型數據庫3種方式,但其都具有明顯的不足之處,因為這些方式的本質還是采用文件夾的方法對非結構化數據進行管理。因此,引進擅長管理非結構化數據的非關系型數據庫管理系統是非常必要的。而關系型數據庫和非關系型數據庫管理系統各有所長,因此采用關系型數據庫和非關系型數據庫管理系統共同實現地質信息資源的儲存和管理是比較科學的做法(圖2)。
(1)系統的組成
地質多源非結構化數據集成采用由TRIP非關系型數據庫、PostgreSQL關系型數據庫和ArcGIS空間數據庫組成的聚合異構類型數據庫,能夠充分發揮不同類型數據庫檢索的優勢和特點。在本系統中,TRIP非關系數據庫的檢索基于全文索引、中文自動分詞和中文分詞詞典,對結構化字段、非結構化文本字段進行檢索,PostgreSQL關系數據庫管理系統可對結構化字段進行檢索,ArcGIS空間數據庫可對空間信息進行存儲,同時可以配合Trip數據庫管理系統對空間數據進行檢索。
(2)框選的檢索方法
框選檢索是用鼠標在地圖上繪制多邊形,利用多邊形的坐標獲取區域內的非結構化數據、結構化數據、空間數據及相關信息。①非結構化數據框選檢索,獲取并顯示框選區域內文件數量和文件詳細信息,包括項目題名、匯交人檔號、匯交時間、文件名等,并可在線瀏覽電子文件。②結構化數據框選檢索,獲取并顯示框選區域內站/點/井信息和監測數據。③空間數據框選檢索,獲取并顯示框選區域內圖層的空間數據。
(3)文字的檢索方法
文字檢索對非結構化數據中的文字、結構化數據中的文字、與空間數據相關的文字信息進行檢索。①非結構化數據(電子文件)全文檢索,是對從電子文件中抽取的全部文字和電子文件的元數據、以及電子文件相關的結構化數據進行檢索,獲取并顯示命中結果的文件數量和文件詳細信息,包括項目題名、匯交人檔號、匯交時間、表格名等,并可在線瀏覽電子表格數據,包括監測站點基本信息、監測數據、調查數據等。②非結構化數據(電子文件)關鍵詞檢索,是對電子文件的元數據以及相關的結構化數據進行檢索,獲取并顯示命中結果的文件數量和文件一般信息,包括項目題名、匯交人檔號、匯交時間、文件名等,并可在線瀏覽電子文件。
3 應用實例
本次研究的地質多源結構化、非結構化數據的集成方法以及信息資源管理系統的建設方法已經初步應用到首都地質資源環境承載能力監測預警信息平臺,錄入了上百條數據,幾十張圖,上百檔非結構化數據,均可以實現關鍵詞檢索,畫框檢索和空間檢索,應用效果良好(圖3)。
4 結論
本文對基于多源異構的城市地質數據集成總體方案和關鍵技術進行深入的研究,并對城市地質的數據分類方法、結構化數據的集成方法、結構化數據的集成方法和地質多源信息資源管理及檢索系統進行了詳細的研討和論述,未來為地質資源環境承載力監測預警平臺的建設提供指導。
但限于大數據、云計算和物聯網技術等新一代信息化技術在地質領域的應用剛剛起步,很多地質大數據方面的研究也剛剛開始,對于不同單位、不同領域之間數據共享交換需求也有待明確,因此未來還有很多工作需要開展。如對全市地質資源環境領域傳感器格式和通訊規約的研究和制定,以及對多種空間數據格式融合方式的研究都亟于開展,為未來實現城市地質數據的共享和融合奠定基礎。
參考文獻:
陳全,鄧倩妮,2009.云計算及其關鍵技術[J].計算機應用(9):2562-2567.
程學旗, 靳小龍, 楊婧, 等, 2016.大數據技術進展與發展趨勢[J]. 科技導報, 34(14):49-59.
劉強, 崔莉, 陳海明, 2010.物聯網關鍵技術與應用[J].計算機科學(6):7-10+16.
劉楷華, 李雄, 2011.物聯網應用現狀及發展機遇[J].電腦知識與技術(5):45-46+60.
劉曉峰,李偉淵, 2018.淺談物聯網在信息社會的發展前景與應用[J].廣西通信技術(1): 32-34+40.
劉浩力,2011.物聯網應用及發展前景淺析[J].中國信息界(8):31-32.
孟小峰, 慈祥, 2013.大數據管理:概念、技術與挑戰[J].計算機研究與發展(1):148-171.
樸德慧,2015.云計算控制技術研究[J].數字技術與應用(2):110-110.
吳吉義,平玲娣,潘雪增,等, 2009.云計算:從概念到平臺[J].電信科學(12):29-36.
張引,陳敏,廖小飛, 2013.大數據應用的現狀與展望[J].計算機研究與發展, 50(S2):216-233.