石松

面向業務創新的分析決策是國土資源大數據的應用核心,也是國土資源大數據平臺首要構建目標。國土資源大數據不僅具有海量、多源、異構、時序性的顯著特點,而且還由于其作為基礎數據的特殊性地位,面臨著多樣化的決策分析需求,因此對大數據平臺架構的定制性、敏捷性、可擴展性與服務能力提出了更高要求。
本文分析了主流的架構設計方法論,以國土資源大數據應用決策需求為出發點,對面向分析決策的國土資源大平臺架構進行系統研究。
云計算、大數據、物聯網、人工智能等新一代信息技術的迅猛發展及其在國土資源領域的逐步推廣應用,為開展業務創新、實現智能決策提供了技術保障,通過實現國土資源大數據的匯聚,促進國土資源決策科學化、監管精準化、服務便利化,有效提升國土資源大數據利用水平,是智能決策的主要目標。國土資源數據可以劃分為空間數據與非空間數據兩大類型,空間數據主要是描述國土資源實體位置關系的數據,非空間數據包括業務數據與知識數據,這些數據具有海量、異構、多源多時相的顯著特點。因此,采集、存儲、管理、分析與挖掘都面臨比較大的技術挑戰。
架構的本質是對信息系統進行建模,從而實現將業務功能和需求以合理的方式映射到 IT系統。為了實現智能決策,需要將大數據技術與人工智能技術融合,實現國土資源數據的統一采集、存儲、管理、分析與挖掘。基于此,本文在分析主流的架構設計方法論的基礎上,面向國土資源大數據的特點,設計并驗證了新型的國土資源大數據平臺架構,為解決國土資源大數據采集、融合、分析、挖掘與智能決策應用的重點難點問題奠定了技術基礎,為國土資源大數據平臺應用提供了新的范式。
架構(Architecture)是系統的基本組織,包括其組成部分、相互關系和環境,以及指導其設計和演化的原則。架構設計需要有科學方法作為指導。信息系統的架構設計主要遵循 Zachman企業架構框架、FEA聯邦企業架構和TOGAF開放群組架構框架,架構設計的本質是從系統的需求和定位出發,從業務、數據、應用、技術等多個角度對系統進行建模,從而在需求和系統間搭建橋梁,因此在架構設計中需要貫徹技術與業務分離、設計與實現分離這一核心原則。
對于行業性大數據平臺技術架構的研究已有很多,包括電力企業大數據基礎平臺的功能架構研究、農業大數據平臺的架構研究、電信大數據平臺的架構研究、公共交通大數據平臺研究,這些研究都針對各自的業務領域提出了合理的設計,但是這些行業應用大數據類型都相對比較單一,多以海量的結構化管理數據為主,缺少數據融合,更多的是面向傳統BI的決策,而國土資源數據類型極端多樣,既有遙感影像、矢量圖形,又有管理數據、知識數據,“4V”特征非常明顯,同時又由于國土資源數據是關乎國計民生的基礎數據,應用場景豐富,采用包括遙感影像信息自動提取、多源數據融合等技術方法是國土資源大數據利用的全新方向,因此,對國土資源大數據平臺的架構設計必然提出更高的要求。
國土資源大數據分析決策的核心需求
核心需求包括核心的業務需求和技術需求。基于國土資源大數據智能決策的核心業務需求圍繞國土資源發展態勢提供監管、預警、分析與評價服務,從而更深刻地揭示人地關系,服務于國家生態文明建設。
由于業務需求的多樣性,通過對業務需求的分析,進一步抽取出共性的技術需求,劃分為三類:
(1)數據服務的技術需求。構建并管理國土資源數據資源體系,實現國土資源數據的采集、管理、處理和分析應用。
(2)計算服務的技術需求。融合數據、知識、指標、模型、算法等決策要素,圍繞監管、預警、決策、評價四大類型需求,提供大數據計算服務,需要支持實時、準實時及離線計算等不同應用場景。
(3)集成服務的技術需求。根據服務協議或服務標準,將數據服務和計算服務以接口的形式提供給平臺服務消費者。
國土資源大數據平臺架構的設計路線
基于上述需求理解,基于對國土資源大數據平臺核心需求的分析,本文采用Zachman企業架構設計方法論來進行國土資源大數據平臺的架構設計,即分別從業務架構、應用架構、數據架構以及技術架構四個不同的視角對國土資源大數據平臺進行建模。其中業務架構是對國土資源大數據平臺業務能力的分解和細化,描述業務目標、業務場景及業務流程。應用架構解決國土資源大數據平臺的應用劃分。數據架構定義數據模型、數據標準、服務于數據融合。技術架構定義國土資源大數據平臺的系統框架、組件框架、集成框架與部署框架。
國土資源大數據平臺業務架構設計
業務架構來自對國土資源大數據平臺核心需求的導入與分析,從中提煉出平臺的業務和技術能力。
國土資源大數據平臺作為服務于業務的技術平臺,業務能力不應僅僅體現業務功能,也需要體現技術功能,從而才能實現業務元素和技術的有機整合,業務架構為應用架構和數據架構提供關鍵輸入。
平臺的業務功能至下而上,依次是:
(1)數據采集:數據采集包括外網數據采集(如衛星傳感器、耕地紅線視頻監控等),內網數據采集,包括綜合研究數據、調查評價數據、土地規劃數據、災害監測數據以及基礎地理數據等。
(2)數據清洗與入庫:即采用ETL工具,將采集的數據清洗入庫,國土資源大數據平臺構建七大庫,即業務數據庫、知識庫、關系圖數據庫、空間數據庫、決策指標庫、決策模型庫、業務規則庫。
(3)三大基礎服務:分別是數據管理服務,主要致力于數據目錄構建,以及空間數據的管理和分析;影像分析服務,對遙感影像以及視頻圖像進行分析,通過影像來分析地物變化、自動提取地物實體進行矢量化后進行統一管理。決策支持服務,即通過數據分析融合,流程定制、模型組合來實現智能決策與分析。這三個服務本質上都是數據服務和計算服務的統一,需要用到大數據平臺的實時計算與離線計算能力。
(4)四大決策分析:將國土資源智能決策分析能力進一步細分為監管分析、預警分析、決策分析與評價分析,特別說明分析能力的提供是通過服務能力的組合來提供的。
(5)五大應用專題:包括智慧執法、智慧地災、智慧土地、智慧礦產以及生態保護專題應用。
(6)四大集成方式:國土資源大數據平臺提供數據沙箱、頁面集成、接口調用以及智能推送能力。
國土資源大數據平臺應用架構設計
應用架構來自于業務架構的導入。應用架構的設計工作包括識別應用功能、定義應用劃分、確定應用系統邊界、界定應用風格、明確應用分布,形成應用架構藍圖。應用架構需要依據業務需求,抽取關鍵用例,通過系統分析,建立應用與業務能力之間的映射關系。
應用架構需要綜合考慮業務流程的連續性,業務數據的完整性與流動性,對應用功能進行邏輯組合與劃分根據應用合并與重組的原則,將國土資源大數據平臺進一步劃分為四大應用平臺:
(1)大數據管理平臺:下設數據采集與匯聚子系統,用以實現國土資源各類數據的采集與匯聚,平臺分析子系統、平臺查詢子系統、平臺管理子系統與平臺運維子系統。
(2)影像基礎服務平臺,用以開展基于各類不同傳感器、不同分辨率、不同光譜遙感影像通過深度學習提取地物信息服務
(3)數據共享開放平臺,實現數據的共享與交換,包括數據質檢、數據目錄、共享交換與日志管理等。
(4)門戶平臺:開發建設綜合門戶、實現資源匯聚和權限管理。
國土資源大數據平臺數據架構設計
數據架構來自于業務和應用需求,在設計中重點考慮了兩個關鍵點:一是基于統一的數據管理視角,以應用對國土資源數據進行組織和規劃,提高跨系統間數據存貯和共享的效率;二是從數據資產管理的角度,對整個數據生命周期中數據的處理、存貯、轉換、整合制定策略、模型、流程以及支持這些策略、模型、流程的技術架構方案。
為了有效地管理多源化的國土資源數據,在數據架構設計中引入了元數據管理平臺,實現對數據的統一管理。通過元數據管理平臺對大數據平臺中各類業務數據、基礎數據、影像數據進行管理,從而實現對應用的全面支撐。
在數據應用落地的具體過程中,將國土資源大數據最重要的綜合研究、調查評價、土地規劃、變更數據、遙感影像、基礎地理、國民經濟、社會發展、地質調查、災害監測等數據通過采集至貼源數據區,并使用ESB總線對以上數據提供實時的訂閱、發布、管理服務。在貼源數據區中,使用ETL組件及工作流將數據進行整合,通過數據清洗規則對數據進行清洗,最終將部分具有實時計算需求屬性的數據導入預加載預計算區域,支撐快速數據查詢及展示。
另一方面,通過數據目錄將業務數據組成各類體系、模型、規則,通過業務、時間、詳細程度將基礎數據進行分類,兩類數據集合成為主題數據,采用面向主題、時間、主題模型等方式進行存儲,最終形成面向不同專題應用的國土資源數據集市。
國土資源大數據平臺技術架構設計
平臺技術架構則重點關注支撐國土資源大數據智能決策應用所需的信息化技術和基礎設施平臺,識別關鍵技術組件、定義技術標準體系,為應用架構、數據架構提供技術支撐。為了確保技術先進、成熟、開放與成長性,國土資源大數據平臺中的主要技術組件均基于業內成熟的開源框架進行搭建,集成和擴展實現了數據接入、數據處理、數據共享與開放、數據挖掘等一體化的技術支撐。
技術架構說明如下:
1.數據接入層:解決本平臺所需的各類數據接入問題。包括采用外網爬蟲服務以獲得外網數據,通過空間數據訪問服務以獲得空間數據,通過ETL/SQOOP獲得業務數據以及視頻數據。通過FLUME獲得日志數據。
還有指標和模型數據需要采集入庫,考慮到數據采集與入庫可能存在性能上的差異,采用kafka消息中間件進行處理。同時還提供各種數據轉換入庫的規則配置,各種采集策略及模板配置等。
2.數據存儲層:通過接口方式解決各類數據的存儲問題。關系型數據庫寫入Postgrel,地圖數據庫寫入HDFS/HBASE,索引數據寫入Elastic Search,圖關系數據庫寫入Neo4j,交互式分析采用Pig/Hive/Impla。
3.數據訪問層:提供數據訪問接口,以實現對各類數據的訪問。
4.計算能力層:提供流式計算組件、批處理計算組件、并行計算組件、SmartBI建模、資源調度與管理組件、性能監控等。
5.機器學習層:提供傳統機器學習與深度學習能力,實現數據標注、模型訓練、特征提取、模型預測、模型評估、參數調優的能力。
6.技術組件層:提供公共技術支撐組件,包括流程與表單管理、決策支持管理、可視化分析管理、多源數據融合、視頻分析、空間分析、特征識別與提取、圖譜計算、高性能渲染等。
7.綜合應用層:在上述數據與服務的基礎上,進一步構建智慧執法監察系統、智慧地災管理監察系統以及數據共享與開放業務系統。
本文基于傳統的企業架構設計方法論,針對國土資源大數據的自身特點,對面向智能決策的國土資源大數據平臺的架構進行了多維度、多視角的建模,論述了國土資源大數據平臺的業務架構、應用架構、數據架構以及技術架構,為國土資源大數據價值挖掘提供了技術基礎。