王世海
摘要:分析了遼寧省環境數據現狀,通過環境數據中心建設,將環境業務數據庫進行集中存放,并對環境數據進行清理,有效整合,定義了統一的環境信息數據標準。集成了數據中心、數據交換平臺、數據共享平臺、數據管理平臺和數據分析平臺,為環境業務系統提供數據服務。
關鍵詞:環境數據中心;數據標準;數據服務
中圖分類號:X3
文獻標識碼:A 文章編號:16749944(2014)06021403
1 引言
隨著環境問題的日益突出,社會公眾對環境質量訴求不斷提高,環境保護部門對于環境監管的手段在不斷創新,環境業務系統的建設,為環境監管提供了有力支持。但是自成體系的業務系統,互不關聯的數據庫,造成了“數據孤島”現象非常突出,缺乏統一的數據標準使得數據整合極其困難。
遼寧省環境數據中心是基于現有的軟硬件和網絡環境構建對環境數據資源進行集中、清理、分析、共享和挖掘的數據管理中心,可有效解決環境“數據孤島”問題,提高環境數據的綜合價值,為遼寧省環境監管和決策,提供有效的數據支撐。
2 環境數據中心設計
數據中心體系結構包括6層次和3個體系,6個層次為:基礎設施層、數據源層、數據層、業務支撐層、邏輯層和訪問層;3個體系為:信息資源標準體系、安全管理體系和運維管理體系(圖1)。數據中心系統各部分具體描述如下。
圖1 數據中心總體架構設計
2.1 基礎設施層
基礎設施層包括環境信息數據中心平臺系統的網絡環境、網絡中平臺所涉及到的軟硬件環境,以及依賴于這些軟硬件環境的監測系統。
2.2 數據源層
數據源層包括本項目所有蘊含的業務數據,數據源層中各個部分數據存儲在各個部門的各個系統中,通過數據交換平臺,將各個系統的數據傳輸到數據中心。具體包括:污染源數據、環境質量數據、核與輻射數據、應急管理數據、生態環境數據、機動車尾氣檢測數據、環統數據、污普數據、總量減排數據、環境空間數據和非結構化數據。
2.3 數據層
數據層由加工存儲區、數據交換區和數據操作區組成。
(1)數據存儲區:主要包括元數據庫、主數據庫、分類及代碼數據庫、空間數據庫、整合庫、主題庫和分析庫。
(2)數據操作區:主要通過ETL技術,將數據源層的數據進行抽取、轉換、審核和加載。
(3)數據交換區:通過數據交換總線,將各部門、各業務系統的數據,加載到數據層加工存儲區進行存儲。
2.4 業務支撐層
業務支撐層由3部分組成:公共服務層、業務服務層和數據管理層。
(1)公共服務層:通過企業服務總線向外提供的日志服務、空間服務、數據共享服務、事務服務、報表服務、查詢服務和其它服務。
(2)業務服務層:主要包括主題分析、綜合分析、靈活查詢、趨勢預警、輔助決策、環境監測管理、指標查詢、告警管理、報表報告管理、日志管理、權限管理和系統管理服務,對于新業務的擴展和新功能的提供,都可以通過業務服務層的封裝而提供。這一部分的內容,既提供給平臺業務層調用,也支持其它系統通過規定的方式訪問。
(3)數據管理層:實現了對數據管理功能的封裝,通過調用數據管理層中的功能對外提供數據操作能力。這些功能包括:數據模型管理、主數據管理、元數據管理、資源分類及代碼管理、數據質量管理、備份管理。
2.5 邏輯層
邏輯層以業務的視角歸集了系統中的業務功能,把業務上相互聯系緊密,有直接關系的功能組合在一起,形成有業務意義的業務模塊,提供給用戶或其他系統,通過Web或服務接口使用這些功能。邏輯層在實現自身功能的時候,需要調用業務支撐層中的各種服務和操作。以SOA的架構,將業務支撐層中所提供的內容組合成對用戶或其他系統有意義的功能。用戶和外部系統可以通過Web界面或Web Service的方式訪問業務邏輯層的功能。而在經過邏輯層SOA整合后,邏輯層對其以下的業務支持層和更低層功能(如:系統和網絡監控)的訪問,均以Web Service方式為基礎,在Web Service確實無法滿足要求的時候(如:傳輸效率和處理性能的要求),才可以考慮以其他透明、公開的協議和方式訪問更基礎的功能。
2.6 訪問層
提供給遼寧省環境保護廳用戶的用戶訪問界面,包括:應用門戶、移動終端和智能手機。可通過統一身份認證,將各個應用系統進行集成,不需反復登錄即可訪問全部分配的系統功能。
2.7 信息資源標準體系
信息資源標準體系主要包括環境信息分類和編碼、環境信息傳輸與交換、數據質量控制等技術規范以及數據資源共享、應用服務、運行維護、數據更新等管理辦法的制定與執行。
2.8 運維管理體系
環境信息數據中心項目建設完成后的對系統的運行維護保障策略、人力資源與管理制度等。
2.9 安全管理體系
環境信息數據中心項目中建設的信息安全系統主要包括保證系統的安全策略、安全設備產品、人力資源與安全管理制度等。
3 環境數據中心建設
3.1 環境信息數據中心
按照業務邏輯和系統功能進行層次劃分為數據源層、數據采集層、數據整合層、數據主題層、數據分析層(圖2)。
3.1.1 數據源層
數據源層主要指現有和將要建設的各個業務系統的數據源信息,主要包括污染源自動監控數據源、環境統計數據源、排污申報收費數據源、建設項目管理數據源、總量減排數據源、污染源普查數據源、水環境質量數據源、空氣質量數據源、噪聲環境質量數據源、輻射環境質量數據源、水專項數據源和非結構化數據。
3.1.2 數據采集層endprint
數據采集層主要包括結構化數據采集和非結構化數據采集模塊,及臨時數據交換區。
3.1.3 整合層
整合層由生產數據存儲區、空間數據存儲區和元數據存儲區組成。
3.1.4 主題層
主題層按照主題進行數據劃分,主要包括數字環保主題域和水專項主題域。其中數字環保主題域劃分為環境質量子主題域、污染源子主題域和總量控制子主題域,水專項主題域劃分為環境應急子主題域、M2M子主題域和水環境子主題域。
3.1.5 分析層
分析層包含環境質量分析、污染源分析、多維耦合分析和水專項專題分析4大主題和公共維度。
3.2 數據庫分析
建立綜合分析管理模塊,從業務角度劃分,構建了針對污染源建立的分析模型、針對環境質量建立的分析模型、針對污染源與環境質量關系建立的分析模型、針對水專項建立的分析模型。
通過建立分析模型,按照數據倉庫和挖掘技術進行建模,按照層次進行數據整合、沉淀和匯總。將數據從源業務系統數據庫同步到采集層數據交換區中,此時的數據結構與源業務系統數據結構一致,首次存儲全業務數據,之后,每個周期只存儲周期數據。
ETL系統通過數據清洗與質量審核管理設定的清洗、轉換規則和審核流程,將數據交換區中的增量數據ETL到整合層生產數據存儲區進行存儲,生產數據存儲區中的數據按照業務主體進行劃分。數據進入整合層后,數據已經完成清洗和轉換,可通過數據共享服務,為外界提供數據服務。
數據進入整合層后,完成了數據清洗和轉換,通過ETL系統將數據進行加工,按照分析主題,將數據存儲到主題層中,其中主題層中主題數據區用于存放按分析主題進行劃分和加工的分析數據,代碼數據區用于存放關聯的代碼,此部分內容將在分析層中轉化為分析維度進行存儲和使用。
數據進入主題層后,此刻的數據已經是按照分析主題進行存儲,為分析層數據加工和鉆取做準備,根據系統建設要求,按照時間和空間進行粒度劃分。根據各個部門對分析的需求,按照各個部門的要求劃分不同的集市,這些集市存儲在分析層中,為不同的部門提供不同的分析和鉆取數據,在此層中,參照數據倉庫設計理論,按照維度建模理論,進行維度建模,通過不同維度進行鉆取。
3.3 數據挖掘
通過構建復雜的分析模型,通過抽取、加工、轉化、清洗、展現等數據挖掘工具對環境數據進行挖掘。在該系統中數據挖掘與數據倉庫技術進行有效的結合,簡化了數據挖掘的步驟,并且獲取到最全面的數據信息。數據挖掘工具提供數據分析、數據操縱和報表展現的能力,它具有可擴展性、互操作性、易管理性和可用性,增強數據中心的信息智能管理,為輔助決策提供數據支持。
4 遼寧省環境數據中心現狀與展望
4.1 現狀
目前遼寧省環境數據中心,采用了虛擬化、數據倉庫、ETL、BI等先進的技術,實現了多部門多樣化數據集中和共享,整合環保廳20多個業務部門的30多項業務,涵蓋了遼寧省14個地市79個AQI空氣監測站、108個水質手工監測斷面、24個水質自動監測站、76個機動車檢測場和7個核輻射監測站近100項監測指標和監測信息;收納了8萬家左右污染源普查企業,6339家工業污染源,包含國控污染源495家;收納了全省103個自然保護區信息、21個生態市縣及205個生態鄉鎮建設信息,實現了數據實時更新和發布。
遼寧省環境數據中心共建設1500余張數據表,24個分業務模型,近300個ETL作業,每小時數據流入量超20萬,外部業務系統訪問10個,數據視圖和WEBSERVICE數據共享接口共400多個。初步形成了囊括省級環保部門全業務的智能化數據中心,建設了污染源、環境質量和環境管理三大業務主題。
4.2 展望
本文主要針對遼寧省環境數據中心建設進行分析,目前環境數據中心已經實現對數據進行集成,但缺乏有效的整合,需要數據中心進一步建設,主要建設內容如下。
(1)對環境數據中心基本信息進行整合。數據中心現有的環境基本信息數據因為數據源的不同存在很大差別,不滿足數據統一要求。在對業務提供數據支持時,存在很多問題,需要創建標準庫,對基礎數據進行有效整合,通過統一的數據接口,為業務系統提供數據服務。
(2)針對大數據進行數據擴展。隨著環保信息化的發展,越來越多的環境數據需要采集,其中包含了大量的非結構化數據,包括文檔、音頻、視頻信息,并且要求省環境數據中心同環保部以及地市環境數據進行共享與交換,對于數據實時性提出更高要求,需要環境數據中心在現有的數據倉庫基礎上針對大數據提供擴展。
(3)對數據深入挖掘,提供輔助決策。數據挖掘是數據中心的核心功能,也是數據中心體現數據價值的關鍵,在業務需求的推動下,環境數據中心要對環境數據深入挖掘,為遼寧省環境信息化、數字化、智能化和立體化管理提供有效支持,為污染減排、污染防治和生態治理提供有效的數據支撐。
參考文獻:
[1] 李 順,徐富春,王利強,等.國家環境數據共享與服務體系研究[J].中國環境管理,2011(2).
[2] 王杰芳.給予環境信息基礎數據庫的綜合業務系統平臺[J].環境科學與技術,2006(12).
[3] 錢 虹.關于建立環境數據中心的思考[J].江蘇環境科技,2003(2).
[4] 劉小茜.月計算數據中心結構及調度機制研究[D].合肥:中國科學技術大學,2011.
Discussion of Establishing Environmental Data Center in Liaoning Province
Wang Shihai
(Liaoning Environmental Monitoring and Control Center, Shenyang 110161, China
)
Abstract: This article analyzes the present environment information of Liaoning Province, and discusses the establishment of environmental data center. Accordingly, the environment database can be stored centrally, and the environmental data can be cleaned up and integrated effectively, so uniform standards for environmental data can be defined. The center integrates with data storage and platforms for exchange, sharing, management and analysis, in order to provide data service for environmental application systems.
Key words: environment data center; data standard; data serviceendprint