盧云霞
?
污染源普查數據的二次開發利用
盧云霞
福州市環保局環境信息中心
對污染源普查原始數據的二次開發利用途徑包括:進行數據抽取、轉換和裝載,建立重點污染源檔案和普查數據庫;對數據進行分析、加工、處理和深度挖掘;完成基于普查大類、分行業、分地區、分流域、分規模為基礎的主要污染物指標普查匯總數據信息發布平臺。
污染源 開發利用 普查數據 成果應用
2007年第一次全國污染源普查是我國重大的國情調查,其數據涵蓋了各類企事業單位與環境有關的基本信息,健全了各類重點污染源檔案和各級污染源信息。之后,國家又組織了兩次污染源更新調查(針對2009年和2010年污染源信息),更加完善了各類污染源信息。
筆者全程參與了第一次全國污染源普查及兩次更新調查工作,負責數據處理和普查軟件系統的管理維護方面的工作,并且參與編寫《福州市第一次全國污染源普查技術報告》,該技術報告被國務院第一次全國污染源普查領導小組辦公室評為一等獎。其后又組織開發了“福州市污染源普查成果應用系統”,該系統在國家普查軟件系統基礎上,根據實際的環境管理需求,對污染源普查數據進行二次開發利用,拓展了污染源普查成果的應用層面。
在第一次全國污染源普查及其后的兩次更新調查工作中,數據處理統一使用全國污染源普查工作辦公室組織編制的數據處理軟件。國家提供的軟件主要是用于污染源基礎數據的紙質數據的錄入,數據合理性的審核,數據的編輯、匯總和數據上報的傳輸工作。其中還有專門的軟件校驗和審核程序,保證數據的真實有效。
由于幾次污染源普查及更新調查中使用的是不同版本的軟件及不同的數據庫,且軟件為C/S(Client/Server,客戶機/服務器)模式,對使用者而言不僅要求多次安裝不同版本的程序,且客戶端程序對安裝環境有一定要求,不適用于目前所有在用系統;若需使用網絡版數據,用戶還需進行繁瑣的配置工作;用戶要對比不同年份的污染源數據,需要同時打開不同客戶端,登陸不同服務器才可使用;并且軟件對用戶權限沒有細分,只要能查看數據的人員同時也可以修改數據,對數據的安全造成極大的隱患。另外,國家提供的軟件對使用人員的要求較高,必須是經過充分培訓或有一定的SQL語句編程基礎的專業人員方可進行一些簡單的數據查詢,阻礙了污染源普查成果的進一步推廣應用。
污染源普查及更新調查收集的數據是重要的基礎環境數據,覆蓋了污染源的方方面面。以福州市第一次全國污染源普查為例,共完成污染源普查對象數30154個,包含了各個行業,涉及到各類重點污染物50多種,其中:工業源7403個;規模以上的生活源6738個;集中式治理設施19個;農業源15994個。這些數據量大面廣,但是對于日常的環境管理應用而言,存在著冗余和不直觀缺陷。
要將污染源普查成果方便、直觀、安全地應用到日常的環境管理工作中,需要將污染源普查(更新調查)數據進行抽取、轉換和裝載,建立起統一的污染源普查數據庫及一個面向所有用戶的數據分析與處理平臺。
污染源普查成果二次開發利用目的就是通過對污染源數據的整理、提煉,可以讓用戶直觀地查閱各類污染源的數量和行業、地區、流域的分布;各類污染源排放的主要污染物及其排放量、排放去向,污染治理設施運行狀況、污染治理水平和存在問題等情況;通過對不同年份的數據進行整理,還可以掌握污染源變化的各種趨勢;通過分級建立福州市級與所屬區縣級污染源信息數據庫,方便環境分級管理工作,有助于實現對各自轄區內重點污染源的動態跟蹤、實時監控和總量核算,同時便于梳理存在安全隱患的重點源。通過普查及更新調查建立起的基本單位臺賬和數據庫,還可以直觀地查閱,便于今后更好地開展環境監管工作。
二次開發利用數據處理采用了ETL技術。ETL是數據抽取(Extract)、轉換(Transform)、清洗(Cleansing)、裝載(Load)的過程,是構建數據倉庫的重要一環。ETL能夠按照統一的規則集成并提高數據的價值,是負責完成數據從數據源向目標數據倉庫轉化的過程,是實施數據倉庫的重要步驟。二次開發利用建立的統一普查數據庫是一個面向主題的、集成的、穩定的且隨時間不斷變化數據集合,是整個普查數據分析與處理工作的基礎。
數據處理工作按照以下3個步驟進行:
根據日常環境管理工作需求,將原始數據中所需數據信息提取出,去除冗余字段和大量的噪聲數據,按照統一規則集成,重新編排設計為統一格式的數據字典。
普查數據庫中的數據必須在對污染源普查基礎數據庫原始數據進行數據抽取、清理的基礎上經過系統加工、匯總和整理得到,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關于整個普查信息的一致的全局信息。
抽取:將數據從各種原始的業務系統中讀取出來,這是所有工作的前提。
轉換:按照預先設計好的規則將抽取得數據進行轉換、清洗,以及處理一些冗余、歧義的數據,使本來異構的數據格式能統一起來。
裝載:將轉換完的數據按計劃增量或全部的導入到數據倉庫中。
污染源普查及更新調查原始數據庫中表單近1000份,其中2007年第一次污染源普查表單587份,2009年和2010年更新調查表單各135份;數據字段上萬個。經過數據抽取、轉換、清洗后,留下表單101個,字段3000個左右,分析數據結果972條(不包含污染源基礎信息數據)。用戶可以方便快速的從這些整理加工后的信息中查閱到自己所需的數據。
用戶信息庫統一集成到福州市環保局內網門戶信息系統原有的用戶信息庫,在其中配置污染源普查成果應用相應權限,用戶可通過統一門戶入口共享二次開發利用的污染源普查成果。

圖1 福州市污染源普查數據二次開發技術結構圖
福州市污染源普查成果應用平臺(數據處理與分析平臺)是在充分利用普查現有軟硬件環境的基礎上,采用數據抽取、轉換和裝載技術和網絡技術等高新信息技術手段開發建設的平臺。通過對所形成的污染源普查基礎數據庫進行進一步的分析、加工、處理和深度挖掘,完成基于普查大類、分行業、分地區、分流域、分規模等為基礎的主要污染物指標的普查匯總數據,同時建立福州市污染源普查主題數據庫。
福州市污染源普查成果應用平臺將普查成果便捷、直觀地應用于環境管理工作,進一步拓展了污染源普查數據的應用層面(如圖2)。

圖2
4.1.1按污染源大類(工業源、農業源、生活源、集中式污染源)的普查數據處理和分析;
4.1.2按區域普查數據的處理和分析;
4.1.3按流域普查數據的處理和分析;
4.1.4按行業普查數據的處理和分析;
4.1.5按福州市工業園區普查數據的處理和分析
通過這個平臺,用戶無需復雜專業的設置,只需點擊頁面上的按鈕或鏈接,即可得到日常管理工作中需要用到的大量分析數據。
4.2.1快速查詢各類污染源中產生排放的各類污染物的分析數據,如圖3;

圖3
4.2.2可按產生排放污染物的量的大小,快速查詢企業列表,并查看到企業的詳細信息(企業的基本情況表和這家企業產生的所有污染物信息),更方便管理,如圖4;

圖4
4.2.3可以按污染源大類、分地域、分流域、分行業等不同方式查看比較各類污染物的產生排放分析情況;
4.2.4查詢表現形式多樣,有數據列表和圖表等多種方式,如圖5、圖6;

圖5
圖6
4.2.5可以通過“高級查詢”,選取合適的條件,定制查詢所需分析數據;
4.2.6選取不同年份的污普原始數據,可以比較不同年份污染源污染物的變化趨勢,更方便地實現對重點污染源的動態跟蹤和總量核算。
在污染源普查及更新調查基礎上建立的各類重點污染源檔案和各級污染源信息數據庫資料,有利于全面分析福州市污染源的基本情況和存在問題,為環境管理和科學決策提供依據。
污染源普查二次開發利用工作,充分利用污染源普查數據及更新調查成果,借此可以深入了解福州市工業、農業、生活等污染源的排放和分布情況,準確了解分析污染物排放情況,正確判斷環境形勢,科學制定環境保護政策和規劃,有效實施主要污染物排放總量控制計劃,對于切實改善環境質量,提高環境監管和執法水平,保障環境安全,加強和改善宏觀調控,促進經濟結構調整等都有著十分重要的意義。
[1] 福州市第一次污染源普查技術報告,2009.
[2] 張寧,賈自艷.數據倉庫中ETL技術的研究[J]. 計算機工程與應用,2002,38(24):213-216 .