李志華
(甘肅省定西生態環境監測中心 甘肅定西 743000)
環境污染治理事關國家發展,相關部門提高了環境污染監測標準、加大了對環境監測力度。然而在環境監測過程中仍然存在一些問題,比如監測數據造假、監測力度不夠。這些問題直接影響了環境污染治理問題。如何解決當前環境污染治理中存在的問題,是相關部門急需解決的問題。近年來隨著移動互聯網的不斷發展,無線傳感器應用到環境監測中發揮了重要作用,馬冬[1]使用大數據技術研究了中國再用車排放情況,結果表明中國再用車合格率為89.5%、中國合資與自主品牌車之間合格率差異性較高。李蔚[2]研究了大數據解析技術在環境監測中應用,使用神經網絡算法進行PM2.5 濃度、氣象條件、交通情況、人群流動等特征分析,為環境監測提供了新思路。
熊麗君[3]詳細研究了大數據技術在生態環境領域的應用現狀,指出當前大數據技術在環境監測管理中中國還處于發展階段。目前大數據環境監測管理主要包括數據采集、數據處理、數據分析,數據采集主要使用地面監測、遙感監測、無線傳感器監測;數據處理主要包括數據存儲管理、數據預處理管理、數據深度處理管理以及數據挖掘管理;數據分析包括各種人工神經網絡算法、預測算法應用。關于大數據技術在環境污染治理中的應用目前國內研究較少,本文進行詳細大數據污染治理研究。
環境保護是指人類未解決環境存在問題,協調人類與環境發展關系,保護人類生存資源以及經濟可持續發展的總稱。目前環境保護主要有大氣污染、水污染、土壤污染等。
環境保護手段主要有環境監測、環境治理,環境監測是對環境指標進行檢測,根據檢測結果進行環境污染情況進行評價;環境治理是采用各種技術對已污染的環境進行修復降低環境污染程度。本文重點分析環境監測在環境保護中作用。環境監測在環境保護中的作用體現在:(1)能為環境保護提供數據支撐,目前環境保護制定了國家標準、行業標準、企業標準,這些標準中規定了環境污染的指標,環境監測為環境污染指標提供數據。(2)為環境規劃提供決策數據,隨著國民經濟不斷發展,中國環境保護工作不斷提升,對環境規劃提出了更高要求。環境監測為環境規劃提供了數據源[4]。
本文在現有的環境污染基礎上進行問卷調查,得到基于大數據的環境污染治理系統包含功能主要有:環境污染治理系統管理、環境污染治理設備管理、環境污染治理數據采集管理、環境污染治理數據預處理、環境污染治理數據分析管理、環境污染預警管理、環境污染數據統計管理、環境污染決策管理。環境污染治理系統包含功能有:環境污染治理系統權限管理、環境污染治理系統人員管理、環境污染治理數據安全管理;環境污染治理設備管理包括環境設備信息添加、環境設備信息查看、環境設備信息刪除、環境設備信息修改、環境設備使用添加管理、環境設備使用修改管理、環境設備使用挖掘管理;環境污染治理采集管理包括傳感器采集管理、人員采集管理、大數據存儲管理;環境污染數據預處理包括預處理規則設置、預處理分析;環境污染治理分析包括智能算法應用、分析結果顯示;環境污染預警管理包括預警提示、預測設置;環境污染治理統計包括信息查詢、信息分析;環境污染決策管理包括決策信息添加、決策信息生成。
環境污染治理中數據存儲是關鍵技術,目前常見的開源數據存儲框架為Hadoop,該框架中核心功能模塊為HDFS、MapReduce,HDFS 主要用于存儲環境污染數據,使用非結構化數據結構;MapReduce 是分布式計算,非常適合環境監測數據管理,兩者結合使用提高了環境監測管理數據存儲能力。圖1 為基于大數據的環境污染架構圖。

圖1 基于大數據的環境污染架構圖
圖1 可知基于大數據的環境污染包括了數據采集、數據存儲、數據管理、數據挖掘、數據分析等功能。數據源是將分布在各地的環境監測設備采集信息獲取存儲,進行分析,從而獲取有價值的數據為后續數據分析提供數據源。數據采集結構包括結構數據、非結構化數據(主要有平臺運行日志、設備采集日志、設備采集文字、圖片等信息)。數據存儲層中是構建分布式文件系統(HDFS),能實現海量的環境監測數據存儲,滿足非結構化存儲,此外還具有強大的容量可擴展性,能夠實現文件自動備份、遷移。數據計算層中使用MapReduce 框架進行分布式計算,采用單元計算,最后合并結果,實現了快速計算、吞吐量大、擴展性計算強的功能。此外利用Spark 技術能夠降低內存讀取效率,提高數據分析效率。數據服務層是進行數據挖掘功能,利用實時決策、機器學習等技術進行環境監測數據分析,為環境治理提供決策。
環境監測設備分布在各地,使用分布式管理系統非常適合,HDFS 用于環境監測數據存儲具有較高的容錯性和可用性。HDFS 系統中使用一個主控節點NameNode 和多組DataNode 節點,NameNode 節點主要進行環境監測數據文件名管理,DataNode 主要存儲環境監測數據,圖2 為環境監測HDFS 結構圖。所設計的環境監測分布式系統提供文件操作類,可進行文件讀寫、文件關閉等功能。所設計的存儲管理類中提供Path 路徑類,實現數據存儲路徑管理。Path 類中提供參數配置變量,變量值存儲于開源數據庫SQLite 數據庫中。Path 中提供文件讀函數,能夠進行設備檢測數據讀操作,為提高設備讀效率本文使用Java 多線程技術進行數據讀操作。Path 類中提供文件寫操作,完成操作后使用CloseStream()方法進行數據流關閉。

圖2 環境監測HDFS結構圖
所設計的環境監測數據預警系統是由權限管理、安全認證、技術層組成。技術層中主要包括環境監測場景應用、運行數據層、核心能力層以及數據采集層組成,圖3 為環境監測數據預測管理結構體系。

圖3 環境監測數據預測管理結構體系[5]
環境監測場景應用主要進行數據網關管理;運行數據層主要進行數據清洗、數據建模、數據分析、數據查詢;核心能力層主要包括Hadoop 集群、云存儲、數據庫管理;數據采集層主要包括歷史數據管理、監測數據管理。安全認證管理使用iPaas 認證管理技術。權限管理采用權限管理機制進行管理。
環境監測數據異常數據方法可使用文獻[5]中提供樣本數據處理公式進行處理。
假設存在n 個環境監測數據屬性值,用符號m 表示環境監測數據維度,用符號S(t0)表示設備tk時刻采集數據的樣本。根據設備性能,得到剔除異常數據方法可使用公式1 所示方法。

式中:SC(t-1)表示-1時刻設備運行數據;r(SC(t-1))表示設備采集數據結果。
大數據應用以環境污染治理為目的。環境污染治理中應根據國家、人民需求進行大數據應用方法制定,從而實現環境污染治理信息傳播、交流。綜合各地環境因素、經濟指標等進為環境污染治理提供準確的治理信息。