沈文淵,吳也正,魏恒,繆青
(江蘇省蘇州環(huán)境監(jiān)測中心,江蘇蘇州,215004)
環(huán)境污染已經(jīng)成為影響人們健康生活的重要問題之一,隨著環(huán)境污染種類的增多,污染成分也更加復(fù)雜,不僅包括傳統(tǒng)的大氣污染、海洋污染、水土污染、糧食污染等,還包括光污染、噪聲污染、輻射污染等,為人們的健康安全帶來了惡劣影響。因此,加強環(huán)境污染的防治和保護成為重要的工作,由于污染區(qū)域、成分、后果都比較復(fù)雜,傳統(tǒng)的人工管理模式已經(jīng)無法適應(yīng)需求,政府機構(gòu)或企業(yè)組織開始在環(huán)境污染防治中引入先進的信息技術(shù),開發(fā)和部署了許多的信息系統(tǒng),比如污染數(shù)據(jù)監(jiān)控系統(tǒng)、環(huán)境污染預(yù)測系統(tǒng)等,這些應(yīng)用軟件引入了數(shù)據(jù)庫、物聯(lián)網(wǎng)等關(guān)鍵技術(shù),有效地提升了環(huán)境污染防治信息化水平[1]。
目前,環(huán)境污染信息平臺集成的功能越來越多,經(jīng)過多年的運行積累了海量的數(shù)據(jù)資源,這些數(shù)據(jù)中蘊含著有價值的知識信息,可以為人們提供環(huán)境污染防治的決策支撐[2]。因此,本文引入深度學(xué)習(xí)技術(shù),構(gòu)建一個數(shù)據(jù)加工和處理模型,提高環(huán)境污染平臺的智能分析水平,具有一定的意義。
目前,環(huán)境污染平臺經(jīng)過多年的運行,集成的信息功能更多,不僅包括環(huán)境污染監(jiān)控、環(huán)境污染預(yù)警、環(huán)境污染治理、環(huán)境污染影響評估等多個方面,還包括環(huán)境污染預(yù)測等功能。因此,本文對這些應(yīng)用功能進行總結(jié)和歸納,將其劃分為數(shù)據(jù)采集、數(shù)據(jù)傳輸和數(shù)據(jù)存儲等功能,這樣就可以實現(xiàn)環(huán)境污染數(shù)據(jù)的共享。
(1)環(huán)境污染數(shù)據(jù)采集
數(shù)據(jù)采集是環(huán)境污染平臺的基礎(chǔ)功能,人們可以在各個環(huán)境污染采集點部署傳感器,比如硫化物傳感器、二氧化碳傳感器等,采集環(huán)境污染的各種成分數(shù)據(jù),將這些數(shù)據(jù)通過物聯(lián)網(wǎng)和互聯(lián)網(wǎng)傳輸?shù)椒?wù)器。
(2)環(huán)境污染數(shù)據(jù)傳輸
環(huán)境污染數(shù)據(jù)傳輸?shù)姆椒ê芏啵ㄎ锫?lián)網(wǎng)、移動通信、光纖網(wǎng)絡(luò)等。由于環(huán)境污染數(shù)據(jù)采集點分布的比較散亂,每一平方公里都有多個傳感器,因此這些傳感器可能分布于野外、水面、大氣中,因此采集的數(shù)據(jù)傳輸就需要使用物聯(lián)網(wǎng)和移動通信,將其從采集終端傳輸?shù)椒?wù)器。服務(wù)器和各個電腦終端之間的傳輸則可以使用光纖網(wǎng)絡(luò),幫助人們掌握環(huán)境污染情況,數(shù)據(jù)傳輸需要保證高可靠性和高速性。
(3)數(shù)據(jù)存儲
環(huán)境污染平臺保存的數(shù)據(jù)種類非常多,時間久遠,一般都需要保存數(shù)十年的環(huán)境污染數(shù)據(jù),以便人們能夠針對某一個低于的環(huán)境污染情況進行全方位的掌握,避免由于數(shù)據(jù)保存漏洞產(chǎn)生不全面的問題。因此,數(shù)據(jù)存儲可以采用冗余的光纖陣列存儲器,并且可以在不同的地域建設(shè)保存機房,實現(xiàn)數(shù)據(jù)安全存儲。
環(huán)境污染平臺的數(shù)據(jù)非常多,傳統(tǒng)的分析方法已經(jīng)無法滿足高效性需求,因此本文提出引入一個深度學(xué)習(xí)算法,從而可以接收環(huán)境污染平臺數(shù)據(jù),針對這些數(shù)據(jù)進行加工和分析,從中發(fā)現(xiàn)有價值的知識,為環(huán)境污染預(yù)警、治理提供決策支撐[3]。深度學(xué)習(xí)算法是一種非線性模式識別技術(shù),其可以從一堆數(shù)據(jù)中構(gòu)建一個復(fù)雜的、非線性的多變量分析模型,該模型能夠更加真實的模擬現(xiàn)實客觀存在,從而可以全面的、準確的識別結(jié)果。深度學(xué)習(xí)最核心的技術(shù)是卷積神經(jīng)網(wǎng)絡(luò),這是一種數(shù)學(xué)處理方法,在環(huán)境污染平臺中的具體應(yīng)用模型包括多個層次,分別是輸入層、卷積層、池化層、全連接層,這樣就可以增加深度學(xué)習(xí)算法的訓(xùn)練和學(xué)習(xí)深度,從而提高環(huán)境污染數(shù)據(jù)的識別精確度,獲取一個良好的輸出模型,也可以在運行中實時的根據(jù)需求調(diào)整卷積神經(jīng)網(wǎng)絡(luò)參數(shù),動態(tài)的優(yōu)化深度學(xué)習(xí)算法[4]。深度學(xué)習(xí)在環(huán)境污染平臺數(shù)據(jù)分析模型如圖1所示。

圖1 基于深度學(xué)習(xí)的環(huán)境污染平臺數(shù)據(jù)分析流程
深度學(xué)習(xí)在環(huán)境污染平臺數(shù)據(jù)分析中的每一層的功能及作用描述如下。
(1)輸入層。環(huán)境污染平臺存儲的數(shù)據(jù)非常多,防治和保護人員可以從數(shù)據(jù)服務(wù)器中調(diào)取各種數(shù)據(jù),將這些數(shù)據(jù)輸入到深度學(xué)習(xí)算法的輸入層。輸入層針對環(huán)境污染數(shù)據(jù)進行初步的建模和預(yù)處理,比如刪除一些噪聲數(shù)據(jù)或稀疏數(shù)據(jù)等,然后針對環(huán)境污染數(shù)據(jù)進行歸一化處理,以便能夠統(tǒng)一數(shù)據(jù)的量綱,保證數(shù)據(jù)能夠被深度學(xué)習(xí)算法識別和加工處理。
(2)卷積層。卷積層通常包括兩個關(guān)鍵操作,可以實現(xiàn)卷積網(wǎng)絡(luò)的局部關(guān)聯(lián)操作和窗口滑動操作。局部操作可以針對數(shù)據(jù)特征進行過濾,滑動窗口可以完成卷積神經(jīng)網(wǎng)絡(luò)特征的提取,實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)的特征分析,進一步改進卷積神經(jīng)網(wǎng)絡(luò)的準確度。卷積層可以采用的核函數(shù)非常多,比如Sigmoid函數(shù),適用環(huán)境污染數(shù)據(jù)中有價值知識的挖掘分析工作。由于Sigmoid函數(shù)擁有很強的收斂性,因此可以在很短的時間內(nèi)獲取數(shù)據(jù)挖掘結(jié)果,避免過度擬合現(xiàn)象發(fā)生,可以大幅度提高數(shù)據(jù)分析準確度。
(3)池化層。池化層可以壓縮卷積神經(jīng)網(wǎng)絡(luò)處理的數(shù)據(jù)量,同時還可以減少網(wǎng)絡(luò)設(shè)置的參數(shù)數(shù)量,避免卷積神經(jīng)網(wǎng)絡(luò)計算和處理時過度擬合。具體的,在卷積層處理的結(jié)果上,神經(jīng)網(wǎng)絡(luò)可以獲取環(huán)境污染數(shù)據(jù)的基因特征,這些特征數(shù)據(jù)采取池化操作之后就可以計算某一個局部卷積特征平均值,也可以計算最大值或最小值,利用這些值可以針對卷積層獲取的特征數(shù)量進行過濾,從而可以降低分類器的計算復(fù)雜度,充分的減少過度擬合發(fā)生的概率。
(4)全連接層。全連接層是一個分類器,其可以將神經(jīng)網(wǎng)絡(luò)經(jīng)過學(xué)習(xí)和訓(xùn)練的結(jié)果輸出到全連接層,全連接層可以構(gòu)建一個圖形化的顯示模式,該模式能夠按照需求輸出每一個期望的知識信息,比如大氣污染的成分、某地區(qū)易發(fā)生的污染事故、某一個時間段即將發(fā)生的環(huán)境污染事故等,從而為環(huán)境污染防治和保護提供準確的決策。
為了能夠驗證深度學(xué)習(xí)算法的有效性,本文從環(huán)境污染平臺中獲取了近兩年的環(huán)境污染數(shù)據(jù),同時引入人工處理方法、支持向量機算法和K-means算法作為對比。具體的,環(huán)境污染數(shù)據(jù)共計100萬份,這些污染數(shù)據(jù)中有二氧化硫、工業(yè)廢氣、工業(yè)氮氧化物、工業(yè)煙粉塵、二氧化氮、一氧化碳等污染成分,提取這些數(shù)據(jù)污染成分的特征高達數(shù)萬個,詳細數(shù)據(jù)如表1所示。

表1 環(huán)境污染數(shù)據(jù)集詳細信息
本文針對每一種方法都進行了100次試驗,取這100次試驗的平均值為比較數(shù)據(jù),人工處理方法的準確度為64.8%,支持向量機算法的準確度為84.7%,K-means算法的準確度為81.6%,深度學(xué)習(xí)算法的準確度為98.5%,同時深度學(xué)習(xí)算法的處理時間也最短,遠遠的超過了人工處理時間,因此可以更快的獲取環(huán)境污染數(shù)據(jù),同時對未來的環(huán)境污染數(shù)據(jù)走勢進行預(yù)測,以便環(huán)境污染保護人員開展工作。詳細數(shù)據(jù)如表2 所示。

表2 各個算法實驗結(jié)果
環(huán)境污染防治是一項系統(tǒng)的、復(fù)雜的工程,其需要全社會共同參與和努力,同時引入更加先進的信息化平臺,實現(xiàn)環(huán)境污染數(shù)據(jù)的采集、分析、預(yù)警、治理和保護,以便能夠提高環(huán)境污染監(jiān)控和保護的實時化,具有重要的作用和意義。本文詳細地分析了環(huán)境污染平臺數(shù)據(jù)處理工作內(nèi)容,引入先進的深度學(xué)習(xí)技術(shù),基于卷積神經(jīng)網(wǎng)絡(luò),利用先進的Sigmoid函數(shù),提高算法的處理速度和收斂性,從而可以獲取一個準確的環(huán)境污染數(shù)據(jù)處理結(jié)果,與傳統(tǒng)的人工數(shù)據(jù)處理方法、支持向量機算法、K-means算法相比,實驗結(jié)果顯示深度學(xué)習(xí)算法大幅度提高處理精確度,可以為環(huán)境保護工作提供更加精準的預(yù)測,也可以為污染防治提供更加有力的支持。未來,環(huán)境污染平臺將會持續(xù)改進數(shù)據(jù)處理算法,以便提高污染數(shù)據(jù)處理的實時化、精準化和智能化,同時還要提供數(shù)據(jù)處理的便捷化。