汪祖民 張嘉峰 胡玲艷 鄒啟杰 蓋榮麗 劉 艷
(大連大學(xué)信息工程學(xué)院 遼寧 大連 116622)
中國經(jīng)濟的快速發(fā)展和城市化進程的加快,伴隨著高能耗和污染物的過度排放,對空氣造成了嚴(yán)重污染,阻礙了城市地區(qū)的可持續(xù)發(fā)展[1-2]。尤其在京津冀以及周邊地區(qū),由于重化工產(chǎn)業(yè)的高度聚集,該范圍內(nèi)主要能源利用方式以煤炭為主,貨物運輸方式以公路汽車運輸為主,這在一定程度上導(dǎo)致了大氣污染物的排放量大幅上升。PM2.5是主要的空氣污染物,是現(xiàn)階段中國霧霾治理的重點,對人體健康具有較大的危害,成為了公眾較為關(guān)注的問題[3]。PM2.5的濃度受到城市空間形態(tài)、土地利用布局和不利氣象因素等影響[4],長期暴露在受污染的大氣中會增加患心血管和呼吸系統(tǒng)疾病的風(fēng)險[5]。為此,中國政府在大多數(shù)城市設(shè)立了空氣質(zhì)量監(jiān)測站,并用于實時檢測PM2.5和其他空氣污染物濃度。然而,由于設(shè)備昂貴,政府不可避免地需要承擔(dān)較大的財務(wù)負(fù)擔(dān)。除了對PM2.5進行監(jiān)測以外,對未來空氣質(zhì)量預(yù)測的需求也越來越大。因此,對PM2.5濃度進行在線預(yù)測對于空氣污染控制和預(yù)防空氣污染帶來的健康問題至關(guān)重要。尤其是如果能在小樣本下對PM2.5濃度實現(xiàn)較精準(zhǔn)的預(yù)測,很大程度上將會減少政府的財政支出,并有利于各地區(qū)的環(huán)境治理,具有較高的實用價值。
目前,PM2.5的預(yù)測方法主要有模型驅(qū)動和數(shù)據(jù)驅(qū)動的[15]。模型驅(qū)動的方法主要是通過建立數(shù)學(xué)統(tǒng)計模型對PM2.5濃度進行估計,數(shù)據(jù)驅(qū)動的方法主要是通過利用神經(jīng)網(wǎng)絡(luò)、支持向量回歸等方法預(yù)測PM2.5濃度。隨著近年來人工智能與機器學(xué)習(xí)的發(fā)展,人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量回歸(SVR)等方法已較為廣泛地應(yīng)用于空氣污染物濃度的預(yù)測[6]。目前有利用機器學(xué)習(xí)的方法用于預(yù)測區(qū)道路、工廠和公園的空間特征預(yù)測PM10和二氧化氮的濃度[7]的相關(guān)研究,也有相關(guān)研究利用周邊監(jiān)測站的觀測數(shù)據(jù),使用SVR模型預(yù)測目標(biāo)站的PM2.5濃度[8]。雖然上述方法都利用了影響污染物濃度的空間特征,但沒有考慮空氣污染物的時間相關(guān)性和PM2.5的時延特征。由于大氣環(huán)境的動態(tài)特性,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)可以處理任意輸入序列,從而保證了學(xué)習(xí)時序的能力,特別適合模擬空氣污染物分布的時間演化。Ong等[9]使用氣象數(shù)據(jù)作為輸入?yún)?shù),輸入至RNN中來預(yù)測PM2.5濃度。Feng等[10]結(jié)合隨機森林(RF)和RNN對中國杭州未來24小時空氣污染物PM2.5濃度進行了分析和預(yù)測。然而,傳統(tǒng)RNN存在較長時間滯后,并且可能會出現(xiàn)梯度消失和梯度爆炸等問題,這些基于RNN的方法也沒有充分利用空間特征。此外,特征形成的狀態(tài)在不同時間對未來PM2.5濃度也會產(chǎn)生不同的影響[11]。現(xiàn)有的研究較少考慮過去不同時期的特征狀態(tài)對空氣污染物的影響,只是提取了歷史數(shù)據(jù)的時間相關(guān)性特征。目前,在小樣本下數(shù)據(jù)驅(qū)動的方法在預(yù)測PM2.5濃度時準(zhǔn)確率較低,并且相關(guān)研究較少。為了解決上述難題,本文提出了基于生成對抗網(wǎng)絡(luò)模型的PM2.5的在線預(yù)測方法,利用生成器和判別器之間的博弈過程,建立了以生成器預(yù)測為主,判別器判別為輔的新型PM2.5的預(yù)測模型,并在生成器中加入了長短期記憶網(wǎng)絡(luò)用于提取輸入數(shù)據(jù)的時序特征,相比于其他的基于數(shù)據(jù)驅(qū)動的PM2.5預(yù)測方法,本文提出的方法在小樣本數(shù)據(jù)集上具有更高的準(zhǔn)確率,并具備較好的應(yīng)用價值。
GAN包含了兩個網(wǎng)絡(luò)模型[12],分別是生成器G和判別器D,兩者處于對抗博弈的狀態(tài)。在對抗的過程中,生成器可以扮演著一個騙子的角色,生成與真實數(shù)據(jù)相似的數(shù)據(jù),通過生成假的數(shù)據(jù)去欺騙判別器。而判別器則充當(dāng)著法官的角色,將真實數(shù)據(jù)與生成數(shù)據(jù)進行區(qū)分。理論上來說,判別器和生成器可以達(dá)到納什均衡,即判別器無法區(qū)分真實數(shù)據(jù)和判別數(shù)據(jù),生成器也生成接近于真實樣本的數(shù)據(jù)。基于這一原理,我們提出了基于GAN的PM2.5的預(yù)測模型。
GAN的目標(biāo)函數(shù)V(G,D)如式(1)所示。
V(G,D)=Ex~Pdata[logD(x)]+Ez~Pz[log(1-D(G(z))]
(1)
式中:z為服從于先驗分布;Pz為隨機噪聲;x為服從真實數(shù)據(jù)分布Pdata的真實數(shù)據(jù);D(x)表示真實數(shù)據(jù)x在判別器下的判別結(jié)果為真的概率;D(G(z))為G(z)在判別器下的判別結(jié)果為真的概率。
在G的訓(xùn)練過程中,G盡可能地使D(G(z))趨于1,即讓目標(biāo)函數(shù)盡可能地取到最小值。在D的訓(xùn)練過程中,D盡可能地使D(G(z))趨于0,讓D(x)趨近于1,即讓目標(biāo)函數(shù)盡可能地取到最大值。
通過構(gòu)建的生成器和判別器模型,本文提出了基于GAN的PM2.5預(yù)測模型,該模型如圖1所示。時間序列數(shù)據(jù)輸入到生成器中,生成器輸出PM2.5的預(yù)測值。PM2.5的真實值和生成器的預(yù)測值一起輸入到判別器中,判別器通過比較生成器的預(yù)測值與真實值的真假,然后將誤差反傳至生成器。定義生成器G的損失和判別器D的損失來優(yōu)化目標(biāo)函數(shù)。在構(gòu)建生成器的損失函數(shù)時,除了原始GAN的生成器損失,還加入了MSE損失函數(shù)。生成器和判別器的損失函數(shù)如式(2)-式(5)所示。

圖1 基于GAN的PM2.5預(yù)測模型
(2)
(3)
(4)
Gloss=λ1gMSE+λ2gloss
(5)
式(5)中:判別器G的損失函數(shù)由gMSE和gloss兩部分組成;λ1和λ2為手動設(shè)置的超參數(shù),考慮到gMSE和gloss在Gloss中的比重應(yīng)當(dāng)相同,因此λ1和λ2均為0.5。
由于LSTM[13]具有較強的時序特征提取能力,將LSTM網(wǎng)絡(luò)加入到GAN的生成器中,換句話說,就是把LSTM作為生成器。
本文從KnowAir數(shù)據(jù)集[14]中選取了中國京津冀地區(qū)13個城市的歷史空氣數(shù)據(jù)。由于PM2.5中含有硝酸銨的成分,溫度和硝酸銨會產(chǎn)生化學(xué)效應(yīng),隨著溫度和濕度的升高有助于硝酸銨的揮發(fā),因此溫度和濕度都與PM2.5呈正相關(guān)[16];風(fēng)速與旋渦狀態(tài)有助于PM2.5濃度在空氣中發(fā)生水平擴散和垂直擴散,因此風(fēng)速和旋渦狀態(tài)都與PM2.5呈負(fù)相關(guān)[14-17];降水對于PM2.5來說呈阻力作用,會產(chǎn)生濕清除和向下氣流,因此降水量與PM2.5濃度呈負(fù)相關(guān)[18]。利用PM2.5濃度值、時間、溫度、濕度、風(fēng)速、降水量和旋渦狀態(tài)等數(shù)據(jù)作為輸入用于預(yù)測PM2.5的濃度變化。假設(shè)輸入的矩陣X={x1,x2,…,xt},X表示由t個時間點的數(shù)據(jù),其中x1,x2,…,xt分別表示在t個時間點內(nèi)的PM2.5濃度值、時間、溫度、濕度、風(fēng)速、降水量和旋渦狀態(tài)等數(shù)據(jù)。


圖2 PME-GAN生成器結(jié)構(gòu)圖
生成器的輸出如式(6)和式(7)所示。
ht=g(X)
(6)
(7)
式中:g(·)為LSTM的輸出,在輸入為X={x1,x2,…,xt}時,LSTM的輸出為ht;δ表示ReLU激活函數(shù);Wh和bh分別表示全連接層中的權(quán)值和偏置。為了防止過擬合,加入了dropout作為正則化方法來避免過擬合的出現(xiàn)。


圖3 PME-GAN判別器結(jié)構(gòu)圖
D(Xfake)=σ(d(Xfake))
(8)
D(Xreal)=σ(d(Xreal))
(9)
式中:d(·)為MLP的輸出;σ為sigmoid激活函數(shù)。真實數(shù)據(jù)和假的數(shù)據(jù)輸入到判別器中,最終得到一個標(biāo)量,即為判別器的判別結(jié)果。
從KnowAir數(shù)據(jù)集[14]中選取了京津冀地區(qū)13個城市的歷史空氣數(shù)據(jù),由于這13個城市均為中國空氣污染較為嚴(yán)重的城市,且單獨抽取這13個城市的數(shù)據(jù)后,獲得的數(shù)據(jù)集較少,研究小樣本下對PM2.5進行準(zhǔn)確的預(yù)測具備較高的實用價值。與此同時,從13個城市的數(shù)據(jù)集中選取了2015至2018年間的空氣數(shù)據(jù)。在劃分?jǐn)?shù)據(jù)集時,分別將2015年1月至2017年12月三年的數(shù)據(jù)用于訓(xùn)練,并用2018年1月至12月的數(shù)據(jù)用于測試,即訓(xùn)練集和測試集之比為3∶1,并對數(shù)據(jù)進行歸一化處理,如式(10)所示。
(10)
式中:μ和τ分別表示X的均值和方差。
在訓(xùn)練PME-GAN時,為了防止出現(xiàn)判別器或者生成器任意一方出現(xiàn)局部最優(yōu)的情況,判別器和生成器交替迭代,判別器每迭代一次后,生成器隨后迭代一次,如此重復(fù),直至PME-GAN的模型訓(xùn)練穩(wěn)定為止。在實驗中epochs設(shè)置為2 000,batchsize的大小為64,LSTM各層的神經(jīng)元個數(shù)為8,dropout值為0.1。
在PME-GAN的訓(xùn)練過程中,實驗中判別器和生成器的loss曲線分別如圖4和圖5所示。由兩個loss曲線可以看出,判別器和生成器處于對抗迭代的狀態(tài),隨著訓(xùn)練次數(shù)的增加,生成器和判別器的loss曲線不斷震蕩,生成器和判別器在對抗訓(xùn)練中得到了優(yōu)化,模型變得穩(wěn)固。

圖4 判別器loss曲線

圖5 生成器loss曲線
為了驗證提出的方法的有效性與優(yōu)越性,與其他主流的數(shù)據(jù)驅(qū)動方法做了對比實驗。分別利用GRU、LSTM、CNN-GRU、CNN-LSTM四種不同的模型與PME-GAN進行實驗,在保定測試集上的PM2.5預(yù)測結(jié)果如圖6-圖10所示。保定為京津冀的重要城市之一,由于集中供熱缺乏,較多居民用散煤取暖,因此空氣污染較為嚴(yán)重,并且單獨針對保定空氣污染的研究較少[19]。圖6-圖10可以更加清晰地呈現(xiàn)出各個方法的預(yù)測效果,可以看出,本文模型的實驗結(jié)果要明顯地優(yōu)于其他4個模型,在擬合程度上,PME-GAN能夠更精準(zhǔn)地預(yù)測出PM2.5的變化趨勢。由于本文只采用了京津冀地區(qū)13個城市的數(shù)據(jù)用于訓(xùn)練和測試,數(shù)據(jù)量較少,雖然在PM2.5的濃度值上各種方法并不能預(yù)測的很精準(zhǔn),但是本文的方法能夠通過前三年的訓(xùn)練數(shù)據(jù)較為準(zhǔn)確地預(yù)測出后一年的PM2.5變化趨勢。

圖6 LSTM方法在保定測試集的實驗結(jié)果

圖7 GRU方法在保定測試集的實驗結(jié)果

圖8 CNN-LSTM方法在保定測試集的實驗結(jié)果
為了更加直觀地刻畫出各種方法的預(yù)測準(zhǔn)確率,本文引用了RMSE和MAE兩種評價指標(biāo),用于評價各模型的預(yù)測效果,RMSE和MAE的計算如式(11)和式(12)所示。
(11)
(12)


表1 不同方法在測試集上的RMSE和MAE對比(%)
通過表1中的結(jié)果,可以得出PME-GAN在5種模型中RMSE和MAE均是最小的,預(yù)測的PM2.5濃度更接近于真實的PM2.5濃度,預(yù)測的準(zhǔn)確度要高于其他方法,充分地驗證了所提出的PME-GAN模型在小樣本條件下的有效性。
本文提出了基于PME-GAN的PM2.5預(yù)測的方法,通過利用GAN的博弈思想,在生成器中加入LSTM,提取了輸入數(shù)據(jù)的時序特征,并在判別器中加入MLP,最終通過生成器與判別器的對抗訓(xùn)練,通過生成器對PM2.5進行預(yù)測。與基于LSTM、GRU、CNN-LSTM和CNN-GRU的PM2.5的預(yù)測方法相比,本文的方法具有更高的準(zhǔn)確率和一定的應(yīng)用價值。
雖然通過PME-GAN的PM2.5預(yù)測的方法能夠?qū)M2.5的濃度進行有效地預(yù)測,但是預(yù)測的精度還有進一步提升的空間。基于小樣本下用數(shù)據(jù)驅(qū)動的方法對PM2.5實現(xiàn)較高精度的預(yù)測,可利用數(shù)據(jù)增強的方法,通過現(xiàn)有的數(shù)據(jù)集,對原始的小樣本的訓(xùn)練數(shù)據(jù)進行擴充,并對擴充后的樣本進行篩選,將合適的樣本加入到原有的訓(xùn)練集中,這將在一定程度上提升數(shù)據(jù)驅(qū)動的方法預(yù)測PM2.5的精度。