張弛, 朱宗玖
(安徽理工大學(xué)電氣與信息工程學(xué)院, 淮南 232001)
隨著中國工業(yè)技術(shù)水平的不斷提高與城市化進程加快,經(jīng)濟發(fā)展與工業(yè)生產(chǎn)所帶來的空氣污染對人類的健康狀況及工業(yè)環(huán)境產(chǎn)生了嚴重的影響[1]。大氣環(huán)境與人類健康有著密切的關(guān)系,要想深入打好污染防治攻堅戰(zhàn),大氣污染的治理與預(yù)防必不可少。鑒于空氣質(zhì)量與氣象條件的密切關(guān)系,就探究空氣質(zhì)量與氣象要素的相關(guān)性對大氣污染治理具有重要意義。最普遍的空氣污染顆粒物是PM2.5和PM10。根據(jù)以往研究,空氣污染與這些顆粒物在空氣中的濃度呈正相關(guān),大氣中的顆粒物濃度越高城市污染越嚴重。相比于PM10、PM2.5的污染性更強,對人體健康的危害也更大。
根據(jù)以往研究,針對環(huán)境污染物濃度預(yù)測的方法分為兩類:確定性法和統(tǒng)計法。確定性法在建立模型時結(jié)構(gòu)參數(shù)對理論的理想程度及數(shù)據(jù)庫的大小有很高的要求,且對非線性因數(shù)的解釋性較差;與確定性法相比,統(tǒng)計法通常具有更高的運行效率和簡易的結(jié)構(gòu)。線性回歸模型(特別是多元線性回歸)已被采取建立PM2.5濃度和影響因子之間的關(guān)系,這些模型具體包括廣義線性回歸[2]、自回歸綜合移動平均(autoregressive integrated moving average,ARIMA)模型[3],土地利用回歸模型、地理加權(quán)回歸、神經(jīng)網(wǎng)絡(luò)等。Yan等[4]發(fā)現(xiàn),使用分位數(shù)面板回法,當(dāng)影響因子之間存在多重共線性,或?qū)嶋H環(huán)境與期望模型偏差較大時,這些統(tǒng)計模型將會失效。近年研究中機器學(xué)習(xí)已經(jīng)越來越多地應(yīng)用于大氣污染物的短期和長期預(yù)測。2020年,康俊鋒[5]使用了機器學(xué)習(xí)極限梯度提升樹(XGBoost)模型來預(yù)PM2.5質(zhì)量濃度。作為一種并行提升樹的工具,XGBoost的機器學(xué)習(xí)能力較強,但對于數(shù)據(jù)中的時間序列特征的識別較弱。陳柳[6]在反向傳播(back propagation,BP)神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上結(jié)合小波分析預(yù)測SO2濃度,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)預(yù)測模型的優(yōu)點是斂速度快,但是由于采用線性回歸算法對數(shù)據(jù)進行篩選,無法篩選出無關(guān)非線性變量。而主成分分析(principal component analysis,PCA)算法可以對多重變量進行降維。因此現(xiàn)結(jié)合PCA算法和BP神經(jīng)網(wǎng)絡(luò),構(gòu)建PCA-BP預(yù)測模型,利用該模型皖地區(qū)2018—2021年的PM2.5濃度值進行預(yù)測,在降低模型復(fù)雜度的前提下有效提升預(yù)測精度。
實驗中(相關(guān)性分析實驗及PM2.5濃度預(yù)測)所需要用到的空氣質(zhì)量指數(shù)及相關(guān)污染物的數(shù)據(jù)來源于安徽省生態(tài)環(huán)境廳(http://sthjt.ah.gov.cn/index.html),包括皖北地區(qū)23個國控空氣質(zhì)量監(jiān)測站點和20個省控空氣質(zhì)量監(jiān)測站點,選取淮南、蚌埠、阜陽、淮北、亳州、宿州、滁州7個城市2018年1月—2022年12月的監(jiān)測數(shù)據(jù),包括逐日及逐時首要空氣污染物(PM2.5、PM10、O3、NO2、CO、SO2)濃度數(shù)據(jù),氣象數(shù)據(jù)來源于國家氣象科學(xué)數(shù)據(jù)中心(http://data.cma.cn/),包括溫度、相對濕度、風(fēng)瞬時向、瞬時風(fēng)速、2 min平均風(fēng)速、10 min平均風(fēng)速共6類。
圖1所示為實驗中部分氣象數(shù)據(jù)在時間序列上的變化特征(取皖北各站點監(jiān)測數(shù)據(jù)平均值),包括環(huán)境溫度、環(huán)境相對濕度、風(fēng)瞬時向、瞬時風(fēng)速、2 min平均風(fēng)速、10 min平均風(fēng)速在內(nèi)的6類氣象數(shù)據(jù)。橫坐標(biāo)為樣本點,采樣間隔為1 h。

圖1 各氣象變量的時間序列Fig.1 Time series of each meteorological variable
可以看出相對濕度基本維持在50%~95%,圖1(c)中的風(fēng)向序列采用的是角度制(范圍是0~360°),由于地表建筑物遮擋較多且風(fēng)速較慢(基本處于0~5 m/s的區(qū)間內(nèi))導(dǎo)致風(fēng)向是時時刻刻在變化的,因此風(fēng)向序列的波動性很強。
PCA是一種常用的數(shù)據(jù)分析算法[7],它可以將一組數(shù)據(jù)投射到一個低維空間中,從而實現(xiàn)數(shù)據(jù)維度的降低,減少計算量,提高計算效率。主成分分析通過正交變換[8-9],將原始特征(變量)轉(zhuǎn)換為新的特征(變量),使原始特征(變量)之間的關(guān)系最大化,從而實現(xiàn)對數(shù)據(jù)的降維。BP神經(jīng)網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)由圖2中三層組成[10]。

X1~xn為模型的輸入變量;x1~xm為經(jīng)過PCA模型降維后的變量;O1~On為模型最終輸出結(jié)果
(1)PCA模型對輸入的相關(guān)空氣污染物變量進行降維,將處理后輸出的變量輸入到下一層BP模型中并獲取空氣污染物變量的相關(guān)性[11]。
(2)通過神經(jīng)網(wǎng)絡(luò)對空氣污染物變量數(shù)據(jù)進行分組處理,PCA模型中的輸出作為BP模型的輸入將樣本映射到隱藏層[12]。
(3)求解模型權(quán)值,根據(jù)輸出層輸出的結(jié)果對隱藏層的輸出權(quán)值做調(diào)整,權(quán)值w更新公式為
(1)
式(1)中:Wij為更新后的權(quán)值;wij為更新前的權(quán)值;η為學(xué)習(xí)速率;Hj為隱藏層輸出;xi為輸入空氣污染物變量;ωjk為隱藏層到輸出層的權(quán)重;ek為期望輸出與實際輸出的誤差[13]。
(4)將加權(quán)后的輸入數(shù)據(jù)代入模型獲取輸出層結(jié)果,直至ek<1%,學(xué)習(xí)結(jié)束。
通過主成分分析識別空氣質(zhì)量與各類污染物的相關(guān)性,如圖3所示,采用皮爾遜(Pearson)相關(guān)系[14]數(shù)量化各變量之間的相關(guān)程度,其表達式為
(2)

圖3 2021年P(guān)M2.5與各影響因子相關(guān)性熱圖Fig.3 Heat map of correlation between PM2.5and impact factors in 2021
式(2)中:cov為兩變量的協(xié)方差;xfeatures和xvariable分別為特征變量PM2.5和各影響因子的數(shù)值;σfeature和σvariable分別為特征變量PM2.5和各影響因子的標(biāo)準(zhǔn)偏差。
通過圖3相關(guān)性熱圖可以看出,影響PM2.5最主要的因數(shù)是PM10、CO、NO2、SO2[15],而溫度等氣象數(shù)據(jù)相關(guān)系數(shù)極小且多為負相關(guān),因此氣象因數(shù)對PM2.5的影響很小可以忽略。
在春、夏、秋、冬四季分布基礎(chǔ)上對與PM2.5相關(guān)性最強的PM10污染物濃度進行分析,建立PCA-BP神經(jīng)網(wǎng)絡(luò)測模型[16]。污染物PM2.5與PM10的濃度變化如圖4所示,數(shù)據(jù)設(shè)置從2018年1月—2021年12月,通過對比發(fā)現(xiàn)PM2.5、PM10在這4年內(nèi)呈現(xiàn)明顯周期性與季節(jié)性變化,兩種污染物濃度具有較強的線性相關(guān)性[17],在深色區(qū)域附近各類數(shù)值整體處于較高水平,該深色區(qū)域表示冬季。污染物濃度在一年的時間范圍內(nèi)呈現(xiàn)U形變化規(guī)律,這與李名升等[18]研究中國城市PM10污染濃度季節(jié)變化得出的結(jié)論一致。PM2.5與PM10濃度值由高到低的順序為冬季、秋季、春季、夏季,反映二次污染物在秋冬季節(jié)的貢獻率較高, 這與張智勝等[19]的研究結(jié)果一致。

圖4 2018—2021年P(guān)M2.5與PM10濃度變化情況Fig.4 Changes in PM2.5 and PM10 concentrationsfrom 2018 to 2021


Output為預(yù)測值;Target為真實值;Y表示縱軸;T表示橫軸
結(jié)果表明,皖北地區(qū)的PM2.5濃度與氣象因數(shù)之間的關(guān)系較為簡單,沒有O3那種復(fù)雜的關(guān)系與不確定性,因此可以更容易、更準(zhǔn)確地預(yù)測皖北地區(qū)PM2.5濃度。研究模型采用的評價指標(biāo)(調(diào)整R2)解釋性強,均方根誤差RMSE誤差小,具有較高的精度以保障預(yù)測結(jié)果的適用性。
對于研究實驗中的皖北城市群,構(gòu)建的PCA-BP模型在預(yù)測季節(jié)性PM2.5濃度的測試中,實現(xiàn)了75%以上精度的預(yù)測,該精度對于多數(shù)時間段是夠用的。
預(yù)測模型是對未知變量做估算,真實值與預(yù)測值的誤差越小,表明預(yù)測值越接近真實值。在表1中,對比不同季節(jié)的結(jié)果指標(biāo),可以清楚地看到,隨著訓(xùn)練集比例的增加[20](依次選取80%、85%、90%,交叉驗證集與測試集始終按照剩余數(shù)據(jù)1∶1的比例分配)[21]模型預(yù)測結(jié)果的誤差有所降低,在夏季的預(yù)測誤差最低(RMSE為7.011)其次是秋季和春季(RMSE分別為11.004、13.471);冬季的預(yù)測誤差最高(RMSE為15.799)。在調(diào)整R2的評價標(biāo)準(zhǔn)下,夏、秋、冬季(調(diào)整R2百分比分別為95.8%、93.5%、92.4%)的結(jié)果也優(yōu)于冬季(調(diào)整R2百分比為79.4%),前三季測試結(jié)果差距不大,冬季的誤差明顯大于前三組測試。

表1 皖北地區(qū)不同季節(jié)下預(yù)測模型結(jié)果Table 1 Prediction model results under different seasons in northern Anhui
通過分析2018—2021年皖北地區(qū)各城市在不同季節(jié)里PM2.5與其他各空氣污染物含量及氣象因數(shù)之間的關(guān)系,進行相關(guān)性模擬測試,獲得以下結(jié)論。
(1)在環(huán)境變量與氣象因數(shù)的基礎(chǔ)上通過主成分分析發(fā)現(xiàn),氣象因數(shù)對PM2.5濃度的影響極小,而環(huán)境變量中的O3也與PM2.5濃度無關(guān),據(jù)此模型的輸入刪去無關(guān)變量降低模型的運行成本,使得模型輸入的復(fù)雜度降低了63.6%。
(2)通過相關(guān)性分析發(fā)現(xiàn),大氣中影響PM2.5濃度最重要的因子是PM10,該污染物含量與PM2.5、具有較強的線性關(guān)系,PM2.5含量在年初、年中、年末3個時間段最高,其中年初和年末階段達到頂峰。
(3)建立PCA-BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型對皖北地區(qū)四季的PM2.5含量預(yù)測,結(jié)果顯示,夏、秋、春三季(R2分別為0.958、0.935、0.924)的精度明顯要高于冬季(R2為0.794),誤差值RMSE分別為春(13.471)、夏(7.001)、秋(11.004)、冬(15.799),預(yù)測模型整體的性能表現(xiàn)良好,具有良好的解釋力。該模型仍有不足之處,如對于冬季的數(shù)據(jù)集模型性能偏低,將來的工作可以重點放在提升冬季預(yù)測的精度與進一步減小整體預(yù)測誤差上。