孫源龍,趙文娜,汪梓彤,卓 嘎
(1.西藏大學理學院,西藏 拉薩 850000;2.西藏大學信息科學技術學院,西藏 拉薩 850000)
西藏作為“世界第三極”[1],其空氣質量的變化對于中國乃至全球環境都有很大的影響,因此實現對西藏自治區各地區空氣質量的監測和更準確地預測,對于保護西藏脆弱的生態環境、制定經濟建設方案等都具有一定的意義。拉薩是西藏自治區政治、經濟、文化中心和交通樞紐,是全區相對人口密度最高和受人為活動影響最顯著的城市。拉薩市位于西藏自治區中南部、喜馬拉雅山脈北側(見圖1),年日照時長3 000小時以上[2],擁有“日光城”的美譽。其主要氣候特點為空氣稀薄、氣溫偏低、全年降雨稀少、多晴朗天氣、太陽輻射強且冬春寒冷干燥、多風。卓嘎等[3]研究發現2001-2006年期間拉薩市大氣污染物SO2、NO2、PM10的濃度具有冬強夏弱的季節變化規律,降水量、溫度和相對濕度等氣象要素與污染濃度呈現較好的負相關性。

圖1 西藏自治區拉薩地圖
1.2.1 數據來源
本文中所分析的拉薩市區空氣質量數據來源于空氣質量實時監測數據網頁https://aqicn.org/,從該網頁下載了在西藏自治區環保局站監測的2015年1月-2019年12月的PM10、PM2.5、O3、NO2、SO2、CO的空氣質量指數(AQI)的日均值,并根據美國EPA標準[4]將AQI數據轉化為質量濃度數據。該監測站所采用的設備信息詳見表1。

表1 監測站的設備信息[5]
1.2.2 數據處理方法
對2015年1月-2019年12月拉薩市每天監測的PM10、PM2.5、O3、NO2、SO2、CO的AQI數據進行篩查后發現,部分月份的數據存在缺失現象。針對部分缺失數據我們采用了Matlab軟件中的interp1函數進行插值處理。插值方法的選取是通過如下方法實現的:選取任意連續的61個數據后選取其中的5個數據進行插值并與真實值進行對比,計算殘差,殘差最小的即為最優插值方法。各空氣質量數據所采用的最優插值方法詳見表2。

表2 各空氣質量數據所采用的最優插值方法
訓練樣本、驗證樣本的劃分:訓練樣本與驗證樣本個數的劃分采取80%為訓練集,20%為驗證集的原則[6]。其中驗證樣本選擇2019年的各空氣指標質量濃度(共365個)。訓練樣本為2015-2018年各空氣指標質量濃度。為了加快訓練速度與精度,應用標準歸一化進行預處理,同時對于缺失值數據采用前文比較出的合適的插值方法進行數據填補。
EMD即經驗模態分解(Empirical Mode Decomposition,簡稱EMD)是對輸入的原數據信號進行分解而獲得本征模函數(Intrinsic Mode Function,簡稱IMF),是一種基于瞬時頻率的信號處理方法,其最顯著的特點就是克服了基函數無自適應性的問題,適合于分析復雜、不平穩的信號序列[7]。
在完成線性插值,EMD分解后,采用MATLAB中的Mapminmax函數進行歸一化預處理,以加快神經網絡訓練速度和訓練精度;對預測的輸出數據采用Mapminmax函數進行反歸一化處理,得到的數據與真實值進行比較。
ELM算法即極限學習機算法(Extreme Learning Machine,ELM),是2006年南洋理工大學Huang提出的一種神經網絡算法[8],其學習訓練的網絡結構為單隱含層前饋神經網絡結構,通過求解最小范數最小二乘的形式確定隱含層和輸出層之間的權值[9],極限學習機預測算法的學習訓練速度相比于BP神經網絡要快,且泛化能力增強,避免了BP神經網絡算法所存在的過度擬合、陷入局部最值等問題的產生[10],同時在降雨-徑流預測模擬等環境類問題上,ELM算法與BP神經網絡算法相比,對算力的要求更小[11]。
依據ELM算法通過隨機特征映射后再進行線性參數求解對數據進行訓練,首先對隱含層參數進行初始化,其中隱含層節點的輸入權值w以及隱含層的偏置b都是根據任意連續的概率分布隨機進行初始化的,接著通過Sigmoid激活函數進行映射,得到ELM特征空間[12]。之后,求解輸出層的權值β,為尋找到最優權值組合W=(w,b,β),應使其訓練誤差達到最小,即網絡的輸出與期望值的差作為評價誤差,目標函數得到的最小解后即可得到W的最優解。
通過ELM神經網絡算法訓練學習后,將驗證集的預測數據與真實值進行對比,本次預測結果,采用平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)、均方根誤差(Root Mean Square Error,RMSE)、方向預測統計(Direction Forecast Statistics,Dstat)、決定系數(Determination Coefficient,R2)對預測結果進行評價。
圖2給出了拉薩市2015-2019年PM10、PM2.5、O3、NO2、SO2、CO空氣污染物的日均濃度逐日變化趨勢,每個子圖中分別用不同的標記代表了這五年每年的污染物的日均濃度值,實線代表了污染物的日均濃度的5年平均值。從各子圖中的實線可以看出,PM2.5、PM10和CO濃度值在5月到10月相對降低,10月至次年5月以后其濃度在增長。這種變化規律符合該地區的季風時間,即每年10月至次年5月[13]。從O3濃度變化曲線可以看出近地表的O3濃度在每年的5月份左右達到最大值。

圖2 拉薩市2015-2019年空氣污染物的日均濃度逐日變化趨勢
之后我們按春季(3-5月)、夏季(6-8月)、秋季(9-11月)、冬季(12-翌年2月)進行劃分[14]。可以看出各污染物濃度隨季節的變化情況有一定的周期性,其中PM2.5、PM10、CO和NO2的變化趨勢比較一致,普遍于冬季達到最大值;而O3和SO2有各自的變化規律,O3濃度普遍春夏季的值高于秋冬季節,而SO2濃度有明顯的逐年降低的變化趨勢。其中,NO2和PM10最高值出現在冬季與之前研究[3]相符,PM2.5和PM10的最高值出現在冬季與該季節的氣候特點如氣候干燥、大風天數多等因素有關。而PM2.5和PM10的最低值普遍出現在夏季,這可能是因為拉薩的降雨主要集中在夏季,降水一般伴隨著大風天氣,對大氣污染物的擴散清除具有明顯的作用,通常情況下,是大氣中污染物質去除的主要方式[15]。
圖3給出了拉薩市這6種大氣污染物隨年的變化趨勢,其中CO濃度的縱坐標軸位于圖的右側,其余各污染物濃度的縱坐標軸位于圖的左側。可以看出,除了O3,其余污染物濃度自2016年都在逐年下降。其變化規律與白永飛等[16]得出的SO2和CO濃度的逐年變化趨勢一致。這6種污染物中,CO濃度最高,是該地區這6種空氣污染物中最主要的污染物,其次是O3,濃度最低的是SO2。污染物濃度的逐年降低從某種程度上與國家出臺的關于環境保護的相關政策以及拉薩市國民經濟和社會發展“十四五”規劃相關文件提出的拉薩市城關區其經濟發展的重點主要在文體、旅游、服務等具有民族特色的產業集群,產業鏈以及縣區發展都要以保護生態為前提有關[17]。

圖3 拉薩市2015-2019年6種空氣污染物濃度隨年變化趨勢
ELM神經網絡預測結果與真實值的對比如圖4所示:

圖4 各空氣指標預測值與真實值對比圖
表3列出的評價指標中預測效果越好,Dstat、R2值越大,MAPE、RMSE值約需越小。

表3 EMD和ELM算法預測結果評價指標
由上述評價指標與真實值和預測值對比圖可以看出,通過EMD與ELM的方法進行空氣質量的預測,其中決定系數R2均大于0.69,RMSE、MAPE較小。
本文以拉薩市作為研究區域,根據2015-2019年數據,首先比較選出各空氣指標合適的插值方法,借助各空氣指標的年、月、日的變化趨勢圖分析其變化特點,發現拉薩市空氣有持續變好的趨勢,再通過經驗模態分析對數據進行預處理,劃分訓練集和驗證集后,采用極限學習機方法對2019年1月-12月PM10、PM2.5、O3、NO2、SO2、CO空氣質量指標進行訓練預測,通過Dstat、MAPE、RMSE、R2指標評價預測結果,證明了該預測方法的可靠性。