劉 君
研究表明,氣象條件對空氣主要污染物濃度的擴散有著較大影響[1]。不同氣象因子對污染物濃度的影響不同,有的易于擴散,有的卻影響較小。比如當低氣壓下風力較大,對空氣質量具有正面影響;無風且晴好的天氣,容易形成地面逆溫,此時污染物滯留于近地面上空,對空氣質量有負面影響。所以空氣質量的影響因素對提高預測精度非常重要。
目前普遍使用的機理分析方法,回歸統計、灰色預測等方法進行空氣質量評價分析,但通過對污染物濃度數據具有非線性特征,要實現更準確的預測,須采用能夠處理非線性數據規律的方法。目前已有學者將神經網絡模型應用于污染物預測研究中,相比傳統機理分析模型性能更好。而多數神經網絡模型的預測模型都是將所有預報因子數據直接作為網絡輸入,這使網絡維數過高,網絡訓練時間增加,且不同因子之間存在干擾問題。LU[2]等利用主成分分析法改進神網模型預測NOX濃度。本文利用因子分析將多個預報因子轉化為少數幾個綜合指標,消除因子間的交叉干擾,提高模型精度。
人工神經網絡從算法結構而言分為前饋型和反饋型神經網絡,由于其自適應能力強等特點,已被廣泛應用于非線性復雜數據現象問題[3]。徑向基函數神經網絡為具有單隱含層的3層前饋型神經網絡,數據輸入后存儲在輸入層節點,經隱含層轉換運算后與輸出層相連。其基本思想是以徑向基函數為隱層基,可直接將輸入數據映射到隱含層,確定徑向基函數中心點,即可確定隱層映射關系。RBF 具備典型的局部逼近特點,在分類和逼近能力、學習速率方面有明顯優勢。從輸入層到隱含層的非線性變換函數常用高斯函數
φ(r)=exp(-r2/2b2),b>0,r∈R
基函數的中心與寬度為可調參數。
因子分析主要用于提取多個指標變量的公共因子的一種統計方法,廣泛應用于存在著交叉影響的數據降維處理中??梢酝ㄟ^因子分析法構造k(k 研究數據選取2015 年1 月- 2019 年6 月廣州市AQI 與主要污染物數據,對有數據缺失的樣本進行剔除或補充,選取2015 年1 月- 2019 年6 月的數據因子分析后共1500d 數據作為訓練樣本,選取2019 年7 月- 12 月份共180d 數據作為測試樣本。 首先根據實測數據由公式X市均=∑X監測點/N,計算主要污染物的小時平均濃度,對缺失數據采用刪除方式進行預處理。由于不同污染物間的量綱不一致會影響模型結果,為了提高網絡訓練的速度,避免一些離散值影響模型的收斂效果,需要將數據進行歸一化。利用matlab 將數據歸一化至區間[0,1],公式如下: 歸一化:ti=[(xi-ximin)/(ximax- ximin)](0.999- 0.001)+0.001 反歸一化:ri=[(yi- 0.001)/(0.999- 0.001)](yimax-yimin)+yimin 上式中,xi為原始數據 x 的第 i 個分量,ximax和 ximin為原始數據峰值,ti與ri為歸一化和反歸一化后的分量數值。 基于因子分析特征值貢獻率篩選主要因子,采用日均主要污染物濃度、AQI 值以及溫度、氣壓、風向、風速等共14 種主要要素作為原始預報因子數據,利用Spss 軟件進行對數據進行因子分析,提取綜合因子作為神經網絡輸入變量,以對原始數據降維并消除數據冗余和數據間的交互影響。 根據2012 年以來新標準規定的AQI 六級劃分,首先由主要污染物濃度限值,計算污染分指數: Qi=[(QHi-Qu0)/(BQHi- BQu0)](Ci-BQu0)+Qu0 其中 Qi為污染分指數,Ci為濃度實測值,BQHi與 BQu0分別為大于(小于)或等于Ci的濃度限值,QHi與Qu0為濃度限值所對應的指數限值,最后由 AQI=max{Q1,Q2,…,Qn}得到 AQI 指數。 為減少因子間的交互干擾,降低神經網絡的輸入數據維度,將1500d 訓練樣本數據和180d 測試樣本數據導入Spss 中,經過歸一化處理、相關性分析和因子分析后,選取14 個與空氣污染物濃度相關系數較高的因子作為預報因子,顯著性水平均達到了0.05,說明所選取因子與預測量相關性較好。根據因子分析法,對上述因子進行因子分析,計算出特征值與相關系數,選取特征值貢獻率大于0.7 的因子,通過因子荷載矩陣計算標準因子得分確定神經網絡的輸入數據。分析結果顯示PM2.5與PM10相關性達到0.605,二者有顯著相關性。 輸入向量 X=[x1,x2,…,xn]T中的分量 xi(i=1,2,…,n)是經過因子分析后的數據,分別建立 PM2.5,PM10,SO2,CO,NO2,O3濃度預測模型。將因子分析后的訓練樣本數據作為網絡輸入,利用RBF 神經網絡進行訓練,相應的污染物濃度和AQI 序列作為網絡輸出,采用經典的4 階Runge-Kutta 法進行數值解,步長h=0.1。用180d 有效測試樣本對訓練好的模型進行檢驗,結果顯示模型對污染物濃度的預測值絕對誤差低于10-2,該方法能夠提高神經網絡收斂速度和預測精度,數據符合度較高,可推廣應用于空氣質量和污染物濃度預報。 模型預測值的平均絕對誤差最小9.3,準確率的最大值為86.3%,預測值與真實值的絕對誤差量在10-2~10-2mg/m3量級。說明FA- RBF 神經網絡模型結果較為準確,模型對短期內的預報能力明顯優于其他統計方法,這表明神經網絡具備良好的非線性時間序列數據規律的學習能力。模型在處理類似具有時間序列特征的數據分析預報時具有明顯優勢。 在訓練數據與測試數據相同的情況下,將因子分析法與RBF 神經網絡相結合,選取包括氣象因子在內的14 個預報因子,構建污染物濃度預報模型。與BP 神經網絡相比,二者預報的準確率分別為79.76%、77.35%,傳統BP 模型與本文模型預測結果的平均相對誤差分別為0.32、0.21。相比之下具有精度高,收斂速度更快的優點,性能優于一般傳統BP 神經網絡方法。 相比傳統BP 神網模型,利用因子分析消除數據冗余,模型收斂速度更快、誤差更小。采用BP 神經網絡模型時,需要大量樣本數據支持,而基于FA-RBF 神經網絡的空氣質量預報模型,具有模型易構建、收斂速度快,準確度高等優點,適用于污染物濃度等時間序列特點的非線性數據預測問題。 其次,與其他數值模型相比,因子分析能夠降低預報因子間的交互影響,結合RBF 模型優異的非線性泛化能力,在具有非線性特征的數據預報中具有獨特優勢,大氣環境與污染物濃度的短期預報中是一種比較實用的方法。3 數據來源及預處理
3.1 數據來源
3.2 數據的預處理
3.3 主要預報因子篩選
4 基于因子分析與RBF 神經網絡的預測模型
4.1 質量指數劃分
4.2 因子分析
4.3 因子分析優化的神經網絡模型預測
5 結果分析
5.1 預測值與實際值對比
5.2 與BP 神經網絡模型對比
6 結論