融合氣象參數及污染物濃度的空氣質量預測方法

2018-08-15 08:15:24萬永權徐方勤燕彩蓉蘇厚勤

計算機應用與軟件 2018年8期

萬永權徐方勤燕彩蓉蘇厚勤

1(上海建橋學院計算機科學與技術系上海 201306)2(東華大學計算機科學與技術學院上海 201620)

0 引言

空氣污染一直影響著自然環境和人類健康，而且從長遠來看，它還會加劇對地球的危害。作為一種可靠而有效的污染控制措施，空氣質量預測已成為近年來一個重要研究領域[1-4]。

傳統方法多采用數值預測模型和回歸統計模型。前者主要依賴于污染物濃度數據本身，后者則主要通過分析大量影響污染物濃度的因子，建立這些影響因子與污染物濃度之間的線性或非線性關系，預測的準確度主要依賴于數學模型本身[1]。人工神經網絡是使用最廣泛的空氣質量預測模型，通常采用污染物濃度作為主要輸入，然后輸出第二天或下一個時間段的平均空氣質量指數AQI(air quality index)[2]。BP神經網絡雖然應用廣泛，但存在收斂速度慢和易陷入極小值的缺陷，相關研究將混沌變量加入遺傳算法來進一步提高遺傳算法的全局搜索能力和收斂速度，將混沌遺傳算法優化后得到的最優解作為BP神經網絡的初始權重和閾值[3]。為了更準確地描述和預測某區域的空氣質量，可以采用多個站點來收集數據，并且通過多個污染物來綜合評估空氣質量，預測其AQI值[4]。隨著物聯網的發展，基于大數據的空氣質量指數預測方法成為研究熱點，即通過大量歷史數據，分析空氣質量變化規律，然后結合實時采集的數據，建立預測模型[5]。為了進一步提高預測準確度，一些混合模型或算法被提出，如將BP網絡和小波分解模型相結合[6]，將差分進化算法DE、集成經驗模態分解的改進算法CEEMD和極限學習機ELM相結合[7]，采用模糊綜合評估模型[8]。雖然這些混合模型相比單一模型具有更高的精度，但由于污染物濃度受多種因素影響，使用單一污染物濃度數據源作為輸入進行預測的效果也會受到限制，而且數據的時序性在預測時也是一個非常重要的關系[9-10]。本項目組研究發現氣象參數對污染物濃度的變化有較大的影響，而且不同污染物受不同氣象參數的影響程度也不同[11]。

考慮到空氣污染物受到各方面的影響，而且變化快，所以本文主要研究短期的(每小時)污染物濃度預測，在建模時利用序列預測、相關性分析和神經網絡模型，采用氣象參數和各項污染物濃度數據作為輸入，以此提高預測準確度，在模型訓練時采用更大的數據集進行模型參數學習。

1 氣象參數與污染物濃度相關性分析

氣象參數通過給定時間內大氣狀態采樣來獲得。主要氣象參數包括溫度、濕度、風向、風速、氣壓、太陽輻射、降水等，本文主要分析前5個。為了分析他們之間的關系，采集2015年-2016年上海市每天發布的5個氣象參數。給定隨機變量x和y，它們之間的相關系數定義為：

(1)

式中：Cov(x,y)表示x與y的協方差，V(x)為x的方差，V(y)為y的方差，ρ表示x和y的相關程度。

ρ取值范圍為[-1,1]，ρ≤0表示兩者無關，ρ>0表示兩者相關，當ρ>0.3時，可以認為兩個參數之間存在強相關。表1列出了5個氣象參數之間的相關系數。

表1 各氣象參數之間的相關關系

根據計算產生的氣象參數之間的相關系數，可以在構建神經網絡時選擇合適的輸入，不僅可以減少模型訓練的參數，而且也避免了不必要的參數對預測結果產生的負面影響。

空氣質量預測主要通過空氣污染擴散模型測量或計算大氣污染物濃度。中國大陸的AQI是根據6個大氣污染物濃度來計算，即二氧化硫(SO2)、二氧化氮(NO2)、一氧化碳(CO)、臭氧(O3)、空氣動力學當量直徑小于等于2.5微米的顆粒物(PM2.5)、空氣動力學當量直徑小于等于10微米的顆粒物(PM10)，通過在每個城市的環境監測站對它們進行測量。如空氣質量指數為0～50時，表示空氣質量級別為I級，空氣質量狀況屬于優，此時不存在空氣污染問題，對公眾的健康沒有任何危害。

根據2015年-2016年上海市某站點監測的每天24小時的污染物狀況和同期氣象參數數據，采用SPSS工具提供的“分析-回歸-自動線性建模”，繪制了氣象參數對污染物濃度的影響，如圖1所示。由此圖可知，風速對NO2、PM2.5和PM10的影響最大，濕度對O3和SO2的影響最大，CO主要受溫度和風速的影響。然而，空氣壓力對SO2、NO2、PM2.5和PM10的影響最小，風向對CO和O3的影響最小。風向對CO和O3的影響最小。

圖1 氣象參數對污染物濃度的影響程度

2 空氣質量預測方法

根據氣象參數和污染物濃度之間的數據分析，提出空氣質量預測系統框架，如圖2所示。該框架由3部分組成。第1部分是數據生成，包括兩類數據，污染物濃度數據和氣象參數數據，它們都需要進行預處理，如歸一化處理、空值填充和異常值檢測。第2部分為模型構建與訓練，預測模型是本方法的重點，使用歷史數據集來訓練模型，數據集被分成3份：訓練集、驗證集和測試集。第3部分為模型服務，驗證后的模型及其參數將被保存，并提供在線預測功能。

圖2 空氣質量預測框架

在此框架下，具體的預測步驟描述如下：

1) 收集數據。5個氣象參數數據從上海市氣象局官網采集，每天一次；污染物濃度數據從監測站點獲得，每小時都能獲取最新的6個污染物濃度數據。所以每條氣象參數記錄的更新頻率為一天，每條污染物濃度記錄的更新頻率為一小時。

2) 數據預處理。首先是歸一化處理，若數據x被歸一化的結果為Norm(x)，xmin表示該數據出現的最小值，xmax表示該數據出現的最大值，計算方法如下：

(2)

當出現數據空值的情況時，對于污染物濃度數據，因為相差只有1個小時，所以直接采用上一個歷史數據進行填充；對于氣象數據，每天的變化比較大，所以采用最近一周的平均值來進行填充。

當出現數據值異常時，如溫度超過50度，這時將與數據出現空值時采用相同的策略進行填充。

3) 數據相關性分析。分析5個氣象參數內部以及與污染物濃度之間的關系，發現參數之間的強相關性和弱相關性。

4) 第一階段神經網絡模型。采用氣象參數作為輸入。對于隱藏層中的每個節點，輸出可以表示為：

a(l+1)=f(W(l)a(l)+b(l))

(3)

式中：l代表層數，f是激活函數，選用relu。參數a(l)、b(l)和W(l)分別表示上一層輸出的激勵、偏置項和模型第l層的權重參數。模型采用relu激活函數的原因在于：它不會出現像sigmoid函數和tanh函數一樣的梯度消失現象。此外，由于它是線性的，只需要一個閾值就可以得到激活值，不需要復雜的運算，所以使用relu得到的隨機梯度下降算法的收斂速度會比sigmoid和tanh快。

5) 第二階段神經網絡模型。輸入包括：4)的輸出結果、根據3)選擇的重要氣象參數，以及需要預測的污染物濃度的歷史序列。也就是說，不同的污染物濃度預測，其模型結構相同，但是輸入不同，而且需要學習的權重也不同。輸出為該污染物在下一個小時內的濃度預測值。

6) AQI計算。根據各污染物濃度預測值，采用相關公式，計算新的AQI值。

本方法通過預測污染物濃度來預測AQI值，而不是直接通過模型來預測AQI值。

3 預測模型

根據預測框架，預測模型也分為兩個神經網絡模型單獨進行，而且不同的污染物濃度的預測也是獨立進行，最終的輸出結果是污染物濃度預測值。為了方便表述，本文提出的預測方法稱為two-phase neural network (2-NN)，采用的相關模型稱為2-NN模型,見圖3。

圖3 預測模型結構

模型訓練過程中，當數據學習過于徹底時，會產生噪聲特征，將影響后期的預測效果，即模型對訓練數據表現良好，但對未知的數據表現則不佳，出現了過擬合現象。

導致過擬合原因包括：1) 數據不純，需要重新清理數據；2) 訓練數據量太少，或訓練數據占的比例太小，也可能出現過擬合。解決方法可以有：對數據進行預處理；增加訓練的數據量；采用L2正則化方法；采用Dropout方法。Dropout方法在ImageNet方法中提出，而后在神經網絡中也被廣泛使用。本文在訓練模型時綜合采用以上幾種解決方法來避免模型訓練的過擬合現象。

4 實驗結果

4.1 實驗準備

實驗使用兩個數據集，分別為上海市某環境監測站采集的每小時空氣污染物濃度數據和上海市氣象中心發布的每日氣象參數數據。所有數據將通過歸一化、空值填充和異常值檢測等方法進行預處理，使得數據盡可能完整，總記錄數約為17 500條。

數據以6∶2∶2劃分為訓練集、驗證集和測試集。采用均方根誤差RMSE和均方誤差MSE作為預測準確度評估，兩者定義如下：

(4)

(5)

通過與本領域相關的幾個經典方法進行比較來評估本文的方法。經典方法包括：1) 支持向量機(SVM)，這是一種基于隱式反饋數據集的個性化排序方法，它使用標準的矩陣分解進行潛在預測，實驗采用3種模型，分別為SVR、NuSVR和LinearSVR；2) 神經網絡，每個稀疏和高維的分類特征首先被轉換成低維和密集的實值向量，這些低維密集嵌入向量與連續特征級聯，然后被送到前向通道中神經網絡的隱藏層，實驗采用3種模型來優化，分別為sgd、lbfgs和adam；3) K最近鄰(KNN)，這是具有交叉特征列的線性模型，利用加權平均值實現KNN回歸算法，實驗分別采用K=2、5、10來進行測試；4) 本文方法2-NN。

所有實驗在一臺具有28核的Linux服務器中通過Python語言編程完成計算。該服務器配置為Inter?Xeon?E5-2407 CPU @ 2.40 GHz處理器，64 GB內存。為了進行公平的比較，對所有方法使用相同的數據。

4.2 結果與評價

表2所示為不同方法對6個污染物濃度的預測準確度比較，表中數據為實際測試數據的再乘以1/100。從表中可以看出，本文方法相比其他方法具有更高的準確度。

表2 不同方法對6個污染物濃度的預測準確度比較

圖4所示為采用不同序列長度的污染物濃度數值對預測結果的影響。可以看出，不同污染物濃度對歷史序列的依賴性不同。根據分析，本文主要采用最近2個時間點的序列數據作為參考。

圖4 不同序列長度下6個污染度濃度的RMSE比較

污染物濃度預測最終是為了預測空氣質量。為了更好地說明本文方法的優勢，采用三種方法分別對AQI進行預測，分別為：1) 長短期記憶網絡(LSTM)，一種遞歸神經網絡模型，具有獨特的結構，適合處理預測更長的時間間隔；2) BP神經網絡BPNN；3) 本文方法2-NN。

AQI是政府機構用來向公眾傳達目前空氣污染程度的數字。隨著AQI值的增大，越來越多的人群可能健康遭受影響。AQI的計算公式為：

(6)

式中：C表示污染物濃度(記錄或預測)，Clow和Chigh表示污染物濃度的最低和最高值，Ilow和Ihigh是污染物指數的最低和最高值。Clow、Chigh、Ilow和Ihigh都是常數，由環境空氣質量指數(AQI)技術規定(試行)(HJ 633-2012)。

圖5所示為不同方法在預測AQI時的準確度比較。從中可以看到本文方法比其他兩個方法的預測效果更好。

圖5 不同方法的AQI預測準確度比較

5 結語

本文提出了一種空氣質量預測方法。該方法綜合考慮氣象參數以及污染物濃度之間的相關關系，對歷史大數據進行分析，采用兩級神經網絡模型，根據預測的每小時空氣污染物濃度來計算空氣質量指數。通過與其他經典方法的對比實驗表明，本文方法能夠更準確地預測每小時空氣污染物濃度和AQI值。

影響污染物濃度的因素特別多，除了氣象參數，還有季節因素、交通狀況等等，為了獲得更準確地空氣質量指數預測值，下一步還需要研究更多的數據，從而發現更準確的規律。