基于門控循環單元和圖神經網絡的PM2.5預測

2022-05-12 09:25:22王彤彤張靜怡

現代計算機 2022年5期

曹旺，王彤彤，張靜怡

（四川大學電子信息學院，成都 610065）

0 引言

隨著科學技術的迅速發展，人類創造了空前豐富的物質財富。但與此同時也導致自然資源的過度消耗以及污染物的大量排放，致使空氣污染的問題加劇。空氣污染對人體的身體健康有極大的危害，而空氣污染物中以PM2.5 為主。PM2.5 是指大氣中直徑小于或等于2.5 μm的顆粒物。

雖然PM2.5 只是地球大氣成分中含量很少的組分，但它對空氣質量和能見度等有重要的影響。與較粗的大氣顆粒物相比，PM2.5 粒徑小，面積大，活性強，易附帶有毒有害物質，且在大氣中的停留時間長、輸送距離遠，因而對人體健康和大氣環境質量的影響很大。因此，實現對PM2.5 濃度進行有效的預測已成為熱點研究方向。然而，空氣質量的變化受多種復雜因素的影響，包括氣候變化、交通情況、城市空間分布等。因此，我們需要考慮相關的地理信息（如距離、海拔），大氣信息（如溫度、濕度、風向），以及有相關產能結構的城市區域。

與已有的氣象預報相比，PM2.5的準確預測較為困難。近幾年。國內外對PM2.5 的預測進行了許多嘗試。如Huang等使用基于經驗模態分解的GRU 神經網絡對地面監測點PM2.5 濃度預測。Zhou 等利用GRU 方法對大氣污染物濃度進行預測，通過GRU模型，根據春、夏、秋、冬四個季節訓練4個模型，并利用相應的測試集評價4個模型對相應季節PM2.5的預測效果，通過反復實驗和不斷調整模型參數，分析比較了模型的預測誤差和預測精度，驗證了該方法的可行性和優越性。Tao 等利用一維卷積網絡和雙向GRU的深度學習模型對空氣污染進行預測，它結合了一維卷積神經網絡和雙向GRU 神經網絡。利用UCI機器學習庫中的北京PM2.5數據集進行了案例分析。將CBGRU 模型的預測結果與傳統模型進行了比較，結果表明CBGRU 模型的預測誤差更小，預測性能更好。

Xie 等利用CNN-GRU 對PM2.5 進行的預測研究，基于卷積神經網絡（CNN）和門控循環單元（GRU），提出一種能夠自動提取多站多模態空氣質量數據時空特征的PM2.5 預測模型。并建立了基于該模型的PM2.5 預測系統。該系統模型首先以無錫城區不同監測站的空氣質量因子和天氣因子時間序列構建的多個二維（2D）矩陣為輸入，自動提取并融合具有CNN 結構的多站多模態數據的局部變化趨勢和空間相關特征。從CNN 得到的結果輸入到GRU 網絡，以進一步捕獲空氣質量數據的長期依賴特征。分析比較與傳統模型的預測誤差，驗證了該方法的可行性和優越性。

然而，現有的預測方法存在許多不足之處。基于GRU 的方法可以考慮一定程度的時間依賴性和空間依賴性，但無法精確捕捉測試站點之間的位置關系，因而無法精準預測PM2.5 的傳輸擴散。再如CNN-GRU，它只能處理基于圖像的輸入數據，不能專門對于空間依賴性建模，因而無法綜合考慮到相關的地理信息和大氣信息。

不同于以上的方法，較為有效的預測方式是利用氣象數據以及空間信息中城市的互相影響，因此建立有效的圖結構作為輸入有著重大的意義。為了處理基于圖的數據，我們構建了圖神經網絡與循環神經網絡結合的方法，將城市間的風向表征為圖的連邊。不僅能夠利用GNN 網絡學習城市之間空間信息的依賴關系，在利用GNN 網絡對節點空間信息進行更新的基礎上，能夠利用GRU 網絡捕捉學習PM2.5 在時間維度上的長期依賴特征。結合這兩個模塊的網絡模型有助于對數據時序上的特征和空間上的領域特征信息進行訓練學習，以此實現有效的預測。

但注意到GRU 中的輸入和之前的狀態只在門中進行信息交互，而在進入模塊之前缺少信息溝通，這可能會導致上下文信息在一定程度上的缺失。因此本文的工作在于對于傳統的GRU 網絡，將輸入與上一步隱藏層的輸出進行相互調制，使GRU 的輸入和之前的狀態在進入模塊之前迭代一定的次數進行信息交互，提升信息上下文的聯系，使GRU 的轉移函數受到上下文的影響作用，以期望加強網絡建模的性能以及泛化性。對于真實數據集，我們設置了改進版網絡與原網絡的比較實驗，對于真實數據集進行建模測試，證明了所提出的方法相比于先前網絡在預測準確度方面獲得了顯著的提升，從而證明了改進的GRU的有效性。

1 圖神經網絡

圖神經網絡是一種直接作用于圖結構上的神經網絡。由于其可以對圖節點之間依賴關系進行建模的強大功能，得到了越來越廣泛的應用。圖網絡結構如圖1所示。

圖1 圖網絡結構

我們使用=（，，）表示圖結構，其中表示圖結構中的城市節點，表示城市節點之間相互作用的邊，表示城市節點之間的鄰接矩陣。我們將圖結構的節點數據表示為∈R ，其中是圖網絡中的節點個數，是節點的全部特征信息。包含節點的PM2.5數據和其他輔助信息，將的PM2.5 數據信息記作X∈R ，將的輔助信息記作X∈R ，所以= P+P。我們將時刻的圖數據表示為X，我們使用先前個小時的數據去預測未來個小時的數據。公式表述為：

在每次的圖結構數據更新迭代中，每個節點通過圖結構聚合相鄰節點的信息進行更新。通常聚合信息的方法包括求和、平均、最大值或基于注意力機制的方法。

根據圖1 的結構，網絡的每次迭代過程中，圖結構中的每個節點根據其鄰居的特征信息利用聚合函數更新自身的節點信息，處理過程參考圖2。與只考慮節點信息的GCN 不同，這里我們采用GNN 來傳遞城市節點之間的信息，考慮了任意相關節點對于目標節點的影響，從而學習到了各個城市節點的PM2.5 在風向影響下的相互傳輸，得到了城市之間的PM2.5 空間水平擴散的情況。

圖2 圖神經網絡節點更新示意圖

2 循環神經網絡

2.1 門控循環單元

循環神經網絡（recurrent neural network，RNN）是一種隨著時間維度方向重復調用的網絡結構，會記憶之前的信息，刻畫當前輸出與之前信息的依賴性。在例如語音識別，文字翻譯等領域具有廣泛應用。

圖3 中，表示輸入層，表示隱藏層，表示輸出層。表示隱藏層和輸出層之間的權重矩陣，表示輸入層和隱藏層之間的權重矩陣，表示前一時刻的隱藏層和當前時刻的隱藏層之間的權重矩陣。網絡在時刻接收到輸入x之后，隱藏層的值是s，輸出值是o。且s的值不僅僅取決于x，還取決于s。RNN 的計算方法如下：

圖3 RNN網絡結構示意圖

其中，式（2）的g為隱藏層到輸出層的激活函數，式（3）中的f為隱藏層到隱藏層的激活函數。

雖然RNN可以獲取并處理時間序列的全部信息，但隨著訓練層數的增加，對輸出起重要作用的還是最后輸入的信息，而更早的序列信息只能起到輔助作用，這也就是會出現遺忘早期信息的問題。為了解決RNN 存在的問題，人們引入了門控機制。

Hochreiter 等于1997年首次提出了長短記憶單元（long-short term memory，LSTM），LSTM解決了標準RNN 中的梯度消失以及梯度爆炸問題，并同時保留序列的長期信息，LSTM 在長期的發展中也有了不少改進，如GRU，Peephole LSTM、 BI-LSTM、 ConvLSTM 以及 Mogrifier LSTM 等。與LSTM 門控機制相似，門控循環單元（gated recurrent unit，GRU）也是循環神經網絡中的一種門控機制，目的也在于解決RNN 的梯度消失以及梯度爆炸問題，并同時對序列信息長期記憶，是2014年由Cho 等提出的。GRU 在許多諸如語音識別的序列任務上與LSTM 相比同樣出色，不過它的參數比LSTM 少，僅包含重置門和更新門。在LSTM 的基礎上，減少了一個門控，在保證計算精度的同時減輕了硬件的計算量和計算時間成本。GRU 的網絡結構如圖4所示。

圖4 門控循環單元結構

圖4中的各個關鍵點的作用如下所述：

2.2 具有信息交互的門控循環單元（MGRU）

圖5 信息交互示意圖

注意到在GRU 中，當前的輸入x是和之前的狀態h相互獨立的，它們只在門中進行交互，在這之前缺乏交互，這可能會導致上下文信息的丟失。為此，本文讓輸入和狀態首先進行交互，增強上下文信息的顯著輸入特征并減少次要特征，期望增強網絡建模建模的泛化能力并提升訓練效果。

主要方法是，在原始GRU 計算之前，交替地讓x和h相互調制，公式表達為

這里式（8）中，x'和h'是x和h經過函數的信息相互調制之后得到的更新值。算法公式如下：

3 基于信息交互的門控循環單元和圖卷積網絡的混合模型（MGRU-GNN）

為了提高預測準確性，我們通過圖結構來學習PM2.5 信息在水平方向遷移和擴散的過程。GNN 在提取數據的空間相關性上具有獨特優勢，選取各個城市作為圖結構的節點，利用GNN 來記錄PM2.5 從周圍城市到目標城市的空間擴散情況，匯總節點的相鄰節點對目標節點的影響來計算節點之間的信息依賴關系權重。經過圖網絡不斷的迭代學習，目標節點在不斷的更新過程中學習并獲取到了其他節點的信息。而后利用信息交互的門控循環單元網絡在聚合圖結構空間信息的基礎上模擬PM2.5 在時間維度上的擴散過程。

我們選取了全國空氣污染較為嚴重的184個城市，預測時主要利用的信息有PM2.5 歷史數據，降水情況，風速，空氣濕度，城市地點信息等數據，將數據抽象如圖6所示。

圖6 城市數據信息示意圖

將圖6的數據表示為具體的圖數據結構，如圖7的，，…，X所示，構建MGRU-GNN 混合模型，網絡模型的整體結構如圖7所示。

圖7 信息交互的門控循環單元和圖卷積網絡的混合模型示意圖

在MGRU-GNN 模型中，GNN通過在迭代訓練過程中對節點之間的空間依賴關系進行訓練學習。根據學習到的節點之間的信息依賴程度設置鄰接矩陣的權重。由于MGRU模型輸入參數與GNN 的輸出存在差異，在GNN 網絡之后便設有全連接層進行特征空間變換，在保留數據特征信息的同時調整數據維度來配合MGRU 網絡的使用。通過MGRU與GNN的配合作用，使得MGRU在獲得空間信息的更新同時也獲得了輸入序列的長期依賴關系的學習，實現了PM2.5的長期預測。

4 實驗與分析

4.1 數據集

國家從13年開始陸陸續續建立了在大大小小的城市建立了霧霾氣象監測站，每隔3小時進行一次采集，提供了大量的數據。數據集由生態環境部提供，生態環境部負責建立健全生態環境基本制度，環境污染防治的監督管理，生態環境監測等工作；氣象數據包括風向、降雨、空氣濕度、溫度等數據；空間地理信息是各個城市中監測站的位置來表征城市的位置。

為了檢驗模型捕捉長期依賴關系的能力，本文選擇了覆蓋中國污染嚴重地區的京津冀地區的184個城市作為研究對象。構建選取區域范圍內2016-9-1—2017-1-31 的秋冬季真實數據集，重點關注秋冬季節的原因在于秋冬季供暖系統的使用會增加空氣污染的情況。在構造圖結構的過程中我們使用圖結構，利用風向構建圖結構的邊屬性，不僅關注節點的變化情況，也關注節點之間信息的流向，特別是城市之間的PM2.5 具有雙向傳輸的特點，因此我們使用圖結構GNN。

我們使用了三種類型的數據：PM2.5歷史數據和氣象數據和空間信息。數據集劃分為三個部分，選取50%為訓練數據，25%為驗證數據、25%為測試數據。

4.2 實驗設置

為驗證網絡的有效性，我們將不同網絡在相同的數據集下進行對比分析。為了公平比較，我們給每個比較的模型提供相同的參數輸入和硬件環境。本文的實驗環境是在一臺操作系統為Ubuntu16.04 的工作站上，CPU 是一個Intel Xeon E5-1650 v4 六核處理器，主頻為3.6 GHz，內存32 GB，GPU 為Nvidia Geforce GTX 1080 Ti，顯存11 GB。

在本文的預測模型中，我們選擇一種最常用的回歸損失函數，均方誤差（），為訓練過程中的損失函數，選擇自適應學習率算法RMSprop 來作為網絡參數的優化器。訓練過程中的樣本數batch_size 為32，訓練次數epochs 為150 次，并且添加提前停止機制Early Stoping，若連續多次迭代時的誤差不發生變化，則提前停止訓練防止過擬合。

本文采用均方根誤差（）和平均絕對誤差（）兩個評價指標，和通過反映模型預測值與真值之間的誤差來衡量預測精度。計算公式如下：

4.3 結果分析

在給定歷史PM2.5 濃度數據及和未來24 小時的天氣預報數據的情況下，預測未來24 小時的PM2.5 數據，并計算各種模型的預測性能。我們對以下幾種網絡模型進行測試對比：

（1）多層感知器（multilayer perceptron，MLP），是一種前饋人工神經網絡模型，典型的MLP 由多層神經網絡構成，其將輸入的多個數據集映射到單一的輸出的數據集上。

（2）長短期記憶網絡（long short-term memory，LSTM），主要針對序列的時間維度變化進行建模。

（3）圖卷積網絡和長短期記憶網絡（GCNLSTM），是圖卷積網絡（graph convolutional network，GCN）和LSTM 相結合，實現對時間維度和空間維度的情況進行建模。但是GCN 沒有考慮到節點之間信息互相更新的過程，對PM2.5空間傳輸這一特性信息的利用受到限制。

（4）門控循環單元和全連接層（GRU-FC），在GRU 之后連接一層全連接層（fully connected layers，FC）。

（5）圖神經網絡和門控循環單元（GNNGRU），使用圖網絡與原始GRU 的結合，對時間維度和空間維度的情況進行建模，并且利用到了PM2.5在空間維度水平遷移的特性。

各種網絡模型的預測結果如表1所示。

表1 不同模型的預測結果對比

通過預測結果的對比，可以看出MLP、LSTM、GRU 的效果是并不理想的，這是由于這三種網絡模型本身設計結構的瓶頸，導致在學習節點之間的空間傳輸特性方面受到限制。其中MLP 網絡存在學習速度慢，容易陷入局部極值的缺點，因此對于數據的學習可能會不夠充分；LSTM和GRU雖然在一定程度上緩解了梯度消失的情況，但對于太長的序列學習能力還是略顯不足，另外對于空間傳輸特性學習能力的欠缺導致預測效果不佳；GCN-LSTM 雖然能實現對時間維度和空間維度的特征都進行學習。但是GCN 只能抽取圖中節點的拓撲信息，對PM2.5 空間傳輸這一特性的信息使用受到限制，因此效果不佳；GRU-FC 是GRU 拼接全連接層，全連接層相當于一個特征空間變換，可以把有用的信息提取整合，再加上激活函數的非線性映射，然而由于空間信息利用的不足，效果依然不佳；對比現有網絡，可以發現我們的MGRU-GNN 在對時間維度的特征進行長期學習記憶的同時也利用空間信息更新了城市節點的信息，通過數據可以看出預測效果最佳。

對于空間信息以及對MGRU 的利用，實驗如下：

表2 驗證改進的GRU對模型的影響

上表以和分別為均方根誤差及平均絕對誤差衡量指標，記錄不同網絡在相同數據集以及相同硬件環境下的預測表現。通過上方圖表的記錄，可以看出，加入空間信息對于預測PM2.5濃度準確性的作用。

通過對比GRU 與MGRU、GRU-GNN 與MGRU-GNN 的預測結果，可以看出，相比于使用原始GRU 模塊，替換為MGRU 模塊之后，預測能力更強、誤差更小。GRU-GNN 與MGRUGNN 的結果對比可以看出，RMSE 指數有6%～7%的進步，MAE 指數5%～6%的進步。因此可以證明，本文對于GRU 網絡的改進相比原始網絡具有更好的優越性。

5 結語

本文首先利用PM2.5 歷史數據以及氣象數據和空間信息，建立門控循環單元和圖神經網絡模型混合模型。然后在此基礎上，提出了一種基于信息交互的門控循環單元和圖卷積網絡的混合模型，通過使GRU 的轉移函數依賴于上下文信息提升GRU 建模的泛化能力和性能。與現有的方法相比，本文的模型具有更好的預測準確性。