基于GAT-Informer模型的河南省空氣污染物濃度預測

2025-04-12 00:00:00楊玥左衛兵

電腦知識與技術 2025年7期

摘要：為了提高空氣污染物濃度預測的精度和效率，提出了一種結合圖注意力網絡（GAT）和Informer的深度學習模型——GAT-Informer。該模型利用GAT提取各個監測站點之間的空間特征，充分利用相關站點的特征信息；Informer有效地挖掘時間序列的長期信息和局部變化，通過將時間信息和空間信息進行整合，從而預測河南省100個空氣質量監測站點六種污染物濃度。研究結果表明，該模型在平均絕對誤差（MAE）、均方根誤差（RMSE）、平均絕對百分比誤差（MAPE）等評價指標上優于長短期記憶網絡模型、支持向量機回歸模型、歷史平均模型以及時空圖卷積等模型。

關鍵詞：空氣污染物；濃度預測；圖注意力網絡；深度學習；時間序列

中圖分類號：TP18" " 文獻標識碼：A

文章編號：1009-3044（2025）07-0006-05

開放科學（資源服務）標識碼（OSID）

0 引言

大氣污染因影響人類健康、制約國家發展而成為全球最關注的環境問題之一[1]。隨著城市化和工業化的不斷加快，許多國家和城市的空氣污染日益嚴重。精確掌握空氣質量分布對于保護居民健康和空氣污染防控非常重要[2]。

國內外在空氣質量預測領域取得了豐碩的研究成果。劉威[3]使用支持向量機模型對某市2013年1月至8月的空氣質量指數數據進行實證分析，驗證了支持向量機模型在回歸預測方面的作用，為空氣質量預測提供了一種具有實用價值的方法。史學良和李梁[4]等人為解決線性數據可能產生的過擬合現象，利用改進的長短期記憶網絡模型對太原市空氣質量指數進行預測。

考慮到空氣污染數據固有的時空屬性，研究者將空間信息整合到深度學習模型中以提高預測效果，涉及空間建模的典型深度神經網絡主要包括卷積神經網絡和圖神經網絡等。Yeo和Choi[5]等人采用五層卷積神經網絡和三層門控循環單元對首爾地區25個監測站的PM2.5進行實時預測，所提出的方法改善了PM2.5預測的準確率。Faraji和Nadi[6]等人開發了一種針對德黑蘭PM2.5的時空預測模型，該模型將三維卷積神經網絡與門控循環單元相結合以實現PM2.5的短期預測。Wang和Li[7]等人提出了一種長期PM2.5預測模型，該模型采用了圖神經網絡和門控循環單元的組合，提升了模型捕獲細粒度和長期影響的能力。廖若雯和黃恒君[8]提出了一種多視角融合思路，通過建立圖注意力長短期記憶時空預測模型，從空間和時間角度對西安市2021—2023年PM2.5濃度進行預測。

本文將GAT模型與Informer模型融合構建GAT-Informer模型用于預測河南省空氣污染物濃度，GAT對各個站點之間的空間特征進行提取，Informer對各個站點的時間特征進行提取，并將模型與長短期記憶網絡模型、支持向量機回歸模型、歷史平均模型以及時空圖卷積模型[9]進行對比，驗證了模型的有效性。

1 模型構建

1.1 圖注意力網絡（GAT）

圖注意力網絡[10]是一種處理圖數據的深度學習網絡模型，通過自適應地為鄰接節點分配不同的權重來增強節點表示。GAT模型圖注意力層的計算主要有以下兩個關鍵步驟：

1）計算注意力系數。計算空氣質量相鄰站點與目標站點之間的相似系數[eij]，即表示節點[i]對節點[j]的影響系數因子，通過節點[i]和節點[j]之間的距離[dij]計算得到[W]中的每一個元素[wij]。

[eij=a（[Whi‖Whj]），j∈Ni]" " " "（1）

[αij=Softmax（eij）=exp（LeakyReLU（eij））k∈Niexp（LeakyReLU（eik）） ]" " （2）

式中：[Ni]為節點在第[i]個時刻的時間特征，[W]是參數的權重矩陣，通過左乘操作來增加節點特征的維度；LeakyReLU為激活函數，[‖]為將節點特征變換之后的維度進行拼接。新的向量與變換特征維度之后的向量進行內積，然后通過激活函數激活權重，接著對權重進行分配，采用Softmax歸一化將每個節點的相似系數結果進行歸一化處理。

2）計算歸一化注意力系數對應特征的線性組合。

[h'i=σ（j∈NiαijWhj）]" " " " " " "（3）

式中：[h'i]表示GAT輸出新的特征，這個特征融合了自身節點和鄰居節點的信息，[σ]為激活函數。

[h'i（K）=Kk=1 ‖σ（j∈NiαkijWkhj） ]" " "（4）

式中：[αkij]為第[k]組注意力機制計算出的權重系數，[Wk]為對應的輸入向量的線性變換矩陣，[h'i（K）]是最終輸出的每一個節點的特征向量。

1.2 Informer模型

GAT模型在空氣質量監測站點污染物濃度的空間特征提取方面表現優異，但在時間序列的提取能力方面仍有待提升。空氣質量數據的時序特征模型需要充分挖掘時序數據之間的關系，因此本文選擇Informer[11]作為時序特征模型。

Informer模型是一種新型的基于注意力機制的Transformer[12]模型，旨在解決傳統Transformer模型在時間序列預測中遇到的問題，這些問題包括自注意力機制的二次時間復雜度、堆疊層導致的內存瓶頸以及預測速度緩慢等。Informer模型架構如圖1所示。

Informer模型的實現步驟原理如下。

1） Informer模型創新性地引入了KL散度作為衡量注意力分布差異性的工具。較高的KL散度值表明注意力分布中某些部分比均勻分布更具信息重要性或顯著性，從而允許模型更加聚焦于這些關鍵信息點。第[i]個查詢向量query的稀疏性度量公式為：

[M（qi，K）=lnj=1LKeqikTjd-1LKj=1LKqikTjd]" "（5）

式中：第1項是Log-Sum-Exp（LSE），第2項是算術平均值。概率稀疏自注意力計算公式為：

[attention（Q，K，V）=Softmax（QKTd）V]" " "（6）

式中：[Q]、[K]、[V]分別為查詢向量、鍵向量和值向量組成的矩陣，[d]為防止梯度消失而增加的比例因子，[Softmax]為激活函數。

2）自注意力蒸餾機制：通過層間蒸餾，每一層都提煉出核心特征，并在下一層中以此為基礎構建更加高效和集中的自注意力表示。從第[j]層到第[j+1]層的蒸餾過程計算公式為：

[" Xtj+1=MaxPooling（ELU（Conv1d（[Xtj]att）））]" （7）

式中：[att]表示注意力塊，[Conv1d] 表示卷積操作，[ELU]為激活函數，[MaxPooling]為最大池化操作。

3）生成式解碼器架構：生成式解碼器采用經典的架構模式，其核心由兩個并行、結構相同的多頭注意力層構成。解碼器的輸入向量計算公式為：

[Xtfeed_de=Concat（Xttoken，Xt0）?R（Ltoken+Ly）dmodel]" （8）

式中：[Xtfeed_de]為解碼器的第[t]個輸入序列，[Xttoken]為第[t]個輸入序列的起始值，[Xt0]為目標序列的0值占位符。

1.3 GAT-Informer組合預測模型

首先，需要定義GAT-Informer的輸入特征。與通常的時間序列預測不同，每個站點的污染物濃度不僅受到前一時刻污染物濃度的影響，還與相鄰站點的污染物濃度密切相關。為了充分利用站點之間的空間相關性，將所有站點的污染物歷史濃度作為模型的輸入，然后利用GAT對空間維度信息進行聚合，并將處理后的目標節點特征傳遞給Informer。最后，Informer利用GAT傳輸的目標節點特征，實現對目標節點的濃度預測。其算法步驟如下：

1）獲取描述空氣質量中六種污染物濃度的數據（PM2.5、PM10、SO2、CO、NO2、O3），對缺失數據進行填補并進行歸一化處理。

2）利用歸一化后的數據集進行站點相關性分析，將數據集劃分為訓練集、測試集和驗證集，運用GAT-Informer模型進行訓練，并對模型中的超參數進行分析。

3）將測試集數據帶入模型中，最終輸出各個站點去歸一化后的空氣質量污染物濃度數據，模型架構如圖2所示。

2 實證分析

2.1 問題描述

假設有[N]個空氣質量監測站點，用[V={v1，v2，...，vN}]表示空氣質量監測站點的集合，其中每一個站點都包含有小時級別的6種污染物濃度數據。通過設置歷史時間窗口[T]，根據歷史時間窗口[T]中污染物濃數據預測下一個時間段[t]污染物濃度。本文中每次只預測一個污染物濃度數據，用[X={X1，X2，...，XT}]來表示每個站點的特征矩陣。即該目標是預測第[i]個站點未來[t]個時間段的污染物濃度數值，可以用[yi={yT+1i，yT+2i，...，yT+ti}]來表示。

2.2 實驗數據

實驗數據來源于中國環境監測總站[13]，選取河南省100個空氣質量監測站點的數據，時間范圍從2021年1月1日至2023年12月31日，數據為小時級的6種污染物濃度。監測站點的數量如下。鄭州市12個；安陽市6個；鶴壁市5個；焦作市7個；開封市6個；洛陽市10個；漯河市6個；南陽市5個；平頂山市5個；濮陽市4個；三門峽市5個；商丘市4個；新鄉市7個；信陽市4個；許昌市6個；周口市4個；駐馬店市4個。

本文所用環境為Pytorch，采用Adam[14]優化算法對模型進行優化。由于部分站點缺失值比例超過90%，故本文選擇河南省缺失比例較少的100個站點的空氣污染物濃度進行預測。缺失值部分通過線性填充將其補充完整。訓練集、測試集、驗證集的比例為7∶1∶2，滑動窗口長度為12，輸出數據長度也為12，最大訓練次數為50輪，GAT的層數設置為2。將空氣污染物濃度進行歸一化處理。

[a'i=ai-aminamax-amin]" " " " " " （9）

式中：[ai]為數據的第[i]個值，[amax]為該數據中的最大值，[amin]為該數據中的最小值。

2.3 評價標準

為了評估所提出模型的性能，本文選取平均絕對誤差（MAE）、平均絕對百分比誤差（MAPE）、均方根誤差（RMSE）三個評價指標對預測結果的有效性與適用性進行對比分析。MAE、RMSE、MAPE越小，模型的預測效果越好。以下是3個評價指標的計算公式。

[MAE=T=1n|Y（T）-Y（T）|n]" " " " " " （10）

[MAPE=T=1n|（Y（T）-Y（T））/Y（T）|n]" " "（11）

[RMSE=T=1n[Y（T）-Y（T）]2n]" " " " "（12）

式中：[n]表示實驗預測的次數，[Y（T）]和[Y（T）]分別表示真實值和預測值。

2.4 實驗結果

2.4.1 采樣站點污染物濃度預測

本文選取一個抽樣站點，將其6種污染物濃度的真實值與預測值的結果進行表示。其中，黑色曲線表示真實值，灰色曲線表示真預測值，橫坐標表示時間，縱坐標表示6種污染物濃度。在圖3至圖8中，可以看到不同污染物濃度的數據是完全不同的，而且各個污染物的趨勢也大相徑庭。真實值與預測值接近于同一條曲線，表明模型的預測效果良好。因此，本文提出的模型對于站點之間污染物濃度預測是完全可行的。

2.4.2 不同超參數對模型對比分析

每次訓練樣本的大小與學習率在深度學習中對模型效果有至關重要的影響，因此本文對模型的超參數進行分析。分別選取一次性訓練樣本的大小為32、64、128、256，以及學習率為0.01、0.001、0.000 1，對預測PM2.5的結果進行實驗。表1至表3展示了模型在不同時間步訓練得出的評價指標值。

從表中可以看出，RMSE、MAPE、MAE在不同超參數組合下的差距比較大。當每次訓練樣本的大小為128，學習率為0.001時，模型的評價指標值都是最低的。在第3個時間步時，RMSE、MAPE和MAE的值分別為14.971 7、36.687 1和9.197 5；在第6個時間步時，分別為19.213 2、48.684 2和11.844 8；在第12個時間步時，分別為22.708 3、62.705 7和14.715" 6。

因此，基于實驗結果，本文選取每次訓練樣本的大小與學習率分別為128和0.001，以期獲得最佳的模型性能。

2.4.3 模型對比分析

為驗證GAT-Informer模型的有效性和穩定性，本文利用該模型對站點的空氣污染物濃度進行預測，并與長短期記憶網絡模型（LSTM）、支持向量機回歸模型（SVR）、歷史平均模型（HA）和時空圖卷積模型（STGCN）進行對比實驗，以進一步檢驗該模型的預測性能。從表4至表9可以看出，針對不同的污染物數據，GAT-Informer模型中的RMSE、MAPE和MAE的值均比其他幾個模型表現出優越的預測性能。

3 結束語

本文通過對河南省空氣質量的研究，提出了GAT-Informer的空氣質量預測方法，該方法融合了站點的空間與時間雙重特性，優化了污染物濃度數據的建模過程。模型將空氣質量監測站點作為網絡節點，運用圖注意力網絡動態計算并整合相鄰站點間的相互影響權重，同時利用Informer模型的強大時序分析能力，精準捕捉污染物濃度隨時間變化的特征與趨勢。通過對比模型，可以顯著提升預測模型的可解釋性。此外，通過選取三種具有代表性的誤差評估指標，全面衡量模型的預測性能。通過對測試集的進一步驗證，證明了該模型不僅具備良好的預測能力，還展現出較強的泛化潛力。

參考文獻：

[1] 肖悅，田永中，許文軒，等.中國城市大氣污染特征及社會經濟影響分析[J].生態環境學報，2018，27（3）：518-526.

[2] 胡克勇，公雪瑤，劉國曉，等.基于時空深度學習模型的PM2.5預測[J].計算機仿真，2024，41（5）：487-494.

[3] 劉威.基于支持向量機的城市空氣質量時間序列預測模型探究[J].電子測試，2013（20）：44-46.

[4] 史學良，李梁，趙清華.基于改進LSTM網絡的空氣質量指數預測[J].統計與決策，2021，37（16）：57-60.

[5] YEO I，CHOI Y，LOPS Y，et al.Efficient PM2.5 forecasting using geographical correlation based on integrated deep learning algorithms[J].Neural Computing and Applications，2021，33（22）：15073-15089.

[6] FARAJI M，NADI S，GHAFFARPASAND O，et al.An integrated 3D CNN-GRU deep learning method for short-term prediction of PM2.5 concentration in urban environment[J].Science of the Total Environment，2022（834）：155324.

[7] WANG S，LI Y R，ZHANG J，et al.PM2.5-GNN：a domain knowledge enhanced graph neural network for PM2.5 forecasting[C]//Proceedings of the 28th International Conference on Advances in Geographic Information Systems.Seattle WA USA.ACM，2020：163-166.

[8] 廖若雯，黃恒君.基于多視角數據融合的PM2.5濃度預測研究：以蘭州市為例[D].蘭州財經大學學報，2024：1-17.

[9] YU B， YIN H T， ZHU Z X. Spatio-temporal graph convolutional networks： A deep learning framework for traffic forecasting[C]//Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence. Stockholm， Sweden： International Joint Conferences on Artificial Intelligence Organization， 2018： 3634-3640.

[10] VELICKOVIC P， CUCURULL G， CASANOVA A， et al. Graph Attention Networks[C]//International Conference on Learning Representations， 2017.

[11] ZHOU H Y， ZHANG S H， PENG J Q， et al. Informer： Beyond efficient transformer for long sequence time-series forecasting[J]. Proceedings of the AAAI Conference on Artificial Intelligence， 2021， 35（12）： 11106-11115.

[12] VASWANI A， SHAZEER N， PARMAR N， et al. Attention is all you need[C]//NIPS'17： Proceedings of the 31st International Conference on Neural Information Processing Systems， 2017： 6000-6010.

[13] 中國環境監測總站. 空氣質量監測數據[EB/OL]. [2024-04-19]. https：//air.cnemc.cn：18007/.

[14] KINGMA D P， JIMMY B. Adam： A method for stochastic optimization[C]//International Conference on Learning Representations， 2014.

【通聯編輯：唐一東】