



摘 要: 細顆粒物(PM2.5)與大氣環境和人類生活息息相關。城市中PM2.5監測站數量有限,無法提供細粒度PM2.5濃度,而大多數現有的PM2.5濃度推斷方法缺乏根據動態時空特征建立多階相關系數矩陣的能力。為此提出了一種基于注意力機制的PM2.5多階圖卷積網絡推斷模型(MOSTGCNInf)。該模型在利用圖神經網絡提取特征關系的同時,采用注意力機制動態構建多階節點的注意力系數矩陣,并進行時空特征融合來提升PM2.5濃度推斷效果。在公開數據集上進行了對比實驗,使用準確率和F1值作為評價指標,并通過消融實驗驗證了方法的有效性。實驗結果表明,MOSTGCNInf對PM2.5濃度推斷結果有提升作用。
關鍵詞: PM2.5; 相關系數矩陣; 多階圖卷積; 時空特征融合; 注意力機制
中圖分類號: TP399"" 文獻標志碼: A
文章編號: 1001-3695(2022)05-034-1491-05
doi:10.19734/j.issn.1001-3695.2021.10.0471
Attention based PM2.5 multi-order spatio-temporal graph convolutional network inference model
Peng Yifei, Yang Wei
(School of Electronic amp; Information Engineering, Beijing Jiaotong University, Beijing 100044, China)
Abstract: Fine particulate matter(PM2.5) is closely related to the atmospheric environment and human life.The number of PM2.5 monitoring stations in the city is limited,unable to provide fine-grained PM2.5 concentration,and most existing PM2.5 concentration inference methods lack the ability to establish a multi-order correlation coefficient matrix based on dynamic spatial and temporal characteristics.This paper proposed an attention based PM2.5 multi-order spatio-temporal graph convolutional network inference model(MOSTGCNInf).This model used a graph neural network to extract feature relationships,adopted an attention mechanism to dynamically construct an attention coefficient matrix of the order node and performed spatio-temporal feature fusion to improve the PM2.5 concentration inference effect.It carried out comparative experiments on the public data set,used accuracy and F1 value as evaluation indicators,verifying the effectiveness of the method through ablation experiments.Experimental results show that MOSTGCNInf can improve the results of PM2.5 concentration estimation.
Key words: PM2.5; correlation coefficient matrix; graph convolution; spatial-temporal feature fusion; multi-order attention mechanism
0 引言
近年來,空氣污染已成為一個嚴重的問題,特別是對于像中國這樣的發展中國家而言。文獻[1~4]指出,在數小時至數周內暴露于直徑小于2.5 μm的細顆粒物(PM2.5)會增加因心血管疾病和呼吸道疾病入院的風險。文獻[5~7]的研究表明,長期暴露(例如幾年)比幾天內暴露會更大地增加心血管和呼吸道疾病死亡的風險,并使該類人群預期壽命減少幾個月至幾年。有了這些信息,人們就能選擇在PM2.5濃度過高時待在家里,或者遠離污染區域以減少其影響。然而現有監測站遠遠不足以完全覆蓋一個城市。以北京市為例,只有35個監測站,總面積約為16 410.54 km2,即每個監測站所覆蓋的面積最大約為469 km2。Zheng等人[8]指出,城市中的空氣質量呈非線性變化,并取決于多種因素,例如氣象、交通量和土地利用。因此,同一城市中不同位置的PM2.5濃度可能會大不相同,有必要為城市居民提供精確的、高空間分辨率的PM2.5濃度。
最直接的解決方案是建立更多的監測站,但由于建造一個監測站所需成本過高,導致無法部署和維護密集的監測站。每年維護一個空氣質量監測站費用達到六千萬人民幣以上(http://www.mof.gov.cn/index.htm)。此外,建設監測站還涉及土地使用,這進一步增加費用。另一個選擇是利用現有監測站收集的PM2.5濃度和其他空氣質量信息(如SO2、NO2等)建模來推斷監測站未部署區域的PM2.5濃度。研究人員已嘗試使用各種方法來解決此問題,例如半監督協同訓練框架[8]、隨機森林方法[9]和多任務回歸框架[10]。然而由于這些方法要求數據為歐氏結構,所以會造成兩個缺點:一方面,因為監測站數量過少導致數據存在稀疏性問題,通過上述方法恢復出的數據準確率較低;另一方面,由于需要大量相關性較強的輔助數據,導致數據維度過高,難以承受其計算成本。
于是研究人員轉而采用數據結構非歐的圖方法。Hsieh等人[11]利用現有的監測數據以及異構城市動態設計了一個基于親和度矩陣的空氣質量半監督推理模型(AQInf);Kang等人[12]利用高階節點的時空分布設計了一個高階圖卷積空氣質量推斷模型(HGCNInf)。但上述模型仍具有難以捕捉時空特征變化趨勢以及缺乏高空間分辨率數據支撐等缺陷。
為了應對上述挑戰,本文提出了一種新穎的深度學習模型——基于注意力機制的PM2.5多階圖卷積網絡推斷模型(MOSTGCNInf)來推斷任意位置的PM2.5濃度。該模型可以直接在原始的圖卷積網絡上處理特征數據,有效捕捉多階節點信息。本文的主要貢獻基于以下四個方面:
a)成功推斷細粒度的PM2.5濃度,并在真實的數據集上進行廣泛實驗。
b)提出了一種空間注意力網絡,通過站點和推斷位置對應的輸入數據建立多階注意力系數矩陣。
c)設計了一種multi-order圖卷積模塊,將注意力系數矩陣和輸入數據卷積并在空間和時間兩個維度上對卷積輸出結果進行融合。
d)采用了一種半監督self-training算法迭代推斷PM2.5濃度未知區域的PM2.5濃度。
1 相關工作
隨著空氣污染日益受到關注,許多城市都建造了監測站,然而這些監測站分布稀疏,無法提供細粒度空氣質量。研究人員利用傳統歐氏算法模型,通過站點的空氣質量來推斷其他地區空氣質量。Zheng等人[8]提出了一種半監督協同訓練框架推斷空氣質量。該框架由基于人工神經網絡(artifical neural network,ANN)的空間分類器和基于線性鏈條件隨機場(conditional random field,CRF)的時間分類器組成。其中空間分類器以興趣點(point of interests,PoI)的密度和公路長度等空間相關特征作為輸入,對不同地理位置空氣質量之間的空間相關性進行建模。時間分類器以交通狀況和氣象等與時間相關的特征作為輸入來模擬一個位置空氣質量的時間依賴性;Wei等人[9]以衛星遙感、氣象條件、土地利用和人類活動等特征作為輸入,通過隨機森林方法推斷細粒度PM2.5濃度;Zhao等人[10]提出基于時空特征的多任務回歸(stfMTR)框架推斷空氣質量,該框架不僅捕獲單個監測站內的時間依賴性并提供近期空氣質量預測,而且使用空間插值法探索所有站點的空間相關性并推斷任何給定位置的實時空氣質量。但上述方法均忽略了一點,即所有站點在空間上的分布并不是連續的,因此采用歐氏算法不能準確推斷任意位置的PM2.5濃度。
Hsieh等人[11]提出的模型先通過親和度矩陣確定各位置之間的相關性,再采用標簽傳播算法推斷未知任意位置的實時空氣質量。然而,該模型未能建立多階相關系數矩陣,而該矩陣蘊涵著豐富的信息。
Kang等人[12]提出的模型無法根據輸入數據確定節點之間的實時相關系數矩陣,它未能考慮PM2.5數據的動態時空特征。
2 模型設計
2.1 問題闡述及模型框架
本文的研究理論源自光滑假說:給定一個包含N個節點的輸入數據矩陣X,若節點i、j的輸入Xi、Xj相似,則它們具有相似輸出Yi、Yj。由于研究場景為空間區域D在時間段T的PM2.5濃度推斷,所以基于該假說,本文根據經緯度將D劃分為不相交的網格。每一個網格r都有空間和時間兩個維度??臻g維度即地理坐標Dr,時間維度即時刻Tr和兩種數據:光學氣溶膠深度(aerosol optical depth,AOD)、氣象等輸入數據向量Xr和標簽(PM2.5濃度真實值)Yr。假設D有M個網格,則節點個數N=M×T。以節點i為例,它有(Di,Ti,Xi,Yi)。所有節點構成輸入數據矩陣X和標簽向量Y。節點的分布稀疏,其拓撲結構如圖1所示。其中有V個節點(綠色)的標簽YV已知,另外U個節點(橙色)的標簽YU未知(見電子版)。所有單跳(鄰居)節點之間的注意力系數(相關系數)組成注意力系數矩陣A1,所有2跳節點之間的注意力系數組成注意力系數矩陣A2,依此類推。本文的核心任務是通過X建立多階(階數K)注意力系數矩陣A{K}={A1,A2,…,AK},然后采用self-training迭代算法以達到YV推斷YU的目的。
為實現上述目標,本文提出基于注意力機制(attention mechanism)的PM2.5多階圖卷積網絡模型(MOSTGCNInf)。如圖2所示,MOSTGCNInf由attention、multi-order圖卷積、fully-connected和self-training優化模塊組成。attention模塊通過X建立A{K};multi-order圖卷積模塊將A{K}與X卷積并融合卷積結果,得到XB;全連接模塊對XB進行線性變換得到PM2.5濃度預測概率分布P;self-training優化模塊采用偽標簽[13]技術推斷YU。
3.2.2 多階節點對MOSTGCNInf的作用
該實驗探究了K對MOSTGCNInf模型推斷性能的影響。實驗中考慮了五種不同情況(即K=1,2,3,4,5),其他實驗條件的設置則與3.2.1節相同。最終的實驗結果如圖7~9所示。
從圖8可以看到,當K=2時,MOSTGCNInf的性能度量要明顯好于K=1的MOSTGCNInf,而當Kgt;2時,accuracy有波動,但仍穩定在0.8以上,其中當K=3或5時accuracy最高,達到0.83,而模型的訓練時間t與K呈正線性關系,綜上所述,當K=3時,MOSTGCNInf的推斷效果最優。
從圖9、10可以看到,無論K值是多少,MOSTGCNInf在C0上效果都是最好的,并且在C中的性能指標都各有好壞。例如當C0或C1時,K=1的accuracy和F1均明顯低于K=2;然而當Cgt;2時的結果卻明顯相反。對于效果最好的K=3和K=5時的MOSTGCNInf模型,它們的性能指標雖然有波動,但大體相似,并且都比K=1的accuracy和F1高出不少。所以這仍能說明本文采用多階節點融合的辦法是有效的。
4 結束語
本文提出了一種基于注意力的半監督高階時空圖卷積網絡模型MOGATInf,并成功應用于推斷PM2.5濃度。 該模型捕捉了特征數據的時空特性,應用attention機制、multi-order圖卷積。在真實數據集上的實驗表明,所提出模型的性能度量優于現有模型。
不過仍有一個問題尚未解決:MOGATInf需要對整個數據進行訓練、驗證和測試,如果有需求對一個新節點進行推斷則必須重構節點關系并重新訓練模型。實際上,PM2.5濃度受到許多外部因素的影響,如汽車尾氣排放和工廠廢氣排放等人類活動。未來將考慮這些外部影響因素,進一步提高推斷精度。 由于MOGATInf 是圖結構數據的通用時空推斷框架,所以也可以將其應用于其他場景,如股票預測。
參考文獻:
[1]Brook R D,Rajagopalan S,Pope Ⅲ C A,et al.Particulate matter air pollution and cardiovascular disease an update to the scientific statement from the American Heart Association [J].Circulation,2010,121(21):2331-2378.
[2]Dominici F,Peng R D,Bell M L,et al.Fine particulate air pollution and hospital admission for cardiovascular and respiratory diseases [J].Jama-Journal of the American Medical Association,2006,295(10):1127-1134.
[3]Peters A,Dockery D W,Muller J E,et al.Increased particulate air pollution and the triggering of myocardial infarction [J].Circulation,2001,103(23):2810-2815.
[4]Schwartz J,Dockery D W,Neas L M.Is daily mortality associated specifically with fine particles? [J].Journal of the Air amp; Waste Management Association,1996,46(10):927-939.
[5]Laden F,Schwartz J,Speizer F E,et al.Reduction in fine particulate air pollution and mortality-extended follow-up of the Harvard six cities study [J].American Journal of Respiratory and Critical Care Medicine,2006,173(6):667-672.
[6]Lelieveld J,Evans J S,Fnais M,et al.The contribution of outdoor air pollution sources to premature mortality on a global scale [J].Nature,2015,525(7569):367-371.
[7]Miller K A,Siscovick D S,Sheppard L,et al.Long-term exposure to air pollution and incidence of cardiovascular events in women [J].New England Journal of Medicine,2007,356(5):447-458.
[8]Zheng Yu,Liu Furui,Hsieh H P.U-air:when urban air quality infe-rence meets big data [C]//Proc of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2013:1436-1444.
[9]Wei Jing,Huang Wei,Li Zhanqing,et al.Estimating 1-km-resolution PM2.5 concentrations across China using the space-time random forest approach [J].Remote Sensing of Environment,2019,231(4):111221.
[10]Zhao Xiangyu,Xu Tong,Fu Yanjie,et al.Incorporating spatio-temporal smoothness for air quality inference [C]//Proc of IEEE International Conference on Data Mining.Piscataway,NJ:IEEE Press,2017:1177-1182.
[11]Hsieh H P,Lin S D,Zheng Yu.Inferring air quality for station location recommendation based on urban big data [C]//Proc of the 21st SIGKDD Conference on Knowledge Discovery and Data Mining.2015:437-446.
[12]Kang Yu,Chen Jie,Cao Yang,et al.A higher-order graph convolutional network for location recommendation of an air-quality-monitoring station [J].Remote Sensing,2021,13(8):1-25.
[13]Lee D H.Pseudo-Label:the simple and efficient semi-supervised learning method for deep neural networks [C]//Proc of ICML Workshop:Challenges in Representation Learning.2013.
[14]劉欣.我國PM2.5污染狀況和污染特征探析[J].中國科技縱橫,2016(7):9. (Liu Xin.Analysis of China’s PM2.5 pollution status and pollution characteristics[J].Chinese Science amp; Technology Overview,2016(7):9.)
[15]孔珊珊,劉厚鳳,陳義珍.基于后向軌跡模式的北京市PM2.5來源分布及傳輸特征探討[J].中國環境管理,2017,9(1):86-90. (Kong Shanshan,Liu Houfeng,Chen Yizhen.Discussion on the source distribution and transmission characteristics of PM2.5 in Beijing based on backward trajectory model [J].Chinese Journal of Environmental Management,2017,9(1):86-90.)
[16]Guo Shengnan,Lin Youfang,Feng Ning,et al.Attention based spatial-temporal graph convolutional networks for traffic flow forecasting [C]//Proc of the 33rd AAAI Conference on Artificial Intelligence.2019:922-929.
[17]Ishida T,Yamane I,Sakai T,et al.Do we need zero training loss after achieving zero training error?[C]//Proc of the 37th International Conference on Machine Learning.2020.
[18]Chen Tianqi,Guestrin C.XGBoost:a scalable tree boosting system[C]//Proc of the 22nd ACM SIGKDD International Conference.2016.
[19]Kipf T N,Welling M.Semi-supervised classification with graph convolutional networks[C]//Proc of the 5th International Conference on Learning Representations.2017:1-14.