史江振 竇燕



摘要隨著社會的發(fā)展和公眾環(huán)保意識的增強,空氣質(zhì)量日益成為公眾關注的問題。預測未來空氣質(zhì)量情況,有利于提前采取污染防治措施和居民活動選擇。以污染物因素和氣象因素作為空氣質(zhì)量指數(shù)預測指標,建立基于Stacking融合的預測模型,利用新疆烏魯木齊市2016年1月至2021年12月的空氣污染物監(jiān)測數(shù)據(jù)和氣象數(shù)據(jù),對烏魯木齊市空氣質(zhì)量情況進行了預報,并與其他算法進行了對比。研究結(jié)果表明:Stacking融合模型在AQI數(shù)值預測方面的性能優(yōu)于其他對比模型,具有良好的預測效果。
關鍵詞 空氣質(zhì)量預測;Stacking融合模型;空氣質(zhì)量指數(shù)
中圖分類號:X51 文獻標識碼:B 文章編號:2095–3305(2023)04–0125-04
隨著工業(yè)和制造業(yè)的發(fā)展、車輛保有量的增加,以及城市化的發(fā)展,大氣環(huán)境問題愈加突出[1]。大氣污染物的濃度對大氣環(huán)境質(zhì)量有很大的影響,尤其是PM2.5、PM10等,它們直接影響能見度,會對吸入者的心血管系統(tǒng)產(chǎn)生不良影響。因此,如何提高空氣質(zhì)量預測的準確性引起了眾多學者的關注。選擇空氣質(zhì)量指數(shù)(AQI)作為大氣污染預報的對象。AQI的變化受多種因素的影響,如PM2.5、PM10、SO2、CO、NO2、O3、溫度、氣壓、濕度、可見度、露點等。
目前,空氣質(zhì)量預測法主要有潛式預報、數(shù)值預報、統(tǒng)計預報3類[2]。主要被應用于數(shù)值預報,污染天氣的出現(xiàn)是多種因素綜合作用的結(jié)果,研究表明,污染天氣與細微顆粒物濃度存在一定的關系[3]。楊思琪等[4]將隨機森林分類和回歸算法應用于預測城市空氣質(zhì)量狀況的研究,發(fā)現(xiàn)隨機森林算法在AQI等級和AQI數(shù)值的預測方面,表現(xiàn)出了較好的性能。肖德林等[5]采用CMAQ模型進行預測,發(fā)現(xiàn)對PM2.5濃度、主要污染物和空氣質(zhì)量等級的預測準確率低于人工預測,對AQI的預測準確率高于人工預測。鄭紅等[6]提出一種聯(lián)合訓練模型MLP&ST模型模擬對北京市未監(jiān)測區(qū)域未來時刻的AQI值進行預測,綜合考慮氣象因素和時空相關性對空氣質(zhì)量的影響。萬永權等[7]考慮到氣象因素對污染物濃度變化的巨大影響,提出了一種神經(jīng)網(wǎng)絡模型two-phase neural network(2-NN),該模型在短期內(nèi)對空氣質(zhì)量指數(shù)進行預測時比傳統(tǒng)方法的準確率更高。張春露[8]應用LSTM時間序列模型對太原市空氣質(zhì)量AQI指數(shù)進行預測,該模型具有精度高、預測時間長、適應性強等優(yōu)點,能夠完全逼近非線性映射。史學良等[9]提出了改良后的EEMD-LSTM預測模型,與以往的模型相比,其具有更強的泛化能力和更高的預測精度。方偉等[10]提出了基于時空相似LSTM的空氣質(zhì)量預測模型,通過結(jié)合STS-LSTM模型,可以得出更穩(wěn)定的最終空氣質(zhì)量預測結(jié)果。楊張婧等[11]提出了時空特性空氣質(zhì)量預測算法,以LSTM-CNN混合模型在開放數(shù)據(jù)集中得到了更好的預測結(jié)果。有學者研究了LSTM-RNN模型在空氣質(zhì)量預測任務中的性能,并設計了低成本的傳感器節(jié)點,以形成監(jiān)測空氣質(zhì)量的無線傳感器網(wǎng)絡。
此處建立了一種基于Stacking融合模型的空氣質(zhì)量預測方法,將GBDT、Lasso和XGBoost作為基學習器,將線性回歸Linear Regression作為元學習器構建Stacking預測模型。該算法考慮了不同模型的差異,并結(jié)合了不同算法的優(yōu)點,通過種異質(zhì)算法的融合,取長補短,而且通過采用交叉驗證的方法,可以避免數(shù)據(jù)泄露,增強預測效果,實現(xiàn)比單一模型更強的預測性能。
1 算法介紹
1.1 Stacking算法
Stacking模型本質(zhì)上是一種分層結(jié)構,個體學習器被稱為初級學習器,組合的學習器被稱為次級學習器或元學習器,次級學習器用于訓練的數(shù)據(jù)被稱為次級訓練集。二次訓練集在訓練集上用一次學習器得到。通過將不同的算法融合,達到比組成它的基算法具有更高的準確率和更強的泛化能力[12]。其主要算法步驟如下:
第一步,為輸入訓練集、初級學習算法和次級學習算法。
第二步,為訓練初級學習器,使用訓練過的初級學習器進行預測,將預測結(jié)果作為次級學習器的訓練集。
第三步,為將初級學習器預測的結(jié)果訓練到次級學習器,得到最終訓練的模型。
1.2 XGBoost
XGBoost是一個提升樹可擴展的機器學習系統(tǒng)[15]。XGBoost的核心算法思想大致如下:
第一步,添加樹,重復特征分裂使一棵樹生成,每次添加樹意味著學習新的函數(shù)f(x),以便與前次預測的殘差擬合。
第二步,模型完成訓練后,XGBoost模型由k個樹模型組成,要預測1個樣本的特征,這是指根據(jù)樣本的輸入特征,在每棵樹中都必須找到1個對應的葉子節(jié)點,每個葉子節(jié)點對應1個值。
第三步,將k棵樹對應葉子節(jié)點的值加起來得出模型的輸出值,即樣本某個特征的預測值。
1.3 Lasso算法
使用L1正則化的模型被稱為Lasso回歸,是一種客觀選取有效變量,解決多重共線性等問題的估計方法。為了使回歸模型的殘差平方和最小,對回歸系數(shù)的絕對值的和施加懲罰項。對等于零的回歸系數(shù)進行篩選。回歸的核心是在普通線性回歸的基礎上添加L1懲罰項。
其中,t與λ一一對應,為調(diào)節(jié)系數(shù)。
令t0=(OLS),當t<t0時,一些參數(shù)值被壓縮為0,自動篩除,使線性回歸模型的參數(shù)維度減小。
1.4 GBDT算法
GBDT (Gradient Boosting Decision Tree)是機器學習中成熟的模型,它的優(yōu)點是訓練效果好,不易過擬合等。為了得到最佳模型,需要用弱分類器(決策樹)反復訓練。實現(xiàn)GBDT算法的框架是Light GBM,支持高效的并行訓練、更快的訓練速度、更低的內(nèi)存消耗、更高的精度,支持分布式快速處理、大量數(shù)據(jù)等優(yōu)點。它將弱學習器模型以迭代的方式組合成強學習器,可以處理稀疏數(shù)據(jù),靈活實現(xiàn)分布式并行計算,已經(jīng)被廣泛應用于分類、回歸預測等機器學習問題。
2 實例分析
2.1 數(shù)據(jù)獲取
所用數(shù)據(jù)為2016年1月1日至2021年12月31日烏魯木齊市6項污染物監(jiān)測數(shù)據(jù)和氣象數(shù)據(jù),空氣質(zhì)量指數(shù)和污染物濃度數(shù)據(jù)來源于中國環(huán)境總站全國城市空氣質(zhì)量實時監(jiān)測平臺(http://www.aqistudy.cn/),該平臺數(shù)據(jù)均來自國家環(huán)境保護部,污染物數(shù)據(jù)選取PM10、PM2.5、SO2、NO2、O3、CO日平均濃度。氣象數(shù)據(jù)來源于RP5國際交換氣象站(rp5.ru),實際天氣數(shù)據(jù)由地面氣象站通過氣象數(shù)據(jù)國際自由交換系統(tǒng)提供,包括溫度、大氣壓、濕度、風速、可見度、露點等指標。
2.2 數(shù)據(jù)處理
通常在獲取的數(shù)據(jù)中有缺失和離群值,缺失值會影響模型預測的準確性,因此,訓練之前要對所收集的樣本進行預處理。由于這一時段前后的污染濃度對大氣污染的影響較大,而最近鄰插值更能反映出與原始數(shù)據(jù)相近的數(shù)據(jù)抖動,因此用最近鄰插值處理缺失值。
數(shù)據(jù)歸一化,將不同尺度、數(shù)量級的資料合并在一起,會產(chǎn)生很大的誤差,因此,選用一種基于標準差法的歸一化調(diào)整。
其中,u和σ分別為向量x的均值和標準差。
在數(shù)據(jù)集的劃分中,模型要有好的泛化能力,需要在訓練過的數(shù)據(jù)集和沒有訓練過的數(shù)據(jù)集上同時得出良好的結(jié)果。因此,將數(shù)據(jù)集分成2個部分,訓練集和測試集的比例為4∶1。
2.3 主要大氣污染物與氣象條件相關性分析
采用Pearson相關系數(shù)法計算大氣污染物濃度與氣象條件的相關關系,公式如下:
分別計算各個指標間的相關系數(shù),可看出AQI值與PM10、PM2.5、CO相關性較大,相關系數(shù)熱力如圖1所示。
在圖1中,橫縱坐標為各個指標,顏色代表相關性,通過對烏魯木齊市主要污染物濃度實測數(shù)據(jù)與氣象因素的相關性分析,得到結(jié)果如下:在各要素中,PM10、PM2.5、O3、SO2與濕度呈顯著正相關性;PM10、PM2.5、NO2、SO2、CO與溫度呈負相關,O3與溫度呈正相關;O3與風速呈正相關;PM10、PM2.5、CO、NO2、SO2與氣壓呈顯著正相關。
2.4 評價指標
采用以下3個指標評價所涉及空氣質(zhì)量預測模型的性能,分別是平均絕對誤差(MAE)、均方根誤差(RMSE)和決定系數(shù)(R2)。其中,平均絕對誤差MAE經(jīng)常被用于對回歸模型的誤差判斷。回歸模型的預測誤差越小,MAE越小,反之則越大。
均方根誤差RMSE是真實值與預測值之差的平方與觀測次數(shù)比值的平方根,可以很好地表示測量的精密度。RMSE越小,表示模型精密度越高。
可決系數(shù)R2表示自變量解釋的變異程度占總的變異程度的比例,2越接近1,表示該模型的準確度越高,2有可能為負值。
3 結(jié)果及分析
如表2所示,在這3個模型中,測試集中衡量指標值的大小按照模型的順序排列為:RMSE:Lasso>XGBoost>GBDT>Stacking;MAE:Lasso> XGBoost>GBDT>Stacking;R2:Stacking>GBDT>XGBoost>Lasso;綜合分析可知,與另外幾種算法相比,Stacking模型對AQI的預測效果更好,測試集上的均方誤差也較為穩(wěn)定,穩(wěn)健性能也更好,在一定程度上體現(xiàn)了算法的優(yōu)勢,所以可考慮將該算法被用于AQI的預測。結(jié)合圖2可以發(fā)現(xiàn),Stacking融合模型對AQI的預測近乎與實際數(shù)據(jù)曲線重合,預測十分有效,具有極高的準確度。
4 結(jié)束語
利用Stacking融合模型預測了空氣質(zhì)量指數(shù),在數(shù)據(jù)處理階段,填補了缺失值,并對數(shù)據(jù)做了歸一化處理,以此減輕奇異樣本數(shù)據(jù)導致的不良影響。然后搭建Stacking融合模型,選擇損失函數(shù)及優(yōu)化器,劃分訓練集與測試集。最后,將歸一化后的烏魯木齊市2016—2021年數(shù)據(jù)輸入搭建好的模型中,使用訓練集數(shù)據(jù)訓練模型,測試集被用于最后評估模型的性能。通過與其他算法作對比,結(jié)果表明Stacking融合模型在AQI數(shù)值預測方面的性能優(yōu)于上述算法,Stacking融合模型充分結(jié)合了基學習器的優(yōu)勢與差異,以不同基學習器的優(yōu)勢提升和彌補其模型的不足,達到“揚長避短”,可以有效地提高模型的預測精度和泛化能力,能為污染預警、空氣污染治理及公民出行提供一定的支持。
參考文獻
[1] 陳誠,陳婷.長江沿線化工企業(yè)拆遷與搬離對荊州市空氣質(zhì)量的影響[J].公共衛(wèi)生與預防醫(yī)學,2022,33(2):35-41.
[2] 張美根,韓志偉,雷孝恩.城市空氣污染預報方法簡述[J].氣候與環(huán)境研究, 2001(1):113-118.
[3] 謝潔嵐,廖志恒,許欣祺,等.基于車載雷達探測的一次華北冬季重污染天氣成因研究[J].環(huán)境科學學報,2023,43(1): 255-263.
[4] 楊思琪,趙麗華.隨機森林算法在城市空氣質(zhì)量預測中的應用[J].統(tǒng)計與決策,2017(20):83-86.
[5] 肖德林,鄧仕槐,鄧小函,等.達州市城區(qū)環(huán)境空氣質(zhì)量變化趨勢及CMAQ模型預報分析[J].中國環(huán)境監(jiān)測,2021,37 (4):92-103.
[6] 鄭紅,程云輝,胡陽生,等.基于MLP&ST模型的空氣質(zhì)量預測[J].應用科學學報,2022,40(2):302-315.
[7] 萬永權,徐方勤,燕彩蓉,等.融合氣象參數(shù)及污染物濃度的空氣質(zhì)量預測方法[J].計算機應用與軟件,2018,35(8): 113-117.
[8] 張春露.基于Tensorflow的LSTM在太原空氣質(zhì)量AQI指數(shù)中的分析與預測[D].太原:中北大學,2019.
[9] 史學良,李梁,趙清華.基于改進LSTM網(wǎng)絡的空氣質(zhì)量指數(shù)預測[J].統(tǒng)計與決策,2021,37(16):57-60.
[10] 方偉,朱潤蘇.基于時空相似LSTM的空氣質(zhì)量預測模型[J].計算機應用研究,2021,38(9):2640-2645.
[11] 楊張婧,閻威武,王國良,等.基于大數(shù)據(jù)的城市空氣質(zhì)量時空預測模型[J].控制工程,2020,27(11):1859-1866.
[12] 陸萬榮,許江淳,李玉惠.面向Stacking集成的改進分類算法及其應用[J].計算機應用與軟件,2022,39(2):281-286.
責任編輯:黃艷飛
Abstract With the development of society and the improvement of public environmental awareness, air quality has increasingly become a public concern. Predicting the future air quality will help the government to take pollution prevention measures and residents choice of activities in advance. In this paper, pollutant factors and meteorological factors were used as the prediction indicators of air quality index, and a prediction model based on Stacking fusion was established. The air pollution monitoring data and meteorological data of Urumqi from January 2016 to December 2021 are used to forecast the air quality of Urumqi, and compared with other algorithms. The research results show that the Stacking fusion model has better performance in AQI numerical prediction than other comparison models, and has good prediction effect.
Key words Air quality prediction; Stacking fusion model; Air quality index
作者簡介 史江振(1995—),男,湖北宜昌人,主要從事大數(shù)據(jù)分析研究。*通信作者,竇燕(1981—),女,新疆烏魯木齊人,教授,主要從事資源環(huán)境統(tǒng)計和大數(shù)據(jù)應用研究,E-mail:douyan129@126.com。