













摘要:為快速準(zhǔn)確模擬蘭州市臭氧濃度,利用隨機森林(RF)和極端梯度提升(XGB)2種機器學(xué)習(xí)模型,結(jié)合ERA5氣象數(shù)據(jù)、MEIC清單數(shù)據(jù)和蘭州市空氣質(zhì)量監(jiān)測數(shù)據(jù),對蘭州市2020年近地面8 h滑動平均臭氧濃度ρ(O3_8h)進行模擬。通過SHAP方法評估變量的重要性,篩選出對模型貢獻最大的變量,分別構(gòu)建簡化模型RF7和XGB7,并比較其與全變量模型(RF_A和XGB_A)的模擬效果和運行效率。結(jié)果表明,RF7和XGB7模型在4個監(jiān)測站點的模擬效果與全變量模型接近,但計算效率顯著提高,模擬時間減少87.97%,96.68%;不同站點對ρ(O3_8h)的影響因素存在差異,說明在簡化模型訓(xùn)練數(shù)據(jù)時需因地制宜。研究表明使用SHAP簡化變量的方法在提高模擬效率的同時,能夠保持模型的準(zhǔn)確性,為蘭州市臭氧污染的快速預(yù)測提供途徑。
關(guān)鍵詞:變量篩選;機器學(xué)習(xí);臭氧模擬
中圖分類號:X51文獻標(biāo)志碼:A
0引言
近地面臭氧(O3)是一種典型的二次污染物,主要由揮發(fā)性有機物(VOCs)和氮氧化物(NOx)之間的光化學(xué)反應(yīng)形成[1-3],其不僅對大氣化學(xué)反應(yīng)、氣候變化及空氣質(zhì)量有重要影響,對人類及動植物的健康亦造成一定危害。自中共十八大以來,國家接續(xù)實施了《大氣污染防治行動計劃》《打贏藍天保衛(wèi)戰(zhàn)三年行動計劃》等,在控制PM2.5等污染的問題上已經(jīng)取得實質(zhì)性進展[4]。但與此同時,近地面O3污染卻日益嚴(yán)重,2022年全國有92個城市存在O3污染超標(biāo)問題[5],同時部分地區(qū)PM2.5由一次污染轉(zhuǎn)變?yōu)槎挝廴緸橹鳎髿鈴?fù)合污染形勢變得愈發(fā)復(fù)雜,成為推進大氣環(huán)境污染治理進程和環(huán)境空氣質(zhì)量持續(xù)改善的一大阻礙[6]。
蘭州市作為中國西北地區(qū)的重要城市,地形復(fù)雜,四面環(huán)山,城市風(fēng)速較低,易導(dǎo)致污染物在近地面層的積累和停留,形成獨特的大氣污染特征,同時由于干燥的氣候和較高的光照強度,夏季的光化學(xué)反應(yīng)活躍,極易形成臭氧污染。這些因素共同導(dǎo)致了蘭州市的大氣污染問題呈現(xiàn)出顯著的季節(jié)性和復(fù)雜性。
機器學(xué)習(xí)模型由于其具備的對線性和非線性信息較強的學(xué)習(xí)能力,已成功應(yīng)用于環(huán)境空氣質(zhì)量預(yù)測,且獲得了較好的結(jié)果[7-12]。目前隨機森林(Ran?dom Forest)、極端梯度提升(Extreme Gradient Boost?ing)等機器學(xué)習(xí)方法在京津冀及周邊地區(qū)、汾渭平原及長三角地區(qū)已開展了大量O3預(yù)報及相關(guān)研究工作[13-20],但在蘭州市的研究相對其他地區(qū)較少。
研究使用ERA5氣象數(shù)據(jù)、大氣污染物排放清單及環(huán)境空氣質(zhì)量監(jiān)測數(shù)據(jù)構(gòu)建訓(xùn)練數(shù)據(jù)集,使用隨機森林和極端梯度提升2種廣泛應(yīng)用于空氣質(zhì)量研究的機器學(xué)習(xí)方法分別構(gòu)建RF_A與XGB_A模型對蘭州市2020年近地面ρ(O3_8h)進行模擬;耦合Shapley Additive explanation(SHAP)方法分析O3污染形成過程中的主要貢獻變量,基于變量重要性分別建立簡化模型RF7與XGB7并再次進行ρ(O3_8h)模擬,比較變量篩選前后2種模擬結(jié)果及效率,驗證使用SHAP簡化模型的可行性,為建立一個簡單高效可行的城市ρ(O3_8h)模擬方法提供參考。
1數(shù)據(jù)與方法
1.1數(shù)據(jù)與來源
構(gòu)建機器學(xué)習(xí)模型所使用的數(shù)據(jù)集,包括2015年1月1日至2020年12月31日榆中蘭大、鐵路設(shè)計研究院、生物制品所、蘭煉賓館等4個國控站點的逐小時污染物監(jiān)測數(shù)據(jù);大氣污染物排放清單數(shù)據(jù)則源自中國多尺度排放清單模型(Multi-resolution emission inventory for China,MEIC),空間分辨率為0.1°×0.1°,時間分辨率為每月[20];氣象觀測數(shù)據(jù)采用歐洲中尺度天氣預(yù)測中心(European Centre for Me?dium-Range Weather Forecasts,ECMWF)提供的時間分辨率為1h,空間分辨率為0.25°×0.25°的ERA5再分析數(shù)據(jù);同時將時間信息作為輸入變量參與構(gòu)建訓(xùn)練數(shù)據(jù)集,研究選取變量見表1。
(1)清單處理
參照SMOKE模型(https://cmascenter.org/smoke/)內(nèi)置的時間分配方案[21],將MEIC清單全部門每月的排放總量數(shù)據(jù)分配為逐小時排放量。
(2)數(shù)據(jù)處理
采用雙線性插值方法將各變量插值到模擬站點所在位置,對各特征變量的時空分辨率進行統(tǒng)一,同時對于缺測或異常值較多的小時數(shù)據(jù)進行剔除,蘭煉賓館、生物制品所、鐵路設(shè)計院、榆中蘭大校區(qū)站點剔除異常數(shù)據(jù)分別為2 359條、3 068條、2 459條、3 370條,異常數(shù)據(jù)占比為0.04%~0.06%。
(3)數(shù)據(jù)歸一化
利用機器學(xué)習(xí)方法構(gòu)建模型時,由于各種數(shù)據(jù)觀測值量級相差較大,可能會對模型的泛化性能造成影響,因此訓(xùn)練數(shù)據(jù)需要進行歸一化處理[22]。公式如下:
Xnorm=(1)
式中:Xnorm表示歸一化后數(shù)據(jù),X為監(jiān)測數(shù)據(jù),Xmin為監(jiān)測數(shù)據(jù)最小值,Xmax為監(jiān)測數(shù)據(jù)最大值。
(4)數(shù)據(jù)集劃分
構(gòu)建模型時按照時間順序?qū)υ紨?shù)據(jù)集進行劃分,將處理后的各站點2015—2019年數(shù)據(jù)(分別占原始數(shù)據(jù)集的82%、83%、82%、82%)作為模型訓(xùn)練集,2020年數(shù)據(jù)(分別占原始數(shù)據(jù)集的18%、17%、18%、18%)作為模型測試集。
1.2機器學(xué)習(xí)模型
隨機森林算法和極端梯度提升算法在解決復(fù)雜非線性問題中具有一定的優(yōu)勢,故選取隨機森林回歸(Random Forest Regression)與XGB回歸(ex?treme Gradient Boosting Regression)算法進行蘭州市ρ(O3_8h)模擬,模型搭建利用Python語言中的xgboost庫與sklearn庫中的Random Forest Regressor模塊。
通過調(diào)整隨機森林算法與極端梯度提升算法的常規(guī)參數(shù)來獲得更好的模擬效果,以得到最優(yōu)參數(shù)建立模型,其中,隨機森林算法調(diào)整的參數(shù)包括決策樹的數(shù)量(n_estimators)、決策樹的最大深度(max_depth)、最小子葉數(shù)(min_samples_leaf)和節(jié)點可分的最小樣本(min_samples_split);極端梯度提升算法調(diào)整的參數(shù)包括決策樹的數(shù)量(n_estimators)、最小子葉權(quán)重(min_child_weight)、決策樹的最大深度(max_depth)、學(xué)習(xí)率(learning_rate)。算法其余參數(shù)設(shè)為默認(rèn)值,進行3折交叉驗證得到算法最優(yōu)模型用于ρ(O3_8h)模擬。
1.3 SHAP模型解釋方法
SHAP是由Lundberg等[23]提出的一種基于合作博弈論的模型解釋方法,不僅考慮單個變量的影響,而且考慮變量之間的協(xié)同效應(yīng),解決了多重共線性問題。其原理是使用所有可能的變量子集對訓(xùn)練好的模型進行再次訓(xùn)練,為每個特征變量分配一個重要性值,以量化解釋各個特征變量的貢獻。Python中shap庫用于對使用隨機森林和極端梯度提升算法構(gòu)建的RF_A與XGB_A模型中的所有變量進行重要性量化。通過創(chuàng)建shap.Explainer對象來構(gòu)建SHAP解釋器用于記錄模型訓(xùn)練過程,將RF_A模型和XGB_A模型的訓(xùn)練數(shù)據(jù)傳遞給解釋器。最后使用解釋器中的shap_values計算每個特征變量的SHAP值,公式如下:
O3(i) =O3(base) +∑j(s)=1shap(xij)""""""""""""""""""" (2)
式中:O3(i)為模型模擬的O3濃度(樣本i),O3(base)為O3模擬濃度的平均值,shap(xij)為特征變量j對O3(i)的貢獻值,s為特征變量總數(shù)。
由于變量維度過高的數(shù)據(jù)可能會使模型難以識別有意義的特征,而且無關(guān)特征在訓(xùn)練和推理過程中會占用額外的計算資源,不僅會影響模擬速度,還可能導(dǎo)致過擬合,因此嘗試耦合SHAP方法來定量解釋各變量對機器學(xué)習(xí)模型最終所得模擬濃度的貢獻值,去除冗余變量,并使用貢獻較高的變量構(gòu)建新數(shù)據(jù)集,重新進行參數(shù)尋優(yōu)和訓(xùn)練,得到篩選變量后的機器學(xué)習(xí)模型RF7與XGB7,整體研究思路如圖1所示。
1.4評估指標(biāo)與參數(shù)設(shè)置
(1)模型評估指標(biāo)
選擇平均絕對誤差(MAE)、均方根誤差(RMSE)、決定系數(shù)(R2)、標(biāo)準(zhǔn)化均方誤差(NMB)和標(biāo)準(zhǔn)化均方誤差(NME)對模型模擬的ρ(O3_8h)小時值和日最大值進行評估,其中,MAE直接反映預(yù)測誤差的平均水平,可對數(shù)據(jù)平均誤差進行有效評估;RMSE對較大誤差值敏感,可對模擬值與監(jiān)測值的偏差進行有效評估;R2表示模型對觀測數(shù)據(jù)變異的解釋程度,便于不同模型和數(shù)據(jù)集間的比較;NMB可以反映預(yù)測偏差的方向和相對誤差,NME則通過標(biāo)準(zhǔn)化提供不同量級數(shù)據(jù)的相對準(zhǔn)確性評估。通過這些指標(biāo),可以從多個角度較為全面地評估模型的表現(xiàn)。
式中:yi代表真實值,y(?)i代表預(yù)測值,m為樣本總數(shù)。
(2)模型參數(shù)取值
經(jīng)過參數(shù)尋優(yōu)得到最優(yōu)模型的超參數(shù)取值,見表2。
2結(jié)果與討論
2.1全變量模擬結(jié)果
參與訓(xùn)練模型XGB_A與RF_A的數(shù)據(jù)集由37種與O3污染相關(guān)的變量組成,根據(jù)各變量間的Pear?son相關(guān)系數(shù)(以生物制品所站點為例)對變量進行初步分析,其中具有強相關(guān)性的變量為ERA5數(shù)據(jù)中的pev與uvb和blh(相關(guān)系數(shù)小于-0.9),uvb與ssrd(相關(guān)系數(shù)大于0.9),使用SMOKE時間分配系數(shù)分配得到的小時MEIC污染物排放數(shù)據(jù)均存在較強正相關(guān)(相關(guān)系數(shù)大于0.98),除上述變量外,其余各變量之間相關(guān)系數(shù)絕對值均小于0.5,無明顯相關(guān)性。各站點RF_A與XGB_A模型指標(biāo)評價結(jié)果,見表3。參考《環(huán)境空氣質(zhì)量模型遴選工作指南(試行)》文件中給出的ρ(O3)模擬模型準(zhǔn)確性評價標(biāo)準(zhǔn)(-15%lt;NMBlt;15%,NMElt;35%),2種模型的評估指標(biāo)在各個站點均滿足標(biāo)準(zhǔn)要求。
將不同模型ρ(O3_8h)日最大值模擬結(jié)果與站點實際監(jiān)測值進行對比,結(jié)果如圖2所示。2種模型均可識別并模擬出不同季節(jié)ρ(O3_8h)日最大值的基本變化規(guī)律;在蘭煉賓館、生物制品所、鐵路設(shè)計院站點RF_A與XGB_A模型得到的ρ(O3_8h)日最大值與監(jiān)測值變化趨勢一致,模擬效果接近,在榆中蘭大站點RF_A的模擬效果更優(yōu)。
將不同模型全年ρ(O3_8h)小時值模擬值與監(jiān)測值進行對比,結(jié)果如圖3所示。2種模型對于各個站點的ρ(O3_8h)小時值都可以進行較好模擬。根據(jù)相關(guān)系數(shù)表現(xiàn),2種模型在4個站點的相關(guān)性表現(xiàn)一致,均為:生物制品所gt;鐵路設(shè)計院gt;蘭煉賓館gt;榆中蘭大站點。從同一站點上2種模型的表現(xiàn)來看,RF_A模型在蘭煉賓館與生物制品所站點的數(shù)據(jù)模擬效果均優(yōu)于XGB_A模型,XGB_A模型在鐵路設(shè)計院與榆中蘭大站點的數(shù)據(jù)模擬效果均優(yōu)于RF_A模型。
特定變量對各站點的模擬貢獻存在差異(表4),以O(shè)3容易生成的季節(jié)(6—8月)為例進行分析:生物制品所和鐵路設(shè)計院站點位于蘭州市主城區(qū),該區(qū)域臭氧生成主要受交通源排放影響,因此影響模擬結(jié)果最顯著的變量分別為NO2和CO;榆中蘭大站點位于榆中盆地,植被覆蓋率較高,天然源排放的揮發(fā)性有機物對臭氧生成影響較大,因此影響模擬結(jié)果最顯著的變量是NO2和MEIC_VOC;蘭煉賓館站點位于蘭州市西固區(qū),受道路交通源和周邊煉化企業(yè)工業(yè)源排放影響,該區(qū)域大氣中NOx和VOCs含量較蘭州市其他區(qū)域偏高,在前體物充足條件下,制約O3生成的因素是光化學(xué)反應(yīng)條件,因此影響模擬結(jié)果最顯著的變量為t2m和NO2。
不同站點對ρ(O3_8h)的模擬中,各變量的重要性排名有所不同。總體來看,輻射因素、污染物排放因素、相對濕度以及環(huán)境空氣質(zhì)量因素對模型在各個站點的ρ(O3_8h)模擬貢獻較為顯著。其中,輻射因素主要包括aluvp、uvb和t2m,污染物排放因素包括MEIC_NOX和MEIC_VOC,環(huán)境空氣質(zhì)量因素包括CO、NO2和SO2,可能原因為不同站點的地理位置、環(huán)流背景以及污染物排放特征存在差異,從而在前體物經(jīng)過光化學(xué)反應(yīng)生成O3,以及在O3傳輸過程中,對O3的生成過程產(chǎn)生不同的影響。
2.3變量篩選后模擬結(jié)果
變量篩選后構(gòu)建的RF_7與XGB_7模型各站點指標(biāo)評價結(jié)果,見表5。參考《環(huán)境空氣質(zhì)量模型遴選工作指南(試行)》文件中給出的ρ(O3)模擬模型準(zhǔn)確性評價標(biāo)準(zhǔn)(-15%lt;NMBlt;15%,NMElt;35%),2種模型的評估指標(biāo)在各個站點均滿足標(biāo)準(zhǔn)要求。
將ρ(O3_8h)日最大值模擬值與監(jiān)測值進行對比,結(jié)果如圖5所示,RF7與XGB7兩種簡化模型仍可以較好地模擬不同站點ρ(O3_8h)日最大值的季節(jié)變化特征。對比不同模型模擬結(jié)果,在蘭煉賓館、生物制品所、鐵路設(shè)計院站點2種模型得到的模擬值與監(jiān)測值的變化趨勢一致,模擬效果接近,在榆中蘭大站點XGB7模擬效果更優(yōu)。
將模型ρ(O3_8h)小時值模擬值與監(jiān)測值進行對比,結(jié)果如圖6所示。2種模型對于各個站點的ρ(O3_8h)小時值均可以進行較好的模擬。模型在不同站點上模擬得到ρ(O3_8h)小時值與實際監(jiān)測值的相關(guān)系數(shù)表現(xiàn)依舊良好,但各站點表現(xiàn)相較全變量模型出現(xiàn)差異,其中RF7模型依然為:生物制品所gt;鐵路設(shè)計院gt;蘭煉賓館gt;榆中蘭大站點,XGB7模型變化為:鐵路設(shè)計院gt;生物制品所gt;蘭煉賓館gt;榆中蘭大站點。同一站點上不同模型的表現(xiàn),RF7模型在與生物制品所站點模擬效果優(yōu)于XGB7模型,而XGB7模型在鐵路設(shè)計院、榆中蘭大站點和蘭煉賓館模擬效果均優(yōu)于RF7模型。
2.4篩選前后對比分析監(jiān)測值在MAE、RMSE、R2這3個指標(biāo)上的表現(xiàn)進行將不同模型輸出的ρ(O3_8h)模擬值與站點實際評價,見表6。
根據(jù)表6各項指標(biāo),簡化模型訓(xùn)練數(shù)據(jù)集后建立的2種機器學(xué)習(xí)模型RF7與XGB7在4個站點的表現(xiàn)與簡化訓(xùn)練數(shù)據(jù)集變量前的RF_A與XGB_A模型相比模擬效果接近,其中RF7相比于RF_A在4站點上的MAE、RMSE指標(biāo)變化率在2.79%~6.67%、2.62%~7.39%,R2指標(biāo)變化率除榆中蘭大站點(-12.38%),其余站點變化率在-3.01%~-1.34%范圍內(nèi);XGB7相比于XGB_A的指標(biāo)變化率在-1.59%~8.69%、-3.71%~7.52%、-3.01%~16.34%范圍內(nèi),且在蘭煉賓館和榆中蘭大站點,XGB7模型各項指標(biāo)均優(yōu)于XGB_A模型。
將變量篩選前后不同模型的模擬時間進行對比,結(jié)果見表7。變量篩選后建立的2種機器學(xué)習(xí)模型RF7與XGB7與篩選前的RF_A與XGB_A模型相比,運行速度在4個站點上顯著提升,其中RF7相比于RF_A模擬時間減少87.97%,XGB7相比于XGB_A模擬時間減少96.68%。
綜合模型不同站點模擬精度以及模型改進前后運行時長對比結(jié)果,變量篩選后建立的模型RF7與XGB7較篩選前的RF_A與XGB_A模型模擬效果基本保持不變,但模擬速度極大提升,在需要快速預(yù)報或觀測資料較為匱乏的情況下,可考慮使用篩選后建立的模型進行模擬。
3研究結(jié)論
使用隨機森林和極端梯度提升算法構(gòu)建模型對蘭州市2020年近地面O3濃度進行模擬,耦合SHAP方法分析模擬中的主要貢獻變量,基于變量重要性建立模型并再次進行模擬,研究結(jié)論如下:
(1)利用RF及XGB算法構(gòu)建的RF_A與XGB_A均滿足模型準(zhǔn)確性評價的相關(guān)標(biāo)準(zhǔn),可用于蘭州市近地面臭氧的模擬。
(2)影響蘭州市O3濃度模擬結(jié)果的重要變量為輻射因素uvb、aluvp、t2m,污染物排放因素ME?IC_VOC和MEIC_NOX,相對濕度以及環(huán)境空氣質(zhì)量因素SO2、CO、NO2,且同一變量在不同站點的貢獻大小存在差異。
(3)利用SHAP方法篩選變量構(gòu)建的RF7與XGB7滿足模型準(zhǔn)確性評價相關(guān)標(biāo)準(zhǔn),且與RF_A與XGB_A模型模擬效果接近,在極大簡化前期訓(xùn)練數(shù)據(jù)集準(zhǔn)備工作的同時顯著提升了模擬效率。
參考文獻:
[1]Lin X,Trainer M,Liu S C.On the nonlinearity of the tro?pospheric ozone production[J].Journal of Geophysical Research:Atmospheres,1988,93(D12):15879-15888.
[2]Akbarzadeh M A,Khaheshi I,Sharifi A,et al.The asso?ciation between exposure to air pollutants including PM10,PM2.5,ozone,carbon monoxide,sulfur dioxide,and nitrogen dioxide concentration and the relative risk of develop?ing STEMI:A case-crossover design[J].Environmental Research,2018,161:299-303.
[3]Xie Y,Dai H C,Zhang Y X,et al.Comparison of health and economic impacts of PM2.5 and ozone pollution in Chi?na[J].Environment International,2019(9):130-140+180.
[4]Ke L,Jiang D J,Lu S,et al.Increases in surface ozone pollution in China from 2013 to 2019:Anthropogenic and meteorological influences[J].Atmospheric Chemis?try and Physics,2020,20(19):11423-11433.
[5]中華人民共和國生態(tài)環(huán)境部.2022中國生態(tài)環(huán)境狀況公報[R].北京:生態(tài)環(huán)境部,2022.
[6]趙輝,鄭有飛,吳曉云,等.江蘇省大氣復(fù)合污染特征與相關(guān)氣象驅(qū)動[J].中國環(huán)境科學(xué),2018,38(8):2830-2839.
[7]Tao Y,Zhu L B,Wang H X,et al.Characteristics of air pollution and its causes in Lanzhou[J].Environmen?tal Science and Technology,2014,37(8):87-92.
[8]Chelani A B.Prediction of daily maximum ground ozone concentration using support vector machine[J].Environ?mental Monitoring and Assessment,2010,162(14):169-176.
[9]Zhan Y,Luo Y Z,Deng X F,et al.Spatiotemporal pre?diction of daily ambient ozone levels across China us?ing random forest for human exposure assessment[J].Environmental Pollution,2018(233):464-473.
[10]Wang D,Lu W.Forecasting of ozone level in time se?ries using MLP model with a novel hybrid training al?gorithm[J].Atmospheric Environment,2005,40(5):913-924.
[11]朱珈瑩,安俊琳,馮悅政,等.基于輕量級梯度提升機的南京大氣臭氧濃度預(yù)測[J].環(huán)境科學(xué),2023,44(7):3685-3694.
[12]龔德才,杜寧,王莉,等.基于XGBoost-LME模型的京津冀地區(qū)近地面臭氧濃度估算[J].環(huán)境科學(xué),2024,45(7):3815-3827.
[13]楊曉彤,康平,王安怡,等.基于隨機森林模型的四川盆地臭氧污染預(yù)測[J].環(huán)境科學(xué),2024,45(5):2507-2515.
[14]袁鑫,黃志炯,陸夢華,等.基于觀測和機器學(xué)習(xí)的珠三角臭氧污染季節(jié)特征演變及成因分析[J].環(huán)境科學(xué)學(xué)報,2023,43(8):214-225.
[15]陳鎮(zhèn),劉潤,羅征,等.基于機器學(xué)習(xí)的珠三角秋季臭氧濃度預(yù)測[J].環(huán)境科學(xué),2024,45(1):1-7.
[16]梁曉霞,謝東海,韓宗甫,等.基于梯度提升算法的近地面臭氧濃度估算比較[J].中國環(huán)境科學(xué),2023,43(8):3886-3899.
[17]張容碩,謝沛遠,陳宏飛,等.基于機器學(xué)習(xí)的PM2.5與臭氧污染氣象因子分析:以鄭州市為例[J/OL].環(huán)境科學(xué)研究,1-14[2024-08-14].https://doi.org/10.13198/j.issn.1001-6929.2023.12.03.
[18]周恒左,陳恒蕤,廖鵬,等.蘭州市CMAQ近地面臭氧模擬結(jié)果的訂正方法:基于機器學(xué)習(xí)方法[J].中國環(huán)境科學(xué),2022,42(12):5472-5483.
[19]宋龍娟,胡睿琪,劉兵,等.基于隨機森林的川東北城市群臭氧污染預(yù)報研究[J/OL].中國測試,1-11[2024-08-28].http://kns.cnki.net/kcms/detail/51.1714.TB.20240627.1018.002.html.
[20]Meng L,Huan L,Guan N G,et al.Anthropogenic emission inventories in China:A review[J].National Science Re?view,2017,4(6):834-866.
[21]黃曉波.SMOKE模型時空分配處理方法改進研究[D].廣州:華南理工大學(xué),2016.
[22]湯榮志,段會川,孫海濤.SVM訓(xùn)練數(shù)據(jù)歸一化研究[J].山東師范大學(xué)學(xué)報(自然科學(xué)版),2016,31(4):60-65.
[23]Hugh C,Ma S L,In S L.Explaining a series of mod?els by propagating Shapley values[J].Nature Communi?cations,2022,13(1):4512-4517.
Study on the Simulation of Near-Surface Ozone in Lanzhou City based onMachine Learning of Variable Screening
LUO Yiming,LI Fengjiang,ZHOU Hengzuo,PAN Feng,YANG Hong
(College of Atmospheric Science,Lanzhou University,Lanzhou Gansu 730000,China)
Abstract:In order to quickly and accurately simulate the ozone concentration in Lanzhou City,two machine learning models,Random Forest(RF)and Extreme Gradient Boosting(XGB),were used to simulate the near-sur?face 8-hour sliding mean ozone concentrationρ(O3_8h)in Lanzhou City in 2020 by combining the ERA5 meteoro?logical data,the MEIC inventory data,and Lanzhou City air quality monitoring data.The importance of variables was assessed by the SHAP method,and the variables with the largest contribution to the model were screened out to construct the simplified models RF7 and XGB7,respectively,and compare their simulation effects and operation ef?ficiency with the all-variable models(RF_A and XGB_A).The results show that the simulation effects of the RF7 and XGB7 models at the four monitoring stations are close to those of the full-variable model,but the computational efficiencies are significantly improved,and the simulation times are reduced by 87.97%and 96.68%,respectively;the differences in the influencing factors ofρ(O3_8h)at different stations indicate that the simplified models need to be customized to fit the needs of different sites when training the data.The study shows that the method of using SHAP to simplify the variables can improve the simulation efficiency while maintaining the accuracy of the model,which provides a way for the rapid prediction of ozone pollution in Lanzhou City.
Keywords:variable screening;machine learning;ozone simulation