張智 趙玉廣 焦亞音 李二杰



摘要:基于2018年1月-2022年6月石家莊市逐日首要污染類型數據和ERA5逐6h再分析氣象要素資料,構建7機器學習所需的多維特征量數據集,并利用隨機森林算法學習訓練,得到石家莊市首要污染物分類預報最佳模型,宴現了不同氣象條件下首要污染物分類識別及預報。結果表明,隨機森林模型預報首要污染物分類準確率達到76%,對PM10、PM2.5首要污染物分類結果最好,召回率達到93%、89%,O3首要污染物次之,召回率為74%。與中國氣象局下發的空氣質量指導產品(CMA-ZD)和國家級霧霾數值預報業務系統產品(CUACE)相比,預報準確率分別提升11%、36%,明顯優于指導產品。
關鍵詞:首要污染物;隨機森林;分類預報;矢量通風系數
中圖分類號:X831 文獻標志碼:B
前言
中國京津冀地區大氣污染嚴重,且污染物類型具有明顯的季節特點,冬春季沙塵、夏季臭氧、秋冬季霧霾。特殊的地形、區域污染排放、疊加不利的氣象條件,導致京津冀地區重污染天氣頻發,高濃度顆粒物對公眾身體健康產生不利影響。因此,不同類型污染天氣的精準預報具有十分重要的意義。
京津冀及周邊地區空氣污染成因最為復雜,預報難度最大。國內外學者對其都開展了大量的研究,主要分為基于大氣動力學方程的數值模式和機器學習預報模型兩類。孫蘇琪等發現隨機森林模型對成都市各污染物濃度的預報效果均優于RFE模型,預報性能較好。侯俊雄等發現多元線性回歸模型和隨機森林方法建立成都市空氣質量模型,前者對O3預報性能較好,后者對PM2.5表較好預報性能。目前數值模式或者機器學習模型預報首要污染物,均是首先通過預報PM10、PM2.5、O3、NO2SO2、CO污染物濃度,在根據環境空氣質量指數(AQI)技術規定計算出首要污染物類型。這種間接預報的方法,首要污染物預報準確率較低。
文章將隨機森林算法應用于石家莊市大氣污染首要污染分類預報研究,構建反應不同污染物的氣象條件數據集,通過訓練學習達到分類預測的目的,研究結果可為該市首要污染物預報及大氣污染精準防控提供參考。