基于機器學習的空氣質量模型分析與研究

2023-03-04 13:37:08朱茜

河南科技 2023年3期

關鍵詞：模型

朱茜

（河南省氣象探測數據中心，河南鄭州 450003）

0 引言

2021 年11 月，中共中央、國務院印發《關于深入打好污染防治攻堅戰的意見》，《意見》指出，污染防治攻堅戰階段性目標任務圓滿完成，但重點區域、重點行業污染問題仍然突出，實現碳達峰、碳中和的任務艱巨，要深入打好污染防治攻堅戰。到2025 年，全國重度及以上污染天數比率控制在1%以內。國家環境部門和氣象部門也加大了對空氣質量的監督和防治［1］。空氣質量指數［2］（Air Quality Index，簡稱AQI）定量為描述空氣的質量和污染狀況的無量綱指數，其代表的意義為AQI 數值越大、空氣污染級別和類別越高、表征顏色越深，說明該區域的空氣污染狀況越嚴重，空氣質量的好壞直接影響著人們的健康。空氣質量綜合指數［3-4］綜合考慮了《環境空氣質量指數（AQI）技術規定（試行）》（HJ 633—2012）中規定了細顆粒物（PM2.5）、可吸入顆粒物（PM10）、二氧化硫（SO2）、二氧化氮（NO2）、臭氧（O3）、一氧化碳（CO）等六種污染物污染程度。對于AQI［5-7］的計算與評價過程主要分為三步：首先主要是對照六種污染物的分級濃度的限值［AQI 的濃度限值參照（GB 3095—2012）和API的濃度限值參照（GB 3095—1996）］，然后以細顆粒物（PM2.5）、可吸入顆粒物（PM10）、二氧化硫（SO2）、二氧化氮（NO2）、臭氧（O3）、一氧化碳（CO）等各項污染物的實際測量濃度值（其中PM2.5、PM10為24 小時平均濃度）來計算出空氣質量分指數（Individual Air Quality Index，簡稱IAQI）；然后通過從各項污染物的IAQI中選擇最大的值確定為AQI，當AQI大于50時將IAQI 最大的污染物確定為首要污染物；最后是根據AQI 分級標準，確定空氣質量級別、類別及對公眾表示的顏色、健康影響與建議應采取的防護措施。傳統的空氣質量預測模型和方法已然不能滿足和符合當前社會的需求，對空氣質量的預測算法和監測需要更為高效準確的方法。

機器學習算法是通過大數據分析自動獲得規律，然后利用獲得的規律（數學模型）對未知的數據進行預測與評估的算法。機器學習已廣泛應用在經濟、農業、交通等多個領域，對人類社會發展做出了卓越貢獻。目前國內外雖然對環境空氣質量指數（AQI）的計算方法有所不同，但已經引起了各個國家的重視。如大氣污染防治方面，通過利用IBM認知計算、大數據挖掘分析技術以及信息物聯網技術的優勢，獲取并分析大量的環境監測站和氣象衛星傳送的實時數據，依靠自學能力和超級計算處理能力，向公眾社會提供未來的高精度環境質量預報，實現對大城市地區的主要污染物來源分析和分布狀況的實時監測。微軟亞洲互聯網工程院2014年發布的人工智能機器人技術就是基于城市大數據預測大氣質量的技術，第一時間對PM2.5進行預測。因此利用機器學習對空氣質量進行研究分析是一種可行方案。

本研究提出將機器學習、氣象要素與各種污染物相結合，通過對鄭州市2019 年的空氣質量及氣象要素進行建模處理，結合信息技術，利用機器學習算法，對海量數據進行處理分析，實現了空氣質量預測的準確性和及時性，為大氣污染防治提供了一定的科學技術支撐。

1 系統介紹

1.1 機器學習

隨著氣象信息化的不斷發展，氣象每天都會產生海量的氣象數據，如何能夠從海量的數據中獲取更有價值的信息，并通過這些信息更好地服務天氣預測對氣象領域的研究起到關鍵作用。機器學習及數據挖掘技術的發展為以上問題提供了更好的途徑和方法。

1.2 數據來源

本研究所使用的數據為2019 年的河南省生態環境廳空氣質量監測站歷史數據與河南省氣象CIMISS 歷史氣象數據。空氣質量監測站歷史數據和歷史氣象數據為逐小時數據，共8 760 組。通過數據的融合，主要包括了站號、時間、空氣質量指數、二氧化硫、二氧化氮、可吸入顆粒物、細顆粒物、一氧化碳、臭氧、溫度、相對濕度、風速、能見度、小時雨量等14 個特征，其中站號和時間在本研究中作為無效特征值，在機器學習建模的時候不為所用，其他特征為機器學習建模所用。

1.3 模型結構

圖1為模型結構示意圖。

圖1 模型結構

2 預測模型的建立

2.1 數據預處理

在本研究中，環境數據和氣象數據各個特征的量綱不同，為了減小對建立數據模型產生的影響，可以通過數據歸一化算法的離差標準化（min-max標準化），來提高機器學習對未來數據預測的速度和準確性。數據歸一化是將不同特征的數據統一映射到［0，1］區間上。離差標準化公式如式（1）。

式中：Xnorm設為數據經過歸一化的特征值，X為數據的原始特征值，Xmax 和Xmin 為原始的數據集中對應特征的最大值和最小值。通過對疑誤值、缺測值以及數據歸一化的處理，數據總共8 760組，截取的部分數據如圖2所示。

圖2 數據預處理

2.2 數據分析

經過前期數據的預處理，采用皮爾遜相關系數對環境和氣象數據的各個特征值進行相關性的分析［8］。皮爾森相關系數是用于度量兩個變量（X和Y）線性相關程度的統計量。相關系數用r表示，其中n為樣本量，分別為兩個變量的觀測值和均值。r描述的是兩個變量間線性相關強弱的程度。r值介于-1 到1 之間，絕對值越大表明兩個變量的相關性越強。圖3 為空氣質量、空氣污染物、氣象因子的相關系數，圖4 為空氣污染物與氣象因子的相關性，從圖3 和圖4 中可以看出，空氣質量與PM2.5、PM10、CO 的相關性分別為0.95、0.9、0.73，空氣質量與氣象要素中的能見度（VIS）相關性為0.53，與氣溫（TEM）相關性為0.43。空氣質量與PM2.5、PM10、CO 三者的相關性最強，跟這三者有著最直接的關系。空氣污染因子與氣象要素因子的相關性，其中PM10與能見度（VIS）的相關性為0.46；SO2與氣溫（TEM）的相關性為0.48；NO2與氣溫（TEM）的相關性為0.46，與風速（WIN）的相關性為0.54，與能見度（VIS）的相關性為0.46；CO 與氣溫（TEM）的相關性為0.49，與能見度的相關性為0.68；O3與氣溫（TEM）的相關性為0.71，與濕度（RHU）的相關度為0.44，與能見度（VIS）為0.45。可得出空氣質量直接影響因子是空氣污染物因子，但是空氣污染物因子又與氣象中的氣溫、風速、能見度、濕度又有直接關系。

圖3 空氣質量、空氣污染物、氣象因子的相關系數

圖4 空氣污染物與氣象因子的相關性

3 機器學習預測模型

回歸分析［3］是通過因變量和自變量相互依賴的定量關系，來確定兩個變量之間的因果關系，從而實現回歸模型的建立，并通過實際測量數據來對回歸模型的各個參數進行求解，最后對回歸模型進行評價，來確認該模型能否很好地擬合實際測量數據。如果擬合效果良好，便可以根據自變量進行下一步預測。本研究通過多個機器學習中的回歸算法［多元線性、SVM（支持向量機）、隨機森林］來對空氣質量進行模型的建立。

3.1 線性回歸

Y為因變量，X1，X2，…，Xk為自變量，如果當自變量與因變量之間具備線性關系時，多元線性回歸模型表達為式（2）。

式中：b0為常數項，b1，b2，…，bk為回歸系數，Y為空氣質量指數（AQI），X1，X2，…，Xk為空氣污染因子和氣象要素。通過Python 語言件對數據進行回歸分析，分析結果得到常數項和回歸系數，以下為預測模型。最佳擬合線為式（3）。截距為-0.017 659 648 736 074 673，回歸系數為［0.452 175 73-0.080 567 37 0.019 650 93 0.014 091 73 0.097 509 53 0.755 848 22-0.038 128 07 0.005 530 39 0.002 335 67 0.028 013 76 0.021 300 94］。圖5為多元線性回歸真實值與預測值對比。

圖5 多元線性回歸真實值與預測值對比

3.2 支持向量機

支持向量機方法［9］是建立在統計學習理論的VC 維理論和結構風險最小原理基礎上的，根據有限的樣本信息在模型的復雜性（即對特定訓練樣本的學習精度）和學習能力（即無錯誤地識別任意樣本的能力）之間尋求最佳折中，以期獲得最好的推廣能力。圖6為支持向量機真實值與預測值對比。

圖6 支持向量機真實值與預測值對比

3.3 隨機森林

隨機森林屬于機器學習的一大分支——集成學習方法，隨機森林最小的單元是決策樹，通過集成學習的思想，將許多決策樹整合到一起構成隨機森林，且森林中的每一棵決策樹之間沒有關聯，模型的最終輸出由森林中的每一棵決策樹共同決定。處理回歸問題時，則以每棵決策樹輸出的均值為最終結果。圖7為隨機森林真實值與預測值對比。

圖7 隨機森林真實值與預測值對比

4 模型評估

交叉驗證是在通過機器學習建立模型后，使用的最普遍最經典的驗證模型參數時常用的方法。本研究在使用交叉驗證時，首先將歸一化和處理過的數據集分為了訓練數據集和測試數據集兩個部分，分別占80%和20%，然后通過使用訓練數據集來構建各個模型，最后通過測試數據集用來判斷所建模型的泛化能力，也就是該模型是否對于未知數據具有精確的預測能力。

回歸模型評估指標有三種方法，分別是：平均絕對值誤差、均方誤差和R平方值。平均絕對誤差（Mean Absolute Error，MAE）是所有單個觀測值與算術平均值的偏差的絕對值的平均，主要是用來評估真實數據集和預測結果兩者的接近程度，如果兩者的擬合效果越好，其值就越小。均方誤差（Mean Squared Error，MSE）該指標計算的是擬合數據和原始數據對應樣本點誤差的平方和的均值，如果該值越好，則說明擬合的效果越好。R平方值，其含義是也是解釋回歸模型的方差得分，其取值范圍是［0，1］，越接近于1，表明回歸平方和占總平方和的比例越大，回歸線與各個觀測點越接近，用自變量的變化來解釋因變量變化的部分越多，回歸的擬合程度就越好。

通過回歸模型評估指標的三種方法進行對比（見表1），其中關于平均絕對值誤差，隨機森林的絕對值最小，真實數據集合預測結果接近，擬合的效果好；關于均方差，誤差越大，該值越大，線性回歸模型相對較好；關于R平方值，隨機森林的R 平方值最大，回歸的擬合程度就越好。綜合來說，空氣質量和空氣污染物因子、氣象要素因子更適合選用隨機森林來建立數學模型。

表1 各個模型評估結果對比

5 結語

本研究提出了基于機器學習的空氣質量模型的分析與研究，選取鄭州市2019 年全年空氣質量和氣象的逐小時數據，分別分析了空氣質量與空氣污染物因子的相關性以及空氣污染物因子與氣象要素的相關性。最終選取空氣污染物和氣象要素作為輸入因子，采用線性回歸、支持向量機、隨機森林等方法分別建立了多個回歸模型，通過對回歸模型的評估算法的結果選取合適的預測模型。但該方法目前只適應于站點的模型建立與預測，下一步應繼續進行深度研究，從站點來繁衍出格點的實況預測模型。