基于提升樹的PM2.5濃度預測模型

2018-11-17 01:31:44張志強謝曉芹潘海為

軟件 2018年10期

王智，張志強,2，謝曉芹,2，潘海為

基于提升樹的PM2.5濃度預測模型

王智1，張志強1,2，謝曉芹1,2，潘海為1

（1. 哈爾濱工程大學計算機科學與技術學院，黑龍江哈爾濱 150001； 2. 哈爾濱工程大學智能信息處理研究中心，黑龍江哈爾濱 150001）

針對當前空氣質量預報對PM2.5濃度預測不準確的問題，本文使用提升樹模型預測PM2.5濃度，利用特征重要性提升了算法效率，并分析了不同特征對預測PM2.5濃度準確率的影響。首先從北京地區數個氣象觀測站2016年1月到12月的氣象數據中抽取溫度、風速等六種氣象因子，再利用同時期北京十二個國控點的六種空氣污染物濃度數據構成了特征向量。接下來利用提升樹（Boosting Tree）對未來24小時內的PM2.5濃度進行預測，與線性回歸（LR）進行了對比，最后通過提取特征重要性信息對預測模型進行了改進，并分析了對PM2.5濃度影響較大的特征。對模型預測結果采用K-折交叉驗證，實驗結果表明，相比線性回歸模型，本文所提出的基于提升樹的PM2.5濃度預測模型對未來24小時內的濃度預測準確率高10%至30%，改進后的算法效率提升了20%。

機器學習；空氣污染；PM2.5濃度預測；提升樹；XGBoost

0 引言

PM2.5又稱為細顆粒物，是指空氣動力學當量直徑小于等于2.5微米的大氣顆粒物。PM2.5是一種來源復雜的大氣污染物，其來源大致可分為自然污染源和人為污染源等兩種。相對于其他較大的顆粒物，PM2.5的比表面積更大，富含有毒、有害物質且在大氣中滯留的時間長、輸送距離遠，因而對人體健康和大氣環境質量的影響更大。國際標準化組織（ISO）提出的易引起兒童和成人發生肺部疾病的“高危險性顆粒物”為小于2.4微米的顆粒物，與PM2.5甚為接近[1]。

現階段，對于PM2.5濃度的預報主要包括數值預報方法和統計預報方法兩種。數值預報方法是指根據大氣實際情況，利用初始值和邊界值通過計算機運算模擬大氣運動狀態的方法。數值預報方法對污染與氣象數據的要求較高，而大量詳細的相關數據往往很難獲得，所以數值預報方法在中國大多城市并不成熟。目前，主要通過統計預報方法對PM2.5濃度進行預報，統計預報方法是指利用統計學原理以及概率論和數理統計的方法建立模型進行預測，主要包括回歸模型(線性和非線性回歸模型)、人工神經網絡模型、支持向量機模型及馬爾可夫模型等。

比如Cobourn[2]提出一種基于非線性回歸模型與后向軌跡濃度的方法來預測一片區域PM2.5的日均最大值。此方法利用到了天氣信息作為預測條件，比如日最高氣溫、日最低氣溫、露點溫度、相對濕度、云量、風向和風速等氣象條件，但是對于空氣中其他的污染物，如二氧化硫、一氧化碳和PM10等其他主要大氣污染物卻沒有考慮，因此存在一定局限；Zhang[3]和Li[4]等使用BP人工神經網絡來對PM2.5濃度進行預測，但是深度學習方法本身過于依賴隱層神經元個數的選擇，所以泛化能力存在局限，訓練時間也較長；Dong[5]實現了一種基于支持向量機的PM2.5推理模型，但支持向量機訓練速度較慢，并且解決非線性問題比較困難，準確率不高；因為PM2.5的濃度變化有著較為明顯的馬爾可夫性，Sun[6]等使用了馬爾可夫模型。但是由于滿足馬爾可夫性，所以被預測時刻強烈依賴其前一時刻的狀態，如果前一時刻數據缺失或者前一時刻的數據本身就是通過預測得到的數據，那么得到的預測數據就會有比較大的偏差，這是不利于做長時間預測的。劉杰[7]采用將氣象因素和其他污染物的濃度值共同作為輸入值的方法，通過改進輸入因子利用多元線性回歸模型對PM2.5的濃度進行預測。因為考慮的因素更加全面，所以在與僅考慮氣象因素的模型進行對比時表現出了很好的性能。

鑒于現行的預測模型都存在比較大的預測誤差，本文將通過改進和完善輸入因子與建模方法的方式提高預測模型對PM2.5濃度預測的準確率，并研究提升算法效率的方法。首先，對于輸入因子，本文將著重研究空氣質量，尤其是PM2.5濃度與其他主要污染物濃度（SO2，CO，NO2，O3，PM10）以及氣象因素之間的關系。其中氣象因素又包括溫度、氣壓、濕度、風速和風向等條件。其次，對于建模方法，本文將研究提升樹模型在此問題上相較于傳統的線性回歸模型有哪些提升。

1 提升樹模型

提升方法實際采用加法模型（即基函數的線性組合）與前向分布算法。以決策樹為基函數的提升方法稱為提升樹[8]。提升樹模型可以表示為決策樹的加法模型：

1.1 提升樹算法

在本研究中，氣象數據以及空氣污染數據與PM2.5濃度之間的關系十分復雜，這也是本研究不打算尋找一個線性方程去直接刻畫他們之間關系的原因。但是樹的線性組合則可以很好的擬合具有復雜關系的訓練數據，所以在處理這類問題時往往能取得不錯的效果。

1.2 XGBoost模型

XGBoost是“Extreme Gradient Boosting”的縮寫，是提升樹的一種高效實現，其與一般梯度提升樹的最大不同在于目標函數[10]，XGBoost在目標函數中加入了正則化項，當基學習器為CART決策樹時，正則化項與樹的葉子節點數量以及葉子節點的值有關。

對于一般的目標函數

和logistic回歸中的logistic損失：

正則化項控制模型的復雜度，用來避免過擬合。常見的正則化項有L2正則和L1正則等。

綜上所述，首先可以定義XGBoost模型如下：

到現在為止，XGBoost與傳統提升樹模型（如GBDT）差別不大，同樣面臨著當選取其他損失函數時目標函數優化困難的問題，針對這一問題，XGBoost通過將目標函數公式進行泰勒展開來逼近殘差：

最后需要確定樹的結構，即在建立樹時如何對節點進行劃分，為此需要計算節點劃分后的增益：

2 數據與建模

2.1 數據選取

本文中選取北京地區2016年1月至12月的空氣質量數據和氣象條件數據，其中北京市空氣質量數據來自北京市環境保護監測中心，氣象條件數據來自中央氣象臺。

空氣質量數據中包括北京市的12個國控點的數據，每個小時測量一次，數據包括實時AQI值、PM2.5濃度、PM10濃度、SO2濃度NO2-濃度、CO濃度以及O--3濃度等。

氣象條件數據中包括北京地區18個氣象監測站的數據，每小時記錄一次，數據主要包括溫度、濕度、氣壓、降水量、風速以及風向等因素。

2.2 數據預處理

2.2.1 數據擴充

取每個空氣質量監測站全年366天逐小時的數據作為原始數據集。整體數據量對比同類文章較大，但是對于預測模型來說仍然過小，所以首先需要對數據集進行擴充。

在一些研究中[11]，每條訓練數據應是取某個站點某天的某一時刻的數據作為屬性，然后將接下來的間隔1至24小時的PM2.5數值作為標簽得到23條數據，這樣一來得到的訓練集和測試集與原始數據集的數量理論上相差無幾。但是在實際過程中，由于很多偶發因素，許多站點的監測數據是缺失的，這種實際觀測值的缺失是無法補全的，否則數據集就不是實際觀測數據了。所以最后的數據往往要比原始數據少一半左右，使得原本十萬條數據只剩下五萬條左右。

為了解決這一問題，需要利用冗余數據對數據集進行擴充。在上述方法中，對于一個站點來說，其每天的數據只有1個時間點上的觀測數據會被完全利用，剩下的23個時間點上的數據只有PM2.5的數值會被作為標簽利用，其他屬性就被浪費了。所以為了擴充數據集，可以將同一個站點的每小時的數據都作為訓練數據，將其后的間隔1至24小時的PM2.5數值作為標簽，利用這種方法可以將數據集擴充20倍以上，得到130萬條左右的數據集。這種方法將一個站點的數據在時間上連接成了一個整體。接下來介紹將空間屬性加入到數據集中的方法。

2.2.2 空間坐標轉換方法

在上述過程中，站點與站點之間是相對獨立的，除了測量時間之外沒有將站點聯系起來的屬性存在。而測量時間是無法體現站點之間的相對關系的，這種關系是基于空間的關系，所以正確的方法應該是將站點間的空間屬性加入到數據集中。

在原始資料中，12個國控點的經緯度信息是已知的。傳統的做法通常是根據這些經緯度信息獲取人口密度等方式加以利用[12-15]，或是僅對幾個關鍵點進行預測[16-17]，但是這些方法有兩個比較大的問題：首先，在市區，人口密度有著比較大的波動[18]，無法獲取準確值；其次，這種方法其實只是間接地利用了空間信息，沒有很好的體現站點間的聯系，預測結果不夠全面。所以本文將通過計算站點與一個固定參照點的實際距離和二者的真方位角作為站點的空間屬性。由于這兩個屬性都是連續值，所以站點間的關系就能夠借此體現了。但是由于地球是一個球體，所以在利用經緯度計算距離和方向角時，不能夠簡單地將經緯度轉換為直角坐標進行計算，尤其在計算方向角時，隨著緯度的升高誤差可能會達到10%以上。所以，本文中所計算的方位角為真方位角，即從真子午線北端順時針方向量至某一直線的水平角。在本文中基準點為天安門。計算方法如過程1。

過程1由經緯度計算球面距離真方向角

輸入：地球半徑R，基準點經度 A_lo，基準點緯度A_la，目標點經度B_lo，目標點緯度B_la

輸出：距離 distance，真方位角 true_bearing

步驟：

1. 利用三面角余弦公式計算基準點，目標點與北極點的夾角余弦值：

3. 利用球面正弦公式計算真方位角的正弦值：

4. 得到真方位角：

5. 根據目標點相對基準點所在象限對結果進行修正得到真方位角：

IF (B_la - A_la >= 0 AND B_lo - A_lo >= 0):

return A

ELIF (B_la - A_la >= 0 AND B_lo - A_lo < 0):

RETURN 360 + A

ELSE:

RETURN 180 – A

7. 將轉為弧度：

8. 將弧度乘以地球半徑得到距離：

9. 返回與

2.2.3 離散數據處理

本文中的數據集包括空氣質量數據和氣象條件數據等，其中大部分數據為連續性數據，可以直接使用，但是在氣象條件數據中存在風向這一離散型數據，風向可以取八種方向，一般的做法是將八個風向的數據對應八個數值進行計算，但是這樣做是不恰當的。因為風向事實上是沒有大小、順序之分的，如果簡單地將風向映射為八個數值，比如0到7，就會使得風向之間是可以計算的，假設北風為0，南風為4，那么通過計算北風和南風的“均值”即可得到以2表示的東風，這顯然是不可取的。所以需要對離散數據進行處理，本文中利用的是獨熱編碼對風向數據進行處理。

獨熱編碼（One-hot Encoding），是指采用N位狀態寄存器對N個狀態進行編碼，每個狀態都擁有獨立的寄存器位，并且在任一時刻有且僅有一位有效。即通過使用獨熱編碼可以將離散變量表示為二進制向量形式，這樣就避免了離散數據對模型的影響。以風向為例，將風向一個屬性分解為八個獨立的狀態位，只有風向對應位置的狀態位為1，其他位則為0。

2.3 建立預測模型

本文將主要在時間序列上建立預測模型，并結合空間位置屬性利用監測點的某一時刻數據對其接下來24小時內的PM2.5濃度進行預測。

本文使用十二個監測點中的十個監測點作為訓練數據，剩下的兩個監測點作為測試數據。其中測試數據為天壇站點（編號為1004A）與農展館站點（編號為1005A）全年的數據。

首先對訓練數據使用10折交叉驗證選取最優的預測模型，其中隨機數因子為100，每次劃分不打亂順序。以編號為1001A的萬壽西宮監測點為例，首先將其每天每小時的數據（除基本空氣質量條件數據外，還包括日期時間數據、距離方向角數據以及氣象條件數據等）作為輸入，每條數據對應的接下來1小時至24小時的PM2.5濃度作為此條數據的實際值。然后分別使用XGBoost與線性回歸模型對數據進行擬合，得到最佳預測模型。再將模型應用于測試數據集，計算模型在測試集上預測出的數據值與實際數據值的平均絕對誤差(MAE):

2.4 利用特征重要性提升算法效率

在模型訓練過程中，XGBoost模型的訓練速度較慢，本文利用XGBoost模型訓練后得到的特征重要性列表對訓練模型的過程進行了優化，在保證預測準確率的情況下，可以將模型訓練速度提升30%左右。

此方法的本質的是利用特征重要性對特征進行過濾去除不重要的特征以提升訓練速度。首先說明什么是特征重要性。在XGBoost訓練模型過程中，每棵樹的每個節點在進行劃分的時候需要尋找使得特征選擇準則（在CART樹中為基尼指數）達到最優的特征，然后根據此特征對節點進行劃分，直到滿足停止條件，那么如果對所有特征被選擇作為劃分特征的次數進行統計，那么就可以得到特征重要性序列，即此特征在劃分決策樹節點時的重要性程度，這個數值越大說明這個特征越重要。

本文利用這一概念對數據集的特征進行篩選，保留重要的特征，過濾不重要的特征以達到加快訓練速度的目的。雖然在訓練之初仍需要對所有的數據進行訓練，但是在之后的訓練過程中再次建模的速度會大幅提升，所以總的來說是一種相當有效的方法。

3 實驗結果與分析

3.1 XGBoost模型、改進的XGBoost模型與線性回歸模型的實驗結果對比

首先在訓練數據集上分別使用三種建模方法得到三種預測模型，分別為XGBoost模型、改進的XGBoost模型與線性回歸模型。在本實驗中，為了控制變量，三種模型均沒有經過特殊調參，使用各自的默認參數進行訓練。然后再將得到的預測模型應用于測試數據集得到預測結果，最后分別計算三種預測模型在不同時間間隔下的平均絕對誤差。天壇站點測試集的結果如表1。將三個模型在兩個站點的測試數據集上得到的結果繪制為圖像，得到圖1和圖2。

表1 XGBoost模型、改進的XGBoost模型與線性回歸模型實驗結果

Tab.1 Experimental results of XGBoost model, improved XGBoost model and linear regression model

圖1 天壇站點結果對比

圖2 農展館站點結果對比

在圖中可以明顯地看到相比于線性回歸模型，XGBoost模型的誤差更小，而改進的XGBoost模型與標準的XGBoost模型基本沒有差距，在時間間隔較短的預測過程中甚至表現出了更為出色的預測精度。三者的誤差均是隨時間間隔的增大而增大，其中XGBoost模型在預測最近幾個小時的PM2.5濃度時精度很高，尤其是在預測當前時間點接下來一個小時后的數據時，平均絕對誤差僅在15左右，而在預測24小時之后的數據時誤差也只是在40左右，均比線性回歸模型低10%到30%。

3.2 特征重要性分析

在XGBoost模型訓練完成之后會得到特征重要性列表，如圖3。其中縱軸為特征名稱，橫軸為此特征用于劃分決策樹節點的次數。在本文中，特征重要性不僅為實驗提供了分析特征的重要依據，還為提升算法效率提供了重要的參考。本節主要分析不同特征對預測模型的重要性，下一節將主要介紹由此帶來的算法效率提升。

在圖中可以得知，當前PM2.5濃度是最重要的劃分特征，這也符合一般經驗，當前PM2.5濃度最能反映接下來一段時間內的PM2.5濃度，據此進行劃分自然也就能夠得到準確率較高的預測模型。下面的兩個特征分別為時間間隔與日期，其中日期主要反映月份。這也是比較符合一般經驗的，時間間隔越小那么結合當前PM2.5濃度預測的準確率也應當會更高，同時PM2.5的污染程度與數據所屬月份或者說季節也有著相當的聯系，冬季的PM2.5濃度會比其他季節更高。

圖3 特征重要性

下面的一個與月份特征重要性相當的特征是氣壓，這是第一個出現在表中的氣象條件特征，這是有悖于一般經驗的。一些研究中認為在氣象條件特征中風速是影響PM2.5濃度首要因素[19]，但實驗結果表明氣壓是比風速更為重要的影響因素。對氣壓與PM2.5數據使用Excel進行簡單的線性相關性分析，得到的相關性僅有-0.02347，這意味二者之間只有微弱的負線性相關，此時如果使用線性回歸，那么氣壓數據對結果的影響就會很小[20]，但是實驗結果表明氣壓數據對PM2.5濃度的影響實際上是很大的，這說明氣壓與PM2.5濃度之間存在非線性相關，這證明本文使用樹形模型對PM2.5濃度進行預測是正確的。

在較為重要的特征中，空氣質量條件特征明顯比氣候條件特征更為重要。而其他隱含的條件特征，比如時間和所屬月份等時間因素也是比較重要的，但是空間條件特征卻并沒有起到很大的作用，推測是因為在單獨一個城市內監測范圍較小，空間條件特征不能很好的劃分數據集。

3.3 算法效率提升分析

本文中對算法進行改進，首先需要利用特征重要性確定用于訓練的特征集合。根據特征重要性表，可以將特征集合根據閾值選取的不同劃分為不同的特征集合。例如當閾值設為100時，特征集合中僅有當前PM2.5濃度這一個特征，通過調整閾值，可以對特征集合進行劃分，閾值越小，特征集合中的特征數量越多，相應的模型也就越復雜，訓練時間也就越長。根據不同的劃分，訓練得到不同的模型，再將這些模型應用于測試集數據，就得到了這幾種模型的平均絕對誤差，如圖4。

在圖中可以看到，隨著閾值的減小平均絕對誤差先是減小，然后又開始增加。這意味著單純減少特征數量或增加特征數量都是不合理的。最后，根據圖中的實驗結果，本文選取閾值（即特征重要性）大于等于22的所有特征構成特征集合，并依此訓練改進的預測模型。

圖4 不同閾值特征集合模型的平均絕對誤差

接下來需要將改進后訓練模型與原始模型進行對比。在前文的結果分析中可以看到，改進后的算法在預測精度上并不遜色于原算法，甚至在開始階段優于原算法。那么只要改進后的算法能夠在運行速度上超過原算法，就可以認為該改進方法是有效的。為保證實驗準確性，將二者在相同的訓練數據集上進行分別訓練8次，取算法運行時間，得到8組共16條數據，如表2。

表2 XGBoost模型、改進的XGBoost模型運行時間對比(單位：秒)

Tab.2 Comparison of running time between XGBoost model and improved XGBoost model

在表中可以看出，改進后的XGBoost算法在運行時間上要比原算法快20%左右。這說明改進后的算法在保證預測精度的情況下比原始算法復雜度更低。造成這種情況的主要原因是原始算法使用了所有的特征進行運算，而本文中改進后的算法則選取的是重要性指數則是在22以上的特征，所以算法整體的運算時間就減少了。綜上所述，本文采用的改進方法是有效的。

4 結論

本文將XGBoost模型應用于空氣質量預測領域，對數據集的空間特征進行了提取，并將預測結果與傳統的線性回歸模型進行了對比，分析了不同特征對預測模型的重要性程度。在原算法的基礎上，利用特征重要性信息提出了一種改進的預測模型，相比于原算法在性能上有了不錯的提升，并且預測準確率也有所增加。在未來的工作中，研究如何提升空間屬性特征在模型中的重要性將是工作的重點。

[1] 楊復沫, 馬永亮, 賀克斌. 細微大氣顆粒物PM2.5及其研究概況[J]. 世界環境, 2000(4): 32-34.

[2] Cobourn W G. An enhanced PM 2.5, air quality forecast model based on nonlinear regression and back-trajectory concentrations[J]. Atmospheric Environment, 2010, 44(25): 3015-3023.

[3] ZHANG P, ZHANG T, HE L, et al. Study on prediction and spatial variation of PM2.5 pollution by using improved BP artificial neural network model of computer technology and GIS[J]. Computer Modelling and New Technologies, 2014, 18(12): 107-115.

[4] Li Y, Xue Y, Jie G, et al. Estimating ground-level PM2.5 concentration in beijing using BP ANN model from satellite data[C]//IGARSS 2017-2017 IEEE International Geoscience and Remote Sensing Symposium. IEEE, 2017: 4870-4873.

[5] Dong Y, Wang H, Zhang L, et al. An improved model for PM2.5 inference based on support vector machine[C]// Ieee/acis International Conference on Software Engineering, Artificial Intelligence, NETWORKING and Parallel/distributed Computing. IEEE, 2016: 27-31.

[6] Sun W, Zhang H, Palazoglu A, et al. Prediction of 24-hour- average PM(2.5) concentrations using a hidden Markov model with different emission distributions in Northern California[J]. Science of the Total Environment, 2013, 443(3): 93-103.

[7] 劉杰, 楊鵬, 呂文生, 等. 基于氣象因素的 PM2.5質量濃度預測模型[J]. 山東大學學報(工學版), 2015(6): 76-83.

[8] 李航. 統計學習方法[M]. 清華大學出版社, 2012.

[9] Friedman J H. Greedy Function Approximation: A Gradient Boosting Machine[J]. Annals of Statistics, 2001, 29(5): 1189- 1232.

[10] Chen T, Guestrin C. XGBoost: A Scalable Tree Boosting System[J]. 2016: 785-794.

[11] Yang G, Huang J. Model Selection of Symbolic Regression to Improve the Accuracy of PM 2.5, Concentration Prediction[M]// Trends and Applications in Knowledge Discovery and Data Mining. Springer International Publishing, 2015.

[12] 劉凡, 翟亮, 桑會勇. PM_(2.5)土地利用回歸模型地理要素的選取[J]. 測繪與空間地理信息, 2017, 40(9): 84-87.

[13] Hu L, Liu J, He Z. Self-Adaptive Revised Land Use Regression Models for Estimating PM2.5 Concentrations in Beijing, China[J]. Sustainability, 2016, 8(8): 786.

[14] Xue T, Zheng Y, Geng G, et al. Fusing Observational, Satellite Remote Sensing and Air Quality Model Simulated Data to Estimate Spatiotemporal Variations of PM2.5 Exposure in China[J]. Remote Sensing, 2017, 9(3): 221.

[15] Feng X, Li Q, Zhu Y, et al. An estimate of population exposure to automobile source PM2.5 in Beijing using spatiotemporal analysis[C]// Geoscience and Remote Sensing Symposium. IEEE, 2015: 3029-3032.

[16] Wang H, Dong Y, Zhang K. A spatial-temporal model to improve PM2.5 inference[C]// Ieee/acis, International Conference on Computer and Information Science. IEEE, 2017: 173-177.

[17] Habibi R, Alesheikh A, Mohammadinia A, et al. An Assessment of Spatial Pattern Characterization of Air Pollution: A Case Study of CO and PM2.5 in Tehran, Iran[J]. International Journal of Geo-Information, 2017, 6(9): 270.

[18] 許剛, 焦利民, 肖豐濤, 等. 土地利用回歸模型模擬京津冀PM_(2.5)濃度空間分布[J]. 干旱區資源與環境, 2016, 30(10): 116-120.

[19] Deters J K, Zalakeviciute R, Gonzalez M, et al. Modeling PM 2.5 Urban Pollution Using Machine Learning and Selected Meteorological Parameters[J]. Journal of Electrical and Computer Engineering, 2017, (2017-6-18), 2017, 2017(5): 1-14.

[20] Li S, Zhai L, Zou B, et al. A Generalized Additive Model Combining Principal Component Analysis for PM2.5 Concentration Estimation[J]. International Journal of Geo-Information, 2017, 6(8): 248.

PM2.5 Concentration Prediction Model Based on Boosting Tree

WANG Zhi1, ZHANG Zhi-qiang1,2, XIE Xiao-qin1,2, PAN Hai-wei1,2

(1. College of Computer Science and Technology, Harbin Engineering University, Harbin 150001, China;2. Research Center for Intelligent Information Processing, Harbin Engineering University, Harbin 150001, China)

Aiming at the problem of inaccurate prediction of PM2.5 concentration in current air quality forecast, this paper uses a boosting tree model to predict the concentration of PM2.5, the importance of features is used to improve the efficiency of algorithm, and the influence of different features on the accuracy of PM2.5 concentration prediction is analyzed. First, six meteorological factors, such as temperature and wind speed, were extracted from meteorological data from several meteorological monitoring sites in Beijing from January to December of 2016, and six kinds of air pollutant concentration data from twelve national control sites in Beijing were extracted to constitute the feature vector. Next, using the boosting tree model to predict the PM2.5 concentration over the next 24 hours, and compare it with linear regression (LR) model. Finally, the prediction model is improved by extracting the feature importance information, and the features which have a great influence on PM2.5 concentration are analyzed. Using K-fold cross-validation to estimate the accuracy of the model，the experimental results show that, compared with linear regression model, the PM2.5 concentration prediction model based on boosting tree proposed in this paper has a high accuracy of 10% to 30% over the next 24 hours, and the efficiency of the improved algorithm was increased by 20%.

Machine learning; Air pollution; PM2.5 Concentration prediction; Boosting tree model; XGBoost

TP391.4

10.3969/j.issn.1003-6970.2018.10.030

王智(1993-)，男，碩士研究生，研究方向為機器學習；張志強(1973-)，男，博士，教授，研究方向為智能信息處理、信息檢索、數據挖掘等；謝曉芹(1973-)，女，博士，副教授，碩士生導師，研究方向為社會網絡分析與挖掘、Web信息檢索、大數據處理、面向服務的計算、網絡模式下知識處理、智能信息處理等；潘海為，男，副教授，博士生導師，研究方向為數據庫，數據挖掘，機器學習，醫療健康大數據等。

王智，張志強，謝曉芹，等. 基于提升樹的PM2.5濃度預測模型[J]. 軟件，2018，39（10）：156-163