楊思琪,趙麗華
(太原理工大學 數學學院,山西 晉中 030600)
隨機森林算法在城市空氣質量預測中的應用
楊思琪,趙麗華
(太原理工大學 數學學院,山西 晉中 030600)
近年來霧霾現象不斷出現,空氣質量狀況愈發受到關注。文章以每日前一天的PM2.5、PM10濃度值等污染指標及溫度、濕度、風速值等氣象指標為影響因子,嘗試基于隨機森林算法的分類與回歸功能,采用交叉驗證法構建空氣質量預測模型,并與應用Boosting、Bagging、決策樹及支持向量機算法建立的模型的預測結果對比,發現隨機森林模型具有較高的預測精度、較強的泛化能力及較好的穩健性能等優點,對開展城市空氣質量預測工作有一定的指導意義。
隨機森林算法;空氣質量預測;交叉驗證;分類;回歸
隨著我國經濟的快速發展,大氣污染問題日趨嚴重,城市空氣質量已成為公眾與政府關注的焦點。空氣質量指數(Air Quality Index,AQI)是反映空氣質量水平的重要指標,研究AQI的預測方法,既為民眾在大氣污染前采取預防措施提供指導意見,也為相關部門開展大氣污染防治工作提供理論依據,達到從被動的空氣污染監測到主動應對空氣污染物的控制。
目前,空氣質量預測法主要有潛式預報、數值預報和統計預報三類[1]。潛勢預報通過歸納總結過去發生污染事件時特有的天氣形勢及氣象條件,預報未來出現污染的可能性。方法簡單方便,但由于未考慮污染源的具體情況,預報精度較低[2]。數值預報是一種基于物理化學過程的確定性的方法。優勢是科學性強且思路清晰,然而它需要建立一個相對精確的數值模型,還需有污染源的詳盡排放參數與詳實的氣象資料,這些要求一般較難滿足[3]。此外,它的計算復雜(通常需要6~12h),預報的時效性難以滿足實際需要[2]。統計預報通過分析與空氣污染相關的輸入-輸出資料的統計規律,對未來趨勢進行預測,是一類不依賴于污染物的物理化學過程的方法[4]。因具有快捷、簡單的特點,得到許多研究者的關注,但受線性統計關系的限制,它難以模擬復雜多變的大氣污染變化[3]。文獻[5]表明:神經網絡方法因具有擬合輸入-輸出變量間非線性關系的能力,與統計方法相比,能更好地模擬大氣污染因素間的非線性關系。但其缺點在于推廣能力差、易陷入局部最優,原理復雜,不易操控[6]等。上世紀90年代起,集成算法作為一種新的機器學習范式,因其獨特的優勢成為機器學習領域的熱點。其中,隨機森林(Random Forest,RF)是由Breiman于2001年提出的一種基于決策樹的集成算法,它脫離假定分布、假設檢驗、p值的經典統計過程[7]。大量的研究表明隨機森林相對于神經網絡、支持向量機、決策樹等方法有更好的容忍度及更高的預測精度,不易出現過擬合,對多元共線性不敏感,結果對缺失數據和非平衡數據比較穩健[8],已廣泛應用在醫學、經濟學、管理學等領域,并取得良好效果[9]。近幾年,國外少數研究表明隨機森林算法在空氣質量預測中表現較好[10],但目前,國內相關的研究十分少見。為此,本文將隨機森林算法應用在預測城市空氣質量狀況的研究中。
中華人民共和國環境保護部于2013年發布了環境空氣質量指數AQI(技術規范),AQI計算的參考標準是新環境空氣質量標準(GB3095-2012),參與評價的污染物有:SO2、NO2、PM10、PM2.5、O3和 CO。空氣質量水平根據AQI的數值大小被分為六個等級,指數的值越大、對應的級別就越高,表明大氣污染情況越嚴重,對人體健康的危害也就越明顯,具體見表1所示。

表1 AQI的范圍及對應的空氣質量類別
(1)了解某地區的空氣質量概況及特征;(2)尋找一個精度高的分類函數fc對AQI的等級進行判別及預測;(3)尋找一個表現性能良好的回歸函數fr對AQI的數值進行回歸及預測。本文基于隨機森林算法建立AQI的分類與回歸模型,并與利用Boosting、Bagging、決策樹及支持向量機算法建立的模型進行對比,從中選出相對最優的模型應用于實際情況。
建立空氣質量狀況的預測模型,首先要了解影響空氣質量的因素,這些因素主要有污染物排放情況與氣象條件等[11]。本文選取太原市2014—2015年每日前一天的PM2.5、PM10、SO2、CO、NO2及O3的濃度值作為衡量該日污染排放情況的指標;對應的最高溫度、最低溫度、溫差、平均溫度、露點溫度、相對濕度、氣壓、風速及降雨量值作為衡量該日氣象條件的指標,研究中所需的污染數據資料來自太原空氣質量指數歷史統計數據http://www.aqistudy.cn/historydata/index.php,氣象數據資料來自http://www.wunderground.com/history。解釋變量的注釋見表2所示。

表2 解釋變量列表
收集的原始數據樣本量為730,初步整理原始數據得:優65天,良374天,輕度污染204天,中度污染58天,重度污染28天,嚴重污染1天。可知這六類所含的樣本量相當不均衡,考慮到分類結果的精度,將原始數據重新歸為以下三類:{優,良}=“低”(對人體健康基本無影響);{輕度污染}=“中”(對部分敏感人體健康造成影響);{中度污染,重度污染,嚴重污染}=“高”(對大部分人體健康造成影響)。
隨機森林分類(Random Forest for Classification,RFC)模型是基于多個分類樹模型構成的組合分類模型,參數集是獨立同分布的隨機向量,自變量X給定時,每個分類樹模型在選擇最優分類結果時都有一票投票權。算法的主要步驟為:
(2)對每個Bootstrap訓練集建立分類樹模型,產生k棵分類樹,k棵樹合起來構成一片“森林”,構建每棵分類樹時均不進行剪枝(pruned)處理,而且構建每棵樹時,并不是選擇全部M個屬性中的最優屬性作為內部節點進行分支(split),而是從隨機選擇的個屬性中選出最優屬性進行分支;
(3)生成的多個分類樹模型相當于精通不同領域的專家,集合k棵分類樹的分類結果,采用投票方式決定要預測的新樣本的類別。
Bootstrap抽樣法使得每次抽取的樣本集不完全相同,增加了分類模型間的差異,從而提高了組合分類模型RFC的外推預測能力。k輪訓練后,得到一個分類樹模型序列對任意給定的新樣本,它的分類結果由簡單多數投票法產生,RFC模型的分類決策為:

式中,fc(x)表示RFC模型的結果,hi是單個分類樹模型的結果,Y表示輸出變量,I為指示函數。
隨機森林回歸(Random Forest for Regression,RFR)模型是通過與隨機向量θ有關的回歸樹生長構成的,模型的因變量是數值型變量,并假設訓練集是從隨機向量Y,X的分布獨立抽取出來的。任意數值預測值h(X)的均方泛化誤差為模型的預測結果是k棵回歸樹的均值。
算法的主要步驟為:
(3)k輪訓練后,得到一個回歸樹模型序列{h1(X),h2(X),...,hk(X)},對任意給定的新樣本,它的預測結果是對k輪結果的平均匯總,RFR模型的預測結果為:

式中,fr(x)表示RFR模型的結果,hi是單個回歸樹模型的結果。通過Bootstrap抽樣可得到不同的樣本集,利用這些樣本集分別構建回歸樹模型,增加了模型間的差異,從而提高了模型的外推預測能力。
K折交叉驗證法(K-fold cross validation method)是一種有效的數據建模和檢驗分析技術,它通過將原始樣本打亂并重復利用,盡可能充分地利用有限的樣本資源來減少預測偏差,并同時考慮了訓練誤差和泛化誤差。對于小樣本數據,此方法的檢驗結果比將原始樣本分為訓練集和測試集的結果更為可靠[12]。方法如下:首先將原始數據隨機分為K組,然后將每個子集分別做一次測試集用來測試模型,余下的K-1組子集則作為訓練集用來訓練模型,共得到K個模型,最后用這K個模型的預測精度的平均值作為模型預測精度的最終估計值。本文取K=5,考慮到數據劃分的隨機性,為得到更一致的計算結果,故采用10重5折交叉驗證法進行模型的構建與驗證。
將模型fc(x)在測試集上錯誤分類的樣本數占總樣本數之比,即分類誤判率作為評價模型性能的指標,該值越小,模型的預測精度就越高;將模型fr(x)在測試集上的均方根誤差(RMSE)、平均絕對誤差(MAE)及因變量實際值與預測值的相關系數(R)作為模型模擬結果與實際值的吻合程度的衡量指標,RMSE與MAE的值越小,R值越接近1,表明模型的預測效果越好。指標的定義見下式:

為了對太原市的空氣質量概況有大致了解,初步分析了該市在不同季節的空氣質量狀況,太原四季分明,劃分四季的標準為:春季3~5月,夏季6~8月,秋季9~11月,冬季12~2月。不同季節空氣質量等級的比例分布見圖1。

圖1 空氣質量等級比例分布圖
由圖1知,太原市秋季和冬季中空氣質量等級處于“高”水平的比例顯著高于春季和夏季中空氣質量等級處于“高”水平的比例,說明太原秋季和冬季的空氣質量要明顯差于春季和夏季,其中冬季的空氣質量狀況又是最差的,這與太原冬季供暖燒煤有很大關系,供暖的結果必然導致污染物排放量的增加,從而造成空氣質量的嚴重下降。經統計分析太原市2014—2015年歷史空氣質量日報數據,得到AQI的月均值變化如圖2所示。

圖2 AQI月均值變化圖
由圖2也可看出AQI月均值的變化規律為:1月、2月、12月的AQI均值相對高于其余月份的AQI均值,驗證了太原市在冬季時期的空氣質量狀況最差,3月至8月期間AQI均值處于逐漸下降階段,而從9月開始直至12月AQI均值又逐漸上升,說明太原市春季和夏季的空氣質量相對較好。四季的空氣質量從好到差的排序為夏>春>秋>冬。
隨機森林算法可用于分類和回歸,不僅能對離散的因變量建模,也能對連續的因變量建模。當因變量Y為AQI等級時,建立分類模型;當因變量Y為AQI數值時,建立回歸模型。
(1)分類模型
采用10重5折交叉驗證法建立分類模型fc判別AQI的等級,為了比較RFC算法與其他算法的優劣,同時還建立了Adaboost、Bagging、分類樹及SVM模型,其中,集成算法Adaboost和Bagging也是以分類樹為弱學習器來建立模型,并分別用模型fc在測試集上的平均誤分率的均值與標準差衡量模型的分類精度與穩健性。結果見表3。

表3 不同分類模型10重5折交叉驗證的結果
從表3可知,在這5個分類模型中,衡量指標值在測試集上的大小按模型排序為:平均誤分率均值:分類樹>Adaboost>SVM>Bagging>RFC,標準差:Bagging>分類樹>SVM>Adaboost>RFC。表明與這些算法相比,基于RFC算法建立的模型具有更高的預測精度,穩健性能也更好,在一定程度上體現了集成學習算法RFC的優勢,因此可考慮將該算法用于AQI等級的預測。
(2)回歸模型
采用10重5折交叉驗證法建立回歸模型fr預測AQI的數值,為了比較RFR算法與其他算法的優劣,同時還建立了Boosting、Bagging、回歸樹及SVR模型,其中,集成算法Boosting和Bagging也是以回歸樹為弱學習器來建立模型,并分別用模型fr在測試集上的RMSE、MAE及R三個指標的均值與標準差衡量模型的預測效果與穩健性。結果見表4。

表4 不同回歸模型10重5折交叉驗證的結果
由表4知:在這5個回歸模型中,衡量指標值在測試集上的大小按模型排序為:RMSE均值:回歸樹>Boosting>Bagging>SVR>RFR,標準差:回歸樹> Bagging>Boosting>RFR>SVR;MAE均值:回歸樹>Boosting>Bagging> SVR>RFR,標準差:回歸樹>SVR>Boosting>Bagging>RFR;R均值:RFR>SVR> Bagging> Boosting>回歸樹,標準差:回歸樹>Bagging>Boosting>SVR>RFR。綜合分析可知RFR模型表現最優,體現了RFR模型具有較好的預測精度、外推能力及穩健性能。圖3是基于RFR算法建立的回歸模型在某測試集上的擬合結果。

圖3 基于RFR模型的測試樣本擬合結果
從圖3可看出,AQI預測值與觀測值并不是每個點都能對應上,但二者的變化趨勢吻合度較高,也驗證了基于RFR算法建立的回歸模型在預測AQI數值時表現良好,且預測精度在合理范圍內,故可考慮將該算法用于AQI數值的預測。
本文將隨機森林分類及回歸算法應用到預測城市空氣質量狀況的研究中,并與Boosting、Bagging、決策樹及支持向量機算法進行對比,結果表明隨機森林模型在判別AQI等級及預測AQI數值方面的性能優于上述算法,RFC模型在測試集上的預測精度為70%左右,RFR模型在測試集上的RMSE、MAE及R指標的均值依次為35.71439、25.03022、0.63003。由于山西省在2012年之前按照國家標準監測空氣污染指數API,2013年起才按照新的國家標準監測空氣質量指數AQI,即利用AQI開展空氣質量的預報工作時間并不長,本文收集了兩年的資料,數據量相對來說少一些,得到這樣的結果還算理想,隨著時間的積累,大氣環境監測資料和氣象資料的同步會逐漸規范化,將會為今后的空氣質量預測工作提供一定的參考價值。另外可在今后的研究中進一步拓展,如考慮增加樣本容量及模型的輸入變量(衡量大氣垂直運動的指標等),以期取得更好的結果。
[1]孫美根,韓志偉,雷孝恩.城市空氣污染預報方法簡述[J].氣候與環境科學研究,2001,6(1).
[2]王勤耕,夏思佳,萬祎雪等.當前城市空氣污染預報方法存在的問題及新思路[J].環境科學與技術,2009,32(3).
[3]薛興釗.基于BP神經網絡的秦嶺北麓中部空氣質量預報研究[D].西安:西安建筑科技大學,2014.
[4]尹文君,張大偉,張超等.基于深度學習的大數據空氣污染預報[J].中國環境管理,2015,7(6).
[5]金龍.人工神經網絡技術發展及在大氣科學領域的應用[J].氣象科技,2004,32(6).
[6]孟杰.隨機森林模型在財務失敗預警中的應用[J].統計與決策,2014,(4).
[7]李貞子,張濤,李康等.隨機森林回歸分析及在代謝調控關系研究中的應用[J].中國衛生統計,2012,29(2).
[8]Breiman L.Random Forests[J].Machine Learning,2001,45(1).
[9]Fantazzini D,Figini S.Random Survival Forests Models for SME Credit Risk Measurement[J].Methodology and Computing in Applied Probability,2009,11(1).
[10]Kunwar P.Singh,Shikha Gupta,et al.Identifying Pollution Sources and Predicting Urban Air Quality Using Ensemble Learning Methods[J].Atmospheric Environment,2013.
[11]沈勁,鐘流舉,何芳芳等.基于聚類與多元回歸的空氣質量預報模型開發[J].環境科學與技術,2015,38(2).
[12]周啟清,李毓.分類樹集成算法在縣域金融貸款風險分類評估中的應用[J].經濟問題,2009,(12).
O21;X51
A
1002-6487(2017)20-0083-04
山西省青年科技研究基金資助項目(2012021015-6);太原理工大學教育教學改革資助項目(8003-02040403)
楊思琪(1993—),女,安徽阜陽人,碩士,研究方向:機器學習與數據分析。
(通訊作者)趙麗華(1979—),女,山西陽泉人,博士研究生,講師,研究方向:應用概率統計。
(責任編輯/易永生)