999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于組合模型對云南省昭通市空氣質量指數的預測

2021-06-30 16:44:20趙玉鳳何淑仙王彭德
大理大學學報 2021年6期
關鍵詞:模型

趙玉鳳,何淑仙,王彭德

(大理大學數學與計算機學院,云南大理 671003)

隨著城市化建設的加速,大氣污染嚴重,對空氣質量的預測和評價愈顯重要。目前在空氣質量評價上主要采用空氣質量指數(air quality index,AQI),AQI是以環境空氣質量標準為基礎,根據各種污染物、生活環境和生態的影響,將對空氣污染物濃度進行綜合監測的一系列數據化為單一的概念性數值的形式〔1〕,該指數值越小意味著空氣污染較輕,如果指數值較大,則說明空氣污染嚴重。空氣質量是根據空氣中污染物的濃度反映空氣污染程度的指標,主要有細顆粒物(PM2.5)、可吸入顆粒物(PM10)、二氧化氮(NO2)、二氧化硫(SO2)、一氧化碳(CO)和臭氧(O3)。當前有越來越多的研究者關注空氣質量預測問題,提出了不同的預測方法,進而為空氣污染防治提供了科學的依據。如:于萍〔2〕利用空氣質量數據建立了ARIMA(1,1)模型,并對短期內的空氣質量指數進行了預測和判斷。許允之等〔3〕針對徐州市霧霾形勢,采用多元線性回歸方法建立模型,在該模型的基礎上,剔除不重要的變量和樣本異常值。經過兩次改進,將九元線性模型簡化為四元線性模型,通過檢驗和診斷,驗證了四元線性回歸模型的準確性和實用性。王娜娜〔4〕利用特定時間范圍內的空氣質量監測數據,建立隨機森林模型對北京市未來一段時間的塵埃污染濃度進行了預測分析,進而為北京市的大氣污染治理提供了參考建議。郭利進等〔5〕利用ARIMA模型,用卡爾曼濾波建立數學模型,將徑向基函數神經網絡融合到卡爾曼濾波中,提出了一種新的融合算法,并對AQI進行了預測,改進了單方法的延遲估計,提高了預測精度。呂霽洲〔6〕在數據訓練后,驗證了神經網絡算法對空氣質量預測的可行性。由于采用單一模型對空氣質量進行預測,存在一定的局限性。為提高預測的精準度,以下將利用2018年1月1日至2020年8月31日的云南省昭通市AQI歷史數據,建立多元線性回歸、時間序列、隨機森林、回歸樹模型對昭通市AQI進行預測,選擇預測精度較高的兩種模型進行組合,進一步改進空氣質量預測的方法。

1 方法及原理

1.1 多元線性回歸 多元線性回歸有廣泛的應用,可以對不同變量之間的關系進行分析。Y表示因變量,對其產生影響的自變量表示為X1,X2,…,Xp,數量為p,其關系式為:

ε為隨機誤差項,β0代表常數項,βj(j=1,2,…,p)代表Y對于Xj的回歸系數參數值,通常情況下βj代表在其余自變量穩定的條件下,Xj增大一個單位之后Y的變化均值。

1.2 ARIMA(p,d,q)模型 ARIMA(p,d,q)模型為yt=θ0+φ1yt-1+φ2yt-2+…+φpyt-p+εt-θ1εt-1+θ2εt-2+…+θqεt-q,p、q對應著自回歸多項式、移動平均多項式的整數;yt代表樣本值;φ和θ為模型參數;ε是隨機誤差,其均值為0。該模型實際上是在ARMA模型的基礎上進行擴展得到,針對非平穩時間序列實現d階逐期差分,從而提升yt的平穩性,然后通過ARMA(p,q)模型進行建模、逆變換,通過這種方式可以獲取到原序列。

1.3 隨機森林 隨機森林在統計分析中有廣泛應用,其分類器為基礎分類器主要是h(x,θk)。在樣本預測過程中需要通過隨機方式形成一個森林,在森林中的決策樹結構較多,但是彼此之間的聯系很少。通過回歸樹的擴展可以得到隨機森林模型,訓練集通過隨機向量分布獲取。已知訓練集為代表隨機的序列,通過隨機抽樣的方式獲取到T的子集Ti,其中含有的樣本數目為k,而表示各個子集對應的模型。如果已知滿足獨立同分布條件,則通過k輪訓練后得到序列,因此隨機森林預測模型為

1.4 回歸樹 分類和回歸樹(CART)算法是將樣本集劃分為兩大部分,也就是對應著兩個子集,在此過程中采用的是二分遞歸分割技術,此時各個非葉子節點中均有兩種決策樹方法。基于CART算法得到的決策樹屬于基本的二叉樹結構。

針對最佳的切分點、切分變量進行確定,可以得到滿足區間平方差最小的值a1、a2。求解公式為〔7〕:

然后對全部的輸入變量進行遍歷,獲取到最佳的切分變量,對輸入空間進行劃分,可以得到如下兩部分:

按照相同的劃分方式繼續針對各個區域進行劃分,在達到結束條件時輸出最終的結果,由此得到回歸樹。

1.5 模型評價指標 在模型評價過程中需要利用合適的評價指標,以下選用平均相對誤差(MRE)、均方根誤差(RMSE)兩個指標,其公式如下:為觀測值,為預測值,n為樣本數量。

2 數據來源

數據源于天氣網中的云南省昭通市2018年1月1日至2020年8月31日AQI,共975個數據,對AQI的影響因素有多種類型,在收集資料時無法考慮所有因素,主要篩選了以下指標:AQI(Y),PM2.5(X1)、PM10(X2)、SO2(X3)、NO2(X4)、CO(X5)、O3(X6)。

3 預測模型的建立

3.1 多元線性回歸 利用最小二乘法建立多元線性回歸模型,同時需對參與的影響因素進行分析。結合之前的討論,AQI與PM2.5,PM10,SO2,NO2,CO,O3等多個因素有關,這些因素屬于自變量,其中AQI為因變量。選取昭通市2018年1月1日至2020年8月1日共945個空氣質量數據作為訓練集,2020年8月2日至31日共30個數據為測試集,使用R語言中的lm()函數建立模型,summary()輸出模型,得到模型為:Y=β0+β1X1+β2X2+…+βP X P+ε,結果見表1。

表1 多元線性回歸模型

從表1發現X3和X5不顯著,而其余變量比較顯著,通過逐步回歸法將變量進行剔除,輸出模型得到表2。

表2 調整后的多元線性回歸模型

由此得多元線性回歸方程:

從回歸方程中發現AQI與PM2.5,PM10,NO2,O3呈正相關關系,且O3對AQI的影響最大,擬合優度R2=0.813,即認為多元線性回歸模型是有效的,用該模型對昭通市2020年8月的30個數據進行預測。

將預測值與2020年8月2日至31日的空氣質量實際數據進行比較,二者分別用實線、虛線表示,真實值與預測值的擬合圖見圖1。發現預測的AQI波動大,結果誤差大,有可能是因為影響因素的多樣性和某些因子的不可測性,使得回歸分析在某些情況下受到限制,真實值與預測值的擬合不太好,但總體趨勢變化相近,預測結果的平均相對誤差為9.83%、均方根誤差為5.02。

圖1 多元線性回歸擬合

3.2 時間序列 繪制出昭通市2018年1月1日至2020年8月31日逐日AQI時間序列,可知并不存在顯著的特征,因此可以將其認為是一個平穩序列,接著通過自相關圖進行分析。見圖2。自相關圖盡管并未控制在2倍標準差以內,但是保持了一定的波動性,該特征與平穩時間序列的隨機性特征是一致的。

圖2 自相關圖

根據純隨機性檢驗得到LB檢驗統計量的P=2.2e-16(<0.05)比較小,據此可以推斷屬于非白噪聲序列。圖3偏相關圖顯示拖尾,圖2自相關圖未快速趨于0,則需進一步差分處理,差分后自相關圖顯示拖尾,可以嘗試擬合ARIMA模型。研究發現ARIMA(4,1,7)模型的赤道信息準則(AIC)、貝葉斯準則(BIC)最低,具體數值為7 364.51、7 363.11。殘差檢驗結果顯示P=0.956 8>0.05,可將殘差序列作為白噪聲序列,由此驗證了該擬合模型的應用效果。

圖3 偏相關圖

ARIMA模型對AQI預測結果見圖4,平均相對誤差為2.20%、均方根誤差14.66。該模型預測的AQI難以達到較高的精度,原因可能是模型沒有抓住原始數據“季節性”的特點,且實際中有很多因素都會影響到AQI,包括天氣條件變化等,特別是這些不確定性因素產生的影響具有隨機性,最終影響了模型的擬合精度。

圖4 時間序列預測圖

3.3 隨機森林 在隨機森林建模過程中,利用R語言中的RandomForest程序包,模型如下:r_model=randomForest,(aqi~.,data=dat,ntree=1000,importance=TRUE),ntree代表隨機森林樹的數目,這是對模型精度產生影響的關鍵因素,importance函數描述變量的重要性,通過精度平均較少值進行評價。

模型應用效果的影響因素,主要與備選變量(mtry)、隨機森林樹數目(ntree)有關,各個參數應該保持合適的取值,前者一般取值為森林樹數目的1∕3±1,如果變量個數小于3時,則將其設為1,該模型mtry取值3。

通過訓練集完成訓練,結果見圖5,橫、縱軸分別對應著隨機森林樹數目、均方誤差,均方誤差隨著隨機森林樹數目的增大而減少,二者存在一定的負相關性,但是減小到一定程度后基本保持穩定,此時隨機森林樹數目=400。

圖5 樹目變化情況下誤差變化

利用訓練集訓練模型,幾個指標在模型中的重要程度見圖6,左邊為各因子相對重要性圖,右邊為節點純度圖,數值越大,表明在模型中的重要性就越明顯,也就是對AQI的預測結果影響越大。根據圖中的信息可知,O3濃度和PM10對AQI預測結果影響最大,NO2對AQI預測結果影響最小。

圖6 變量重要性

輸入測試集數據,將預測值與2020年8月的空氣質量實際數據進行比較,見圖7,可看到隨機森林模型的預測結果準確性較高,模型預測值與實際值基本吻合,在高峰值和低峰值的點,實際值比預測值誤差略大一點。模型擬合優度達到96.95%。預測結果的平均相對誤差1.50%、均方根誤差0.80。

圖7 隨機森林擬合

3.4 回歸樹 將空氣質量數據前945個作為訓練集,其余30個作為測試集,選用PM2.5,PM10,SO2,NO2,CO,O3作為模型輸入。得到AQI預報值,由回歸樹結果圖展現了空氣質量指標重要性的排序和分類,可知該回歸樹的根節點是基于O3來劃分的,O3對AQI的影響最大。對根節點最優的切分變量是O3和切分點是106.5,即以O3≥106.5和O3<106.5劃分,最后按照此規律對下面的子節點進行劃分,直到葉節點為止。為了達到模型最優化的目標,通過廣義交叉驗證模型的預測效果,選擇了合適的最優回歸樹,確保誤差處于最低的要求。利用回歸樹模型預測的30組測試數據中有1組達到了零誤差預測,也就是預測值與實際值完全相同;最大絕對誤差僅第17組樣本,最大誤差值為3.286;其他測試樣本的誤差值都比較小,即回歸樹模型對測試集擬合效果很好,其預測精度高且泛化能力也強。

擬合結果見圖8,最終平均相對誤差1.40%、均方根誤差為0.85。結果表明:回歸樹模型較好地預測AQI,在最低點、最高點均可以達到精度的要求,回歸樹的預測精度高,穩定性好。

圖8 回歸樹擬合

3.5 隨機森林-回歸樹組合模型 利用單一預測模型對昭通市2020年8月2日至31日的空氣質量進行預測,各自都存在一定的不足,為了增強模型的預測性能,在此基礎上設計組合模型,提升對于空氣質量預測的效果。通過數據建立單一預測模型發現多元線性回歸和ARIMA模型預測誤差較大,而隨機森林、回歸樹模型精度較高,故用后者構建組合模型預測昭通市AQI。運用標準差法計算兩個預測模型的權重,由隨機森林模型與回歸樹模型的標準差分別為0.80,0.85,得到權重分別是w1=0.515、w2=0.485,組合預測模型為

Z1為隨機森林的預測值,Z2為回歸樹的預測值。

由此組合模型計算出8月2日至31日AQI的預測值,平均相對誤差為1.27%,均方根誤差為0.42,預測的AQI擬合效果見圖9,可以看出兩條線幾乎重合,預測效果顯著。

圖9 組合模型預測擬合

用平均相對誤差、均方根誤差檢驗單一模型和組合模型的預測效果,其結果見表3。

表3 預測模型誤差對比

可知,相對于單一的回歸樹以及隨機森林模型,采用組合模型的預測效果更佳,各個指標處于更優的水平,均方根誤差低,表明預測結果的可靠性較高;而平均相對誤差較低,說明預測結果的偏離性最低,預測結果的準確性更高。因此組合預測模型在預測性能上能夠達到更高的要求,相對于其他單一模型的預測效果更佳。

圖10可看出,時間序列誤差曲線有多個高峰值,誤差最大,線性回歸誤差比時間序列更平穩一些,但是誤差在0到5之間變化,隨機森林和回歸樹的誤差很接近,少數幾個點預測差距明顯,而相對于單一模型而言,組合模型的預測誤差穩定性相對較高,波動性不明顯,且誤差在0到2以內,預測結果與實測值的一致性更高,在實際預測中,能夠為空氣質量預測提供較為準確的結果。

圖10 模型誤差對比圖

4 結論

利用云南省昭通市2018年1月至2020年8月的空氣質量監測數據構建了多元線性回歸、隨機森林等單一預測模型,通過平均相對誤差、均方根誤差以及數據擬合驗證了模型的預測效果。針對單一預測模型的不足構建了組合模型,即隨機森林-回歸樹組合預測模型,該模型融合了兩種單一模型的優點,在預測時的精度更高。然后對2020年8月的AQI進行預測,組合模型預測結果與實際值一致性較好,效果遠遠優于單一模型,因此可以將該組合模型應用到實際空氣質量預測中。同時隨機森林具備了一定的診斷功能,發現影響昭通市空氣質量的主要因素是PM10和O3,這些顆粒物主要來自工業生產領域中,特別是在化石能源燃燒過程中容易形成大量此類污染物。因此應采取有效的空氣污染防治措施,提高空氣的質量,從而為居民創造適宜的生活環境。

致謝:本研究是在2020年云南省教育廳首批線下一流課程《概率論與數理統計》課題支持下完成的,在此表示感謝。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 中文纯内无码H| 午夜精品久久久久久久无码软件| 国产一在线观看| 成人免费午夜视频| av一区二区三区在线观看| 精品综合久久久久久97超人| 中文字幕调教一区二区视频| 精品国产自在现线看久久| 亚洲人成网站在线播放2019| 国产欧美视频在线观看| 久久99国产乱子伦精品免| 国产美女精品一区二区| 久久久精品无码一二三区| 国产视频只有无码精品| 色135综合网| 国产乱人免费视频| 欧美午夜在线观看| 激情六月丁香婷婷四房播| 日日摸夜夜爽无码| 日韩成人免费网站| 99久久精品美女高潮喷水| 四虎成人精品| 国产丝袜精品| 四虎精品黑人视频| 白浆视频在线观看| 国产经典在线观看一区| 四虎在线观看视频高清无码 | 欧美日韩国产在线人| 国产97色在线| 国产成本人片免费a∨短片| 国产SUV精品一区二区| 久久久久无码精品| 超碰精品无码一区二区| 亚洲天堂色色人体| 在线网站18禁| 永久天堂网Av| 国产偷国产偷在线高清| 欧美全免费aaaaaa特黄在线| 久久精品波多野结衣| 99九九成人免费视频精品| 亚洲人成电影在线播放| 亚洲精选高清无码| 免费人欧美成又黄又爽的视频| 国产无码性爱一区二区三区| 国产精品专区第1页| 日本道综合一本久久久88| 色老头综合网| 国产午夜一级毛片| 亚洲欧美日韩精品专区| 无码视频国产精品一区二区| 在线不卡免费视频| 国产精品黄色片| 国产精品亚洲欧美日韩久久| www.99精品视频在线播放| 91美女视频在线观看| 青青草原国产精品啪啪视频| 午夜性爽视频男人的天堂| 国产福利影院在线观看| 自拍亚洲欧美精品| 最近最新中文字幕在线第一页| 日本不卡视频在线| 国产区人妖精品人妖精品视频| 欧美在线三级| 4虎影视国产在线观看精品| 日本爱爱精品一区二区| 91青草视频| 亚洲AV无码久久精品色欲| 国产精品一区二区国产主播| 亚洲男人的天堂视频| 亚洲一级毛片在线观播放| 亚洲综合精品香蕉久久网| 青青青伊人色综合久久| 精品无码人妻一区二区| 亚洲婷婷在线视频| 看你懂的巨臀中文字幕一区二区| 欧美日韩在线第一页| 2019国产在线| 欧美成人精品一级在线观看| 亚洲码一区二区三区| 国产内射一区亚洲| 久久窝窝国产精品午夜看片| 日韩精品资源|