999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據預處理對LSTM網絡大氣污染預測精度分析?

2021-08-08 11:11:58杜英魁張乙芳原忠虎關屏彭
計算機與數字工程 2021年7期
關鍵詞:模型

杜英魁張乙芳原忠虎關 屏彭 躍

(1.沈陽大學信息工程學院 沈陽110000)(2.沈陽恒源偉業環境檢測服務有限公司 沈陽110000)(3.遼寧省環境監測實驗中心 沈陽110000)

1 引言

隨著經濟的快速發展,大氣污染也逐日嚴重。沈陽作為東北老工業的重點城市,大氣環境質量也不容樂觀。2013年1月到2019年3月共75個月份,沈陽空氣質量月均指數(AQI)Ⅰ級(優)月數0個(0%),Ⅱ級(良)月數47個(62.7%),Ⅲ級(輕度污染)月數22個(29.3%),Ⅳ(中度污染)月數4個(5.3%),Ⅴ(重度污染)月數2個(2.7%)。大氣污染已經成為沈陽市迫在眉睫的問題。研究大氣污染濃度的變化,掌握其變化規律對大氣污染的治理、改善大氣污染是十分有必要的。

針對大氣污染物濃度預測問題,國內外學者提出了一系列的預測模型。騰浩宇[1]使用多元回歸模型預測PM2.5濃度,趙學敏[2]使用灰色GM(1,1)預測模型對北京市大氣污染濃度進行預測,但都沒有考慮大氣污染物濃度數據具有時序性和非線性的特點;岳鵬程[3]使用模糊時序和支持向量機對SO2濃度進行預測,解決了大氣污染物時序性特點,但支持向量機中的參數難以確定,參數的選取過于依賴主觀經驗[4];范竣翔[5]建立RNN空氣污染時空預報模型,RNN模型擅長處理連續的時間序列數據,但在運算過程中容易出現梯度消失問題。大氣污染物濃度數據采集過程中,存在數據質量層次不齊、存在異常值和缺失值等數據質量問題[6]。如果不能選擇合適的數據預處理方法,可能會對數據的分析結果產生嚴重偏差,因此數據預處理方法的選取顯得尤為重要。

本文利用LSTM模型擅長處理時序的、非線性數據的特點,具有適用性強、防止梯度消失等優點[7]。與不同缺失值處理方法相結合,建立LSTM空氣污染預測模型。主要工作包括:通過箱線圖法識別出各種污染物濃度數據中的異常值,并采用異常值視為缺失值的處理方法;使用均值替換法、回歸插補法以及多重插補法對數據進行數據預處理,比較三種缺失值處理方法的效果;建立LSTM預測模型,分別使用三種預處理后的數據進行訓練與檢驗,比較LSTM模型的精度。

2 數據預處理

2.1 數據來源

本文所使用的沈陽市大氣污染物濃度數據,主要來源于國家空氣質量自動監測點位的空氣質量自動監測數據。所采集的沈陽市大氣污染物濃度數據具體為2016年11月1日 至2019年3月31日,共881天5286個大氣污染物濃度的日均值數據,主要包括顆粒物PM2.5,顆粒物PM10,二氧化硫(SO2),二氧化氮(NO2),一氧化氮(CO),臭氧(O3)六種污染物。

2.2 數據異常值分析與處理

異常值的存在會對數據的計算分析帶來不良影響,本文采用箱線圖法分析采集數據中的異常值[8],箱線圖為我們提供了識別異常值的一個標準:異常值被定義為小于Q1-1.5IQR或大于Q3+1.5IQR的值[9],如圖1所示。據統計六種污染物異常值共為57個,占總數據的4.15%。同時采用異常值視為缺失值的方法,對異常值進行填補。

圖1 六種污染物異常值識別

2.3 數據缺失值識別與處理

數據收集的過程中,由于數據采集失誤、數據存儲失敗、機器損毀等原因會導致數據的不完整性。一般來說,缺失值的處理包括兩個步驟:即缺失值數據識別和缺失值處理。

原始數據缺失值的識別如圖2所示,按照不同類別和比例,展示了大氣污染物濃度原始數據的基本情況,淺色表示濃度值小,深色表示濃度值大,黑色表示缺失值。

圖2 原始數據缺失值識別

本文采集的大氣污染物濃度數據總量為5286條,缺失量為237,缺失率為5.38%。表1對原始數據缺失值進行了詳細統計。本文分別使用均值替換法、回歸插補法以及多重插補法[10],對缺失值進行處理,并比較其處理效果。

表1 缺失值統計

均值替換法保留了與缺失變量無關的其他變量的信息,最大程度上保證了數據真實性與完整性的特點[11]。即采用均值替換法分別計算出PM2.5均值為44、PM10均值為81、SO2均值為28、NO2均值為41、O3均值為53、CO均值為1。對污染物濃度數據進行均值替換法處理的頻數分布對比,如圖3所示。

圖3 均值替補法前后數據頻數分布圖

通過污染物變量與時間變量建立回歸模型,利用回歸方程的預測值對缺失數據進行回歸插補[12]。對污染物濃度數據進行回歸插補法處理的頻數分布對比,如圖4所示。

圖4 回歸插補法前后數據頻數分布圖

對原始數據進行多重插補,利用每一個插補值對缺失數據插補得到相應個數的完整樣本[13]。對污染物濃度數據進行均值替換法處理的頻數分布對比,如圖5所示。

圖5 多重插補法前后數據頻數分布圖

通過以上三種方法對原始數據時間序列集進行缺失值處理后,可明顯看出,處理后數據頻數發生了明顯變化。沈陽市六種污染物濃度變化的時間序列分布折線圖如圖6所示,六種污染物濃度變化趨勢具有較為明顯的周期性特征。其中PM2.5、PM10、SO2、NO2每年的11月份到次年的3月份濃度較高,主要原因是沈陽市仍然以燃煤為主,冬天采暖期煤的消耗量較大,供暖期的燃煤量是非供暖期的3倍[14],使得冬季這四種污染物濃度較高;每年2月至8月O3的濃度較高,主要原因是夏季沈陽市溫度較高,同時汽車保有量的迅速增加[15]也是O3濃度升高的原因之一。CO濃度值主要在(0,2)之間波動,對沈陽市空氣質量的影響較小,故本文不進行CO污染物濃度變化研究。

圖6 六種污染物濃度時間序列分布折線圖

3 模型建模

3.1 LSTM神經網絡簡介

長短期記憶網絡(Long Short-Term Memory Network,LSTM)是循環神經網絡(Recurrent Neural Network,RNN)的變形結構[16],在隱藏層各神經單元中增加單元狀態量,使時間序列上的記憶信息可控;在隱藏層各單元傳遞時通過遺忘門、輸入門、輸出門控制歷史信息與當前信息的記憶和遺忘程度。

3.2 輸入層、輸出層神經元設置

本文采用三層神經網絡結構,輸入層和輸出層是通過實際情況而設計的,輸入層輸入數據為PM2.5、PM10、SO2、NO2、O3共五個特征變量,神經元個數為5;輸出層預測輸入層五個特征變量的濃度變化,神經元個數亦為5。

3.3 隱藏層神經元設置

目前對于隱藏層神經元個數的選取沒有準確的算法公式,只能結合經驗公式和不斷進行試驗的方式來確定[17],經驗公式如下:

其中n為輸入層的神經元個數,n1為輸出層神經元個數,a是(1,10)范圍內的任意整數,M是隱藏層的神經元個數。由式(1)可得,M的取值范圍是(4,13),式(2)可得M取值為3,故隱含層的神經元個數范圍為(3,13)之間的整數,在這范圍內采用試湊法,對11種不同隱藏層神經元個數進行對比訓練,利用MAE和RMSE作為模型精度評價指標(式(3)和式(4)),找出最合適的隱藏層神經元個數為3。激活函數為Sigmoid,學習率(learningrate)設置為0.01,每次訓練輸入的樣本數(batch_size)為50,迭代次數(numepochs)為150次。

式中:MAE為平方絕對誤差,n為數據總個數,yi為數據的真實值,y?i為數據的預測值。

式中:RMSE為均方根誤差,n為數據總個數,yi為數據的真實值,y?i為數據的預測值。

4 實驗分析

通過三種不同數據預處理形成三組新的數據集,以及直接刪除缺失值的原始數據集,分別對這四組數據集進行歸一化處理,并分別選取2016年11月~2018年12月 數 據 作 為 訓 練 集,2019年1月~2019年3月數據作為測試集;利用前一天五種污染物濃度值作為模型輸入,后一天五種污染物濃度值作為模型輸出,進行LSTM模型仿真實驗,實驗結果如表2、表3所示。

表2 缺失值處理方法的預測精度評價指標MAE對比

表3 缺失值處理方法的預測精度評價指標RMSE對比

通過表2、表3可知,模型的隱藏層神經元個數為3時,模型的評價指標最好,并且不同缺失值的處理方法的評價指標也不同,故對缺失值處理方法與模型精準度進行排序如表4所示。

表4 隱藏層神經元個數為3的缺失值處理方法排序

通過以上分析可得:多重插補法的RMSE和MAE的值均為最小,模型的預測精度最高,而原始數據的預測精度最低。與原始數據相比,多重插補法的精準度評價指標MAE提高了22%,RMSE提高了13%,所以應采取多重插補法進行缺失值處理;圖7是采用多重插補法的LSTM模型對五種污染物濃度的原始數據與預測結果的曲線對比圖,可以看出該模型對污染物濃度的變化趨勢預測較好,根據模型計算出MAE誤差約為13.3,預測值與實際值擬合較好,同時具有良好的泛化能力。

圖7 多重插補法的LSTM預測模型對圖

5 結語

通過對沈陽市8個國控站點數據的采集、處理和挖掘,得出沈陽的主要污染物是PM25、PM10、SO2、NO2、O3,同時污染物濃度變化具有一定的周期性。本文建立三層LSTM時間序列模型可以精確地預測五種污染物濃度,實驗結果表明通過數據和缺失值預處理,可以有效提高預測精度,其中多重插補法的精度提升最高。本文對于LSTM模型的隱藏層神經元個數設置,采用的是經驗公式法和試湊法的結合,因此隱藏層神經元的最優個數的選取上仍然有進一步優化的空間。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产精品永久免费嫩草研究院| 亚洲另类色| 99在线视频免费| 热99re99首页精品亚洲五月天| 欧美第一页在线| 国产大全韩国亚洲一区二区三区| 国产不卡国语在线| 无码人中文字幕| 国产麻豆精品在线观看| 亚洲色婷婷一区二区| 91无码人妻精品一区| 91麻豆国产视频| 久久国产拍爱| 国产精品丝袜视频| 最新精品久久精品| www.日韩三级| 国产成人资源| www精品久久| 日本高清在线看免费观看| 国产农村精品一级毛片视频| 国产色婷婷| 精品欧美视频| 国产成人综合在线视频| 国产成人精品日本亚洲| 久久国产精品无码hdav| 重口调教一区二区视频| 强奷白丝美女在线观看| 国产成熟女人性满足视频| 国产欧美日韩一区二区视频在线| 欧洲av毛片| 中文字幕丝袜一区二区| 四虎成人免费毛片| 国产 日韩 欧美 第二页| 国产91久久久久久| 欧美成人精品一区二区| 欧美在线综合视频| 国产91色| 在线日本国产成人免费的| 日韩东京热无码人妻| 在线观看免费AV网| 欧洲一区二区三区无码| 国产理论最新国产精品视频| 在线国产欧美| 欧洲精品视频在线观看| 热99精品视频| 久久综合亚洲色一区二区三区| 伊人激情综合网| 最新无码专区超级碰碰碰| 91青青视频| 亚洲一级毛片免费观看| 91精品国产一区| 22sihu国产精品视频影视资讯| 久久精品人人做人人爽电影蜜月 | 香蕉国产精品视频| 999国产精品永久免费视频精品久久| 亚洲综合九九| 激情无码字幕综合| 在线精品视频成人网| 国产又黄又硬又粗| 国产一区二区影院| 伊人福利视频| 欧美成人综合视频| 91人妻日韩人妻无码专区精品| 91精品国产一区自在线拍| 日本日韩欧美| 久久这里只精品热免费99| 亚洲第一视频网| 欧美成人免费| 国产人在线成免费视频| 中文字幕1区2区| 久久久受www免费人成| 中文国产成人精品久久一| 99热这里只有精品在线观看| 亚洲av成人无码网站在线观看| 精品午夜国产福利观看| 欧美精品aⅴ在线视频| 福利视频久久| 99re这里只有国产中文精品国产精品| 97国产在线播放| 亚洲视频免费在线| 日韩天堂网| 日韩免费毛片视频|