陳文婧 葉雪媛 劉萬華 邱晨 羅田
摘要:為了進一步研究空間數據,本文決定以pm2.5數據為例來進行處理。首先基于南京、揚州、無錫三個城市pm2.5數據的橫向比較,可知2017年11月30號的異常點是由于空氣濕度或節假日的影響。然后對影響空氣質量的多個因素進行聚類,發現PM2.5與PM10,風速具有顯著相關關系。使用時間序列模型ARIMA(2,1,0)對pm2.5數據作出了短期預測,預測結果與實際結果趨勢相同,但不夠精確,分析模型的不足,最終提出了改善方法。
關鍵詞: 空間數據,異常點,聚類分析,ARIMA模型
一、引言
空間大氣數據具有來源廣,類型格式復雜且相互之間不兼容的特點。本文著重研究大氣空間數據的挖掘和異常點分析以及后期的研究路徑。
二、數據清洗及異常點分析
11.27-3.12期間(除春節假期外)我們統計了南京,揚州,無錫三個城市24小時的,3000多條空氣指標數據。考慮到此次空氣指標數據是由團隊協作統計得來,數據記錄習慣的差異使得整體數據的質量很難達到數據倉庫的要求,因此首先要進行數據清洗。
2.1空缺值的填充
首先極大可能的填寫空缺值,為了保證空缺值與其他數據之間的聯系,必須選擇依靠現有的數據進行處理得到缺失值,是一種有用的背景知識,它使得原始數據可以在較高的、一般化的抽象層上進行處理,可以用最常出現的概念填充空缺值。如以南京環境監測站對南京空氣污染物檢測的數量為例,數據中PM2.5屬性列中有一個空缺值,假設已知有三個模糊概念Low, medium, nigh。對于這三個概念分別計算己有數據的平均隸屬函數值,然后我們選擇medium進行空缺值填充。
2.2 錯誤數據的篩選
范圍檢驗是數據清洗的最簡單形式,它是指檢驗一個字段中的數據以保證它落在預期范圍之內,通常是數字范圍或日期范圍。在氣象數據中,有時會存在超標的數值,這些對于分析氣象信息會起到誤導的作用,因此針對這些數據通過有效值檢驗來清洗。例如,可以通過濃度分布分析來確定錯誤值,來確定需要刪除記錄的錯誤值。
2.3 數據屬性值的統一
數據源來自于多個數據庫,數據的格式,屬性或維的命名都不一樣,可能是由于表示、編碼、比例的不同引起的。為了避免無法匹配與識別的問題,將不同存儲格式的數據進行格式統一,最后將多組數據進行數據合并。
2.4 PM2.5的濃度異常值分析
根據該數據的趨勢變化以及濃度值的分析,判斷PM2.5在無錫地區的2017年12月4號和7號出現異常數據,出現異常峰值。而在2017年11月30號的南京出現異常負值,可能原因為PM2.5分析儀是采用微量振蕩天平法測量,隨著空氣中濕度的增加,從某日凌晨開始,隨著降雨量的逐漸增加,空氣中顆粒物先逐漸降低,隨著雨量進一步增加,環境空氣中的顆粒物已經趨于較低水平,此時濾膜上水汽的揮發量遠大于顆粒物濃度的增加量,導致測量值出現負數。
在日常數據審核中,除了一些記錄儀器的故障外還會存在某一天由于節假日影響和政府政策發生較大的變化而出現異常偏高的現象,因而該類數據在有效性審核中還不能予以剔除,應予以保留。
三、聚類算法
4.1聚類思想
聚類分析主要是根據實體的特征對其進行聚類,將描述個體的數據集劃分成一系列相互區分的組,使得屬于同一類別的個體之間的差異盡可能小,不同類別的個體之間的差異性盡可能大,從而發現數據集的整個空間分布規律和典型模式。
根據空間聚類采用的不同思想,空間聚類算法主要可以歸納為以下幾種:基于劃分的聚類算法、基于層次的聚類算法、基于密度的聚類算法、基于網格的聚類算法、基于模型的聚類算法以及其他形式的聚類算法。本篇主要以基于劃分的聚類算法為主要研究方法。
空間聚類的內部度量原則主要有兩個:聚類內部距離和聚類間的距離。聚類內部距離是指聚類內部間的平均距離,它反映了聚類的緊湊性和聚類算法的有效性;而聚類間的距離是指兩個聚類間所有會話的平均距離。對于良好的聚類算法來說,聚類內部距離應較小,聚類間的距離應較遠。
聚類間距離:假設n個空間對象被聚類為K個簇,定義聚類間距離為所有分中心到全域中心的距離之和:,式中,L表示聚類間距離,m為全部空間對象的均值,為簇所含空間對象的均值K為聚類個數及聚類區間。
聚類內部距離:假設n個空間對象被聚類為K個簇,定義聚類內部距離為所有聚類內部距離的總和:其中D為內距離,p為任一空間研究對象,為簇C所含空間對象的均值。
4.2 結果分析
以最短距離法為例,對采集到的南京的空間數據做聚類分析,得到以下類譜圖:
當分為五類時,濕度與SO2顯著相關,PM10和PM2.5顯著相關,O3和NO2顯著相關,CO,風速各為一類??梢娋垲惤Y果合理,因為PM2.5與PM10為同一類污染物,通常為伴生關系,而SO2可溶于水,因此控制SO2濃度可從增加空氣濕度入手,可有效降低空氣中SO2濃度,防止酸雨的形成,而居民也可以通過放置加濕器來凈化空氣質量。
四、短期預測
以南京地區PM2.5為例進行短期預測,我們考慮使用時間序列建模:首先對不平穩數據進行一階差分,再對差分后數據擬合ARIMA模型,其中ARIMA(2,1,0)擬合程度最高。模型如下:
采用該模型預測未來10期數據并與真實值比較,結果如下:
可見預測值與真實值有出入,預測值波動范圍?。ǚ讲?.08),真實值波動范圍大(方差29.43)但是趨勢和真實值一樣,都是先下降再上升。
下面我們對模型不準確的原因作出推測:
1) 數據有24期的周期性,ARIMA模型沒有和好的擬合周期性。
2) 沒有考慮到PM2.5數據的特殊性(受其他天氣因素影響大)
五、結論與展望
三座城市中,無錫和南京的PM2.5分布情況高度相似,揚州的PM2.5濃度偏高,變化趨勢與無錫南京相同,但是有約3天的滯后。三座城市的PM2.5濃度都有輕微的下降趨勢。
通過聚類分析,我們發現PM2.5與PM10有顯著的相關關系,,濃度與風速相關,濃度與濕度相關。
最終,本文提出了一種基于時間序列模型ARIMA(2,1,0)的PM2.5預測模型,該模型簡單實用便于操作。但是精度尚需提高,預測期數也較短??珊Y選一半數據用x-11模型或引入風速因子加以完善。
參考文獻:
[1] 董彥磊,申德榮,寇月,等. 數據空間中數據組織模型以及關聯關系發現模型的研究[J]. 計算機研究與發展. 2009, 46(z2): 566-574.
[2] 孔令彥,關麗,丁燕杰,等. 空間大數據支持下的城市區域評估及其關鍵技術[J]. 測繪通報. 2017(8): 100-105.
[3] 譚鶴毅. 大數據背景下的空間數據挖掘研究[J]. 消費電子. 2014(24): 181