胡書明 張明麗



摘要:如今隨著現代工業的不斷發展,人類的生產生活活動每天都在產生大量廢氣,嚴重影響了這里生活環境中的空氣質量。在浩繁空氣污染物中,PM2.5是對人體健康危害非常大的一種污染物。現有的測量PM2.5測量手段有著無法實時測量、精確度不高、適用性不廣等缺點,所以可以利用機器學習的方法通過空氣中其他物質的濃度來對PM2.5的濃度等級進行預測。該項目通過對北京市數年來的空氣成分數據進行數據挖掘,從而實現對于PM2.5等級的預測。在項目中,主要使用了三種算法,分別是決策樹,支持矢量機( SVM)和K臨鄰算法(KNN),并且對比這三種算法的優劣性。實驗結果表明,該系統能夠有效地預測空氣質量,對人們的日常生活具有重要意義。
關鍵詞:決策樹;支持矢量機;K臨鄰;PM2.5
中圖分類號:TP311文獻標識碼:A
文章編號:1009-3044(2020)27-0209-02
開放科學(資源服務)標識碼(OSID):
1 引言
隨著現代工業的不斷發展,人類的生產生活活動每天都會產生大量的廢氣,這些氣體排放到空氣當中,嚴重影響了這里生活環境中的空氣質量。人們的環保意識和可持續發展意識正在不停加強,對PM2.5等空氣中的有害成分也越來越重視。
1.1空氣質量概述
顆粒物質(PM)是大氣中所有顆粒物質的總稱,其中空氣動力學直徑≤2.5μm(PM2.5)的類型是影響人類健康的最重要的因素。與由一種或兩種物質組成的大多數污染物不同,PM包括多種粒徑的物質,為了簡化PM水平的評估并促進PM污染控制政策的實施,通常將空氣PM水平按照每立方米空氣中的總顆粒質量分類,其中幾個顆粒尺寸范圍由最大顆粒的空氣動力學定義。
1.2對于空氣質量的預測
在如今,PM2.5的測量主要有3種方法:重量法、微量振蕩天平法和B射線法。在這三種方法中,重量法測量PM2.5最為精確,但是無法做到實時監測,另外兩種方法只適用于部分情況的測量,并且成本高昂。這里希望能夠做到對PM2.5在空氣中濃度的實時精確獲取,以現有的測量方法并不能直接做到,但是這里可以利用機器學習的方法,通過空氣中的其他成分來對PM2.5的濃度進行預測。
1.3項目目標以及意義
該項目的目的是通過對于空氣中其他影響空氣質量的成分,來對于空氣中PM2.5的濃度等級進行預測。本次項目中,這里選取了北京市從2013年12月至2018年12月之間的每日空氣質量報告.通過對于空氣中其他成分的數據挖掘,來對于第二天的PM2.5等級進行預測。
2 實現過程
2.1 數據集
數據集來源為中國空氣質量在線監測分析平臺,網址為https://www.aqistudy.cn/historydata。參考巫升平‘31的數據集組成,這里選取了7個屬性。下面列出了數據集的格式,每個屬性值及其單位。
2.2 系統結構
該空氣PM2.5等級預測系統的結構如下:
3 預測結果
這里使用了3種預測算法:1)決策樹;2)樸素葉斯;3)KNN。分類精度最低的是88.09%,分類精度最高的是90.87%。對于該大氣模型而言,效果已經算是良好。
3.1 決策樹
決策樹(Decision Tree)是在已知各種情況發生概率的基礎上,直觀運用概率分析的一種圖解法[5]。在機器學習中,決策樹是一個預測模型,他代表的是對象屬性與對象值之間的一種映射關系。Entropy定義為系統的凌亂程度,使用算法ID3,C4.5和C5.0生成樹算法使用熵。這一度量是基于信息學理論中熵的概念。
決策樹的學習過程如下:
3.2 SVM
SVM是新興發展的一種以統計學習理論為基礎的機器學習方法,能有效地避免經典機器學習方法中的(包括神經網絡)的過學習、維數災難、局部極小等傳統分類存在的問題,在小樣本條件下仍具有很好的泛化能力,因此受到極大的關注。
SVM的學習過程如下:
3.3 KNN
K最近鄰(k-Nearest Neighbor,KNN)分類算法,是一個理論上比較成熟的方法,也是最簡單的機器學習算法之一。由于KNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對于類域的交叉或重疊較多的待分樣本集來說,KNN方法較其他方法更為適。
訓練過程的查準率( Precision),查全率(reCall),以及fl測度值如下:
3.4 結果對比
對于KNN來說,準確率高,對異常值和噪聲有比較高的容忍度。和樸素貝葉斯之類的算法比,對數據沒有假定,準確度高,對異常點不敏感。可以用于非線性分類,計算量大,對于存儲器的需求也大。對于SVM,最終決策函數只由少數的支持矢量所確定,計算的復雜性取決于支持矢量的數目,而不是樣本空間的維數,這在某種意義上避免了“維數災難”。在高維空間有效,在維度數量大于樣本數量的情況下仍然有效。Decisiontrees易于理解,乃至比線性回歸更直觀;模型可以通過樹的形式進行可視化展示,與人類做決策思考的思維習慣契合。可以直接處理非數值型數據。
4 結束語
這里已經完成了這個項目的以下步驟:對數據進行了預處理,然后對數據進行了分析。理解特征之間的關系,基于特征之間的依賴關系選取特征,然后進行數據分析。采用多種的算法,采用對于本軟件最有效的三種算法(這里就是DecisionTree,KNN,SVM)。此中Accuracy是根據測試集樣本正確率計算的。
通過分析可以得出結論,可以利用機器學習算法進行空氣質量預測分析,從而預測下一天的空氣質量。該空氣質量軟件預測系統是有效的,有助于滿足預測的要求。使用該空氣質量預測系統可以有效地預測空氣質量,對人們的日常生活具有重要意義。
參考文獻:
[1]施曉娟,張會然,閻錫新.大氣懸浮顆粒物所致氣道黏液高分泌的研究進展[Jl-廣東醫學,2017,38(S1):279-281.
[2]巫升平.成都市空氣污染物季節性變化規律[J].科技風,2017(23):140-141.
[3]杜飛燕.PM2.5暴露對大鼠清除肺炎克雷白桿菌的影響及其機制[D].石家莊:河北醫科大學,2012.
[4]莫洪武,萬榮澤,分類算法在煤礦勘探數據分析系統中的比較[J]-煤炭技術,2013,32(12):135-136.
[5]楊偉光.面向大數據分析的決策樹算法研究[J].電子技術與軟件工程,2018(23):175.
[6]楊鐵建.基于支持向量機的數據挖掘技術研究[D].西安:西安電子科技大學,2005.
[7]周明飛,熊偉,劉還珠.KNN方法在貴州晴雨預報中的試驗[J].貴州氣象,2010,34(6):3-5.
[8]趙宇.基于支持向量機的多用戶檢測算法、功率控制算法和波達方向估計算法[D].合肥:中國科學技術大學,2006.
【通聯編輯:聞翔軍】
作者簡介:胡書明(1996-),男,河南商水人,碩士研究生,助教,研究方向為軟件工程。