王怡馨



摘 要:世界的空氣質量逐日下降,先前人們關注的PM2.5逐漸被臭氧污染取代。全國各地屢屢曝出臭氧污染警報,但是人們對臭氧污染的危害的意識還不夠強烈,各地提出的防范措施也不夠到位。因此為了知曉臭氧濃度是否超標,便有了臭氧八小時這個概念。臭氧八小時是指一天中臭氧濃度最大的連續八小時的平均值,根據此平均值判斷當天是否有臭氧污染。而本文將會利用決策樹算法建模,利用風速、溫度、海平面壓力、降水量等數據,利用ID3算法進行對臭氧水平濃度的預測,從而較可靠、準確地對是否有臭氧污染做出預告,保護人民的財產利益與身體健康。
關鍵詞:臭氧八小時;環境污染;決策樹算法
隨著溫度的升高以及空氣質量的下降,臭氧污染已經成為全國大氣污染的一個突出問題,隨著臭氧污染的日益加重,我國可能面臨顆粒物和臭氧污染雙重污染的局面。臭氧()作為一種二次污染物,在常溫下是一種有特殊臭味的淡藍色氣體,在日照強、溫度高的夏季秋季最容易累積。臭氧是由于汽車尾氣,工業生產排放出的氮氧化物(NOx)和某些揮發性有機化合物(VOCs)在光照的作用下發生光化學反應形成的。而氮氧化物以及揮發性的污染大多來自人們無節制地向空中排放化工業廢氣。由于臭氧本身較強的氧化性和腐蝕性,近地面的臭氧濃度若較大對人體和某些有機物有害。臭氧的毒性主要來源于它較強的氧化性,可以破壞細胞壁,故而它引發的危害大多都是急性的,對人體的主要危害是影響人的呼吸系統,容易引起肺氣腫和哮喘病。它也會毒害神經中樞。臭氧也會影響植物的生長與光合作用。臭氧的腐蝕性主要在于建筑材料和有機布料,它可以加速橡膠和塑料氧化,使紡織品褪色,所以臭氧濃度過高也會對人的生產生活造成不良影響。而本文通過劃定1979年規定的臭氧的安全標準0.15ppm為界來判斷是否有臭氧污染。
由于臭氧不像PM2.5等顆粒物可以通過空氣的能見度來大致判斷污染程度,在有臭氧污染時,人們往往會看到藍天、晴空,并且人們不可能通過戴口罩來避免吸入臭氧,所以臭氧的預測顯得尤為重要。然而現在世界上還沒有一套成熟的體系來預測臭氧的水平濃度,所以本文將通過決策樹算法,利用數據集中風速、溫度等數據對臭氧水平濃度進行一個合理、準確的預測。這樣人們可以通過臭氧濃度的預告來做出預防措施,減少戶外運動,最大程度地保護人們的身體健康與個人利益。
一、國內外研究現狀
近年來,國內外對臭氧水平濃度的預測大致可分為“化學分析法”、“物理分析法”、“物理化學分析法”三類。其中化學檢測法包括碘量法、比色法、檢測管法。碘量法利用和的化學反應,根據反應物的濃度來推算出臭氧的濃度,但此方法易受其他氧化物的影響。而比色法和檢測管對設備的要求很高,不易實現。物理檢測方法主要是紫外線吸收法,它是利用臭氧對某個特定波長的紫外線特征吸收,通過比爾-朗伯定律制造出的分析儀器,該種方法的原理是根據比爾-朗伯定律l=loe-klc控制的紫外線輻射被某種液體或氣體吸收,這種方法已被我國作為環境空氣中測定臭氧的標準方法,但由于這種方法需要對物質在已知波長下k值,即吸收物質對該光線波長的比吸收系數的精確了解,故而比較繁瑣。物理化學方法主要是IDS分光光度法或化學發光法。分光光度法通過分光光度計的測量以及計算得出臭氧濃度,但是這種方法比較復雜,常用于檢測低濃度的臭氧,所以用此法預測是否有臭氧污染不切合實際?;瘜W發光法利用乙烯或一氧化氮與臭氧發生化學反應發光再通過測出發光光強來計算出臭氧濃度,由于此方法準確率較低,故已被紫外線吸收法取代。
而本文將會通過決策樹算法建模,對以上方法的劣處做出調整,從而實現利用ID3算法,通過測量的降水量、溫度、風速等數據,對是否有臭氧污染進行一個合理、可靠、準確的預測。
二、數據的處理與模型假設
本文選取了2535條地面臭氧水平數據,及一些可能影響臭氧水平的因素的數據,可以較全面地反應在不同溫度、風速、壓強下地面臭氧水平濃度與一些可能影響臭氧水平的因素的關系。
將數據集中各個特征所代表的含義整理成表格,如下表
三、基于決策樹的臭氧污染的預測
(一)決策樹的基本概念
決策樹(Decision Tree)是一種歸納學習的算法,它可以將一組無順序、無規則的數據集進行分類,使之有序最終得到滿意的結果。它通過測試樣本的屬性來吸取各屬性之間的關系,繼而對樣本進行分類用以實現數據內在規律的探究和新數據對象的分類預測。由于決策樹具有能夠直接體現數據的特點,使得它易于理解和實現,成為一種常用的數據挖掘技術。決策樹一般都是自上而下生成的,由內部節點、枝干和葉子組成,把這樣由節點延伸的枝干畫出來,形成的圖像很像一棵樹,如圖所示,故稱為決策樹。
決策樹是一個預測模型,它代表的是對象屬性與對象值之間的一種映射關系,即一條枝干對應一種結果。而枝干上的節點又分為:決策點、狀態節點、結果節點。決策點是面對幾種可能的方案做出選擇,最后選擇出最佳方案。狀態節點代表備選方案的期望值,通過期望值的對比,按照一定標準即可選出最佳方案。結果節點通俗來說就是樹的樹梢,即是在自然狀態下一條枝干延伸下來所得到的結果。
(二)決策樹的發展及歷史
決策樹根據選擇特征的評估標準,從上至下遞歸地生成。最早最常用的ID3算法利用計算出最大信息增益的方法來選取節點,但當ID3算法遇到某個具有相當多數據的特征時,其余的特征的數據很少,那么就會算出該特征的信息增益值最大,從而出現誤判的情況,但實際上是該節點的分支太多,而利用該算法的決策樹模型的泛化能力有限,判斷出了錯誤的節點。所以在此基礎上,ID3算法的創始人Quinlan又提出了C4.5算法,該算法提出了一個新的概念信息增益率,即信息增益與分裂信息值的比,利用此方法可以較有效地改進ID3算法出現的問題。決策樹的主要算法還包括CART算法,CART算法引進了基尼系數這個概念,基尼系數越小樣本的混亂度越小,從而選擇出節點,大大減少了計算量。本文將通過ID3算法選取決策樹模型的節點,實現對臭氧污染的預測。
(三)ID3算法模型
目前絕大多數決策樹算法是以著名的ID3算法和C4.5算法為基礎,ID3算法通過循環處理,精益求精,不存在無解的風險。ID3算法的缺點是只能處理離散型屬性,并且傾向于選擇取值較多的屬性,否則效率會明顯下降。剪枝使決策樹停止分支的方法之一,可以消去能引起人滿意的不純度增長。而本文是基于ID3決策樹的臭氧污染預測模型。在決策樹算法中,ID3的算法應用最為廣泛,該算法是一種基于奧卡姆剃刀原理的貪心算法,以信息論為基礎,以信息熵的下降速度和信息增益度為衡量的標準,從而實現對數據的劃分和歸納。在信息論中期望信息越小,信息增益就越大,從而純度越高。假設一個隨機變量X的取值為X={...,},每取到一種x的概率為P,則,i=1,2,···,n,那么就是X的熵定義。熵越大,隨機變量的不確定性就越大,從而顯示了某樣本集的純度。表示在特征屬性下T的條件熵,則特征屬性T帶來的信息增益表示在T發生的情況下,S的有無帶來的信息值的差,用公式表示即為此公式則為信息增益的計算公式。
(四)構造決策樹模型
本文選取了73種影響臭氧水平濃度的因素,是否有臭氧污染有兩種結果,有臭氧污染用數字1表示,沒有臭氧污染用數字0表示。
首先計算熵:Entropy(是否有臭氧污染),利用信息熵的計算公式計算出結果。
(1)
再計算各種劃分的信息熵,即各個分支的熵。以500hPa下的南北向風、北緯向風、K-指數、風暴強度、海平面壓力與降水量為例,下表是節選自數據集的部分數據
利用信息熵的計算公式
(2)
計算出各個因素的信息熵,并選取具有最大信息熵的因素T作為第一個節點。
3)運用選擇出的第一個節點的特征來做劃分時的信息增益值,即先計算在T發生的情況下,其余各特征的熵,然后再運用信息增益的計算公式:
(3)
算出各特征的信息增益值,并且選取具有最大的信息增益值的特征作為第二個節點。
4)依據上面的規則,遞歸地執行得到一棵決策樹,得到的決策樹的模型框架如圖所示。
這樣,就得到了用決策樹對是否有臭氧污染進行預測的模型,即可以通過風速、溫度、海平面壓力、相對濕度、降水量等數據對當天是否有臭氧污染進行較為可靠合理的預測。
四、模型的改進
本文通過決策樹模型對當天是否有臭氧污染進行了預測。在建模的過程中,本文用數據集中百分之七十的數據進行建模,又利用剩余的百分之三十的訓練數據對模型進行了檢測,發現正確率非常大,但當本文利用測試數據對決策樹模型進行檢測時發現錯誤率較高。經過對數據集的分析以及大量查找相關資料本文發現,該模型有極大可能發生了過擬合。其原因很有可能是本文的數據集中存在噪聲數據,即本數據集中存在異常數據。于是,本文對異常數據進行了有效的處理,刪除了異常數據,重新利用數據集建立了決策樹模型。本文對模型又進行了剪枝的改進。剪枝是一種改進決策樹模型的常用的方式。利用損失函數最小原則,計算子枝干的損失函數值和父枝干的損失函數值,若子枝干的損失函數值大于父枝干的損失函數值,則對該枝干進行剪枝,以保證減小決策樹模型的復雜度。在進行了模型的改進后,利用訓練數據和測試數據對該模型進行檢測,發現該模型的正確率已經達到了相當高的值。
五、結語與展望
本文利用數據集中2535個數據建立了決策樹模型,在建立模型后,發現模型與測試數據間有誤差,于是本文又通過剪枝,處理異常數據對模型進行了改進,使決策樹模型更加簡潔明了又準確可靠。決策樹模型最大的優點是效率高,可以反復使用,但決策樹模型存在當特征太多時,出現錯誤的速率也比較大。之后,本文將會利用更多的模型,利用溫度、風速、海平面壓力、降水量、相對濕度等數據對是否有臭氧污染進行更加合理的預測。本文相信,利用決策樹模型對是否有臭氧污染進行預測將會對臭氧水平濃度的檢測與臭氧污染的防范有大幅度幫助。
參考文獻
[1] 石曉榮.水中臭氧濃度的檢測方法[N].河海大學常州分校學報.2007,3.
[2] 李明.決策樹算法在銀行電話營銷中的應用[D].華中科技大學,2016.
[3] 李杰.數據挖掘技術在學生成績分析中的應用研究[D].西安石油大學,2010.
[4] 韓麗娜.決策樹算法在學生成績分析中的應用研究[D].咸陽師范學院圖形圖像處理研究所,2017.
[5] 龍青云.基于決策樹挖掘算法的智能型會員營銷[D].上海商學院,2007.