張惠儀
摘 要:隨著我國經(jīng)濟的發(fā)展,污染越來越嚴重,開展空氣質量檢測很有必要。為了尋找一種預報方法對空氣污染進行實時的監(jiān)督和預報,以廣州市4年的空氣污染指數(shù)(API)和相對應的逐日氣象數(shù)據(jù)資料為基礎,進行空氣質量的研究。鑒于不同季節(jié)API值的變化有所差別這一原因,分別建立逐步回歸分析模型和BP神經(jīng)網(wǎng)絡模型對廣州四季的API值進行預測。通過比較兩種模型的均方百分比誤差和預報準確率,發(fā)現(xiàn)BP神經(jīng)網(wǎng)絡的預報效果優(yōu)于逐步回歸分析。
關鍵詞:空氣污染指數(shù);逐步回歸分析;BP神經(jīng)網(wǎng)絡;預報準確率
中圖分類號:X831 文獻標識碼:A DOI:10.15913/j.cnki.kjycx.2016.21.029
空氣對人們的身體健康起著直接的作用,而空氣環(huán)境質量間接影響著人們的生活質量。空氣環(huán)境質量通常采用空氣污染指數(shù)(Air Pollution Index,簡稱“API”)這一指標對空氣質量進行評估。空氣污染預報是在未來的空氣質量狀況不明確的情況下對其作出的預測,正如天氣預報一樣。很早之前,其他國家已經(jīng)開展了空氣污染預報工作,比如加拿大、美國、英國等。
近幾年,國內外的許多學者對此作了很多學術研究并取得一定的預報效果。比如Boznar M等在1993年提出利用人工神經(jīng)網(wǎng)絡方法對紹什塔尼最大熱電廠周圍的污染物SO2濃度進行預測;荷蘭的Var Der Wal利用主成分分析法與時間序列分析法對PM10的濃度變化進行預測;王寧等通過分析API與各種氣象因子之間的關系,找出影響總懸浮顆粒物擴散的因子并給予相應的權值,于是得出相應的判定準則對空氣質量等級進行預報;董亞龍等通過對銅川市區(qū)、新區(qū)的3種污染物進行CAPPS模式預報,得出不同污染物的預測準確率存在較大的區(qū)別,不同季節(jié)的預測準確率也各不相同。其中,PM10>SO2>NO2。
然而在此之前,這種方法還沒有被提出并應用于大氣污染預報。在過去大氣污染預測領域的應用中,往往選取大氣污染物的濃度作為預測因子進行預測。鑒于大氣污染物存在一定的不可預測性,本文不同于之前的大氣污染預測主要表現(xiàn)為:針對目前天氣預報的精確度越來越高這一特點,嘗試選取氣象因子作為API的預測,并且建立逐步回歸分析和BP神經(jīng)網(wǎng)絡兩種預測模型。通過對這兩種模型的預報效果進行分析比較,尋找一種有效的預報方法。
1 相關理論
1.1 逐步回歸分析
逐步回歸的主要工作是根據(jù)全部自變量中按其對y的顯著程度來提取變量,剔除對因變量顯著程度小的變量,剩余的逐
步引入回歸方程,其目的是建立“最優(yōu)”回歸方程。逐步回歸分析的實施過程由以下步驟完成:①計算每一步引入的變量的偏回歸平方和。②取使得偏回歸平方和最小的變量并對其進行顯著性檢驗。如果在預先設定的水平下顯著相關,則不剔除該變量,當然回歸方程的其他變量也會被保留下來;反之,則需要把該變量剔除。③需要按照偏回歸平方和從小到大依次檢驗回歸方程的其他變量。總之,被保留的都是顯著的。④要分別對第2步和第3步中未被引入到回歸方程的變量計算偏回歸平方和,選取使得其最大的變量并對其再次進行顯著性檢驗。在第2步設定的水平下,如果不顯著,則不剔除該變量,而是將它引入回歸方程。⑤循環(huán)第2,3,4步,直至既不產生新變量,又無變量被剔除則結束。
1.2 BP神經(jīng)網(wǎng)絡
神經(jīng)網(wǎng)絡(Neural Network)一般也被稱為人工神經(jīng)網(wǎng)絡(Artificial Neural Network,ANN),是科學家們從生物學和信息處理的角度出發(fā),通過借助數(shù)學和物理的方法對人腦神經(jīng)網(wǎng)絡進行抽象后建立的簡化模型。在此之前,他們不僅在對人腦的結構、組成和基本工作單元方面取得了深刻的認識,還對生物的神經(jīng)元、神經(jīng)系統(tǒng)等研究方面也有了突破性的進展。BP神經(jīng)網(wǎng)絡的算法流程為:①初始化網(wǎng)絡權重,設定誤差函數(shù)、計算精度值及最大學習次數(shù);②向前傳播輸入(前饋型網(wǎng)絡);③反向誤差傳播;④網(wǎng)絡權重與神經(jīng)元偏置調整;⑤判斷結束。算法結束的條件是學習次數(shù)大于設定值或者誤差滿足預設精度。如果條件不成立,則進入下一輪學習。
2 廣州市空氣質量特征分析
本文綜合運用了生態(tài)環(huán)境學、大氣污染學、數(shù)學、統(tǒng)計學等學科原理,重點分析了廣州2008—2012年這4年逐日的API值的資料以及同期的氣象因子監(jiān)測資料。以空氣污染指數(shù)為數(shù)據(jù)基礎,初步分析了廣州的環(huán)境空氣質量及空氣污染特征;同時利用API數(shù)據(jù)以及同期的氣象因子數(shù)據(jù)資料進行相關性分析,確定影響API的氣象因子。
2.1 廣州市空氣質量統(tǒng)計分析
選取廣州市2009—2011年API值及相應的空氣質量等級數(shù)據(jù)進行基本的統(tǒng)計分析。圖1為廣州市各月份良好天數(shù)分布。
由圖1知,1月到5月份處于增長狀態(tài),5月到10月處于基本的穩(wěn)定狀態(tài),到11,12月份出現(xiàn)明顯降低的情況。
圖2為廣州市分季節(jié)污染天數(shù)分布。由圖2可知,2009—2011年廣州市夏季的污染天數(shù)最少,證明該地區(qū)夏季的空氣質量較優(yōu),冬季的空氣質量明顯較差。不同的季節(jié)氣候導致不同的空氣質量,為了更好地對廣州市空氣污染指數(shù)進行預報,在第4部分將對廣州市分季節(jié)建立預報模型。
2.2 氣象因子的相關性分析
上述已經(jīng)對廣州市2008-04-01—2012-03-31的空氣質量分季節(jié)進行了統(tǒng)計分析,發(fā)現(xiàn)不同季節(jié)的空氣質量有很大的差別。本文收集了廣州市4年的氣象數(shù)據(jù),共有17個氣象因子。表1為廣州市各氣象因子符號及意義。
雖然17個氣象因子代表不同的信息,但是并不是所有的氣象因子都對API值的預測有意義。反而如果將不起作用的因子拿來預測API,會影響預報準確率。于是為了更好地預測API值,本節(jié)針對氣象特點,采用軟件SPSS對API值與各氣象因子進行相關性分析,尋找API與各氣象因子的聯(lián)系。在這里,通過計算Pearson相關系數(shù)和Spearman秩相關系數(shù)來描述API與各個氣象因子的線性相關程度。表2為廣州市四季與API顯著相關的氣象因子。
3 逐步回歸和BP神經(jīng)網(wǎng)絡模型預報API
本部分采用逐步回歸分析方法和BP神經(jīng)網(wǎng)絡對API值進行分季節(jié)預報。考慮到篇幅,下面只對夏季分別建立兩種模型及檢驗。其他三個季節(jié)的模型建立與夏季一樣。
3.1 數(shù)據(jù)的準備及預處理
建立模型的數(shù)據(jù)庫包括2008-04-01—2012-03-31廣州市17個氣象因子值和API值,分春、夏、秋、冬季節(jié)建立4個數(shù)據(jù)集。將空值和缺失值刪除后,廣州市春、夏、秋、冬四季樣本個數(shù)分別為360,354,356,361,其中,測試樣本春季60個,夏季54個,秋季56個,冬季61個,其余作為訓練樣本。另外,為了將氣象因子數(shù)據(jù)去掉量綱的影響,把17個氣象因子數(shù)據(jù)歸一化。
3.2 逐步回歸模型的建立及檢驗
3.2.1 逐步回歸模型的建立
本部分利用SPSS軟件對廣州市的17個氣象因子和API值進行逐步回歸分析,得出廣州市春、夏、秋、冬四季相關性較大的氣象因子。其中,與夏季相關的因子有7個,分別是x1,x6,x8,x9,x10,x11,x14.
對夏季的數(shù)據(jù)建立多元回歸模型如下:
最后,為了比較實際值與預測值之間的精確誤差,采用兩種評價指標,即平均絕對百分比誤差( )和均方百分比誤差( )以及預報準確率。
其中,平均絕對百分比誤差為:
均方百分比誤差為:
API值預報的準確率為:
式(4)中:yi和 分別為實際值和預測值;n為測試樣本的個數(shù)。
3.2.2 夏季逐步回歸模型預報結果分析
圖3和圖4分別為夏季API擬合曲線和夏季API預測誤差曲線。
由表3可以看出,逐步回歸預報夏季API值的準確率高達85%以上,由于夏季的測試樣本API值波動小,逐步回歸預報對平穩(wěn)數(shù)據(jù)的預測較好。
3.3 BP神經(jīng)網(wǎng)絡模型的建立及檢驗
3.3.1 神經(jīng)網(wǎng)絡的設計
BP神經(jīng)網(wǎng)絡是否能有效、便捷地逼近非線性函數(shù),關鍵由網(wǎng)絡的結構、初始值的選取以及網(wǎng)絡參數(shù)3部分決定。由于初始值包括初始權值和初始閾值,它們的選取都是隨機的,不能控制。所以在使用BP神經(jīng)網(wǎng)絡時,只有調整網(wǎng)絡結構,確定網(wǎng)絡參數(shù),才能提高訓練精度。表4為預測API神經(jīng)網(wǎng)絡結構。
本文采用傳統(tǒng)的BP神經(jīng)網(wǎng)絡方法預測廣州市四季的API值,將廣州市1 200 d的氣象數(shù)據(jù)作為網(wǎng)絡的輸入數(shù)據(jù)導入。同時進行了誤差檢驗,用Matlab軟件繪制了預測值與實際值的擬合曲線和誤差曲線。預測結果如圖5和圖6所示。
由圖5和圖6可以看出,對夏季54個樣本數(shù)據(jù)的BP網(wǎng)絡預測值與API實際值的擬合度很高,大體趨勢擬合較準確,只有個別樣本的預測值與實際值的誤差較大。該季節(jié)預測樣本數(shù)據(jù)的實際API值極差較小,這是BP模型效果較好的一個原因。預測值與實際值的誤差在[-10,10]之間不斷波動,波動較小。
從定量的角度去分析與預測模型的準確率如表5所示。
由表5可以直觀地看出,夏季模型預報準確率達到88%左右,平均絕對百分比誤差低于13%,均方百分比誤差也在3%以下,預報效果較好。由第3部分相關性分析中可以發(fā)現(xiàn)夏季的特征因子有7個,而且與API的相關性都較強,BP網(wǎng)絡模型效果佳。
4 結論
本文采用逐步回歸分析和BP神經(jīng)網(wǎng)絡對廣州市夏季的API值進行預測的結果都比較理想,MAPEA的值控制在12%左右,MSPE的值控制在3%以下,預報的正確率較高。但總體來說,與逐步回歸分析預測API值對比,神經(jīng)網(wǎng)絡的效果明顯比較好。
參考文獻
[1]白鶴鳴,沈潤平,師華定,等.基于BP神經(jīng)網(wǎng)絡的空氣污染指數(shù)預測模型研究[J].環(huán)境科學與技術,2013(03):186-189.
[2]Boznar M,lesjak M,Mlakar P.A neural network-based method for the short-term Predictions of ambient S02 concentrations in highly Polluted industrial areas of complex terrain.Atmospheric Env -ironment Part B Urban Atmosphere,1993,27(2):221-230.
[3]Van Der Wal,J.T.How contribute emission of PM10 and meteorology to concentrations of fine particles in the Netherlands.Aerosol Seienee,1996,27(27):681-682.
[4]王寧,王新國,胡中明,等.利用氣象參數(shù)制作空氣污染潛勢預報的方法研究[J].吉林氣象,2001(01):15-18.
[5]董亞龍,吳寧.CAPPS模式在銅川空氣質量預報中的效果檢驗[J].陜西氣象,2004(05):13-16.
[6]康劍,艾靜.回歸分析法在衛(wèi)寧平原地下水脆弱性研究中的應用[J].中國水運(下半月),2014,14(3):230-231,266.
[7]劉天舒.BP神經(jīng)網(wǎng)絡的改進研究及應用[D].哈爾濱:東北農業(yè)大學,2011.
[8]王頂.大慶市PM_(10)污染預測的研究[D].成都:西南交通大學,2011.
[9]覃登攀.基于遺傳算法和人工神經(jīng)網(wǎng)絡相結合的南寧市空氣質量預報研究[D].南寧:廣西大學,2008.
〔編輯:劉曉芳〕