吳旭東+馮璐遠+陳正軍+李映曦

摘要:該文采用決策樹、BP神經網絡、Logistic回歸和基于徑向基的RBF神經網絡四種算法來建立水質評價預測模型,并對結果進行了分析。預測結果顯示,基于徑向基的RBF神經網絡在四種算法中是最合適的方法,預測準確率較高,建議推廣和使用。
關鍵詞:神經網絡;決策樹;水質模型
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2017)35-0003-02
1 概述
水是人類賴以生存的重要物質,它是不可缺少、不可替代的重要資源。隨著我國工業化進程的加快和經濟的迅速發展,水污染日益嚴重已經成為制約我國實施可持續發展戰略重要因素。水環境問題已經成為眾多專家、學者研究的重點問題,目前國內外研究水環境質量的評價方法非常多,有關文獻討論水質評價的方法有幾十種,呈現出非?;钴S的態勢。由于水環境中的各種元素的不確定性和水體的未知性,傳統的確定性評價方法已經很難適應研究。有些水質模型雖考慮了影響水質變化的諸多因素,模擬預測效果較理想,但往往較復雜并需要大量基礎資料和數據,使得研究的進一步開展和應用受到限制。而目前,較常見的情況是根據水體當前的水質情況、污染物的遷移特點和流域內污染物的排放情況來預測水質未來的變化趨勢,為水質污染預測尋找一種合適的模型是非常必要。
2 相關理論分析
2.1 決策樹
決策樹是應用的最廣的歸納推理算法之一,它是一種逼近離散值函數方法,對噪聲有很好的健壯性且能夠學習析取表達式。決策樹一般都是自上而下的來生成的,并用了貪婪的搜索遍歷方法進行遍歷。每個決策或事件都可能引出兩個或多個事件,導致不同的結果,把這種決策分支畫成圖形很像一棵樹的枝干,故稱決策樹。常用的決策樹算法包括C&RT算法、ID3經典算法、C4.5算法、C5.0算法、CHAID算法、QUEST算法。
決策樹的基本算法是貪心算法,它以自頂向下遞歸的各個擊破方式構造決策樹,最著名的決策樹算法為ID3算法。ID3算法主要針對屬性選擇問題,是決策樹學習方法中最具影響和最為典型的算法。該方法使用信息增益度選擇測試屬性。
2.2 基于徑向基的RBF神經網
最基本的RBF神經網絡的構成包括三層,分別為輸入層、隱層(中間層)和輸出層。其中輸入層由一些源點(感知單元)組成,它們將網絡與外部環境連接起來,僅起到數據信息的傳遞作用,對輸入信息不進行任何變換;隱層神經元的核函數(或稱作用函數)取為徑向基函數,對輸入信息到隱層空間之間進行非線性變換,通常具有較高的維數;輸出層是線性的,為輸入層的激活模式提供響應。
設隱層、輸出層上的神經元數分別為,,輸入模式記為,,輸出記為,。本文取徑向基函數為Gauss函數,隱單元輸出則為
式中:為隱層第個神經元的輸出值;為隱層第個神經元的中心,由隱層第個神經元對應于輸入層所有神經元的中心分量構成,;為隱層第個神經元的寬度,與相對應;為歐氏范數。
輸出層神經元的輸入輸出關系表達式是:
式中:為輸出層第個神經元的輸出值;為輸出層第個神經元與隱層第個神經元間的權值。RBF神經網絡的參數在此主要是指網絡的中心、寬度、和調節權重。
3 實驗過程
收集和提取一組用戶基本數據,對數據進行預處理,如圖1所示。
影響水質狀態的指標主要有:1) 溶解氧(DO):衡量水體的自凈能力(傳感器網絡自動采集);2)溫度:水溫隨著天氣的變化(傳感器網絡自動采集);3) PH值:反映水質的酸堿程度(傳感器網絡自動采集);4)氨氮:代表水中營養性污染物的含量(手持傳感器手動采集);5)氧化還原電位(ORP):水溶液氧化還原能力的測量指標(手持傳感器手動采集);6)當前環境因素(天氣,水體環境狀況)。其中1-250條記錄為訓練樣本,251-300條記錄為測試樣本數據。通過建立各種模型來尋求一套最合適的評價方法,預測準確率較高的模型。
基于水質評價量化指標抽取DO、PH、NH、SD等四個關鍵指標,建立水體環境質量評價量化模型,實現水質智能化識別。依據依照《地表水環境質量標準》(GB3838-2002)中規定,地面水使用目的和保護目標,中國地面水分五大類:Ⅰ類—主要適用于源頭水,國家自然保護區;Ⅱ類— 主要適用于集中式生活飲用水、地表水源地一級保護區,珍稀水生生物棲息地,魚蝦類產卵場,仔稚幼魚的索餌場等;Ⅲ類— 主要適用于集中式生活飲用水、地表水源地二級保護區,魚蝦類越冬、回游通道,水產養殖區等漁業水域及游泳區;本文取前三類水質進行研究,對水質進行實時預測、分類和仿真。
3.1 利用決策樹建立模型
利用決策樹算法建立數據流,快速建立整體數據流圖,決策樹的核心算法采用C&RT模型算法。此算法的優點是可以啟用交互會話作為模型的構建選項,生成的模型之前可以編輯樹,使用專家模式可以使用生成樹和修剪樹。
SD<=9.8且PH>6.75為III類水質;當9.8
通過樣本數據建立了決策樹模型,從250-300條記錄測試數據使用此模型,得到以下結果,預測結果準確率為76%,方差為0.021,標準差為0.144,均值標準誤0.02。
3.2 利用BP神經網絡建立模型
使用數據挖掘軟件,應用BP神經網絡算法的水質評價預測模型,輸入變量是基于水質評價量化指標DO、PH、NH、SD,建立水體環境質量評價量化模型,實現水質智能化識別。使用1-250條記錄為訓練樣本數據,251-300記錄為測試樣本數據。
如圖3所示,BP神經網絡模型根據DO、PH、NH、SD等四個關鍵指標的含量來判斷水質處于哪個級別。通過樣本數據建立了神經網絡訓練模型,從250-300條記錄測試數據使用此模型,得到結果,預測結果準確率為68.852%,方差為0.103,標準差為0.321,均值標準誤0.045。
3.3 構建預測Logistic回歸模型
使用數據挖掘軟件,應用Logistic回歸算法來構建水質評價預測模型,輸入變量是基于水質評價量化指標DO、PH、NH、SD,建立水體環境質量評價量化模型,實現水質智能化識別。使用1-250條記錄為訓練樣本數據,251-300記錄為測試樣本數據。
如圖4所示,Logistic回歸算法模型根據DO、PH、NH、SD等四個關鍵指標的含量來判斷水質處于哪個級別。通過樣本數據建立了神經網絡訓練模型,從250-300條記錄測試數據使用此模型,得到結果,預測結果準確率為70%,方差為0.011,標準差為0.105,均值標準誤0.015。
3.4 利用RBF神經網絡建立模型
使用數據挖掘軟件,應用RBF神經網絡算法的水質評價預測模型,輸入變量是基于水質評價量化指標DO、PH、NH、SD,建立水體環境質量評價量化模型,實現水質智能化識別。使用1-250條記錄為訓練樣本數據,251-300記錄為測試樣本數據。測試結果與誤差,其中預測誤差中,準確率為88.23%,錯誤率為11.76%,Kappa統計為0.7692,平均絕對誤差0.11,均方根誤差為0.2291。從結果來看該模型的自學能力較強,模型精度高,誤差范圍小,適合水質預測評價模型的需要。
通過以上數據比較分析,RBF神經網絡算法的預測效果明顯優于決策樹算法、Logistic回歸算法和BP神經網絡算法。RBF神經網絡通過多次模型的學習來完善算法模型,RBF神經網絡快速收斂的特性使得它非常適合水質預測模型的建立,并且可以進一步跟蹤探索水質變化過程中的規律。而決策樹算法和Logistic回歸無論是從對樣本的要求上,還是從預測的精度來說都不具備神經網絡的優點,所以,應用結果表明,利用RBF神經網絡進行水質預測是可行的,可為水質模擬預測提供一種有效的新方法,建議在水質預測中推廣和應用。
參考文獻:
[1] 王海英,曹晶.基于L-M神經網絡優化算法的池塘水色判別系統的初步建立[J].漁業現代化,2010,37(5):19-21.
[2] 申艷.BP神經網絡在河流水質評價中的應用[J].中國科技縱橫,2011(9):68-69.
[3] 胡海清,周小麗,宋毅. LM-BP神經網絡在水質預測的應用[J].微型電腦應用,2011,27(9):44-46.
[4] 王冬生,李世華,周杏鵬. 基于PSO-RBF神經網絡模型的原水水質評價方法及應用[J].東南大學學報:自然科學版,2011,41(5):1019-1023.endprint