查木哈, 盧志宏, 翟繼武, 張福順
(1.赤峰市環境監測中心站, 內蒙古 赤峰 024000; 2.銅仁學院, 貴州 銅仁 554300;3.中國農業科學院草原研究所, 內蒙古 呼和浩特 010010)
水資源是經濟社會可持續發展和生態文明建設不可替代的基礎性自然資源和戰略資源[1]。隨著社會經濟的快速增長和人民生活水平的不斷提高,人們對水資源的需求不斷增大,對水環境系統造成了持續的高強度的破壞。生產廢水、生活污水的排放以及降雨徑流攜帶地表污染物匯入河流等因素,導致河流水質不斷惡化[2]。水環境污染是多種因素影響的結果,具有非線性、不確定性和模糊性。水質預測,通常是利用歷史數據,通過不同的預測方法推求環境變量與待預測水質指標之間的非線性關系或待預測水質指標本身隨時間的變化規律[3]。
人工神經網絡是一種非線性的、能夠模擬人類大腦思維活動的數學模型[4-5],BP神經網絡是目前發展最為成熟、應用最為廣泛的一種網絡模型,其具有完整的理論推導過程。國內外學者把人工神經網絡引入到水質動態預測中,BP神經網絡模型在多個區域河流水質預測中得到具體應用,鄭鵬[6]運用改進的BP神經網絡模型預測遼寧中部河流水質,郭亮等[7]應用人工神經網絡技術對松花江四方臺高錳酸鹽指數進行預測,高雅玉等[8]把改進的BP神經網絡應用到雙塔水庫水質的預測中,李占東等[9]應用BP人工神經網絡模型評價珠江水質,陳文花[10]應用BP神經網絡模型對水質變化趨勢做出預測。目前的預測和評價模型多集中在單隱含層及優化算法方面,多層隱含層BP神經網絡模型在水質預測中的應用較少,而影響河流水質的因素很多,是一個復雜的系統,一般認為單隱含層模型能夠處理簡單的問題,多個隱含層的模型適合于處理比較復雜的問題。因此本文嘗試應用雙層隱含層的BP神經網絡模型對老哈河水質進行預測分析,采用赤峰段甸子點位2010-2014年化學需氧量、五日生化需氧量、高錳酸鹽指數、總磷濃度這4項污染指標為樣本訓練數據,建立雙隱含層BP 人工神經網絡模型,預測2015年的水質變化情況,驗證BP神經網絡模型對老哈河水質預測的準確性,探討 BP 神經網絡模型運用于水質預測的可行性與適用性,為水環境管理和水污染控制提供科學依據。
作為西遼河的源頭,老哈河流域地處河北、遼寧兩省與內蒙古自治區交界,是我國重要的重工業、能源和商品糧生產基地。該流域形狀呈不對稱扇形,介于41°N ~ 43°N、117° E ~ 120° E 之間,流域內地形復雜,地勢西高東低起伏較大,海拔 427~2 017 m。老哈河發源于河北省平泉縣西北山區柳溪滿族鄉,從寧城縣甸子鄉入內蒙古赤峰市境內,流經赤峰市東南部(喀喇沁、元寶山、松山區、敖漢),全長約426 km,流域面積33 076 km2,河道總落差1 215 m,主要支流有黑里河,坤頭河,錫伯河,英金河。老哈河流域屬中溫帶半干旱大陸性季風氣候,多年平均氣溫為7℃,平均降水量為430.89 mm,流域內降雨量年際和年內分配不均衡,豐枯變化大,老哈河天然徑流主要來源于大氣降水,屬于降水補給型。
選取的水質項目的確定,是根據《地表水環境質量標準》(GB3838-2002)中規定的基本項目,并結合老哈河各斷面水質污染狀況,選取化學需氧量(CODCr)、五日生化需氧量(BOD5)、高錳酸鹽指數(CODMn)、總磷(TP)等4項指標。按照地表水監測采樣原則,進行水樣采集,并按照《水和廢水監測分析方法》(第4版)相關規定,采用國家標準方法進行測定。本文采用 2011-2014年每月老哈河赤峰段甸子點位水質監測數據預測2015年水質。
2.3.1 BP網絡結構 BP網絡是目前應用最廣泛的神經網絡模型之一。BP網絡能學習和存貯大量的輸入-輸出模式映射關系,而無需事前揭示描述這種映射關系的數學方程。網絡包括輸入層、輸出層和隱含層,其中隱含層可以有多層。雙隱含層BP網絡的結構如圖1所示,同層節點(單元)中沒有任何耦合。從輸入層輸入信號節點,傳過各隱含層節點,傳到輸出層,每一層節點的輸出結果只影響下一層節點的輸出結果,相鄰層每個節點通過適當的連接權值和閾值前向連接。BP網絡是非線性映射模型,能夠學習和模擬任意復雜的非線性函數。
其中,x1,x2,…,xn為網絡的輸入向量,y1為輸出向量,連接層與層之間的傳遞函數是連續可微的非線性函數,通常采用S形的對數或正切函數,如logsig函數和tansig函數;層與層之間的神經元通過權值wni、pij、wnj和閾值αi、qj、βk連接。

圖1 雙隱含層BP神經網絡模型示意圖
2.3.2 BP網絡的訓練 在梯度下降法基礎上建立的BP網絡的訓練學習過程,由誤差信號正向和誤差信號反向傳播組成。誤差信號正向傳播的時候,每一層神經元的結果僅影響下一層神經網絡,訓練樣本輸入矩陣從輸入層經過隱含層向前傳播到輸出層,并得出輸出結果。假如輸出結果未達到期望值,即輸出值和期望值誤差未達到預期精度,則網絡轉入反向傳播過程,會將誤差信號沿原本的連接通路撤回,并通過修改各層神經元的權值和閾值,逐次地向輸入層傳播進行計算,再經正向傳播過程,通過兩個過程的反復運行,直至達到預期精度值,網絡訓練結束。
2.3.3 BP網絡的測試 經過訓練的BP網絡結構構成后,各層之間的連接權值矩陣和各層閾值矢量均已確定,此網絡就是實際應用運行的模型。此神經網絡模型能否用于實踐,是否達到預期目的,還需要對已確定的神經網絡模型用已知的樣本進行測試驗證。假如測試精度達到預期要求,則證明該模型可以用于預測,否則還需要重新建立新的模型。網絡模型測試過程就是用測試樣本代入訓練樣本作為網絡輸入,計算網絡輸出結果,探討其輸出與測試樣本目標的誤差。經過訓練的網絡,再經過測試證實可行,即測試樣本相對誤差滿足預期要求,就可用于預測。

在網絡學習過程中,為了消除輸入樣本間的量綱差異,以便更好地進行學習,需要對樣本進行歸一化處理:
(1)

(2)
(3)
(i=1, 2,……,n,n=12)
當缺失值存在時,往往會影響變化規律的模擬,在數值分析中,運用拉格朗日插值法補充缺失值。拉格朗日插值法是一種多項式插值方法,可以提供一個正好穿過二維平面上若干已知點的多項式函數。拉格朗日插值法的公式結構緊湊,在理論分析中應用方便[13]。
本文中因河流冬季冰凍,造成了5個月份數據的缺失,因此采用拉格朗日插值法進行插值,五日生化需氧量、化學需氧量、高錳酸鹽指數、總磷插值情況如圖2。2010年12月、2013年1-2月3個月的高錳酸鹽、化學需氧量插值比較平滑,五日生化需氧量插值連續下降,總磷連續上升;2012年1、2月份,化學需氧量連續上升,五日生化需氧量、高錳酸鹽和總磷連續下降。插值后的數據能夠滿足數值分析的要求。

圖2 拉格朗日插值圖
經過試湊法確定五日生化需氧量最優模型的第一隱含層節點數為4,第二隱含層節點數為12,預測模型結構為 3-4-12-1。從圖3可以看出,五日生化需氧量預測值與實測值的決定系數R2為0.751 6(P=0.0003),4、7、11月份的誤差較大,其余9個月的誤差較小。
經過試湊法確定化學需氧量最優模型的第一隱含層節點數為12,第二隱含層節點數為10,模型結構為 3-12-10-1。從圖4可以看出,化學需氧量預測值與實測值的決定系數R2為0.887 5(P<0.0001),4、12月份的誤差較大,其余10個月的誤差較小。

圖3 五日生化需氧量濃度預測值與實測值對比

圖4 化學需氧量濃度預測值與實測值對比
經過試湊法確定高錳酸鹽最優模型的第一隱含層節點數為6,第二隱含層節點數為3,模型結構為 3-6-3-1。從圖5可以看出,高錳酸鹽指數預測值與實測值的決定系數R2為0.854 7(P<0.000 1),9、10、11月份的誤差較大,其余9個月的誤差較小。

圖5 高錳酸鹽指數濃度預測值與實測值對比
經過試湊法確定總磷最優模型的第一、第二隱含層節點數均為12,模型結構為 3-12-12-1。從圖6可以看出,總磷濃度預測值與實測值的決定系數R2為0.889 2(P<0.000 1),7、11、12月份誤差較大,其余9個月的誤差較小。

圖6 總磷濃度預測值與實測值對比
由表1可知,4個預測模型的回歸系數從大到小依次為TP>CODCr>CODMn>BOD5(0.889 2>0.887 5>0.854 7>0.751 6),平均相對誤差依次為TP 表1 預測值與實測值誤差分析 人工神經網絡是一種非線性數學模型,能夠模擬任意復雜程度的非線性過程,最大的優點是能夠反復訓練、測試網絡結構,最終以任意精度逼近任意復雜的非線性函數,BP神經網絡是應用范圍最廣泛的一種人工神經網絡[5,14-15]。分析監測數據過程中發現,由于水質的變化一般都是漸變的過程,可通過歷史監測數據的變化趨勢來預測將來的水質指標,可達到較好的效果。本文以若干連續實測值作為輸入值建立神經網絡模型的主要框架,預測下一時段的輸出值。通過雙隱含層BP人工神經網絡分析2011-2014年老哈河赤峰段甸子點位的4項污染指標的變化規律,預測2015年的數值并驗證神經網絡預測的準確性,表明人工神經網絡用來預測老哈河赤峰段水質變化具有可行性,其中總磷具有較高的預測精度。 缺失值是影響完整性的主要因素。由于數據錄入的遺漏、不正確的度量方法和數據采集條件的限制等多方面因素都有可能導致數據缺失,從而使數據不完整,更會影響后續數據挖掘、統計分析等工作的進行[16]。常規處理方法有歷史均值替代缺失值、利用資料序列的前后值加權以及直接代替個別缺失值。從缺失的分布來看,缺失值可分為完全隨機缺失、隨機缺失和完全非隨機缺失[17]。缺失值掩蓋了數據的分布,干擾了屬性相關性的發現,缺失值補全具有重要的理論和實踐意義,是后續分析挖掘工作的基礎[18]。本文可用的訓練樣本數量較少,應用拉格朗日插值法補充了缺失值,保證了時間序列數據的完整性,保證了模型的預測精度。 神經網絡隱含層層數和模型的預測精度密切相關,隱含層較少時因獲取的有效信息太少而導致預測精度較低,過多時往往會出現過擬合現象而降低預測精度,因此隱含層層數的選擇對BP神經網絡模型的預測能力十分重要[19-20]。一般認為針對簡單的問題,單隱含層即可滿足要求,但是對于復雜的問題,則需要多個隱含層才能達到較好的預測效果,同時隨著隱含層的增加,網絡結構復雜程度也隨之增加,對數據中的噪聲信號具有放大作用,從而降低模型的預測精度,因此網絡隱含層層數的選擇十分重要[14,20]。本文采用雙層BP神經網絡對老哈河水質預測取得了較好的預測精度。 本文通過插值方法對存在缺失值的河流水質指標進行補充,分別對化學需氧量、生化需氧量、高錳酸鹽指數和總磷建立Levenberg - Marquardt 優化的BP神經網絡模型進行水質預測,結論如下: (1)4個預測模型的回歸系數從大到小依次為TP>CODCr>CODMn>BOD5(0.889 2>0.887 5>0.854 7>0.751 6);平均誤差依次為TP (2)Levenberg - Marquardt 優化的雙隱含層BP神經網絡模型在老哈河水質預測中精度較高,其中總磷濃度預測效果最好。 (3)通過拉格朗日插值,可以建立老哈河赤峰段甸子點位污染指標的雙隱含層BP神經網絡模型進行水質預測。 參考文獻: [1] 王 新. 新疆某縣河流水質現狀評價及其變化趨勢分析[J].干旱環境監測,2017,21(1):33-36. [2] 尹海龍,徐祖信.河流綜合水質評價方法比較研究[J].長江流域資源與環境, 2008,17(5) :729-733. [3] 田建平,曹東衛,李海楠. LM-BP神經網絡在于橋水庫水質預測中的應用[J]. 水利信息化,2010(3):31-34. [4] 高 雋.人工神經網絡原理及仿真實例[M].北京:機械工業出版社,2003. [5] 陳 明.MATLAB神經網絡原理與實例精解[M].北京:清華大學出版社,2013. [6] 鄭 鵬.改進的BP 神經網絡模型在遼寧中部河流水質預測中的應用研究[J].吉林水利, 2017(2): 18-21. [7] 郭 亮,王 鵬,趙 英.基于BP 神經網絡的松花江四方臺水質預測[J].哈爾濱工業大學學報,2009,41(6) : 62-66. [8] 高雅玉,張麗萍,閔祥宇,等.改進的BP神經網絡在雙塔水庫水質預測中的應用[J]. 水資源與水工程學報,2012,23(6):149-153. [9] 李占東,林 欽. BP人工神經網絡模型在珠江口水質評價中的應用[J].南方水產,2005,1(4):47-54. [10] 陳文花. 基于BP神經網絡模型的閩江流域地表水(福州段)水質變化趨勢預測[J].能源與環境,2014(1):13-14+19. [11] 李輝東,關德新,袁鳳輝,等.BP人工神經網絡模擬楊樹林冠蒸騰[J].生態學報,2015,35(12):4137-4145. [12] 王宏宇,馬娟娟,孫西歡,等.基于 BP 神經網絡的土壤水熱動態預測模型研究[J].節水灌溉,2017(7):11-15+27. [13] 楊皓翔,李 濤,張招金,等. 基于拉格朗日插值法的新陳代謝模型在邊坡位移監測中的應用[J]. 安全與環境工程,2017,24(2):33-38. [14] 哈明光.單隱含層前饋神經網絡結構選擇研究[D].保定:河北大學,2014. [15] 唐云輝,高陽華. 基于鄰域特征的溫度缺失值的填補方法[J].中國農業氣象,2008,29(4):454-457. [16] 金 連.不完全數據中缺失值填充關鍵技術研究[D].哈爾濱:哈爾濱工業大學,2013. [17] 宋煥林. 數據挖掘中的數據缺失處理[J].河套學院學報,2016,13(3):95-98. [18] 賈梓健,宋騰煒,王建新. 基于傅里葉變換和kNNI的周期性時序數據缺失值補全算法[J].軟件工程,2017,20(3):9-13. [19] 唐萬梅.BP神經網絡網絡結構優化問題的研究[J].系統工程理論與實踐,2005,25 (10):95-100. [20] 韓力群.人工神經網絡理論、設計及應用:人工神經網絡理論設計及應用[M].北京:化學工業出版社,2007.
4 結 論