












[摘要]為快速全面了解地下水環境質量,解決地下水水質分類中指標復雜、樣本稀缺、分類結果不準確等問題,將PCA降維原理與BP神經網絡機器學習相結合,構建PCA-BP水質分類模型,并與單因子評價法作比較。通過實例研究表明:相較于單因子評價法,PCA-BP水質分類法不僅能夠篩選出主要污染變量,還充分利用神經網絡的自學性、容錯性和抗干擾能力,評價結果能客觀反映水體綜合水質狀況,為地下水資源開發利用及水害防治提供理論依據。
[關鍵詞]神經網絡;地下水;水質;分類評價;水質模型
地下水水質分類評價的結果決定了水源能夠被利用的程度,對地下水體受污染程度進行評估,能夠為合理利用地下水資源提供科學依據。目前國內外常用的地下水質量評價方法主要包括單因子評價法、模糊綜合評價法、灰色關聯度評價法、人工神經網絡評價法等[1-6]。單因子評價具有片面性,容易受到極端指標的影響,以致水環境質量不能被全面反映;灰色關聯度評價法等級分辨率低,模糊綜合評價法、主成分分析(PCA)法計算相對復雜,對指標權重值過分依賴,致使評價結果可靠性降低。BP神經網絡的模型結構直接影響網絡的逼近能力,當污染指標過多時,模型結構過于復雜,導致模型效率低下。為了克服單一方法造成評價結果不準確的問題,本文構建PCA-BP模型進行水質分類,以期客觀反映地下水水質現狀。
1 方法和原理
1.1 主成分分析法(PCA)
主成分分析是一種對原始數據壓縮和特征信息提取的方法[7,8]。在用統計分析方法研究多變量的課題時,變量個數太多就會增加課題的復雜性。當變量間存在相關性時,就可利用主成分分析法通過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量,既能夠表達出原有信息變量,又能保持變量間的獨立性。其基本原理如下:
若定義X1,X2,…Xp為原變量指標,F1,F2,…Fm(mlt;p)為新變量指標,兩者之間的關系如下:
式中:Fi與Fj(i≠j;i,j=1,2,…m)互不相關;F1是X1,X2,…Xp所有線性組合中方差最大者,F2是與F1不相關的X1,X2,…Xp的所有線性組合中方差最大者,依此類推。新變量指標F1,F2,…Fm分別作為原變量X1,X2,…Xp指標的第一,第二,…第m主成分。
對變量做主成分分析的步驟通常為:首先,將原有變量數據標準化,求出協方差矩陣的特征值和特征向量。然后,將特征值按照一定的順序排列,選擇特征值大于1的k個特征向量分別作為X1,X2,…Xp在各主成分F1,F2,…Fm上的載荷lij(i=1,2,…m;j=1,2,…p)。最后,計算主成分Fi的綜合得分值F。
1.2 BP 神經網絡分類法
BP神經網絡是1986年由Rumelhart和McClelland為首的科學家提出的概念,是一種按照誤差逆向傳播算法訓練的多層前饋神經網絡,是目前應用最廣泛的神經網絡[9],其主要特征就是它的信號在各層正向傳播,而分類誤差卻反向傳播。它根據導師的學習方式進行訓練,將設定好的學習模式提供給神經網絡后,神經元就會逐層被激活,信號沿輸入層―隱含層―輸出層傳播,隨即輸出層的神經元就會輸出對應于輸入模式的網絡響應。隨后,誤差開始從輸出層―隱含層―輸入層反向傳播以不斷修正權重和偏置,這是為了使搭建的神經網絡精度最高,必須使期望輸出與實際輸出之間的誤差最小,其結構示意圖見圖1,流程圖見圖2。
當輸入層有n個神經元,而隱含層有p個神經元,輸出層有q個神經元時,則隱含層第j個神經元的輸入值tj為:
其中:xi(i=1,2,…n)用來代表第i個神經元的輸入值;wij(j=1,2,…p)代表輸入層神經元i與隱含層神經元j之間的權重,bj是對應神經元的偏置。
隱含層中第j個神經元的輸出值zj為:
zj = f1 (tj ) (4)
其中:f1(·)為輸入層到隱含層的傳遞函數,一般為非線性Sigmoid函數。
輸出層中第k個神經元的輸入值uk為:
其中:zj(j=1,2,…p)用來代表來自隱含層第j個神經元的輸入值;wjk(k=1,2,…q)則能夠表示隱含層神經元j與輸出層神經元k之間的權重,bk是對應神經元的偏置。
輸出層第k個神經元的輸出值yk為:
yk = f2 (uk ) (6)
其中:f2(·)表示隱含層到輸出層的傳遞函數。
2 實例分析
焦作市位于河南省西北部,北起太行,南依黃河,交通便利。本文選取焦作淺層地下水12組水質數據進行實例分析[10]。根據《地下水質量標準》(GB/T 14848-2017),篩選出硫化物、氯化物、礦化度、pH、總硬度、氟化物6項污染指標。
2.1 基于PCA 的指標賦權
采用SPSS 分析軟件對12組水質數據進行主成分分析,主要步驟如下:
(1)將水質數據標準化處理,計算相關系數矩陣,見表1。
(2)計算每個主成分所對應的初始特征值、方差百分比及累計方差貢獻率,見表2。前2個主成分特征值均大于1,其累積反映了原始參數信息的89.59%,可見主成分分析法結果有效。
(3)計算初始因子載荷矩陣,主成分與對應變量的相關系數絕對值越接近1,表示相關程度越高。將各主成分的載荷向量除以各自主成分特征值的算術平方根,得到主成分特征向量值,再經變換推導確定指標權重,見表3。
由指標權重計算結果可知,各指標權重總體差別不大,總硬度、氟化物、pH與其他三項指標相比權重較小,因此將硫酸鹽、礦化度、氯化物作為搭建BP神經網絡模型的主要指標。
2.2 水質分類模型構建
(1)隨機生成訓練樣本
本文基于MATLAB 軟件構建BP 神經網絡。地下水水質量分類參考《地下水質量標準》(GB/T 14848-2017),將實測數據依據標準劃分為五個水質類別,見表4。在MATLAB 中使用rand函數生成隨機樣本,在各大標準限值的取值區間內隨機取值,對于每一類水質,隨機生成300組符合標準的隨機數組,5個水質類別總計生成1500組隨機數,見表5。
生成隨機數組后,在各個水質類型的隨機數組中分別隨機抽取200 組數據作為訓練數據集,即五個水質類型的訓練數據共1000 組,其余500 組作為驗證數據集,用于驗證將要構建的神經網絡的準確率。
(2)訓練樣本歸一化
為了使后續計算方便,程序運行時收斂更快,在構建BP模型前的預處理階段,必須對數據集進行歸一化處理,利用mapminmax 函數進行歸一化,使處理后的隨機數組所有數值在[-1,1]之間。
計算公式如下:
y = (ymax - ymin )*(x - xmin )/(xmax - xmin ) + ymin (7)
(3)確定目標矩陣
每一個輸入樣本對應一個輸出矩陣,由于第一步生成了1500組隨機樣本,因此目標集T 為一個5×1500的矩陣。本次模型構建中輸出層有5種水質類別,將輸出層設為5個神經元。用5×1的矩陣T表示每個輸出類別,( 1,0,0,0,0) T 表示第Ⅰ類水質、( 0,1,0,0,0) T 表示第Ⅱ類水質、( 0,0,1,0,0) T 表示第Ⅲ類水質、( 0,0,0,1,0) T 表示第Ⅳ類水質、( 0,0,0,0,1) T 表示第Ⅴ類水質。
(4)創建神經網絡
將1000組數據作為訓練集用于訓練網絡,500組數據用于測試網絡,在MATLAB 中輸入樣本集[P,T],使用newff 函數創建一個BP神經網絡,設置激活函數、訓練函數、學習函數后,再進行相關參數的設置,最大訓練次數設為1000,學習速率、動量因子和訓練精度分別設置為0.1、0.9和0.025。經多次調試后發現隱含層神經元個數為10時網絡誤差最小,確定網絡結構為3-10-5。
(5)分類結果
調用水質分類模型,將12組實測水質數據進行數據歸一化處理,作為輸入變量,經過網絡模型輸出對應的結果,見表6。
3 結論
從評價結果上看,該區域地下水中存在IV、Ⅴ類水,這可能是受到人類活動、采礦堆積等因素影響,采煤過程中堆積在礦坑附近的煤矸石在雨水的淋濾作用下釋放出一些重金屬及硫酸鹽等物質,從而對該層水質造成污染破壞。但總體上水質較好,可以作為飲用水和工農業用水水源。
選用主成分分析法賦權,得到結果中對水質影響最小的為pH值,影響最大的污染因素為礦化度和硫化物。比較兩種方法的評價結果可知,PCA-BP神經網絡評價結果要優于單因子評價法,相較于單因子評價法的悲觀性,PCA-BP神經網絡評價更為客觀。
[參考文獻]
[1]韓忠,王曉麗,施龍青.PCA-BP 神經網絡在礦山巖溶突水水源判別中的應用研究[J]. 河南理工大學學報(自然科學版),2023,42(01):46-53.
[2]Gai RL;Guo ZB. A water quality assessment method based on an improved grey relational analysis and particle swarm optimization multi-classification support vector machine[J]. Frontiers in Plant Science,2023:14.
[3]Pany Rajashree;Rath Ashutosh;Swain Prakash Chandra. Water quality assessment for River Mahanadi of Odisha,India using statistical techniques and Artificial Neural Networks[J]. Journal of Cleaner Production,2023,417(Sep.10):137713.1-37713.16.
[4]喻澤斌,施麗玲.PCA-BP 神經網絡在流域水質評價中的應用[J]. 桂林理工大學學報,2012,32(02):189-194.
[5]許飛青,李瀟,李凱等. 隨機森林回歸模型在地下水水質評價的新應用[J]. 地質與勘探,2023,59(02):408-417.
[6]朱永軍,吳瓊,湛忠宇. 基于主成分分析法與人工神經網絡耦合模型的水質評價[J]. 江蘇水利,2021(08):48-54.
[7]呂海洋,黨秀麗,朱影影,等. 河南省典型工業區地下水水質分析及重金屬健康風險評價[J/OL]. 農業環境科學學報,2023(12):2740-2751.
[8]蘇俏俏,黃平華,丁風帆,等. 基于Piper-PCA-Fisher 模型的礦井突水水源識別[J]. 能源與環保,2021,43(10):122-127.
[9]張怡,馮萱,王碩等. 基于BP 人工神經網絡的紅旗泡水庫富營養化評價[J]. 環境生態學,2022,4(09):103-107.
[10]Huang PH,Wang XY. Groundwater―Mixing Me chanism in a Multiaquifer System Based on Isotopic Tracing Theory:A Case Study in a Coal Mine District,China[J]. Geofluids,2018:1-10.