宋際洲,李茂億
(廣東省中山生態環境監測站,廣東 中山 528400)
水是生命之源,是人類賴以生存和發展不可缺少的重要資源。對水體水質開展監測評價對掌握水質狀況至關重要。水質評價是在開展水質監測調查的基礎上按照環境質量標準對水質狀況進行分類評價,以此來判斷水質的用途和是否需要對水體進行水質治理。水質監測評價是水環境資源保護中的重要一環。目前常用的水質評價方法主要有單因子指數評價法、綜合污染指數評價法、模糊數學評價法等,使用不同的水質評價方法可能會得到不同的評價結果[1-2]。
本文以中山市河涌為研究對象,在對中山市部分河涌水質開展化學需氧量、總磷、氨氮、溶解氧等項目監測的基礎上,對水質監測項目監測結果情況進行統計和Pearson 相關性分析,并使用地表水環境質量標準對水質狀況進行分類。為了能夠更好地對河涌水質狀況進行預測評價,構建基于隨機森林算法的河涌水質評價模型。
從2022 年1 月—9 月,對中山市部分河涌開展了水質監測,獲得了135 組水質監測結果。監測的項目有化學需氧量、總磷、氨氮、溶解氧。開展監測采樣時,按照地表水監測技術規范開展樣品采集和保存,采集河涌的表層樣品,并在現場使用溶氧儀對樣品中溶解氧進行現場測定,其余項目按要求加入固定劑后送到實驗室在樣品保存期內進行分析測定。
1.2.1 各監測項目監測結果情況統計
化學需氧量、總磷、氨氮、溶解氧4 個監測項目監測結果情況統計見表1。從表1 知,化學需氧量均值為11 mg/L,范圍為2~24 mg/L;總磷質量濃度均值為0.129 mg/L,范圍為0.02~0.94 mg/L;氨氮質量濃度均值為0.661 mg/L,范圍在未檢出~6.54 mg/L 之間;溶解氧均值為6.73 mg/L,范圍為2.28~9.70 mg/L。按照《地表水環境質量標準(GB 3838—2002)》標準限值[3],化學需氧量均值為Ⅰ類水質,總磷和氨氮均值為Ⅲ類水質,溶解氧均值為Ⅱ類水質。

表1 水質監測結果統計情況 單位:mg/L
1.2.2 監測項目相關性分析
使用R 語言,計算出本次研究的化學需氧量(圖1中以COD 表示化學需氧量)、總磷(圖1 中以TP 表示總磷)、氨氮(圖1 中以NH3表示氨氮)、溶解氧(圖1中以DO 表示溶解氧)4 個監測項目的Pearson 相關系數,用來度量監測項目之間的相關性大小,具體結果見圖1。由圖1 知,溶解氧和其他3 個項目呈負相關,相關系數范圍為-0.449~-0.251。其他項目之間呈一定程度正相關,相關系數范圍為0.369~0.472,其中化學需氧量和總磷的相關性最高(0.472)。

圖1 監測項目相關系數圖
1.2.3 水質分類情況統計
以《地表水環境質量標準(GB 3838—2002)》[3](見表2)作為評價標準,先按單項指標對各監測項目分別進行分類評價,再對各單項指標進行比較,以類別最高的指標所屬類別作為該點位的總體水質類別,計算出各單項指標和總體類別后,統計出各類別數量情況,匯總于表3。由表3 知,單項指標中,化學需氧量以Ⅰ類水質為主,總磷以Ⅱ類、Ⅲ類水質為主,氨氮以Ⅰ類、Ⅱ類水質為主,溶解氧以Ⅰ類、Ⅱ類水質為主;點位總體評價中,水質類別以Ⅱ類、Ⅲ類水質為主,分別出現了46 次、44 次。

表2 地表水環境環境質量標準限值 單位:mg/L

表3 各監測項目評價情況統計 單位:mg/L
隨機森林(Random Forests,RF)算法是由Breiman在2001 年提出。它是一種基于分類樹原理構建的有監督學習的集成模型,其基本單元是決策樹。隨機森林算法通過平均決策樹可以大大降低過擬合,提高算法準確度,是一種性能優秀機器學習算法。
將化學需氧量、總磷、氨氮、溶解氧等監測項目作為自變量,將水質類別作為因變量;選取其中98 個數據作為訓練集,剩下的37 個作為測試集;使用R 語言,基于隨機森林分類算法,使用3 折交叉驗證對模型參數進行訓練;以水質類別的真實值和預測值的符合程度來作為模型的評價指標完成模型構建。
模型訓練集結果準確度達到98%,測試集預測結果準確度為92%,預測結果優秀。具體測試集預測類別和真實類別對比情況見表4 訓練集混淆矩陣。

表4 訓練集混淆矩陣
從表4 測試集模型預測結果的混淆矩陣可知:作為測試集的37 個河涌水質中,34 個水質預測類別和真實類別完全吻合,3 個水質預測類別與真實類別不同。其中,水質類別為Ⅱ、Ⅲ類的各13 個水質的預測類別與真實類別完全吻合,真實水質類別為Ⅳ類的6 個水質有1 個預測成了Ⅲ類,真實水質類別為Ⅴ類的2 個水質有1 個預測成了Ⅳ類,真實水質類別為劣Ⅴ類的3 個水質有1 個預測成了Ⅳ類。
本文在對中山市河涌開展水質監測的基礎上,構建了基于隨機森林算法的水質分類評價模型。結果表明,基于隨機森林分類算法的水質評價模型訓練集預測準確度達到98%,測試集預測準確度達到92%,模型預測結果表現優秀,可以用來對河涌水質進行預測評價,為管理河涌和治理水質提供一定的參考依據。