王 雪
(河北省唐山水文水資源勘測局,河北 唐山 063000)
唐山市多年平均水資源28.5億m3,其中地表徑流量為14.62億m3,地下水資源量達13.69億m3,而人均占有水資源量僅有385m3,為典型缺水城市。唐山為我國重要的重工業城市,工業生產使得區域水環境遭受破壞。以唐山為研究區,采用隨機森林算法對區域水質取樣、分析,以期為區域水資源管理、保護利用提供參考。
水質是不連續的時空變異體,不同位置上水體質量存在差異,為了便于了解全局水質分布,應用Kriging插值法進行無偏估計。Kriging插值的公式如下[2]:
(1)
式中,Z(x0),Z(xi)—分別表示表示變量在x0,xi處的估計值、實測值;λ—臨近點對其影響程度,即空間權值。
隨機森林為Breiman等發展了分類回歸樹模型并提出組合樹構成的監督學習算法[3-4]。其基于隨機子空間(random subspace)和自助聚集(Bootstrap aggregating)理論,從原始m個訓練樣本中抽取n個訓練集(n 第一步:基于bootstrap抽樣理論隨機抽取K個訓練集Θ1,Θ2,…,Θk,并產生的K棵回歸樹{h(x,Θi),i=1,2,…,k}(x為輸入向量),其序列模型為{h1(x),h2(x),…,hk(x)}。 第二步:將各訓練子集不予剪枝處理,在樹節點處從M個特征中隨機抽取m個特征作為節點分裂的屬性,然后從節點處分裂,直至節點屬性純度最小。 第三步:單棵樹預測值為葉節點l(x,Θ)的觀測平均值,公式為: (2) (3) 式中,ωi—權值,其和為1;Yi(i=1,2,…,k)—因變量觀測值。 第四步:通過決策樹權重ωi(x,Θt)(t=1,2,…,k)取其均值,得到每個觀測值的權值: (4) 則其最終預測結果為: (5) 在布設水質斷面時綜合考慮了土地利用類型、徑流量、人口分布等背景環境,水質斷面主要位于河流匯流處、湖泊、地下水水源地。于2017年9—10月晴朗時分進行取樣,在斷面10m范圍內采集8個分樣品,混合均勻后分裝在干燥玻璃瓶中,并應用GPS儀記錄水體斷面坐標,共計有效樣點43個。按照《地表水環境標準》對水質進行檢測[6],其中溶解氧(DO)以硫酸鉀濕氧化法測定,高錳酸鉀指數(K2MnO4)、化學需氧量(COD)以草酸鈉法測定,生化需氧量(BOD)、總磷(TP)采用碳酸氫鈉浸提-鉬銻抗比色法,總鋅(Zn)以半微量凱氏法測定,氨氮(NH)以納氏劑分光光度法測定[1]。 該研究以唐山市水質為研究對象,涉及到的水質數據分析主要包含多元統計分析、GIS空間分析與水質綜合評價。先以3+δ方法剔除水質數據中的異常值,使其符合正態分布特性,再應用SPSS19.0軟件的描述統計分析、主成分分析工具解析其均值、變異系數、標準差、極值等統計量和水質的影響因素。將含有地理坐標的水質斷面數據導入ArcGIS平臺上,生成區域水質斷面分布圖,并應用Spatial Analysis模塊的Geostatistics功能將水質綜合評價結果進行空間可視化表達[5]。隨機森林建模與水質綜合評價則在開源軟件Rstudio1.1平臺上完成。 唐山市43個水質斷面監測指標如圖1所示。就Zn含量而言,河流、湖泊水體中含量較高,達1.683mg/L,1.482mg/L,地下水中含量最低,為0.612mg/L,根據GB 3838—2002《地表水環境質量標準》,河流水體屬于III類,水庫、湖泊、地下水均為II類。氨氮含量介于0.232~0.956mg/L之間,其中地下水屬于I類,湖泊和水庫屬于II類,河流水屬于III類。溶解氧是維持水體生命機能的重要成分,其含量與溫度、水生生物等密切相關,以河流水體的溶解氧最高,為6.56mg/L,屬于II類水質;地下水達3.667g/L,為III類;湖泊和水庫水體均屬于II類。化學需氧量是指在一定條件下,以高錳酸鉀為氧化劑,處理水樣時所消耗的氧化劑的量,是水環境質量的重要影響因素。此次調查顯示,地下水的化學需氧量含量最高,達到33mg/L,湖泊水次之,屬III類水質,河流和水庫水體的化學需氧量較低,達到I類。磷素是植物生長所需的有機營養物質,其在水體中富集往往引發水藻滋長,并誘發水污染。各類型水體中湖泊中的磷素含量最高,達到0.82mg/L,屬于III類水質標準,地下水水體中總磷含量最低,僅為0.08mg/L,水質較優為I類,而河流和水庫水體中總磷含量屬于II類。 圖1 唐山市水質統計特征 通常水質指標性相關性越高,表明其同源的可能性越大,這能夠幫助我們分析污染物的來源。Person相關分析表明,唐山市水體中的化學需氧量與溶解氧之間呈正相關關系,相關系數為0.69,在5%水平上達到顯著性。氨氮、總磷和生化需氧量與化學需氧量均呈顯著正相關關系,通過了0.05水平的檢驗,相關系數依次為0.79,0.84,0.85。而氨氮的含量與總磷、生化需氧量的相關性達到0.72和0.75,達到統計顯著水平(p<0.05)。見表1。 表2為唐山市水質主成分分析結果。依表可知,大于1的特征根有2個,4個主成分包含了87.13%的解釋方差,能夠很好地反映水質獨立信息。其中,第一主成分的可解釋方差最大,達51.15%,第二主成分占22.32%,第三主成分為9.7%,第四主成分僅占3.96%。經旋轉后得到其因子荷載矩陣。可知,第一主成分與溶解氧、化學需氧量的關系密切,荷載值達到0.801,0.759,反應的是水體自凈能力。氨氮、總磷在第二主成分上有較大荷載,表明氮素、磷素等有機物污染是唐山市水污染的重要因素之一。第三主成分上荷載值較大的是鋅,第四主成分上荷載值較大的為生化需氧量與高錳酸鉀指數,荷載值依次為0.819,0.905,0.751。綜合來看,溶解氧與化學需氧量對唐山市水體污染貢獻值最大,其次為氮磷等有機物,鋅和高錳酸鉀指數等貢獻程度較低。 表1 唐山市水質指標相關性矩陣 注:*為在0.05水平上達到顯著性。 表2 水質斷面主成分分析 4.4.1 評價流程 應用隨機森林算法實施水質綜合評價的關鍵在于依據水質評價分級標準構建其與指標系統中的單一指標間的隸屬規則,在Rstuido環境下其具體流程如下: 步驟1:依據GB 3838—2002,應用R軟件中的runif函數在各等級標準區間隨機內插生成200組樣本數據,5個評價等級共計樣本1000組;并將其中的15項指標樣本進行歸一化處理,以剔除量綱、噪聲影響。公式如下: 正向指標:yij=(xij-xj)/(maxxj-minxj) (6) 負向指標:yij=(maxxj-xij)/(maxxj-minxj) (7) 式中,x—指標原始數據;i—行政區序列;j—指標項目序列;maxxj和minxj—分別表示第j個指標中最大值和最小值;y—標準化值。 步驟2:樣本設置。從1000組樣本數據中隨機選取700組作為訓練樣本,另外300組為檢測樣本;樣本中15個參評因子數據為輸入向量,5個目標值為輸出向量,通過Randomforest函數進行建模訓練。 步驟3:參數優選與模型精度評價。模型中的出包錯誤率(Out of bag error rate,OOB)為模型精度的衡量,對于敏感參數mtry和ntree的選擇,可通過tunefit函數進行優化。參數mtry最優值一般為變量的方根值,該研究中其適宜值為4;對于ntree值的搜索如圖2所示,可知當ntree為1200左右時,OOB值較小而趨于穩定[6]。由于訓練樣本、檢測樣本選取均為隨機,并且回歸樹集成為森林過程中子結點的選取也呈隨機性,故而以20次運行結果的平均值表征模型性能,其精度參量技術可通過Metrices程序包進行,結果見表3。結果顯示其訓練精度、檢測精度均較高,模型學習能力好、可靠性強,可用于試驗區水資源承載力評價。 圖2 模型精度隨樹數量的變化 表3 隨機森林模型實驗結果 步驟4:閥值設定。根據檢驗樣本的實際輸出向量可獲得不同評價等級區間的臨界值,取多次運行產生的臨界值平均值作為閥值,分別為:I類(0,1.5210]、II類(1.5210,2.3712]、III類(2.3712,3.4283]、IV類(3.4283,4.4688]、V類(4.4688,5.5217]。該閥值作為水質分級依據。 步驟5:模型應用。將訓練好的模型應用于目標數據樣本,以測評唐山市水質狀況,并依據閥值進行分級評價。 4.4.2 評價結果 基于前述方法,對唐山市43個水質斷面進行綜合評價,結果如圖3所示。基于閥值劃分水質等級,I類水質主要分布于市域北部和東部邊緣地區,該地區水資源涵養條件好、水環境質量高且地廣人稀,水資源承載壓力較小,水質受人為影響較小。II類水質呈帶狀分布于市域中部,該地區是唐山市農業、生態用地、園地核心區,水體受到一定污染。III類水質呈斑狀聚集性分布于西南和南部地區,該地為唐山市人口、工業密集區,污染排放較多且人為破壞程度大。統計顯示,I類水質分布面積最小,占區域總面積的27.31%,II和III類水質分布廣泛,依次占34.14%,38.55%。綜合來看,唐山市水質呈空間聚集性分布,對此應對加強水資源保護與空間調配。 圖3 唐山市水質綜合評價結果 唐山市水體質量分屬I~III類,II和III類水質分布于市域中南部核心區,這對區域經濟發展、民生安全造成不利。該市水資源可能存在的污染類別主要是溶解氧、氮素和磷素,對此應予以積極防控。在GIS平臺上運用Kriging插值法對全市水質質量進行空間可視化表達,直觀反映了水質等級漸進變化及其空間格局,為區域水資源管理提供了有利手段。隨機森林機器學習算法將水質綜合評價轉化為多重非線性模式識別問題,通過組合樹的根節點與葉節點模擬水質指標與水質量級間的關系,經過充分訓練獲得水質等級識別能力,評價過程客觀。3 唐山市水質斷面分布及數據處理
3.1 水質斷面分布
3.2 數據處理
4 結果與分析
4.1 水質描述統計分析

4.2 水體指標相關性分析
4.3 水質主成分分析


4.4 基于隨機森林的唐山市水質綜合評價



5 結論