謝殿榮
(福建省閩東南地質大隊,福建 泉州 362011)
中國人均水資源量僅為世界水平的四分之一,全國600個城市中有400個城市缺水或嚴重缺水,尤其是在華北和西北地區,水資源短缺的問題尤為突出。全國以地下水為飲用水源的城市占比約為61%,近70%人口飲用地下水。隨著我國經濟社會的快速發展,地下水資源開發利用量呈迅速增長態勢,地下水占全國總供水量的比例在30年間增長了1倍[1]。由于人類活動加強,預計地下水質量的提升將會面臨越來越大的壓力。近年來的研究表明,大多數地下水的大規模污染與地質成因有關,地下水與含水層礦物的相互作用可能會導致地質成因污染物的釋放[2]。

本研究在系統收集整理寧夏地下水中氟化物濃度樣本數據以及地質氣候、土壤等相關空間變量數據的基礎上,利用人工神經網絡方法對寧夏地下水中氟化物濃度與對應的預測變量進行建模,并根據建立的高氟地下水人工神經網絡預測模型生成了寧夏高氟地下水(地下水中氟化物濃度>1.5 mg/L)空間分布預測圖,進而確定影響寧夏地下水中氟化物富集的關鍵參數。本研究結果可為寧夏飲用水氟暴露風險的防控提供指導,為地下水的合理開發與利用和保障居民飲水安全提供科學依據。
本文從已發表的文獻[16-22]中收集了寧夏333個地下水中氟化物濃度數據,其中99個地下水中氟化物濃度(29.7%)超過1.5 mg/L。雖然數據來源不同,但由于所有數據均來自經同行評審的文獻,因此認為收集的數據質量是可靠的。
在寧夏北部、中部以及南部均選取了地下水中氟化物濃度樣本數據,其數據點分布見圖1。地下水樣本采樣時間從2007年至今,采樣深度在300 m以內,地下水樣中氟化物濃度最高為7 mg/L。一般來說,地下水中元素的濃度在時間上是相對穩定的,在幾十年的時間尺度內基本沒有變化或者變化很小,因此選取的樣本數據包含幾十年的氟化物濃度是合理的[26-28]。理想情況下,地下水溶質濃度的預測模型應基于反映溶質遷移轉化關鍵特征的三維參數。然而,在缺乏含水層條件和深度的三維空間連續數據庫的情況下,全球和區域可用的(二維)表面參數可作為溶質富集的代理指標[29]。根據已有的關于地下水中氟化物釋放和積累的研究文獻以及數據可獲取性[2,14,23,25],本文選擇15個預測變量用于建立地下水中氟化物濃度預測模型(表1),主要包括地質、土壤和氣候等預測變量數據,由于分辨率、數據格式和投影的差異,先將所有預測變量的分辨率轉換為0.5弧分,以保持預測變量之間的統一性;然后以1.5 mg/L為閾值將地下水中氟化物濃度數據轉化為二分變量,其中地下水中氟化物濃度>1.5 mg/L為1,地下水中氟化物濃度≤1.5 mg/L為0;再將地下水中氟化物濃度數據與對應的預測變量編譯為完整的數據集;最后將上述數據集隨機拆分為訓練(70%)、驗證(15%)和測試(15%)數據集用于建模。

圖1 寧夏地下水中氟化物濃度數據點分布圖

表1 用于建模的預測變量
1.2.1 人工神經網絡預測模型的建立
本文利用訓練數據集和15個預測變量建立了寧夏高氟地下水人工神經網絡預測模型。人工神經網絡(ANN)是一種自適應系統,通過在類似于人腦的分層結構中使用相互連接的節點或神經元進行學習,從而可以建立變量之間的復雜關系。具有單個隱藏層的ANN模型能夠作為通用擬合器,2N+1個隱藏神經元足以滿足具有N個輸入的預測任務[30]。因此,本文使用網格法從2-31(2×15+1)中搜索得到的最佳神經元數量為10。隱藏層與輸出層之間使用Softmax傳遞函數,其他層之間使用雙曲切線傳遞函數連接[30],采用均方誤差作為性能函數。
1.2.2 模型性能評估
將預測模型在測試集上的準確性、敏感性、特異性、陽性預測值和陰性預測值以及受試者工作特征曲線下的面積(AUC)作為預測模型性能的評估指標。此外,將預測模型的不確定性也作為評估標準。本文采用Bootstrap (100個Bootstrap數據集)預測值的標準差作為預測模型不確定性的衡量標準,標準差越低代表模型不確定性越低[24]。
1.2.3 預測變量重要性分析
本文采用上述ANN預測模型和排列重要性[24,31]來評估選取的預測變量的重要性。排列重要性基于一個直觀的概念,即通過計算預測變量置換后模型預測誤差的增加來衡量預測變量的重要性。具體操作為:隨機排列數據中所選定預測變量的數值,并計算這種隨機排列所造成的預測準確率的降低,預測變量的重要性與預測準確率的降低成正比。本文對每個預測變量執行50次排列重要性計算,以預測準確率降低值的均值作為預測變量重要性的度量值。
對建立的高氟地下水人工神經網絡預測模型進行訓練及其性能評估,其結果見圖2和圖3。

圖2 模型訓練過程中性能的變化

圖3 模型在訓練集和測試集上的混淆矩陣以及在測試集上的AUC值
由圖2和圖3可以看出:
(1) 模型訓練開始后,訓練集、驗證集和測試集的均方誤差迅速降低(圖2),并在Epoch=86時,驗證集均方誤差達到最低值0.06,達到了驗證提前停止條件,模型訓練停止。
(2) 最終的人工神經網絡模型在訓練集和測試集上的準確率分別為97.6%[圖3(a)]和93.5%[圖3(b)],具有良好的泛化性能,幾乎不存在過擬合。
(3) 相比于訓練集,模型在測試集上的性能直接體現了模型的預測能力。當截斷概率為0.5時,模型在測試集上的敏感性(模型識別高氟地下水的準確性)和特異性(模型識別低氟地下水的準確性)分別為98.3%、87.8%[見3(b)]。
(4)AUC可以顯示模型在不同截斷概率下對觀測結果的區分程度。AUC的取值范圍為0.5~1,當AUC=0.5時,表示模型無分辨能力;當AUC>0.80時,表示模型具有較好的分辨能力。本文所建立的人工神經網絡模型的AUC值為0.93[圖3(c)],表明該人工神經網絡模型具有較高的預測能力。
圖4為模型預測概率及其對應的標準偏差和占比。越低的預測概率標準偏差,表示模型預測的確定性越高,即模型能夠以更高的可靠性來判斷地下水中氟化物濃度是否大于閾值1.5 mg/L。

圖4 模型預測概率及其對應的標準偏差和占比
由圖4可知:模型預測概率與相應的標準偏差之間的關系呈拋物線型,即預測概率為0.5時預測概率的標準偏差最大,而低預測概率和高預測概率的標準偏差較小。分析認為這種拋物線結構非常符合預期,原因在于響應變量為二進制變量,人工神經網絡的輸出為樣本屬于高氟地下水的概率,而預測概率在0.5附近時表明模型不能判斷樣本是否屬于高氟地下水,也就是模型預測具有不確定性,因此預測概率的標準偏差較高;但同時,模型預測概率值在0.4~0.6之間的占比僅約為總體的4.1%,說明本文建立的人工神經網絡預測模型對絕大多數樣本預測都具有較高的確定性。
如前所述,本文所建立的ANN預測模型同時具有較高的敏感性、特異性和確定性,因此利用該模型能夠很好地預測高氟地下水,同時避免對非高氟地下水的的誤報。基于本文所建立的高氟地下水人工神經網絡預測模型生成了寧夏高氟地下水風險空間分布預測圖(見圖5),圖中顯示了寧夏地下水中氟化物濃度大于1.5 mg/L的預測概率,其中預測概率大于0.95的高氟地下水高風險區約占寧夏全域28.7%的區域。

圖5 寧夏高氟地下水風險空間分布預測圖
由圖5可見:寧夏高氟地下水高風險區主要集中分布在吳忠市和中衛市,總體上沿西南-東北呈帶狀分布,其余高風險區呈零散分布。Amini等[23]首次給出了包括中國在內的分辨率為5弧分的全球高氟地下水風險空間分布預測圖,但其訓練集數據中僅有呼和浩特盆地的25個樣本來自中國。相較于已有的寧夏高氟地下水風險空間分布預測圖,本文生成的預測圖基于更大的訓練樣本,分辨率提升了2個數量級。此外,《中國生活飲用水地圖集(1988)》中顯示,寧夏高氟地下水主要分布在北部沿黃兩岸以及由中衛市、吳忠市和固原市圍城的區域,這與本文預測的分布結果一致。
本文利用ANN模型和排列重要性方法量化了預測變量的重要性,其結果見圖6。

圖6 基于ANN模型和排列重要性方法的預測變量重要性分析結果
由圖6可知:15個預測變量中有12個預測變量能夠導致ANN模型預測的準確性降低超過10%,其中降水、潛在蒸散發(PET)、實際蒸散發(AET)、地形濕度指數(TWI)和土壤陽離子交換容量(CEC)是影響最大的5個預測變量,因此氣候預測變量是寧夏高氟地下水最重要的預測因子。
氣候對地下水中氟化物濃度的影響主要來自于降水對地下水補給和流動的影響。在降水較多的地區,如潮濕的熱帶地區,由于稀釋作用,地下水中氟化物的濃度通常較低[25,32]。相比之下,在干旱和半干旱環境中,長期的水-巖相互作用增強了礦物的溶解,導致地下水中氟化物的濃度較高[7],而強烈的蒸發作用也增強了以碳酸鹽形式存在的鈣離子的沉淀,從而降低了地下水中鈣離子的濃度,因此氟的富集很難通過螢石的溶解/沉淀來控制[4,6]。此外,氣候對地下水中氟化物濃度的影響也可能是由于干旱和半干旱環境有較高的pH值所致。土壤pH值的升高有利于含氟礦物如螢石、冰晶石的溶解,從而增強了這些礦物中氟化物從富氟巖石中溶解出來[33-34]。此外,由于相同的電荷和幾乎相同的半徑,氟離子和氫氧根離子可能在礦物結構的八面體薄片中發生交換[35],在堿性條件下,氫氧根離子可以替換吸附在礦物上的氟離子,從而增加地下水中氟化物的濃度[36]。因此,土壤pH值也是ANN預測模型中重要的預測因子。
土壤CEC和土壤粒徑變量的重要性可能來自于其可以反映黏土和有機質含量。一般來說,細粒土壤比砂土含有更高水平的黏土和氫氧化物,因此通常比粗粒土壤保留更多的氟化物[32]。此外,土壤有機碳密度通常與降水呈正相關關系,因此土壤有機碳密度也可以作為氣候的一個指標。
本文利用人工神經網絡方法建立了性能優良的寧夏高氟地下水預測模型,其中氣候變量是寧夏高氟地下水最重要的預測因子。基于預測模型生成的寧夏高氟地下水風險空間分布預測圖顯示,吳忠市和中衛市是主要的高氟地下水高風險區。本研究生成的高氟地下水風險空間分布預測圖對潛在的高氟地下水區域提供了準確可靠的判斷,能夠有效助力當地相關部門改水降氟工程的實施。但考慮到地下水系統的高度非均質性,本研究生成的高氟地下水風險空間分布預測圖并不能代替實際測試工作,而只能為地下水檢測與風險管控提供指導。