馬春龍,施小清,許偉偉,任靜華,王 佩,吳吉春
(1.表生地球化學教育部重點實驗室/南京大學地球科學與工程學院,江蘇 南京 210023;2.自然資源部國土(耕地)生態監測與修復工程技術創新中心/江蘇省地質調查研究院,江蘇 南京 210018;3.常州市環境科學研究院,江蘇 常州 213022)
隨著城市化進程加快以及產業結構調整,我國大批企業關停或搬遷,遺留下來的工業污染場地(即棕地)超過50多萬塊[1]。由于棕地具有污染程度重、污染物組成復雜、土壤和地下水均受到污染等特點[2],對居民食品安全、飲用水安全、生態環境、人居環境健康、經濟社會可持續發展造成了嚴重威脅與挑戰[1,3?4]。因此,亟待開展污染場地的調查評估、風險管控和修復。
為進行場地污染風險管控和修復,首先需要開展場地土壤和地下水的污染狀況調查。完成第一階段場地污染狀況調查后,在第二階段調查中需采集場地樣本,初步采樣分析和詳細采樣分析中將獲得大量包含土壤和地下水的污染數據。數據樣本數量大,監測項目多,數據結構復雜,其中隱含著大量的特征信息、關系信息以及分類信息,例如污染物在地下水和土壤兩種介質中存在何種關聯性,能否通過大數據分析進行場地污染源追溯。如何采取有效方法從大數據中提取價值信息成為一個重要的研究問題[5-6]。
受人力、物力以及財力的限制,無法對污染場地取大量樣品并對所有指標逐一測試分析,如何在不影響污染場地客觀評價的條件下,盡可能減少需檢測的污染指標數目,降低場地檢測費用,也是一個值得研究的問題。
目前,眾多多變量方法已被應用于污染場地數據分析,如主成分分析(PCA)、因子分析(FA)、判別分析(DA),層次聚類分析(HCA)等[7-11],以此減小或消除數據中的冗余。然而由于污染數據本身的復雜性,應用傳統數據分析方法存在較大局限性[12]。傳統數據分析方法,如主成分分析,無法處理復雜的大數據集[13],在污染樣本數和檢測指標數較多的情況下,可能無法滿足使用該方法的前提條件,即前三個主成分累積方差貢獻達不到70%[14]。另一方面,傳統多變量分析方法一般是線性方法,當數據結構不滿足線性條件時,分析結果具有迷惑性,可能不準確[15]。
隨著計算能力的提高,神經網絡算法開始被應用于各種數據挖掘任務,自組織映射神經網絡(selforganizingmap,SOM)便是其中之一。SOM是一種無監督人工神經網絡,由于對大數據集有優秀的處理和解釋能力[16-17],近些年被逐漸應用于各類環境監測項目產生的多變量數據處理,如水文過程的預測、地表和地下水水質評估、地表水和地下水的時空相關關系、生態群落的研究等[12,18?25],但在場地污染數據分析中的應用很少。SOM與傳統多變量分析方法都可用于數據降維,從數據中提取主要特征。但對于缺失數據、離散或復雜的數據類型,傳統多變量分析方法具有局限性,例如只能通過線性插值或須剔除存在缺失值的變量,處理文本標簽數據時存在低效的問題。而SOM是一種基于無監督的機器學習算法,一方面由于具備自學習特性,可以更好地構建輸入和輸出之間的關聯模式[26]。SOM允許缺失值的存在,無需刪除或插值,可最大程度保留原始數據特征。另一方面,由于SOM是一種非線性映射方法,可直接處理非線性數據[13,27?28]。
本文采用自組織映射神經網絡以及機器學習和模式識別領域常用的K均值聚類算法,通過對地下水和土壤中污染指標的相關性分析和聚類分析,嘗試減少數據冗余,削減污染場地后續檢測中的污染指標數目,以此降低場地檢測費用。同時,本文還對污染物在地下水-土壤系統中的相關性進行了分析探討。本文提出的數據挖掘框架可為污染場地數據分析和決策管理提供技術支持。
研究區污染地塊位于江蘇省某工業區(圖1),面積約1 km2。20世紀70年代開始有多家化工企業在此設廠,至2009年全部停產搬遷。地塊內企業主要產品有農藥原藥及制劑、農藥中間體、化工中間體、甲萘胺、工業級甲萘酚、染料及染料中間體等。由于長期以來粗放的環境安全管理模式、無序的工業廢水排放或泄漏導致污染物進入土壤和地下水中,成為有機污染場地,該場地污染類型多樣,污染狀況復雜。

圖1 研究區及采樣點分布Fig.1 Study area and distribution of sampling sites
場地地貌類型屬長江三角洲沖積平原,整體地勢平坦,地表高程約5m,出露第四系沖積層,自上而下主要存在四個含水層,即孔隙潛水含水層和Ⅰ、Ⅱ、Ⅲ承壓含水層。潛水含水層主要由淺部填土和黏土、亞黏土組成。底板埋深6.0~8.0m,潛水水位埋深1.50m左右,富水性差。Ⅰ承壓含水層分為上下兩段,上段由粉砂、亞砂土組成,頂板埋深4.0~15.0m,厚度2 ~20m,水位埋深3~5m,具有微承壓性質,富水性較好;下段由粉細砂組成,頂板埋深25~35m,厚度2~13m,富水性一般。圖2為圖1中A-A’水文地質剖面,研究區地塊30m內自上而下主要組成為填土、黏土、亞黏土、粉砂、亞黏土。
污染地塊內的土壤和地下水樣品采集點見圖1。土壤和地下水采樣按規范和技術導則[29?32]執行。

圖2 A-A’水文地質剖面Fig.2 Hydrogeological profile of long Line A-A’
場地的土壤樣品采集,分為表層土壤和下層土壤采集。表層土壤樣品采集時,用取樣鏟適當刨去裸露在空氣中的表面土后,再用取樣鏟取土,裝入專用密實袋。下層土壤采用鉆機鉆取土樣,達到規定深度后,拔出鉆桿取出土樣,采集人員戴一次性的無污染橡膠手套,根據取樣深度和個數要求取得所需深度的土樣,裝入密實袋。表層土壤,5m以內每隔0.5m采集一個土壤樣品,5~10m每隔1m采集一個土壤樣品,下層土壤,10~30m每隔2m采一個土壤樣品。不同深度采集土壤樣本總計753個。
在地下水監測井疏浚穩定24 h后,進行地下水采樣。水樣采集后,迅速裝入帶有保護劑的專用樣品瓶中,并保存在裝有冰袋的冷藏箱中,最大程度地避免樣品間交叉污染。在距地表15m處(Ⅰ承壓含水層上部,微承壓)共采集地下水樣本167個。
本文采用自組織映射神經網絡結合K均值聚類算法對污染指標進行相關性分析和聚類分析。
自組織映射(self-organizingmap,SOM)是一種競爭學習型的無監督神經網絡(圖3),由芬蘭學者Kohonen[23]提出。其使用無監督訓練將高維輸入數據映射到低維空間,同時保留輸入數據在高維空間的拓撲結構,即將高維空間中相似的樣本點映射到二維輸出層中的鄰近神經元,因此被廣泛應用于數據降維[26]。

圖3 自組織神經網絡結構圖[26]Fig.3 Structure of the self-organizing map
SOM網絡中的輸出層神經元以矩陣方式排列在二維空間中,每個神經元具有與之相連接的權向量,在接收到一個訓練樣本后,每個輸出層神經元會計算該樣本與自身攜帶的權向量間的距離,距離最近的神經元成為競爭獲勝者,稱為最佳匹配單元(bestmatching unit,BMU)。然后,最佳匹配單元及其鄰近神經元的權向量將被重新調整,以縮小權向量與當前樣本的距離。此過程不斷迭代,直至收斂。
在獲得自組織映射結果之前,需要設置輸出神經元的數量,根據文獻[12,21],神經元數量最優設置為為樣本數量。
本研究采用赫爾辛基理工大學Vesanto等[29]開發的SOM工具箱在MATLAB中計算。
K均值算法(k-means clustering)是流行于數據挖掘領域的聚類算法。其步驟是預先隨機選取K個對象作為初始聚類中心,隨后計算每個對象與各個聚類中心的距離,將每個對象分配到最近的聚類中心,聚類中心及其分配的對象代表一個聚類。一旦全部對象完成分配,每個聚類的聚類中心會根據聚類中現有的對象被重新計算。此過程不斷重復直至聚類中心不再變化[33]。K均值聚類算法的具體實現過程詳見文獻[34],此處不再贅述。
表1為SOM輸入數據統計特征(已剔除濃度低于檢測限的指標和無機監測指標),根據地下水質量標準(GB/T 14 848—2017)中IV類水標準,該場地地下水中主要有機污染物為鄰二甲苯、氯苯、四氯化碳、1,2-二氯乙烷、間二甲苯和對二甲苯、三氯甲烷、乙苯以及二氯苯。
按相似度對SOM輸出圖重排序(圖4),每種污染物對應一種映射圖,其中的顏色梯度可用來識別污染指標間的相關性,相同或相似顏色梯度指示正相關性,相似程度越高,相關性越強[12,21?22]。由此可知,1,3-二氯苯、1,4-二氯苯、1,2-二氯苯、1,2,3-三氯苯、2,4-二氯酚、2,6-二氯酚,溴苯間存在較強的相關性;三氯甲烷(氯仿)、錳、甲苯、乙苯、二甲苯、砷、二硫化碳、1,3,5-三甲苯、異丙基苯、苯、苯酚、4-氯甲苯、丙酮、4-甲基-2-戊酮、1-萘胺存在良好相關性;以及四氯化碳、三氯乙烯、四氯乙烯相關性極好,氯苯、1,2-二氯乙烷、2-氯甲苯間也存在較好相關性。

表1 地下水中污染物數據統計特征Table 1 Statistical characteristics of pollutant data in groundwater
在SOM映射結果基礎上,進一步結合K均值算法,得到如圖5所示的聚類結果。污染指標被分為4類,根據圖3污染指標映射圖,可將聚類與具體污染指標一一對應。
第一類(Cluster-1)包含絕大部分樣本點,相關指標包括氯苯、1,2-二氯乙烷等,說明第一類中的污染物空間分布范圍最為廣泛。第二類(Cluster-2)包含1,2,4-三氯苯、1,4-二氯苯、1,2-二氯苯等8個指標,第三類(Cluster-3)包含鄰二甲苯、間二甲苯和對二甲苯、甲苯、乙苯、三氯甲烷等。第四類(Cluster-4)為三氯乙烯、四氯乙烯和四氯化碳。

圖4 地下水中污染物指標SOM映射圖Fig.4 Component planes for the pollution indicators analyzed in the SOM of groundwater
由相關性和聚類結果可知,除個別污染物外,該場地中絕大部分污染物均存在與之相關的污染指標。相當的正相關性說明場地污染物可能具有相似的來源特征,如工業中常用三氯乙烯制備四氯乙烯和四氯化碳,故三者有良好的相關性,同時其在環境介質中可能存在相似的生物化學降解以及遷移擴散途徑等行為特征。

圖5 SOM-K均值聚類結果(根據SOM映射圖可將污染物與聚類一一對應)Fig.5 Sampling sites clustering patterns in SOM-K means(according to the SOM map,the pollutants can be one-to-one corresponded to the cluster)
進一步分析,發現其相關性主要表現在空間分布的相似性,圖6為不同聚類污染物空間分布特征。從中可知,從屬于同一聚類的污染物,其濃度空間分布具有高度相似性,有基本一致的高值區。據此本文提出在場地污染物后續檢測中可根據相關性的不同,對污染指標施行先分類后分級的篩選策略,即將同一類(相關性強)中的污染指標根據超標倍數或環境風險進行分級檢測,在同一聚類中篩選少數污染指標,總體上達到削減檢測費用的目標。表2為根據SOMK均值聚類以及《地下水質量標準》(GB/T 14848—2017)進行的污染物優化篩選結果,本文根據超標倍數在Cluster-1—Cluster-4類中分別選擇氯苯,1,4-二氯苯,鄰二甲苯和四氯化碳。
由于污染場地通常需要采樣分析大量指標,本文提出的方法可能有助于減少場地檢測費用。

圖6 同一聚類的污染物表現出相似的空間分布特征(取樣深度15 m)Fig.6 The pollutants in the same cluster showed similar spatial distribution characteristics(groundwater samples at depth 15 m)
為探究污染物在地下水和土壤中的相關性,本文采取相同及鄰近監測點,考慮到污染物先進入土壤后進入地下水,將15m處的地下水水質數據和8~15m處的土壤數據(土壤采樣點高于地下水)進行綜合分析。表3為土壤和地下水中部分污染物的統計特征。圖7為經SOM訓練輸出的自組織映射圖,根據前文,映射圖顏色梯度相似度指示污染指標相關性。由圖7及土壤和地下水中污染物相關系數矩陣(圖8)可知,除個別污染物如二甲苯外,同種有機污染物在土壤和地下水中具有較高相關性,不同污染物如苯、甲苯、三氯甲烷、異丙基苯在土壤和地下水兩種介質中也存在較好相關性。
地下水和土壤中污染物的相關性表現在空間分布特征的相似性,以四氯化碳、氯苯、三氯甲烷(氯仿)為例,由圖9可知,3種污染物在地下水和土壤中濃度高值區一致,地下水和土壤中污染物關系密切,其原因可能是該地塊低滲介質分布廣泛,同時場地地下水水力坡度很小導致地下水滲流速度緩慢,污染物未能發生較大規模的側向遷移,地下水中污染物主要來自于化工廠污廢水排泄以及污染物在土壤中的持續釋放。少數監測位點差別較大,三氯甲烷和氯苯在個別監測點土壤中濃度高,而地下水中濃度低(圖9),可能原因為該區域黏土層較厚(圖2),大部分污染物仍滯留在土壤中。

表2 地下水中污染物聚類分級優化篩選結果Table 2 Clustering optimization results of pollutants in groundwater
(1)對于有機污染場地,基于自組織映射神經網絡結合聚類算法的大數據分析框架,發現地下水中除個別污染物以外,多個污染指標之間存在良好關聯性,表現顯著聚類特征,同一聚類中污染物濃度空間分布具有高度相似性。對于該污染場地的后續檢測中可根據相關性在同一聚類中只檢測少量關鍵指標,即氯苯,1,4-二氯苯,鄰二甲苯和四氯化碳,既使場地檢測有的放矢,又減少檢測費用。
(2)對于該污染場地,由于地下水流速緩慢,相同有機污染物在兩種不同環境介質中存在較強相關性,不同污染物如苯、甲苯、三氯甲烷、異丙基苯在土壤和地下水兩種介質中存在較好相關性,表現為空間分布的一致性,該結果可能有助于場地污染源的追溯。
(3)本次研究未對深層地下水采樣分析,也未在不同時間段進行采樣,因此土壤和地下水檢測數據的相關性分析時,未考慮在污染物濃度垂向不同深度的變異性以及隨時間的變化過程,這是本研究的不足之處。另外,污染物在土壤和地下水兩種環境介質中的良好相關性,后續需要更多地球化學和生物證據佐證說明污染物相似的來源特征。

表3 地下水和土壤數據統計特征Table 3 Statistical characteristics of groundwater and soil data

圖7 土壤和地下水中的污染物SOM映射結果Fig.7 Component planes for the pollution indicators analyzed in the SOM of groundwater and soil

圖8 土壤和地下水中污染物相關系數矩陣Fig.8 Correlation coefficient matrix of pollutants in soil and groundwater

圖9 四氯化碳、氯苯、三氯甲烷在地下水和土壤中的空間分布情況對比Fig.9 Comparison of the spatial distribution of carbon tetrachloride,chlorobenzene and chloroform in groundwater and soil