周 及,關衛省,付林濤
(1.長安大學環境科學與工程學院,陜西 西安 710054; 2.長安大學旱區地下水文與生態效應教育部重點實驗室,陜西 西安 710054; 3.寶雞市生態環境局鳳縣分局,陜西 寶雞 721700)
自20世紀80年代到21世紀初,西安市工業用水量和生活用水量逐年增加,水資源的儲備量和需求量大大失衡,水資源的管理及合理利用顯得尤為重要[1]?;诖?,越來越多的水質監測項目被應用到實際生產生活中,然而水質監測中復雜冗長的檢測指標給數據管理及分析工作帶來很大困難。多元統計分析方法由于可以簡化數據結構、提取潛在信息,被廣泛應用于水質分析中[2-3]。Pati等[4-5]將多元統計技術和水質評價指數結合,確定了研究區域飲用水及農業用水的適宜程度;Zare等[6]通過研究建立了水質季節質量指數的評價模型。周豐等[7-8]提出了適用于大尺度、多斷面的水質評價方法。蔡廣強等[9]通過研究發現了南方某水庫水質時空變化特征。利用多元統計分析的方法研究西安市及周邊地區的地表河流水質,主要集中在對浐河、灞河、渭河等代表河流的水體污染特征和污染因子來源進行分析[10-13]。但是,多元統計分析樣本數量越多,方法適用性越高,而相關研究受樣本數量的局限,無法精確量化河流與河流之間污染的程度對比,無法判別不同年份間污染趨勢的變化。
本文收集了西安市地表河流2009—2017年的監測數據,從多元統計分析的角度出發,利用因子分析法識別水中主要污染物,探究污染物的逐年變化趨勢,初步分析污染物主要來源,并利用主成分綜合排序對各個斷面的污染情況進行綜合評價,旨在為西安市地表水保護和治理提供科學依據和理論基礎。

表1 西安市地表水2009—2017年水質指標統計描述Table 1 Statistical description of water quality indicators of Xi’an surface water from 2009 to 2017
通過收集《西安市水資源公報》中實測數據和調研西安市水利局統計資料,得到了2009—2017年西安市地表水近40個斷面的逐月監測數據,選取CODMn、BOD、石油類、糞大腸菌群、陰離子表面活性劑、NH3-N、TN、TP等24個指標為水質指標。采樣點覆蓋西安市主要河流,包括灞河、渭河、灃河、浐河、黑河、皂河及各個大小渠系,共1 552個檢測樣本,有效個案1 221個,數據統計結果見表1。在進行因子分析與聚類分析前對數據進行標準化處理,以消除量綱的影響[14]。分析采用IBM SPSS statistics 23軟件。
西安市內主要河流有渭河、涇河、灞河、灃河、澇河、黑河、石川河,均屬于黃河流域渭河水系[15]。水資源總量多年平均為19.73億m3,2017年全市水資源總量為24.45億m3[1]。
依照GB3838—2002《地表水環境質量標準》按功能區劃分類別對西安市境內河流、水庫水質進行評價,結果見表2。2014年水質污染總體較為嚴重,2015年有所好轉,但2016年綜合污染指數上升了9.8%,整體上2017年西安市河流水質污染有所減輕,水質綜合污染指數較上年同期下降19.9%[1]。從河流角度來說,近幾年皂河、新河、浐河、臨河污染情況最為嚴重。
1.3.1因子分析法
因子分析法是一種降低變量維數的方法,它從研究原始變量相關矩陣出發,把關系復雜的變量歸結為少數幾個綜合因子。在水質分析中,此方法主要用來提取污染因子和識別污染源[16-17]。作為識別污染源的有效工具,因子分析還可以量化出污染源的貢獻率[18]。因子分析的一般模型為

表2 2014—2017年西安市主要河流水質概況Table 2 Water quality of main rivers in Xi’an from 2014 to 2017
(1)
式中:f1,f2,…,fm(m≤p)為公因子;aij為因子載荷,反映xi和fi之間的相關程度[19,20];εi為方程誤差。
1.3.2主成分分析法
主成分分析法(principal components analysis,PCA)是利用少數不相關的新變量反映原始變量,通過對新的變量進行排序、分類,解決多變量數據最佳綜合簡化的問題。利用主成分分析方法調查水質狀況,并在此基礎上對水質綜合指標進行量化排序[19-21],是主成分分析法在水質評價工作中發揮的最大作用。
近年來,主成分分析法在水環境質量評價應用的原理是,把很多指標參數放入同一個系統,并對這些指標參數進行定量化的分析研究,最終得出的主成分綜合得分能夠反映水體的水質狀況,得分越高,水質污染狀況越嚴重[20-22]。主成分分析的基本步驟:①計算相關系數陣,檢驗待分析的變量是否適合做主成分分析;②根據研究問題所選定的初變量的特征判斷求主成分的方法;③求協方差陣或相關陣的特征根及對應標準化特征向量;④確定主成分個數;⑤計算各個樣品主成分得分。
2.1.1數據標準化
由于數據量綱和數量級的不同,利用SPSS軟件分別將2009—2017年的原始數據標準化,采用Z-score法進行標準化處理:
(2)

2.1.2因子分析的適合性和相關性檢驗
各個年份的KMO和巴特利特檢驗結果見表3,KMO檢驗值均≥0.5,并且滿足P<0.05的置信區間,達到檢驗要求,說明提取的主成分對于原始變量的解釋程度較高且該分析是客觀有效的。近似卡方、自由度和顯著性的統計檢驗結果表示,即使球形假設被拒絕,也可以認為相關系數矩陣與單位矩陣有顯著差異,即原數據適用于做因子分析。

表3 2009—2017年因子分析統計檢驗結果Table 3 Statistical test results of factor analysis from 2009 to 2017
相關性矩陣中各個變量間的相關系數表明了因子間的相關度,越接近1,相關度越高。9年的相關性矩陣計算結果表明,指標CODCr與CODMn、糞大腸菌群、NH3-N、BOD等指標正相關性很高,均達到0.9以上;而指標DO與NH3-N、CODCr、糞大腸菌群這些指標呈極大的負相關,其絕對值均達到0.9以上。通過各個年份的相關性矩陣可以看出因子間的相關程度很高,即適用于因子分析及降維處理。
2.1.3提取公因子
通過SPSS對各年監測數據進行降維處理,從原有個數較多的變量中提取少數幾個不可觀測的因子,以反映各年監測指標的基本信息。并且根據變量間的相關性進行分組,從變量組內提取少數的潛在因子來反映本組的特性,從而使這些因子能夠概括和歸納原有觀測變量的大部分信息,解釋變量的基本結構[23]。
表4中,利用主成分分析法提取2009—2017年24個監測指標的主成分,2009年、2011年、2012年、2014年、2015年提取了4個主成分,2010年、2017年提取了5個主成分,2013年、2016年提取了6個主成分,每個主成分下因子得分較高的控制指標也具有明顯的分離度。結果顯示原本的24個指標可以由4~6個主成分因子所描述,方差累計貢獻率均在78%以上,說明提取的主成分因子可較好地描述原本龐大的數據。

表4 2009—2017年提取的公因子Table 4 Common factors extracted from 2009 to 2017
2.1.4因子旋轉
為更好地對公因子進行解釋,本文對因子載荷矩陣做出正交變換,即在對應坐標系進行投影,從而使旋轉后的因子載荷矩陣結構簡化。利用凱撒正態化最大方差法對因子載荷進行旋轉,將得到的結果由大到小進行排序,得到旋轉后的成分矩陣。由于對每年的數據進行因子分析后得到的主成分含義不同,F5、F6貢獻率數小,因此主要選取前4個主成分F1~F4來研究。
2.1.5污染源識別
從表4可得2009—2017年各個主成分表征的污染源:第一主成分(F1)中CODMn、CODCr、NH3-N具有較高的因子載荷,指示的是有機物污染源;氟化物、硫化物、Hg在F2中占有較大的因子載荷,即F2指示的是燃煤動力和冶金工業的污染源;F3中As、Si占比較大,指示的是電子和冶煉工業的污染源;F4則指示的是化工產業[23-24]??傮w來說,西安市的地表河流受有機物污染最為嚴重,其次是工業生產中產生的一些對環境和人體有很大損害的有毒物質。
初始因子載荷矩陣用于表征監測水質指標與主成分的相關程度,用于解釋各個主成分變量的變異情況,其絕對值越接近1,表明相關程度越高,則該指標可以作為評價水質的主要控制指標[10,24-25]。根據這一原則,并且結合指標所要表征的全面性以及避免重復,選取以下6個指標作為西安市河流的主要控制指標:CODCr、陰離子表面活性劑、NH3-N、石油類、氟化物、硫化物,并且根據這6個指標與其主成分的因子載荷值繪制圖1,評價這些指標9年間對主成分因子的影響情況。
由圖1可知,2009—2017年CODCr、NH3-N、陰離子表面活性劑3個指標均維持了較高的因子載荷。石油類污染物在2009—2015年間波動較小,2016年顯著下降并達到最小值;氟化物基本維持較低因子載荷,在2013—2014年間波動明顯。綜上,西安市河流水質受有機類、NH3-N、陰離子表面活性劑污染最為嚴重,2011—2015年綜合污染情況嚴重,2016年水質最好。

圖1 2009—2017年污染物主要控制指標變化趨勢Fig.1 Change trend of main pollutant control indicators from 2009 to 2017
2.2.1主成分得分計算
若從原P個指標中提取了m個主成分(式(1)),則主成分得分計算公式為
(3)
式中:Yi為第i個主成分得分;Xi為第i年原始變量值;li1,li2,…,lim為X協方差陣特征值對應特征向量。
將每年36~40個水質樣品的原始變量值標準化處理后代入式(3),計算得出監測斷面的各主成分得分,給予水質污染程度的定量化描述:各個主成分下的得分越大,說明受此主成分因子的影響越大,綜合得分越高,表明水體受污染的程度越嚴重[26-27]。
將各個主成分的特征根作權數,對每個主成分進行加權平均即得綜合得分,主成分綜合評定函數Y表示每年各斷面綜合污染情況。

(4)
式中:Yi為各個斷面在第i主成分下的得分情況;λ1,λ2,…,λn為每個主成分的特征根。
根據2009—2017年斷面主成分綜合得分計算結果,北石橋綜合得分在2009年、2011年、2014年、2015年得分最高,其中2014年與2015年得分高達8.08、9.11。其次是丈八溝,綜合得分在2017年達到最高,2009年、2014年位于第二;再次是雁秋門,綜合得分在2010年、2012年達到最高。小北門在2009年、2012年得分最低,臨河入渭在2015年、2017年得分最低,其中小北門斷面在2009年得分最低可達0.11。
2.2.2綜合評價
a. 水質空間分布特征。各斷面的主成分綜合得分越高、排名越靠前,代表斷面污染越嚴重。2009—2017年主成分綜合得分排名前10的斷面綜合得分情況見表5。
由表5可知,北石橋除2016年、2017年斷流外,其余年份均為綜合得分最高斷面,其次,雁秋門、農場西站、丈八溝,說明這些斷面綜合污染最嚴重的,其中農場西站、雁秋門、丈八溝均屬于皂河水系,北石橋屬于渠系。文中未列出的斷面艾蒿坪在2009年主成分綜合得分最低,為-2.209,田峪口在2011年得分達到最低,為-2.191,它們均屬于黑河水系。說明西安市主要地表水系中皂河污染最嚴重,黑河污染狀況最輕。
b. 點源污染解析。北石橋、雁秋門、農場西站和丈八溝這4個主成分綜合得分較高的斷面,分析這幾個斷面第一、第二、第三等等主成分的得分,得出水質主要污染源如下:斷面北石橋(2016—2017年無水)在2009—2015年在第一主成分下得分均為正值,說明與F1正相關,并且得分值較大,表明采樣點北石橋的水質受F1表征的氨氮類、有機類污染物影響最為顯著;F2下的得分在2009—2011年為正值,在2012—2015年為負值,說明此采樣點與F2在前3年正相關,后面幾年為負相關,說明北石橋2009—2011年受氟、硫化物和石油類污染物影響較為嚴重,而后面4年有所緩解[27]。斷面雁秋門在這9年間均在F1上有較高得分,說明此采樣點受氨氮和有機污染物影響嚴重,而在F2、F3上得分基本上為負值,因此可以看出雁秋門受氟、硫化物、砷硒、石油類污染物的影響較弱。同理,可知斷面農場西站與丈八溝這兩個采樣點均受有機物和NH3-N污染最為嚴重,其他污染物影響不太顯著。
a. 通過降維處理將24個水質指標綜合為4~6個主成分,且降維后主成分的方差累計貢獻率均在78%以上,能較好地反映原水質指標的信息,有效簡化監測數據。
b. 采用因子分析法得到了因子載荷較高的7個水質指標為:CODCr、CODMn、陰離子表面活性劑、NH3-N、石油類、氟化物、硫化物。通過分析7個水質指標的變化,發現西安市地表河流2011年到2015年綜合污染情況嚴重,2016年水質最好。
c. 通過主成分分析法,得到了35~40個監測斷面的各主成分得分,其中北石橋、農場西站、雁秋門和丈八溝的綜合得分最高,艾蒿坪、田峪口綜合得分最低。表明西安市主要地表水系中皂河污染最嚴重,黑河污染程度最輕。通過分析得分最高的斷面,發現有機物、NH3-N對地表河流水質影響最為顯著。