李 浩,劉 云
(宜賓市農業機械研究所, 四川 宜賓 644000)
我國是一個水資源缺乏的國家,良好的水生態是水資源保護工作的首要任務[1];社會的發展和人口的增長,以及人類對水資源的過度開發和利用,造成了一系列的問題[2-4]。水生態系統對水資源管理具有重意義,國內外學者就水生態系統研究做了大量的工作,也取得了較好的成果。Ioriya基于化學和生物方面,對札幌湖的水質進行研究,并預測了區域水質變化趨勢[5],Chernyaev利用儀器檢測了水生態中人為放射性核素[6],Sharifahmadian將貝葉斯網絡應用于水環境體系的風險預測中,取得較好精度,為水資源的利用提供了決策依據[7]。王曉峰基于WSUD生態學思想,提出以區域城市水體為中心,向外依次構建多帶多功能的污染防控體系,以改善水環境[8]。焦雯珺構建污染足跡模型,對影響水環境的人文驅動力進行評估[9]。學者們對水生態方面做了許多的工作,也為下一階段的研究打下了基礎。水生態系統是一個涉及多個學科,復雜多變的系統[10-12];水生態系統評價是人類防治污染與合理利用水資源的基礎;目前對水生態系統的評價多數是討論了影響水質的具體因子,但在宏觀方面對影響水生態系統的驅動因子的研究還顯得不足。
主成分分析法(Principal Component Analysis, PCA)是一種降維的思想,利用數學統計學的原理處理復雜的、多維的數據序列,去除數據相互重疊部分,得到少數幾個綜合指標(即主成分)[13,14];每個主成分反映了原數據提供的大部分信息,且所包含信息互不重復;同時得到的數據信息更加科學有效[15,16]。
通過主成分分析法對數據矩陣的個指標向量做線性組合得綜合指標向量為:
(1)
簡寫為:
(2)
(3)

模型的系數wij應滿足下列條件:
(1)Fi和Fj(i≠j,i,j=1,2,…,p)互不相關。

從幾何的觀點可以看出,主成分分析是對原坐標軸進行旋轉,得到相互正交的坐標軸,從而分析出數據的特征值。用數學語言來描述:設數據X中含有n個柵格,p個單指標變量,即:
(4)
在數據進行標準化處理前,必須進行指標的正向化:
(5)
(6)

正向化處理不改變數據的分布規律,保留了數據變異程度的差異。通常,一些數據具有不同的量綱,且數量級差異較大,在使用主成分分析時不同的量綱和數量級將會引發起新的問題,故對數據進行標準化處理,將數據無量綱化。無量綱化的矩陣為:
(7)

將式(4)的數據按式(5)或式(6)進行數據正向化,按式(7)進行標準化,的到標準化矩陣:
(8)
主成分的貢獻率和累計貢獻率是分析F從原始數據X中提取出的信息比重,也是衡量具體數據與主成分關系的橋梁。
(1)貢獻率:第k個主成分對應的特征值在矩陣中全部特征值的比例,所占比例越大,說明原始數據的影響越大。
(9)
式中:λk為第k個主成分對應的特征值。
(2)累計貢獻率:前m個主成分的特征值之和在全部特征值中的比例,所占比例越大,說明前m個主成分越全面地代表原始數據的信息。
(10)
在實際問題中,一般選取前幾個主成分,當累計方差貢獻率達到80%以上,即可用它們代替原有p個變量,實現降維的目的。
黃河三角洲位于渤海南岸和萊州灣西岸,位于東經117°31′~119°18′ 和北緯36°55′~38°16′。地面平坦,在海拔10 m以下。三角洲屬,溫帶季風性氣候。四季分明,光照充足,區內自然資源豐富。東營市是黃河三角洲代表性地帶,全市實現地區生產總值(GDP)3 430.49 億元,第一產業增加值123.99 億元;第二產業增加值2 345.08 億元;第三產業增加值961.42 億元。
本次研究共選取了8 個指標作為水生態系統的影響因子(或驅動因子),分別為人口密度X1、人均用水量X2、萬元GDP用水量X3、重工業產值比重X4、廢水排放量X5、單公頃化肥施用量X6、植被覆蓋率X7、生態補水量X8;涵蓋了人類活動、社會經濟、自然條件等因素,指標較為全面,可作為區域水生態系統研究的對象。
本次研究數據來源于2004-2015 年《山東省統計年鑒》、《東營市統計年鑒》、《東營市水資源公報》。具體數據見表1,其中有少數數據缺失,采用插值法補全數據序列。
為了提取數據的主成分,并判斷指標與其的關系利用SPSS軟件進行分析。

表1 研究指標數據Tab.1 Research indicator data

表2 特征值與貢獻率Tab.2 Eigenvalues and contribution rates

圖1 主成分碎石圖Fig.1 Principal component lithotripsy map
由表2可以看出第一個主成分的特征根為4.64 ,包含的信息為58.02% ;第二主成分的特征根為1.32 ,包含的信息為16.44%;第三主成分的特征根為1.24 ,包含的信息為15.47%;第一、第二、第三主成分所包含的信息為89.93% ,超過80% ,涵蓋了原始數據的大部分信息。由圖1 看出,在第三個主成分特征值是出現了明顯的拐點,碎石圖由陡峭變為平緩,綜合上述,確定主成分的個數為3個。
根據表3 主成分矩陣可以看出,第一主成分與指標X1、X2、X3、X4、X5相關程度較高,受影響程度較大;其中X1、X4、X5是與第一主成分正相關,X2、X3與第一主成分負相關。第二主成分與指標X7相關程度較高;并與X7正相關。第三主成分與X6相關程度較高,受影響程度較大;并與X6負相關,由此可知,人口密度、人均用水量、萬元GDP用水量、重工業產值比重、廢水排放量與第一主成分相關性較強,所占比重較大,是影響水生態系統的最主要的因子;單公頃化肥施用量、植被覆蓋率分別與第二、第三主成分相關度較高,是影響水生態系統的次要因子。
根據提取的主成分,結合SPSS軟件進行重新定義,并定義相同的新變量,根據特征向量矩陣可得到主成分表達公式:
F1=0.44X1-0.40X2-0.46X3+0.45X4+
0.37X5+0.02X6+0.01X7+0.17X8
(11)
F2=0.21X1-0.07X2-0.05X3+0.05X4+
0.34X5-0.78X6-0.05X7+0.63X8
(12)
F3=0.11X1+0.37X2+0.10X3+0.15X4+
0.33X5+0.10X6+0.87X7+0.05X8
(13)
由于選定指標的數據具有不同的屬性,各個數據的量綱有所不同且量綱的數量級也有差距,為了避免數據非因素影響,將原始數據進行標準化處理(見表4)。

表3 主成分矩陣Tab.3 Principal component matrix

表4 數據標準化矩陣Tab.4 Data standardization matrix
將表4 中數據分別帶入主成分表達式中,得到各個主成分在每年的具體得分,根據得分與貢獻率的關系可得綜合得分,即可判斷各年水生態系統的優劣程度;根據所選去的指標體系可知,綜合得分越高,表明水生態系統越惡劣(見表5)。

表5 各年得分情況Tab.5 Scores for each year

圖2 綜合得分圖Fig.2 Comprehensive score
根據表5 和圖2 可以看出,各年綜合得分呈逐漸增加的趨勢,綜合得分越高,說明水生態系統的質量越惡劣,從2011 年后增加的幅度呈現減緩的趨勢;2004-2015年,東營市的水環境情況呈現逐漸變差的趨勢,僅在2011 年后才有緩解的趨勢,但緩解程度仍然不明顯。黃河三角洲的合理利用水資源和水生態系統保護仍是政府部門和水利工作者工作的重心。
(1)主成分分析法可以剔除多個數據間包含的重復信息,實現對數據降維的目的,從繁瑣的數據中,提取出幾個主成分來反應數據的大部分信息;將主成分分析法應用于水生態系統保護的研究中,取得較好的研究成果。
(2)基于主成分分析法,結合黃河三角洲東營市2004-2015 年的統計數據,利用SPSS軟件分析,可知人口密度、人均用水量、萬元GDP用水量、重工業產值比重、廢水排放量是影響水生態系統的主要因子;單公頃化肥施用量、植被覆蓋率是影響水生態系統的次要因子。
(3)根據主成分對東營市水生態系統進行研究,東營市水生態系統情況呈現逐漸惡化的趨勢;合理利用水資源、制定水生態系統保護調控措施和適當地調整當地產業結構是相關部門工作的當務之急,是可持續發展社會的重要基礎。
□