趙 靜
(江蘇省工程咨詢中心有限公司 江蘇南京 210003)
河流健康診斷的目的在于判別河流所患何種疾病及其產生的原因,助于有目的、有針對性的采取相關調控或管理措施,達到河流可持續發展的目標[1]。但現有對河流健康的診斷大多聚焦于對河流現狀的評估,而對引起河流疾病的外部原因卻涉獵較少[2]。本文在河流健康評價結果分析的基礎上提出河流健康問題成因判斷模型,進一步發展完善河流健康診斷方法體系,對河流管理有著重要的現實意義。
根據人體健康診斷過程,如“人體感冒”既可能是天氣變化等外部自然因素導致,也可能是長時間工作造成身體過于疲勞等人為因素導致,當然一般情況下是這2 種因素共同作用的結果[3]。據此可認為,河流康所患疾病的病因也是由自然因素和人為因素共同組成,即對外源性影響因素分析可從自然因素和人為因素2 方面進行。影響河流健康的自然因素可分為2 大類,一類包含海嘯、火山爆發和地震等,可極大的損害河流生態,但由于河流生物是與環境長期協同進化的產物,因而生物已經適應了自然環境的這個劇烈改變,多數情況下河流生態可自行得到恢復;另一類包含溫度、降雨量、濕度等以及水域范圍內的地形、地貌、植被等因素。因此,從時間尺度上看,自然因素對河流健康的影響在較長時間內才會顯現出來,短時間內人為因素將占主導作用。而損害河流健康的人為因素主要包含區域內的人口狀況、收入指數、人口增長率和經濟發展水平,以及對河流水資源的過度開發、灘涂圍墾、水利工程興建、河水養殖以及各種污廢水的超標排放等,詳見圖1。

圖1 人為因素對河流生態的作用[4]
病因診斷是對相關因子作用于河流健康的影響規律的具體化,因此需科學、合理、客觀地選取對河流健康有重要影響的因子。由于河流健康的外部影響因子眾多,且與表征指標之間存在多對多的作用關系,每個因子可同步影響一或多個表征指標,為此初步確定河流健康(具體指河流水質狀況)病因診斷影響因子集,且各影響因子的數據可通過查閱研究區域的水文、氣象、各類統計年鑒、土地利用調查、遙感影像等資料獲取,也可通過實際訪談和定點觀測等方式獲取。
各影響因子中,人口密度為總人口和土地面積的比值;人均GDP、人均可支配收入、第一、二、三產業產值以萬元計;土地利用強度為研究區域內已利用的土地面積與總面積的比值;水域游樂活動功能主要以景觀美學價值的高低、水域旅游的年總收入來衡量,以萬元計;農業灌溉用水量按每畝灌溉水量計算;化肥施用強度反映河流生態系統遭受人類活動造成的面源污染的程度,以每年每公頃的化肥(以氮、磷、鉀含量計算的復合肥)施用量統計;城鎮工業用水量、人均生活用水量分別以每萬元產值用水量和每人每天用水量計;生物入侵控制率可考慮用研究區域內一種或幾種占主導優勢的外來物種控制率表征;濕地保護率以研究區域內受保護濕地的面積占濕地總面積的比例來衡量;現有政策、法規及其執行力度、社區參與度和有效財政支出體現的是管理水平,多為定性因子,可通過實地調研、資料收集及專家咨詢獲取;科技經費支出指數反映的是通過科學研究手段和方法來降低河流污染,從而達到人們所期望的健康程度,以科技活動經費支出占GDP 比重(%)表示;污染治理投資指數反映了社會對河流生態系統修復的建設程度,通過表征生態環境治理力度來反映環境得以保護和改善的趨勢,以污染治理投入占GDP比重(%)表示[5][6]。由于不同的因素都會對河流健康產生影響,因此需根據實際情形,選取重要的因素作為病因評價因子,并非每個因素都要考慮。
病因診斷模型是根據水質狀態與外部影響因子之間的關聯性,通過一定的數學分析方法,構建出兩者之間的函數關系式,從眾多的影響因子中確定河流健康問題的主要病因。解決此問題的方法主要包括主成分分析法、偏最小二乘回歸法和灰關聯分析法等。其中,主成分分析法是將一組新的相互無關聯的綜合因素來取代初始因素,同時依據實際需求從中選取幾個關鍵因素盡可能多的映射初始因素的信息[7],但不能直接說明單個原始變量屬性對主成分或因子的作用,不能完全有效地利用相關信息建立表征指標和影響因素之間的定量關系。偏最小二乘回歸法是最近剛發展起來的一種新型統計方法,在常見的多影響因素對多表征指標的統計建模中,相較于其他方法有諸多優勢[8],但當自變量太多時,得到的模型結果就會顯得比較復雜,難以分析和解釋[9]。灰關聯分析法是依據各因子間的數據列的發展態勢與行為做相異或相似程度的對比,以判斷因子的關聯與行為的趨近程度,但當評價對象為抽象系統時,只能對影響因素和表征指標之間的關系做定性分析[10][11]。
綜合影響河流健康的眾多外部因子,各因子之間的多維度關聯性較為復雜,且水質狀態與眾多的外部影響因子之間也存在較為復雜的互為影響關系。加之,上述方法在實際應用中都各有優缺點,似乎選取任何一種方法都不能保證河流病因診斷結果的準確性和可靠性,因而最好聯合2種及以上的方法用于河流健康病因診斷。本研究嘗試選用主成分分析法與偏最小二乘回歸法對河流病因進行評價。
首先,需要把數據標準化;其次,對變量的數據矩陣做主成分分析,給出其特征值與特征向量;最后,將n 個變量擬合成一個表征河流健康病癥因子的綜合指標[12~14]。
為了能與偏最小二乘回歸法結合使用,從而使結果更為直觀和精確,可用式(1)分指數公式將變量數據標準化。
式中xij—第i個樣本第j種變量值;Sj—xj的標準差;—xij的標準化值;n、m—總樣本數量、總變量數量。
將m個變量的標準化數據組成的矩陣記為X。
按式(2)求X的對稱方陣C。
式中XT—X的轉置矩陣。
用雅可比法求C的特征值與對應的向量。由特征向量可構成正交矩陣V,對X做變換,見式(3)。
使新變量y1、y2……yn互不干擾。特征值λi為yi的方差。將n個特征值按大小順序排列λ1≥λ2≥……≥λn,其對應的n個向量組成n個新變量。方差小的變量對模型貢獻小,反之貢獻大。y1、y2……yn分別稱為第一主成分、第二主成分……第n個主成分,前面的主成分組成了樣本間最大的變異見式(4)。
前面p個主成分y1、y2……yp(p〈n)的方差占比,即為累計方差貢獻率,見式(5)。
若前p個主成分的累積貢獻率很大,通常是當p≥0.75 時,用這p個主成分代替原n 個變量就不會損失太多信息。這p個主成分就稱為公共因子。多數情況下,取前2 個主成分y1和y2作為公共因子已能滿足要求,第i個公共因子上的公共變量的荷載向量見式(6)。
第j 個變量在p 個公共因子上荷載的平方和稱為變量的公共屬性見式(7),從而有式(8)。
其值映射了變量j在公共屬性部分的重要性。比較n個變量的公共屬性,可知什么樣的變量在公共屬性方面更重要。可把變量的公共屬性的hj視為該變量的權重,構成一個度量河流健康病癥因子的綜合指標,即建立了以影響因子為自變量與以河流健康病癥表征因子為因變量的回歸方程,見式(9)。
式中xj—某樣本第j種變量的標準化值,根據式(1)給出;hj—根據式(7)給出的第j個變量的權重。
河流健康病因診斷的思路即為在分析步驟中,選擇河流一個或多個病癥作為Y,以其m個脅迫因素x1、x2……xm構成方陣X,收集各脅迫因素的數據資料(主要包括水域自然地理條件、社會經濟條件、水域資源開采情況、土地利用情況等)作為分析基礎,采用主成分分析法,構建Y與X的擬合方程。根據擬合系數的計算結果,剖析方程的擬合精度,明確河流健康的各影響因素的重要性排序,進一步提出相應的修復與調控對策。
引入偏最小二乘回歸法中的變量投影重要性指標(VIPj)去測度病因影響程度。如果使用主成分分析法中的前p個主成分y1、y2……yp進行分析,并對其中的參數重新定義后得VIPj最終轉換形式,見式(10)、式(11)、式(12)[15~18]。
VIPj的涵義在于自變量xj(j= 1 , … , m)對Y的詮釋是經過yh來傳達的,若yh對Y的詮釋能力很大,而xj在建立yh時,又發揮了非常大的作用,則可以認為xj對Y具有相當大的詮釋能力。
對本文嘗試選用的主成分分析法與偏最小二乘回歸法,先按上述建模方法利用MATLAB 7.1語言編程計算,得到因變量水質綜合污染指數(Y)與自變量年降雨量(x1)、人口數量(x2)、GDP(x3)、工業廢水量(x4)、農業廢水量(x5)、生活污水量(x6)以及環保投資指數(x7)相關關系的回歸方程式(13)。
再根據公式(10)~(12)計算得各病因的VIP值,VIP1=0.7103、VIP2=1.0673、VIP3=1.087、VIP4=1.0866、VIP5=1.0469、VIP6=1.0673、VIP7=0.9314。因此,在影響水質(Y)的7個因素中,得其重要性程度的排序為GDP(x3)>工業廢水量(x4)>生活污水量(x6)=人口數量(x2)>農業廢水量(x5)>環保投資指數(x7)>年降雨量(x1)。具體診斷結果見表1。

表1 診斷結果比較
由表2 可看出,本文提出的主成分分析法與偏最小二乘回歸的病因診斷方法與單獨使用偏最小二乘回歸的評價結果較為一致。其差別主要在于自變量GDP(x3)和工業污水排放量(x4)的排序,分析其主要原因可能在于研究區域GDP 的大小將直接影響該區域工業污水的排放量,故它們對因變量水質綜合污染指數(Y)的影響具有同等重要性,因此二者在影響程度排序上也較為接近;同時,人口數量的多少也將直接影響該區域生活污水的排放量,因此二者在影響程度排序上也較為接近。
綜上所述,本文確定主成分分析法聯合偏最小二乘回歸法來判別河流健康的主要病因,以期為河流的管理和決策提供依據。
河流病因診斷過程是通過對河流健康評價表征指標與評價結果的分析,挖掘影響河流健康的各種原因,從而為河流水環境“對癥下藥”的治理提供合理的科學思路。本文在對河流健康的外源性影響因素分析的基礎上,考慮空間尺度、地形地貌等因素,確立了用于河流健康病因診斷的影響因子。進一步,對常用的幾種可能用于河流健康病因診斷的統計方法進行比較分析,針對各自的優缺點,提出了主成分分析法聯合偏最小二乘回歸法的河流健康病因診斷方法,并通過與傳統的偏最小二乘回歸法的比較,剖析了該方法的合理性,以期豐富河流健康診斷與評價方面的理論與方法體系。