李 寧, 蘆 紅
(1. 清華大學 建筑設計研究院, 北京 100084; 2. 國際數據公司 最終用戶研究與統計部, 北京 100036)
水資源既是重要的基礎性自然資源和戰略性經濟資源,也是生態環境發展的支撐性要素,具有不可替代性[1-2].隨著社會發展和科技的進步,水資源的污染和缺失問題日益嚴重,由此增加了各國對水資源的保護壓力[3-4].為了促進水資源的保護工作,加強對水資源利用區域的管理,我國相繼出臺了《全國重要江河湖泊水功能區劃》(2011~2030)、《水功能區監督管理辦法》等政策,為全國水資源利用區劃和保護提供了支撐[5-6].
但目前的區劃方法著重于定性分析,具有較強的主觀性及隨意性.隨著產業結構不斷調整,城市布局發生了顯著變化,導致區劃覆蓋面積不全面、功能定位不準確等問題.因此,本文通過分析我國水資源量、功能區劃選取原則、區劃體系及結果,總結了我國在水資源區劃管理中遇到的問題與不足,并提出其水資源優化布局方案.基于優化布局的要求及規范,挖掘影響水資源系統特征搭建指標體系,降維后進行K-means聚類分析.采用Python工具建立聚類模型,通過大渡河流域的水資源功能區劃結果來驗證所提方法的可行性與科學性.
根據2019年中國水資源公報,全國水資源總量為29 041億m2,比近年來的平均值增長了4.8%.但人均水資源總量遠低于全世界人均總量,全國接近70%的省市存在缺水問題,總缺口量已達到60億m2.水資源功能區劃[7-9]目的是為水資源的開發利用和保護管理提供科學依據,以實現水資源的可持續發展及利用.全國水資源功能區劃為兩級,如圖1所示.一級水資源功能區包括:保護區、保留區、開發利用區、緩沖區;二級水資源功能區在開發利用區上進一步劃分為:工業用水區、漁業用水區、農業用水區、飲用水源區、過渡區、景觀娛樂用水區、排污控制區.

圖1 水資源功能區劃體系Fig.1 Functional regionalization system of water resources
全國重要江河湖泊一級水資源功能區劃結果(2011~2030年)共有2 888個,區劃河長177 977 km,區劃湖庫面積43 333 km2.實際區劃過程中,主要采用定性判斷法,根據技術人員的經驗和主觀判斷分析能力來劃分水功能區.同一水域由不同技術人員劃分所得到的結果可能不同,因此具有較強的不確定性和隨意性.隨著社會經濟的快速發展,部分水功能區劃已不能滿足當前區域水資源開發利用形式,例如,部分農業用水區隨著城市化發展正逐漸演變為工業用水區.因此,水資源系統具有非平衡性、多變性、自組織性、自相似性、隨機性等特性,是極其復雜的非線性系統,需要通過定量的分析方式建立具有科學性、及時性、合理性、規范性的聚類模型進行水功能區劃.
指標體系構建[10-11]是聚類分析過程中的基礎環節,有助于對非線性復雜系統特征進行分析,且關系到水資源功能區劃結果的科學性與規范性.影響水資源系統的因子較多,區劃考慮的因子越多,區劃則越復雜;區域內的差異越大,區劃也越困難.合理的指標體系有利于設計和重構復雜的系統,使區域特征能夠客觀、規范、合理地進行描述和展示.
指標體系的核心在于以研究目的為基本前提進行構建.水資源功能區劃以實現水資源的可持續開發利用為目的,建設指標體系應充分考慮自然環境與人類活動的供需平衡關系.社會經濟現狀和用水需求規劃影響水資源的利用狀態,反映了區域水資源的需求水平.因此,水域基本屬性、區域自然情況、社會經濟現狀、用水需求規劃四個層面的指標考慮了水資源供、用、耗、需的循環過程,涵蓋了自然生態、社會經濟和人類活動的矛盾關系.
在具體的指標篩選中,根據層面指標結構,統計出現頻率較高的指標作為參考指標,結合專家咨詢和理論分析以及考慮數據的可收集性,建立了水資源功能區劃指標體系,如圖2所示.

圖2 水資源功能區劃指標體系Fig.2 Index system of functional regionalization of water resources
在水資源功能區劃的研究及應用中,本文收集了大量的數據進行分析,多維度、多特征的大樣本雖然為水資源區劃提供了豐富的信息,但一定程度上也增加了系統復雜度,且眾多特征之間存在相關性,即信息上的重疊.主成分分析[12-14]是將各特征之間相互關聯的復雜關系進行簡化處理的方法.在信息數據損失最少的原則下,將多個特征轉化為少數幾個能夠反映原先特征信息的綜合指標,且各個指標保持相互獨立,減少信息的重疊,即對高維空間進行降維處理.
1) 標準化處理.為了消除數據量級與量綱的影響,需要對數據進行標準化處理.假設原始數據Y有n個樣本,m個特征,即
其中,yij為第i個樣本的第j個特征值,將各特征值yij進行標準化處理,即
(1)

(2)
(3)
2) 計算相關系數矩陣R.計算標準化后數據矩陣各特征之間的相關系數矩陣,即
R=(rpq)m×m=
(4)

3) 計算特征值和特征向量.求解|λI-R|=0,其中I為單位矩陣,計算相關系數矩陣R的特征值λj(j=1,2,…,m),并按從大到小的順序進行排序.計算對應的特征向量μ1,μ2,…,μm,其中μj=(μ1j,μ2j,…,μnj)T,由特征向量組成m個新的指標,即
(5)

4) 計算特征值貢獻率.選擇一個主成分計算特征值的信息貢獻率bj和累計貢獻率al,其表達式分別為
(6)
(7)
當al接近于1(一般al≥0.85)時,選擇前1個指標S1,S2,…,Sl作為一個主成分,取代原先的m個特征.
K-means是一種典型的無監督聚類算法,主要用于將相似的樣本自動歸為一類,適用于水資源區劃場景[15-16].其中心思想是首先確定常數K,K表示最終的聚類類別數;然后隨機選定K個樣本點為質心,并計算每一個樣本與K個質心之間的相似度,將樣本歸到最相似質心所屬的類中.相似度采用歐式距離進行計算,其表達式為
(8)
式中,dist(x,c)為樣本x到質心c的歐式距離;xt與ct分別為樣本x和質心c的第t個主成分.所有樣本歸類后重新計算每個類的均值作為新的質心,重復以上過程直到滿足收斂要求,即質心不再改變或已達到規定的收斂次數,最終確定出每個樣本所屬的類別及每個類的質心.K-means算法流程圖如圖3所示.

圖3 K-means聚類算法流程圖Fig.3 Flow chart of K-means clustering algorithm
以大渡河流域為例進行一級水資源功能區劃.大渡河全長1 062 km,流域面積7.77萬km2,共有47個單元河段.按照水資源功能區劃體系收集水域基本屬性、區域自然情況、社會經濟現狀、用水需求規劃四個層面共13個指標數據.通過Python 3.8實現對各指標的主成分分析及K-means聚類分析.
為了消除數據量級與量綱的影響,按照式(1)對指標數據進行標準化處理,處理后的數據如表1所示.

表1 大渡河流域指標數據Tab.1 Index data of Dadu River Basin
通過式(2)~(7)計算得到主成分分析結果,如表2所示.根據各指標的特征值和累計方差貢獻率,前6個主成分的方差累計貢獻率已達到85.604 4%,且從第7個主成分開始特征值合計小于1,因此,選擇提取前6個主成分作為聚類的特征值.

表2 主成分分析結果Tab.2 Results of principal component analysis
各指標在6個主成分中的相關系數如表3所示.相關系數取值范圍為[-1,1],大于0表示正相關,小于0表示負相關,相關系數絕對值越接近1表示指標在主成分中影響度越大.因此,主成分1反映了水域基本屬性,受河流長度、流域面積、年徑流深等指標的影響;主成分2主要包括河口流量、年降水量、取用水量等指標;主成分3受人口密度、地形、需求用水量等指標的影響較大;主成分4反映社會經濟現狀,主要包括萬元GDP用水量、GDP增長率指標;主成分5反映用水需求關系,主要包括取用水量、需求用水量指標;主成分6反映區域自然情況,主要受地形、年降水量、年氣溫、蒸散量指標的影響.
一級水功能區劃包括:保護區、保留區、開發利用區、緩沖區4個類別,因此K=4.隨機選取4個單元河段樣本s1(0.512,-0.701,-0.452,-0.784,-0.873,-0.86),s2(0.592,-0.833,-0.461,0.910,0.360,-0.501),s3(0.321,-0.105,0.637,-0.092,0.598,-0.764),s4(0.839,-0.156,0.576,0.712,0.722,0.526)作為初始質心進行K-means聚類,聚類結果為:保護區{4,7,9,11,15,17,19,23,25,27,29,31,33,35,37,39,41,43,45};保留區{2,5,8,10,12,16,18,20,22,24,26,28,30,32,34,36,38,40,42,44,47};開發利用區{3,14,21,46};緩沖區{1,6,13}.與政府部門的區劃類型結果《水功能區劃分標準》(GB/T50594-2010)進行對比,結果如表4所示.47個河段單元有4個不同類別,分析原因是由于政府部門區劃時間為2010年,距離現在周期較長,河段單元的屬性和特征發生了變化.

表3 指標的主成分相關系數Tab.3 Principal component correlation coefficients of indexes

表4 大渡河流域區劃結果Tab.4 Regionalization results of Dadu River Basin

表4(續)Tab.4 (Continued)
水資源功能區的合理區劃是對水資源保護的有效支撐.本文通過對水資源功能區劃現狀進行研究,分析了目前功能區劃方法的不足,從而提出了優化布局方案.建立指標體系對水資源系統的特征進行描述,采用主成分分析方法在數據信息損失最小的情況下,將多指標高空間進行降維處理,提升系統的魯棒性.基于歐氏距離的K-means聚類算法實現水資源功能區劃,以大渡河流域為例進行實驗,以此驗證所提方法的可行性.后續將進行人工現場復核,對所提方法進行優化,從而進一步提升其科學性.