張少杰,游 洋
(1.南京市長江河道管理處,江蘇 南京 210011;2.江蘇省水利廳,江蘇 南京 210029)
?
基于主成分回歸分析的需水預測研究
張少杰1,游洋2
(1.南京市長江河道管理處,江蘇南京210011;2.江蘇省水利廳,江蘇南京210029)
摘 要:水資源是城市發展的動力,需水量準確預測對城市可持續發展具有重要意義。需水量受多重因素影響,單一使用多重線性回歸難以保證預測的準確性和科學性。根據南京市2005—2014年7個經濟、社會發展相關指標,利用主成分回歸分析建立模型使用原始變量對用水量進行預測。結果表明,應用主成分回歸模型進行需水預測,比多重線性回歸模型精度高,也較好地擬合了實際用水量。
關鍵詞:水資源;需水預測;主成分;回歸;南京
水是維持經濟社會發展不可或缺的基礎性、戰略性資源,日常生產、生活的方方面面都離不開水資源。需水預測是水資源合理配置、科學利用的重要內容之一,也是可持續發展、經濟結構調整的重要部分[1]。需水預測方法中較為簡便的有定額法、多元回歸分析法等。但由于水資源需求量與人口數量、經濟發展程度、居民用水水平等諸多因素有關,單一一種方法難以保證預測的準確性和科學性[2]。主成分分析和多元回歸分析相結合的方法,可有效
主成分回歸分析是先通過主成分分析提取主要影響因素,用較少的綜合指標,通過多元回歸分析,較全面地反映影響因素,并將標化方程轉換為一般方程,對水資源需求量進行預測。
2.1主成分回歸
主成分分析法的本質是利用降維的思想,通過數學變換,用盡量少的變量最大化保留原有變量信息,其原理是:若有n個原始變量為xi,進行數據標準化、KMO及Bartlett檢驗確定是否適用主成分分析后,通過計算關系數矩陣的特征值、特征向量、方差貢獻率、累計貢獻率確定主成分及個數m(m<n)[3],則:

式中:fm分別為原始變量的第m個主成分;lmn為其對應系數。
按累計方差百分比選擇主成分,并以標準化后的ZY為因變量、主成分 fi作為自變量進行回歸分析,并按式(1)得出標化因變量ZY與標化自變量ZX的回歸模型:

式中:b'i為標化回歸方程的第i個標化偏回歸系數。
將標化方程通過式(3)、(4)化為一般回歸方程:

式中:b0為常數項;bi為一般回歸方程的第i個偏回歸系數;Lxixi為Xi的離均差平方和;Lyy為Y的離均差平方和。
2.2精度控制與檢驗
對擬合精度控制與檢驗主要有多重共線性診斷、擬合誤差和偏回歸系數的檢驗[4]。多重共線性診斷常用方差膨脹因子VIF,一般VIF>10表示存在多重共線性。擬合誤差用確定系數R2度量,其表達式為:

偏回歸系數用統計量t檢驗,其表達式為:

式中:sbi為bi的標準誤差。t檢驗是對偏回歸系數是否等于0進行的統計學檢驗。
3.1研究區概況及水資源特點
筆者以南京市為例,采用主成分回歸對需水量進行預測。南京市地處長江下游、江蘇省西南部,屬于北亞熱帶季風氣候,轄區內有長江、水陽江、固城湖、石臼湖、滁河、秦淮河,多年平均氣溫15.4℃,多年平均年降水量1 082.3 mm,多年平均水資源量30.22億m3,其中地表水資源量24.16億m3,地表水資源主要來源于降水,6、7、8月降水產生地表水資源量占全年的50%以上。本地多年平均水資源量30.22億m3,用水總量紅線45億m3,過境水量近9 000億m3,主要來自長江、水陽江和滁河,其中長江過境水資源量占到99%以上。全市用水總量的96%以上來自長江。
3.2影響因子分析
遵循可靠性、科學性、代表性、全面性等原則,從2005—2014年《南京市統計年鑒》及2005—2014年《南京市水資源公報》選取2005—2014年人口X1、GDPX2、工業總產值X3、有效灌溉面積X4、萬元GDP用水量X5、固定資產投資X6、農業產值X7、供水生產能力X88個評價指標,預測實際用水總量Y。評價指標中基本涵蓋農業、工業、生活等多個方面用水因素。
3.3共線性診斷
對各項指標組成的矩陣進行多重共線性診斷,各因素的方差膨脹因子VIF見表1。因此,可得出X1,X2,X3,X4,X5,X6,X7均存在良好的共線性,而X8共線性較小,為確保結果的準確性,將其予以排除。

表1 各變量方差膨脹因子VIF
3.4KMO及Bartlett球形檢驗
對X1—X7的數據進行標準化,標準化后的數據見表2。KMO是檢驗偏相關系數的指標,取值在0~1,越接近1越適宜進行主成分分析。對標準化后的數據進行KMO檢驗和Bartlett球形檢驗,以確定是否適宜進行主成分分析。

表2 南京市2005—2014年用水量及影響因子標準化矩陣
對上述標準化數據進行檢驗,得出其KMO值為0.775。此外,Bartlett球形檢驗得出的相伴概率為0.000,遠小于顯著性水平0.05,這說明變量之間相關性良好,適宜進行主成分分析。
3.5主成分因子確定
對標準化后的數據進行主成分分析,得出特征值、主成分貢獻率和累計貢獻率,見表3。主成分分析的結果顯示:前4項主成分的方差累計貢獻率已經大于99.9%,用這4個主成分可以最大限度包含原來7個影響因子。相應主成分載荷矩陣,見表4。

表3 特征值、主成分貢獻率及累計貢獻率

表4 主成分載荷矩陣
結合得出的4個主成分與各因子之間的關系式如下:

3.6主成分回歸分析預測
按照上述4個公式,分別算出2005—2014的f1—f4的值,與標準化后的因變量ZY進行多重線性回歸分析,再變換成原自變量與原因變量之間的關系,其主成分回歸系數見表5。

表5 主成分回歸系數
根據式(3)、(4),將標準化后的主成分方程變換為原始變量回歸模型(R2=0.978)為:

表6 多重線性回歸系數

常數X1X2X3X4X5X6X7系數B 1 265.887 ---1.095 ---0.024 ---0.010 ---2.199 ---0.212 ---0.008 ---0.207標準誤差423.655 --0.366 --0.005 --0.002 --0.934 --0.111 --0.003 --0.078 t -2.988 -2.991 -5.123 -3.984 -2.354 -1.906 -2.516 -2.661顯著水平0.096 0.096 0.036 0.058 0.143 0.197 0.128 0.117
從表5—6可見,利用主成分回歸建立的需水量預測方程各系數均通過了t檢驗,R2、顯著水平均滿足精度相關要求,并且在R2、t檢驗及顯著水平方面均優于多重線性回歸方程。為了更直觀表示需水預測情況,現將2種方法預測結果與實際用水情況進行對比,如圖1所示。從圖1可以看到,主成分分析預測精度比多重線性回歸精度高,也更接近實際用水量情況。

圖1 模型預測結果與實際用水量對比
需水量預測是進行水資源規劃和管理的有效手段,與經濟、社會等各項因素密切相關[5],運用最小二乘法進行多重線性回歸,不能有效消除各因素之間的相關性,而采用多重共線性診斷和主成分分析,并將標準化方程轉換為一般方程,使結果更加可靠和具有可操作性。筆者通過主成分回歸確定需水總量的影響因素,與用水量進行回歸分析,建立主成分與用水量的主成分回歸方程。結果顯示,R2、t、顯著水平也均表明方程擬合的精度較高,通過與多重線性回歸方程進行比較,主成分回歸方程的預測值與實際值誤差較小。因此,采用主成分回歸預測城市需水量,可以為水資源科學管理、優化配置提供可靠依據。
參考文獻
[1]劉衛林.幾種需水量預測模型的比較研究[J].人民長江,2011,42(13):19-22.
[2]王春娟,馮利華,羅偉,等.主成分回歸在需水預測中的應用[J].水資源與水工程學報,2014,24(1):50-53.
[3]李哲強,侯美英,白云鵬.基于SPSS的主成分分析在水環境質量評價中的應用[J].海河水利,2008(3):49-52.
[4]楊崇豪,張川云,吳文學.鄭州市未來15年城市需水量預測研究[J].人民黃河,2006,28(11):30-32.
[5]王鶴鳴,李明良,王玉民.基于水資源可持續利用的區域需水預測分析[J].海河水利.2007(3):9-11.
中圖分類號:TV214
文獻標識碼:A
文章編號:1004-7328(2016)03-0043-04
DOI:10.3969/j.issn.1004-7328.2016.03.015
收稿日期:2016—02—20
作者簡介:張少杰(1983—),男,碩士,工程師,主要從事水資源節約、保護工作。解決這個問題,使預測的實用性、合理性都得到提高。
Research on the Water Demand Prediction based on Principal Component Regression
ZHANG Shao-jie1,YOU Yang2
(1.Yangtze River Waterway Management Department of Nanjing,Nanjing 210011,China;2.Jiangsu Provincial Water Resources Department,Nanjing 210029,China)
Abstract:Water resources are the driving force of urban development.Accurate predictiong of water demand is very impor?tant for urban sustainable development.Water demand is influenced by multiple factors,and the accuracy and the scientific using multiple linear regression is difficult to ensure the prediction.According to 7 factors of Nanjing 2005-2014,the mod?el was created to predict the water consumption by principal component regression analysis.The results show that the princi?pal component regression model is more accurate than the multiple linear regression model,and the principal component re?gression model is more fit the actual water consumption.
Key words:water resources;water demand prediction;principal component;regression analysis;Nanjing