汪學琴,岳建平,邱山鳴,岳 順
(1.水能資源利用關鍵技術湖南省重點實驗室,湖南 長沙 410014;2.河海大學地 球科學與工程學院,江蘇 南京 210098)
基于長度修正的預測算法優化
汪學琴1,2,岳建平2,邱山鳴1,岳 順1,2
(1.水能資源利用關鍵技術湖南省重點實驗室,湖南 長沙 410014;2.河海大學地 球科學與工程學院,江蘇 南京 210098)

當自變量之間存在多重相關性時,若利用最小二乘法建立預測模型,參數估計會存在誤差。若應用偏最小二乘回歸算法建立預測模型,可以克服自變量之間多重相關性問題,計算結果更為可靠。長度修正的偏最小二乘回歸算法從預測的角度對偏最小二乘模型進行了改進。以芹山水電站的水平位移預測為例,驗證了長度修正的偏最小二乘回歸法比普通偏最小二乘回歸法在預測方面效果更好。
偏最小二乘;長度修正的偏最小二乘;大壩水平位移;預測模型
為解決最小二乘法的多重相關性問題,提出了偏最小二乘法(partial least squares, PLS)。偏最小二乘回歸綜合了多元線性回歸、典型相關分析和主成分分析[1],回歸分析的精度高于傳統的回歸分析、主成分回歸。為獲得更高的長期預測精度,對PLS進行優化,提出了長度修正的偏最小二乘回歸法(length modified partial least squares, LMPLS)[2]。將LMPLS應用于大壩位移的預測,與傳統偏最小二乘回歸法的預測模型進行對比,討論其在預測方面的可行性與優越性。
1.1 概述
統計模型為大壩安全監控模型的主要建模方法之一,要求包含對效應量有重要解釋意義的所有因子,且因子間不存在多重相關性[3]。大壩位移資料分析時引入“平均因子”的概念,將造成多重相關性。如果仍然采用多元線性回歸分析方法建立統計模型,則模型的精確性、可靠性不能得到保證[4]。

則模型的預測偏差均方和為:

當自變量X間完全相關時,矩陣(XTX)不可逆。無法由公式(2)計算回歸系數。當自變量X因子間高度相關時,|XTX|的值接近零,求(XTX)的逆矩陣時存在嚴重的舍入誤差。舍入誤差將影響回歸系數的求解,增加抽樣的變異性。即使樣本總體不變,不同樣本的選取也會造成系數估計值差異,導致統計模型異常,表現出最小二乘回歸法在穩定性上的缺陷。偏最小二乘法能較好地解決多重相關問題,有效提高模型穩定性。而長度修正的偏最小二乘回歸從理論出發,對模型近一步改進,提高預測精度。
1.2 偏最小二乘回歸分析
觀測n個樣本點,構成數據表X=(x1,x2,…,xp)n×p和Y=(y1,y2,…,yp)n×q,用統計分析的方式,研究因變量與自變量的關系。根據偏最小二乘回歸理論,在X與Y中提取成分t1和u1(t1為x1,x2,…,xp的線性組合,u1為y1,y2,…,yp的線性組合)[5]。提取t1和u1時,需滿足:①t1和u1盡可能多地攜帶它們各自數據表中的變異信息;②t1和u1的相關程度達到最大。
上述2個要求表明,t1和u1應盡可能好地表達數據表X和Y,且X=(x1,x2,…,xp)n×p的成分t1對Y=(y1,y2,…,yp)n×q的成分u1亦有較強解釋能力。
對X進行標準化處理,得到的矩陣記為E0=(E01,E02,…,E0p)n×p;對Y進行標準化處理后,得到的矩陣記為F0=(F01,F02,…,F0q)n×q。記t1是E0的第1個成分,u1是F0的第1個成分。提取完t1和u1后,再進行X對t1的回歸、Y對u1的回歸。
偏最小二乘回歸的要求可表示為:


其中, w1為矩陣最大特征值對應的單位特征向量;c1為矩陣最大特征值對應的單位特征向量。
若精度達到要求,則算法終止;否則,利用X被t1解釋后的殘余信息、Y被t1解釋后的殘余信息進行第2輪提取。循環執行直到精度滿足要求為止。設X共提取了m個成分t1,t2,…,tm,根據偏最小二乘回歸理論進行yk(k=1,2,…,q)對t1,t2,…,tm的回歸,再還原成關于x1,x2,…,xp的回歸方程。
如果X的秩是A,則:

其中,t1,t2,…,tA均可表示成E01,E02,…,E0p的線性組合;再還原成關于的回歸方程式,即

其中,FAk是殘差矩陣FA的第k列。
在偏最小二乘回歸方程中,并非一定需要選用全部的成分t1,t2,…,tA建模,可考察增加新成分后模型的預測功能有無明顯改進后再判斷。設SSS,h-1為全部樣本點擬合所得具有(h-1)個成分的擬合誤差,SSS,h為增加成分th后的擬合誤差。若h個成分的回歸方程擬合誤差在一定程度上小于(h-1)個成分的擬合誤差,則判定增加成分th后,預測精度明顯提高。對每個因變量yk,定義為:

對于全部因變量Y,成分th的交叉有效性定義為:

交叉有效性可作為衡量成分th邊際貢獻的指標:①當≥(1-0.95)2=0.097 5 時,th的邊際貢獻是明顯的;②對于k=1,2,…,q,至少有1個k,使得≥0.097 5。若增加成分th,至少使1個因變量yk的預測模型得到顯著的改善,則認為增加成分th是明顯有益的。
1.3 基于長度修正的優化算法
設由偏最小二乘回歸法得到的估計參數為βPLS,對偏最小二乘回歸進行改進(LMPLS),相應的的估計參數可表示為:

其中,

AlDRIN M證明了E(Y-XβPLS)2≥E(Y-XβLMPLS)2,即從預測角度分析,LMPLS精度優于PLS[6]。
2.1 工程概況
以穆陽溪梯級中的芹山水電站為例,該水電站位于福建周寧縣灑橋鄉芹山村附近,距周寧縣城關32 km,于1999年底建成發電。壩址以上控制流域面積
453 km2,水庫正常蓄水位755.0 m,總庫容2.65億 m3,為多年調節水庫。水電站裝機70 MW,大壩為混凝土面板堆石壩,最大壩高120 m,壩頂長260 m。本次應用實例選取大壩左側觀測點從2009-01-19~2010-12-21的35期數據建立回歸模型,樣本容量較小,且選擇的因子之間存在一定的多重相關性,采用傳統的最小二乘法建立回歸模型不能保證模型的精確性和可靠性。本文用偏最小二乘回歸原理,對測點的水平位移進行建模分析,利用前20期變形數據為樣本確定模型參數,對后15期變形數據進行預報與分析。
2.2 水平位移模型的建立
大壩壩頂產生水平位移的作用分量很多,其中主要為水位、溫度、時效分量,可表達為:

式中,yH為水位分量;yT為溫度分量,yθ為時效分量。
本文以該大壩一壩段為例,建立統計模型為[7]:

式中,H為水深;ai為水位分量回歸系數;t為觀測日至觀測基準日的累計天數;t0為建模資料系列第一個測值日至觀測基準日的累計天數;b1i、b2i為溫度分量回歸系數;θ為觀測日至觀測基準日的累計天數除以100;θ0為建模資料系列的第一個測值日至觀測基準日的累計天數除以100,c1、c2為時效因子回歸系數。
該模型共選用9項作用分量因子。其中,水壓因子3項,溫度因子4項,時效因子2項。將式(14)簡寫成:

2.3 預測模型分析
依據交叉有效性原則確定成分數h,進而確定回歸模型。

表1 對y的交叉有效性判別
根據偏最小二乘理論和20期觀測值可得偏最小二乘法回歸系數、長度修正的偏最小二乘法回歸系數。由2組回歸系數所構方程和實測15期數據,可得大壩水平位移值的偏最小二乘預測值、長度修正的偏最小二乘預測值以及各自的預測偏差。預測結果對比見表2。

表2 預測結果對比表∕mm
由實測位移與預測位移對比圖(見圖1)可知,長度修正的偏最小二乘法與偏最小二乘法擬合效果相當。在預測初期,兩種方法效果相差不大,均較為理想。但偏最小二乘法在預測8期數據后出現發散,預測精度明顯下降。而長度修正的偏最小二乘法預測效果穩定,在長期預測中表現更優。
為具體評價偏最小二乘回歸模型和長度修正的偏最小二乘回歸模型在預測方面的優劣,繪制預測誤差圖(見圖2)。由圖2可看出,長度修正的偏最小二乘法預測精度明顯優于未優化的偏最小二乘法。
分別計算兩種模型的預測均方誤差,得偏最小二乘回歸模型的預測均方誤差為[8]:S1= 4.60 mm。
長度修正的偏最小二乘回歸模型的預測均方誤差為:S2= 1.53 mm。

圖1 實測位移與預測位移對比圖

圖2 PLS與LMPLS預測誤差圖
大壩位移受到水位、溫度、時效等因子的影響,這些因素之間存在多重相關性。用常規最小二乘回歸法建模存在理論缺陷與誤差。偏最小二乘回歸法綜合了多元線性回歸、主成分分析和典型相關分析,克服了自變量間多重相關性對建模的影響,使得模型更可靠。但偏最小二乘法沒有考慮非線性特性,故預測精度稍差。本文提出的基于長度修正的偏最小二乘優化法提高了預測模型的精度,并由實例證明該方法在長期預測中表現更優。
[1] 王惠文. 偏最小二乘回歸方法及其應用[M]. 北京:國防工業出版社,1999
[2] 李紅祥,岳東杰. 偏最小二乘回歸在大壩位移監控中的應用[J].水電自動化與大壩監測,2010,34(2):42-44
[3] 吳道聞,韓大建. 因子相關性對大壩監測資料回歸分析的影響[J].大壩觀測與土工測試,1996,20(3):23-25
[4] 徐洪鐘,吳中如. 偏最小二乘回歸在大壩安全監控中的應用[J].大壩觀測與土工測試,2001, 25(6):22-27
[5] 王惠文,吳載斌,孟潔. 偏最小二乘回歸的線性與非線性方法[M].北京:國防工業出版社,2006
[6] AlDRIN M. Length Modified RidgeRegression[J]. Computation Statistics & Data Analysis,1997, 25(4): 377-398
[7] 何政翔.模糊聚類和偏最小二乘法在大壩監測數據分析中的應用[D].西安:西北農林科技大學,2014
[8] 許鳳華,李述山. 基于改進的偏最小二乘回歸的酸雨pH值預測[J].山東科技大學學報(自然科學版),2006,25(3):110-112
P258
B
1672-4623(2016)10-0085-03
10.3969/j.issn.1672-4623.2016.10.026
汪學琴,碩士研究生,主要從事大地測量與測量工程方面的研究工作。
2015-11-02。
項目來源:國家自然科學基金資助項目(41174002);水能資源利用關鍵技術湖南省重點實驗室開放研究基金資助項目(PKLHD201311);河海大學中央高校基本科研業務費資助項目(2013/B14020383)。