周子玉,李艷玲,朱斯楊,李詩婉
(1.四川大學水力學與山區河流開發保護國家重點實驗室 水利水電學院,四川 成都 610065;2.四川省遂寧市水利局,四川 遂寧 629000)
大壩安全監測是保障大壩安全運行的重要措施[1],隨著互聯網、大數據等技術的發展,大壩監測邁向自動化與智能化,產生了大量的監測數據[2- 3]。利用原觀數據構建合理的監測模型對于準確掌握大壩安全性態具有重大意義[4- 5]。
傳統統計回歸由于原理簡單、計算便捷且能反應環境量對監測效應量的影響而在大壩監測數據分析中應用最為廣泛。其中逐步回歸能剔除不顯著的環境量因子、偏最小二乘回歸(PLS)能解決變量中高度相關的問題[6- 7]。王佳林[8]等結合偏最小二乘回歸和遺傳算法對回歸系數的選取進行了優化,李麒[9]等通過SWT小波去噪后再采用SVR構建變形預測模型,均提升了模型的精度;Belmokre[10]等和Chen[11]等采用機器學習方法改進統計回歸模型,消除了傳統統計回歸模型多重共線性帶來的預測誤差。
受施工、荷載等外界環境變化,人為或監測設備短期測值異常等因素影響,大壩安全監測數據中不可避免會出現單點離群、多點離群、臺階型等數據序列[12- 13]。以上對于周期型、直線型數據擬合較好,但是對于異常波動型、臺階型等含大量離群點的數據適用性低,且上述方法因不能準確進行變量篩選,導致模型解釋性很差。為此,本文針對逐步回歸、偏最小二乘回歸在大壩統計回歸中存在的主要問題,分析了其產生的原因,構建了基于稀疏偏最小二乘的大壩監測數據模型,將其運用于周期型、直線型、異常波動型、異常臺階型等多種原觀監測數據序列中,并將結果與傳統方法對比,分析其模型的擬合精度、預測精度與模型解釋性能的改善情況,論證該模型的合理性與有效性。

(1)
(2)
F0=t1r1+F1
(3)
判斷模型是否到達滿意的精度,如果沒有則繼續提取主成分。假設提取k個主成分后的回歸方程(4)。
(4)
稀疏偏最小二乘法(SPLS,Sparse Partial Least Square)是在偏最小二乘法的基礎上,通過在求解方向向量過程中施加懲罰來產生稀疏的估計結果,從而放大重要變量的回歸系數,壓縮無關變量的回歸系數甚至移除變量,達到變量篩選的目的[14]。
SPLS模型的核心在于方向向量的求解,下面重點介紹方向向量的求解方法。首先引入SPLS中第一個方向向量,第一個主成分的稀疏化方向向量可以在方向向量w1上施加L1-懲罰(lasso懲罰)獲得,即給式(1)增加一個權重,即:
(5)

(6)
式中,c1—w1的替代向量,兩者高度相關;λ1和λ2—加權懲罰因子;κ—一個用來控制問題凹凸性的參數,可通過c1和w1進行求解。當κ=1時即可等價為PLS中初始最大特征值的求解。
針對于SIMPLS或NIPALS迭代算法結合史密斯正交化方法存在造成向量不收斂,得到的結果不準確的問題。本模型采取Hyonho Chun和Sunduz Kele[16]提出新的算法,通過記錄NIPALS或SIMPLS算法的每一步來尋找活躍變量,使方向向量得到不斷更新[17],從而進行求解。SPLS算法的步驟如下:
設A為活躍變量的指標集,K為方向向量的個數,令XA為監測環境量X的子矩陣,XA其列指標都包含在A中。
Step1:環境量X和效應量Y經過標準化。
Step3:若k?K,則






稀疏偏最小二乘回歸有4個參數(κ,λ1,λ2,K),為了讓結果收斂,約束條件λ2需要足夠大,即λ2→∞,κ取值范圍為κ∈[0,0.5],對結果不起決定作用。因此這4個參數中只有閥值參數λ1和成分個數K是關鍵參數,可以使用交叉有效性判別來確定λ1和K的最優值,這里不作過多的介紹。
這樣在提取主成分時,對方向向量施加懲罰,可以使不相關變量的回歸系數被懲罰為零,達到變量篩選的目的。
以大壩監測數據中較為典型的測點TP10X(周期型)、P43(直線型)、P37(異常波動型)、TP32(異常臺階型)為例。經計算,對周期規律型、直線型等數據序列,本文提出的模型較逐步回歸及PLS回歸模型的擬合精度略有提升;對含有異常波動、臺階等異常測值的數據序列則提升明顯,見表1,如圖1所示。分析其原因在于異常測值影響到原始數據序列的變化規律,逐步回歸、PLS模型不能正常提取解釋能力最強的綜合變量所致;而SPLS模型能夠在方向向量求解過程中施加懲罰函數,將無關變量壓縮至零,修正異常數據集合的估計結果,從而減小數據異常波動或飄逸的影響。

表1 各模型擬合精度對比表

圖1 逐步回歸、PLS、SPLS模型擬合效果對比圖
以某土石壩壩頂水平位移測點TP36為例,SPLS模型預測精度略優于偏最小二乘回歸模型,較逐步回歸模型預測精度提升明顯,見表2,如圖2所示。分析其原因在于逐步回歸中變量之間共線性增加會使回歸系數估計方差迅速增大,導致無法正常進行變量篩選,模型中因保留很多相關密切的變量而產生過擬合現象,從而導致出現模型擬合精度高,但是泛化性能差,預測精度低的情況;而PLS回歸能助信息分解和篩選提取出解釋性最強的綜合變量,剔除多重相關信息的干擾,消除了變量間多重共線性影響,使模型不再出現過擬合現象,從而提高模型預測精度;SPLS模型是以PLS為基礎,并對其變量進行稀疏化處理,更能有效消除變量間多重共線性影響,提高模型的泛化能力,避免產生過擬合現象,擬合精度得到進一步提升。

表2 各模型相同測點預測精度對比表

圖2 某壩壩頂水平位移測點TP36 三種模型擬合效果和預測效果圖
以某土石壩高程2138.00m壩頂軸線水平位移測點TP28—TP36為例,通過逐步回歸、PLS回歸、SPLS回歸模型進行環境效應量對比分析。其測點實測過程線如圖3所示,環境效應量占比如圖4所示。
逐步回歸模型中,環境量影響因子差異較大,多數測點主要受時效影響。壩頂右岸測點TP36時效分量占比接近70%,而相鄰測點TP35模型中卻不含時效因子;就河床壩段測點TP30—TP34溫度

圖3 某土石壩壩頂水平位移測點TP28-TP36實測過程線

圖4 某土石壩壩頂水平位移測點TP28-TP36 三種模型各樣本環境效應量占比圖
分量占比而言,占比分別為12%、12%、29%、10%、10%,其中TP32測點溫度占比為相鄰測點的3倍,均與土石壩水平位移變化規律不吻合。其原因在于變量之間的高度相關性會影響回歸參數的顯著性檢驗,可能將重要變量誤刪除,同時在變量高度相關的條件下,樣本數據的微小變化對回歸系數的估計值影響很大,因此同類測點的數據雖然變化規律類似,但得到的模型結果可能并不相似。
PLS回歸模型消除了變量間多重共線性影響,但該模型不能進行變量篩選,模型中含有所有自變量,大量的無關變量使得模型解釋性很差。各測點溫度占比均在40%左右,效應量占比整體表現為土石壩主要受溫度影響,時效次之,水壓影響最小。然而對于土石壩而言,壩體變形主要受溫度影響則不符合工程實際情況。
SPLS模型為PLS的改進,不僅能有效消除變量間多重共線性影響,而且由于該模型在提取方向向量時加入懲罰函數,能剔除無關變量,并擴大重要變量的回歸系數,壓縮影響程度較小但仍具有一定相關性的變量的回歸系數,使得同類測點的模型穩定性和整體性很好。各測點水平位移主要受水位和時效影響,占比分別為55%、40%左右;時效占比均在5%以內,符合實際情況,其模型解釋性較逐步回歸及PLS模型顯著提升。
(1)常用的逐步回歸模型能進行變量篩選但抗噪能力弱,易受到變量間多重共線性的影響,出現模型穩定性、解釋性差,擬合精度高但預測精度低等問題。偏最小二乘回歸模型解決了變量間多重共線性的影響,但仍存在抗干擾能力弱,不能進行變量篩選和解釋性差等問題。
(2)稀疏偏最小二乘回歸模型以偏最小二乘的基礎,在方向向量的求解過程中施加懲罰函數產生稀疏估計,壓縮無關變量,放大重要變量,因此可以消除變量間多重共線性,并且能夠進行變量篩選。
(3)工程應用及對比分析表明,稀疏偏最小二乘回歸模型對周期型、直線型、異常波動、異常臺階型等多種實測監測序列的適用性均較好,模型擬合、預測精度均有所提升,并且能夠更加準確地挖掘監測環境量與效應量之間的潛在相關性,從而提高了模型的解釋性,為大壩安全監測分析提供了一種新方式。