杜曼玲,高嘉欣,張禮兵,羅明清,陳云天,5,胡文波,6,田天,6
(1.中國電建集團國際工程有限公司,北京 100142;2.北京瑞萊智慧科技有限公司,北京 100084;3.中國電建集團昆明勘測設計研究院有限公司,云南 昆明 650051;4.中國電建集團海外投資有限公司,北京 100142;5.鵬城實驗室智慧能源工作室,廣東 深圳 518055;6.清華大學人工智能研究院,北京 100084)
目前我國擁有水庫大壩9.8萬余座,是世界上水庫大壩最多的國家,水壩在統籌防洪、發電、供水、灌溉等方面發揮了重要作用,是組成國民經濟的戰略性基礎設施之一[1]。目前水壩面臨著數量多、時間長、設備老舊、氣候變化、建設條件復雜等多重因素帶來的風險,其安全問題日益突出。如何準確、全面地進行大壩安全監測和預報,對大壩安全運行和輔助決策具有重要的意義[2]。
大壩工程正在步入數字大壩和智慧大壩階段,盡管現代網絡技術使得工程師能夠在大壩全生命周期內展開實時、在線、全天候的管理與分析[3- 4],但由于早期大壩建設中存在的信息化建設不系統、不全面、不統一以及老舊水壩的設施落后甚至缺乏現代監測設備等問題,使得大壩安全監測普遍面臨數據缺失和數據碎片化的挑戰[5]。基于傳統數學模型的數值擬合方法難以對殘缺的大壩安全數據進行有效的補全與預測。
隨著人工智能領域的快速發展,很多研究者開始采用這一方法解決大壩安全監測和預測問題。趙斌等人應用人工神經網絡進行大壩安全數據的預報[6],樊琨基于人工神經網絡方法建立非線性力學反分析模型解決巖土工程中的復雜非線性問題[7],蔣利娟基于線性回歸模型利用降水量預測水位數據[8],姜成科提出的GA-LMBP算法提高大壩安全監測人工神經網絡模型的擬合效果和預測精度[9]。本文采用廣泛應用于深度學習的高斯過程回歸(Gaussian Process Regression, GPR)[10]、LightGBM(Light Gradient Boosting Machine)[11]、長短期記憶神經風絡(Long Short-term Memory,LSTM)[12]等模型進行大壩監測參數的預測與補全,并與傳統方法做對比[13]。
機器學習方法所表現出的自組織性、自適應性、模糊推理能力和自學習能力等優勢非常適合解決大壩安全數據補全與預測這一復雜的非線性問題[14]。本文提出的大壩安全數據的時序預測與補全模型是針對采集的海量數據進行深度、有效分析的前提。基于本文提出的方法所獲得的高質量大壩安全數據有利于構建智慧大壩安全評估體系,是智能監控、智能診斷、智能決策的基礎,有助于切實提升大壩安全智能管理能力。同時,將專家知識與海量的大壩安全數據通過人工智能技術相結合,是對大壩不同維度物理量之間的深度融合,是實現可感知、可分析、可控制的智能化大壩建設有效途徑[15-18]。
高斯過程回歸(Gaussian Process Regression, GPR)模型是機器學習領域的一個經典模型。GPR以其良好的泛用性和可解釋性,在時間序列分析、自動化控制、圖像處理等諸多領域都有廣泛應用[19-20]。
由于傳感器故障或人工操作的失誤,水壩數據中往往存在個別缺失值,此外,由于工況和環境的復雜性,原始數據中還會存在一些隨機噪聲或粗差。這些不利因素都會影響大壩安全數據補全以及預測工作的正常開展。因此,大壩安全數據補全以及預測的第一步是對原始數據做插值和平滑處理等預處理。
1.2.1長短期記憶神經網絡
神經網絡能夠通過學習來近似擬合輸入和輸出變量之間的非線性函數關系。它的基本運算單位是神經元,神經元對輸出的影響由神經元之前的權重來表現,這個權重會隨著網絡的訓練不斷調整。在網絡中,每個神經元的輸出都通過非線性函數計算得到,而非線性函數的輸入是其他神經元輸出的代數和。
常規神經網絡由于只能構建單一的映射關系,對于時間序列問題的預測效果并不理想[21]。長短期記憶神經網絡(LSTM)不僅能夠利用當前的特征信息,還能夠利用先前計算產生的中間結果,實現了無效信息的遺忘和有效信息的加強。因此,LSTM是解決如位移、滲流等大壩安全數據序列問題的最自然且最合適的理想工具。
1.2.2LightGBM模型
決策樹是一種常見的機器學習模型,它代表的是對象屬性與對象值之間的一種映射關系[22]。決策樹,本質上是針對樣本的重要特征不斷做出判斷,根據每步的判斷結果尋找合適的路徑,最終得到合適的預測結果。決策樹模型具有多種實現方法。LightGBM(Light Gradient Boosting Machine)[11]模型是眾多方法中較為高效的之一,與其他方法相比,LightGBM具有更高的訓練效率、更低的內存使用、支持并行化學習等特征,這些優秀的特征使得它在實際生產中有比較廣泛的應用。
1.3.1經驗模型
在經驗模型中,通常都假設某一時刻的安全監測結果(如位移、滲流等)主要受水壓、溫度等環境量因素以及時效等因素影響,因此,安全監測結果由水壓分量、溫度分量和時效分量組成,即δ=δH+δT+δq。其中,δ表示位移;δH表示水壓分量;δT表示溫度分量;δq表示時效分量。從本質上來講,經驗模型就是一個以環境量和時效量為特征的多項式回歸模型。
1.3.2時間序列預測與補全
在大壩安全數據時間序列預測這個問題上,本文嘗試了不同的時間序列預測方法,包括前文提到的傳統方法、經典的時間序列模型自回歸滑動平均模型(Autoregressive moving average model, ARMA)[23],還有全連接神經網(Fully Connected Neuron Network,FCNN)、LSTM和LightGBM這三個機器學習模型。在三個機器學習模型中,本文用到的特征包括歷史的環境量數據(溫度,上下游水位,降水)和待預測安全數據的歷史數據,應用歷史數據的長度和具體問題有關,一般來說應用兩個月以內的歷史數據即可。
當大壩安全數據由于某些原因(比如傳感器長時間故障等)出現大范圍缺失的情況下,數據本身的規律變得難以挖掘,數據插補和時間序列預測的模型變得不再適用。為了針對大壩安全展開進一步的研究,必須對這些缺失數據有效補全。對于同一壩段,不同位置的相同類型數據可能有著相似的變化規律,我們可以根據壩段其他位置的信息,去補全壩段的當前位置數據。具體地,本文針對某個缺失數據較多的壩段,找出多個與目標壩段相近且數據較全的壩段,對它們的傳感器數據進行插補、平滑等預處理操作。然后,用這些臨近壩段的相對完整的數據訓練模型,以便模型可以建立起不同點位數據之間的映射關系。最后,將這一模型應用于目標壩段,基于目標壩段中完整的點位數據,補全目標壩段中殘缺點位的數據。其中,這個模型可以是簡單的線性模型,也可以是本文前面提到的神經網絡模型和LightGBM模型。
在數據預處理階段,主要應用高斯過程回歸(GPR)模型對數據進行平滑和插補,最終數據處理的效果如圖1a(處理前的原始數據)和圖1b(處理后

圖1 高斯過程回歸數據預處理結果
的數據)所示。平滑操作可以有效保留數據的趨勢特征,并消除隨機噪聲與粗差的不利影響,處理后曲線更反映大壩安全數據的變化趨勢。
在數據平滑的過程中,基于高斯過程回歸處理的結果的置信度分布如圖2所示。

圖2 平滑數據的置信區間
當數據變化趨勢較為穩定,預測結果的不確定性就比較小(陰影寬度降低),而當數據的趨勢發生變化時,數據的不確定性會有所增加。本文模型給出的結果和專家的主觀經驗吻合,符合物理機理。
對于時間序列預測問題,本文對比分析了多種模型,包括經驗模型和神經網絡模型(FCNN與LSTM)。本文以某水電大壩位移數據為例測試。使用MSE(Mean Square Error,均方誤差,指的是參數估計值與參數真值之差平方的期望值)值描述預測值和真實值的差距,MSE越小意味著預測精度越高;同時以R2 score (R方值,決定系數,反映的是因變量的全部變異能通過回歸關系被自變量解釋的比例)描述預測數據的變化趨勢和真實數據變化趨勢的相似性,它越接近1則模型預測精度越高。根據實驗結果,經驗模型難以在所有壩段均取得良好的效果。而基于深度學習的FCNN模型和LSTM模型在每個壩段上都取得了明顯優于經驗模型的良好效果,具有較好的預測穩定性。
本文對不同模型所取得的時長一年預測結果繪圖展示,如圖3所示。縱坐標代表位移數據。實線曲線表示真實值,實線帶三角標識的曲線是預測值。對比圖3可知,經驗模型能夠在一定程度上擬合數據的變化趨勢,但是在預測時間點與已知時間點距離較遠時精度較差。即隨著時間推移,經驗模型存在誤差累積的問題。然而對于深度學習模型而言,預測結果不但很好反映了真實值的變化趨勢,而且在具體數值上也預測準確,具有較好的預測效果。
對于時間序列補全問題,本文也分析了傳統經驗模型、ARMAX(基于ARMA的拓展模型,加入了其他通道的數據)、神經網絡(FCNN和LSTM)以及LightGBM模型的效果,實驗結果如表1所示。實驗使用了過去6年半的歷史數據,其中,訓練數據為2011年6月到2013年12月間近2年半的數據,需要補全的數據為2014年1月到2018年9月近4年的數據。其中所有數據都已經經過歸一化處理。與之前的評價標準相同,在表1中,“/”左側的數值代表的是MSE,“/”右側的數值代表的是R2 score。

圖3 不同模型時序預測結果

表1 某水電站多壩段位移時間序列補全結果
由表1可知,對于補全大范圍缺失數據,經驗模型并不可靠,在某些壩段上的預測出現了較大的偏差,如A19.X,A25.X。所以經驗模型對于這種大范圍的時間序列補全問題幾乎是不可用的。ARMAX作為經典的時間序列模型,可以綜合分析其他通道的數據來對待補全通道數據進行估計,在很多問題上都已經證明了它的性能。但是由于缺失數據的時間段過長,ARMAX模型給出的結果也較差。針對同一問題,以FCNN和LSTM為代表的神經網絡模型取得了可以接受的效果,但是結果不如LightGBM穩定。因此,針對大范圍數據補全的問題,目前效果最好且精度最高的模型是基于決策樹構建的LightGBM模型,其補全效果如圖4所示。圖中前半部分是已知的訓練數據,后半部分橘色線代表的是真實值,藍色帶三角標識的曲線代表的是預測值。實驗表明,LightGBM模型可以比較準確地預測后4年數據的變化趨勢。

圖4 LightGBM模型實驗結果
本文采用了以神經網絡和決策樹為主的機器學習模型來解決水電工程中的大壩安全數據時間序列預測和時間序列補全問題,有利于提升大壩檢測數據的質量與完整性,進而促進構建智慧大壩安全評估體系。為了驗證模型的有效性,本文根據某水電站的真實數據進行了實驗,對比分析了傳統經驗模型、ARMA模型、與基于機器學習的FCNN模型、LSTM模型和LightGBM模型。根據實驗結果可以得出以下結論:
(1)通過FCNN和LSTM模型對大壩安全數據(位移、滲流等)進行短期的預測是可行的。FCNN和LSTM屬于神經網絡模型,具有較強的表達能力,可以高效學習并擬合不同類型物理量之間的映射關系。因此該模型可以基于易于獲得的環境量特征(溫度,上下游水位,降水)和待測安全數據本身的歷史數據,對未來短期的物理量進行預測,生成可靠的結果。這一方法有助于降低運維成本并提升監測質量。
(2)通過LightGBM模型對大壩安全數據進行長期的時間序列補全是可行的。模型基于學習到的物理量之間的映射關系,結合其他壩段的相同數據作為基礎,對長期的缺失數據進行補全。根據本文的實驗結果,通過結合高斯過程和LightGBM模型可以取得相對較好的補全結果。
(3)通過本文的實驗可知,對于大壩安全數據補全與預測這一傳統的問題,采用機器學習模型可以對一些由實際工程出發得出來的經驗公式進行補充和完善,獲得更好的預測效果。機器學習和專家經驗的結合有利于提升模型的效果,對于構建智慧大壩安全評估體系極為重要。