王薪凱 于忠清



摘要:為優化泵站的工作方式,降低能耗,建立一種基于長短期記憶網絡(Long Short-Term Memory,LSTM)的神經網絡模型來對泵站的能耗進預測,優化學習率、時間步長、批處理、隱含層層數、訓練次數等參數。將LSTM網絡模型的預測結果與BP模型、RNN模型進行對比,研究結果表明,基于LSTM神經網絡模型的預測具有較高的精度和泛化能力。
關鍵詞:LSTM網絡模型;能耗;預測;優化
中圖分類號:TV675???????? 文獻標志碼:A
隨著中國工業化和城市化進程的不斷推進,對水資源的需求量日益增長,由于污水量的增加,使污水處理面臨著巨大的挑戰[1]。一方面,中國水資源利用率低,基礎設施不完善,相比于發達國家,污水處理工藝相對落后,另一方面,污水處理屬于高能耗行業,包括電能消耗、化學藥劑的使用及燃料的消耗,其中電耗占污水處理綜合能耗的比重較高,在降低污水處理能耗中有著舉足輕重的作用[2]。過多的電能消耗造成運營成本的增加和資源的浪費,不利于企業的發展和中國工業化進程的推進,也不利于中國所倡導的可持續發展[3]。由于能耗數據具有時間序列的特性,目前BP(Back Propagation)神經網絡[4]、支持向量機(SVM)[5]、多元線性回歸模型[6]等傳統的人工智能算法在進行預測時沒有考慮到延遲和滯后效應,無法解決長期依賴問題,具有局限性。隨著深度學習的不斷發展,LSTM模型憑借其優勢逐漸興起,該模型能更加充分提取數據中的重要信息,發現數據之間的關系和規律,能有效地處理非線性和非平穩序列數據,具有良好的泛化能力,LSTM模型在建筑能耗預測[7],空調系統能耗預測[8],航空公司能耗預測[9]中應用廣泛。相比于其他模型,在處理具有時間序列屬性的數據方面,LSTM模型表現出較高的預測精度和性能,但LSTM模型在泵站能耗領域的應用并不多見。本文針對污水處理中泵站的能耗預測問題,提出一種基于LSTM神經網絡模型的預測方法,對學習率、時間步長、批處理、隱含層層數、訓練次數這些參數進行優化,通過與BP神經網絡模型、RNN網絡模型的預測結果進行對比,利用均方誤差(MSE)、平均絕對誤差(MAE)和均方根誤差(RMSE)這三種評價指標進行評估。
1 研究方法
1.1 RNN算法
循環神經網絡(Recurrent Neural Network,RNN)是一種特殊的神經網絡。傳統的神經網絡模型是從輸入層到隱含層再到輸出層,層與層之間是全連接,每層的節點之間是無連接的,而RNN之所以稱為循環神經網絡是因為一個序列的輸出與前一時刻的輸出有關[10],該網絡會把前面的信息進行記憶并應用到當前輸出的計算中,即隱含層的節點是相互連接的。
RNN模型結構展開圖見圖1,其中x表示輸入樣本,y表示訓練后的輸出樣本,t-1,t,t+1分別表示時間序列,U、W、V是在每一刻都共享的網絡權重,U為某一時刻輸入樣本的權重、W為隱含層的權重、V表示輸出的樣本權重。st表示當前t時刻的隱藏狀態,由當前時刻的輸入樣本xt和t-1時刻的隱藏狀態共同決定,表述為
st=f(Uxt+Wst-1)(1)
yt=g(Vst)(2)
其中,f、g表示激活函數。
1.2 LSTM算法
傳統的循環神經網絡能夠處理一定的短期依賴問題,但無法處理長期依賴問題。長短期記憶網絡是一種改進的循環神經網絡,使用LSTM算法可以解決RNN無法處理長距離的依賴問題,可以處理非線性、非平穩的時間序列數據[11]。LSTM模型廣泛應用在眾多領域,如預測旅游流量[12],預測股價[13]等。
原始RNN的隱藏層只有一個單元狀態,對短期的輸入非常敏感,在隱藏層增加一個單元狀態,構建LSTM模型使其保存長期的狀態,在模型實現的過程中用三個控制開關來控制長期狀態,開關的控制功能由“門”來實現。
(1)遺忘門:決定從單元狀態中丟棄哪些消息
nt=σ(Wn·ht-1,xt+bn)(3)
(2)輸入門:決定需要在單元狀態中保存哪些新信息
lt=σ(Wl·ht-1,xt+bl)(4)
rt=tanh(Wr·ht-1,xt+br)(5)
ct=nt*ct-1+lt*rt(6)
(3)輸出門:決定單元狀態中的哪些信息作為輸出
mt=σ(Wm·ht-1,xt+bm)(7)
ht=mt*tanh (ct)(8)
其中,σ表示為sigmoid激活函數,該函數把值映射到0到1之間,以此來控制傳遞多少信息,0代表遺忘所有信息,1代表保留全部信息;tanh是雙曲正切激活函數,xt表示當前時刻的樣本輸入,其中,Wn、Wl、Wr、Wm為權值矩陣,bn、bl、br、bm表示為參數矩陣,nt表示遺忘門輸出,lt為輸入門輸入,mt為輸出門輸出,rt表示當前時刻保存的信息。
2 數據描述和性能評估
2.1 數據采集
本文數據采用的是中國某污水處理廠的泵站能耗數據,泵站共有5臺水泵,數據在2020年11月18日到2020年12月1日之間采集,其中在一天時間內,每隔5 min獲取一次數據,數據包括每臺泵的能耗值、出水流量、以及當前的液位。用0或1來描述泵的開關狀態,0代表當前泵處于關閉狀態,1代表當前泵處于工作狀態,單個樣本輸入的變量包括:5臺泵的總能耗E(kW·h)、每臺泵的開關狀態(0或1)、出水流量F(m3)、當前的液位L(m),共3 000條數據樣本。
2.2 數據預處理
2.2.1 數據整理 泵能耗監測平臺在數據采集、傳輸、存儲等過程中容易受到噪聲干擾,通信中斷和傳感器故障等原因,產生一些空值、不合理值、重復值,刪除這些異常值,泵站的總能耗、當前的液位精確到小數點后兩位。由于樣本的各個指標的量綱和量綱單位不同,對數據歸一化使各指標處于同一數量級,本文采用min-max標準化對個別指標歸一化處理,將數據映射到[0,1]范圍內
x=x-TminTmax-Tmin(9)
其中,x是該屬性的原始值,x是歸一化后的值,Tmin和Tmax分別為在全部樣本中屬性的最小值和最大值,本文把輸入樣本的出水流量、當前液位、泵站總能耗這三個屬性歸一化處理。
2.2.2 劃分訓練集和測試集 數據樣本歸一化后共3 000條,將其中的80%作為訓練集用于訓練模型,20%作為測試集用于評估模型的性能,Xi=(x1,x2,…,x8)(i=1,2,3,…,3 000),X=[Xi,Xi+1,Xi+2,…,Xi+s-1]。其中,Xi表示第i個數據樣本,x1為泵站總能耗,x2到x6對應每臺泵的開關狀態,x7表示出水流量,x8為當前液位。泵站能耗數據具有時間序列的特性,若LSTM模型的時間步長(time steps)設為s,時間窗口每次用前s個數據樣本組成的矩陣作為輸入特征,第s+1個樣本Xi+s-1的總能耗E作為輸出,時間窗口每次移動的步數為s,假設訓練集和測試集樣本長度分別為n和m,實際上將n-s個樣本數據在訓練模型上訓練,將m-s個樣本用作測試數據。時間窗口移動方式如圖3所示,s個數據樣本組成的矩陣X作為輸入,用Y中數據樣本的泵站總能耗作為輸出。
2.3 模型性能評價
選取MSE、MAE、RMSE作為預測結果評價指標,范圍[0,+∞),數值越低說明預測值和真實值之間的誤差越小,模型的精確度越高,i為第i個樣本的能耗預測值,ei為真實值,n是樣本數量。
(1)均方誤差(Mean Square Error,MSE)
MSE=1n∑ni=1(i-ei)2(10)
(2)平均絕對誤差(Mean Absolute Error,MAE)
MAE=1n∑ni=1|i-ei|(11)
(3)均方根誤差(Root Mean Square Error,RMSE)
RMSE= 1n∑ni=1(i-ei)2(12)
3 建立LSTM能耗模型
3.1 模型構建及實驗流程
本文對比了LSTM模型、BP神經網絡模型、RNN模型,三者均在PyCharm開發環境下運行。LSTM模型用Keras框架搭建,模型結構由輸入層、隱含層和輸出層組成,LSTM模型的參數包括學習率、批處理、時間步長、隱含層層數、訓練次數等。本文采用試錯法尋找適合的參數,在模型訓練和測試完成后,將數據進行逆歸一化處理,然后進行性能評估,實驗的具體流程如圖4所示。
采用Adam優化算法(Adaptive Moment Estimation,自適應矩估計),損失函數采用平均絕對誤差(MAE)。Adam優化算法是梯度下降優化算法的擴展,能基于訓練數據迭代更新神經網絡權重隨機梯度下降保持單一的學習率更新所有的權重,學習率在訓練過程中并不會改變。而Adam通過計算梯度的一階矩估計和二階矩估計為不同的參數設計獨立的自適應性學習率,相比于其他自適應學習率算法,Adam算法收斂速度較快,學習效果更好,可以解決學習率消失、收斂速度較慢所導致的損失函數波動較大等問題。
3.2 模型參數尋優
LSTM網絡模型參數包括隱含層學習率、時間步長、批處理、隱含層層數、訓練次數,設置各參數的取值范圍,其中隱含層層數取值范圍為[1,3],時間步長取值范圍為[2,4],批處理取值范圍為[20,60],訓練次數取值范圍為[25,300]。
3.2.1 學習率和訓練次數 學習率(lr)用來表示通過損失函數來調整網絡權重的程度,影響模型收斂到局部極小值的速度,學習率過小,函數收斂速度較慢,耗費的時間更長,會產生過擬合現象;學習率過大,可能錯過局部極小值,損失函數容易發生振蕩。在實驗過程中lr的取值從0.01到0.000 01,以10倍的速度間隔逐漸降低,選取MAE作為誤差評估標準,觀察誤差曲線變化的狀態,在曲線趨于穩定并收斂到一定值時,確定學習率的數量級,再采用微調方法確定最佳的學習率,圖5所示為不同的學習率對應誤差曲線變化。
由圖5可知,當lr取值0.01向0.001降低時,學習率過大,損失函數曲線發生振蕩,無法收斂到最優值,當lr取值從0.000 1向0.000 01降低時,學習率過小,在訓練次數內表現出欠擬合,無法完成收斂,但在lr取值為0.000 1時,誤差曲線逐漸平滑下降,且收斂到最優值,在確定數量級的情況下,經過微調方法確定最佳學習率為0.000 7。
訓練次數(epochs)是將訓練樣本中所有數據訓練的次數,過少的訓練次數會導致預測值和實際值之間的偏差較大,不同的訓練次數會使損失函數收斂到不同的值,選取合適的訓練次數使得誤差收斂到最優。在訓練過程中選取MSE作為誤差評估標準,如圖6所示,epochs值在25到300之間時,誤差曲線快速下降,epochs的值在150開始逐漸趨于穩定,200個epochs之后變化不明顯,為了防止訓練次數過大導致的過擬合現象,200個epochs就可以滿足訓練精度,因此LSTM網絡模型選取epochs的值為200。
3.2.2 時間步長 在LSTM網絡模型中,由于其具有長時間記憶的特性,下一時刻的樣本可能會用到之前的歷史樣本數據,時間步長(time steps)表示每個訓練樣本中包含的歷史狀態數目,通常根據數據的時間特性來確定,若時間步長為n,表示用前n條樣本預測第n+1個樣本的總能耗,本實驗設置時間步長的范圍從2到4,通過平均絕對誤差(MAE)來衡量在不同時間步長下訓練樣本誤差變化曲線。
如圖7所示,在訓練次數的不斷增加下,相比于其他時間步長,time steps為2時,誤差變化曲線快速下降,收斂速度較快,降低了模型的訓練難度,節省了時間成本,所以選擇時間步長為2來構建LSTM神經網絡模型。
3.2.3 批處理和隱含層層數 Adam是基于梯度下降的,批處理用于定義在更新內部模型參數之前要處理的樣本數,代表著每次進行訓練樣本的數量,將批處理視為循環迭代一個或多個樣本并進行預測,比較預測值和真實值,并計算誤差,從而動態更新內部模型參數。批處理過小會導致誤差震蕩嚴重,在一定的訓練次數內無法收斂,批處理增大會使訓練的收斂更加平滑穩定,訓練一個迭代的時間會變短,但過大也會降低模型的泛化能力,達到相同精度的速度會變慢,所以選擇合適的批處理來提升模型的預測精度。
多隱層的網絡結構對數據有更好的表示能力,通過逐層的特征提取將數據表示的更加抽象,從而降低誤差,提高預測精度,但是隱含層層數過大可能會帶來過擬合問題,同時也會增加模型的訓練時間,造成無法收斂。
本文LSTM網絡模型隱含層層數的范圍是1層到3層,批處理從20到60,每次間隔10個,在不同的隱含層層數和批處理大小結合時進行實驗,相應的評價指標如表1所示。
不同的隱含層層數和批處理會影響預測精度和訓練的時間,從表1可以看出,模型隱含層層數為3,批處理為30時,各個評價指標相對較優,LSTM模型的性能顯著,模型的精度較高,因此最終選定的LSTM模型的隱含層層數為3,批處理為30。
3.3 構建LSTM能耗預測模型
如表2所示,LSTM能耗預測模型中,學習率為0.000 7,時間步長為2,訓練次數為200,隱含層層數為3,第一個隱含層的神經元數量為32,第二個隱含層神經元數量為16,第三層隱含層神經元數量為8,批處理大小為30,隱含層的激活函數為tanh函數,在優化選擇方面,采用Adam優化算法進行優化。
4 與其他模型對比評估
為了驗證LSTM模型預測能耗的優越性,對比LSTM模型、BPNN模型、RNN模型,利用訓練集訓練模型,并用來對測試集來進行預測,使用評價指標MAE、MSE、RMSE對模型評估和對比,數據均由逆歸一化數據計算得到。為了更加直觀的體現LSTM模型的優越性,圖8、圖9、圖10顯示了BPNN、RNN、LSTM三種模型對泵能耗預測結果,可知,LSTM網絡模型的預測值和真實值的擬合程度較高,相比于其他模型,LSTM對泵的能耗預測更接近于真實值。
表3顯示的3種模型對比的評估指標,由于BPNN和RNN模型在預測時沒有考慮到延遲和滯后效應,無法解決長期依賴問題,預測值和真實值差距較大,LSTM網絡模型的誤差指標均小于其他模型,在數據的擬合度上表現出較好的性能,這也表明,LSTM模型在泵站能耗預測方面具有較大的優勢。
5 結論
本文提出了基于LSTM神經網絡模型對泵站能耗的預測方法,通過實驗對參數進行優化,選取了合適的學習率、訓練次數、隱含層層數及時間步長等參數,構建了一個多層的LSTM模型,用來預測泵站能耗,并與BP模型、RNN模型的預測結果進行對比。在性能評估方面,多層的LSTM網絡模型具有較好的性能,相比于BP模型和RNN模型,多層LSTM網絡模型最優擬合結果預測出的泵站能耗,在MAE、MSE、RMSE評估指標上誤差較低,預測精度較BP模型和RNN模型有所提高,因此LSTM模型能更準確的對泵站能耗進行預測。LSTM能耗模型相比于傳統的能耗模型,能更好的處理長期依賴問題,保持信息的持久性,能夠發現數據之間的關系和規律,在預測時考慮到延遲和滯后效應,在處理序列數據和非線性問題中具有優勢,對泵站的能耗預測精度更為準確,在泵站的節能領域具有廣闊的應用前景。但是當前方法還存在局限性,參數優化過程中設置的范圍區間過小,參數組合優化的種類過于單一,所以在以后的研究中可以從參數的取值范圍和選擇參數組合兩個方面深入研究。
參考文獻
[1]李旭.城市污水處理能耗能效研究進展[J].科技創新與應用,2020(5):67-68.
[2]周亞梁,黃東月.城市污水處理廠能耗分析及節能降耗措施研究[J].環境與發展,2019,31(5):30+34.
[3]龍麗萍.城鎮污水處理廠能耗分析及節能措施研究[J].工程技術研究,2019,4(14):239-240.
[4]杜冠洲,韋古強,高正平.基于BP神經網絡的公用建筑電力能耗預測研究[J].工程經濟,2017,27(6):76-80.
[5]侯博文,譚澤漢,陳煥新,等.基于支持向量機的建筑能耗預測研究[J].制冷技術,2019,39(2):1-6.
[6]莫甘茗.基于多元線性回歸模型的建筑能耗預測與建筑節能分析[J].建材與裝飾,2016(43):89-90.
[7]章挺飛,羅恒,劉杭.基于LSTM網絡的建筑能耗預測方法[J].蘇州科技大學學報(自然科學版),2020,37(4):78-84.
[8]廖文強,王江宇,陳煥新,等.基于短期記憶神經網絡的暖通空調系統能耗預測[J].制冷技術,2019,39(1):45-50+54.
[9]劉家學,沈貴賓.基于LSTM的航空公司能耗序列預測[J].計算機應用與軟件,2019,36(10):60-65.
[10]楊欽榕,陳萬培,高紳,等.寬窄帶融合下基于RNN-LSTM網絡的溫度預測[J].無線電工程,2021,51(4):283-287.
[11]黃超斌,程希明.基于LSTM神經網絡的股票價格預測研究[J].北京信息科技大學學報(自然科學版),2021,36(1):79-83.
[12]LI Y F, CAO H. Prediction for tourism flow based on LSTM neural network[C]// 6th International Conference on Identification, Information and Knowledge in the Internet of Things (IIKI), Qufu, 2017: 277-283.
[13]DING G Y, QIN L X. Study on the prediction of stock price based on the associated network model of LSTM[J]. International Journal of Machine Learning and Cybernetics, 2020, 11: 1307-1317.
Energy Consumption Prediction of Pumping Station Based
on LSTM Neural Network Model
WANG Xin-kai, YU Zhong-qing
(College of Computer Science & Technology, Qingdao University, Qingdao 266071, China)
Abstract:
A neural network model based on Long Short-Term Memory (LSTM) is established to predict the energy consumption of pumping stations, which optimizes the working methods and reduces energy consumption, and the learning rate, time step, batch size, the number of layers, training times are optimized. The prediction results of the LSTM network model are compared with the BP model and the RNN model, and the research results show that the prediction based on the LSTM neural network model has high accuracy and generalization ability.
Keywords:
LSTM network model; energy consumption; prediction; optimization
收稿日期:2021-09-01
基金項目:
山東省重點研發計劃(批準號:2019JZZY020101)資助。
通信作者:
于忠清,男,博士,教授,主要研究方向為工業大數據。E-mail: yuzq@qdu.edu.cn