劉 崢,黃真銀,徐成良,陳煥新*,李昱瑾
(1-華中科技大學中歐清潔與再生能源學院,湖北武漢 430074;2-湖北卓立集控智能技術有限公司,湖北宜昌 443000;3-華中科技大學能源與動力工程學院,湖北武漢 430074)
隨著新時期下城鎮化及工業化進行的飛速推進,我國能源需求不斷增加,節能減排工作也日益緊迫。高能耗設備因其在用數繁多、點多面廣、耗能大和能源使用效率低等特點,具有巨大的節能潛力[1]。因此,對高能耗設備的能耗分析和節能改進尤為重要[2-6]。
近年來,基于數據挖掘的建筑能耗數據分析相關研究正在越來越廣泛[7-8]。WANG 等[9]基于建筑能耗數據開發了一個集成工具包原型,并進行了驗證,該方法能夠有效地檢測運行不良和能源浪費。侯博文等[10]采用網格搜索法優化的支持向量機模型用于建筑能耗預測,優化結果顯著,能很好地完成建筑能耗預測工作。丁飛鴻等[11]采用遺傳算法優化決策樹模型用于短期建筑能耗預測,與傳統的回歸模型相比,該模型預測精度有明顯提高。鄧曉紅等[12]利用粒子群算法優化最小二乘支持向量機(Particle Swarm Optimization of the Least Squares Support Vector Machine,PSO-LS-SVMR)模型用于公共建筑短期能耗預測,并將預測結果與遞歸神經網絡(Leven-Berg-Marquardt Back Propagation Neuron Network,LBM-BPNN)模型作對比,結果表明PSO-LS-SVMR模型具有更好的預測精度。
除了用于建筑的能耗分析,數據挖掘在空調領域的能耗研究也正在成為一項重要的課題[13-15]。XIAO等[16]通過關聯規則算法分析建筑中空調設備能耗數據的問題,有效降低了能耗。YU等[17]利用數據挖掘技術中的關聯算法分析了耗能體的年能耗數據和日能耗數據,通過對空調系統運行能耗數據的異常識別,找出了空調設備運行過程中的能源浪費及設備故障問題,挖掘了節能潛力,證明了該方法的有效性。廖文強等[18]利用長短期記憶神經網絡(Long Short-Term Memory,LSTM)對空調系統進行能耗預測,與傳統的預測方法相比具有更好的精度。王智銳等[19]分別用支持向量機(Support Vector Machine,SVM)模型和自回歸滑動平均(Autoregressive Moving Average,ARMA)模型對夏季空調負荷進行預測,結果表明SVM模型具有更好的精度和泛化能力。
本文利用 10折交叉驗證和網格搜索法優化的支持向量機模型對冷水機組的能耗進行預測,在獲得輸入數據階段,引入了主成分分析(Principal Component Analysis,PCA)數據簡化方法,觀察PCA對支持向量機模型的影響。在模型評價階段,本文采用了平均絕對誤差(Mean Absolute Error,MAE)、均方根誤差(Root Mean Square Error,RMSE)、擬合優度(R2)三個評價指標。
網格搜索法是支持向量機可調參數尋優的一種方法,主成分分析(PCA)的目的是獲得變量降維的簡化計算,將兩者與支持向量機(SVM)結合得到網格搜索法優化PCA-SVM模型。
在能耗預測模型建立過程中,若存在多個與能耗具有相關性的變量,這些變量全部參與建模,無疑增大了建模問題的復雜程度,進而增加建模成本,PCA是一種對數據進行降維并找到更少的彼此線性不相關的變量來代替原有變量的數據簡化方法[20]。判斷是否利用 PCA進行降維主要通過相關性分析,若存在兩個變量之間的相關性達到0.7及以上,需利用PCA進行降維。
分析不同屬性數據之間線性相關程度的強弱,并用適當的統計指標表示出來的過程稱為相關性分析[21]。本文在進行相關性分析時所采用的指標為Pearson相關系數(r),其計算如式(1)所示:




SVM是基于統計學的一種監督式學習方法,普遍應用于數據分類和回歸分析。
SVM用于回歸分析的基本思路為:對于n個輸入變量和m組數據的訓練樣本,即T={(x11, y1),…(xij,yj),…(xmm, ym)}。設支持向量回歸的超平面的擬合函數為y=b+WTX,W為權重系數向量,b為偏置量。利用擬合函數所得的預測值和實際值之間有一定的差值,若差值大于 ε,則對損失函數有貢獻,若小于ε,則無貢獻。
損失函數為:

在使用SVM算法建模時,存在懲罰參數C、核函數參數g等可調參數會對建模結果產生較大影響。其中懲罰參數C影響模型的擬合程度,而核函數參數g影響支持向量的個數。確定最佳的C、g參數在SVM算法建模中顯得尤為重要,本文通過交叉驗證法與網格搜索法對C、g參數進行尋優,以實現對SVM的優化。
N折交叉驗證法的基本原理:輪流N次將數據集劃分為大小一致的N部分,用其中的N-1部分作為訓練集,剩余的1部分作為驗證集,N次驗證結果的精度的平均值作為對建模精度的估計值。
網格搜索法優化SVM模型參數的基本思路:1)利用網格搜索法找出用于建模的所有可調參數并進行參數組合;2)依次對所有參數組合進行支持向量機建模;3)以N折交叉驗證法下的建模精度為判斷依據得出最佳模型和可調參數。
圖1所示為PCA-SVM算法流程,整個流程分為4個部分。
1)數據預處理:對原始數據集進行冗余屬性剔除,缺失值及異常值處理,數據規范化處理等工作;
2)主成分分析:利用相關性分析計算各個變量之間的相關系數,利用主成分分析構建新變量;
3)構建模型:將得到新變量的數據按照4:1的比例構建訓練數據和測試數據,利用訓練數據訓練出支持向量機模型;
4)優化模型:利用10折交叉驗證和網格搜索法得到最優的懲罰參數C、核函數參數g的取值,同時得到最優的支持向量機模型。

圖1 PCA-SVM算法流程
本文以某醫院的離心式冷水機組為研究對象。該醫院總建筑面積為37,000 m2,地上5層,地下2層。建筑包含病房、包間、貴賓室、會議室和大堂等多種不同類型的空間,所有空間的夏季冷負荷為1,797 kW,冬季熱負荷為1,677 kW。建筑的供冷需求時段在6月至10月,供暖需求時段為11月至第二年的4月。
圖2所示為該建筑的空調水系統工作原理,整個系統以兩臺離心式冷水機組作為冷源。在冷凍水部分,采用復式泵系統,冷源側一臺泵對應一臺冷水機組,泵的揚程用于克服冷水機組中換熱器的阻力;負荷側3臺泵并聯,泵的揚程用于克服空調末端換熱器和管路中各個部件的阻力,負荷側的循環泵流量隨負荷變化而變化。在冷卻水部分,采用“一泵對一機”的方式,當一臺冷水機組關閉時冷卻水循環泵隨之關閉。

圖2 空調水系統工作原理
采集課題研究所用的數據時,在系統的各個關鍵位置布置傳感器,利用中央空調機房群控與樓控裝置對數據進行記錄和儲存,頻率為1次/min,記錄對象包括室外溫度、濕度以及分布在室內的各類傳感器采集的數據。本文選擇裝置存儲的 2017-09-04—2017-10-04一整月的數據為源數據,以其中冷水機組的瞬時功率作為預測對象,剩余的因素作為可能影響冷水機組能耗的對象展開研究。
離心式冷水機組作為高能耗設備,其能耗數據具有非線性、多因素、時變復雜、高重疊與強噪音等特點[20],需通過數據預處理得到對建立模型有意義的數據。本文依次對原始數據進行了缺失值及異常值處理,冗余屬性剔除和數據規范化等處理,其中缺失值處理采用回歸補插法,數據規范化處理采用最小-最大規范化法,最終確定冷凍水進水溫度、蒸發溫度和瞬時功率等16個變量以及24,953組時序數據用于建立能耗預測模型。
對變量進行相關性分析,計算除瞬時功率外其他 15個變量兩兩之間的相關系數,相關系數絕對值分布如圖3所示。

圖3 相關系數絕對值分布
圖3中總共120個相關系數,絕對值落在(0, 0.3]區間的數量為31,絕對值落在(0.3, 0.5]區間的數量為32,絕對值落在(0.5, 0.7]區間的數量為25,絕對值落在(0.7, 1]區間的數量為32。即存在多組變量之間的相關性達到0.7及以上,需要利用主成分分析進行降維,主成分分析結果如表1所示。

表1 主成分分析
由表1可知,前4個新主成分累計方差比率達到92.43%,可選取這4個變量作為新的建模變量,將輸入數據從15個變量的維度減少至4個變量的維度。
本課題分別對訓練數據建立 SVM-A、SVM-B和PCA-SVM-B預測模型。SVM-A模型直接將影響冷水機組瞬時功率的 15個變量作為模型的輸入,利用支持向量機回歸模型進行預測。SVM-B模型在SVM-A模型的基礎上進行可調參數尋優,利用優化后的模型進行預測。PCA-SVM-B模型對上述15個變量進行主成分分析,將構建的4個新變量作為模型的輸入,參數尋優之后利用優化后的模型進行預測。
進行網格搜索時,利用2的指數窮舉參數取值,SVM-B模型和PCA-SVM-B模型可調參數C的取值范圍為(2-2, 210)、g的取值范圍為(2-5, 25),參數的所有組合種類為143種。參數尋優時,采用10折交叉驗證算法對模型進行精度評估。
在對支持向量機算法進行可調參數尋優時,往往存在多組參數組合的模型精度相近的情況,為了避免大C值造成模型過擬合、泛化能力差,此時參數值應盡量選取C值較小的參數組合。本課題SVM-B模型中C=16、g=0.125,PCA-SVM-B模型中C=16、g=1。
SVM-A模型的能耗預測結果如圖 4所示,粗實線代表預測值與實際值完全吻合,細實線之間區域為 90%的置信度空間。進一步分析,SVM 模型預測值與實際值之間的平均絕對誤差(MAE)為0.023,均方根誤差(RMSE)為 0.059,擬合優度(R2)為0.877,建模時長為0.15 min。

圖4 SVM-A模型的能耗預測結果
SVM-B模型的能耗預測結果如圖5所示,將圖5和圖4作對比,發現優化后的模型SVM-B較模型SVM-A的預測精度有較大提升。
PCA-SVM-B模型的能耗預測結果如圖6所示,將圖6和圖5作對比,發現采用PCA-SVM-B模型預測精度較SVM-B模型預測精度有略微降低。
表2所示為模型評價指標的對比。由表2可知,SVM-B模型較SVM-A模型在MAE、RMSE和R2這3個指標上都有較大的提升,其中MAE減小了43.48%,RMSE減小了71.19%,R2增加了12.88%,但是建模時長增加了近130倍。而PCA-SVM-B模型較SVM-B模型在MAE、RMSE和R2這3個指標上數值相近,但是建模時長縮短了80%。

圖5 SVM-B模型的能耗預測結果

圖6 PCA-SVM-B模型的能耗預測結果

表2 模型評價指標的對比
本文提出了一種基于主成分分析(PCA)和支持向量機(SVM)的冷水機組能耗預測模型。采用交叉驗證和網格搜索法優化支持向量機(SVM),將PCA-SVM的預測結果與優化后的SVM進行比較,得到如下結論:
1)利用SVM算法構建離心式冷水機組能耗預測模型時,采用網格搜索法和交叉驗證法優化模型的效果較理想;優化后的SVM預測模型的擬合優度達到0.99,較未經優化的模型提升了12.88%;
2)PCA數據簡化方法可以在不對預測精度產生較大影響的情況下有效地節省計算資源,經過PCA簡化數據后的模型較未經簡化的模型的計算時長縮短了80%,而兩者的3個評價指標的差值保持在8%的范圍內;在相同的計算資源下,利用PCA數據方法的模型可以處理更多的數據。