葉永雪,馬鴻雁*,2,3,楊靜儉
(1. 北京建筑大學電氣與信息工程學院,北京 100044;2. 建筑大數據智能處理方法研究北京市重點實驗室,北京 100044;3. 智慧城市國家級虛擬仿真實驗教學中心,北京 100044)
隨著我國城市化進程的逐步提速、人民生活水平也在不斷提升,我國公共建筑的能耗占比也開始節節攀升。據統計,我國建筑能耗在總能耗中的占比已上升至35%左右,而其中公共建筑電能消耗十分嚴重[1]。因此,如何處理好公共建筑的能耗問題變得至關重要。通過探究公共建筑能耗的影響因素,并建立相應能耗預測模型對其進行預測,將有利于綜合評估公共建筑能耗現狀及其發展趨勢,并為公共建筑實施能源管理計劃提供有效依據。
隨著影響預測的相關因素及其數據量的不斷增多,一些傳統的方式不足以解決相關預測問題。近年來,隨著計算機科學的不斷發展,各類機器學習技術的瓶頸也在不斷被突破,基于數據驅動的公共建筑能耗預測研究越來越廣泛。侯博文等[2]首先提出將基于支持向量機(SVM)用于建筑能耗預測。隨后LI等人[3]采用支持向量機、GRNN神經網絡、BP神經網絡等方法對同一住宅的年總能耗量進行預測,該對比實驗結果表明,支持向量機預測模型預測精度最高。但是他們對公共建筑的能耗均缺少相關的研究。本文基于Python采用聚類分析與支持向量回歸算法,建立了能耗預測模型,對公共建筑能耗問題進行了研究。
傳統回歸算法當且僅當回歸f(x)等于y時,才被認為預測正確。而支持向量回歸算法則只需回歸f(x)與y偏離程度不要太大,即可認為預測正確。對于f(x)與y有偏離的,僅需設置閾值ε,計算|f(x)-y|>ε的數據點的損失。如圖1所示,其中黑色數據點均認為預測正確,只需要計算白色數據點的損失。

圖1 支持向量的標識圖
隨著信息科學技術的不斷更新,各類仿真軟件層出不窮,Python具有種類繁多的標準庫,是一種十分精彩又強大的語言,有獨特的優勢。綜上,本文基于Python采用聚類分析與支持向量回歸算法建立公共建筑能耗預測模型。
圖2為基于支持向量回歸的公共建筑能耗預測模型的流程圖[3],該流程圖主要由三大部分組成。

圖2 基于K-Means與SVR的能耗預測模型流程
1)數據處理:將數據集進行相關性分析判斷,去除數據的無關特征以達到數據集降噪的目的,然后對數據進行z-score歸一化處理;將歸一化后的數據投入到K-Means聚類分析程序中進行數據的二次分析與處理。
2)模型建立:將處理后的數據按照9:1的比例分為訓練集和測試集。將訓練集中的數據輸入到支持向量回歸模型中通過參數尋優得到預測模型。
3)模型輸出與重利用:將輸出的模型用于開發人機交互界面,以實現公共建筑能耗預測的可視化功能。
2.3.1 R檢驗[12]
R檢驗即判定系數檢驗,該檢驗是用于檢測樣本回歸對樣本觀測值的擬合程度,計算公式為

(1)
式中
R2——判定系數



對于判定系數來說,雖然其值越靠近1曲線擬合程度越高,但是當判定系數不斷靠近1會出現過擬合的現象,所以比較優秀的判定系數值應該在0.85-0.95之間。
2.3.2 均方誤差與CG參數
1)均方誤差
均方誤差可以評價數據的變化程度,其值越小,說明結果越能反映數據的連續性。其公式如下所示

(2)
2)CG參數
本文運用十字交叉驗證的方法去進行參數尋優,用以獲得最佳的模型參數。因此核函數參數gamma(G)與懲罰因子C對于基于支持向量回歸的模型的預測結果有著十分重要的影響。
本文以北京市某高校的圖書館為研究對象。選擇該研究對象的原因主要有以下幾點,第一:隨著高校學生人數的不斷增加,以人為本的理念導致越來越多的高校為學生提供更好的學習和生活環境,這造成了高校圖書館能耗急劇增加。第二:在模糊數學中,不同人群對于溫度的感知和適應性不同,這導致部分使用者會因感覺過冷或過熱而頻繁開啟門窗,從而造成能源浪費,因此高校圖書館能耗浪費較多。第三:許多高校在建校初期均以惡劣天氣狀況考慮,這導致電氣設備預留量大,制冷、制熱設備會出現“大馬拉小車”現象,所以高校圖書館節能潛力大。本文通過實地調研,選取2018年上半年該高校1-5月份能耗參數數據進行模型訓練測試。具體數據類型見表1。本文數據均為真實數據。

表1 數據樣本示例
3.2.1 氣象特征數據特征分析
1)相關性分析方法
對數據集進行分析,通過一定的特征選擇將高維度的樣本轉換到低維度,從而獲得盡可能低維度的特征子數據集,通過該子集中的數據進行模型建立,建模的精度會顯著提高,最終得到較好的預測結果[3]。
各類相關性分析方法見表2所示。

表2 相關性分析方法
首先對于圖表相關分析方法來說,該方法無法對數據間相關性進行準確的度量,并且當數據維度超過2時也無法完成各組數據間的相關分析,本文數據集的維度為5,該方法不適用。其次對于多元回歸分析方法與信息熵及互信息分析方法來說,此分析過程較為復雜,不適用于本數據集的預處理過程。最后對協方差分析方法與相關系數分析方法來說,協方差分析法只能分析數據之間的相關性,卻不能分析數據間的相關程度。而相關系數分析方法則可以反映不同變量之間的相關程度。因此本文選用相關系數分析方法對本文氣象數據的特征進行分析。
2)Pearson相關系數分析方法
在相關系數分析方法中,Pearson系數分析方法比較適用于等間距測度數據的相關性分析。而本文采集的數據集為每日氣象數據與每日能耗數據,為等間距測度的數據,因此本文采用Pearson相關系數分析方法對數據進行相關性分析。所以本文最終采用Pearson相關系數分析方法對數據特征進行分析。
各變量間Pearson相關系數計算結果如圖3所示。從圖3中可以看出,逐日能耗與相對濕度的Pearson相關系數值為-0.00454,該值的絕對值位于0~0.2之間,表明相對濕度與能耗情況極弱相關或無相關,即相對濕度這個氣象特征與能耗預測的結果不發生關系。所以將數據集中相對濕度這一氣象特征去除,從而對數據集進行降維,使得最終預測結果更為精準。

圖3 各氣象特征與能耗的Pearson相關系數
3.2.2 氣象特征數據標準化處理
數據標準化方法
數據的標準化是將數據按照某一算法進行縮放,使其落入某個指定區間內。數據的標準化中較為典型的處理方法為數據歸一化處理。常見的數據歸一化處鋰的方法見表3所示。

表3 數據歸一化方法表
本文經過后期各類歸一化數據集的建模發現,z-score標準化后的數據集對于能耗預測模型的建立在其精確性上具有較好的影響,因此本文采用z-score標準化對數據集進行處理。
1)K-Means聚類算法原理
K-Means算法是經典的基于原型的目標函數聚類方法。本文中的K-Means算法以歐氏距離公式作為其相似度測度,該算法對于接近高斯(正態)分布的數據集有良好的聚類效果。
2)K-Means聚類結果
本模型的數據集的維度為5維,首先將數據集以第1維(最高溫度)與第5維(能耗參數)進行聚類(數據集樣例見表1),聚類的結果見圖4所示。最終聚類結果以5維聚類為準。

圖4 二維參數K-Means聚類結果
從圖4(a)可看出類簇為2時,各個類別的參數數量較多,對模型訓練有利,但是在第二類(三角形類別)中,明顯有一部分數據不屬于該類。從圖4(b)可看出類簇為3時,分類結果十分成功,但是明顯發現,該聚類結果下給個類簇數據量較小,對模型訓練不利。綜上所述,本文在現有數據情況下選用類簇為2的聚類分析結果作為參數,將第一類(X類別)的參數投入到能耗預測模型中進行訓練。
通過對全部預處理的數據集訓練后SVR能耗預測模型的評價指標R2可達到0.89725,懲罰系數C值為6.85795,說明本文建立的模型在訓練后既沒有出現過擬合也沒有出現欠擬合,gamma值為6.85795,說明訓練與預測的速度較為適中。而通過在處理數據中增加聚類分析結果后,SVR能耗預測模型的評價指標R2為0.93645。測試集的結果如圖5所示。

圖5 模型測試集與實際數據集對比結果圖
在圖5中,綠色曲線代表基于能耗預測模型的預測曲線,黑色曲線代表實際能耗情況的數據曲線。從圖中可以看到,擬合效果良好。
隨機從1-5月份中每個月抽取3天對未聚類公共建筑能耗預測模型進行能耗預測,預測結果見表4。

表4 抽樣預測結果
通過分析表4,通過分析發現未聚類能耗預測模型在二、三、四月份預測精度均超過90%,預測精度較高。但是在一月能耗的預測值上整體偏低,在五月能耗預測值上整體偏高,即在這兩個月份預測能力不理想。分析原因認為是數據集僅有上半年的數據,在一月與五月份數據斷層,所以預測能力不夠準確。所以在公共建筑能耗預測時,訓練數據應該具有連續性。
另外,聚類后的能耗預測模型在第一類數據訓練中十分理想,但是在第二類預測結果較為不理想,考慮原因是在聚類分析時,由于聚類的類簇為2類,其中第二類中有一部分數據不屬于第二類,影響到最終模型訓練結果。所以對于連續一年的訓練數據聚類分析的類簇至少為3類。
在人機交互程序開發軟件的選擇上,本文仍舊選擇Python,其原因如下:首先Python不僅支持面向過程,同時也支持面向對象編程。這就說明,使用Python不僅可以做網絡后端工作,也可以做網絡前端工作。此外Python兼容眾多平臺,具有很大的包容性,所以對于開發者來說,他們不會遇到使用其它語言時常會遇到的問題。
本文基于公共建筑能耗模型的人機交互程序開發,是以訓練好的公共建筑能耗預測模型為核心在Python中設計人機交互程序時,需要將在訓練時的標準化數據集進行反標準化,具體公式如下所示
X=X*×σ+μ
(3)
從數據集中隨機選取一天,用于驗證人機交互界面功能的指導性。選取為2018年2月19日,該日具體數據如表5所示。

表5 2018年2月19日氣象參數與能耗參數
將2018年2月19日的各項氣象參數輸入到“公共建筑能耗”預測界面內,點擊預測按鈕,得到圖6所示結果。從圖6可知本模型對2018年2月19日能耗預測的結果為4671.53kW,而實際能耗為4854.54kW,通過計算可得本模型在該日能耗預測估計準確率達到96.23%。

圖6 人機交互預測界面
本文以訓練的能耗預測模型為基準,在Python中開發能耗預測界面,即“公共建筑能耗”預測界面,該界面能夠準確反映模型的預測結果,并且適用于基礎操作人員。此外在數據集中任取一日,將其參數輸入后,其估計結果準確率達到96.23%,對公共建筑在能源管理上起到十分好的指導作用。
本文基于Python構建了基于聚類分析的支持向量回歸公共建筑能耗預測模型,用以公共建筑能耗預測,對比分析了實際能耗曲線與模型預測曲線,并對比聚類后與未聚類的兩類公共建筑能耗預測模型。仿真結果表明聚類后的公共建筑能耗預測模型R2提高了3.9%,說明聚類之后的預測模型較未聚類的模型在預測精度上有了較大的提高。而公共建筑能耗預測模型測試集的預測結果均方誤差為0.151859,說明該預測誤差波動較小,可以對公共建筑能耗進行連續預測。