尹鵬飛 李晉宏
(北方工業大學計算機學院知識工程研究所 北京 100144)
隨著時代的飛速發展,世界各國經濟實力不斷增強,越來越多的摩天高樓如雨后春筍般拔地而起,隨之而來的是樓宇的供能問題。據研究調查顯示,在美國,商業和住宅建筑占其總能源使用量的40%[1],而暖通空調所消耗的能量占整棟樓宇的50%。所以如何節能成為了各國都急需解決的問題[2]。很多國內外的機構都開始致力于節能控制的研究,國內許琪[3]等在研究樓宇的自動控制系統,還有馬漢曠[4]在研究樓宇空調的混合控制系統。國外的專家們也在進行著節約能量和優化控制策略的研究,Kelvin K.L.Wong[5]等基于一棟醫院大樓住院廳空氣流量的測量,在滿足室內熱舒適性(溫度和風速等)前提下提出了使用分層空調的設計理念。國外一個研究機構做了一個調查[6],探究室內用戶的活動和行為對節能潛力的影響,討論適當的活動識別技術和方法,從而根據用戶活動對節能建筑做出指導。
在此之前的關于樓宇空調的運行方案都是偏向于控制的[7],或是研究能耗的模型[8],解釋模型中空調負荷與能耗估值之間的關聯,或是在能量管理方面去實時優化控制系統,晉欣橋等基于系統的運行特性、室內熱舒適性和室內空氣品質,提出了一個系統的在線能量優化管理和控制方案[9],采用了基于物理模型的在線仿真器來預測系統的響應變化,以基因遺傳算法來優化下位控制器的參數值,從而優化系統控制。這些研究都是在探索怎么去控制一些設備,具體到某些水泵、開關、機組、控制器等等,而本文將利用數據挖掘技術來對這些控制數據進行處理分析,從數據本身出發,通過建模挖掘出數據的規律,得到最佳參考日和主要的控制參數,不涉及操作設備。
參考日,最簡單的方法就是找歷史上情況最相近的一天,對于樓宇空調數據來說,最相近的狀況就是天氣狀況相同的時候,天氣狀況相似才有可能產生類似的空調數據。歷史數據中天氣狀況都有記錄,而對于未來的某天想要求得參考日的話,本身只能提供當天的天氣預報參數??紤]通過計算距離來判斷歷史數據和待選日的相近程度,距離小,則表示這兩天的天氣狀況相似,反之,則不同。
首先,可以把歷史天氣狀況處理成一個能反應當天天氣狀況的向量,如:
(t(溫度),h(濕度),s(風速),d(風向),i(光照),r(輻射))
天氣預報的參數只有最高溫度、最低溫度、風力、風向、天氣現象這些值,也處理成一個向量,如:
(t_max(最高溫),t_min(最低溫),s(風速),d(風向),a(天氣現象))
這樣就生成了一種方案:通過計算天氣預報向量和各歷史天氣向量的距離,選出距離最小的歷史某天作為參考日。
距離計算方法最為經典的就是K-means 聚類算法[10~11],應用廣泛,算法簡單,直接計算距離來判定當前點跟周圍點的相近程度。
還有一個也是基于距離計算分類的,經典的KNN 算法,通過測量不同特征值之間的距離進行分類,KNN應用也很廣泛[12~13]。
基本思想:如果一個樣本在特征空間中的k 個最相似的樣本中的大多數屬于某一個類別,則該樣本也屬于這個類別。
K 通常是不大于20 的整數,在KNN 算法中,所選擇的鄰居都是已經正確分類的對象,而此算法的結果很大程度取決于k的選擇。
在KNN 中,通過計算對象間距離來作為各個對象之間的非相似性指標,一般使用歐式距離或曼哈頓距離。
樓宇空調的調控要落實到調控數據上,影響特征也比較多。因為控制參數具有時間序列特性,即當前的運行狀況受前一段時間控制情況的影響,所以應建立時間序列模型。通過對某公司的暖通空調機房實地考察、試驗,得到機房中最為重要的控制參數。
基于深度學習的RNN 模型,是一個隱層神經單元循環鏈接的深度神經網絡,其內部的狀態可以很好的對動態時序行為建模。RNN 應用范圍很廣,有基于其時間序列特性的預測[14],也有在語音識別方面的應用[15]等等。
RNN 中,神經元的輸出可以在下一個時間戳直接作用到自身,即第i層神經元在m時刻的輸入,不僅有(i-1)層神經元在該時刻的輸出外,還包括其自身在(m-1)時刻的輸出。將RNN 在時間上展開,得到如圖1的結構。

圖1 RNN展開結構
假設當前時刻為t 時,輸入為xt,隱層狀態為st,st不僅和當前時刻的輸入有關,也和上一個時刻的隱層狀態相關。一般使用函數為

其中f 為非線性函數,一般為logistic 或tanh,U 為輸入和隱含層之間的權值矩陣,W 為上一時刻隱含層和當前時刻隱含層之間的權值矩陣,b 為偏置向量。
設計最佳參考日模型,但只基于天氣狀況找參考日,雖然考慮了最重要的天氣狀況,但是天氣是實時變化的,選出來的參考日有局限性,并不滿足實際的情況。
結合歷史的機房數據變化情況,可以對每天的機房運行參數做一個評分排序,因為就算天氣狀況相同,但每天的具體運行情況還是不一樣的。不能預測突變的狀況,所以應考慮其是否在平穩運行,用方差來判定其運行狀況。
最佳參考日模型設計步驟:
1)首先把歷史數據的氣象站數據處理成一個向量(t(溫度),h(濕度),s(風速),d(風向),i(光照),r(輻射));
2)再把這個向量作為距離的度量進行K-means 聚類,K-means 聚類方法也常用于處理用電數據分析[16];
3)接著把要預測的未來天氣狀況也處理成一個向量(t_max(最高溫),t_min(最低溫),s(風速),d(風向),a(天氣現象));
4)對天氣預報向量使用KNN 分類算法,看其屬于哪個聚類簇;
5)把該聚類簇中的所有歷史數據全部取出來,計算其機房各個參數的方差,同時給重要的控制參數分配較大的權重(供水溫度、回水溫度、瞬時流量、瞬時熱量、機組開啟臺數、功率值),該天的評分值為各個機房參數得分之和;
6)根據評分倒序排序,最小得分的說明其運行狀況比較平穩,取其最小得分的那天即為最佳參考日。
選用基于深度學習的RNN 預測模型,RNN 由于其特性,所以應用也很廣泛,如應用于氣象數據預測[17],當然也有其應用最廣的語音識別研究等[18]。
預測模型設計步驟:
1)由于特征較多,采用PCA 降維,將一些不重要的特征省去;
2)將歷史的機房數據、氣象數據、室內數據處理成時序向量;
3)將歷史數據的3/5 進行RNN 建模訓練,1/5用作交叉驗證集,1/5 用作測試集,輸入數據為機房、氣象、室內三類向量,輸出為相對應時刻的后20min的機房調控數據;
4)實際訓練模型中有可能存在過擬合問題,采用Dropout 方法來對神經網絡進行正則化,隨機隱去隱層中某些神經元及其權重鏈接,限制模型的更新,本文Dropout定為0.1;
5)測試時,輸入前一個時間段的機房、氣象、室內向量,輸出為接下來20min 的機房控制參數,用RMSE和MAE評價預測結果。
數據集選用的是某公司的站點數據,數據來源是某地的樓宇空調運行數據。數據包括氣象站數據、室內溫度數據、機房數據,數據均是每五分鐘采集一次,從2016年7月1日至2016年9月30日。
原始數據如表1~3所示(部分)。

表1 氣象站數據

表2 室內溫度數據

表3 機房數據
最佳參考日模型預測結果展示:
如天氣預報向量為F(32,22,1,5(風向),12(表示一種天氣現象)),通過K-means 聚類后再KNN 分類,這個天氣預報向量屬于第6 類,共包含23 個歷史天氣數據點,對其機房數據進行評分,按評分從低到高排序(分值越低說明越穩定),如圖2。

圖2 評分排序表
由上圖可以得出,對于天氣預報向量F 來說,最佳參考日為8 月15 日,當天的天氣狀況為小雨,機房的運行狀況比較平穩,可以把當天的運行參數作為最佳的參考數值。
深度學習預測模型評價指標:因研究的是回歸類的問題(預測下一個時間段的控制參數實數值),所以評價指標使用RMSE、MAE,RMSE 和MAE 的計算公式如下:

預測結果真實控制數據和預測控制數據對比如圖3。

圖3 預測參數的對比
第一組是供水溫度,第二組是回水溫度,第三組是瞬時熱量,第四組是瞬時流量,第五組是功率,第六組是機組運行數量。由上圖可以看出,模型預測的參數與真實值相差較小,說明模型構建的較好,可以更加精確地預測未來某段時間的重要控制參數。
本文構建了基于距離的最佳參考日模型和基于深度學習的控制參數預測模型,最佳參考日模型通過對一類中的待選參考日進行評分排序,得到了更加接近實際狀況的參考日,對未來的運行情況有一個更好的參照標準;基于深度學習的控制參數預測模型通過對歷史數據使用RNN 建模,能夠較精確地得到接下來某個時間段的主要控制參數,對未來的運行狀況能夠提供決策作用,通過與實際的運行參數相比較,證明預測得到的運行參數與真實狀況相近,這樣,既能得到整天的宏觀參考日,又能得到某個時間段的微觀控制參數,對樓宇空調有重要的決策意義。