趙 山,蘇一帆
(華北水利水電大學土木與交通學院,河南 鄭州 450045)
建筑能耗在通常情況下是指建筑從建設前的材料、施工、到投入使用的整個過程中產生的能耗,這些能耗的計算是每個建筑企業管理過程中不可或缺的內容[1]。能耗計算是建筑的一種高級能耗分析形式,可針對建筑中的全部用能項目類別數據進行統計和計算,其可用于建筑成本的分析,掌握建筑各個項目類別的能耗情況,對建筑成本掌控具有重要意義[2]。但是在對這些數據計算時,會存在缺失或者受損,以及無效等異常數據,這些異常數據對于計算的結果存在較大影響。當數據中含有的數據類別較多時,識別的結果越容易受到影響。因此,在對各類能耗計算時,需準確識別能耗數據中的異常數據,保證計算結果的準確性。回歸分析是一種用于數據分析的方法,其可通過相關的數據統計結果,針對數據間存在的某些關聯構建回歸分析方程,用于完成數據分析。回歸分析存在兩種方式,分別為線性以及非線性分析,回歸分析使用過程中需要以數據為依據,構建回歸方程后求解回歸系數,采用相關性對其進行檢驗,獲取相關系數,將其與實際情況相結合,確定目標的實際情況,實現需求的分析[3]。
當下用于識別建筑能耗異常數據的方法較多,例如文獻[4]提出的基于分層聚合的異常數據識別算法和文獻[5]提出的基于DCNDA算法的異常數據識別算法,均可完成單屬性數據集中的異常數據識別,但是在多屬性數據集中的異常數據識別的效果相對不夠理想,異常數據數量越多,其識別效果越差,識別的相關系數較低。基于此,本文提出基于回歸分析的建筑能耗異常數據識別算法,以回歸分析理論為依據,構建回歸模型,實現建筑能耗異常數據的識別,保證異常數據可被準確識別。
2.1.1 數據挖掘
數據挖掘是識別的基礎,為完成異常數據識別,需對建筑能耗數據進行挖掘[6],本文采用梯度提升回歸樹完成建筑能耗數據挖掘,將建筑能耗數據定義為目標數據。該算法挖掘目標數據過程中,以挖掘目標數據的關聯主特征為目標,則輸出為

(1)
式中:f表示特征;k和k-1分別表示第k個和第k-1個數據。
為獲取目標數據的密度特征,通過回歸樹分析方法完成,該特征屬于統計分布概率,其計算公式為

(2)
式中:一個更新周期的差距存在tn+1和tn兩個時刻;D表示量化特征分布集,屬于本文算法進行挖掘的目標數據,求解互為信息量,且屬于目標數據,采用梯度提升回歸樹完成[7],其計算公式為

(3)


(4)
梯度提升回歸模型的建立依據多隊列調度方法完成,si={xj:d(xj,yi)≤d(xj,yl)}表示訓練集,其中,d表示交互性統計數據,其屬于目標數據;以其為依據獲取目標數據的挖掘幀序列[8]
MinWH=min{w(cc),h(cc)}
(5)

(6)
核函數依據式(5)和(6)的結果構建,對加權進行調整后可得出目標數據的統計輸出和幾何鄰域[9],分別為Nj*和NEj*(t),同時獲取目標數據挖掘的模糊聚類中心,其為
U={μik|i=1,2,…,c,k=1,2,…,n}
(7)
為獲取回歸樹目標數據的分析目標函數,以關聯規則為參考,其公式為

(8)
優化后聚類中心為

(9)

(10)
式中:適應度函數用m表示;xk表示目標數據樣本;Vi表示關聯數據樣本;dik表示兩者間的測度距離。空間聚類分布通過挖掘結果獲取,其為

(11)
式(11)需滿足(12)的條件:

(12)
2.1.2 數據融合聚類
如果x(t)表示目標數據挖掘區域的離散序列,t=0,1,…,n-1;梯度提升基函數則用式(13)表示,且其屬于設置的每一個隊列范圍內
u=[u1,u2,…,uN]∈RmN
(13)
目標數據挖掘最大梯度差的獲取,需對目標數據的丟包率和傳送延時進行分析后計算得出[10],其公式為

(14)
關聯指向性特征通過式(15)獲取,且屬于目標數據回歸樹,其為

(15)
目標數據梯度差異化信息特征的提取在差異程度明顯的情況下完成,且該差異屬于梯度特征;為獲取挖掘目標數據的輸出,對挖掘到的數據進行融合[11],得出輸出結果

(16)
式中:差異化的隊列融合屬性數據分別用X、Y表示;密度函數分別用P(X)、P(Y)表示;概率分布用P(X∩Y)表示。
2.2.1 自回歸模型
基于回歸分析理論構建自回歸模型,其可根據變量自身存在的規律完成。為準確識別目標數據中的異常數據,本文將殘差平方和(SSE)引入模型中,完成新的統計量建立,用于識別數據中的異常數據[12]。回歸模型公式為
yi=β0+β1xi1+β2xi2+…+βpxip+εi,i=1,2,…,n
(17)
式中:回歸系數用βj(j=0,1,…,p)表示;隨機誤差和階數分別用εi和p表示。
異常數據識別變量用γi表示,將其引入各個識別數據中,引入γi后模型成為均值轉移模型,其為
yi=β0+β1xi1+β2xi2+…+βpxip+δiγi+εi,
i=1,2,…,n
(18)
根據式(18)可知數據是否為異常值,可通過γi判斷。
模型在進行異常數據識別時,無法確定是否存在異常數據,因此,如果異常數據不存在模型中,則模型可通過式(19)表示
Y=Xβ+ε
(19)

SSE=YT(I-H(X))Y
(20)
2.2.2 異常數據的計算和識別
將獲取的差異化屬性數據特征分別輸入至模型中,通過模型進行異常數據的計算和識別。
如果輸入模型中的數據為異常數據,則表示γk=1,δk則表示該異常數據的大小;除此之外的數據均為非異常數據,則此刻SSE的計算公式為
SSEk=(Y-δkIk)T(I-H(X))(Y-δkIk)

(21)


(22)
將式(22)的結果帶入式(21)中進行求解后得出SSEk=SSE-Δk,其中

(23)
式中:在數據為異常數據的情況下,Δk表示殘差平方和。
選取某建筑企業2019年多屬性建筑能耗統計數據集為測試對象,數據集數量共1550個,該數據數量中包含兩種異常數據,分別為缺失數據和無效數據。數據集中包含三種屬性數據,分別為建筑材料數據數量650個(異常數據24個)、施工數據550個(異常數據17個)、投入使用數據350個(異常數據5個)。采用Matlab軟件完成,回歸樹迭代次數為200次。
數據特征分布集的挖掘是異常數據識別的基礎。采用本文算法挖掘數據集,獲取數據特征分布集,結果見圖1。

圖1 數據特征分布集
根據圖1測試結果可知:獲取的數據特征分布集中,分散三種數據的特征,說明本文算法具備數據特征挖掘性能,可獲取數據集中不同屬性的數據特征分布集,為異常數據識別提供依據。
為分析本文算法的特征挖掘效果,采用文本算法對圖1獲取的數據特征分布集進行挖掘,獲取不同屬性數據特征,用于分析本文算法數據挖掘效果,結果見圖2。

圖2 空間聚類分布結果
根據圖2測試結果可知:本文算法可根據不同特征的聚類中心,有效完成不同屬性數據特征聚類,并且實現不同屬性特征的分類聚類。該結果表明:本文算法的聚類效果良好,可有效依據不同數據特征屬性,可靠完成數據的特征分類聚類。
為測試本文算法對于異常數據的識別效果,進行異常數據識別,在單屬性施工數據特征中第35個識別數據上引入大小為-22的缺失數據,測試本文算法對其識別效果,見圖3;在單屬性建筑材料數據特征中第125個和155個識別數據上,分別引入大小為19和-16的無效數據和缺失數據,測試本文算法對其識別效果,見圖4;在多屬性數據中,第445個識別數據上,同時引入大小為31和-34的無效數據和缺失數據、第1265個識別數據上,同時引入大小為38和-44的無效數據和缺失數據,測試本文算法的識別效果,見圖5。

圖3 單一屬性數據中的一種異常數據識別結果

圖4 單一屬性數據中的多種異常數據識別結果

圖5 多屬性數據中的多種異常數據識別結果
根據圖3、圖4和圖5測試結果可知:單一類型數據中只存在一種異常數據時,本文算法可較好完成異常數據的識別;當存在的異常數據為多種時,依舊可準確識別出引入的所有數據;在綜合類數據中,當兩種異常數據同時出現在一個識別數據上時,本文算法仍能夠可靠完成異常數據的識別;同時,在識別引入的異常數據的同時,數據集中原有的異常數據均可有效識別出。該結果表明:本文算法可同時完成單一數據中已有的和引入的異常數據識別;綜合數據中的已有的和引入的并發多種異常數據識別,并且識別效果良好,在不同類別的異常數據同時存在一個數據上時,依據可準確識別。
為進一步衡量本文算法對于異常數據的識別性能,將文獻[4]的基于分層聚合的異常數據識別算法和文獻[5]的基于DCNDA算法的異常數據識別算法作為本文算法的對比算法,以相關系數作為衡量標準,采用三種算法對數據中的異常數據進行識別,計算三種算法識別的相關系數,以此分析三種算法的異常數據識別性能,結果見圖6。相關系數值越高,表示算法的識別性能越好。
相關系數計算公式為:

(24)


圖6 三種算法的相關系數測試結果
根據圖6測試結果可知:對多屬性數據集的異常數據進行識別時,本文算法識別相關系數值最佳,并且異常數據量的增加,相關系數值的變化較小,沒有受到數量增加的影響,呈現緩慢小幅度的增長趨勢;兩種對比算法異常數據識別的相關系數值明顯低于本文算法,并且異常數據數量的增加,兩種算法相關系數呈顯著下降趨勢,說明在多屬性數據集中的異常數據數量越多,兩種算法的識別效果降低。該測試結果表明:本文算法的異常數據識別性能良好,多屬性數據集中異常數據識別的相關系數均在0.972以上,顯著優于兩種對比算法。
建筑能耗數據對于建筑企業的成本預算和利潤計算存在直接關聯,因此,各建筑企業需依據建筑能耗數據完成能耗計算。由于數據中會存在各種異常數據,對于計算結果存在直接影響,本文提出基于回歸分析的建筑能耗異常數據識別算法,識別建筑能耗數據中的異常數據。經測試:該算法具備較好的數據分類聚類效果,可根據數據屬性的差異完成數據特征挖掘,并且有效完成多屬性數據中異常數據的識別,識別性能優于兩種對比方法,可用于建筑能耗異常數據的識別,保證識別結果具備良好的可靠性,為建筑企業的成本預算以及利潤核算提供可靠依據。