建筑能耗異常數據的識別算法設計與仿真

2022-06-14 10:07:40蘇一帆

計算機仿真 2022年5期

趙山，蘇一帆

(華北水利水電大學土木與交通學院，河南鄭州 450045)

1 引言

建筑能耗在通常情況下是指建筑從建設前的材料、施工、到投入使用的整個過程中產生的能耗，這些能耗的計算是每個建筑企業管理過程中不可或缺的內容[1]。能耗計算是建筑的一種高級能耗分析形式，可針對建筑中的全部用能項目類別數據進行統計和計算，其可用于建筑成本的分析，掌握建筑各個項目類別的能耗情況，對建筑成本掌控具有重要意義[2]。但是在對這些數據計算時，會存在缺失或者受損，以及無效等異常數據，這些異常數據對于計算的結果存在較大影響。當數據中含有的數據類別較多時，識別的結果越容易受到影響。因此，在對各類能耗計算時，需準確識別能耗數據中的異常數據，保證計算結果的準確性。回歸分析是一種用于數據分析的方法，其可通過相關的數據統計結果，針對數據間存在的某些關聯構建回歸分析方程，用于完成數據分析。回歸分析存在兩種方式，分別為線性以及非線性分析，回歸分析使用過程中需要以數據為依據，構建回歸方程后求解回歸系數，采用相關性對其進行檢驗，獲取相關系數，將其與實際情況相結合，確定目標的實際情況，實現需求的分析[3]。

當下用于識別建筑能耗異常數據的方法較多，例如文獻[4]提出的基于分層聚合的異常數據識別算法和文獻[5]提出的基于DCNDA算法的異常數據識別算法，均可完成單屬性數據集中的異常數據識別，但是在多屬性數據集中的異常數據識別的效果相對不夠理想，異常數據數量越多，其識別效果越差，識別的相關系數較低。基于此，本文提出基于回歸分析的建筑能耗異常數據識別算法，以回歸分析理論為依據，構建回歸模型，實現建筑能耗異常數據的識別，保證異常數據可被準確識別。

2 基于回歸分析的建筑能耗異常數據識別

2.1 建筑能耗異常數據挖掘

2.1.1 數據挖掘

數據挖掘是識別的基礎，為完成異常數據識別，需對建筑能耗數據進行挖掘[6]，本文采用梯度提升回歸樹完成建筑能耗數據挖掘，將建筑能耗數據定義為目標數據。該算法挖掘目標數據過程中，以挖掘目標數據的關聯主特征為目標，則輸出為

(1)

式中：f表示特征；k和k-1分別表示第k個和第k-1個數據。

為獲取目標數據的密度特征，通過回歸樹分析方法完成，該特征屬于統計分布概率，其計算公式為

(2)

式中：一個更新周期的差距存在tn+1和tn兩個時刻；D表示量化特征分布集，屬于本文算法進行挖掘的目標數據，求解互為信息量，且屬于目標數據，采用梯度提升回歸樹完成[7]，其計算公式為

(3)

(4)

梯度提升回歸模型的建立依據多隊列調度方法完成，si={xj：d(xj，yi)≤d(xj，yl)}表示訓練集，其中，d表示交互性統計數據，其屬于目標數據；以其為依據獲取目標數據的挖掘幀序列[8]

MinWH=min{w(cc)，h(cc)}

(5)

(6)

核函數依據式(5)和(6)的結果構建，對加權進行調整后可得出目標數據的統計輸出和幾何鄰域[9]，分別為Nj*和NEj*(t)，同時獲取目標數據挖掘的模糊聚類中心，其為

U={μik|i=1，2，…，c，k=1，2，…，n}

(7)

為獲取回歸樹目標數據的分析目標函數，以關聯規則為參考，其公式為

(8)

優化后聚類中心為

(9)

(10)

式中：適應度函數用m表示；xk表示目標數據樣本；Vi表示關聯數據樣本；dik表示兩者間的測度距離。空間聚類分布通過挖掘結果獲取，其為

(11)

式(11)需滿足(12)的條件：

(12)

2.1.2 數據融合聚類

如果x(t)表示目標數據挖掘區域的離散序列，t=0，1，…，n-1；梯度提升基函數則用式(13)表示，且其屬于設置的每一個隊列范圍內

u=[u1，u2，…，uN]∈RmN

(13)

目標數據挖掘最大梯度差的獲取，需對目標數據的丟包率和傳送延時進行分析后計算得出[10]，其公式為

(14)

關聯指向性特征通過式(15)獲取，且屬于目標數據回歸樹，其為

(15)

目標數據梯度差異化信息特征的提取在差異程度明顯的情況下完成，且該差異屬于梯度特征；為獲取挖掘目標數據的輸出，對挖掘到的數據進行融合[11]，得出輸出結果

(16)

式中：差異化的隊列融合屬性數據分別用X、Y表示；密度函數分別用P(X)、P(Y)表示；概率分布用P(X∩Y)表示。

2.2 基于自回歸模型的異常數據識別

2.2.1 自回歸模型

基于回歸分析理論構建自回歸模型，其可根據變量自身存在的規律完成。為準確識別目標數據中的異常數據，本文將殘差平方和(SSE)引入模型中，完成新的統計量建立，用于識別數據中的異常數據[12]。回歸模型公式為

yi=β0+β1xi1+β2xi2+…+βpxip+εi，i=1，2，…，n

(17)

式中：回歸系數用βj(j=0，1，…，p)表示；隨機誤差和階數分別用εi和p表示。

異常數據識別變量用γi表示，將其引入各個識別數據中，引入γi后模型成為均值轉移模型，其為

yi=β0+β1xi1+β2xi2+…+βpxip+δiγi+εi，

i=1，2，…，n

(18)

根據式(18)可知數據是否為異常值，可通過γi判斷。

模型在進行異常數據識別時，無法確定是否存在異常數據，因此，如果異常數據不存在模型中，則模型可通過式(19)表示

Y=Xβ+ε

(19)

SSE=YT(I-H(X))Y

(20)

2.2.2 異常數據的計算和識別

將獲取的差異化屬性數據特征分別輸入至模型中，通過模型進行異常數據的計算和識別。

如果輸入模型中的數據為異常數據，則表示γk=1，δk則表示該異常數據的大小；除此之外的數據均為非異常數據，則此刻SSE的計算公式為

SSEk=(Y-δkIk)T(I-H(X))(Y-δkIk)

(21)

(22)

將式(22)的結果帶入式(21)中進行求解后得出SSEk=SSE-Δk，其中

(23)

式中：在數據為異常數據的情況下，Δk表示殘差平方和。

3 測試分析

選取某建筑企業2019年多屬性建筑能耗統計數據集為測試對象，數據集數量共1550個，該數據數量中包含兩種異常數據，分別為缺失數據和無效數據。數據集中包含三種屬性數據，分別為建筑材料數據數量650個(異常數據24個)、施工數據550個(異常數據17個)、投入使用數據350個(異常數據5個)。采用Matlab軟件完成，回歸樹迭代次數為200次。

數據特征分布集的挖掘是異常數據識別的基礎。采用本文算法挖掘數據集，獲取數據特征分布集，結果見圖1。

圖1 數據特征分布集

根據圖1測試結果可知：獲取的數據特征分布集中，分散三種數據的特征，說明本文算法具備數據特征挖掘性能，可獲取數據集中不同屬性的數據特征分布集，為異常數據識別提供依據。

為分析本文算法的特征挖掘效果，采用文本算法對圖1獲取的數據特征分布集進行挖掘，獲取不同屬性數據特征，用于分析本文算法數據挖掘效果，結果見圖2。

圖2 空間聚類分布結果

根據圖2測試結果可知：本文算法可根據不同特征的聚類中心，有效完成不同屬性數據特征聚類，并且實現不同屬性特征的分類聚類。該結果表明：本文算法的聚類效果良好，可有效依據不同數據特征屬性，可靠完成數據的特征分類聚類。

為測試本文算法對于異常數據的識別效果，進行異常數據識別，在單屬性施工數據特征中第35個識別數據上引入大小為-22的缺失數據，測試本文算法對其識別效果，見圖3；在單屬性建筑材料數據特征中第125個和155個識別數據上，分別引入大小為19和-16的無效數據和缺失數據，測試本文算法對其識別效果，見圖4；在多屬性數據中，第445個識別數據上，同時引入大小為31和-34的無效數據和缺失數據、第1265個識別數據上，同時引入大小為38和-44的無效數據和缺失數據，測試本文算法的識別效果，見圖5。

圖3 單一屬性數據中的一種異常數據識別結果

圖4 單一屬性數據中的多種異常數據識別結果

圖5 多屬性數據中的多種異常數據識別結果

根據圖3、圖4和圖5測試結果可知：單一類型數據中只存在一種異常數據時，本文算法可較好完成異常數據的識別；當存在的異常數據為多種時，依舊可準確識別出引入的所有數據；在綜合類數據中，當兩種異常數據同時出現在一個識別數據上時，本文算法仍能夠可靠完成異常數據的識別；同時，在識別引入的異常數據的同時，數據集中原有的異常數據均可有效識別出。該結果表明：本文算法可同時完成單一數據中已有的和引入的異常數據識別；綜合數據中的已有的和引入的并發多種異常數據識別，并且識別效果良好，在不同類別的異常數據同時存在一個數據上時，依據可準確識別。

為進一步衡量本文算法對于異常數據的識別性能，將文獻[4]的基于分層聚合的異常數據識別算法和文獻[5]的基于DCNDA算法的異常數據識別算法作為本文算法的對比算法，以相關系數作為衡量標準，采用三種算法對數據中的異常數據進行識別，計算三種算法識別的相關系數，以此分析三種算法的異常數據識別性能，結果見圖6。相關系數值越高，表示算法的識別性能越好。

相關系數計算公式為：

(24)

圖6 三種算法的相關系數測試結果

根據圖6測試結果可知：對多屬性數據集的異常數據進行識別時，本文算法識別相關系數值最佳，并且異常數據量的增加，相關系數值的變化較小，沒有受到數量增加的影響，呈現緩慢小幅度的增長趨勢；兩種對比算法異常數據識別的相關系數值明顯低于本文算法，并且異常數據數量的增加，兩種算法相關系數呈顯著下降趨勢，說明在多屬性數據集中的異常數據數量越多，兩種算法的識別效果降低。該測試結果表明：本文算法的異常數據識別性能良好，多屬性數據集中異常數據識別的相關系數均在0.972以上，顯著優于兩種對比算法。

4 結論

建筑能耗數據對于建筑企業的成本預算和利潤計算存在直接關聯，因此，各建筑企業需依據建筑能耗數據完成能耗計算。由于數據中會存在各種異常數據，對于計算結果存在直接影響，本文提出基于回歸分析的建筑能耗異常數據識別算法，識別建筑能耗數據中的異常數據。經測試：該算法具備較好的數據分類聚類效果，可根據數據屬性的差異完成數據特征挖掘，并且有效完成多屬性數據中異常數據的識別，識別性能優于兩種對比方法，可用于建筑能耗異常數據的識別，保證識別結果具備良好的可靠性，為建筑企業的成本預算以及利潤核算提供可靠依據。