王 群
上海碳索能源服務股份有限公司
冷水機組是暖通空調系統主要耗能設備,最高可達60%~70%的比例,因此對冷水機組開展節能及故障診斷的工作意義重大。
冷水機組的模型分為黑箱、灰箱模型[1]。黑箱為純數據驅動模型,隨著人工智能發展,黑箱模型在實際工程中的應用越來越廣,但其解釋性較差?;蚁淠P徒⒘死渌畽C組的物理模型,通過數據統計的方式確定其中的因子,比較常見的灰箱模型包括SL、BQ、MP、GNU、GNS 及LS 模型,本文采用實際項目數據對該6種灰箱模型進行評價。
實驗數據采用項目數據,數據字段為810-814,602,601,719,739,此外還采用杭州氣象數據(字段1078)。原始數據見表1。
建立模型需要的數據包括:冷凍水供回水溫度T_rchw、T_schw,冷凍水流量F_chw,冷凍機主機功率P,冷卻水回水溫度T_rcow。采用的項目數據中缺少冷卻水數據,因此根據虹橋機場氣象數據進行推測。在此處假設冷卻水回水溫度比濕球溫度高3 ℃。除此之外,原始數據的預先處理還包括:
1)去除冷凍水流量、冷凍水供回水溫度無數據點,若此行有一個數據無效點,則刪除此行;
2)判斷冷機單獨運行的時間。判斷依據為:如果該數據點的有功功率小于10 kW,則判斷該時間點冷機沒有運行。如果一數據點只有1臺有功功率大于10 kW,則認為該時間點該冷機單獨工作。經處理后,1~4 號主機單獨工作的數據點分別有861、1 932、714、1 862個;
3) 根據時間,將不同字段的數據進行鏈接,鏈接后再次去除無數據點。此項處理之后,1~4號冷機的數據點數量分別有120、741、13、162 個,根據結果,選擇2號冷機進行試驗;
4)冷機的數據包含了一些噪聲點,利用filter.py中的zscore_filter 進行數據清洗。在zscore_filter中,根據每一個變量的值計算其zscore,如果其大于閾值,則刪除該行數據,經處理后,2 號冷機剩余662個數據點。
由于經過處理之后的數據在時間上沒有延續性,因此每一個數據點可以視為獨立而與前后數據點無關聯。處理后的數據示例見表2。其中溫度單位K,流量單位為m3/h,制冷量單位為kW。為進行建模,溫度參數單位全部需要轉換為K。
數據詳情見表3。

表1 原始數據

表2 數據示例

表3 數據詳情
探究模型見表4。其中,Tci 為冷卻水回水溫度,即T_rcow,單位:℃;Two為冷凍水供水溫度,即Tschw,單位℃;Twi為冷凍水回水溫度,即T_rchw,單位℃;Qe 為制冷量,單位為kW。在6 個模型中,SL、BQ、MP Model 為數據模型(Black Box Model),GNU、GNS、LS Model 為半物理模型(Grey Box Model)。
該報告主要包含了對6 個模型的預測精度、外圍預測、數據減少、參數物理意義等方面的探究。
1) 6 個模型性能的基本探究,主要以RMSE(Root-Mean-Squre-Error)和 CV(Coefficient of Variance)為判斷依據。兩個參數的計算公式分別為:

其中,為預測值,yi為真實值,n為用來測試的數據量。
2) 6 個模型對訓練數據點以外的數據預測性能。如:利用8月的數據訓練的模型對9月COP的預測精度的研究;
3)訓練數據減少對模型性能的影響;
4)GNS、GNU、LS Model中幾個參數的物理意義研究。
4.1.1 回歸方法
在訓練模型時,主要的方法是模型線性化之后進行回歸。其中SL、BQ、MP、GNS、LS Models 均采用此方法進行回歸。
BQ 中 令,GNS、LS 中 令然后線性回歸之后進行再計算得到COP。為探究GNS、LS Model的性能,回歸時同時探究了是否有常數項時模型的表現。
在線性回歸時,分別考慮有常數項和無常數項時模型的表現。
以下為3個灰箱模型回歸時的具體參數轉化。
(1)GNU Model
GNU Model的公式為:

回歸對應公式為:
第一次回歸,y=β1x1+β2x2+β3x3+C1,

表4 探究模型
(2)GNS Model
GNS Model公式為:

回歸對應公式為:

其中,為常數項。
(3)LS Model
LS Model 公式為:

回歸對應公式為:

4.1.2 基本性能探究結果
在測試中,隨機選取2 號冷機中300 個數據點進行訓練(注:300個數據點已足夠作為6個模型的訓練數據,詳見訓練數據減少部分結果),其余數據作為測試數據。為研究噪聲數據對模型性能的影響,在有噪聲影響時(利用未過濾的2號冷機數據進行訓練),同樣選擇300個訓練數據進行訓練。
為防止在預測時單個噪聲點對模型造成較大影響,對于預測結果中COP 小于0,大于10 的結果進行之前,用預測結果的平均值替代。在實際計算過程中,此項僅在MP Model及GNU Model中有重要作用。各個模型的性能在不同數據下的基本表現見表5。
未排除預測精度的隨機性,重復100 次試驗得到測試的平均值見表6。
根據預測結果:
在沒有噪聲的情況下,除無常數項的GNS、LS Model外,6個模型在數據量足夠的情況下表現差異不大,預測的相對誤差CV均在6%~7%之間,其中MP Model 預測精度最高,其次為含常數項的GNS Model;
GNU Model由于訓練過程較為復雜,需要對預測結果進行修正,以防止單個反常點對模型精度產生較大的影響;
有噪聲數據時,6個模型平均的預測精度均出現了一定程度的下降,但總體還是保持了較好的準確率。在沒有進行結果的修正之前,MP Model 的CV高達190%,模型本身對噪聲相當敏感,容易出現單個點偏離值異常;

表5 模型基本表現

表6
在沒有常數項 C 時,GNS、LS Model 預測結果均不理想,而GNU Model 表現與含常數項相差不大。
6 個模型的預測性能(無噪聲訓練數據)詳見圖1。
探究訓練模型對未來數據的預測能力是模型性能探究的重要部分。將2號機數據按月分為三部分,其中包括 175 條 8 月數據點,294 條 9 月數據,198 條 10 月數據。三組數據中 COP 均為 3~6 之間。比較的內容包括:6 個模型利用8 月數據訓練對 9 月 和 10 月 進 行 預 測 Aug-> Sept、Aug->Oct、Aug->Sept,Oct,利用9月數據訓練對10月進行預測Sept-> Oct,利用8、9 月數據訓練對10月進行預測Aug, Sept-> Oct;為了比較各個月的數據量不同對結果的影響,每個月的數據量根據最少數據月(8 月)進行隨機去除,并用去除后的數據進行試驗,重復試驗50 次,最后將結果進行平均。預測結果見表7。

圖1 6個模型的預測-真實值散點圖(19:含常數項,20:不含常數項)
表7 中綠色表示模型CV 值小,紅色表示CV值大。典型的模型預測-真實值散點圖見圖2。
對比預測結果:
各個模型對外圍數據的預測并不精確,僅8月數據對9月的預測結果較好,而其他項模型的CV值較大,預測結果不理想;
根據各預測結果的平均CV,排除隨機性 ,SL Model、BQ Model 和 無 常 數 項 的 LS Model 對未來數據的預測最差,其他5 個模型的性能差異不大,灰箱模型的表現稍好于數據驅動模型;
對所有模型而言,主要誤差來源為預測得到的COP 偏小,BQ Model 還存在部分點預測COP偏大;
在此項預測中,GNS Model結果較為穩定,但由于其基礎誤差較大,參考意義不高。
為得到模型在不同的訓練數據下的預測表現,隨機選取n條數據,對模型進行訓練,然后用剩余數據作為測試數據,計算該模型的CV。經過30 次隨機之后,對所得的結果進行平均即為該模型在此數據量中的表現。6 個模型的表現見圖3,由于GNS Model 在沒有常數項時表現過差,在后面的討論中不再提及。在測試過程中注意訓練誤差和測試誤差的變化,以預防過度擬合。
根據模型在預測時的精度做出的三色圖(N 表示無常數項)見圖4。圖中,從上往下訓練數據條數依次增大,綠色表示CV值較?。?6.5%),紅色表示CV值較大(>9%)。

表7 模型對未來數據的預測表現

圖2 未來數據預測的典型預測-真實散點圖

圖3 模型在訓練數據減少時的CV值(小圖為訓練誤差和測試誤差)
結合各圖,可以看出:
在數據驅動模型中,SL 模型收斂最快,MP次之,BQ 最慢,在數據量足夠時BQ Model 和MP Model 模型預測精度更高,BQ、MP Model 在數據量達到125 條之后數據增加對模型的表現影響不大;
GNS Model 在沒有常數項時不能很好擬合數據,無論是訓練誤差還是預測誤差都較大;
相比數據驅動模型,灰箱模型所需要的訓練數據更少,在數據較少的情況下,灰箱模型明顯有更好的預測精度;
LS Model 在沒有常數項時表現精度不高,而加入常數項后表現較好。
GNU N Model 和 GNS Model 在 所 有 模 型中表現最好,其需要的訓練數據少,約75 條模型的訓練誤差和測試誤差即相差不多,GNU Model 的參數更有物理意義,GNS Model 則擁有較高的預測精度,其他模型與這兩個模型的表現相差較大。

圖4 訓練數據減少時模型CV三色圖(Min:6.5%,Max:9%,Medium:7.5%)
在6 個模型中,有GNS、GNU、LS 均為灰箱模型。為將模型應用于故障診斷,此報告包含對模型參數物理意義的探究。
4.4.1 GNU Model
GNU Model的公式為:

回歸對應公式:
第一次回歸,y=β1x1+β2x2+β3x3+C1,
其中,β1~β3均有各自的物理意義:
β1— ΔS,由于內部不可逆性,冷水機組總內熵產生率,
β2— Qleak,熱量損失/增加率來自或進入冷水機組,
β3——R,總換熱器熱阻。
GNS Model公式為:

回歸對應公式為:

β1~β3為該冷機的熵增特性(characterize the entropy generation of a particular chiller)。4.4.3 LS Model

LS Model 公式為:

回歸對應公式為:

該模型的參數意義理論上與GNS Model相似,均是冷機的熵增特性。,

4.4.4 結果及討論
在現有的數據中隨機選擇足夠多的數據進行反復訓練,即得到該數據集的參數分布。此報告中選擇200~250 條數據,每個數據量隨機重復50次,從而得到2 500 次訓練的參數。由于GNU Model 無常數項的表現,因此不再考慮加入常數項后的模型,而GNS、LS 模型,則需考慮加入常數項后的模型。
GNU Model
各參數分布圖(橫軸為參數值,縱軸為頻數)
根據理論,β1~β3分別對應熵增ΔS, 熱損Qleak,換熱器熱阻R。某一典型(冷機功率3~4 kW)的回歸結果見圖5,結合數據來源冷機的功率(Pmean=1961 kW)。統計結果見表8,回歸結果見表9。
初步判斷,β1、β2、β3的分布范圍不大,遵循正態分布,具有物理意義,可以作為故障診斷的依據。但在回歸時可能會有比較意外的值出現,因此建議多次隨機取數據點訓練之后得到參數的平均值。此外,對β2,由于與試驗結果的符號不同,因此建議通過實際測量數據進行校對,以確認其符號。

圖5

表8 統計結果

表9 典型的GNU Model回歸結果
含常數項時各參數分布見圖6(橫軸為參數值,縱軸為頻數)。
不含常數項時各參數分布圖見圖7(橫軸為參數值,縱軸為頻數)。
根據J.M.Gordon等人的試驗,典型的結果見表9,其中A0~A2對應β1~β3,同時與沒有常數項的回歸結果對比發現,實際得到的參數分布和實驗數據差別較大,因此物理意義有待確認。
LS Model
含常數項時各參數分布圖(橫軸為參數值,縱軸為頻數)見圖9。
·GNS Model

圖6 含常數項時各參數分布

圖7 不含常數項時各參數分布

表10 統計結果(N 表示無常數項)

表11 某試驗結果
不含常數項時各參數分布圖(橫軸為參數值,縱軸為頻數)見圖10,統計結果見表10。
根據結果,發現在加入常數項后各參數的分布發生了巨大變化,因此認為在加入常數項后,LS Model參數不再具有的物理意義。
經過華為數據的試驗,所探究的6 個模型在冷機COP 預測上均能達到較高的精度。各個模型的特點總結見表11。
從故障診斷的角度看,GNU Model 和GNS Model 兩種模型具有較好的前景。GNS Model 的參數雖然物理意義待確認,但仍可以作為換熱器工作狀況的一項指標,且其要求的訓練參數較少,很快模型即可穩定;GNU Model 的參數可以用來診斷制冷劑在循環中的流動情況、機組換熱器的工作情況等。但是,具體的診斷過程需要有相應的數據才能進行更好的研究。相比之下,GNU 模型的性能更為優秀,其各個參數物理意義較為明確,各參數基本遵循正態分布,對訓練數據的要求較少,可以作為故障診斷的冷機模型。

圖8 含常數項時各參數分布圖

圖9 不含常數項時各參數分布圖

表12 統計結果(N 表示無常數項)

表13 模型探究總結