超參優化的ReliefF-SVM在制冷劑充注量故障診斷的應用

2021-03-31 09:02:22徐暢李紹青李正飛陳煥新

制冷技術 2021年1期

徐暢，李紹青，李正飛，陳煥新

（華中科技大學能源與動力工程學院，湖北武漢 430074）

0 引言

現代社會，空調已經是建筑不可或缺的一部分，但是在空調長期運行的過程中，故障的出現往往是無法避免的，KATIPAMULA 等[1]認為因空調設備故障和不合適的控制設備會導致15%～30%的能源浪費。制冷劑充注量是影響制冷系統總體性能的重要參數，當制冷系統長期運行時，制冷劑容易泄漏，從而使制冷劑充注量偏離正常值的范圍。這種故障會導致制冷量、制熱量和制冷效率、制熱效率的下降，進而造成巨額的經濟損失[2-3]，同時會導致壓縮機內部溫度升高，并且帶來潤滑油的高溫劣化和機械部件的磨損和燒毀[4]，關鍵的是，在復雜的實際工況下，可能導致比實驗更復雜的情況[5]。所以對制冷劑充注量故障的及時且高準確的診斷十分必要。對于制冷機系統的故障診斷的傳統方法是通過專家知識，讓制冷機系統停機并對相關部位進行拆機檢修，這種方法耗時耗力且準確率也不高。然而，在部分工業的特殊場合，制冷機可能根本無法停機檢修。基于數據驅動的制冷機故障檢測克服了傳統故障檢測上的不足，不僅提高了診斷的效果，也大大節省了故障檢測所消耗的人力物力[6]。目前已有一部分學者對基于數據驅動的制冷機的故障診斷進行了相關方面的研究，但是對于基于數據驅動的制冷機充注量故障研究較少。徐廷喜等[7]使用支持向量數據描述算法對變頻空調的制冷劑泄漏進行故障檢測。袁玥等[8]采用主成分分析（Principal Component Analysis，PCA）算法進行主元提取后，將主元導入反向傳播（Back Propagation，BP）網絡中進行制冷機充注量故障診斷，發現PCA-BP 模型相較于傳統的BP 神經網絡節約了計算時長及計算空間，同時該算法也具有泛化能力。XU 等[9]研究了一種基于主元分析法和改進小波分析的冷水機組傳感器故障檢測與診斷及性能評估方法，表明了該方法在診斷性能上比PCA 更為優異。ZHAO 等[10]提出了一種基于貝葉斯置信網絡的三層診斷貝葉斯網絡模型，對冷水機組進行故障檢測與診斷，發現基于貝葉斯置信網絡所提出的策略可以利用有關冷水機組的更多有用信息和專家知識，針對不確定、不完整和沖突的信息依然有高效的診斷性能。

本文提出一種ReliefF-SVM（支持向量機，Support Vector Machine）算法，并對其算法進行網格搜索與十折交叉驗證進行超參調優，旨在提出一個新的診斷模型，為制冷機充注量的故障診斷提供一個新的診斷思路。

1 實驗裝置及數據

1.1 實驗裝置

實驗裝置采用的是R410A，31.5 kW 的多聯機（Variable Refrigerant Flow，VRF）系統，正常工況下其制冷劑充注量為9.9 kg。其室內機和室外機的額定功率分別為29.7 kW 和28 kW，圖1所示為VRF 實驗系統原理，圖中標明了主要的測量傳感器，其中更為細節的部分可參考文獻[11-12]。

圖1 VRF 實驗系統原理

1.2 實驗數據

此次研究所用的數據是由VRF 空調系統在不同水平的制冷劑充注量下測得，設置的制冷劑充注量區間在設計值的60%～130%，含有制冷劑充注量不足、正常與過量的情況，按制冷劑充注量分為3類，如表1所示，分類標簽中-1 代表不足，0 代表正常，1 代表過量。

表1 制冷劑充注量水平類別

制冷劑充注量對系統的正常運行非常重要，且制冷劑充注量故障的情況時有發生。如沒有按規定充注、管道堵塞、操作不當和設備腐蝕老化等都可能導致制冷劑充注量故障，影響系統的正常運行。

本文對實驗數據中各類特征變量的選擇參考于相關文獻[13]，選擇了18 個可能對系統運行產生影響的參數，如表2所示。

表2 系統充注量故障實驗變量

原始數據可以表示為：

式中，Y為分類標簽。原始數據中樣本數為69,112。隨機抽取3/4 為訓練集，剩下1/4 為測試集，故訓練集和測試集數據樣本分別為51,834 和17,278。

2 ReliefF-SVM算法

ReliefF-SVM 算法應用于制冷劑充注量故障的基本思路是：先將制冷劑充注量故障分為不足、正常和過高3 個不同的標簽，當所有數據都按照標簽分類后，把數據所有列舉出的特征變量導入ReliefF中，根據特征變量與標簽的關系，ReliefF 將標簽重要程度最高的7 個特征變量提出，作為SVM 的輸出，最后在通過超參調優得到最終預測模型。

2.1 ReliefF 算法

RelieF 評估最早由KIRA 提出[14]，當時只能用于解決兩類的分類問題，1994年KONONENKO[15]將RelieF 算法擴展到了ReliefF，可以解決多類問題和回歸問題，而且補充了對缺失數據情況的處理。該系列算法的主要特點是利用特征對近距離樣本的區分能力來評價特征變量。核心思想為：好的特征會使同類的樣本接近，使不同類的樣本遠離[16]。

ReliefF 算法在進行多類的特征選擇工作時，對于特征A，每次從訓練集中抽一個樣本點Ri，然后在他的同類數據中找出來k個最鄰近的樣本H，再從不同類的數據中也分別找k個最鄰近樣本M，之后依照式(2)不斷更新該特征的權值，循環計算m次直至所有樣本依次計算完畢，得到單個特征的最終權值。

ReliefF 算法的權值更新計算公式：

式中，p(C)為在訓練樣本中屬于類別C的樣本所占比值；p(class(Ri))為與Ri同類的樣本占總樣本的比值；d(A,Ri,Hj)為Ri和Hj在特征A上的歸一化距離。

ReliefF 有較高的評估效率，且對數據的類型沒有限制要求，是公認的效果較好的過濾式的特征評估算法，能夠很好去除無關特征，但ReliefF 算法不能去除冗余特征[16]。該算法有過濾式算法的典型特征，即省去了對特征子集的分類器進行訓練的步驟，故減少了計算量，簡單高效[17]。本文中使用的原始數據集樣本較多，使用ReliefF 算法可以高效找到合適的特征變量。

2.2 支持向量機

支持向量機（SVM）是一種較新的數據挖掘算法，已經在模式識別、回歸分析等許多領域里都有了很快的發展，它的分類功能也被廣泛應用于許多方面[18]。SVM 本來是一種二分類的方法，但也可以實現多分類問題的處理。在二分類問題中，數據本身用n維向量x表示，數據類別用y 來表示，用支持向量機找一個最優的超平面wTx+b=0，讓本分類中離其最近的點和其他分類中的點距離最遠。算法結構如圖2所示。

對于兩種類別的非線性數據集Y=(xi,yi)，xi∈R，yi∈(-1,1)，i=1,2,…,n，支持向量機經由之前選擇的非線性映射（核函數K(xi,x)），把數據從開始的低維度空間映射到高維空間，然后構造一個最好的分類超平面。

分類函數如下：

式中，b為截距；α為拉格朗日乘數。

α的求解方法：

由于還存在數據異常的問題，需要對如下公式進行優化：

式中，ξi≥0 是松弛變量，對應xi可以允許偏離的量；C為懲罰因子。

為了優化上面的不等式，將其進行拉格朗日變換得到對偶形式后適當變形得到：

因此，支持向量機的核心是核函數K(xi,x)。

圖2 支持向量機算法結構

2.3 超參優化策略

本文把網格搜索和十折交叉驗證這兩種方法結合起來對基于支持向量機的模型進行優化。網格搜索的方法應用于確定模型的參數，將區域劃分出區間，并對區間內的參數進行逐一尋優，最后找到誤差比較小的最優解。這種方法可以避免只能盲目隨機或只靠經驗來尋找參數的狀況，進一步減少了尋優所需的時間，還可以有效提高最終所選參數的準確性。在網格搜索尋找參數之后，還要用交叉驗證來防止模型出現過擬合的情況，對泛化誤差進行無偏估計。本次交叉驗證采用十折交叉的方法。所謂十折交叉驗證，就是在訓練模型之前，把訓練數據隨機地分成10 等份，然后輪流用其中的9 份數據來構建模型，用剩下的一份對訓練出的模型進行評估，所以需要重復進行10 次，所以稱為十折交叉驗證。

3 超參優化的ReliefF-SVM故障檢測與診斷

基于該算法的制冷劑充注量故障診斷分為特征提取、訓練模型、超參優化和故障檢測4 個部分，其中特征提取的取出原始特征變量中與標簽重要程度最大的前幾個變量，可以有效剔除數據中的冗余變量增加故障檢測精度與效率，再將處理后的數據導入模型進行訓練，通過超參優化得到較好的訓練模型。具體流程如圖3所示。

圖3 基于特征工程的制冷劑充注量故障檢測與診斷流程

3.1 故障檢測與診斷

將原始18 個特征變量與對應標簽由ReliefF 處理后，得到各個特征變量對應標簽的重要程度，本文取前7 個重要程度最大的特征變量，其結果如表3所示。

表3 Relief 特征選擇后的前7 個變量

將得到的7 個變量輸入默認參數下的支持向量機模型中得到其混淆矩陣結果如表4所示。結果顯示，測試集的分類正確率分別為85.6%和85.3%。

表4 ReliefF-SVM 混淆矩陣結果

根據以上結果可知，默認超參下的支持向量機的訓練結果不太理想。且由混淆矩陣分析得知，3種模型中將制冷劑充注過量（1）錯誤分類為制冷劑充注量正常（0）和將制冷劑充注量正常（0）錯誤分類為制冷劑充注過量（1）的情況比較多。所以需要對模型的參數進行優化，提高制冷劑充注量故障檢測與診斷模型的準確性，其中重點是制冷劑充注過量和正常的檢測分類。

3.2 超參優化

支持向量機中有兩個比較重要的超參，即懲罰因子C和核參數γ。其中，懲罰因子C可以平衡訓練誤差還有模擬復雜度。C的值越大，模型就越復雜，數據與模型的擬合程度也會相應升高，但是可能會造成模型過擬合的現象[19]。當C的值過小時，會致使模型欠擬合。參數γ可以決定輸入空間映射到特征空間的方式，同樣影響SVM 分類算法的復雜程度[20]。所以，要提升制冷劑充注量故障檢測與診斷模型的性能，提高可靠性，準確性還有分類精度，就要找到更好的參數γ和C。其優化策略如圖4所示。

圖4 對C 和γ 值的優化策略

通過流程，對該基于支持向量機的制冷劑充注量故障檢測與診斷模型進行參數優化，找到最優的參數構建模型，并分析參數優化后3 種特征選擇算法下模型的結果。在前期幾次初步嘗試后，考慮將參數懲罰因子C范圍設定在（3，4，5，6，7），γ設定在（3，4，5，6，7）范圍內。根據網格搜索的原理，兩個參數互相結合，共有25 種組合，每個組合訓練后得到25 種故障檢測與診斷模型，最后找到分類錯誤率最小的參數組合來構建模型。最終ReliefF-SVM 中最好的SVM 參數組合為核參數γ=3，懲罰因子C=7；此時模型分類錯誤率為0.035。

表5 優化后ReliefF-SVM 混淆矩陣結果

結果顯示，訓練集和測試集的分類正確率分別為99.4%和98.8%。

從混淆矩陣和故障檢測正確率的結果可以看到，網格搜索算法可以找到更好的支持向量機參數的組合，并且十折交叉的方法也能夠有效防止模型出現過擬合的現象。這3 種方法在進行參數尋優找到更好的參數后，模型性能均有了較大的提升，針對之前遇到的，模型對制冷劑充注量正常與過量容易出現錯誤判斷的情況，優化后的模型有更好的表現，故障診斷的準確率均提高了10%左右，在測試集的準確率為98.8%。

4 結論

本文基于特征工程進行制冷劑充注量故障檢測與診斷的研究，采用ReliefF-SVM 算法，并使用網格搜索和十折交叉的方法進行參數尋優，優化模型以及更適合的特征選擇算法，得出如下結論：

1）利用ReliefF 將原始的18 個特征變量中與決策屬性高度相關的7 個變量篩選出來，相比于原始的特征屬性集，不僅可以極大提高運算的效率，也可以提前剔除冗余信息，提高制冷機充注量故障診斷的診斷性能；

2）通過網格搜索和十折交叉驗證的方法進行超參調優，發現在此診斷模型下的支持向量機中，當核參數γ=3，懲罰因子C=7 時，模型診斷性能最好，此時模型分類錯誤率為0.035；

3）同優化前相比，故障診斷的準確率提高了10%，在訓練集和測試集上的預測正確率分別達到99.4%和98.8%。