












摘要:針對冷水機(jī)組運行過程中數(shù)據(jù)類別不平衡問題,提出基于馬氏距離進(jìn)行“三角”區(qū)域插值的MSSMOTE方法對故障數(shù)據(jù)進(jìn)行擴(kuò)充,將得到的數(shù)據(jù)輸入CNN模型進(jìn)行訓(xùn)練,實現(xiàn)對冷水機(jī)組中7種故障的診斷。在不同擴(kuò)充比例下和同一種數(shù)據(jù)類型下分別進(jìn)行仿真測試,結(jié)果顯示:在擴(kuò)充比例為4時,MSSMOTE-CNN模型對于正常樣本測試的準(zhǔn)確率和F1-score分別達(dá)到0.961和0.971,能夠較準(zhǔn)確識別出冷水機(jī)組的故障類型。
關(guān)鍵詞:MSSMOTE-CNN模型;數(shù)據(jù)不平衡;故障診斷;冷水機(jī)組
中圖分類號:TP277文獻(xiàn)標(biāo)志碼:A文章編號:1671-5276(2024)06-0128-05
Abstract:To deal with the unbalanced data types during the operation of water chillers, this paper proposes the MSSMOTE method based on Mahalanobis distance and \"triangle\" area interpolation to expand the fault data, and input the obtained data into the CNN model for training, so as to realize the diagnosis of seven kinds of faults in water chillers. Simulation tests were conducted under different expansion ratios and the same data type. The results showed that when the expansion ratio was 4, the MSSMOTE-CNN model achieved an accuracy of 0.961 and a F1-score of 0.971 respectively for normal sample testing, which was capable of accurately identifying the fault type of the chiller.
Keywords:MSSMOTE-CNN model; data imbalance; fault diagnosis; water chilling unit
0引言
隨著國內(nèi)建筑全壽命周期能源消耗總量占據(jù)全國能源消耗總量比例的日益增高[1],如果暖通空調(diào)(heating, ventilating and air conditioning,HVAC)系統(tǒng)發(fā)生故障,不僅影響室內(nèi)環(huán)境的舒適度,而且會造成能源的大量浪費。所以設(shè)備的故障診斷研究是非常有必要的[2]。基于數(shù)據(jù)的方法在異常檢測[3]和語音識別[4-5]等領(lǐng)域都展現(xiàn)出了一定的優(yōu)勢。可以說工業(yè)互聯(lián)網(wǎng)和智能化技術(shù)的不斷發(fā)展為故障診斷技術(shù)帶來了新的機(jī)遇[6],但是在大數(shù)據(jù)背景下往往存在著極度的類別不平衡特性,即正常樣本數(shù)量遠(yuǎn)遠(yuǎn)多于故障樣本。這種情況嚴(yán)重影響傳統(tǒng)的基于數(shù)據(jù)驅(qū)動故障診斷模型的診斷效果[7-9]。本文主要針對數(shù)據(jù)采樣方法中的過采樣方法進(jìn)行改進(jìn),研究基于數(shù)據(jù)的冷水機(jī)組故障診斷方法,有助于及時識別并解決冷水機(jī)組故障。
為了獲得更具競爭力的平衡效果,基于過采樣的方法主要關(guān)注少數(shù)樣本,采用各種采集少數(shù)樣本的思想來擴(kuò)展其樣本集的大小。隨機(jī)復(fù)制幾種類型的樣本是一種相對簡單的采樣思想,但單個復(fù)制的樣本只重復(fù)原始樣本信息,往往會導(dǎo)致分類模型的過擬合[10]。面向不平衡數(shù)據(jù)集的分類方法,一般基于SMOTE改進(jìn)的過采樣方法是將SMOTE方法與密度思想或者k-means聚類思想相結(jié)合,或者通過賦予選擇權(quán)重,以達(dá)到較好的樣本平衡化效果。有通過構(gòu)建穩(wěn)定空間和改變插值方式來降低樣本重疊性,進(jìn)而對故障數(shù)據(jù)進(jìn)行有效擴(kuò)充的[11],還有通過改變距離的度量方式來優(yōu)化數(shù)據(jù)擴(kuò)充方法的[12]。除此之外,還有很多基于支持向量機(jī)的平衡化樣本方法,其實驗結(jié)果較傳統(tǒng)的分類算法具有更好的性能和更高的精度。
實際冷水機(jī)組運行過程中通常存在類別不平衡以及多類型故障識別準(zhǔn)確率低的問題。針對這兩種問題,本文提出一種改進(jìn)的MSSMOTE樣本平衡化方法。最后將平衡化后得到的數(shù)據(jù)集輸入CNN模型進(jìn)行訓(xùn)練,實現(xiàn)對冷水機(jī)組運行過程中多類故障的診斷。
1基于MSSMOTE-CNN的故障診斷模型
1.1故障的類型
根據(jù)COMSTOCK等[13]對美國主流冷水機(jī)組產(chǎn)品進(jìn)行的調(diào)查,同時列出了7種值得研究的故障類型,如表1所示。
在同一條件下,由于不同故障類型和同一故障類型的不同方面都有一定的影響,這會大大增加故障診斷模型構(gòu)建的難度。
1.2數(shù)據(jù)擴(kuò)充方法的對比
在傳統(tǒng)SMOTE方法的基礎(chǔ)上,SSMOTE和MSMOTE分別在插值方式和距離度量方式上進(jìn)行了改進(jìn)。本文將利用SSMOTE方法的插值方式改進(jìn)MSMOTE方法樣本重疊性低的問題,其中SMOTE、SSMOTE和MSMOTE在距離度量方式和插值方式上的對比如表2所示。
1.3改進(jìn)的MSSMOTE方法
由于MSMOTE方法的聚類效果好,但是采用線性插值導(dǎo)致樣本重疊性較高,而SSMOTE方法的聚類效果較差,而采用的“三角”區(qū)域插值能降低樣本重疊性。為了得到更好的聚類效果,同時降低樣本重疊性,將SSMOTE方法中的“三角”區(qū)域插值方式與MSMOTE方法基于馬氏距離這兩個方式相結(jié)合,以改進(jìn)MSMOTE方法樣本重疊性低的問題,以下是基于改進(jìn)后的MSSMOTE方法的具體步驟。
1)利用式(1)計算故障樣本集X∧min中的任意一個樣本X∧min,i到X∧min中其他樣本的馬氏距離,篩選出其中最小的k個樣本作為近鄰樣本,并記為X∧min,j。將少數(shù)類樣本X∧min,i與其近鄰樣本組合成形式為x∧min,i,x∧min,i1,x∧min,i2,…,x∧min,ik的樣本組。
式中:S-1為S的逆矩陣,S為樣本協(xié)方差矩陣;k一般取值為5。
2)對于每個樣本組{x∧min,i,x∧min,i1,x∧min,i2,…,x∧min,ik},統(tǒng)計其中的樣本x∧min,i1~x∧min,ik所對應(yīng)的故障類型標(biāo)簽,并設(shè)定比率閾值rs。對于樣本X∧min,i, 若在k個近鄰樣本的類型標(biāo)簽中與X∧min,i類型標(biāo)簽相同樣本的數(shù)目所占比例超過rs,則樣本X∧min,i被保留,否則被去除。通過這種方式對各個類型的樣本集進(jìn)行樣本篩選,每個類型的保留樣本構(gòu)成了所屬類型的穩(wěn)定特征空間集合St(t=1,2,…)。
3)在任一穩(wěn)定特征空間集合St中,隨機(jī)選出一個保留樣本x∧Sti。然后,在樣本x∧Sti的k個近鄰樣本中隨機(jī)選出兩個近鄰樣本x∧Sti1和x∧Sti2。最后,利用上述3個樣本合成新樣本x∧new,計算公式如下:
式中re1、re2和re3均為取值在0~1之間的隨機(jī)數(shù)。
MSSMOTE方法流程如圖1所示。首先將訓(xùn)練樣本集分為故障樣本集和正常樣本集,然后分別進(jìn)行歸一化,得到歸一化后的故障樣本集和正常樣本集。按照上面的步驟得到新樣本x∧new,直到x∧new和X∧min數(shù)量達(dá)到一定比例。將得到的新樣本添加到故障樣本集X∧min中,此時X∧max和X∧min構(gòu)成新的訓(xùn)練數(shù)據(jù)集。
2實驗方案及仿真分析
2.1MSSMOTE方法可行性分析
在本節(jié)仿真過程中,選用了RP-1043公開數(shù)據(jù)集[14]中的LEVEL2數(shù)據(jù)集來訓(xùn)練MSSMOTE-CNN、MSSMOTE-LSTM和MSSMOTE-TCN模型,并測試各模型在正常和7種故障數(shù)據(jù)中的故障診斷性能。
故障診斷結(jié)果如圖2所示,混淆矩陣的橫向代表樣本預(yù)測類別,縱向為樣本的真實類別。主對角線方塊中的數(shù)字代表正確分類的樣本數(shù)量,除主對角線以外的深色方塊中的數(shù)字表示錯誤分類的樣本數(shù)量。可以看出,圖2(b)和圖2(c)中的第一行錯誤分類的樣本數(shù)字和分別為20和9,大于圖2(a)中第一行錯誤分類的樣本數(shù)字和3;同樣圖2(b)和圖2(c)中其余幾行錯誤分類的樣本數(shù)字和都大于圖2(a)中相應(yīng)行的錯誤分類的樣本數(shù)字和,這說明MSSMOTE-LSTM和MSSMOTE-TCN錯誤分類的樣本更多。從圖2(a)來看,MSSMOTE方法產(chǎn)生的數(shù)據(jù)在CNN模型上的適用性更好。
2.2故障診斷方案
基于MSSMOTE方法的冷卻系統(tǒng)故障診斷整體方案如圖3所示,具體流程如下。
1)仿真數(shù)據(jù)設(shè)定
本節(jié)所使用的數(shù)據(jù)集是從原始數(shù)據(jù)集中隨機(jī)選取了6 668個正常樣本,而每一種故障類型都僅選取了800個樣本,由此組成不平衡數(shù)據(jù)集。測試集則是由與不平衡數(shù)據(jù)集不重復(fù)的13 344個樣本組成。為了驗證MSSMOTE方法的數(shù)據(jù)擴(kuò)充能力,在仿真過程中,選擇了SSMOTE和MSMOTE這兩種作為數(shù)據(jù)擴(kuò)充對比方法。分類器選用了在上節(jié)表現(xiàn)較好的CNN模型進(jìn)行訓(xùn)練。本文選擇準(zhǔn)確率(Accuracy)和F1分?jǐn)?shù)(F1-score)作為評價指標(biāo),其中F1分?jǐn)?shù)定義為精確率(Precision)和召回率(Recall)的調(diào)和平均值,是一個衡量分類模型綜合能力的指標(biāo),F(xiàn)1-score值越高說明模型的綜合識別能力越好。評價指標(biāo)的混沌矩陣如表3所示,計算過程如下:
2)按照擴(kuò)充比例對MSSMOTE方法的性能測試
為了驗證MSSMOTE方法的數(shù)據(jù)擴(kuò)充能力,在實驗分析中,選擇了SSMOTE和MSMOTE作為數(shù)據(jù)擴(kuò)充對比方法,并將擴(kuò)充之后的數(shù)據(jù)輸入CNN模型中訓(xùn)練,MSSMOTE、SSMOTE和MSMOTE與CNN模型的組合分別簡記為MSSMOTE-CNN、SSMOTE-CNN和MSMOTE-CNN。最后,使用測試集獲取3種模型各自的Accuracy和F1-score指標(biāo)。
測試結(jié)果如圖4所示,從圖中可以看出,在擴(kuò)充比例為1、2和3的情況下,3種方法擴(kuò)充的數(shù)據(jù)都可以使模型的Accuracy和F1-score指標(biāo)得到不同程度的上升,并且在擴(kuò)充比例為4時達(dá)到了最大值,但在4以上都有不同程度的下降。
詳細(xì)數(shù)據(jù)結(jié)果如表4所示。可以發(fā)現(xiàn),在擴(kuò)充比例從0~1的變化階段,MSSMOTE-CNN方法的性能提升得更多,在Accuracy指標(biāo)中上升了15.1%,而SSMOTE-CNN和MSMOTE-CNN方法的性能在Accuracy指標(biāo)中分別上升了5.8%和6.0%;MSSMOTE-CNN方法的性能在F1-score指標(biāo)中提升了16.9%,而SSMOTE-CNN和MSMOTE-CNN方法的性能在F1-score指標(biāo)中分別提升了7.3%和4.7%;MSSMOTE-CNN在擴(kuò)充比例上升到4時,Accuracy和F1-score兩項指標(biāo)達(dá)到最高值,分別為0.961和0.971。達(dá)到最大值之后MSSMOT-CNN還可以保持較穩(wěn)定的性能。
總之,相比較于其他方法,MSSMOTE方法可以實現(xiàn)更大比例的數(shù)據(jù)擴(kuò)充,仿真結(jié)果表明:MSSMOTE-CNN模型在解決冷水機(jī)組故障診斷問題上具有出色的表現(xiàn)。
3)按照數(shù)據(jù)類型對MSSMOTE方法的性能測試。
為了進(jìn)一步分析MSSMOTE方法的性能,對MSSMOTE-CNN、SSMOTE-CNN和MSMOTE-CNN 3種模型在數(shù)據(jù)擴(kuò)充比例為4時的故障診斷表現(xiàn)進(jìn)行了詳細(xì)比較。使用測試集獲取了3種模型在每一種數(shù)據(jù)類型下的Accuracy和F1-score結(jié)果,3種模型的對比情況如圖5所示。
通過圖5中7種故障類型的Accuracy和F1-score指標(biāo)比較結(jié)果可以看出,SSMOTE-CNN和MSMOTE-CNN的表現(xiàn)相對接近;MSSMOTE-CNN明顯更高。
表5為在同一數(shù)據(jù)類型中3種方法的實驗數(shù)據(jù)結(jié)果。從表5仿真結(jié)果數(shù)據(jù)可以看出,在RL故障的Accuracy指標(biāo)中,MSSMOTE-CNN比SSMOTE-CNN提高了15.9%,MSSMOTE-CNN比MSMOTE-CNN提升了14.7%。在其他數(shù)據(jù)類型中,相較于SSMOTE-CNN和MSMOTE-CNN兩種方法,MSSMOTE-CNN的Accuracy指標(biāo)都有不同程度的提升。而在CF故障的F1-score指標(biāo)結(jié)果中,MSSMOTE-CNN比SSMOTE-CNN提升了7.3%;在RO故障的F1-score結(jié)果中,MSSMOTE-CNN比MSMOTE-CNN提高了13.7%。在其他數(shù)據(jù)類型中,MSSMOTE-CNN比SSMOTE-CNN和MSMOTE-CNN在F1-Score上都有不同程度的提升。
3結(jié)語
本文為了解決冷水機(jī)組數(shù)據(jù)類別不平衡問題,利用MSSMOTE方法實現(xiàn)數(shù)據(jù)的有效擴(kuò)充。訓(xùn)練結(jié)果顯示:在擴(kuò)充比例為4時,對于正常樣本測試的Accuracy和F1-score值分別達(dá)到0.961和0.971,所構(gòu)建的MSSMOTE-CNN模型具有更好的故障診斷性能。但是從仿真結(jié)果數(shù)據(jù)可以看出,仍有一定的提升空間,并且本文仿真分析所采用的是公開數(shù)據(jù)集,必然會受到一些相關(guān)外在因素的影響,但本文尚未考慮這些問題。
參考文獻(xiàn):
[1] 中國建筑節(jié)能協(xié)會. 中國建筑能耗研究報告2020[J]. 建筑節(jié)能(中英文),2021,49(2):1-6.
[2] JIA F,LEI Y G,GUO L,et al. A neural network constructed by deep learning technique and its application to intelligent fault diagnosis of machines[J]. Neurocomputing,2018,272(C):619-628.
[3] WANG Z M,TIAN J Y,F(xiàn)ANG H,et al. LightLog:a lightweight temporal convolutional network for log anomaly detection on the edge[J]. Computer Networks,2022,203:108616.
[4] KORVEL G,TREIGYS P,TAMULEVICUS G,et al. Analysis of 2D feature spaces for deep learning-based speech recognition[J]. Journal of the Audio Engineering Society,2018,66(12):1072-1081.
[5] BOU NASSIF A,SHAHIN I,ATTILI I,et al. Speech recognition using deep neural networks:a systematic review[J]. IEEE Access,2885,7:19143-19165.
[6] 柴天佑,劉強(qiáng),丁進(jìn)良,等. 工業(yè)互聯(lián)網(wǎng)驅(qū)動的流程工業(yè)智能優(yōu)化制造新模式研究展望[J]. 中國科學(xué):技術(shù)科學(xué),2022,52(1):14-25.
[7] DUAN A,GUO L,GAO H L,et al. Deep focus parallel convolutional neural network for imbalanced classification of machinery fault diagnostics[J]. IEEE Transactions on Instrumentation and Measurement,2020,69(11):8680-8689.
[8] HU Z X,JIANG P. An imbalance modified deep neural network with dynamical incremental learning for chemical fault diagnosis[J]. IEEE Transactions on Industrial Electronics,2019,66(1):540-550.
[9] YANG G,ZHONG Y,YANG L,et al. Fault diagnosis of harmonic drive with imbalanced data using generative adversarial network[J]. IEEE Transactions on Instrumentation and Measurement,2021,70:3519911.
[10] 丁勝奪,趙剛,閻紅巧,等. 基于遺傳理論的改進(jìn)數(shù)據(jù)過采樣方法[J]. 計算機(jī)系統(tǒng)應(yīng)用,2022,31(2):185-190.
[11] 申存驍. 基于數(shù)據(jù)的冷水機(jī)組故障檢測與診斷[D]. 濟(jì)南:山東建筑大學(xué),2022.
[12] 程曉倩. 面向類別不平衡數(shù)據(jù)的工業(yè)過程多故障診斷方法研究[D]. 北京:北京化工大學(xué),2022.
[13] COMSTOCK M C, BRAUN J E, GROLL E A. A survey of common faults for chillers/discussion[J]. Ashrae Transactions, 2002, 108: 819.
[14]COMSTOCK M C, BRAUN J E, BERNHARD R. Development of analysis tools for the evaluation of fault detection and diagnostics in chillers[M]. [S.I]:Purdue University, 1999.
收稿日期:20230414
基金項目:國網(wǎng)天津市電力公司科技項目(KJ22-2-02);國網(wǎng)天津市電力公司科技項目(KJ21-1-21);天津理工大學(xué) 2022年天津市研究生科研創(chuàng)新項目(2022SKYZ070);天津理工大學(xué) 2022年校級研究生科研創(chuàng)新實踐項目(YJ2209);企業(yè)科技特派員項目(20YDTPJC01670)
第一作者簡介:曹冉冉(1996—),女,河北邯鄲人,碩士研究生,研究方向為機(jī)械及機(jī)器學(xué)習(xí)算法,3401517075@qq.com。
DOI:10.19344/j.cnki.issn1671-5276.2024.06.025