999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成學習的卡車空壓系統故障診斷研究

2022-01-22 02:42:20吳青科袁雨陽何麗娜
計算機仿真 2021年12期
關鍵詞:故障診斷模型

吳青科,吳 曉,袁雨陽,何麗娜

(西南交通大學機械工程學院,四川 成都 610031)

1 引言

隨著經濟發展和城市化的不斷推進,各種機械設備大量投入使用,隨之而來的是各種因機械設備故障導致的事故頻繁發生,空壓系統工況復雜,工作強度大,相當大一部分事故是因空壓系統故障導致的。在故障發生之前對其進行預測并預警可以提高設備工作效率和安全性,大大減少維護成本。因此對于機械設備故障診斷的識別和預測有十分重要的研究意義。

機械設備的故障診斷是一種多學科融合的綜合性技術[1],因為現代機械設備往往是機、電、液一體化的復雜系統,故障模式復雜多樣,要想準確的預測故障具有較大的難度[2]。近幾年機器學習方法高速發展,在圖像處理、語音識別、自然語言處理等多個領域都得到了大量的應用,獲得了極好的效果。這也為故障診斷領域帶來了新的思路,機器學習算法非線性擬合能力好,能自適應的從數據中學習到各種故障模式的特征[3],具有傳統方法難以比擬的優勢。Guo X等人[4]使用堆棧降噪自編碼機(SDAE)來提取旋轉機械的故障特征并用于智能診斷,能有效的應對原始信號的噪聲,獲得了較好的預測效果,魯棒性好。文獻[5]使用隨機森林多分類器與決策樹組合來對齒輪組進行故障診斷,避免了單一算法的過擬合現象,得到了90%以上的故障分類準確率。文獻[6]將IAGA算法優秀的全局尋優能力與支持向量機結合起來,組合成一個多值SVM模型來對搗固車液壓系統進行故障分類,試驗表明該模型分類精度高且魯棒性好。近幾年Boosting和Stacking集成學習算法在各個領域中得到大量使用,均獲得了較好的效果,在某些方面有神經網絡無法比擬的優勢。文獻[7]使用XgBoost算法來對機床刀具磨損進行評估,相較于隨機森林等傳統機器學習算法,XgBoost預測精度明顯提升且不易受到樣本不平衡的影響,預測速度提升一個數量級。

本文首先建立基于單個機器學習算法的故障診斷模型,并應用于卡車空壓系統的故障診斷中。通過分析發現RandomForest算法更加關注模型的泛化性,而boosting一類的算法更關注于準確率,這些樹集成模型的缺點在于內部的基學習器是同類型的,差異性不夠大,當樹模型的深度過深時,很難避免過擬合,為了解決SVM、AdaBoost、LightGBM等機器學習模型存在的局限性,對Stacking算法提出改進,提出基于異質學習器的集成學習故障診斷模型,通過性能優異的CatBoost算法來將各個模型集成在一起,在犧牲部分計算速度的條件下提高了故障診斷算法的預測準確率和魯棒性。

2 相關算法原理

2.1 相關算法原理

首先介紹AdaBoost算法的基礎Boosting算法[8],它是將若干個非常簡單的弱分類器結合成為一個強分類器,這些弱分類器只要強于隨機猜測即可,典型的弱學習器例子就是單層決策樹。Boosting算法的簡單數學表達式可表示為

(1)

式中:Φm(x)表示第m個弱分類器,αm表示計算相關系數,對于不同的弱分類器選擇不同的αm。AdaBoost算法[9]是基于Boosting算法的改進,其原理是通過對樣本權重和弱分類器權重進行調整,從而在訓練出的弱分類器中篩選出權值系數最小的弱分類器并將它們組合為一個強分類器。

2.2 XgBoost模型

XgBoost同屬于Boosting算法中的一種,是一種梯度提升決策樹模型(GBDT)[10-11],其基學習器選用的是CART回歸樹,其目標函數為

(2)

2.3 LightGBM模型

LightGBM算法由微軟于2016年底提出[12],LightGBM使用Histogram(直方圖)算法來將連續的浮點值特征轉換為k個離散值,并構建一個寬度為k的直方圖,Histogram算法原理圖如圖1所示。

圖1 Histogram算法原理圖

2.4 CatBoost模型

CatBoost算法[13]在2017年由俄羅斯技術公司Yandex開源,同屬于Boosting算法的一種。該算法使用oblivious樹作為基學習器,將訓練樣本的所有二進制特征值儲存在連續向量C中,使用大小為Cd的浮點數向量來存儲葉子節點的值,其中d表示樹的深度。為了得到第m棵樹的葉子節點的索引,對于訓練樣本x,可以建立一個二進制向量為

(3)

式中:C(x,f)是從向量C中讀取的樣本x上的二進制特征f的值,f(m,j)代表從深度為i的第m棵樹中的二進制特征的數量。

3 模型構建

3.1 Stacking模型

Stacking集成學習模型是一種用于融合幾種不同算法的分層模型集成框架。首先使用初始數據集訓練出若干個模型,訓練出的模型作為Stacking模型的第一層,然后將第一層每個模型的輸出組合起來作為Stacking模型第二層的輸入并在第二層繼續訓練,從而得到一個完整的Stacking模型。模型使用各個不同的算法的預測數據作為模型下一層訓練數據,很好的將各個模型的優點結合了起來,提高了預測準確率,同時由于原始數據的各個特征對于不同算法的重要度不同,將幾種強分類器通過Stacking模型集成起來可以更充分的學習到數據中的知識。

本文構建的Stacking模型結構如圖2所示,模型第一層使用了五個單模型,分別是XgBoost、LightGBM、RandomForest、AdaBoost、SVC。這五個強模型分屬于三類不同的算法,在機器學習的各個領域均取得了很好的效果,將不同種類的算法組合起來更能充分發揮Stacking模型的集成效果。其中單模型訓練方式如圖3所示,首先將初始數據集隨機劃分為大小均等的五份,其中四份train_2~train_5用于訓練模型model,用訓練得到的模型去預測剩下的一份數據train_1和測試集test_data,得到predict_1和test_1。同理用這種方法共可以得到predict_1~predict_5共五組訓練集預測數據,將predict_1~predict5縱向拼接在一起得到nf_train,這是Stacking模型第二層新訓練集數據的特征之一,對test_1~test5取其平均值,得到nf_test作為Stacking模型第二層的新測試集特征之一。將所有單模型訓練好,將各個新特征分別對應的組合起來便得到了訓練Stacking集成模型第二層所需要的訓練集train_new和測試集數據test_new。

圖2 Stacking模型結構

圖3 單模型訓練算法結構

模型第二層使用了CatBoost算法來將上述五個算法融合在一起,CatBoost的特殊算法結構使其能很好的抑制過擬合,較適合用來融合第一層五個算法的預測結果。轉換后得到的新訓練集數據train_new有五個特征向量,每個特征分別對應上述Stacking模型第一層五個算法預測的類標,新測試集數據test_new同樣也有五個特征向量,分別是模型第一層使用的五個算法對于測試集的五個預測結果。

3.2 模型評價標準

Stacking模型集成了多種算法,不同的算法模型有不同的評價標準。AdaBoost算法的模型提升準則為SAMME算法。RandomForest算法的評價標準為基尼不純度,它可以很好的衡量系統的混亂程度,其表達式為

(4)

式中:fi代表某概率事件發生的概率。基尼不純度越小,代表分類效果越好。

LightGBM,XgBoost和CatBoost算法均屬于Boosting算法,這三個單模型的評價標準為RMSE(均方根誤差),它能衡量預測值與真實值之間的偏差,其表達式為:

(5)

4 實驗及結果分析

實驗平臺為普通筆記本電腦,處理器為Intel(R) Core(TM) i5-7300HQ CPU @2.50GHz,16G內存,64位windows10操作系統,使用的編程語言為Python。

4.1 數據分析處理

實驗選擇的數據集是斯堪尼亞卡車空氣壓力系統故障數據集(Air pressure system failures in Scania trucks)[14]。數據包含了卡車的日常使用數據,其重點關注對象是空氣壓力系統(APS),正類樣本包含了APS系統組件的故障數據,負類樣本包含了與APS系統無關的卡車故障數據,訓練集共有60000個實例,其中負類樣本59000個,正類樣本1000個,測試集共有16000個,其中負類樣本15625個,正類樣本375個,這是一個高度不平衡的數據集。每個樣本有171個屬性,其中7個為直方圖變量。因專有原因,屬性的名稱進行了匿名處理。數據集正負樣本比高達1:59,如果不進行樣本類別平衡處理會導致學習器不能正確的識別正類樣本。通過分析,對負類樣本隨機采樣2510例,然后再與正類樣本組合為一個新的訓練集。為了保證學習器的快速收斂,對新數據集進行標準化處理,這樣可以將數據按比例縮放,使其落到一個特定的小區間,便于不同單位的指標數據能進行加權和比較。

在實際情況中,正類樣本預測錯誤的損失遠大于負類樣本預測錯誤的損失。所以單純的用預測準確率并不能很好的衡量預測模型的好壞,現引入所用數據集中提出的模型評價標準如式(6)所示

Cost=Cost_1×FN+Cost_2×FP

(6)

式中:Cost代表總成本,Cost_1代表將正類預測為負類的代價,取值為500,FN代表將正類預測為負類的個數。Cost_2代表將負類預測為正類的代價,取值為10,FP代表將負類預測為正類的個數。Cost的值越小,代表模型性能越好。

與正確率相比,真正率和Cost是更重要的指標,因為降低負類樣本錯誤劃分為正類的數量固然重要,但這對卡車的運行影響不大。真正率提供了有關正確識別正類樣本(卡車空壓系統故障)的有關信息,這對卡車的安全更加關鍵。接下來的模型訓練及實驗均以這三個參數作為優化目標,其中Cost最為重要。

4.2 模型訓練

網格搜索調參效果較好但搜索速度緩慢,貝葉斯優化與網格搜索調參不同,它能自動搜索給定模型的最佳參數[15]。因本文使用算法種類較多,各模型的超參調節對模型輸出結果影響很大,本文將網格搜索調參與貝葉斯優化調參結合起來對模型進行調參,先用貝葉斯優化來對模型進行預調參,然后再使用網格搜索調參來對模型參數進行進一步調優,這樣做大大縮減調參時間的同時也確保了模型參數的優異性。通過一系列調參操作,可得各模型主要超參數如下所示:

1)AdaBoost: max_depth=3,n_estimators=300,learning_rate=0.1,algorithm=‘SAMME’ 。

2)XgBoost: learning_rate=0.1,max_depth=3,n_estimators=2000,objective=‘reg:logistic’。

3)LightGBM:learning_rate=0.1,max_depth=3,n_estimators=2000,objective=‘regression’。

4)SVC:kernel=‘rbf’,C=1.8,gamma=0.01。

5)RandomForestClassfier:n_estimators=110,depth=3,custom_metric=‘gini’,oob_score=‘True’。

6)CatBoost:iterations=2500,depth=3,cus-tom_metric=‘RMSE’,learning_rate=0.03。

可以注意到,這6個算法中有四個都是回歸算法,在輸出結果時還需設置一個閾值來轉換輸出,當屬于正類概率大于閾值時輸出為1,否則為0,本文將閾值設置為0.5,這樣符合數學規律也便于計算。需要注意的是,在對模型進行調參時也要注意保持各模型的準而不同,這樣可以使Stacking模型在第二層更好的結合各個模型的優點,使預測結果更加精準。

4.3 實驗設計

為了得出模型的最優結構和證明本文改進的Stacking模型的有效性,設計兩個對照實驗:

1) 算法性能對比:為了驗證Stacking算法的有效性,在輸入相同的情況下,以正確率,真正率和Cost作為模型評價標準,測試各個模型的性能。

2) Stacking模型第二層算法選擇:為了避免嚴重過擬合,Stacking模型第二層通常使用邏輯回歸、KNN等結構較簡單的算法來將第一層各模型學習到信息集成在一起。為了得出最優算法結構,證明CatBoost作為Stacking模型第二層算法的優異性,設置一個對照實驗,在固定Stacking模型第一層的情況下,在模型第二層使用不同的算法來測試,以Cost和真正率作為模型性能評價指標,對比各算法性能。

4.4 結果分析

算法性能對比實驗結果如表1所示。由表1可知,各算法的準確率均在96%以上,Stacking算法與文獻14相比,真正率提高了0.8個百分點,Cost下降了22.28%,與SVC算法相比,真正率提高了3.47個百分點,Cost下降了45.86%,與Boosting算法中表現最好的LightGBM算法相比,真正率提高了0.27個百分點,Cost下降了6.43%,與Bagging算法的代表RandomForest算法相比,真正率提高了0.8個百分點,Cost下降了26.57%。

表1 不同算法性能對比

Stacking模型第二層算法選擇實驗結果如表2所示,CatBoost算法相較于KNN算法,Cost下降了22.28%,真正率提高了1.07個百分點。相較于邏輯回歸算法,Cost下降了18.42%,真正率提高了1.07個百分點。結合表1的數據可知,邏輯回歸和KNN算法也沒有很好的抑制過擬合現象,不能很好的學習模型集成后的信息,使整體算法性能比XgBoost、LightGBM等單模型還差,而CatBoost算法能很好的處理過擬合現象,使Stacking算法性能大幅提升。

表2 Stacking模型第二層算法選擇實驗結果

圖4 模型ROC曲線

圖5 模型ROC曲線局部放大圖

5 結論

1)在訓練單個模型時將貝葉斯優化和網格搜索結合起來對機器學習模型進行超參調節,節省計算成本的同時獲得了更有效和可靠的參數,效率大幅提高。

2)在Stacking集成學習框架中,突破性的使用CatBoost算法將多個訓練好的強機器學習模型融合來預測卡車空壓系統故障,算法性能和魯棒性均有大幅提高,即使在數據集特征維度大且樣本比例嚴重不平衡的情況下,也能有效的學習到數據中的信息。在斯堪尼亞卡車空氣壓力系統故障數據集上的實驗表明,本文所提出的算法,Cost為7710,真正率為98.40%,相對于文獻[14]的方法,Cost下降22.28%,真正率提高0.8個百分點,充分證明了本文算法的有效性,適用于復雜工況下機械設備的故障診斷及預測,對復雜機械設備的故障診斷研究有一定實用價值。

猜你喜歡
故障診斷模型
一半模型
凍干機常見故障診斷與維修
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
基于量子萬有引力搜索的SVM自駕故障診斷
3D打印中的模型分割與打包
因果圖定性分析法及其在故障診斷中的應用
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
基于LCD和排列熵的滾動軸承故障診斷
基于WPD-HHT的滾動軸承故障診斷
機械與電子(2014年1期)2014-02-28 02:07:31
主站蜘蛛池模板: 国产精品自在拍首页视频8| 亚洲综合第一区| 亚洲制服中文字幕一区二区| av性天堂网| 中文字幕 日韩 欧美| 精品国产www| 精品久久久久久中文字幕女| 久久综合九九亚洲一区| 国产呦精品一区二区三区下载| 日本人妻一区二区三区不卡影院| 亚洲日韩日本中文在线| 久久精品午夜视频| 色网站免费在线观看| 伊人成人在线视频| 国模沟沟一区二区三区| 青草国产在线视频| 日韩精品一区二区三区大桥未久| 九九视频免费看| 亚洲电影天堂在线国语对白| 成人永久免费A∨一级在线播放| 手机在线国产精品| 亚洲系列中文字幕一区二区| 一本无码在线观看| 午夜国产不卡在线观看视频| 国产香蕉在线视频| 香蕉视频在线观看www| 99热这里只有精品在线播放| 欧美日韩福利| 婷五月综合| 456亚洲人成高清在线| 国产精品无码翘臀在线看纯欲 | 曰AV在线无码| 国产福利一区二区在线观看| 国产视频你懂得| 中文字幕欧美日韩高清| 久久精品一品道久久精品| 成人免费午夜视频| 亚洲欧美综合在线观看| 日韩欧美国产成人| 欧美三级视频网站| 国产91视频免费| 丁香婷婷久久| 玖玖精品视频在线观看| 一级看片免费视频| 99热这里只有精品免费| 国产视频a| 无码免费视频| 五月天福利视频| 国产小视频免费| 五月激情婷婷综合| 久久99热这里只有精品免费看| 国产99精品视频| 高潮毛片免费观看| 中文字幕在线日本| 国产精品无码久久久久久| 东京热高清无码精品| 久久99精品久久久久纯品| 免费大黄网站在线观看| 亚洲永久精品ww47国产| 无码人妻免费| 激情乱人伦| 中文成人在线| 国内精品九九久久久精品| 蜜臀AVWWW国产天堂| 无码国产伊人| 天天爽免费视频| 欧美日韩一区二区在线播放| 亚洲日韩日本中文在线| 亚洲aaa视频| 爱色欧美亚洲综合图区| 91探花在线观看国产最新| 亚洲国产一区在线观看| 日韩在线永久免费播放| 午夜电影在线观看国产1区| 99精品热视频这里只有精品7| 中国精品自拍| 亚洲中文字幕国产av| 精品一区二区三区视频免费观看| 中文字幕人妻av一区二区| 国产精品污污在线观看网站| 欧美一区二区精品久久久| 五月婷婷导航|