999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于XGBoost算法的硬盤故障預測

2021-04-22 03:22:16王陶吳鑫李君李順
數(shù)字技術(shù)與應用 2021年2期
關(guān)鍵詞:故障模型

王陶 吳鑫 李君 李順

(浙江萬里學院,浙江寧波 315100)

0 引言

硬盤故障會導致大量重要數(shù)據(jù)丟失,這不僅會影響到數(shù)據(jù)中心正常運行,而且可能會產(chǎn)生巨額的修復成本,甚至使客戶滿意度降低,影響企業(yè)聲譽??梢娪脖P故障造成的數(shù)據(jù)丟失給企業(yè)帶來的影響不容小覷,預防數(shù)據(jù)丟失的一個重要途徑就是硬盤剩余壽命預測,硬盤剩余壽命預測能有效降低數(shù)據(jù)丟失率,減少因數(shù)據(jù)丟失帶來的巨大損失。

近年來機器學習方法被用于預測硬盤剩余壽命(RUL),并取得了較好的預測結(jié)果。其中Farzaneh Ahmadzadeh等在2011年將貝葉斯方法、隱式馬爾可夫模型(hmm),隱式半馬爾可夫模型(hsmm)方法進行對比,應用于硬盤剩余壽命預測[1]。2014年Jing Li等提出用決策回歸樹CART對硬盤剩余壽命進行預測,決策樹CART模型預測準確率為95%以上,并且性能優(yōu)于反向傳播神經(jīng)網(wǎng)絡(BP ANN)[2]。2015年賈宇晗等應用CART決策樹和BP神經(jīng)網(wǎng)絡兩種機器學習方法,對硬盤故障預測,取得不錯的結(jié)果[3]。2016年Botezatu等提出了用隨機森林(RF)對硬盤剩余壽命(RUL)進行預測[4]。2017年Nicolas Aussel等利用支持向量機、隨機森林和GBDT機器學習方法對硬盤故障進行預測,并得出RF有95%的準確率,67%的召回率;GBDT有94%的準確率和67%的召回率[5]。2018年Fernando Dione S.Lima等通過將隨機森林與RNN、LSTM應用到硬盤剩余壽命預測,對比得到LSTM短期精度為98.40%長期精度為68.61%,RF短期精度為25.13%,長期精度為23.89%[6]。2018年P(guān)reethi Anantharaman等通過建立LSTM、CNN、RNN等深度學習模型,預測硬盤剩余壽命,實驗結(jié)果表明LSTM的整體性能最好,其次是CNN[7]。賈潤瑩等在2014年提出用Adaboost算法優(yōu)化BP神經(jīng)網(wǎng)絡模型,得到了較好的預測結(jié)果[8]。雖然已有各種機器學習算法對RUL進行預測,但沒有文獻采用XGBoost集成學習算法進行建模應用到硬盤故障預測中。

本文引入XGBoost算法,與CART、RF、GBDT算法進行比較實驗,并給出預測精度結(jié)果分析。

1 問題描述

硬盤的自監(jiān)測分析報告技術(shù)(Self-Monitoring Analysis and Reporting Technology,SMART)能夠?qū)τ脖P工作狀態(tài)進行分析,并偵測硬盤各屬性。SMART里包含了溫度、濕度、氣壓、再分配扇區(qū)總數(shù)、啟停次數(shù)等255個影響硬盤故障相關(guān)屬性,因?qū)傩员姸?需要通過特征選擇,選出影響硬盤故障預測的主要特征,以降低模型的復雜度。

本文的數(shù)據(jù)集[9]是來源于Seagate公司制造的型號為ST31000524NS的硬盤,該數(shù)據(jù)共有892265條健康盤樣本和17845條故障盤樣本。每條樣本均以小時為間隔被采集。數(shù)據(jù)集是公開的,并且數(shù)據(jù)是被清洗過、處理好的,健康盤樣本數(shù)據(jù)被標記為+1,故障盤樣本數(shù)據(jù)被標記為-1,經(jīng)特征選擇采用11個特征,加“_raw”標記的為屬性原始值(詳見表1)。

所有的屬性值也被歸一化映射到了區(qū)間[-1,+1]上,公式為:

式(1)中x是特征歸一化前的值,X是歸一化之后的值,xmin和xmax為特征的最小值跟最大值。把處理好的數(shù)據(jù)集按7:3的比例隨機劃分為訓練集和測試集。訓練集和測試集是互斥的,測試集樣本在訓練集中未出現(xiàn)過。在訓練集上訓練出多種預測模型,測試集用來測試已訓練好的硬盤故障預測模型。

2 建模與分析

2.1 XGBoost原理

XGBoost是GBDT的改進算法。GBDT的目標函數(shù)即損失函數(shù),而XGBoost的目標函數(shù)是損失函數(shù)加正則項,以降低模型復雜度,防止過擬合;GBDT對損失函數(shù)求一階導數(shù),XGBoost對損失函數(shù)進行二階泰勒展開,效果更好;XGBoost在訓練之前,預先對數(shù)據(jù)進行排序,并保存為模塊結(jié)構(gòu),迭代過程利用此結(jié)構(gòu),以減小計算量,此模塊機構(gòu)使并行成為了可能,在進行節(jié)點分裂時,需要計算每個特征的增益,最終選增益最大的特征進行分裂,各特征的增益計算可多線程進行。具體原理如下:

給定n個實例,m個特征的情況下,集合D={(xi,yi)}(|D|=n;xi∈Rm,yi∈R)XGBoost的集成模型為:

公式(2)的含義為:第t輪的預測模型為保留的前t-1的預測模型加入一個新函數(shù), 其目標函數(shù)為:

式(3)和(4)中f(x)為樣本實例的預測值,式(3)中q(x)代表一棵樹,ωq(x)表示一棵獨立的樹對于樣本實例的預測值,q代表每棵樹的樹結(jié)構(gòu)映射實力樣本到對應的葉子節(jié)點,ω表示葉子權(quán)重,Rm表示樣本實例,T表示葉子節(jié)點數(shù)量。和CART的區(qū)別在于每個葉子節(jié)點有相應的權(quán)重ωi,為了學到模型需要的函數(shù),需要定義正規(guī)化目標函數(shù)。

XGBoost的目標函數(shù)為損失函數(shù)加正則項,損失函數(shù)是預測值與真實值的差異,正則項是作為模型復雜程度的懲罰,γ表示懲罰力度。

加法模型為:

目標函數(shù)為:

轉(zhuǎn)換成葉子結(jié)點的形式:

其中:

將(10)代入(9)中并做分裂計算如下:

表1 數(shù)據(jù)集對應的屬性值Tab.1 Attribute values corresponding to the data set

表2 模型參數(shù)選擇Tab.2 Model parameter selection

表3 混淆矩陣Tab.3 Confusion matrix

若式(12)大于0,則劃分;若小于0,則不繼續(xù)劃分。

2.2 決策樹算法模型

CART決策樹是通過計算基尼指數(shù)(Gini index)來選擇劃分屬性的,基尼指數(shù)公式為:

式(13)中Gini是反應數(shù)據(jù)集的純度的,Gini值越小,數(shù)據(jù)集純度越高,因此在選擇候選屬性中,選擇基尼指數(shù)最小的屬性作為最優(yōu)分屬性。

2.3 集成算法模型

集成學習分為Bagging模型和Boosting模型。隨機森林是Bagging模型的代表,Bagging模型是將同類別,彼此之間無強關(guān)聯(lián)的弱學習器,以均等投票機制進行組合而成的強學習器。隨機森林默認采用CART決策樹作為弱學習器,并且其對樣本進行無放回的隨機采樣,也對特征進行隨機采樣,所以其泛化能力較強。其最優(yōu)特征劃分點的選取是基于基尼系數(shù)和標準差最小等原則來選擇的。

圖1 數(shù)據(jù)集各算法模型的ROC曲線Fig.1 ROC curve of each algorithm model of the data set

GBDT是集成CART回歸樹的算法模型,在每次迭代中,按順序進行訓練。GBDT通過其損失函數(shù)的負梯度去擬合其殘差,然后下一輪利用該殘差代替訓練樣本中的預測值,重新訓練下一輪的CART回歸樹。GBDT各弱學習器之間存在強關(guān)聯(lián),不利于做并行化處理。GBDT的輸出結(jié)果是通過累加得到或者加權(quán)累加得到的。對異常值非常敏感,魯棒性較差,需要通過減少模型偏差提高性能。

3 實驗結(jié)果分析

3.1 實驗環(huán)境

實驗使用的是Windows 10系統(tǒng),系統(tǒng)類型為64位操作系統(tǒng),基于x64的處理器;Intel(R)core(TM)i5-6200U CPU @2.30GHz 2.40GHz處理器,內(nèi)存(RAM)為4.00GB。

3.2 實驗參數(shù)調(diào)節(jié)

本文根據(jù)實驗及經(jīng)驗調(diào)參的方式進行參數(shù)調(diào)節(jié),由于同一參數(shù)對不同模型影響程度不同,所以本文盡量將每個模型參數(shù)調(diào)到最優(yōu)后進行對比。具體的模型參數(shù)選擇如表2所示。

3.3 性能指標的選擇

本文所選用的衡量模型泛化能力的評價標準是對模型進行性能度量。利用混淆矩陣(見表3)計算故障檢測率(FDR)和故障誤報率(FAR),利用ROC曲線的橫軸假正率TPR、縱軸真正率FPR以及ROC曲線的面積AUC來作為模型的評價標準。

ROC曲線的縱軸代表“真正率”TPR,在這里可以用故障檢測率FDR表示;橫軸代表“假正率”這里可以用故障誤報率FAR表示。具體公式如下:

表4 各模型的性能指標Tab.4 Performance indicators of each model

本文將這兩個指標對不同模型分別做了統(tǒng)計,最后將結(jié)果匯總成ROC曲線圖。ROC曲線可以形象地展示故障預測模型之間的預測性能。其中故障檢測率FDR越大越好,故障誤報率FPR越小越好。在一張圖里繪制不同模型的ROC曲線,通過比較ROC曲線下的面積AUC,來比較模型在此情況下的優(yōu)劣。

3.4 實驗結(jié)果及分析

通過交叉驗證匯總出四個模型的不同性能指標。數(shù)據(jù)的實驗結(jié)果如圖1。

由表4可以看出模型CART、RF跟XGBoost的故障檢測率FDR都達到了99%的精度,且故障誤報率FAR都達到了很好的效果。GBDT的故障檢測率FDR及故障誤報率相對較差。AUC是綜合反映FAR及FDR的結(jié)果,由表4及圖1可得XGBoost模型效果最好。

4 總結(jié)

本文將決策樹和眾多集成學習算法進行實驗比較,通過故障檢測率FDR、故障誤報率FAR、ROC曲線等性能評價指標,對CART、RF、GBDT、XGBoost四個模型分別在大樣本和小樣本數(shù)據(jù)集中的表現(xiàn)進行匯總,得到XGBoost相較于CART、RF、GBDT模型在硬盤故障預測中具有更好的預測精度。目前僅對同型號硬盤進行測評,未來將建立更具有泛化功能的模型對不同型號硬盤,甚至不同廠家生產(chǎn)的硬盤進行預測性能分析。

猜你喜歡
故障模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
故障一點通
3D打印中的模型分割與打包
奔馳R320車ABS、ESP故障燈異常點亮
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
故障一點通
故障一點通
故障一點通
主站蜘蛛池模板: 中文字幕在线看| 中文一区二区视频| 日韩一级毛一欧美一国产| 综合社区亚洲熟妇p| 亚欧乱色视频网站大全| 国产精品手机视频一区二区| 97精品久久久大香线焦| 欧美a在线| 国产精品毛片在线直播完整版| 国产91视频免费| 亚洲精品无码日韩国产不卡| 免费看美女自慰的网站| 国产玖玖视频| 成人国产一区二区三区| 中文字幕无码av专区久久| 99精品福利视频| 最新亚洲人成无码网站欣赏网 | 国产精品片在线观看手机版| 999国产精品| 麻豆精品在线播放| 欧美成人午夜视频| 欧美色99| 国产微拍精品| 国产美女无遮挡免费视频| 狠狠色噜噜狠狠狠狠色综合久 | 在线视频亚洲色图| 丁香六月综合网| 色哟哟精品无码网站在线播放视频| 国产成人综合日韩精品无码不卡| 2021最新国产精品网站| 玖玖精品视频在线观看| 国产成人三级| 国产成人无码Av在线播放无广告| 波多野结衣国产精品| 2020极品精品国产 | 亚洲精品麻豆| 日本高清在线看免费观看| 亚洲国产日韩一区| 又黄又湿又爽的视频| 人与鲁专区| 国产精品无码久久久久AV| 精品人妻无码区在线视频| 国内精品久久久久久久久久影视| 幺女国产一级毛片| 制服丝袜 91视频| 国产精品成人第一区| 熟妇人妻无乱码中文字幕真矢织江 | 91成人免费观看| 亚洲国产第一区二区香蕉| 精品人妻AV区| 国产自视频| 中文字幕欧美日韩高清| 园内精品自拍视频在线播放| 中文字幕亚洲另类天堂| 韩日免费小视频| 成人夜夜嗨| 精品小视频在线观看| 97精品久久久大香线焦| 一级毛片免费播放视频| 国产在线视频导航| 色婷婷狠狠干| 久久国产精品电影| 日本高清免费不卡视频| 不卡无码网| 99伊人精品| 国内精自视频品线一二区| 无码又爽又刺激的高潮视频| 国产视频资源在线观看| 自拍欧美亚洲| 成人国产一区二区三区| 久久国产V一级毛多内射| 亚洲国产成人超福利久久精品| 极品私人尤物在线精品首页| 久久国产精品无码hdav| 亚洲国产系列| 制服无码网站| 欧美无专区| 精品国产乱码久久久久久一区二区| 18禁影院亚洲专区| 国产哺乳奶水91在线播放| 亚洲第一精品福利| 久久国产高清视频|