楊洪章 楊雅輝 屠要峰 孫廣宇 吳中海
1(北京大學(xué)軟件與微電子學(xué)院 北京 102600)2(中興通訊股份有限公司 廣東深圳 518057)3(北京大學(xué)信息科學(xué)技術(shù)學(xué)院 北京 100871)
據(jù)國(guó)際數(shù)據(jù)公司(International Data Corpora-tion, IDC)發(fā)布的《數(shù)據(jù)時(shí)代2025》白皮書(shū)[1],到2025年全球數(shù)據(jù)量將會(huì)達(dá)到175 ZB,如果以12 TB容量的硬盤(pán)來(lái)計(jì)算,大約需要170億塊.而硬盤(pán)的年故障率在1%左右[2],因此全球每年將有數(shù)以億計(jì)的故障硬盤(pán)出現(xiàn).對(duì)于一個(gè)PB級(jí)規(guī)模的數(shù)據(jù)中心,硬盤(pán)故障每天都在發(fā)生[3].不可否認(rèn)的是,硬盤(pán)故障已經(jīng)成為數(shù)據(jù)中心最主要的故障來(lái)源[4].硬盤(pán)故障會(huì)直接導(dǎo)致災(zāi)難性后果,如數(shù)據(jù)丟失、業(yè)務(wù)中斷等,這無(wú)疑嚴(yán)重影響了數(shù)據(jù)的可靠性.
正如人類(lèi)個(gè)體在一生中經(jīng)歷的“生老病死”,硬盤(pán)個(gè)體也在經(jīng)歷著“健康態(tài)、亞健康態(tài)、瀕臨故障態(tài)、故障態(tài)”的必然性周期,這是因?yàn)殡S著時(shí)間的流逝,硬件各部件的老化、磨損等原因?qū)е碌慕Y(jié)果.并且,與人類(lèi)因先天生理缺陷導(dǎo)致的新生兒夭折,以及諸如車(chē)禍、地震、災(zāi)害、動(dòng)物襲擊等意外造成的偶發(fā)性死亡類(lèi)似,硬盤(pán)也存在因出廠缺陷和意外故障(如甲醛、震動(dòng)、電壓突變、空氣濕度過(guò)大、運(yùn)維人員操作不當(dāng)?shù)?而造成的偶發(fā)性故障.
顯然硬盤(pán)的必然性故障具有一定時(shí)間的瀕臨故障窗口期,是具備預(yù)測(cè)的可能性的.如果在瀕臨故障窗口期內(nèi)及時(shí)將數(shù)據(jù)遷移,則可避免系統(tǒng)降級(jí)服務(wù).而硬盤(pán)的偶發(fā)性故障往往是突發(fā)的,幾乎不存在瀕臨故障窗口期,因此不具備預(yù)測(cè)的可能性,或需要相當(dāng)大的代價(jià)去預(yù)測(cè),但故障不可避免地迅速發(fā)生,數(shù)據(jù)根本來(lái)不及遷移,這樣的預(yù)測(cè)也沒(méi)有意義.
傳統(tǒng)的數(shù)據(jù)容錯(cuò)技術(shù)一般都是通過(guò)增加數(shù)據(jù)冗余來(lái)實(shí)現(xiàn)的[5],主要有副本[6-7]、糾刪碼[8-9]、備份快照[10-11]等.這些技術(shù)都是在硬盤(pán)故障發(fā)生后,通過(guò)冗余滿足讀寫(xiě)訪問(wèn)和數(shù)據(jù)恢復(fù),是被動(dòng)式的處理手段.其缺陷體現(xiàn)在2方面:
1) 硬盤(pán)容量、恢復(fù)速度、讀寫(xiě)服務(wù)之間存在矛盾.在數(shù)據(jù)恢復(fù)過(guò)程中,系統(tǒng)資源不可避免地被數(shù)據(jù)恢復(fù)占用,系統(tǒng)立即降級(jí)服務(wù).因此,系統(tǒng)面臨兩難選擇——如果數(shù)據(jù)恢復(fù)過(guò)快,系統(tǒng)正常讀寫(xiě)受到嚴(yán)重干擾;如果數(shù)據(jù)恢復(fù)過(guò)慢,再出現(xiàn)新的故障盤(pán)將有可能引發(fā)數(shù)據(jù)永久丟失.并且,大容量硬盤(pán)的恢復(fù)需要更多的時(shí)間,進(jìn)一步加深了上述矛盾.
2) 成本、性能、可靠性之間存在矛盾.副本技術(shù)雖然可以保證性能,但是存儲(chǔ)空間利用率僅為1n(其中n為副本個(gè)數(shù)),由此帶來(lái)成本上漲問(wèn)題.糾刪碼技術(shù)在每一次讀寫(xiě)操作時(shí)額外增加了計(jì)算量,對(duì)性能產(chǎn)生負(fù)面影響,但是存儲(chǔ)空間利用率較副本技術(shù)有了大幅提升.備份及快照技術(shù)可以保證性能,也不占用過(guò)多的額外存儲(chǔ)空間,但是備份及快照時(shí)間節(jié)點(diǎn)之后的數(shù)據(jù)卻無(wú)法保護(hù).
隨著智能運(yùn)維[12]的不斷發(fā)展,通過(guò)采集硬盤(pán)SMART(self-monitoring analysis and reporting technology)指標(biāo),結(jié)合機(jī)器學(xué)習(xí)算法來(lái)預(yù)測(cè)硬盤(pán)故障,從而提前將數(shù)據(jù)遷移的主動(dòng)容錯(cuò)技術(shù)[13]成為新的研究熱點(diǎn).一些國(guó)內(nèi)外的研究成果[14-21]對(duì)單一品牌型號(hào)的硬盤(pán)預(yù)測(cè)其故障的準(zhǔn)確率達(dá)到85%以上.
主動(dòng)容錯(cuò)的好處不言而喻:1)在硬盤(pán)故障之前準(zhǔn)確預(yù)測(cè)并將數(shù)據(jù)遷移到其他硬盤(pán),避免了系統(tǒng)降級(jí)服務(wù),提升了系統(tǒng)的可靠性.2)能夠有效指導(dǎo)硬盤(pán)采購(gòu)規(guī)劃,克服了傳統(tǒng)被動(dòng)容錯(cuò)在故障發(fā)生后才去采購(gòu)硬盤(pán)的缺陷.3)減少了運(yùn)維人員的干預(yù),被動(dòng)容錯(cuò)需要運(yùn)維人員的臨場(chǎng)判斷和快速響應(yīng),而主動(dòng)容錯(cuò)在預(yù)測(cè)和處理過(guò)程中充分發(fā)揮了機(jī)器的優(yōu)勢(shì).4)準(zhǔn)確性高,傳統(tǒng)被動(dòng)容錯(cuò)依賴運(yùn)維人員的經(jīng)驗(yàn)來(lái)對(duì)硬盤(pán)故障進(jìn)行手工檢測(cè),費(fèi)時(shí)費(fèi)力且誤判率高.
雖然主動(dòng)容錯(cuò)的現(xiàn)有技術(shù)在實(shí)驗(yàn)原型系統(tǒng)中取得了令人驚嘆的故障預(yù)測(cè)準(zhǔn)確率,但是在真實(shí)的業(yè)務(wù)場(chǎng)景中仍然問(wèn)題百出、難以商用.其主要體現(xiàn)在:
1) 大規(guī)模SMART采集引發(fā)的災(zāi)難問(wèn)題亟待解決.以固定周期對(duì)全體硬盤(pán)采集SMART時(shí)不可避免地占用系統(tǒng)資源.經(jīng)測(cè)試,在1萬(wàn)塊硬盤(pán)的情況下,并行采集過(guò)程需經(jīng)過(guò)6 s以上,期間系統(tǒng)幾乎無(wú)法響應(yīng)任何正常讀寫(xiě)操作,且經(jīng)常出現(xiàn)卡死的情況.因此,在大規(guī)模數(shù)據(jù)中心一次性采集全體硬盤(pán)SMART的方式迫切地需要改進(jìn).
2) 針對(duì)SAS(serial attached small computer system interface)硬盤(pán)和固態(tài)硬盤(pán)(solid state disk, SSD)的故障預(yù)測(cè)的空白亟待填補(bǔ).現(xiàn)有文獻(xiàn)均僅針對(duì)SATA(serial advanced technology attachment)硬盤(pán)建立預(yù)測(cè)模型,而在實(shí)際的數(shù)據(jù)中心,SAS硬盤(pán)和固態(tài)硬盤(pán)的數(shù)量十分龐大.直接將SATA硬盤(pán)的預(yù)測(cè)模型套用在SAS硬盤(pán)和固態(tài)硬盤(pán)是不可行的,這是因?yàn)樗鼈兊腟MART 差別巨大.此外,開(kāi)源采集工具smartmontools直到版本6.0和6.1才陸續(xù)支持了在Windows操作系統(tǒng)和Linux操作系統(tǒng)中對(duì)SAS硬盤(pán)的SMART采集,直接導(dǎo)致對(duì)SAS硬盤(pán)的SMART采集年限短、積累的故障樣本少.固態(tài)硬盤(pán)作為電子式的存儲(chǔ)器件,相較于機(jī)械硬盤(pán),其年故障率低[22-23],且大規(guī)模應(yīng)用的年限遠(yuǎn)短于SATA硬盤(pán)和SAS硬盤(pán),固態(tài)硬盤(pán)同樣存在故障數(shù)量少的問(wèn)題.因此迫切的需要專門(mén)對(duì)SAS硬盤(pán)和固態(tài)硬盤(pán)的故障進(jìn)行建模預(yù)測(cè),如此才能完整地預(yù)測(cè)數(shù)據(jù)中心的全體硬盤(pán)故障.
3) 正負(fù)樣本嚴(yán)重不均的難題亟待解決.現(xiàn)階段阻礙硬盤(pán)故障研究的最大問(wèn)題是故障盤(pán)數(shù)量少、健康盤(pán)數(shù)量多、正負(fù)樣本嚴(yán)重不均衡.現(xiàn)有的技術(shù)文獻(xiàn)往往通過(guò)SMOTE(synthetic minority over-sampling technique)算法[24]來(lái)人工合成若干正樣本,以緩解該問(wèn)題,但是缺點(diǎn)在于易產(chǎn)生模型過(guò)擬合的問(wèn)題.因此迫切地需要提出新的上采樣方法,在不引起過(guò)擬合的前提下增加數(shù)倍的正樣本,從而徹底解決該難題.
4) 難以快速數(shù)據(jù)修復(fù)的問(wèn)題亟待解決.現(xiàn)有技術(shù)讓瀕臨故障盤(pán)完全獨(dú)立地承擔(dān)數(shù)據(jù)修復(fù),短時(shí)間內(nèi)連續(xù)集中的數(shù)據(jù)訪問(wèn)會(huì)加速故障的發(fā)生,并且重構(gòu)時(shí)間窗口過(guò)長(zhǎng),因此迫切地需要提出多盤(pán)聯(lián)合修復(fù),以加快數(shù)據(jù)修復(fù).
5) 預(yù)測(cè)結(jié)果的驗(yàn)證與反饋機(jī)制亟待建立.預(yù)測(cè)錯(cuò)誤包括故障盤(pán)的誤判、漏判、遲判.誤判會(huì)浪費(fèi)硬盤(pán)生命周期.漏判和遲判會(huì)使得系統(tǒng)進(jìn)入降級(jí)狀態(tài),需要依賴傳統(tǒng)被動(dòng)容錯(cuò)保障可靠性.通過(guò)算法優(yōu)化能在一定程度上減少預(yù)測(cè)錯(cuò)誤,但無(wú)法完全做到100%避免誤判,在出現(xiàn)預(yù)測(cè)錯(cuò)誤時(shí),現(xiàn)有技術(shù)往往通過(guò)更新預(yù)測(cè)模型的方式進(jìn)行矯正,然而這種方式存在時(shí)間滯后性,因此迫切需要更加靈活的反饋機(jī)制.
為了克服現(xiàn)有主動(dòng)容錯(cuò)技術(shù)的上述缺陷,本文提出了一系列的關(guān)鍵技術(shù),涵蓋“采集—預(yù)測(cè)—遷移—反饋”的全周期主動(dòng)容錯(cuò),包括:1)提出分時(shí)硬盤(pán)信息采集方法,解決了大規(guī)模SMART采集引發(fā)的災(zāi)難問(wèn)題;2)提出滑動(dòng)窗口記錄合并及樣本構(gòu)建方法,填補(bǔ)了針對(duì)SAS硬盤(pán)和固態(tài)硬盤(pán)故障預(yù)測(cè)的空白;3)提出多類(lèi)型硬盤(pán)故障預(yù)測(cè)方法,攻克了正負(fù)樣本嚴(yán)重不均的難題;4)提出多盤(pán)聯(lián)合數(shù)據(jù)遷移方法,加快了數(shù)據(jù)的修復(fù)速度;5)提出預(yù)測(cè)結(jié)果二級(jí)驗(yàn)證及快速反饋方法,靈活并快速地處理了預(yù)測(cè)錯(cuò)誤.
基于硬盤(pán)故障預(yù)測(cè)和數(shù)據(jù)遷移的主動(dòng)容錯(cuò)技術(shù)受到了學(xué)術(shù)界的持續(xù)關(guān)注,國(guó)內(nèi)外的研究人員從不同角度相繼提出了一些方案.
關(guān)于硬盤(pán)故障預(yù)測(cè)準(zhǔn)確性提升:Pitakrat等人[14]僅選取硬盤(pán)SMART作為狀態(tài)特征數(shù)據(jù),測(cè)試了21種不同的分類(lèi)算法,其中NNC,RF,C4.5,REPTree,RIPPER,PART,K-Star,SVM等算法可將故障預(yù)測(cè)的準(zhǔn)確性達(dá)到90%以上;Zhu等人[15]使用了SMRAT相關(guān)項(xiàng)在最近一段時(shí)間的變化值作為特征數(shù)據(jù)輸入,采用 SVM 作為分類(lèi)算法建立預(yù)測(cè)模型,故障預(yù)測(cè)的準(zhǔn)確性達(dá)到最高95%;Li等人[16]提出了基于決策樹(shù)的預(yù)測(cè)模型,能達(dá)到 95%以上的準(zhǔn)確率,并且能夠提前一周預(yù)測(cè)出故障,決策規(guī)則清晰地解釋了SMART屬性值與故障之間的關(guān)系,為采取措施并減少故障提供依據(jù);柳永康[17]提出二級(jí)預(yù)測(cè)方法,在預(yù)測(cè)磁盤(pán)是否即將要故障的基礎(chǔ)上,進(jìn)一步預(yù)測(cè)磁盤(pán)故障的發(fā)生時(shí)間范圍,使用邏輯回歸算法,在提前5天預(yù)測(cè)的情況下,預(yù)測(cè)準(zhǔn)確率最高達(dá)85.01%.
關(guān)于硬盤(pán)故障模型架構(gòu):Xiao等人[18]提出一種基于在線隨機(jī)森林的硬盤(pán)故障預(yù)測(cè)模型架構(gòu),解決了離線訓(xùn)練和模型老化的問(wèn)題,故障預(yù)測(cè)準(zhǔn)確率達(dá)到93%~99%.Xie等人[19]提出一種基于一對(duì)多建模的硬盤(pán)故障預(yù)測(cè)模型OME(optimized modeling engine),準(zhǔn)確率總體比以前的工作高出18.5%.
關(guān)于數(shù)據(jù)提前修復(fù):Ji等人[20]在預(yù)測(cè)到硬盤(pán)將要發(fā)生故障的情況下,主動(dòng)將該硬盤(pán)上的數(shù)據(jù)遷移到健康盤(pán),但限制數(shù)據(jù)遷移的速率,從而在硬盤(pán)故障發(fā)生時(shí)難以完成全部的數(shù)據(jù)遷移,仍舊需要依靠傳統(tǒng)被動(dòng)容錯(cuò);Qin等人[21]提出了Fatman系統(tǒng),對(duì)冷、熱數(shù)據(jù)分別使用RS(Reed Solomon)碼和副本機(jī)制,對(duì)于將要發(fā)生故障的硬盤(pán)提前進(jìn)行數(shù)據(jù)遷移,在故障發(fā)生以后,熱數(shù)據(jù)可以通過(guò)其他副本來(lái)提供服務(wù),而冷數(shù)據(jù)需要重構(gòu)丟失的數(shù)據(jù),這樣可減少76.3%的重構(gòu)開(kāi)銷(xiāo).
綜上所述,現(xiàn)有研究工作主要關(guān)注提升SATA硬盤(pán)的故障預(yù)測(cè)準(zhǔn)確率,忽略了針對(duì)SAS硬盤(pán)和固態(tài)硬盤(pán)的預(yù)測(cè),并且對(duì)采集、遷移、反饋的研究較少,難以形成一個(gè)完整的主動(dòng)容錯(cuò)技術(shù)方案.
本節(jié)圍繞中興通訊承建并運(yùn)營(yíng)的國(guó)內(nèi)華南某數(shù)據(jù)中心的硬盤(pán)情況進(jìn)行分析研究,提出完整的主動(dòng)容錯(cuò)機(jī)制,涵蓋采集、預(yù)測(cè)、遷移、反饋等各個(gè)環(huán)節(jié).該數(shù)據(jù)中心共有129 887塊硬盤(pán),在2018年共出現(xiàn)1995塊故障盤(pán),其品牌、類(lèi)型的情況如表1所示,Htrue為實(shí)際健康盤(pán)的數(shù)量,F(xiàn)true為實(shí)際故障盤(pán)的數(shù)量.

Table 1 Hard Disk Situation in Data Center表1 本文研究數(shù)據(jù)中心的硬盤(pán)情況
Note:Htruestands for the truly healthy disk;Ftruestands for the truly failed disk.
硬盤(pán)在故障前必然存在一系列的內(nèi)外部征兆,現(xiàn)有文獻(xiàn)過(guò)多地關(guān)注以SMART為代表的內(nèi)部征兆,而對(duì)硬盤(pán)IO情況、CPU使用率、內(nèi)存占用等外部征兆研究較少.處于亞健康和瀕臨故障的硬盤(pán),其SMART情況不穩(wěn)定、時(shí)好時(shí)壞,一旦在采集的瞬間其恰巧處于健康狀態(tài),這會(huì)直接導(dǎo)致誤判.在這種情況下,研究硬盤(pán)故障的外部征兆則是非常必要的補(bǔ)充,例如硬盤(pán)的IOPS和吞吐量很低,并且CPU使用量也很低但時(shí)延很高,這種情況同樣預(yù)示了硬盤(pán)即將故障.因此,本文采集硬盤(pán)的信息主要包括:硬盤(pán)SMART、硬盤(pán)IO情況、CPU使用率、內(nèi)存占用等.
在采集頻率上,現(xiàn)有的文獻(xiàn)均采用固定周期的采集方式,例如每天采集1次、每3 h采集1次等.誠(chéng)然,采集越頻繁越有利于對(duì)故障的預(yù)測(cè),能夠更加敏銳地捕捉到“震蕩”型的SMART表現(xiàn).然而考慮到采集硬盤(pán)信息對(duì)數(shù)據(jù)中心業(yè)務(wù)的必然影響,采集的頻率也不能過(guò)于頻繁.結(jié)合中興通訊數(shù)據(jù)中心視頻業(yè)務(wù)的特點(diǎn),本文的采集方法為:1)考慮視頻業(yè)務(wù)高峰,原則上每個(gè)盤(pán)每小時(shí)采集1次,但關(guān)閉業(yè)務(wù)高峰時(shí)段(11∶30—13∶00,18∶00—23∶30)的采集.2)考慮視頻業(yè)務(wù)特點(diǎn),電視節(jié)目多數(shù)以整點(diǎn)和半點(diǎn)作為切換點(diǎn),因此每次采集時(shí)段為5~25 min,35~55 min.3)避免同時(shí)采集全體硬盤(pán),應(yīng)以1 s為間隔,每次采集10塊盤(pán).至此,以2~4 TB構(gòu)成的百PB級(jí)的數(shù)據(jù)中心,在1 h之內(nèi)可以采集完畢,且對(duì)業(yè)務(wù)影響降到最低.4)在業(yè)務(wù)低谷時(shí)段(2∶35—5∶25)更新模型、批量發(fā)送采集數(shù)據(jù)至計(jì)算節(jié)點(diǎn).
由于采集間隔非固定,對(duì)硬盤(pán)的寫(xiě)IO通過(guò)當(dāng)前寫(xiě)入速度描述,其計(jì)算公式為

(1)
其中,k表示第k次采集.讀IO的計(jì)算同理,此處不再贅述.
由于硬盤(pán)SMART 數(shù)據(jù)各數(shù)據(jù)項(xiàng)取值的規(guī)整方法不同,所以各數(shù)據(jù)項(xiàng)在數(shù)值上差異很大,如果按原值輸入作模型訓(xùn)練時(shí),數(shù)值較大的項(xiàng)會(huì)帶來(lái)較大影響,因?yàn)槊總€(gè)數(shù)據(jù)項(xiàng)其原始數(shù)值的取值規(guī)則不同,為了防止個(gè)別數(shù)據(jù)項(xiàng)對(duì)模型帶來(lái)較大偏差,因此進(jìn)行歸一化處理,其計(jì)算公式為

(2)
通過(guò)3.1節(jié)的采集方式,每天每塊硬盤(pán)采集16條記錄,經(jīng)過(guò)1年的采集,129 887塊硬盤(pán)中共出現(xiàn)故障盤(pán)1 995塊.健康盤(pán)與故障盤(pán)的比例約為64∶1,面對(duì)如此嚴(yán)重的不均衡,本文采用滑動(dòng)窗口記錄合并及樣本構(gòu)建的方法解決該問(wèn)題.
如圖1所示,對(duì)于故障盤(pán),其在故障時(shí)刻前30天之內(nèi)的記錄作為故障記錄,每個(gè)記錄項(xiàng)按采樣時(shí)間先后進(jìn)行排序,設(shè)定3天為時(shí)間窗口,截取時(shí)間窗口內(nèi)的48條記錄.時(shí)間窗口起始位置放在硬盤(pán)的故障時(shí)間上,然后時(shí)間窗向前滑動(dòng)0.5天距離,即向前移動(dòng)8條記錄,共滑動(dòng)55次,直至?xí)r間窗口涵蓋故障前第30天的所有記錄.如圖2所示,對(duì)每次移動(dòng)時(shí)間窗口所截取的記錄,以記錄項(xiàng)為單位對(duì)其計(jì)算平均值、方差、極差,從而將連續(xù)多個(gè)時(shí)間點(diǎn)的各記錄項(xiàng)信息合并為1條正樣本,將其計(jì)入訓(xùn)練樣本集中.通過(guò)窗口的滑動(dòng),將構(gòu)建55倍于原始故障盤(pán)個(gè)數(shù)的正樣本數(shù).對(duì)于健康盤(pán),則隨機(jī)選取連續(xù)3天的48條記錄,同樣針對(duì)每個(gè)記錄項(xiàng)計(jì)算平均值、方差、極差,作為負(fù)樣本計(jì)入訓(xùn)練樣本集中.

Fig. 1 Sliding window record merging圖1 滑動(dòng)窗口記錄合并

Fig. 2 Sample construction圖2 樣本構(gòu)建
通過(guò)滑動(dòng)窗口記錄合并及樣本構(gòu)建方法,構(gòu)建出55倍故障盤(pán)的正樣本,相較于健康盤(pán)與故障盤(pán)之間64倍的比例差距,這幾乎填補(bǔ)了二者之間的鴻溝,正負(fù)樣本達(dá)到了相同的數(shù)量級(jí).此外,在單條樣本中綜合體現(xiàn)多個(gè)時(shí)間點(diǎn)的硬盤(pán)狀態(tài),不再孤立的審視單一時(shí)間點(diǎn)的硬盤(pán)狀態(tài),能夠更加敏銳地發(fā)現(xiàn)并刻畫(huà)硬盤(pán)在故障前的各項(xiàng)指標(biāo)的“陡增”、“陡減”、“震蕩”等狀態(tài),從而為故障硬盤(pán)的判定提供了充分的依據(jù).
硬盤(pán)SMART是對(duì)硬盤(pán)各組件,如磁頭、馬達(dá)、盤(pán)片等部件的狀態(tài)進(jìn)行分析監(jiān)控的技術(shù),并非所有信息均與硬盤(pán)故障相關(guān),圖3展現(xiàn)了4類(lèi)典型的SMART信息在硬盤(pán)故障前的表現(xiàn),分別是震蕩型、陡增型、陡減型以及平靜型,顯然平靜型的SMART是無(wú)助于區(qū)分硬盤(pán)是否將要故障的,因此需要特征篩選.

Fig. 3 Typical SMART information before disk failure圖3 典型的SMART信息在硬盤(pán)故障前的表現(xiàn)
本文研究的數(shù)據(jù)中心含有10種不同類(lèi)型及品牌的硬盤(pán),因不同型號(hào)的硬盤(pán)其采集到的SMART存在差異,甚至同一個(gè)ID的含義也可能不同,因此需針對(duì)每一種類(lèi)型及品牌的硬盤(pán)分別進(jìn)行建模.本文在特征篩選時(shí),采用專家經(jīng)驗(yàn)判斷、變化趨勢(shì)觀察、卡方檢驗(yàn)、屬性方差、樹(shù)的特征選擇這5種方法,在3種以上方法出現(xiàn)的ID最終被選取.受篇幅限制,表2僅展現(xiàn)了3個(gè)典型的硬盤(pán)類(lèi)型品牌用于預(yù)測(cè)建模的SMART選取情況.這些SMART與3.1節(jié)所述的外部征兆一起,用于建立故障預(yù)測(cè)模型.

Table 2 Selected SMART for Predicting Different Hard Disks表2 本文在不同類(lèi)型硬盤(pán)選取的SMART指標(biāo)
在算法方面,本文使用人工神經(jīng)網(wǎng)絡(luò)算法,設(shè)置神經(jīng)網(wǎng)絡(luò)隱含層個(gè)數(shù)為4個(gè),每層的神經(jīng)元個(gè)數(shù)分別設(shè)為1 000,500,200,100,輸入層神經(jīng)元個(gè)數(shù)根據(jù)輸入數(shù)據(jù)特征維度確定,輸出層為3個(gè),激活函數(shù)選擇tanh.為避免神經(jīng)網(wǎng)絡(luò)過(guò)擬合,將交叉熵代價(jià)函數(shù)和L2正則之和作為網(wǎng)絡(luò)的損失函數(shù).模型網(wǎng)絡(luò)的優(yōu)化算法使用了批量梯度下降法.事實(shí)上,本文在嘗試了10余種不同的算法及百余種不同的參數(shù)設(shè)置后,發(fā)現(xiàn)算法的優(yōu)劣對(duì)于硬盤(pán)故障預(yù)測(cè)的準(zhǔn)確率影響微乎其微,而數(shù)據(jù)質(zhì)量高情形下對(duì)預(yù)測(cè)的準(zhǔn)確性明顯優(yōu)于數(shù)據(jù)質(zhì)量低的情形,這充分說(shuō)明了在硬盤(pán)故障預(yù)測(cè)的問(wèn)題中數(shù)據(jù)質(zhì)量的重要性遠(yuǎn)高于算法.
如圖4所示,在對(duì)10種硬盤(pán)接口、品牌分別進(jìn)行建模后,多類(lèi)型硬盤(pán)故障即具備上線運(yùn)行的能力,在數(shù)據(jù)中心連續(xù)采集3天硬盤(pán)信息后,即可預(yù)測(cè)硬盤(pán)是否將要發(fā)生故障,首先根據(jù)硬盤(pán)類(lèi)型選擇相應(yīng)的模型,隨后將連續(xù)48條樣本進(jìn)行輸入,在超過(guò)36條樣本被判定為正樣本的情況下,該硬盤(pán)會(huì)被預(yù)測(cè)為瀕臨故障盤(pán).在商用場(chǎng)景中,先引入初始模型,在系統(tǒng)的運(yùn)行過(guò)程中定期進(jìn)行模型更新和參數(shù)調(diào)節(jié).

Fig. 4 Failure prediction of multi-type hard disk圖4 多類(lèi)型硬盤(pán)故障預(yù)測(cè)
主動(dòng)容錯(cuò)的最大價(jià)值是在預(yù)測(cè)到硬盤(pán)即將故障之時(shí),利用該硬盤(pán)的剩余壽命把數(shù)據(jù)遷移到健康盤(pán),從而避免進(jìn)入降級(jí)模式,能夠同時(shí)保證高性能和高可靠.然而現(xiàn)有技術(shù)讓瀕臨故障盤(pán)獨(dú)立承擔(dān)數(shù)據(jù)修復(fù),短時(shí)間內(nèi)連續(xù)集中的數(shù)據(jù)訪問(wèn)會(huì)加速故障的發(fā)生,往往導(dǎo)致數(shù)據(jù)還未完全修復(fù)時(shí)故障就已發(fā)生,最終仍需依靠被動(dòng)容錯(cuò)方法.因此,在主動(dòng)容錯(cuò)技術(shù)中,恢復(fù)數(shù)據(jù)的任務(wù)不應(yīng)僅由瀕臨故障盤(pán)單獨(dú)承擔(dān).
本節(jié)提出了多盤(pán)聯(lián)合數(shù)據(jù)遷移技術(shù),基于糾刪碼系統(tǒng),通過(guò)多盤(pán)聯(lián)合修復(fù)、拷貝與編解碼計(jì)算相結(jié)合的修復(fù)手段,加快了修復(fù)速度,有效避免系統(tǒng)進(jìn)入降級(jí)狀態(tài),同時(shí)均衡了網(wǎng)絡(luò)傳輸壓力.
多盤(pán)聯(lián)合數(shù)據(jù)修復(fù)的主要步驟包括:
1) 在硬盤(pán)A被預(yù)測(cè)為瀕臨故障后,立即啟動(dòng)主動(dòng)容錯(cuò)數(shù)據(jù)修復(fù).
2) 確定參與共同修復(fù)的硬盤(pán)組,訪問(wèn)系統(tǒng)元數(shù)據(jù),遍歷硬盤(pán)A中的所有p個(gè)數(shù)據(jù)塊(strip),讀取其所屬條帶(stripe)的硬盤(pán)編號(hào),這些硬盤(pán)參與共同修復(fù),稱之為硬盤(pán)組B.
3) 選擇空閑容量最大的健康硬盤(pán)作為修復(fù)目標(biāo)盤(pán),上述硬盤(pán)A和硬盤(pán)組B不得被選入,稱之為硬盤(pán)C.
4) 分別確定由硬盤(pán)A和硬盤(pán)組B負(fù)責(zé)修復(fù)的數(shù)據(jù)塊集合.假設(shè)共有p個(gè)數(shù)據(jù)塊待修復(fù),為集合Q.由硬盤(pán)A承擔(dān)p×y個(gè)數(shù)據(jù)塊的修復(fù),為集合T.由硬盤(pán)組B承擔(dān)剩余的p-p×y個(gè)數(shù)據(jù)塊的修復(fù),為集合R.
5) 隨后同時(shí)進(jìn)行硬盤(pán)A和硬盤(pán)組B的數(shù)據(jù)修復(fù):通過(guò)拷貝的方法,將集合T中所有的數(shù)據(jù)塊由硬盤(pán)A修復(fù)到硬盤(pán)C;通過(guò)編解碼計(jì)算的方法,將集合R所有數(shù)據(jù)塊由硬盤(pán)組B修復(fù)到硬盤(pán)C.
6) 如果硬盤(pán)A修復(fù)完畢,硬盤(pán)組B仍有20%以上的數(shù)據(jù)塊尚未修復(fù)完成,則硬盤(pán)A接管部分硬盤(pán)組B的數(shù)據(jù)修復(fù);反之亦然.
7) 如果硬盤(pán)A未修復(fù)完畢即發(fā)生故障,則系統(tǒng)進(jìn)入降級(jí)模式,由硬盤(pán)組B承擔(dān)全部剩余修復(fù)任務(wù).
現(xiàn)有技術(shù)文獻(xiàn)缺乏對(duì)預(yù)測(cè)結(jié)果的進(jìn)一步驗(yàn)證,并且在出現(xiàn)誤判情況或主動(dòng)修復(fù)策略不當(dāng)時(shí),無(wú)法及時(shí)改進(jìn),需要等待一定時(shí)間再將新采集的硬盤(pán)信息批量更新預(yù)測(cè)模型.因此本節(jié)提出預(yù)測(cè)結(jié)果二級(jí)驗(yàn)證及快速反饋方法,其原理如圖5所示:

Fig. 5 Two-level verification and feedback圖5 二級(jí)驗(yàn)證及反饋
對(duì)于被預(yù)測(cè)為故障的硬盤(pán),立即進(jìn)行主動(dòng)修復(fù):
1) 如果在修復(fù)過(guò)程中已出現(xiàn)故障,則系統(tǒng)降級(jí)服務(wù),由健康盤(pán)完成剩余的所有修復(fù)工作,并且需調(diào)整故障閾值,后續(xù)應(yīng)盡早將該盤(pán)預(yù)測(cè)為故障盤(pán);
2) 如果該盤(pán)的修復(fù)順利完成,但明顯快于或慢于協(xié)助其修復(fù)的其他健康盤(pán)的修復(fù)工作,則需調(diào)整修復(fù)策略,增大或減小由瀕臨故障盤(pán)承擔(dān)的修復(fù)數(shù)據(jù)比例;
3) 如果以上情況未出現(xiàn),則對(duì)該盤(pán)進(jìn)行破壞式寫(xiě)入,直至該盤(pán)發(fā)生故障為止,或?qū)懭霑r(shí)間達(dá)剩余生命周期閾值z(mì)時(shí)為止.記錄寫(xiě)入時(shí)間h.若h=z,則將其認(rèn)定為誤判,反饋給訓(xùn)練模型;若h>z4,則適當(dāng)上調(diào)故障閾值x,并適當(dāng)上調(diào)修復(fù)比例閾值y;若h 對(duì)于被預(yù)測(cè)為健康的硬盤(pán),應(yīng)立即協(xié)助故障盤(pán)進(jìn)行主動(dòng)修復(fù): 1) 如果在聯(lián)合修復(fù)過(guò)程中出現(xiàn)故障,則該盤(pán)被誤判為健康盤(pán),需要樣本反轉(zhuǎn)為正樣本. 2) 如果修復(fù)順利完成,則持續(xù)觀察,如果在1個(gè)月之內(nèi)未出現(xiàn)故障,則預(yù)測(cè)正確,否則為預(yù)測(cè)錯(cuò)誤. 在上述過(guò)程中,有3個(gè)重要閾值是反饋機(jī)制的重要組成部分,包括: 1) 故障閾值x,若同一塊硬盤(pán)的連續(xù)多條樣本健康度低于x,則認(rèn)為該硬盤(pán)為瀕臨故障盤(pán). 2) 修復(fù)比例閾值y,由瀕臨故障盤(pán)承擔(dān)的數(shù)據(jù)修復(fù)比例y,由其他健康盤(pán)承擔(dān)的數(shù)據(jù)修復(fù)比例為1-y.該值的最理想情況是,由瀕臨故障盤(pán)的數(shù)據(jù)修復(fù)時(shí)間恰好等于其他健康盤(pán)承擔(dān)的數(shù)據(jù)修復(fù)時(shí)間.一次主動(dòng)數(shù)據(jù)修復(fù)由該2種修復(fù)同時(shí)進(jìn)行,顯然,主動(dòng)數(shù)據(jù)修復(fù)的時(shí)間等于用時(shí)較大者的時(shí)間. 3) 剩余生命周期閾值z(mì),在主動(dòng)數(shù)據(jù)修復(fù)之后,硬盤(pán)剩余生命周期越小越理想,最理想的情況是修復(fù)完畢時(shí)該盤(pán)恰好故障.若剩余生命周期大于該閾值z(mì),則適當(dāng)調(diào)節(jié)x和y. 通過(guò)二次驗(yàn)證及快速反饋方法,針對(duì)不合理的主動(dòng)修復(fù)策略和不及時(shí)的故障預(yù)測(cè),能夠及時(shí)調(diào)整參數(shù),在避免系統(tǒng)降級(jí)的前提下,能夠精準(zhǔn)利用瀕臨故障硬盤(pán)的剩余生命周期;針對(duì)錯(cuò)誤的預(yù)測(cè),能夠快速甄別,及時(shí)反轉(zhuǎn)正負(fù)樣本標(biāo)記,為模型更新提供準(zhǔn)確的依據(jù). 主動(dòng)容錯(cuò)技術(shù)框架如圖6所示.通過(guò)分時(shí)硬盤(pán)信息采集方法、滑動(dòng)窗口記錄合并及樣本構(gòu)建方法、多類(lèi)型硬盤(pán)故障預(yù)測(cè)方法、多盤(pán)聯(lián)合數(shù)據(jù)遷移方法、預(yù)測(cè)結(jié)果二級(jí)驗(yàn)證及快速反饋方法五大技術(shù),將主動(dòng)容錯(cuò)技術(shù)形成完整閉環(huán),從而具備了商業(yè)應(yīng)用的條件. Fig. 6 Framework of proactive fault tollerance technology圖6 主動(dòng)容錯(cuò)技術(shù)框架 本節(jié)從3個(gè)方面對(duì)本文工作進(jìn)行測(cè)試: 1) 測(cè)試采集硬盤(pán)信息對(duì)前臺(tái)業(yè)務(wù)的干擾,其評(píng)價(jià)指標(biāo)是相較于不采集硬盤(pán)信息的情況,前臺(tái)業(yè)務(wù)的帶寬下降比例以及用戶視頻播放的實(shí)際體驗(yàn)情況; 2) 測(cè)試硬盤(pán)故障預(yù)測(cè)的準(zhǔn)確率,其評(píng)價(jià)指標(biāo)是召回率和誤檢率; 3)測(cè)試數(shù)據(jù)修復(fù)速度,其評(píng)價(jià)指標(biāo)是完成數(shù)據(jù)修復(fù)的時(shí)間. 前臺(tái)業(yè)務(wù)是20個(gè)客戶端分別播放30 min直播視頻,其正常狀態(tài)是該數(shù)據(jù)中心對(duì)所有的客戶端提供等量、恒定的讀數(shù)據(jù)帶寬.圖7(a)為不采集硬盤(pán)信息的情況,圖7(b)為傳統(tǒng)方法一次性采集全體硬盤(pán)的情況,圖7(c)為本文工作的情況.圖7的縱坐標(biāo)為客戶端的播放帶寬. 與圖7(a)相比,圖7(b)雖然平均帶寬整體僅下降0.88%,但在采集SMART時(shí)連續(xù)9.18 s系統(tǒng)不可服務(wù),其前11.21 s及其后4.23 s出現(xiàn)明顯性能抖動(dòng),用戶在觀看直播視頻的過(guò)程中出現(xiàn)了超過(guò)20 s的嚴(yán)重卡頓;與圖7(a)相比,圖7(c)雖然平均帶寬整體下降0.96%,但全程未出現(xiàn)帶寬性能抖動(dòng),用戶對(duì)于視頻的播放未察覺(jué)任何異常.由此可見(jiàn),本文工作提升了用戶體驗(yàn),降低了對(duì)前臺(tái)業(yè)務(wù)的干擾. Fig. 7 Client bandwidth under different conditions圖7 在不同情況下客戶端播放視頻帶寬 在本節(jié)測(cè)試中,場(chǎng)景涵蓋:1)基于中興通訊已采集的數(shù)據(jù)進(jìn)行建模和預(yù)測(cè);2)基于中興通訊已采集的數(shù)據(jù)進(jìn)行建模,在中興通訊真實(shí)場(chǎng)景中進(jìn)行預(yù)測(cè);3)基于Backblaze數(shù)據(jù)集進(jìn)行建模和預(yù)測(cè).并與其他文獻(xiàn)公開(kāi)的方法進(jìn)行了比較. 4.2.1 面向已采集的硬盤(pán)數(shù)據(jù)進(jìn)行預(yù)測(cè) 中興通訊已采集的數(shù)據(jù)包括127 892塊健康盤(pán)、1 995塊故障盤(pán),其中70%用于訓(xùn)練建模,30%用于預(yù)測(cè)測(cè)試.其總體測(cè)試結(jié)果如表3所示,HPredicted為被預(yù)測(cè)為健康盤(pán)的數(shù)量,F(xiàn)Predicted為被預(yù)測(cè)為故障盤(pán)的數(shù)量.本文工作總體的召回率為94.66%,誤檢率為0.34%.對(duì)于各類(lèi)型的細(xì)分測(cè)試結(jié)果如表4所示,SATA,SAS,SSD的召回率分別為94.64%,94.37%,97.14%,誤檢率分別為0.36%,0.35%,0.10%.可以看到,相較于機(jī)械硬盤(pán),固態(tài)硬盤(pán)的預(yù)測(cè)準(zhǔn)確性高、誤檢率低. 為了與本文工作進(jìn)行比較,將文獻(xiàn)[15]和文獻(xiàn)[17]的方法分別作為對(duì)比系統(tǒng)1和對(duì)比系統(tǒng)2,但受困于現(xiàn)有文獻(xiàn)僅針對(duì)單一品牌類(lèi)型的硬盤(pán)故障進(jìn)行預(yù)測(cè),本節(jié)僅選取了希捷SATA數(shù)據(jù)作為比較.如表5所示,本文工作、對(duì)比系統(tǒng)1、對(duì)比系統(tǒng)2的召回率分別為94.12%,88.24%,85.29%,誤檢率分別為0.30%,2.10%,1.01%,本文工作顯著降低了誤檢率. Table 3 Prediction Results Based on Collected Data in Overall表3 基于已采集數(shù)據(jù)的總體預(yù)測(cè)結(jié)果 Nete:HPredictedstands for the predicted healthy disk;FPredictedstands for the predicted failed disk. Table 4 Prediction Results Based on Collected Data in Detail表4 基于已采集數(shù)據(jù)的細(xì)分預(yù)測(cè)結(jié)果 4.2.2 面向真實(shí)場(chǎng)景進(jìn)行預(yù)測(cè) 為了進(jìn)一步驗(yàn)證預(yù)測(cè)的準(zhǔn)確性,本文系統(tǒng)在中興通訊的真實(shí)數(shù)據(jù)中心進(jìn)行了安裝部署,對(duì)硬盤(pán)未來(lái)的故障進(jìn)行預(yù)測(cè),但關(guān)閉數(shù)據(jù)修復(fù),以觀察是否真正故障.對(duì)于預(yù)測(cè)結(jié)果的判斷,需等待1個(gè)月后得出結(jié)論.系統(tǒng)運(yùn)行3個(gè)月,共出現(xiàn)故障盤(pán)521塊.在模型訓(xùn)練時(shí)使用100%已采集的硬盤(pán)數(shù)據(jù).測(cè)試結(jié)果如表6所示,召回率93.86%;誤檢率0.33%,預(yù)測(cè)準(zhǔn)確性得到了真實(shí)場(chǎng)景的驗(yàn)證. Table 5 Comparison of Prediction Results Based onSeagate SATA表5 基于希捷SATA數(shù)據(jù)的預(yù)測(cè)結(jié)果比較 Table 6 Prediction Results Based on Real Scene表6 基于真實(shí)場(chǎng)景的預(yù)測(cè)結(jié)果 4.2.3 在Backblaze數(shù)據(jù)集評(píng)測(cè) 為了充分驗(yàn)證本文工作的普遍適用性,本文選取了Backblaze網(wǎng)站免費(fèi)公開(kāi)的2017年的全年故障盤(pán)的數(shù)據(jù)集進(jìn)行測(cè)試,其中希捷品牌的SATA硬盤(pán)共65 003塊,故障盤(pán)1 431塊,將其70%用于建模、30%用于測(cè)試.然而遺憾的是,該數(shù)據(jù)集的數(shù)據(jù)質(zhì)量較低,主要存在的問(wèn)題包括:1)硬盤(pán)信息采集頻率較低,每天1次,且個(gè)別數(shù)據(jù)丟失;2)采集硬盤(pán)信息單一化,是僅采集硬盤(pán)SMART信息,未采集IO信息,這對(duì)于硬盤(pán)剩余壽命的衡量是不利的;3)硬盤(pán)類(lèi)型單一化,僅涉及SATA硬盤(pán),不涉及SAS硬盤(pán)和固態(tài)硬盤(pán).4)硬盤(pán)品牌單一化,該數(shù)據(jù)集中希捷品牌的硬盤(pán)占據(jù)絕大多數(shù),其他品牌鳳毛麟角.正因上述原因,測(cè)試時(shí)無(wú)法將4.2.1節(jié)中的模型直接與該數(shù)據(jù)集對(duì)接,在經(jīng)過(guò)一定的技術(shù)處理,例如不考慮IO、減少樣本合并數(shù)量、剔除故障盤(pán)數(shù)量在20塊以下的硬盤(pán)型號(hào)后,最終建立預(yù)測(cè)模型. 其結(jié)果如表7所示,本文工作、對(duì)比系統(tǒng)1、對(duì)比系統(tǒng)2的召回率分別為80.43%,75.19%,82.60%,誤檢率分別為3.45%,3.84%,2.57%.可以看到,在數(shù)據(jù)質(zhì)量較低的情況下,本文工作與2個(gè)對(duì)比系統(tǒng)的預(yù)測(cè)準(zhǔn)確性均不理想,充分說(shuō)明了數(shù)據(jù)質(zhì)量對(duì)預(yù)測(cè)結(jié)果的重要性. Table 7 Test Results from the Backblaze Dataset表7 在Backblaze數(shù)據(jù)集的測(cè)試結(jié)果 在本節(jié)測(cè)試時(shí),所有涉及的硬盤(pán)均為希捷ST8000DM002型號(hào),糾刪碼類(lèi)型為6+3型.因硬盤(pán)在瀕臨故障期間的讀寫(xiě)速度不穩(wěn)定,為盡量排除干擾,每項(xiàng)測(cè)試都是10次,去掉2個(gè)最高值和2個(gè)最低值,剩余值取平均值.為了充分體現(xiàn)本文工作的優(yōu)勢(shì),將瀕臨故障盤(pán)獨(dú)立且全速修復(fù)的傳統(tǒng)方法作為對(duì)比系統(tǒng)3,將文獻(xiàn)[20]的方法作為對(duì)比系統(tǒng)4,如圖8所示,在不同修復(fù)數(shù)據(jù)量的情況下,本文的工作均大幅減少了修復(fù)時(shí)間,相較于對(duì)比系統(tǒng)3,4的方法分別平均減少55.10%和84.56%的修復(fù)時(shí)間. Fig. 8 Comparison of repair time under different data quantities圖8 在不同數(shù)據(jù)量的情況下的修復(fù)時(shí)間對(duì)比 本節(jié)從對(duì)前臺(tái)業(yè)務(wù)的干擾程度、對(duì)故障預(yù)測(cè)的準(zhǔn)確性以及故障后的修復(fù)速度這3個(gè)維度對(duì)本文的工作進(jìn)行了測(cè)試,其中采集硬盤(pán)信息對(duì)前臺(tái)業(yè)務(wù)影響僅為0.96%,對(duì)硬盤(pán)故障預(yù)測(cè)的召回率達(dá)到94.66%,數(shù)據(jù)修復(fù)較傳統(tǒng)方法減少55.10%的時(shí)間.該系統(tǒng)已在中興通訊的數(shù)據(jù)中心正常運(yùn)行9個(gè)月以上,期間超過(guò)90%的硬盤(pán)故障均通過(guò)主動(dòng)容錯(cuò)得以解決,系統(tǒng)降級(jí)服務(wù)的次數(shù)顯著降低,且未出現(xiàn)數(shù)據(jù)丟失. 主動(dòng)容錯(cuò)技術(shù)的核心目標(biāo)包括:1)高可靠.故障預(yù)測(cè)準(zhǔn)確率高,避免存儲(chǔ)系統(tǒng)降級(jí)服務(wù).2)高智能.解放運(yùn)維人員勞動(dòng)力,自動(dòng)處理.3)低干擾.在采集、分析、遷移等階段都盡可能降低對(duì)前端業(yè)務(wù)干擾,不影響數(shù)據(jù)中心的正常服務(wù).4)低成本.避免浪費(fèi)硬盤(pán)壽命,充分利用硬盤(pán)剩余壽命.5)廣適用.能夠適應(yīng)真實(shí)的大規(guī)模數(shù)據(jù)中心業(yè)務(wù)場(chǎng)景,對(duì)不同品牌、型號(hào)、類(lèi)型的硬盤(pán)都能支持,且安裝部署靈活方便. 然而遺憾的是,現(xiàn)有的主動(dòng)容錯(cuò)技術(shù)僅僅局限于對(duì)硬盤(pán)故障的高準(zhǔn)確預(yù)測(cè),但對(duì)采集、遷移、反饋等方面研究較少,這使得主動(dòng)容錯(cuò)技術(shù)在難以真正商用. 本文首次提出了“采集—預(yù)測(cè)—遷移—反饋”的全流程主動(dòng)容錯(cuò)技術(shù)方案,包括:1)提出了分時(shí)硬盤(pán)信息采集方法,解決了大規(guī)模SMART采集引發(fā)的災(zāi)難問(wèn)題;2)提出了滑動(dòng)窗口記錄合并及樣本構(gòu)建方法,填補(bǔ)了針對(duì)SAS硬盤(pán)和固態(tài)硬盤(pán)故障預(yù)測(cè)的空白;3)提出了多類(lèi)型硬盤(pán)故障預(yù)測(cè)方法,攻克了正負(fù)樣本嚴(yán)重不均的難題;4)提出了多盤(pán)聯(lián)合數(shù)據(jù)遷移方法,加快了數(shù)據(jù)的修復(fù)速度;5)提出了預(yù)測(cè)結(jié)果二級(jí)驗(yàn)證及快速反饋方法,靈活并快速地處理了誤判、漏判、遲判的情形.測(cè)試表明,采集硬盤(pán)信息對(duì)前臺(tái)業(yè)務(wù)影響僅為0.96%,對(duì)硬盤(pán)故障預(yù)測(cè)的召回率達(dá)到94.66%,數(shù)據(jù)修復(fù)較傳統(tǒng)方法減少55.10%的時(shí)間.本文的工作已在中興通訊的大規(guī)模數(shù)據(jù)中心穩(wěn)定商用,滿足了主動(dòng)容錯(cuò)技術(shù)在高可靠、高智能、低干擾、低成本、廣適用等方面的核心目標(biāo).3.6 本節(jié)小結(jié)

4 實(shí)驗(yàn)與結(jié)果
4.1 測(cè)試采集硬盤(pán)信息對(duì)前臺(tái)業(yè)務(wù)的干擾

4.2 測(cè)試硬盤(pán)故障預(yù)測(cè)準(zhǔn)確率





4.3 測(cè)試數(shù)據(jù)修復(fù)的速度

4.4 實(shí)驗(yàn)小結(jié)
5 總 結(jié)