Hard Disk Failure Prediction Algorithm for Time Series SMART Imbalanced Data
LI Guo',HOU Xuexue1,LI Jing1,CHEN Hui2 (1.School of Computer Science and Technology,Civil Aviation University of China, Tianjin 30030o,China; 2. Aviation Meteorological Center,Air Trafic Management Bureau of Civil Aviation Administration of China,Beijing 100015,China)
Abstract: In response to the issue of poor fault prediction caused by the scarcity of data center hard disk failure data,a hard disk failure prediction algorithm that could solve imbalance problems through data augmentation was proposed based on the temporal features of self-monitoring analysis and reporting technology(SMART) data information. The algorithm employed long short-term memory networks to improve traditional generative adversarial networks,and sequence segment data containing fault deterioration trend information was generated to address the imbalance problem in the dataset. Meanwhile,to further enhance predictive performance,the prediction model was integrated with temporal attention mechanism and feature attention mechanism, exploring the sensitivity of different SMART features and time steps to the deterioration process of hard disk failures. Additionally, various typical feature selection methods were combined in the feature selection stage to select key features. Experimental validation was conducted on a real hard disk dataset,and the results indicated that the accuracy,recall and F1 values of the proposed algorithm were significantly improved.
Key Words:imbalanced data;data augmentation;hard disk failure prediction;generative adversarial network;attention mechanism
0 引言
作為經濟社會數字化轉型的存儲保障設施,云存儲系統通過硬盤(harddiskdrive,HDD)來提供數據存儲服務[]。在云存儲系統運行過程中發生硬盤故障不可避免,硬盤故障將導致存儲數據丟失甚至數據中心的嚴重癱瘓,造成極大的人力、物力損失[2]。為預防存儲數據的丟失,傳統的云存儲系統采用基于副本的被動容錯機制[3-4],但隨著存儲系統規模的增大,被動容錯機制需要創建大量副本,嚴重消耗存儲資源且無法滿足數據中心的高可靠性和高服務性要求。因此,主動容錯機制成為國內外學者的重點研究內容。
BackBlaze公司公布的硬盤自我檢測分析與報告技術(self-monitoring analysis and reporting technol-ogy,SMART)日志數據與硬盤故障之間存在明顯相關性,可以通過分析SMART數據實現硬盤故障的主動容錯[5-I]。但硬盤在運行周期內大多處于正常狀態,故障發生概率較小,SMART數據中健康樣本、故障樣本高度混合,造成了嚴重的正負樣本數據不平衡問題。同時,在實際存儲場景中,硬盤故障是從健康狀態到故障狀態的逐漸惡化,并非立即發生故障[12]。由于SMART數據僅在故障當天被標記為故障數據,造成故障前一段時間的惡化數據被錯誤標記為健康數據,加劇了樣本數據不平衡問題。為解決數據不平衡問題,研究人員分別基于以下角度提出了有針對性的平衡方案。
基于數據的角度,研究者使用過采樣或欠采樣技術來平衡正負樣本。Tanaka等[13]通過生成對抗網絡(generativeadversarialnetwork,GAN)生成模擬數據,并在基準數據集上證明了生成數據的可靠性。據此,Shi等[14]將其應用于硬盤故障預測領域,利用GAN生成故障硬盤數據,并通過大量的實驗證明了該方法對緩解數據不平衡問題的有效性。然而,使用傳統GAN網絡生成故障數據僅學習了故障當天的數據,無法捕獲故障前的惡化信息。因此,采用傳統GAN方法擬合樣本特征得到的故障數據與真實的故障數據之間存在較大偏差,不利于硬盤故障預測模型的訓練。
基于模型的角度,Santo等[15]提出基于長短期記憶網絡(long short-term memory network,LSTM)的預測模型,使SMART特征中的上下文信息參與訓練,預測硬盤剩余使用壽命,但不能應對數據不平衡問題。Ircio等9提出一種雙輪學習方法,基于流式SMART數據構建兩個分類器依次訓練,雖有效緩解了數據不平衡問題,但由于現實數據中心的故障數據極少,仍無法提供充足的數據對第一分類器訓練建模。
根據上述分析,本文提出一種可生成時間序列段數據的數據增強算法(LGAN),該算法在數據增強的同時實現了對SMART數據中故障趨勢信息的保留。同時,根據SMART數據在特征維度和時序維度的動態變化,提出了一種融合時序注意力機制(timeattention,TA)和特征注意力機制(featureat-tention,FA)的預測模型。為了在時間維度上對歷史時間步與當前時間步進行關聯分析,在時序注意力前后分別加入LSTM編碼單元和LSTM解碼單元,提高了模型預測的準確性。此外,在特征選擇過程中設計了一種融合多算法的位置加權排序的特征選擇—Q-sort算法,并通過實驗驗證了所提算法的有效性。
硬盤故障預測模型的設計與實現
故障預測算法框架如圖1所示。預測模型的部署由離線訓練和在線預測兩部分組成,融合雙注意力機制的硬盤故障預測模型簡稱為TFA-LSTM。本文融合皮爾遜相關系數(Pearson correlationcoeffi-cient,PC)[16]、斯皮爾曼相關系數(Spearman's rankcorrelation coefficient,SC)[17]、隨機森林(random for-est,RF)[18] XGBoost[19]和 Relief[14,20]五種特征選擇算法進行特征篩選。

數據預處理后,對所有故障數據進行基于LGAN模型的數據增強,得到平衡數據集。然后,結合原始健康數據來共同訓練TFA-LSTM。訓練過程中,TFA-LSTM不斷學習SMART數據的特征分布和時序依賴信息,并輸出判別模型。
在線預測部分通過加載訓練好的判別模型,對新產生的硬盤SMART數據進行判斷,從而預測硬盤是否會產生故障趨勢或發生故障。
1.1 故障硬盤SMART數據分析處理
分別對一塊健康硬盤和一塊故障硬盤的SMART特征隨時間的變化趨勢進行可視化,結果如圖2所示。可以看出,故障數據在接近真實故障的過程中,會產生越來越劇烈的波動,傳統數據增強方法完全忽略該部分信息,僅依據故障當天的SMART值進行數據重構生成偽樣本,不符合真實數據情況
結合實際運維工作的情況,將故障前一周的SMART數據標記為惡化趨勢數據。基于此,融合了時序模型LSTM的LGAN數據增強算法通過提取所有的故障序列,學習時間序列數據中的惡化趨勢信息和故障信息,從而創新性地重構出具有周期性和時間相關性的時序故障數據。
1.2LGAN數據增強模型
1.2.1LGAN 結構設計LGAN數據增強模型結構如圖3所示,主要由生成器(Generator,G)和鑒別器(Discriminator,D)兩部分組成。其中,生成器G由編碼器Enc1和解碼器Dec1構成,Enc1通過兩層LSTM網絡實現,將輸入的故障數據編碼為隱空間的低維向量,進而學習原始故障數據中有價值的信息。Dec1與Enc1結構對稱分布,將Enc1編碼后的隱向量還原到初始表現形式。鑒別器D的主體為編碼器Enc2,與Enc1結構相同,但其輸出的是輸入數據為真實數據的概率,從而完成對真實數據和生成數據的識別。


1.2.2 運用LGAN 的硬盤故障數據增強2相較于傳統GAN網絡,LGAN將LSTM貫穿于整個模型,從而可執行基于時間序列的數據建模。在生成器G中,故障數據首先經Enc1編碼,得到其在低維隱空間的編碼向量 V ,然后Dec1以類似方式從隱空間將編碼向量重構出原始輸入,
e:hι=φ(Wι+b),V=hι,

其中: e 和 r 分別為編碼函數和解碼函數(通過LSTM實現); φ 為非線性激活函數; Wx 和 W′ 為待訓練參數; b 和 b′ 分別為編碼器和解碼器的偏置項
訓練博弈過程中,生成器G使Enc1和Dec1在數據重構損失 L?R 最小的目標下得到隱空間的當前最優解,并固定最優解下的編碼和解碼參數。損失函數可表示為

在當前最優解下,生成函數 g 繼承于編碼函數和解碼函數,將隨機噪聲 Z 作為輸人,重構生成故
障樣本
,

鑒別器D同樣由LSTM編碼,完成對輸入的真實數據和生成數據的分類,返回分類結果
1),設置閾值為0.5。當
時,判斷為真實數據;當 Dι?0.5 時,判斷為生成數據。在鑒別器D的訓練優化過程中,通過使鑒別損失函數 Lv 最小化,達到最大化鑒別精度的目的,

然后,固定當前鑒別器最優參數,進一步優化生成器G,反復迭代,直至達到G與D之間的納什均衡,即D的最小鑒別損失為0.5,無法識別數據源是否為真實數據。G生成的數據極盡逼近真實故障數據,并保存和輸出當前狀態下的生成數據 
1.3基于TFA-LSTM的硬盤故障預測
數據不平衡問題使基于LSTM模型的預測能力一直未達到預期效果[12,14]。使用LGAN完成了保留時序信息的數據增強工作,為LSTM等關注數據間關聯關系的循環神經網絡(RNN)模型提供了數據基礎。基于此,為了充分學習和利用數據中的依賴信息,在LSTM模型上同時加入特征注意力機制和時序注意力機制[21],提出了一種融合雙注意力機制的硬盤故障預測模型TFA-LSTM。
1.3.1面向硬盤屬性間關系的特征注意力機制不同SMART屬性對故障的表征能力各不相同。例如,smart_1(底層數據讀取錯誤率)屬性記錄了存儲器從某硬盤表面讀取數據時的錯誤率,當該屬性出現數值時,表示磁頭已出現問題。因此,在訓練過程中應著重關注該屬性的變化情況。相比之下,smart_240(磁頭飛行時間)、smart_9(通電時間)等屬性值的變化會逐漸增加硬盤故障的概率,但不會直接預示故障。因此,在模型訓練過程可將該類屬性作為輔助分析因素,適當降低對其的關注程度。
面向硬盤屬性間關系的特征注意力機制可以實現上述目標。特征注意力層是由 n 個神經元組成的神經網絡,將特征集 X=[x1,x2,…,xn] ( n 為特征個數)輸入其中后,使用式(6)得出樣本各屬性的權重系數 αk ,然后使用式(7)將權重系數與輸人數據 X 融合得到特征加權數據 αX ,即
αk=Softmax(WeXk+be),

其中: We 為可訓練權重; be 為特征注意力機制的偏置項。
1.3.2 面向硬盤屬性時序關系的時序注意力機制
SMART數據在時序上也存在依賴關系。例如,smart_5(重新分配扇區計數)記錄了硬盤某扇區持續出現讀/寫校驗錯誤時,將該地址重新定向到備用扇區進行數據轉移的扇區數量。當該屬性值不為零時,要密切注意其發展趨勢。若其能長期保持穩定,則硬盤仍可正常運行;若數據值不斷上升,說明不良扇區在增加,硬盤已處于不穩定狀態,有極高的故障風險。因此,時序注意力機制通過記憶過往信息,完成對發生在該時間過程中的情況分析。本文利用卷積神經網絡中的卷積核(kernel)提取當前時間步與歷史數據之間的時序信息,具體步驟如下。
Step1將特征加權數據 αX 輸入LSTM 編碼單元,輸人數據隱狀態 hι 可表示為

其中: ct 和 ct-1 分別為當前時刻和上一時刻的神經元狀態;
和 ot 分別為遺忘門、輸入門和輸出門;Wc 和 Uc 分別為當前時刻和上一時刻的權重系數。
Step2當前時間步的LSTM編碼單元隱狀態 h?t 與先前時間步的LSTM解碼單元隱狀態 dt-1 共同構成分析矩陣 ±bH ,

將 ±bH 輸入時序注意力機制模塊,時序注意力機制配置 l 個( ξl 為時序數據窗口大小)kernel,kernel沿±bH 的行向量對時間窗口內的每個時間步進行卷積計算,并依次提取每個特征進行重復操作,最終得到時間模式矩陣 HC
HCij=Σl=1ωHlj×Cl,
其中: HCij 表示第 i 個kernel與第 j 個特征卷積作用的結果值。 HC 的每一行表示一個時間步信號,使用式(11)作為評分函數,計算每行 ±bH±bCi 對 h?t 的相關性得分,并對其歸一化,得到時序注意力權重,

其中: ±bH±bCi 是 HC 的行向量; Wa 為權重矩陣; βi 為時序注意力權重。
Step3對特征加權數據 αX 進行時序注意力加權得到 βαX ,并輸入LSTM解碼單元。同時,LSTM解碼器讀取標簽 yt 。對輸入數據進行解碼,從而得到隱狀態 dι ,
d?t=f1(y?t,β?th?tn,d?t-1)c
dι 與下一時間步的解碼單元 ht+1 構成分析矩陣±bH ,再次輸人時序注意力機制中。根據 χt 時刻標簽進行硬盤故障預測,

其中: Wy 和 bw 將解碼器中前后時刻的隱狀態進行連接; υyT 為帶權重的線性函數; bv 為偏差。預測結果表示為 Y?T∈(0,1) ,并設置閾值為0.5。當預測結果 Yr?0.5 時,認為硬盤處于健康狀態;當預測結果 Y?Tgt;0.5 時,則認為硬盤出現故障趨勢或已發生故障,立刻發出故障預警,
2 數據集與預處理
2.1 數據集
實驗采用BackBlaze云存儲公司2021年的硬盤SMART數據,型號為希捷ST4000DM000硬盤。該型號硬盤年化故障率為 1.80% ,其中故障硬盤339塊,健康硬盤18611塊。為保證實驗數據的嚴謹性,僅保留完整運行一年的18394塊硬盤用于實驗驗證。
已有研究一般將評估數據隨機劃分來驗證結果,未考慮事件發生的先后順序。為保證實驗過程的嚴謹性,依據時間特征將數據集劃分為訓練集、驗證集、測試集,ST4000DM000硬盤數據見表1。故障硬盤選取故障發生時間靠前的237塊硬盤用于訓練,其中200塊作為訓練集,37塊作為驗證集;故障發生時間靠后的102塊硬盤用于測試集。而健康硬盤擁有整年的運行數據,因此將運行前8個月數據用于訓練,其中前7個月數據作為訓練集,剩余1個月數據作為驗證集;將運行后4個月數據作為測試集。在真實的訓練數據集中,健康硬盤與故障硬盤的數量比約為92:1,正負樣本嚴重失衡。

2.2 數據預處理
2.2.1融合多算法的加權平均特征選擇為避免只使用單一特征選擇方法的不穩定性,融合5種典型特征選擇算法提出了Q-sort二次排序加權平均特征選擇。5種典型特征選擇算法分析如下。
1)PC算法。該算法學習SMART特征與標簽之間的線性關系,直接計算各特征對故障標簽的表征能力。
2)SC算法。該算法計算SMART特征和故障標簽之間的單調關系(不僅僅是線性關系)。
3)RF算法。不同于其他方法直接對各個特征進行判斷,該算法通過故障預測效果來間接評估特征的重要性,根據預測結果的誤差大小選擇最有價值的特征。
4)XGBoost選擇算法。該算法直接對特征的重要性進行評估,將特征的重要性具象化為該特征在構建提升樹時的作用。
5)Relief算法。該算法也直接對特征進行重要性評估,通過引入向量的方式來衡量特征重要性。
上述5種典型特征選擇算法分別從不同的角度和規則進行篩選,具有一定的代表性。Q-sort特征選擇算法流程設計如下。
Step1特征重要性計算。基于5種典型特征選擇算法,分別對數據集中特征的重要性打分,并進行首次排序得到5個特征重要性序列,即 (a1,a2 ,a3,a4,a5) 。
Step2位置平均值計算。依據特征 χi 首次排序時出現在各序列中的位置,計算該特征的位置平均值。由于特征在不同算法中的重要性得分不同,甚至相差懸殊,因此在計算位置平均值時,根據其重要性得分賦予權重。設定當特征得分的有效信息值出現在十分位時,該特征的位置權重為1;當有效信息值出現在百分位時,該特征的位置權重為2,依此類推。
假設特征 i 在第一種算法的重要性得分為0.0457,則將該特征的位置權重賦值為2(有效信息值出現在百分位),即 ω?1=2 。 a1i 為特征 i 在 a1 序列中的位置值,則最終的加權位置
為

Step3二次排序。根據特征的位置平均值大小對特征升序排序,得到序列
,則
為
從小到大的排序結果。
根據Q-sort算法的二次排序結果,選定排名前7位的特征為最終特征選擇結果,如表2所示。
2.2.2歸一化不同SMART特征的取值范圍不同,為消除其影響,對每個SMART特征進行歸一化,

其中: xmin 為樣本數據的最小值; xmax 為樣本數據的最大值。

3 實驗與分析
3.1 實驗環境與設計
實驗使用Inteli9-12900HCPU和NVIDIAGeForce3060GPU,于TensorFlow深度學習架構在Python3.6環境中實現。采用準確率、召回率和 F1 值作為實驗評價指標,其中,準確率表示預測的故障硬盤中真正即將故障的硬盤數量比例;召回率表示正確預測的故障硬盤占所有實際故障硬盤的比例;F1值表示準確率和召回率的調和平均。
為保證實驗結果的穩定性,所示結果均取5次實驗后的平均值。實驗將分別針對特征選擇、數據增強和TFA-LSTM故障預測模型3個模塊的有效性進行驗證。
3.2特征選擇算法對模型性能提升效果分析
為驗證本文Q-sort算法對模型性能的提升效果,分別與 PC、SC、RF、XGBoost、Relief、Pipeline[22]特征選擇算法的預測結果進行對比,并將未進行特征選擇的情況也加入對比,實驗結果如表3所示。

從表3可以看出,本文Q-sort算法的召回率和F1 值均達到了最佳效果,分別為 69% 和 59% ;準確率為 56% ,比取得最佳結果的PC算法( 59% )略低,但PC算法的召回率和 F1 值并不理想,這驗證了本文算法可以更好地識別出故障硬盤,同時也保證了良好的模型綜合性能。SC和XGBoost算法雖然取得了較高的召回率,但是準確率較低,表明其所選特征使模型產生了較多的錯誤預測。總體而言,在對硬盤故障預測結果準確率和召回率之間的權衡中,Q-sort算法表現出色,有效提高了硬盤故障預測性能。
RF算法特征選擇的每項指標均較低,這是由于RF算法是基于模型預測結果進行特征選擇,所選特征只在RF預測模型中表現較優,而本文特征選擇部分實驗結果是基于TFA-LSTM預測模型得到的,因此模型間的差異造成了RF算法各項指標都很低。這也進一步說明了只選用一種特征選擇算法的局限性,但為了保證Q-sort算法的健壯性,仍然保留了RF算法。
3.3數據增強對模型性能提升效果分析
3.3.1LGAN數據增強提升效果分析為驗證LGAN的數據增強提升效果,在原始故障數據的基礎上,分別進行1倍、3倍、5倍、7倍、8倍、9倍、10倍、15倍的數據增強實驗,數據增強程度對不同模型性能提升效果對比如圖4所示。可以看出,未進行數據增強或增強倍數很低時,傳統的LSTM模型無法學習故障數據的有效信息,模型預測效果極差。隨著數據增強程度的增加,各模型的評價指標均有不同程度的提升,但在基于深度學習的預測模型中提升效果更為顯著,尤其是TFA-LSTM表現最好。分析原因,LGAN生成的具有時序特征的數據,滿足了LSTM、CNN-LSTM[5]、TFA-LSTM模型對訓練數據的要求,可充分學習該數據集信息并完成預測
當數據增強8倍后,各預測模型基本達到了飽和狀態。隨著數據增強程度的持續增加,預測結果雖有微弱上升,但均已接近各自的最佳狀態。因此,后續實驗中所示的結果均為數據增強8倍模式下得到的。
3.3.2 基于時序數據的LGAN數據增強消融實驗
分別選擇SVM、GBDT、RF機器學習模型,以及LSTM、CNN-LSTM和本文提出的TFA-LSTM深度學習模型作為基準模型,進行無數據增強、GAN數據增強和LGAN數據增強,消融實驗結果如圖5所示。可以看出,LGAN在各個預測模型上表現出絕對的優勢。在無數據增強的情況下,預測結果總體表現最差,這表明數據增強方案是十分有效的。

基于SVM、GBDT、RF基準模型時,分別使用GAN和LGAN進行數據增強,各項指標的表現相差甚微。分析可知,傳統機器學習模型通常基于一組規則或弱學習器的組合,無法捕獲重要的上下文關聯信息,因此LGAN生成的具有時間依賴關系的故障數據并未體現出其價值。然而,LGAN對深度學習模型的預測效果實現了更大幅度的提升。這驗證了基于LGAN生成的故障數據具有時間依賴關系,使以時間序列結構展開訓練的模型性能得以發揮到極致,從而得到了比使用GAN生成的數據更佳的結果,其中硬盤故障預測的準確率提高2~17個百分點,召回率提高2\~12個百分點, F1 值提高3\~15個百分點。

3.4LGAN-TFA-LSTM硬盤故障預測效果分析
為驗證LGAN-TFA-LSTM算法的有效性,選取了具有權威性和代表性的相關研究成果作為基準對比模型,表4展示了不同硬盤故障預測模型的結果。可以看出,LGAN-TFA-LSTM的準確率、召回率和 F1 值分別達到 97% 、 96% 和 97% 。其中,相較于CNN-LSTM模型,準確率提高3個百分點,召回率提高11個百分點, F1 提高8個百分點;相較于MSGMD[16]模型,召回率提高17個百分點, F1 提高20個百分點;相較于最新的StreamDFP[]模型,準確率提升10個百分點,召回率提升21個百分點, F1 值提升17個百分點。

為進一步驗證所提模型中LSTM的有效性,選擇了RNN及其變體網絡進行消融組合,LSTM有效性驗證消融實驗結果如表5所示。可以看出,基于Transform的組合取得了比RNN和GRU(一種RNN變體)組合更優的效果。其中,Transform組合的準確率指標表現最優,而召回率和F1值略低于LSTM組合,二者之間總體效果相差甚微。但從模型訓練角度分析,簡潔輕量的LSTM組合更加符合實際預測場景的需要。

4結語
本文針對數據存儲中心的硬盤故障預測算法效果不佳的問題,提出一種基于時序SMART不平衡數據的故障預測算法LGAN-TFA-LSTM,在特征選擇階段融合多種算法提取數據特征,有效提高了數據集在模型訓練中的魯棒性。通過LGAN生成包含故障趨勢信息的時間序列段數據,解決了數據集不平衡問題。針對故障預測模型,在橫向和縱向兩個維度分別加入注意力機制,提升了模型性能。在實際硬盤數據集上進行預測性能對比實驗,實驗結果表明,所提算法在不平衡數據集上具有較好的準確率、召回率和 F1 值。接下來的工作將考慮模型預測的實時性,并進一步優化預測算法的性能。
參考文獻:
[1]ZHANGY Q,HAO W W,NIU B,et al. Multi-view feature-based SSD failure prediction:what,when,and why [C]//Proceedings of the 21st USENIX Conference on File and Storage Technologies: Berkeley: USENIX Association,2023:409-424.
[2]彭福康.面向云數據中心磁盤時序數據的故障預測方 法研究[D].鄭州:鄭州大學,2021. PENG F K. Research on fault prediction method for disk time series data in cloud data center[D]. Zhengzhou: Zhengzhou University,2021.
[3]李靜,羅金飛,李炳超.主動容錯副本存儲系統的可 靠性分析模型[J].計算機應用,2021,41(4):1113- 1121. LI J,LUO JF,LI B C.Reliability analysis models for replication-based storage systems with proactive fault tolerance[J]. Journal of computer applications,2021,41 (4):1113-1121.
[4]LI J,JI X P,JIA Y H,et al. Hard drive failure prediction using classification and regression trees [c]/Pro ceedings of the 44th Annual IEEE/IFIP International Conference on Dependable Systems and Networks. Piscataway:IEEE Press,2014: 383-394.
[5]LU S D,LUO B,PATEL T,et al. Making disk failure predictions SMARTer![C]//Proceedings of the 18th USENIX Conference on File and Storage Technologies. Berkeley:USENIX Association,2020:151-168.
[6]LIU Y D,YANG H L,ZHAO P,et al.Multi-task hierarchical classification for disk failure prediction in online service systems[C]//Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York: ACM Press,2022: 3438-3446.
[7]HAN SJ,LEE P P C,SHEN ZR,et al. StreamDFP: a general stream mining framework for adaptive disk failure prediction[J]. IEEE transactions on computers,2023, 72(2): 520-534.
[8]XIAO J,XIONG Z,WU S,et al. Disk failure prediction in data centers via online learning[C]//Proceedings of the 47th International Conference on Parallel Processing. New York:ACM Press,2018:1-10.
[9]IRCIO J,LOJO A,LOZANO JA,et al. A multivariate time series streaming classifier for predicting hard drive failures[J]. IEEE computational intelligence magazine, 2022,17(1):102-114.
[10]姜少彬,杜春,陳浩,等.一種硬盤故障預測的非監 督對抗學習方法[J].西安電子科技大學學報,2020, 47(2) : 118-125. JIANG S B,DU C,CHEN H,et al.Unsupervised adversarial learning method for hard disk failure prediction[J]. Journal of xidian university,2020,47(2):118-125.
[11]ZHUBP,WANGG,LIUXG,etal.Proactivedrive failure prediction for large scale storage systems [c]// IEEE 29th Symposium on Mass Storage Systems and Technologies.Piscataway:IEEE Press,2013:1-5.
[12]ZHAO YY,WANG Y X. Remaining useful life prediction via attention mechanism-based LSTM neural networks [C]//IEEE 9th Joint International Information Technology and Artificial Intelligence Conference. Piscataway:IEEE Press,2020:306-310.
[13]TANAKA F H K,ARANHA C. Data augmentation using GANs[EB/OL].(2019-04-19)[2023-12-21]. https:// doi.org/10.48550/arXiv.1904.09135.
[14]SHIJJ,DUJ,REN Y W,et al.Convolution-LSTMbased mechanical hard disk failure prediction by sensoring S.M.A.R.T. indicators[J]. Journal of sensors,2022: 9756794.
[15] SANTO A,GALLI A,GRAVINA M,et al. Deep learning for HDD health assessment:an application based on LSTM[J].IEEE transactionson computers,2022,71 (1):69-80.
[16]WANG W,TANG X H,ZHOU B Y,et al. Improving disk failure detection accuracy via data augmentation[C] // IEEE/ACM 30th International Symposium on Quality of Service.Piscataway:IEEE Press,2022:1-10.
[17] SPEARMAN C. The nroof and measurement of association between two things[J]. The American journal of psychology,1987,100(3/4) : 441-471.
[18]SHENJ,WANJ,LIMSJ,etal.Random-forest-based failureprediction for hard disk drives[J].International journal of distributed sensor networks,2018,14(11): 1-15.
[19]XUF,HAN SJ,LEE PPC,et al.General feature selection for failure prediction in large-scale SSD deployment[C]// Proceedings of the 51st Annual IEEE/IFIP International Conference on Dependable Systems and Networks.Piscataway:IEEEPress,2021:263-270.
[20]PRAVEENA HD,SUBHAS C,NAIDU K R. Automatic epileptic seizure recognition using reliefF feature selection and long short term memory classifier[J]. Journal of ambient intelligence and humanized computing,2021,12 (6):6151-6167.
[21]冀源蕊,康海燕,方銘浩.基于Attention與Bi-LSTM 的謠言識別方法[J].鄭州大學學報(理學版),2023, 55(4):16-22. JIYR,KANG HY,FANG M H. Rumor recognition method based on Attention and Bi-LSTM[J]. Journal of Zhengzhou university(natural science edition),2023, 55(4) : 16-22.
[22]WANGJY,ZHANGCP,ZHANGLJ,etal. A novel aging characteristics-based feature engineering for battery state of health estimation[J].Energy,2023,273: 127169.