員 民 裴向東 喬鋼柱 王 蓮
(1.太原科技大學計算機科學與技術學院 太原 030024)(2.山西超級計算中心 呂梁 033000)
中國的大規模計算系統研究屬于世界領先水平,超級計算機的性能在不斷提升的同時,帶來的系統規模和復雜度不斷增加,即系統規模和復雜度的增長仍遠遠超過系統部件可靠性的改善。E 級高性能計算機的平均無故障時間(Mean Time Between Failure,MTBF)只有一個小時[1],高性能計算機系統龐大、組成及運行邏輯復雜,導致系統故障頻繁發生,且故障發生后難以發現、定位、診斷、分析和調試[2]。
故障的解決方式分為了主動容錯和被動容錯兩種[4],主動容錯是在未發生故障之前就進行故障的排錯,能提高系統自身的可靠性,降低系統容錯的開銷,而故障預測是主動容錯的前提和基礎。在此將通過山西省超級計算中心的天河二號系統故障日志對此話題展開探討。該文研究的數據是異構計算系統的故障日志數據,結合基于時序特征的數據特點,制定對應預測機制進行研究[3]。
國內外學者已從預測機制方向對大規模故障數據做了大量研究:通過計算概率[4]及相關分數進行故障預測;Gainaru[5]等提出基于信號的故障預測方法;利用前置條件if-then 判斷故障發生,如Watanabe[6]等對故障日志信息分組,利用貝葉斯原理判斷故障;Das[7]等使用短語似然估計的方法對故障日志進行挖掘。現如今機器學習[8]發展迅速,便于對日志數據的特征進行提取,Chen[9]等利用RNN 算法預測作業故障概率;Zhu 等[10]使用支持向量機和神經網絡算法預測硬盤故障發生的概率;……