999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Pytorch和神經網絡的云數據中心故障檢測①

2020-11-24 05:46:04來風剛李濟偉王懷宇牟霄寒
計算機系統應用 2020年11期
關鍵詞:故障檢測信息

來風剛,劉 軍,李濟偉,王懷宇,牟霄寒,劉 賽

1(國家電網有限公司信息通信分公司,北京 100761)

2(南瑞集團(國網電力科學研究院)有限公司,南京 211106)

3(南京南瑞信息通信科技有限公司,南京 210003)

信息時代的到來使得數據量急劇增長,云數據中心逐漸成為研究的熱門之一[1,2].近年來,數據中心同樣在智能電網中得到廣泛應用,通過將數據在云端進行存儲,處理,能夠實現高速率、低成本儲存和管理,提高運行效率[3].設備管理是云數據中心正常運行的必要環節之一,通過對設備運行參數進行采集,對設備運行狀況進行診斷.設備運行故障能否被及時檢測,直接關系到數據中心的安全運行.

在智能電網領域,設備故障檢測方法主要針對于電網中各種元件.當故障元件的電氣量發生突變時,利用一些智能診斷方法對電氣量的異常信息進行分析,從而找出產生故障的元件,發現故障原因.這些診斷方法主要包括專家系統[4],貝葉斯網絡[5],多信息融合技術[6]和神經網絡[7]等.然而,這些故障診斷方法主要針對于電網中的電力傳輸部件,例如變壓器,電纜,開關等.云數據中心作為新興技術之一,其運行設備主要由網絡設備構成,而電網現有的設備故障檢測方案顯然無法滿足云數據中心的要求.

目前云數據中心故障檢測方法主要從網絡層次進行故障診斷,這些方法將數據中心設備劃分為“基本功能單元組”,利用不同算法對發生故障單元進行檢測[8,9].考慮到數據中心數據的復雜性,這些算法多數基于仿真實驗進行.且在單元層次對故障進行檢測后,后續仍需要故障發生位置進行進一步的確認.因此這類算法在實際應用中的可靠性有待商榷.

為解決上述問題,對云數據中心設備故障進行檢測,同時對未來運行狀況進行預測,保證設備正常運行.本文研究了一種基于Pytorch 以及神經網絡的設備故障檢測方法,在對數據進行預處理后,利用自然語言處理類方法使神經網絡能夠學習到對故障檢測有效的特征,并使用長短期記憶網絡(Long Short-Term Memory,LSTM)對故障進行檢測.基于阿里集群數據的實驗結果顯示,本方案能夠有效檢測設備運行故障,并對運行狀況進行預測.本文的創新點總結如下:

(1) 采用GRU (Gate Recurrent Unit) 模型作為架構基礎,相比常用的LSTM 模型,運算量顯著減少,訓練速度得到提升.

(2) 雙向GRU 疊加的設計使得每個GRU 單元在當前輸入的基礎上,除了能夠得到過去時間點的信息,還能得到該時間點之后的數據,提高了檢測的準確度.

(3) 在雙向GRU 輸出的基礎上采用了自注意力機制,使得重要信息能夠通過訓練獲得更高的權重,解決了信息超載問題并進一步提高檢測準確率.

(4) Embedding 層和多層感知機對自注意力層的輸出進行進一步處理,在降低數據維度基礎上提高了分類效果.

本文后續內容組織如下,首先介紹循環神經網絡的基本架構,以及優缺點,并引出在檢測任務中常用的LSTM 模型.接下來對模型所采用的數據集進行概括,并提出基于GRU 改進后的模型架構.最后展示了實驗結果并對提出的框架作了簡要總結.

1 循環神經網絡

神經網絡被大多數人視為能夠擬合任意函數的黑盒子,給定足夠的訓練數據,以及數據標簽,在設定合適的損失函數后,神經網絡就能夠被充分訓練并在輸出層得到特定的y.這一擬合能力近似于常見的連續非線性函數,稱為通用近似定理[10]:

令φ (x)代表非常數、有界、單調遞增的連續函數,JD代表一個D維的單位超立方體,定義為[0,1]D.令C(JD) 表示JD上的連續函數集合,則對于任意函數f∈C(JD),必然存在一個整數M,以及一組實數vm,bm∈R,向量wm∈RD,m=1,···,M,使得:

其中,F(x)作為函數f的近似實現,且F(x)定義如下:

根據通用近似定理,如果神經網絡具有線性輸出層,以及至少一個使用“擠壓”性質的激活函數的隱藏層,則該神經網絡就能夠以任意的精度近似任何一個定義在 RD中的有界閉集函數.這里,“擠壓”性質的激活函數可以是類似Sigmoid 函數的有界函數.神經網絡強大的擬合能力使其能夠擬合任意復雜的非線性關系,在各種復雜的應用場景中提供了堅實的理論基礎.

循環神經網絡(Recurrent Neural Network,RNN)是深度學習的經典算法之一,其具有記憶性,能夠捕捉輸入信息中的時間順序關聯,因此常被用于時間序列數據分析[11].RNN 已經在自然語言處理領域,例如語言識別,語言建模和機器翻譯等場景取得成功應用.然而,普通的神經網絡存在一個缺陷,即只能近似輸入與輸出之間的關系,而前一個與后一個輸入之間的關系無法處理.對于大多數序列信息,例如文本數據,金融時間數據,前后數據之間存在復雜的依賴關系,普通的神經網絡難以捕捉.RNN 正是針對處理序列信息而設計的,圖1展示了RNN 的基本架構.

圖1 循環神經網絡的基本架構

如圖1所示,RNN 由輸入層、隱藏層和輸出層組成,隱藏層展開后可以看到由多個神經元串聯組成,這里則是循環神經網絡和普通神經網絡的根本差別.U,V,W分別表示輸入層到隱藏層,隱藏層到輸出層和隱藏層的參數,Xt-1,Xt,Xt+1表示不同時刻的輸入.從圖1中可以發現,隱藏層St在t時刻除了接受來自Xt的輸入外,還從左邊接受St-1時刻的輸入,這就使得未來的時刻能夠保留過去時刻傳來的信息,因此循環神經網絡能夠捕捉輸入數據中的時序關系.

上述過程用公式表述如下:

可以看到St的值由Xt和St-1共同決定,Ot則是最終輸出.

在文獻[12]中,作者使用RNN 對5432 例阿茲海默癥病人的進展進行預測,時間跨度從2005 至2017年.實驗結果顯示循環神經網絡能夠很好地捕捉單個病人在多次檢查中的時序變化信息,即便時間間隔并不均勻.更多地,實驗結果顯示循環神經網絡在測試集預測病人下一次檢查結果的AD 進展上達到了99%的準確率,這表明RNN 在時序信息分析上的強大能力.類似的,在云數據中心中,設備的信息、日志數據等同樣以時間序列順序被記錄.這些數據在時間順序上的變化能夠精確地被循環神經網絡所捕捉,并且學習到數據隨時間變化的復雜非線性關系,從而實現對設備未來狀態的預測.

在實際應用中,研究者發現循環神經網絡難以處理信息的長時間依賴關系,一個簡單的例子是在英文句子生成時,如果句子很長,在生成謂語動詞時,循環神經網絡無法記住主語的單復數形式并選擇合適的謂語動詞.為了解決這一問題,門控機制被提出,即大多數錯誤檢測模型常用的LSTM.在LSTM 中,門控機制包括遺忘門(forget gate)、輸入門(input gate)和輸出門(output gate).其中,遺忘門用于控制前一時刻輸入信息通過的比例,僅僅保留部分重要信息向后傳遞而忽略無關信息.包括細胞狀態和隱藏狀態兩種,LSTM原理如圖2所示.

圖2中,Xt表示輸入ht表示輸出.σ 和t anh 激活函數的組合控制輸入信息能否通過門控向后傳遞,即選擇性遺忘.基于LSTM 模型強大的處理長時程信息依賴的能力,該模型已經成為錯誤檢測研究中的常用模型[13,14].

圖2 長短期記憶網絡的基本架構

2 Pytorch 機器學習框架

Pytorch 是一個著名的基于Torch 的Python 機器學習庫,由Facebook 的人工智能研究組在Torch 的基礎上開發.Pytorch 在學術領域廣泛應用,作為常用深度學習研究平臺之一[15],其API 接口統一,采用了動態計算圖機制和自動求導機制,能夠方便地搭建定制化的神經網絡并進行訓練.相對于谷歌開發的TensorFlow框架,Pytorch 擁有以下幾點優勢:

(1) Pytorch 中的模型定義更為簡單,并且提供了容易調用的包,而TensorFlow 接口定義種類繁雜.

(2) Pytorch 所采用的動態圖計算機制相比TensorFlow的靜態圖更加靈活,對于研究者更加友好,

(3) 對Caffe 具有良好的支持,可以聯合英偉達GPU進行高效的神經網絡訓練.

3 實驗及結果分析

3.1 實驗數據

云數據中心已經成為互聯網的基礎設施,在網絡流量日益增長的今天起到核心作用,與此同時,云數據中心的網絡設備故障的發生率也在上升,這使得服務器的性能下降,對用戶終端的使用體驗造成影響.本文采用循環神經網絡訓練公開的數據中心數據集,并對未來故障進行預測,這樣運維人員可以在潛在故障發生前進行干預并解決.

實驗使用數據集為阿里巴巴集團在Github 平臺公布的阿里云集群數據[16],該數據集包括以下兩部分數據:

(1) cluster-trace-v2017:1300 臺機器12 小時的運行數據.該批數據包含在線服務的數據集合以及批次化的工作負荷記錄.

(2) cluster-trace-v2018:4000 臺機器長達8 天的運行數據.該批數據除了包含v2017 的數據種類外,額外包含DAG 產品的運行負荷信息[17].

本文采用了cluster-trace-v2018 數據集進行訓練和測試,預測所包含的故障分為設備響應時間過長,CPU利用率過高,內存利用率過高和傳輸信息速率低5 種.實驗所采取的流程如圖3所示.

如圖3所示,首先對數據進行預處理,包括去冗余與清洗,標準化兩步.冗余數據指與故障預測沒有關聯的數據或者數據不隨時間變化的數據,例如設備型號信息,不同客戶賬號信息等.冗余信息對預測效果沒有影響并且會造成額外計算負擔,因此預先對冗余進行清洗是重要一步.數據集標準化是提高預測效果的重要步驟,當不同機器間指標水平相差較大時,直接用原始指標進行分析會突出數值較高指標在預測中的作用,導致高數值指標在預測中所占權重過大,影響結果的可靠性.這里我們對機器的不同指標采用最為常用的Z-score 標準化,以時間序列x1,x2,···,xn為例,Zscore 計算方式為:

則新序列y1,y2,···,yn的均值為0,標準差為1.Z-score方法對數值區間較大,離群值較多的情況比較合適,在對不同指標進行Z-score 處理后,能夠使數據落入一個較小的區間,減輕不同指標間數值差異的影響.

圖3 實驗流程圖

本文以每1 分鐘的數據為一個窗口,將1 分鐘的阿里云硬件集群的各項指標進行平均,作為單個數據進行統計.本文使用統計檢驗將CPU 使用率和內存分配率等指標與平均指標嚴重偏離的時間點作為故障時間點(P-value<0.05).CPU 使用率在一天內使用率波動較大,在部分時間點存在高峰,經過統計后發現在高峰使用期故障發生率較高,這與真實情況相符合.針對內存使用故障,使用請求內存和真實使用內存之差作為判斷故障指標(P-value<0.05).統計結果表明CPU 使用率高峰和內存使用故障高峰存在一定的關聯,這正常情況相一致.在實驗中僅考慮單個時間點只存在一種故障,將故障檢測視為單標簽分類問題.圖4顯示了不同故障數目的柱形圖.

3.2 網絡結構與實驗結果

本文使用的檢測模型設計架構如圖5所示.

圖4 故障數目統計

圖5 神經網絡架構

圖5中,輸入層包含200 個神經元,因此數據被分割為200 個時間窗輸入.本文使用雙向門控循環神經網絡處理數據輸入.雙向門控循環神經網絡(BiGRU)可以看做的LSTM 一種拓展,將LSTM 中的LSTM 模塊替換為GRU 并使用雙層GRU 模塊反向疊加.GRU將LSTM 中隱藏狀態和細胞狀態合并成一種狀態,因此顯著縮短了訓練時間.更明確地說,GRU 讀取詞嵌入向量ti以 及隱藏層狀態向量hi?1后,經過門控計算產生輸出向量Ci和 隱藏層狀態向量hi,具體計算方法參考下列公式:

其中,z∈?d,r∈?d分別表示接受d維向量的輸入門與重置門,{Wz,Wr,W,Vz,vr,V} 表示權重矩陣,{bz,br,b}為偏置向量,⊙表示矩陣點乘.在雙向GRU 后是 selfattention 層、embedding 層和多層感知機(Multi-Layer Perception,MLP).輸出層為5 個神經元組成的Softmax層,計算輸入時間段在5 類故障上的概率.

為了讓神經網絡能夠學習到對預測故障有效的特征,本文采用了自然語言處理中的embedding 技術.類似于常用的預訓練詞向量,在輸入層后加入embedding層,其中包含100 個神經元,對輸入特征起到降維作用[17].此外,在embedding 層前加入了注意力層,并使用了經典的自注意力模型.自注意力機制引入了查詢向量q(query vector),通過打分函數計查詢向量和輸入向量直接的相關性,同時引入了一個注意力變量t∈[1,N]代表選擇的索引位置.具體計算方式如下:

其中,ai是注意力分布,s(xi,q) 是注意力打分函數.自注意力打分函數采用基于縮放點積函數,縮放點積的定義如下:

其中,d表示輸入向量的維度.縮放點積模型是基于點積模型的一種改進,區別在于縮放點積模型除以向量維度d的平方根.當d很大時,點積模型的值會出現較大的方差,因此導致Softmax 的梯度變小,縮放點積模型的提出解決了這一問題.可以看出,自注意力層通過查詢向量實現對輸入數據的權重分配,這一查詢向量可以通過反向傳播進行學習和優化,從而能夠對重要的特征分配更大的權重.在阿里云數據中心數據集中,不同類型的數據對故障分類的重要性存在差別.例如,線程分配數目和消息隊列排隊數目對CPU 響應時間過長和CPU 利用率過高這兩類故障類型起到直接的影響,緩存區數據量和堆棧區使用率則對內存使用故障和傳輸速率低起到決定性作用,而在輸入數據中無法體現此類差別.因此,在雙向GRU 層充分學習輸入數據的時序信息后,引入自注意力層能夠對映射后特征進行權重分配,使得不同位置的特征對每類故障學習不同的權重,從而提升最終的檢測效果.在模型實現中,我們采用了以自注意力模型為基礎的Multi-head Attention.Multi-head Attention 在自注意力基礎上進行了進一步拓展,能夠同時學習到GRU 輸出序列的位置編碼信息和特征的權重信息.該注意力機制在著名的自然語言處理模型Transformer 和Bert 中被廣泛采用.

實驗平臺的具體配置如下:

操作系統:Windows 10.

GPU:NVIDIA RTX2080Ti,11 GB 顯存.

RAM:64 GB.

深度學習框架:Pytorch 1.3 穩定版.

開發工具:Visual Studio Code.

編程語言:Python 3.6.

Adam 是一種基于隨機梯度下降(Stochastic Gradient Descent,SGD)的一階優化算法,與SGD 不同在于SGD在訓練過程中學習率不會改變,而Adam 通過計算梯度的一階和二階矩估計動態改變學習率,是一種自適應學習率優化算法,同時結合了AdaGrad 和RMSProp兩種算法的優點[18].

本文將數據集分割為訓練集與測試集,其中驗證集數目占20%,訓練集數目占80%.使用Adam 優化算法訓練神經網絡,實驗結果顯示Adam 算法效果卓越,如圖6所示,在使用Adam 算法后,訓練集和測試集上的loss 均能夠降低到0.05 左右.

圖6 模型損失函數變化

圖7展示了神經網絡對于故障檢測的準確率,在實驗中,設置batch 大小為200,通過11 個epoch 后算法已經接近收斂并在測試集上獲得了超過98%的準確率.

圖7 模型準確率

作為對比,本文使用SVM,KNN 和普通LSTM 模型對故障進行檢測,檢測結果如表1所示.

表1 不同模型準確率對比

綜合來說,深度學習模型相比傳統機器學習模型擁有更高的診斷準確率.SVM 作為經典的分類模型,其在訓練集上表現出良好的效果,但是測試集上準確率顯著下降,存在明顯的過擬合現象.KNN 分類器因為沒有顯式的訓練過程,在訓練集和測試集上的診斷效果均較為一般,LSTM 在訓練集和測試集上表現較為穩定,表明深度學習模型能夠學習到數據中的時序變化信息.相比普通LSTM,加入了embedding 層和自注意力機制后BiGRU 模型準確度相比基線模型LSTM有2%的準確度的提升.實驗結果顯示深度學習模型能夠在云數據中心進行部署,相比傳統機器學習模型擁有更高的故障診斷準確率.除此之外,隨著數據的積累,深度學習模型的準確率能夠進一步提高.

4 結論與展望

為了解決當前云數據中心缺乏故障檢測方法,且當前方法均基于仿真數據實驗的問題,本文提出了一種基于Pytorch 和雙向GRU 網絡的云數據中心故障檢測方法.GRU 模型的使用相比傳統的LSTM 提高了訓練速度,并且雙向機制的結合進一步提高了模型的檢測準確度.在對數據進行預處理后,利用embedding 技術使神經網絡能夠提取關于故障檢測的相關特征,并使用特征進行進一步加工和處理,最后利用Adam 優化算法訓練神經網絡.基于阿里云集群數據的實驗結果顯示,相比于其他模型,本文提出的模型準確率有著明顯改善,有助于智能電網云數據中心故障檢測的準確率,可靠性的全面提升.

猜你喜歡
故障檢測信息
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
故障一點通
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
奔馳R320車ABS、ESP故障燈異常點亮
小波變換在PCB缺陷檢測中的應用
故障一點通
江淮車故障3例
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 国产无码精品在线播放| 免费观看无遮挡www的小视频| 国产成人精品18| 日韩在线2020专区| 尤物精品视频一区二区三区| 久久精品66| 久久99精品久久久久纯品| 国产网站免费观看| 国产在线观看一区精品| 人妻丰满熟妇αv无码| 精品日韩亚洲欧美高清a| 99久久国产精品无码| 人妻91无码色偷偷色噜噜噜| 国产精品无码在线看| 制服丝袜亚洲| 国产精女同一区二区三区久| 永久免费精品视频| 午夜人性色福利无码视频在线观看 | 国产麻豆91网在线看| 成年人免费国产视频| 亚洲欧洲免费视频| jizz国产视频| 国产成人久久777777| 人人91人人澡人人妻人人爽| 韩日午夜在线资源一区二区| 亚洲国产av无码综合原创国产| 国产99久久亚洲综合精品西瓜tv| 亚洲国产成人麻豆精品| 在线日韩日本国产亚洲| 日韩一区精品视频一区二区| 夜夜高潮夜夜爽国产伦精品| 久久久久国产精品熟女影院| 黄色不卡视频| 久久semm亚洲国产| 亚洲成人一区二区| 毛片在线播放a| 9啪在线视频| 欧美成人一区午夜福利在线| 亚洲资源站av无码网址| 美女国内精品自产拍在线播放| 漂亮人妻被中出中文字幕久久| AV在线麻免费观看网站| 亚洲日韩精品伊甸| 亚洲va在线观看| 中文精品久久久久国产网址 | 夜夜操国产| 澳门av无码| 国产理论最新国产精品视频| 免费在线视频a| 99久久精品国产精品亚洲| 亚洲va视频| 久久精品一卡日本电影| 国产爽妇精品| 91成人在线免费观看| 一本大道无码高清| 久久精品视频一| 午夜毛片免费观看视频 | 激情亚洲天堂| 她的性爱视频| 久精品色妇丰满人妻| 99re视频在线| 国产亚洲高清视频| 亚洲色成人www在线观看| 亚洲视频欧美不卡| 亚洲专区一区二区在线观看| 69精品在线观看| 日本一本在线视频| 亚洲狼网站狼狼鲁亚洲下载| 欧美国产另类| 色婷婷在线播放| 中文字幕无码av专区久久| 亚洲欧美日韩天堂| 真人免费一级毛片一区二区| 成年av福利永久免费观看| 性视频一区| 欧美在线一级片| 国产免费精彩视频| 亚洲成a人片| 国产成人精品亚洲77美色| 国产成人亚洲精品无码电影| 1024国产在线| 国产一级精品毛片基地|