999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于模糊數據挖掘的虛擬環境主機故障預測

2015-12-06 06:11:36丁三軍王朝霞
計算機工程 2015年11期
關鍵詞:數據挖掘規則故障

丁三軍,薛 宇,王朝霞,徐 蕾

(1.中國航空工業集團公司沈陽飛機設計研究所,沈陽110136;2.沈陽航空航天大學計算機學院,沈陽110136)

基于模糊數據挖掘的虛擬環境主機故障預測

丁三軍1,薛 宇2,王朝霞1,徐 蕾2

(1.中國航空工業集團公司沈陽飛機設計研究所,沈陽110136;2.沈陽航空航天大學計算機學院,沈陽110136)

為避免虛擬計算環境中由于資源配置不合理,導致虛擬主機服務中斷或數據丟失的問題,設計一種虛擬主機故障預測模型。利用主機運行日志進行模糊數據挖掘,獲得故障預測的模糊關聯規則。根據故障預測中聚類區域邊緣數據,給出基于規則的閾值迭代算法求解日志數據預處理修正系數,進而提高規則的匹配率。實驗結果表明,該模型能夠在實際服務失效前預測故障,預測準確率達到85%以上。

虛擬環境;主機故障預測;模糊數據挖掘;關聯規則;閾值迭代

1 概述

在大型數據中心,為充分利用系統資源、提升數據中心的計算能力、避免IT設備的非必要擴充而普遍采用了虛擬化技術。虛擬化技術的使用提高了數據中心設備的利用率,但也存在一些潛在的問題。若虛擬機資源配置與運行任務的資源需求不匹配,部分虛擬機長時間負載過重導致服務失效,即虛擬機不能正常運行任務或者任務在沒有完成的時候被意外終止。因此有必要對虛擬機服務失效(故障)狀態提前預測,便于數據中心的運維系統能夠及時的響應。

主機故障預測通常利用機器運行日志文件中的數據進行數據挖掘,得到機器故障的預測規則,現有的預測技術主要有:(1)基于支持向量機(Support Vector Machine,SVM)機器學習的故障預測,文獻[1]利用并行支持向量機分析系統日志來進行故障預測,達到了較高的故障預測率;由于SVM求解支持向量時會耗費大量的機器內存和運算時間,當訓練樣本與支持向量數目過多時,分類器的分類速度過慢,限制了支持向量機的應用。(2)基于關聯規則的故障預測。通常方法是把日志文件中的每個數據屬性劃分為若干個區間,每個區間用布爾型值1或0表示,若數據屬性值在某個區間范圍內,則該區間值為1,否則為0。這種方法存在劃分邊界過硬的問題。文獻[2]提出了加權關聯規則的分類預測方法,通過引入屬性權值提高預測的準確率。文獻[3]提出基于模糊關聯規則與多重最小支持度的預測方法,模糊關聯規則[4-5]使用模糊集來軟化屬性論域劃分邊界,解決了區間劃分邊界過硬的問題;規則匹配的分類速度相對較快,解決了SVM對大樣本分類速度慢的缺陷,然而規則方法的故障預測準確率相對較低[6]。

本文實現一種虛擬機的主機故障預測模型。利用虛擬機的運行日志數據進行故障的模糊關聯規則挖掘,提出基于規則的日志數據加權預處理方法。

2 主機故障預測模型

虛擬環境下主機故障預測模型的工作過程如圖1所示,模型利用主機運行日志樣本數據集進行模糊數據挖掘獲得主機故障預測的模糊關聯規則,工作過程如下:用模糊C均值算法求得樣本數據集的聚類中心及隸屬度矩陣,再用Apriori數據挖掘算法求出故障預測的模糊關聯規則;進一步基于數據挖掘獲得的故障預測規則用本文提出的閾值迭代算法得到一組日志數據加權系數,其中的閾值為規則的故障檢錯率,迭代過程中設為固定的值(閾值不能設定的太小,否則不容易收斂),日志加權系數迭代時,首先設定加權系數的初值,將日志樣本數據加權計算后做模糊化,匹配故障預測規則,若規則的故障檢錯率超過閾值,則調整加權系數繼續迭代直至小于閾值為止;進行實時主機故障預測時,首先對日志數據做加權處理,再進行模糊化與規則匹配,得到故障預測結果。

圖1 主機故障預測模型

2.1 主機日志屬性提取及故障分析

分析服務器中虛擬主機的系統運行日志,提取日志數據中的相關屬性進行故障預測規則挖掘,提取的屬性如表1所示。

虛擬環境下的主機故障定義為一段時間內某個虛擬主機的服務失效。主機服務失效主要表現如表2所示,表中所有服務失效現象的檢測時間為60 s,稱為單位檢測時間。

表1 與主機故障相關的運行狀態屬性

表2 虛擬主機服務失效表現

表2第2項故障是指處理器在內存中讀取某一頁出現錯誤時,就會產生缺頁中斷,在日志屬性M emoryPage Faults/s會有所反應,錯誤會使系統的運行效率很快下降。M emoryPage Input(Reads)/s表示為解決錯誤而寫入(讀取)硬盤的頁數,數值越大表示硬錯誤越多,系統性能越低,若在單位檢測時間內數值超過20以上認為存在故障。

因為一些CPU允許操作系統并行多個未完成請求的輸入/輸出操作。PhysicalDisk(-Total)\% Disk Time屬性的值會超過100%,其數值長時間較高時磁盤操作成為瓶頸。計算機在單位檢測時間內對文件系統進行高頻率(2 000以上)讀/寫時,系統運行效率會嚴重下降,導致故障產生。

NetworkBytes Total/s監控是否由于網絡原因導致系統故障,由于1 M b/s帶寬影響,Network Byte Total/s數值接近帶寬時網絡連接達到瓶頸。用戶狀態模式是指除一般系統服務、進程管理、內存管理等由操作系統自行啟動的進程外CPU處理線程的百分比,數值過大的原因是應用系統消耗了大量的CPU時間,引起CPU性能下降。

當虛擬主機的運行特征中頻繁出現上述現象時,表明虛擬機的部分資源不能滿足運行任務的要求,服務質量下降。若能夠提前預測這種服務失效,可以及時采取措施,避免服務中斷。

2.2 數據模糊化與關聯規則挖掘

利用主機運行的日志數據進行故障預測的模糊關聯規則挖掘。設規則挖掘的樣本數據集為X={x1,x2,…,xn}(n為樣本數),其中xi={xi,1,xi,2,…,xi,8}(1≤i≤n)是具有上述8個屬性的日志數據,利用FCM(Fuzzy-C-M eans)算法[7]對X進行模糊化處理。將數據的每個屬性模糊化為5類,分別為極低(VLow)、低(Low)、中等(M idd)、高(High)、極高(VHigh)。FCM算法計算每個屬性的聚類中心并求樣本集相對聚類中心的隸屬度,使得非相似性指標的價值函數達到最小[8]。

設聚類中心C={cj,k}(C為矩陣,1≤j≤8,1≤k≤5),U={ui,j,k}是樣本集到聚類中心C的隸屬度,0<ui,j,k<1,C為n×8×5的矩陣。模糊聚類是按照日志數據的屬性分別進行,對每個日志屬性數據設置價值函數:

初始化:設置初始聚類中心C,迭代標準ε>0,初始化隸屬矩陣C,若ui,j,k的j屬性值距離某個聚類中心cj,k的距離最近,則初始化隸屬度ui,j,k為0.6,其余隸屬度ui,j,l(1≤l≤5∧l≠k)為0.1。

步驟1 用下式計算聚類中心C:

步驟2 用下式計算隸屬度矩陣U:

步驟3 根據式(1)計算價值函數。如果它大于閾值ε,返回步驟1,迭代計算聚類中心C和隸屬度矩陣U。

步驟4 算法停止,獲得聚類中心C和隸屬度矩陣U。

由上述的FCM算法得到樣本數據的模糊集之后,利用Apriori數據挖掘算法從模糊數據集中提取有意義的故障預測關聯規則[9-10]。經Apriori挖掘算法挖掘得到關聯規則例子如表3所示。

表3 故障預測關聯規則例子

2.3 閾值迭代法

日志數據模糊化后,直接匹配上述得到的模糊關聯規則進行故障預測產生了較大的誤差。分析發現是聚類區域邊緣的數據導致了這些誤差。因此,本文提出一種基于故障預測規則的閾值迭代算法求出一組權值向量,在日志數據模糊化之前對其進行按屬性加權,使得數據模糊化時能夠向聚類中心靠攏,減少模糊規則不匹配的情況,提高預測準確率。

基于規則的閾值迭代算法是利用日志樣本數據對故障預測規則的匹配情況進行權值迭代,以期能夠獲得更高的規則匹配率。設數據挖掘獲得的模糊規則集為R={r1,r2,…,rs}(s≥1),利用上節中得到的模糊聚類中心C={cj,k}(1≤j≤8,1≤k≤5),日志樣本數據集X={x1,x2,…xn}進行權值迭代獲得權值向量W={w1,w2,…,w8}。算法中權值迭代的終止條件為規則的檢錯率e(所有規則使用同一個值),算法如下:

算法中將按規則求得的權值用求均值的方法求出一組權值,用于日志數據的調整。

2.4 實時主機故障預測

虛擬環境下實時主機故障預測過程如下:

(1)獲得主機運行日志數據,提取相關屬性數據。

(2)將主機日志數據與前節獲得的權值向量做加權處理(方法同上),利用已知的聚類中心根據式(3)對加權后的日志數據進行模糊化。

(3)得到的模糊數據與規則集R中規則進行匹配,若匹配R中的一條或多條規則,則選擇其中置信度最高的規則結論作為預測結果[11-13]。

主機故障預測時,日志數據讀取太頻繁,會影響到主機的工作效率,設置主機日志每T s(T<60)讀取一次,單位預測時間內提取n條數據,若其中有2/3以上數據表達出故障狀態,則認為此單位時間內為故障狀態。若表達故障狀態數據在2/3以內,之后數值平穩下降趨于穩定,則認為系統正常運行,此時狀態為非故障狀態。

3 實驗及結果分析

實現上述故障預測系統以驗證模型的有效性。實驗平臺搭建采用一臺IBM X 3650M 4服務器,CPU為10核頻率3.0 GHz、16 GB內存、10 TB硬盤容量、2.4 Gb/s網絡接入能力。虛擬化環境為VMw are vSphere,利用VMw are ESX i組件將服務器分為3個虛擬機,每個虛擬機分配4 GB內存、3個處理器核。3臺虛擬機上運行的任務是飛機飛行參數的分布式處理與數據交換,當虛擬機進行某類飛參故障分析時會出現集中的計算或數據交換。實驗提取某個虛擬機中的10 000條日志數據作為訓練樣本。

在數據挖掘時,價值函數的閾值ε取值是0.01,樣本數據獲得的聚類中心C如表4所示,數據挖掘過程中,規則的最小支持度0.5、最小置信度0.5,得到384條關聯規則。

表4 FCM算法迭代結束后的聚類中心C

基于規則的閾值迭代算法設置e=0.2,獲得的權值向量W={0.043,0.0105,0.215,0.15,0.17,0.28,0.3,0.225}。

故障實時預測實驗中,獲取日志的時間T= 5 s,單位檢測時間內讀取12條數據。實驗時間內除正常運行的任務之外,隨機地在某臺虛擬機內增加一些數據運算與交換任務以制造服務失效引起故障,并在模型進行預測后及時撤出任務,以免對后期實驗結果產生影響。實驗計數了某臺虛擬機10 h內故障的預測情況。模型的預測結果如圖2所示。實驗測試的日志數據加權預處理的結果如表5所示。

圖2 故障預測模型故障預測結果

表5 2種方法預測結果對比

數據模糊化使得對數據描述的分級數增加,同時采用的日志數據加權又使得模糊集邊緣的數據向中心靠攏,因此日志數據模糊化后能夠提前預測故障的發生;實驗結果驗證故障預測模型平均提前10 m in(10個單位檢測時間)預報故障的出現;日志數據的加權預處理也提高了模型的故障檢測率,降低了檢錯率。

實時故障預測過程中,系統必須實時獲取主機運行日志,進而消耗部分系統資源,實驗得出每5 s處理一條運行日志數據時,平均匹配28.8條規則,約為總規則數的1/11,平均耗時2 ms,所消耗的系統資源在可接受的范圍內。

4 結束語

本文提出一種基于主機日志模糊數據挖掘的主機故障預測模型,由于日志數據模糊化后數據描述分級數增加,同時采用了加權預處理的方法,該模型獲得較好的故障預測效果和檢測率。由于模型中數據模糊化時分為5級,更加細致的分級可能會增加規則的數量進而增加系統的開銷,基于數據挖掘獲得規則的預測系統受到數據挖掘使用樣本的限制,下一步將研究如何動態調整規則以適應主機運行環境及運行任務的變化。

[1] Kumar R A.Pragmatic Approach to Predict Hardware Failures in Storage System s Using MPP Database and Big Data Technologies[C]//Proceedings of IACC'14. Washington D.C.,USA:IEEE Press,2014:779-788.

[2] Sunita S.An Associative Classifier Using Weighted Association Rule[C]//Proceedings of 2009 World Congresson Nature&Biologically Inspired Computing. Piscataway,USA:IEEE Publications,2009:1492-1496.

[3] Soean B.Fuzzy Association Rule Mining Approaches for Enhancing Prediction Performance[J].Expert System s with Applications,2013,40(17):6928-6937.

[4] Kuok C M,Fu A.Mining Fuzzy Association Rules in Database[J].SIGMOD Record,1998,27(1):41-46.

[5] Chen Zuoliang.Building an Associative Classifier Based on Fuzzy Association Rules[J].International Journal of Computational Intelligence System s,2008,1(3):262-272.

[6] Faustino C P,Novaes C P.Improving the Performance of Fuzzy Rules-based Forecasters Through Application of FCM Algorithm[J].Artificial Intelligence Review,2014,41(2):287-300.

[7] Ichihashi H.FCM Classifier for High-dimensional Data[C]//Proceedings of IEEE International Conference on Fuzzy System s.Washington D.C.,USA:IEEE Press,2008:200-206.

[8] Pi Dechang.A Modified Fuzzy C-means Algorithm for Association Rules Clustering[M].Berlin,Germany:Springer,2006.

[9] Touzi A G.Efficient Reduction of the Number of Associations Rules Using Fuzzy Clustering on the Data[C]//Proceedings of ICSI'11.Washington D.C.,USA:IEEE Press,2011:191-199.

[10] Chen Chunhao.A Fuzzy Coherent Rule Mining Algorithm[J].Applied Soft Computing,2013,13(7):3422-3428.

[11] Kuncheva L I.How Good are Fuzzy If-then Classifiers?[J].IEEE Transactions on Systems,Man,and Cybernetics,2000,30(4):501-509.

[12] 肖 波,徐前方,藺志青,等.可信關聯規則及其基于極大團的挖掘算法[J].軟件學報,2008,19(10):2597-2610.

[13] 楊海蓉,方 紅,張 成,等.基于回溯的迭代硬閾值算法[J].自動化學報,2011,37(3):276-182.

編輯索書志

Fault Prediction of Virtual Environment Host Based on Fuzzy Data Mining

DING Sanjun1,XUE Yu2,WANG Chaoxia1,XU Lei2
(1.Shenyang Aircraft Design and Research Institute,Aviation Industry Corporation of China,Shenyang 110136,China;2.Computing College,Shenyang Aerospace University,Shenyang 110136,China)

In order to report the service failure of the host or data interrupt in the virtual environment caused by undue resource allocation,this paper proposes a fault prediction model for virtual host.This model uses logs of the virtual host to mining the fuzzy association rules of fault predictions.Aiming at large error about rule matching problem in fault predictions caused by the edge data in cluster region,the model presents the threshold iterative algorithm based on the rules for solving the log data preprocessing coefficient,improving the rule matching rate.Experimental result show s that the prediction model can predict fault before the actual service fails,with an accuracy above 85%.

virtual environment;host fault prediction;fuzzy data mining;association rule;threshold iteration

丁三軍,薛 宇,王朝霞,等.基于模糊數據挖掘的虛擬環境主機故障預測[J].計算機工程,2015,41(11):202-206.

英文引用格式:Ding Sanjun,Xue Yu,Wang Chaoxia,et al.Fault Prediction of Virtual Environment Host Based on Fuzzy Data Mining[J].Computing Engineering,2015,41(11):202-206.

1000-3428(2015)11-0202-05

A

TP18

10.3969/j.issn.1000-3428.2015.11.035

丁三軍(1968-),男,研究員、碩士,主研方向:機器學習,信息安全;薛 宇,碩士研究生;王朝霞,研究員、碩士;徐 蕾,教授。

2014-09-25

2014-12-02 E-m ail:dsanjun@163.com

猜你喜歡
數據挖掘規則故障
撐竿跳規則的制定
數獨的規則和演變
探討人工智能與數據挖掘發展趨勢
故障一點通
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
TPP反腐敗規則對我國的啟示
奔馳R320車ABS、ESP故障燈異常點亮
一種基于Hadoop的大數據挖掘云服務及應用
故障一點通
主站蜘蛛池模板: hezyo加勒比一区二区三区| 91年精品国产福利线观看久久| 青青久久91| 国产视频久久久久| 性喷潮久久久久久久久| 99成人在线观看| 免费视频在线2021入口| 人与鲁专区| 国产白浆视频| 精品乱码久久久久久久| 国产成人在线无码免费视频| 色老二精品视频在线观看| 欧美日韩成人| 国产欧美网站| 一级一级一片免费| 91小视频在线| а∨天堂一区中文字幕| 国产精品免费p区| 久青草网站| 亚洲精品国产首次亮相| 日韩成人高清无码| 美女无遮挡免费视频网站| 91久久天天躁狠狠躁夜夜| 国产成人福利在线视老湿机| 亚洲国产精品成人久久综合影院| 91成人在线免费观看| 中文无码影院| 国产精品毛片在线直播完整版| 久久黄色一级片| 亚洲乱码视频| 国产精品999在线| 国产高潮流白浆视频| 2022精品国偷自产免费观看| 老司机精品久久| 少妇人妻无码首页| 久久久久人妻精品一区三寸蜜桃| 在线观看亚洲精品福利片 | 少妇极品熟妇人妻专区视频| 国产精品自在拍首页视频8| 午夜色综合| 日本国产在线| 在线另类稀缺国产呦| 播五月综合| 成人免费网站在线观看| 亚洲成aⅴ人片在线影院八| 午夜精品一区二区蜜桃| 国产成在线观看免费视频| 伊人成人在线视频| 激情在线网| 99久久亚洲综合精品TS| 天天摸夜夜操| 国产迷奸在线看| 成人午夜免费视频| 毛片视频网址| 免费毛片全部不收费的| 国产亚洲精| 免费观看国产小粉嫩喷水| 亚洲综合极品香蕉久久网| 在线精品自拍| 中文字幕无码电影| 99re热精品视频中文字幕不卡| 国产精品第一区在线观看| 无码中文字幕乱码免费2| 亚洲欧美在线综合一区二区三区 | av在线无码浏览| 99久视频| 国产亚洲欧美在线视频| 极品性荡少妇一区二区色欲| 亚洲一级色| 国产精品一区二区在线播放| 国产一区二区网站| 在线观看视频99| 国产91色在线| 国产一级妓女av网站| 免费a在线观看播放| 欧美中文字幕无线码视频| 欧美福利在线观看| 国产精品亚洲天堂| 久久人人妻人人爽人人卡片av| 91美女视频在线| 午夜性爽视频男人的天堂| 亚洲Av综合日韩精品久久久|