閆磊 何志方 趙文娜 李遠 姚非



摘 要:針對傳統(tǒng)的關聯(lián)規(guī)則在電力數(shù)據(jù)中心大數(shù)據(jù)環(huán)境下數(shù)據(jù)挖掘過程中效率低的問題,提出了基于自適應遺傳算法的多維數(shù)據(jù)關聯(lián)規(guī)則挖掘算法,對傳統(tǒng)算法中的交叉算子和變異算子進行自適應優(yōu)化,為了避免無用規(guī)則產(chǎn)生,融入注意力以提高關聯(lián)規(guī)則的可靠性,更好地用于關聯(lián)規(guī)則的挖掘。最后通過對比實驗驗證了本文算法能夠提高運算的收斂速度和結果的魯棒性。
關鍵詞:數(shù)據(jù)挖掘;關聯(lián)規(guī)則;自適應遺傳算法;注意力
1 概述
近年來隨著電網(wǎng)的大規(guī)模建設,相應的自動化機房系統(tǒng)及數(shù)據(jù)網(wǎng)規(guī)模日益龐大,系統(tǒng)節(jié)點、設備、廠商日漸增多。各種設備與應用間的交互與連接形成了縱橫交錯的復雜關系網(wǎng)。在這種設備與應用數(shù)量急劇增加,關系愈加復雜的情況下,為保證數(shù)據(jù)中心系統(tǒng)的平穩(wěn)運行和實時監(jiān)控,需要對收集到的多維度運行數(shù)據(jù)信息進行有效地關聯(lián)分析與挖掘,讓所有的數(shù)據(jù)得到充分的分析利用,挖掘其潛在價值[1-3]。
因此本文提出一種將自適應遺傳算法與關聯(lián)規(guī)則相結合的方式,選擇遺傳算法[4]用于電力數(shù)據(jù)中心數(shù)據(jù)的挖掘,并根據(jù)其具體需求對其進行自適應改進。與此同時,通過引入注意度參數(shù)來增加算法的可信度。
2 自適應遺傳算法
傳統(tǒng)的遺傳算法存在搜索能力較弱,容易陷入局部最優(yōu)無法達到應有的效果。因此本文提出了一種新的自適應遺傳算法,針對交叉概率Pc和變異概率Pm進行優(yōu)化,使其在運算過程中根據(jù)實際情況的適應度變化而作出相應改變。傳統(tǒng)算法中Pc過大不利于優(yōu)良個體的保護,Pc太小會使運算過程繁瑣,從而使算法的效率過低。Pm過小,會導致新的變異個體不易產(chǎn)生,同時也需要控制Pm不能過大[5]。基于此上述兩種概率的計算方式如公式(1)(2)所示。其中favg表示平均適應度值,f′表示交叉?zhèn)€體中適應度較大的值,f表示變異個體適應度的值;Pc1和Pc2為交叉概率,Pm1和Pm2為變異概率。
基于自適應遺傳算法的關聯(lián)規(guī)則挖掘步驟如下,首先初始化相關參數(shù),生成初始種群,計算每個后代個體的適應度,進行復制繁衍下一代個體,接著對后代個體使用公式3、4完成自適應遺傳變異步驟,然后分別計算每條規(guī)則的支持度、置信度和注意力的相關值,最后選擇滿足條件的規(guī)則來生成提取最終的強關聯(lián)規(guī)則。
3 實驗結果與分析
3.1 實驗數(shù)據(jù)
實驗數(shù)據(jù)來源于某電力數(shù)據(jù)中心運維數(shù)據(jù)。數(shù)據(jù)集采集于2019年1月1日至2019年12月31日的數(shù)據(jù)中心的三份運維數(shù)據(jù),由告警、故障和綜合網(wǎng)絡數(shù)據(jù)三部分構成。告警數(shù)據(jù)是由全業(yè)務系統(tǒng)中系統(tǒng)監(jiān)測單元產(chǎn)生的告警日志,用于監(jiān)測系統(tǒng)的運行狀態(tài);故障數(shù)據(jù)由人工完成,顯示了系統(tǒng)故障的起因及解決方案;綜合網(wǎng)絡數(shù)據(jù)由進程調(diào)度、CPU占用率、設備信息、流量統(tǒng)計、數(shù)據(jù)庫操作等系統(tǒng)數(shù)據(jù)構成。
3.2 自適應交叉概率和變異概率結果分析
圖1展示了兩種概率隨迭代次數(shù)增加的變化曲線,從圖中可以看出,隨著進化迭代代數(shù)的不斷增加,交叉概率Pc逐漸變小,然后穩(wěn)定于0.3左右波動;變異概率Pm則相反,隨迭代次數(shù)增加不斷變大,最終穩(wěn)定于0.09左右。在種群繁衍初期,受交叉算子的影響,能快速產(chǎn)生后代的新個體,當進化繁衍到后期時,交叉算子穩(wěn)定于一較小值,保證優(yōu)質后代不會發(fā)生變異,同時較大的變異算子又能夠在種群陷入局部最優(yōu)解時,變異產(chǎn)生新的后代,保證種群的繼續(xù)迭代,全局搜索能力較強。
3.3 自適應遺傳算法實驗結果與對比分析
通過本文算法對告警、故障和綜合網(wǎng)絡數(shù)據(jù)進行關聯(lián)規(guī)則分析,當支持度設置為50時,共分析得到8項強關聯(lián)規(guī)則,同時在告警數(shù)據(jù)和綜合網(wǎng)絡數(shù)據(jù)中進行分析,最終得到10項關聯(lián)規(guī)則,證明了本文算法的有效性。
算法效率的高低取決于數(shù)據(jù)集中不同屬性的范圍、數(shù)據(jù)量的大小和數(shù)據(jù)要素的數(shù)量,針對以上三種變量,使用FP-Growth算法[6]與本文提出的自適應遺傳算法進行對比實驗,通過兩者的時間比來體現(xiàn)提出算法的性能,結果如圖2,3,4所示。
根據(jù)實驗結果可知,如果運維數(shù)據(jù)要素個數(shù)越多,每個運維數(shù)據(jù)不同屬性的取值范圍越大,則自適應遺傳算法比FP-Growth效果越好。雖然當運維數(shù)據(jù)數(shù)據(jù)記錄量增大時,本文算法的效率比FP-Growth算法低,但兩者差距較小。因此本文提出的自適應遺傳算法適用于數(shù)據(jù)類型復雜的數(shù)據(jù)中心運維數(shù)據(jù)的關聯(lián)規(guī)則挖掘。
4 結語
本文針對數(shù)據(jù)中心運維數(shù)據(jù)關聯(lián)規(guī)則挖掘效率低、潛在價值缺乏挖掘的問題,提出了關聯(lián)規(guī)則在電網(wǎng)數(shù)據(jù)中心的應用,將自適應遺傳算法融入到關聯(lián)規(guī)則中,在提取關聯(lián)規(guī)則前引入了注意力來提高結果的可靠性。通過實驗表明改進后的方法在算法收斂性、挖掘效率上,相比傳統(tǒng)方法有了較大的提升,適用于類型復雜的數(shù)據(jù)集中發(fā)現(xiàn)關聯(lián)規(guī)則。
參考文獻:
[1]丁煜.數(shù)據(jù)中心運維數(shù)據(jù)關聯(lián)規(guī)則知識庫的構建[D].2016.
[2]彭剛,唐松平,曾力,等.基于數(shù)據(jù)挖掘的電網(wǎng)故障關聯(lián)規(guī)則的研究[J].計算機與數(shù)字工程,2019,47(9):2369-2374.
[3]蔡澤祥,馬國龍,孫宇嫣,等.基于數(shù)據(jù)挖掘的電力設備運維與決策分析方法[J].華南理工大學學報(自然科學版),2019,47(6).
[4]張軍,劉文杰.關聯(lián)規(guī)則中基于模糊遺傳算法的研究與改進挖掘技術[J].現(xiàn)代電子技術,2017,40(14):23-25.
[5]任子武,傘冶.自適應遺傳算法的改進及在系統(tǒng)辨識中應用研究[J].系統(tǒng)仿真學報,2006,18(1):41-43.
[6]Sun Hong,Zhang Huaxuan,Chen Shiping,et al.The study of improved FP-growth algorithm in MapReduce [C].Shang-hai:International Workshop on Cloud Computing and Infor-mation Security(CCIS),2013.
作者簡介:閆磊(1985—),男,高工/副處長,研究方向:調(diào)度自動化。