999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種混合模型的時序數(shù)據(jù)異常檢測方法

2020-02-19 17:52:36溫粉蓮
數(shù)字通信世界 2020年1期
關鍵詞:檢測方法模型

溫粉蓮

(中國移動通信集團廣東有限公司,廣州 510623)

0 引言

隨著移動通信的發(fā)展,云計算、大數(shù)據(jù)、虛擬化等技術(shù)的大量應用,業(yè)務系統(tǒng)和網(wǎng)絡架構(gòu)變得越來越復雜,給運維人員帶來了更高的挑戰(zhàn)。如何有效的管理和監(jiān)控海量的數(shù)據(jù)來保障系統(tǒng)的穩(wěn)定、減少宕機時間,是系統(tǒng)運營和運維成功與否的關鍵所在。通過自動化的采集、監(jiān)控各類設備指標數(shù)據(jù)和用戶行為數(shù)據(jù),運維人員能有效的掌握系統(tǒng)運行狀況,異常檢測是有效發(fā)現(xiàn)系統(tǒng)潛在故障和用戶異常行為的重要方法。Chandola[1]等人及Numenta[3]公司對異常檢測方法進行了全面的調(diào)研,目前常用的異常檢測方法有:

(1)固定閾值法:通常根據(jù)業(yè)務專家或者運維專家的經(jīng)驗知識設定閾值范圍。該方法優(yōu)點是簡單,缺點是需要大量依賴人工經(jīng)驗,不適用于周期性變化的數(shù)據(jù),維護困難。

(2)基于統(tǒng)計學方法:如累計和控制圖(CUSUM)and指數(shù)加權(quán)移動平均法(EWMA)[1],這種方法的優(yōu)點是效率比較高,缺點是需要預先定義時間窗口,準確性依賴于參數(shù)設置。

(3)基于機器學算法:E.Keogh[2]提出了檢測時間序列中異常值的方法。異常檢測在不同的領域也有不同的應用,M.Szmit[4]等人提出了異常檢測在網(wǎng)絡流量上的異常檢測方法,宋海濤[5,6]等人也提出了用戶異常行為的檢測。當前流行的異常檢測算法有:基于分類,基于聚類,基于最近鄰,基于信息理論,這些方法應用到不同領域的異常檢測中,能有效提高檢測的準確度。

本文設計了一種混合模型的時序數(shù)據(jù)異常檢測算法,將歷史數(shù)據(jù)按照時間進行劃分,再用grubbs算法剔除歷史數(shù)據(jù)中的異常點,得到不同時段的動態(tài)閾值,再使用曲線擬合和ARIMA對數(shù)據(jù)進行訓練得到相應的模型。當對新指標進行異常判斷時,首先通過動態(tài)閾值進行判異,如果輸出為異常,則運用曲線擬合模型計算預測值,與判定值進行比較,如果輸出為異常則進行第三層的判異,即使用ARIMA模型的預測值比較來判斷異常。經(jīng)過三層判斷為異常的值經(jīng)過確認后會以事件方式通知告警處理模塊,被判斷為正常的值則直接加入歷史數(shù)據(jù)中。這種方法不僅提高了準確性,也提高了效率,無需事先進行人工標注,同時自動形成異常檢測的閉環(huán),對周期性、非周期性變化的指標數(shù)據(jù)都適用,具有很強的通用性。

1 方案設計

1.1 異常定義

本文將指標“異常”定義如下:當指標數(shù)據(jù)的變化偏離了該時間點的絕大多數(shù)數(shù)據(jù)分布范圍并且不符合某種趨勢變化的凸點或者凹點,認為是異常。

1.2 解決思路

該方法包含以下幾個步驟:

(1)對歷史的時間序列數(shù)據(jù)進行預處理和特征提取。

(2)利用K-means對數(shù)據(jù)初步的劃分。

(3)使用Grubbs Test方法剔除每個劃分后的孤立點,生成動態(tài)基線。

(4)使用曲線擬合法對歷史數(shù)據(jù)進行訓練,得到模型1。(5)使用ARIMA算法對歷史數(shù)據(jù)進行訓練,得到模型2。

(6)獲取判斷值,預處理后與該時刻的閾值進行比較,如果不在基線內(nèi),則判斷為異常并進行第2層的判斷,如果超過3個標準差,則判斷為異常,再進行第3層的判斷,三層判斷均為異常的情況下,最終判斷為異常,否則為正常。

異常檢測系統(tǒng)的結(jié)構(gòu)圖如圖1所示,該系統(tǒng)包含的核心模塊包含:預處理、分類、模型訓練、動態(tài)閾值生成、異常檢測和異常處理。

圖1 指標數(shù)據(jù)異常檢測系統(tǒng)框架

2 混合異常檢測方法

2.1 預處理、特征提取和分類

假設某類指標數(shù)據(jù)的采集頻率為d分鐘一次,每天產(chǎn)生m個記錄,使用n天的歷史數(shù)據(jù)作為訓練庫,一共有n*m個記錄作為歷史數(shù)據(jù)。將這些數(shù)據(jù)的時間進行歸一化處理,即去掉日期信息,只保留時、分、秒,再將時、分轉(zhuǎn)換成小時,得到0-24之間的數(shù)值,經(jīng)過歸一化處理后,得到n個維度為m的向量。

經(jīng)過預處理和特征提取后,我們可以運用聚類算法對數(shù)據(jù)進行劃分,K-means是最常用的基于劃分的方法,它的原理簡單,計算代價小,聚類效果好,本文采用二分k-means算法來劃分數(shù),可以解決一般的k-means算法收斂于局部最小值的問題。

2.2 Grubbs方法生成動態(tài)閾值

采用格拉布斯方法,通常取置信概率為95%,其判別方法如下:先將呈正態(tài)分布的等精度多次測量的樣本按從小到大排列,統(tǒng)計臨界系數(shù)G(a,n)的值為G0,然后分別計算出G1、Gn:G1=(X-X1)/σ,Gn=(Xn-X)/σ (1) 若G1≥Gn且G1>G0,則X1應予以剔除;若Gn≥G1且Gn>G0,則Xn應予以剔除;若G1<G0且Gn<G0,則不存在“壞值”。然后用剩下的測量值重新計算平均值和標準偏差,還有G1、Gn和G0,重復上述步驟繼續(xù)進行判斷,依此類推。

通過上述的算法我們將歷史數(shù)據(jù)中的異常值剔除,再計算剩下正常值中的最小、最大和平均值作為該聚類的閾值。

2.3 使用曲線擬合方法訓練模型

曲線擬合是一種較常用的數(shù)據(jù)擬合方法,用來找到數(shù)據(jù)的規(guī)律和模式,系統(tǒng)運行產(chǎn)生的時間序列數(shù)據(jù)通常滿足某種模式,使用曲線擬合來找到這種模式有利于異常判斷和發(fā)現(xiàn),本文的曲線擬合采用的是最小二乘法,它使用簡單,高效,易于理解。

這里,假設樣本點的分布不為直線,我們可用多項式曲線擬合,即擬合曲線方程為n階多項式[14]。

采用的是迭代法的梯度下降法求解,其中目標公式定義如下:

采用隨機梯度下降的方法對參數(shù)向量求導,使得梯度為0,然后得到參數(shù)變量的迭代更新公式。實際實現(xiàn)中,我們采用python的機器學習包numpy進行計算,得到模型。

2.4 使用ARIMA方法訓練模型

由于時間序列具有非線性、非平穩(wěn)化、快速變化并且包含噪聲干擾的特點,許多學者對時間序列進行了深入研究,提出了不同的預測模型。本文采用ARIMA算法進行模型的訓練。

算法步驟包括:

(1)對時序數(shù)據(jù)進行平穩(wěn)化處理,可選的有:移動平均法,加權(quán)移動平均法,對數(shù)處理,差分處理,分解處理。

(2)在設定最大的AR延遲數(shù)max_ar和最大的MA延遲數(shù)max_ma后,通過BIC準則進行模型的定階,本文采用的是python的arma_order_select_ic進行自動定階,確定p,q值。

(3)對平滑處理后的模型進行訓練得到擬合參數(shù)。

(4)對模型進行還原處理得到模型。

將檢測點時間作為上述ARIMA模型的變量計算上述兩個模型的預測值,

?2=|ρ2-y2|,其中,?2是根據(jù)ARIMA模型計算出來的殘差,如果?2>2σ2,則判斷為異常,σ2為近期時序數(shù)據(jù)的標準差。

3 實驗與分析

3.1 效果評估

本文采用的混合模型算法的第一步是對指標進行粗略的劃分,其中,訪問量的變化是呈一定規(guī)律的,劃分為4類,數(shù)據(jù)庫的活動會話數(shù)值在統(tǒng)計區(qū)間變化很小,大部分的數(shù)據(jù)集中在20以下,因此只是分為2類,內(nèi)存數(shù)值和CPU數(shù)值隨業(yè)務變化不大,都被分為3類。第二步,對劃分后的數(shù)據(jù)應用grubbs算法剔除異常值,計算正常數(shù)值集的最大、最小值,得到每一劃分后的閾值。

圖2 使用KMeans結(jié)合grubbs算法進行劃分并剔除異常

3.2 性能評估

本地測試所使用的硬件環(huán)境為一臺i5-6200U 2.3GHz,內(nèi)存:16GB,64位操作系統(tǒng),Windows7版本,使用的語言是Python3.6.

3.2.1 時間序列算法性能

在本實驗中使用的訓練數(shù)據(jù)是1個半月的指標數(shù)據(jù),采集粒度為5分鐘,一共12,683條數(shù)據(jù),訓練數(shù)據(jù)10,139條,占總數(shù)據(jù)的比例為80%,預測數(shù)據(jù)占總數(shù)據(jù)的比例為20%,如果預測值與實際值之差超過3個標準差,則認為是異常。

圖3 使用ARIMA算法檢測異常

從圖3可以看到,在相對平穩(wěn)的時間序列使用ARIMA算法預測可以得到比較準確的判斷結(jié)果。

4 結(jié)束語

通信設備商在實際的系統(tǒng)運維過程中,會對多項用戶指標數(shù)據(jù)和設備指標數(shù)據(jù)進行監(jiān)控以便及時發(fā)現(xiàn)潛在的故障和缺數(shù)問題,目前的問題是:系統(tǒng)網(wǎng)絡架構(gòu)復雜多樣,涉及的指標多,使用固定閾值會導致漏告、錯告等問題,為了減少無效告警,提高告警準確率,本文設計了一套混合模型的時間序列指標異常檢測算法,將歷史數(shù)據(jù)按實際分布進行粗略的聚類,再使用Grubbs算法剔除聚類后的各數(shù)據(jù)集的異常值,得到動態(tài)的閾值基線作為初步判斷的依據(jù),接下來使用曲線擬合和ARIMA算法對近期的歷史數(shù)據(jù)(t-5t時間窗口內(nèi)的數(shù)據(jù))進行訓練,用來預測下一窗口的值(5t-6t),如果預測值與實際值的差值超過設定的閾值則產(chǎn)生一個事件,發(fā)送給告警處理模塊進行告警處理,確認為異常的值會使用預測值填入歷史數(shù)據(jù),通過不停的迭代,剔除了異常數(shù)據(jù),確保了訓練數(shù)據(jù)的準確性。混合模型的異常檢測算法結(jié)合了統(tǒng)計學算法的高性能,曲線擬合對某一類數(shù)據(jù)的準確擬合,及ARIMA算法的自動擬合的優(yōu)點,兼顧性能和準確性,能很好的對不同趨勢的數(shù)據(jù)進行預測和遺產(chǎn)檢測。本算法在真實系統(tǒng)運維場景中使用的結(jié)果表明,查全率可以達到100%,平均差準率可以達到95.7%,算法的性能滿足系統(tǒng)要求,通過運用算法將某系統(tǒng)的告警從每天754條壓縮到40條,有效地壓縮了無效告警,提高了問題發(fā)現(xiàn)率。

猜你喜歡
檢測方法模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 午夜啪啪网| 日韩美毛片| 午夜毛片免费观看视频 | 2021天堂在线亚洲精品专区| 国产成人综合久久精品尤物| 不卡无码网| 国产成人综合久久精品尤物| 91蝌蚪视频在线观看| 怡红院美国分院一区二区| 中日无码在线观看| 少妇精品在线| 国产高清不卡| 91破解版在线亚洲| 国产欧美中文字幕| V一区无码内射国产| 日韩无码黄色| 亚州AV秘 一区二区三区| 91福利国产成人精品导航| 欧美日韩在线亚洲国产人| 9966国产精品视频| 亚洲天堂在线视频| 亚洲欧美h| 亚洲综合18p| 日韩第一页在线| 一级片一区| 91精品国产综合久久不国产大片| 人人艹人人爽| 国产在线精彩视频论坛| 国产一级在线观看www色| 亚洲第一黄片大全| 欧美日韩中文字幕在线| 极品国产在线| 一级毛片免费观看久| 国产亚洲欧美在线专区| 中国精品自拍| 久久人与动人物A级毛片| 91免费片| 最新国产精品鲁鲁免费视频| 日韩免费成人| 国产在线视频二区| 亚洲愉拍一区二区精品| 久久精品只有这里有| 中文无码精品A∨在线观看不卡| 日韩欧美视频第一区在线观看| 日韩精品无码免费一区二区三区 | 国产网站免费看| 国产精品一区二区不卡的视频| 亚洲精品欧美日韩在线| 国产一区成人| 欧美成人午夜视频| 亚洲国产成人精品无码区性色| 在线观看国产小视频| 熟女成人国产精品视频| 欧美福利在线播放| 国产正在播放| 国产69囗曝护士吞精在线视频| 亚洲AⅤ综合在线欧美一区| 日韩AV无码免费一二三区| 丁香六月激情综合| 国产精品免费福利久久播放| 亚洲无码熟妇人妻AV在线| 亚洲精品欧美日本中文字幕| 激情综合激情| 天堂岛国av无码免费无禁网站| 国产欧美日韩va| 国产精品毛片一区| 就去色综合| 精品少妇人妻av无码久久| 97青青青国产在线播放| 精品91自产拍在线| 国产真实二区一区在线亚洲| 在线免费观看a视频| 2022精品国偷自产免费观看| 日韩123欧美字幕| 精品一区二区三区中文字幕| 久久婷婷国产综合尤物精品| 高h视频在线| 一级爆乳无码av| 亚洲精品欧美日韩在线| 久久国产精品夜色| 成人免费一区二区三区| 午夜视频免费试看|