999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于集成學(xué)習(xí)的云平臺異常點(diǎn)檢測

2020-05-23 10:04:28王智遠(yuǎn)任崇廣
關(guān)鍵詞:特征檢測

王智遠(yuǎn),陳 榕,任崇廣

(山東理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山東 淄博 255000)

0 引 言

云計(jì)算與大數(shù)據(jù)技術(shù)為分布式計(jì)算提供了一種解決方案。對于大型的分布式系統(tǒng),出現(xiàn)異常或請求超時可能帶來巨大的損失,而由于系統(tǒng)規(guī)模較大,復(fù)雜度較高,給系統(tǒng)維護(hù)人員帶來了巨大挑戰(zhàn)。監(jiān)測告警對于保證云平臺的高效性與可用性至關(guān)重要,如何全面、精準(zhǔn)地定位異常點(diǎn)越來越受到工業(yè)界與學(xué)術(shù)界的關(guān)注。

異常點(diǎn)檢測是找出被檢測樣本中行為很不同于預(yù)期值的樣本,這些樣本叫異常點(diǎn)或離群點(diǎn)。常見的離群點(diǎn)檢測算法包括基于機(jī)器學(xué)習(xí)的檢測模型、基于統(tǒng)計(jì)的檢測模型、基于線性或非線性的檢測模型、基于距離的檢測模型等[1]。基于統(tǒng)計(jì)的檢測模型將違背正常數(shù)據(jù)分布的樣本判為異常點(diǎn);基于距離的檢測模型將遠(yuǎn)離其它對象的樣本判為異常點(diǎn)[2-4];基于線性與非線性的檢測模型將違背數(shù)據(jù)相關(guān)性的樣本判為異常點(diǎn)[5,6];基于機(jī)器學(xué)習(xí)的檢測模型將不在超平面內(nèi)的樣本判為異常點(diǎn)[7,8]。

傳統(tǒng)基于閾值的異常點(diǎn)檢測方法存在適用場景單一、誤報(bào)率或漏報(bào)率高等問題,本文提出了一種基于集成學(xué)習(xí)的異常點(diǎn)檢測系統(tǒng),對于異常點(diǎn)檢測有一定的通用性與有效性。通過監(jiān)測相似序列的聚類、監(jiān)測序列的預(yù)處理、監(jiān)測序列特征化、異常點(diǎn)檢測器構(gòu)建、結(jié)果評估幾個流程對工業(yè)界帶有標(biāo)注的監(jiān)測序列進(jìn)行異常點(diǎn)檢測,實(shí)驗(yàn)結(jié)果表明,基于集成學(xué)習(xí)的異常點(diǎn)檢測系統(tǒng)效果優(yōu)于單一檢測系統(tǒng)。

1 集成學(xué)習(xí)

集成學(xué)習(xí),有時也被稱為多分類器系統(tǒng),通過構(gòu)建并結(jié)合多個弱檢測器來完成檢測任務(wù)。集成學(xué)習(xí)先產(chǎn)生一組弱檢測器,再按某種策略將它們結(jié)合,常可獲得比弱檢測器顯著優(yōu)越的泛化性能。集成學(xué)習(xí)方法大致可分為兩大類:第一Boosting,該方法弱檢測器間存在強(qiáng)依賴關(guān)系,需串行生成;第二類是Bagging,該方法弱檢測器間不存在強(qiáng)依賴關(guān)系,可并行生成[9]。

1.1 Boosting

(1)

(2)

Xgboost對于式(2)利用泰勒公式進(jìn)行二階近似展開得到式(3),求解后得到式(4),確定樹的結(jié)構(gòu)后可用式(4) 求相應(yīng)的權(quán)重值

(3)

(4)

求樹的結(jié)構(gòu)時采用貪心算法,求在分裂前后使式(5)減小最大的特征為分裂節(jié)點(diǎn)

(5)

其中,ObjnoSplit代表按某個檢測特征分裂前的損失,ObjSplit代表按某個檢測特征分裂后的損失,GL,GR代表分裂后弱檢測器的左子樹與右子樹上被檢測樣本損失的一階導(dǎo)數(shù)和,HL,HR代表分裂后弱檢測器左子樹與右子樹相應(yīng)被檢測樣本損失的二階導(dǎo)數(shù)和,Tsplit,Tnosplit代表弱檢測器分裂前后葉節(jié)點(diǎn)的個數(shù),γ為常數(shù)項(xiàng)。

1.2 Bagging

Bagging通過構(gòu)造多個相互獨(dú)立的弱檢測器來提高泛化能力,基本思想是從m個被檢測樣本中有放回地抽樣m個樣本得到一個訓(xùn)練集,采樣T次得到T個訓(xùn)練集,訓(xùn)練T個檢測器,基于一定的投票策略產(chǎn)生最終結(jié)果。本文使用了Bagging流派的隨機(jī)森林[11],對其基本原理進(jìn)行分析。

隨機(jī)森林是Bagging的一個變體,加入了隨機(jī)特征選擇的思想,傳統(tǒng)決策樹在分類時采用式(6)衡量純度,在所有特征中選擇使式(7)增益最大的特征分裂。而隨機(jī)森林的每個弱檢測器隨機(jī)選取k個檢測特征進(jìn)行樹的構(gòu)建,最終結(jié)果由多個弱檢測器投票產(chǎn)生

(6)

其中,D代表被檢測樣本,Ck代表第k個類別的樣本,K代表所有類的總數(shù)

(7)

其中,A代表檢測特征,D1、D2代表按相應(yīng)檢測特征劃分后的樣本,Gini的計(jì)算方式為式(6)。

1.3 Stacking

Stacking[12]從原始被檢測樣本集中訓(xùn)練第一級檢測器,由第一級檢測器生成新的被檢測樣本集用于訓(xùn)練第二級檢測器。在新的被檢測樣本集中,第一級檢測器的輸出作為第二級檢測器的輸入,第二級的標(biāo)注與第一級相同。檢測器構(gòu)建階段,直接將第一級檢測器的結(jié)果作為第二級檢測器的輸入容易過擬合,采用k折交叉驗(yàn)證生成第二級的檢測集。圖1顯示了一個檢測器生成訓(xùn)練集,測試集的過程,5折交叉驗(yàn)證,其中的一折與其它4折交替,訓(xùn)練預(yù)測5次后構(gòu)成了Model1的次級訓(xùn)練數(shù)據(jù),n個檢測器最終會構(gòu)造出m×n的訓(xùn)練集與p×n的預(yù)測集,其中m,p為原訓(xùn)練集,測試集的樣本個數(shù),利用次級訓(xùn)練測試數(shù)據(jù)進(jìn)行學(xué)習(xí)得到最終結(jié)果。

圖1 Stacking融合過程

2 監(jiān)測序列特征工程

監(jiān)測序列特征化是一個數(shù)據(jù)處理過程,通過各種運(yùn)算將原始監(jiān)測序列處理成異常點(diǎn)檢測器可直接訓(xùn)練的數(shù)據(jù),特征化是為了更好地捕捉異常值特征,提高檢測精度。與原始監(jiān)測序列相比,特征化的監(jiān)測序列檢測精度有顯著提高,特征化過程包括監(jiān)測序列預(yù)處理、監(jiān)測序列特征化、監(jiān)測序列特征選擇。不同監(jiān)測序列表現(xiàn)出不同的特性,直接使用原始監(jiān)測序列構(gòu)造檢測器會造成誤報(bào),需要將相同特性的監(jiān)測序列歸為一類,同一類序列統(tǒng)一訓(xùn)練檢測。原始的監(jiān)測序列值不能很好捕獲序列的特性,需要從多個方面構(gòu)建特征減少誤報(bào)漏報(bào),更好捕獲異常特性。現(xiàn)實(shí)場景中異常極少發(fā)生,導(dǎo)致標(biāo)注為異常的樣本遠(yuǎn)少于標(biāo)注為正常的樣本,使用不平衡數(shù)據(jù)訓(xùn)練的檢測器將導(dǎo)致檢測器向正常類傾斜,不平衡樣本的過采樣可以在一定程度上解決正常樣本遠(yuǎn)大于異常樣本的問題。將原始監(jiān)測序列轉(zhuǎn)換成監(jiān)測序列特征后,需要對監(jiān)測特征進(jìn)行特征篩選,使用發(fā)揮作用較大的監(jiān)測特征可提高訓(xùn)練速度與檢測速度。對篩選后的監(jiān)測特征進(jìn)行主成分分析,消除特征之間的線性關(guān)系。

2.1 監(jiān)測序列聚類

不同特性的監(jiān)測序列異常表現(xiàn)方式不一樣,直接使用原始監(jiān)測序列構(gòu)造統(tǒng)一的檢測器不能適用于所有場景,因此需要將相同特性的監(jiān)測序列歸為一類,同一類序列統(tǒng)一訓(xùn)練檢測。

監(jiān)測序列X=[x1,x2…xn] 與監(jiān)測序列Y=[y1,y2,…,yn] 之間的相似度定義為式(8),m條監(jiān)測序列的相似度矩陣定義為式(10),將相似度矩陣作為監(jiān)測序列聚類的輸入

(8)

其中,X,Y代表監(jiān)測序列,φi(X) 的定義為式(9),Cov代表協(xié)方差,Var代表方差,n代表監(jiān)測序列的長度,i∈[-n+1,n+1]

(9)

其中,Xn代表監(jiān)測序列的值

(10)

其中,Cij代表第i個監(jiān)測序列與第j個監(jiān)測序列的相似度。

自組織映射(self-organizing maps)算法是一種無導(dǎo)師的聚類方法,可以將多維度的監(jiān)測序列映射成二維離散變量。SOM網(wǎng)絡(luò)在樣本聚類、樣本的組合優(yōu)化等問題上有著廣泛的應(yīng)用,具有優(yōu)良的自組織、自適應(yīng)等特性。SOM網(wǎng)絡(luò)沒有中間層,只有監(jiān)測序列輸入層與輸出層,網(wǎng)絡(luò)將監(jiān)測序列類別映射到輸出層的某個神經(jīng)元。在訓(xùn)練階段,各神經(jīng)元競爭學(xué)習(xí),每個監(jiān)測序列通過計(jì)算到神經(jīng)元之間的距離得到激活結(jié)點(diǎn)。計(jì)算出激活結(jié)點(diǎn)后,對相關(guān)結(jié)點(diǎn)的參數(shù)迭代更新;在測試階段,計(jì)算待分類的監(jiān)測序列與各神經(jīng)元之間的距離,距離最小的神經(jīng)元為該測試序列的類別。

監(jiān)測序列相似度矩陣的每行Ci=[Ci1,Ci2…Cin](i=1,2…n) 代表SOM網(wǎng)絡(luò)的一個待訓(xùn)練監(jiān)測序列,Wj=[Wi1,Wi2…Win](j=1,2…l,l為輸出層神經(jīng)元的總量)代表輸出層神經(jīng)元的權(quán)重向量,通過式(11)計(jì)算出與待訓(xùn)練監(jiān)測序列最匹配的神經(jīng)元k。計(jì)算出最匹配的神經(jīng)元k后,通過式(12)找到獲勝神經(jīng)元的鄰域半徑,用式(13)對最匹配的神經(jīng)元及其鄰域內(nèi)的神經(jīng)元進(jìn)行權(quán)值更新。對上述操作進(jìn)行多次迭代,直到映射關(guān)系不在發(fā)生顯著變化

(11)

其中,k代表最匹配神經(jīng)元的編號,Wj表示與第j個神經(jīng)元相關(guān)的權(quán)值系數(shù) (j=1,2…l,l代表輸出層的總量),Ci代表式(10)的一行

(12)

式中:neighbor_redius代表鄰域半徑,neighbor0代表鄰域的初始值,neighbor_para代表鄰域參數(shù),t代表網(wǎng)絡(luò)迭代更新的次數(shù)

(13)

式中:wk(t) 代表最匹配的神經(jīng)元節(jié)點(diǎn)更新后的權(quán)值,wk(t-1) 代表最匹配神經(jīng)元節(jié)點(diǎn)上次一更新的權(quán)值系數(shù),Ci代表式(10)中的一行,ηt代表學(xué)習(xí)速率,式(14)為ηt的計(jì)算公式,式(11)為dk的計(jì)算公式,式(15)為σt的計(jì)算公式

(14)

其中,learn0為初始的學(xué)習(xí)速率,learn_para為學(xué)習(xí)速率參數(shù),t代表迭代次數(shù)

(15)

其中,σ0代表鄰域函數(shù)的初始值,neighbor_para代表鄰域參數(shù),t代表網(wǎng)絡(luò)迭代更新的次數(shù)。

與K-Means相比,監(jiān)測序列采用SOM神經(jīng)網(wǎng)絡(luò)進(jìn)行聚類有以下優(yōu)點(diǎn):①在聚類之前,K-Means方法需要確定監(jiān)測序列的類別總量(K值),而監(jiān)測序列的類別總量與SOM神經(jīng)網(wǎng)絡(luò)輸出層神經(jīng)元個數(shù)是多對多的關(guān)系,無需指定該值,因此K值對K-Means方法影響較大;②監(jiān)測序列使用K-Means聚類后,只對相應(yīng)簇的中心迭代更新,而SOM神經(jīng)網(wǎng)絡(luò)聚類會迭代更新最匹配神經(jīng)元及鄰域神經(jīng)元的權(quán)重系數(shù),因此,SOM神經(jīng)網(wǎng)絡(luò)聚類相對于K-Means聚類不易受噪聲點(diǎn)的影響,抗干擾性更強(qiáng);③SOM神經(jīng)網(wǎng)絡(luò)輸出層的拓?fù)潢P(guān)系較明確,可視化較好。

2.2 監(jiān)測序列預(yù)處理

監(jiān)測數(shù)據(jù)在采集的過程中不可避免的會出現(xiàn)漏采的現(xiàn)象,因此需要對數(shù)據(jù)的缺失值進(jìn)行填充。本文利用牛頓插值法進(jìn)行缺失數(shù)據(jù)處理,先求出f(x)的各階差商,再利用式(16)進(jìn)行缺失值填充。

對于異常檢測,監(jiān)測序列的標(biāo)注大部分是正常的,只有少量序列的標(biāo)注為異常。在檢測器構(gòu)建階段,如果標(biāo)注為異常的監(jiān)測序列較少,檢測器從異常類學(xué)習(xí)到的信息就少,很難檢測異常類。直接使用原始數(shù)據(jù)建模會導(dǎo)致模型偏向于正常一類,導(dǎo)致異常點(diǎn)的漏報(bào)與誤報(bào)。本文對監(jiān)測序列進(jìn)行SMOTE過采樣操作,采樣之后正常監(jiān)測序列的數(shù)量:異常監(jiān)測序列的數(shù)量≈1∶1。

由于異常對象多種多樣,直接使用原始值檢測器的效果較差,需要考慮監(jiān)測序列的數(shù)據(jù)結(jié)構(gòu)與一些隱含特性,從多方面對原始序列進(jìn)行特征轉(zhuǎn)換。本文參考Opprentice框架[13]和動態(tài)數(shù)列提取特征的方法,對原始監(jiān)測序列進(jìn)行統(tǒng)計(jì)特征轉(zhuǎn)換、擬合特征轉(zhuǎn)換、分解特征轉(zhuǎn)換

f(x)=f(x0)+f[x0,x1](x-x0)+
f[x0,x1,x2](x-x0)(x-x1)+…+
f[x0,x1,…,xn-2,xn-1](x-x0)(x-x1)…
(x-xn-2)(x-xn-1)+f[x0,x1,…,xn-1,xn]
(x-x0)(x-x1)…(x-xn-1)(x-xn)

(16)

2.3 特征構(gòu)建

監(jiān)測序列是在時間維度上呈現(xiàn)一定規(guī)律性的動態(tài)序列,對原始監(jiān)測序列進(jìn)行統(tǒng)計(jì)特征轉(zhuǎn)換、擬合特征轉(zhuǎn)換、分解特征轉(zhuǎn)換,具體的特征見表1。

表1 特征

監(jiān)測序列的統(tǒng)計(jì)特征對業(yè)務(wù)人員關(guān)注的指標(biāo)進(jìn)行統(tǒng)計(jì)方面的刻畫。如果監(jiān)測的業(yè)務(wù)指標(biāo)出現(xiàn)非常大或非常小的反常變化,該業(yè)務(wù)指標(biāo)在反常值的時間點(diǎn)可能出現(xiàn)了異常。業(yè)務(wù)指標(biāo)的z-score值代表監(jiān)測序列的每個點(diǎn)相對于整體基線的偏離程度,距離基線越遠(yuǎn)越有可能是異常,很多現(xiàn)實(shí)的業(yè)務(wù)一天一周期,因此計(jì)算整體基線時以天為單位。業(yè)務(wù)指標(biāo)的同比差分反映了現(xiàn)時刻與上一周期同時刻的差值情況,環(huán)比差分反映了現(xiàn)時刻與上一時刻的差值情況,同比差分或環(huán)比差分值越大,越有可能是異常。

監(jiān)測序列的分解特征將序列分解成周期序列、趨勢序列、隨機(jī)序列,如果分解后的序列存在非常大或非常小的反常變化,該業(yè)務(wù)指標(biāo)在反常值的時段可能出現(xiàn)了異常。在文件系統(tǒng)中,磁盤利用率是業(yè)務(wù)人員很關(guān)注的一個指標(biāo),將該指標(biāo)分解后可從趨勢序列分析使用情況,趨勢序列陡增或持續(xù)增加考慮異常或擴(kuò)容,趨勢序列陡降或一直很低考慮異常或縮容;對于具有周期性的業(yè)務(wù)指標(biāo),分解后對周期序列進(jìn)行分析,如果某個周期序列相對于其它周期非常大或非常小,則該業(yè)務(wù)指標(biāo)在反常值的時間點(diǎn)可能出現(xiàn)了異常。每個業(yè)務(wù)指標(biāo)都有隨機(jī)成分,如果分解后的隨機(jī)序列存在非常大的波動,則該業(yè)務(wù)指標(biāo)在反常值的時間點(diǎn)可能出現(xiàn)了異常。小波分解對業(yè)務(wù)指標(biāo)進(jìn)行頻率方面的刻畫,按天將監(jiān)測序列分解為高頻、中頻、低頻3個序列,高頻序列對監(jiān)測指標(biāo)短期內(nèi)的陡升或陡降類異常識別較好,低頻序列對監(jiān)測指標(biāo)長期內(nèi)的持續(xù)升高類異常識別較好。

監(jiān)測序列的擬合特征綜合序列的趨勢性、周期性、歷史性對序列的期望值進(jìn)行預(yù)測,真實(shí)值與期望值差別差值越大,相應(yīng)的指標(biāo)在異常值的時間點(diǎn)可能出現(xiàn)了異常。監(jiān)測序列是動態(tài)數(shù)列,在時間維度上具有一定的規(guī)律性,預(yù)測點(diǎn)受相鄰點(diǎn)的變化規(guī)律影響較大,距離越遠(yuǎn)的點(diǎn)對預(yù)測的貢獻(xiàn)度越小。監(jiān)測序列的指數(shù)平滑預(yù)測法可以消除毛刺,通過平滑系數(shù)控制歷史值對當(dāng)前預(yù)測值的影響,對持續(xù)上升或持續(xù)下降類的業(yè)務(wù)異常識別效果較好;監(jiān)測序列的移動均值法將窗口內(nèi)的序列均值作為期望值,序列值與期望值差值越大越有可能是異常,移動均值預(yù)測法可以消除序列的隨機(jī)噪聲;序列的三次指數(shù)平滑預(yù)測法綜合趨勢、周期、隨機(jī)因素對期望值做出預(yù)測,距離預(yù)測點(diǎn)越遠(yuǎn)對預(yù)測點(diǎn)的影響越小,序列值與期望值差值越大越有可能是異常;ARIMA對原始序列進(jìn)行差分操作去除序列不平穩(wěn)因素,結(jié)合歷史值與歷史噪聲值對期望值進(jìn)行預(yù)測,序列值與期望值差值越大越有可能是異常。

監(jiān)測序列特征化后,某些特征對于檢測的貢獻(xiàn)度較小或有冗余特征,為了降低時間復(fù)雜度進(jìn)行特征選擇與特征降維。序列標(biāo)注與特征之間的互信息描述了特征包含標(biāo)注的信息量,將互信息作為貢獻(xiàn)度,計(jì)算出貢獻(xiàn)度后本文選取貢獻(xiàn)較大的度前70%特征作為候選特征。檢測器進(jìn)行異常檢測時可能存在冗余特征,需要對候選特征進(jìn)行降維處理,采用PCA進(jìn)行主成分提取(主成分占比90%)。

3 基于集成學(xué)習(xí)的異常點(diǎn)檢測系統(tǒng)

圖2是基于集成學(xué)習(xí)的異常點(diǎn)檢測算法的基本框架,檢測流程包括離線訓(xùn)練檢測器、在線使用檢測器、檢測器迭代更新。離線訓(xùn)練階段,將具有相同特性的監(jiān)測序列歸為一類形成該類的訓(xùn)練集,利用訓(xùn)練集訓(xùn)練出該類的最優(yōu)檢測器。在線檢測階段,根據(jù)訓(xùn)練好的網(wǎng)絡(luò)識別出待測試監(jiān)測序列的所屬類別,用相應(yīng)類的檢測器進(jìn)行檢測。檢測器迭代更新階段,將檢測器檢測為異常但標(biāo)注為正常的監(jiān)測序列、檢測器檢測為正常但標(biāo)注為異常的監(jiān)測序列、新收集的監(jiān)測序列作為回注訓(xùn)練集,定期用回注訓(xùn)練集對檢測器迭代更新。離線檢測器構(gòu)建提供檢測器是正反饋,在線檢測器提供錯檢、漏檢樣本是負(fù)反饋,檢測的整個流程是閉環(huán),隨著迭代輪數(shù)的增加,異常點(diǎn)檢測系統(tǒng)的準(zhǔn)度逐漸增加,抗干擾能力逐漸增強(qiáng),直至達(dá)到一定程度的收斂。

圖2 異常點(diǎn)檢測框架

3.1 單檢測器構(gòu)建

對監(jiān)測序列進(jìn)行歸屬類計(jì)算、預(yù)處理、特征化、篩選降維、樣本均衡后,形成離群點(diǎn)檢測器所需要的數(shù)據(jù)格式,每個簇采用相同的訓(xùn)練方式。對每個簇按8∶2劃分離線訓(xùn)練集與在線測試集,在離線訓(xùn)練集上進(jìn)行訓(xùn)練,在線測試集上進(jìn)行檢測。單檢測器的結(jié)構(gòu)為Xgboost檢測器、Random forest檢測器、Bagging檢測器(基學(xué)習(xí)器為Logistic回歸)、Bagging檢測器(基學(xué)習(xí)器為神經(jīng)網(wǎng)絡(luò)),使用網(wǎng)格搜索進(jìn)行參數(shù)調(diào)優(yōu)。

3.2 多檢測器融合

檢測器融合綜合考慮不同模型的優(yōu)缺點(diǎn),將它們的結(jié)果融合到一起對于檢測結(jié)果的提高有一定幫助。檢測器融合的優(yōu)點(diǎn)有:①減少因誤選單檢測器而導(dǎo)致泛化性能不佳的風(fēng)險(xiǎn);②降低陷入局部極小點(diǎn)的風(fēng)險(xiǎn);③可以擴(kuò)大假設(shè)空間,得到更好的近似。

本文考慮到Random forest檢測器是低方差的模型,Xgboost檢測器是低偏差的模型,利用Stacking方法將兩者融合,可能會在低方差與低偏差之間找到最優(yōu)解。設(shè)計(jì)了兩層Stacking模型,第一層包含3個低方差模型:Random forest檢測器、Bagging檢測器(基檢測器為邏輯回歸)和Bagging檢測器(基檢測器為神經(jīng)網(wǎng)絡(luò)),在生成監(jiān)測序列樣本時每個檢測器進(jìn)行5輪交叉驗(yàn)證;融合模型的第二層是Xgboost檢測器,第二層利用第一層生成的監(jiān)測樣本訓(xùn)練與預(yù)測。融合結(jié)構(gòu)如圖3所示。

圖3 檢測器融合

3.3 實(shí)驗(yàn)評估

本文采用真實(shí)場景帶標(biāo)記的數(shù)據(jù)集(http://iops.ai/,數(shù)據(jù)量約300兆)進(jìn)行檢測,異常樣本標(biāo)記為1,正常樣本標(biāo)記為0,共26個監(jiān)測指標(biāo)。聚類后形成6類序列,每類序列分為離線檢測器訓(xùn)練數(shù)據(jù)和在線檢測器使用數(shù)據(jù)(隨機(jī)劃分),劃分比例為8∶2,離線檢測器訓(xùn)練數(shù)據(jù)分為訓(xùn)練集和模型選擇驗(yàn)證集(隨機(jī)劃分),劃分比列為7∶3。

實(shí)驗(yàn)環(huán)境為:英特爾i7 8700K(3.7GHz,六核心),金士頓內(nèi)存條(16 G)。

檢測器構(gòu)建階段采用ROC曲線對訓(xùn)練的結(jié)果評估,ROC曲線是反映敏感度和特異度連續(xù)變量的綜合指標(biāo),ROC曲線的橫坐標(biāo)為FPR(false positive rate),縱坐標(biāo)為TPR(true positive rate),計(jì)算方式為式(17)

(17)

其中,TP(true positive)為真陽性,代表數(shù)據(jù)集的標(biāo)注為異常且檢測器檢測為異常的個數(shù);FP(false positive)為假陽性,代表數(shù)據(jù)集的標(biāo)注為正常且檢測器檢測為異常的個數(shù);TN(true negative)為真負(fù)性,代表數(shù)據(jù)集的標(biāo)注為正常且檢測器檢測為正常的個數(shù);FN(false negative)為假負(fù)性,代表數(shù)據(jù)集的標(biāo)注為異常且檢測器檢測為正常的個數(shù)。

每個監(jiān)測序列的異常概率值可以作為檢測閾值,得到一組FPR和TPR,利用所有組繪制得到ROC曲線。計(jì)算ROC曲線與水平軸之間的面積可以得到AUC,AUC的范圍為[0,1],AUC≈1,說明檢測器檢測結(jié)果接近完美,AUC在0.7-0.9之間,說明檢測器檢測精度較高,AUC=0.5,說明檢測器檢測效果很差。

訓(xùn)練后序列1在離線驗(yàn)證集上融合前后的ROC如圖4(其它的簇的AUC值波動在[-0.02,0.03],融合后的檢測器AUC值均優(yōu)于單檢測器)所示。

圖4 融合檢測模型與單一檢測模型ROC曲線

利用在線測試數(shù)據(jù)評估各檢測器的效果,評估的標(biāo)準(zhǔn)為式(18)F1-score,表2為各檢測器的F1-score均值(在6類監(jiān)測序列的測試結(jié)果上取了均值),表中效果最好的是融合檢測器,表明檢測器的融合對于檢測結(jié)果的提升有非常大的幫助

(18)

其中,precision為檢測的準(zhǔn)確率,recall為檢測的召回率。

表2 在線檢測結(jié)果

準(zhǔn)確率precision的計(jì)算方式如下

(19)

其中,TP(true positive)為真陽性,代表數(shù)據(jù)集的標(biāo)注為異常且檢測器檢測為異常的個數(shù);FP(false positive)為假陽性,代表數(shù)據(jù)集的標(biāo)注為正常且檢測器檢測為異常的個數(shù)。

召回率recall的計(jì)算方式如下

(20)

其中,F(xiàn)N(false negative)為假負(fù)性,代表數(shù)據(jù)集的標(biāo)注為異常且檢測器檢測為正常的個數(shù)。

4 結(jié)束語

本文設(shè)計(jì)了一個異常點(diǎn)檢測系統(tǒng),系統(tǒng)由檢測器的構(gòu)建、檢測器的使用、檢測器的迭代更新構(gòu)成。離線檢測器構(gòu)建提供檢測器是正反饋,在線檢測器提供錯檢、漏檢樣本是負(fù)反饋,隨著迭代次數(shù)的增加,系統(tǒng)的精度會逐漸提高;異常點(diǎn)檢測系統(tǒng)的特征構(gòu)建階段可以增加與修改特征,擴(kuò)展性較好。對異構(gòu)的檢測器進(jìn)行基于委員會的學(xué)習(xí),提高了異常點(diǎn)檢測的精度與泛化性。實(shí)驗(yàn)中的隨機(jī)森林與Xgboost均可并行計(jì)算,對于工業(yè)界的大數(shù)據(jù)具有適用性。異常點(diǎn)檢測特征依賴于人的先驗(yàn)知識,如何利用深度學(xué)習(xí)模型自動學(xué)習(xí)特征是本文下一步的研究重點(diǎn)[14]。

猜你喜歡
特征檢測
抓住特征巧觀察
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
新型冠狀病毒及其流行病學(xué)特征認(rèn)識
如何表達(dá)“特征”
不忠誠的四個特征
抓住特征巧觀察
主站蜘蛛池模板: 九色在线观看视频| 日韩欧美中文| 久久久受www免费人成| 999精品在线视频| 欧美性天天| 日韩精品无码免费一区二区三区| 18黑白丝水手服自慰喷水网站| 91精品久久久无码中文字幕vr| 伊人天堂网| 免费A级毛片无码免费视频| 亚洲精品你懂的| 黄色网站不卡无码| 奇米影视狠狠精品7777| 国产成人免费视频精品一区二区| 青青操国产| 亚洲欧美日韩天堂| 高清欧美性猛交XXXX黑人猛交| 五月婷婷综合网| 久久成人国产精品免费软件| 成年午夜精品久久精品| 国产乱人伦精品一区二区| 全部毛片免费看| 日韩毛片在线播放| 亚洲成a∧人片在线观看无码| 日韩东京热无码人妻| 国产精品无码在线看| 澳门av无码| 亚洲国产一区在线观看| 国产精品久久久久无码网站| 亚洲首页国产精品丝袜| 538国产视频| 国产人人射| 自拍偷拍一区| 尤物午夜福利视频| 亚洲性视频网站| 国内精品视频区在线2021| 亚洲第一香蕉视频| 91免费观看视频| 久久亚洲国产视频| 亚洲第一区精品日韩在线播放| 91精品国产综合久久香蕉922| 国产精品白浆无码流出在线看| 国产情精品嫩草影院88av| 亚洲乱码在线播放| 精品亚洲国产成人AV| 午夜福利在线观看入口| 欧美中文字幕一区| 午夜限制老子影院888| 国产国产人成免费视频77777| 久久国产V一级毛多内射| 久草视频中文| 久久国产精品嫖妓| 人妻无码一区二区视频| 精品福利网| 国产精品第一区在线观看| 久久99国产综合精品女同| 亚洲 欧美 中文 AⅤ在线视频| 国产日本欧美在线观看| 国产91九色在线播放| a毛片在线播放| 91热爆在线| 五月激情综合网| 99视频精品在线观看| 男人天堂伊人网| 91啦中文字幕| 成人一级黄色毛片| 日本日韩欧美| 女人爽到高潮免费视频大全| 亚洲成人免费看| 中文字幕首页系列人妻| 国产呦视频免费视频在线观看| 日韩福利视频导航| 波多野结衣中文字幕一区二区| 久久毛片网| 99热线精品大全在线观看| 91在线中文| 亚洲青涩在线| 日本少妇又色又爽又高潮| 就去色综合| 第一页亚洲| 综合五月天网| 国产乱人免费视频|