


[關(guān)鍵詞]AE-OCSVM 模型;電力;大數(shù)據(jù);異常值檢測(cè)方法
[中圖分類(lèi)號(hào)]TP311.13 [文獻(xiàn)標(biāo)志碼]A [文章編號(hào)]2095–6487(2024)11–0124–03
在過(guò)去的幾十年中,異常值檢測(cè)技術(shù)已從簡(jiǎn)單的統(tǒng)計(jì)測(cè)試發(fā)展到復(fù)雜的機(jī)器學(xué)習(xí)方法。簡(jiǎn)單統(tǒng)計(jì)方法主要有3sigma 準(zhǔn)則、四分位算法、Z-score 等。復(fù)雜的機(jī)器學(xué)習(xí)方法主要為K-Means 聚類(lèi)、孤立森林、隨機(jī)森林、DBSCAN 等。文獻(xiàn)[1] 基于改進(jìn)的K-Means和DNN(深度神經(jīng)網(wǎng)路)對(duì)數(shù)據(jù)進(jìn)行檢測(cè),對(duì)大數(shù)據(jù)的異常情況進(jìn)行檢測(cè)與修正;文獻(xiàn)[2] 融合異常檢測(cè)與區(qū)域分割的高效K-Means 聚類(lèi)算法提高算法執(zhí)行效率;文獻(xiàn)[3] 對(duì)K-Means 聚類(lèi)進(jìn)行了相應(yīng)的改進(jìn),提高了異常值檢測(cè)效率;文獻(xiàn)[4] 結(jié)合SVM 和孤立森林算法進(jìn)行檢測(cè),可快速有效地識(shí)別出異常值;文獻(xiàn)[5] 結(jié)合孤立森林算法和改進(jìn)X-Means 保障了數(shù)據(jù)的穩(wěn)定性;文獻(xiàn)[6] 使用DBSCAN 算法進(jìn)行檢測(cè),提高了準(zhǔn)確率、適用性和魯棒性。然而目前異常值檢測(cè)依然面臨著一系列挑戰(zhàn),因此,文章提出一種AEOCSVM(深度自動(dòng)編碼一類(lèi)支持向量機(jī))組合算法對(duì)異常值進(jìn)行檢測(cè),以適應(yīng)高維大數(shù)據(jù)的情況。該方法首先用深度自動(dòng)編碼對(duì)輸入空間降維和特征表示,然后基于支持向量和余量的OC-SVM 進(jìn)行異常預(yù)測(cè)。對(duì)9 種不同的算法進(jìn)行分析對(duì)比,結(jié)果顯示,能夠有效提高預(yù)測(cè)準(zhǔn)確性和精確度。
1"AE-OCSVM
2.2評(píng)價(jià)指標(biāo)分析
準(zhǔn)確度指總樣本中準(zhǔn)確預(yù)測(cè)的百分比。雖然準(zhǔn)確率可判斷整體準(zhǔn)確率,但在樣本不平衡的情況下,其并不是衡量結(jié)果的好指標(biāo)。例如,在樣本集中,有90個(gè)正樣本和10 個(gè)負(fù)樣本,樣本嚴(yán)重失衡。在這種情況下,只需要將所有樣本預(yù)測(cè)為正樣本,就可以獲得90% 的準(zhǔn)確率,但這完全沒(méi)有意義。對(duì)于新數(shù)據(jù),根本沒(méi)有準(zhǔn)確性。因此,在樣本不平衡的情況下,所獲得的高精度沒(méi)有任何意義,并且精確度將無(wú)效。因此,需要找到新的指標(biāo)評(píng)估該模型的優(yōu)缺點(diǎn)。
精確度指預(yù)測(cè)結(jié)果,即在所有預(yù)測(cè)為正的樣本中,樣本實(shí)際為正的概率。精確度和準(zhǔn)確度看起來(lái)很相似,但概念完全不同。精確度表示正樣本結(jié)果中預(yù)測(cè)的準(zhǔn)確性,準(zhǔn)確度表示整個(gè)預(yù)測(cè)的準(zhǔn)確性,包括正樣本和負(fù)樣本。
召回率是針對(duì)原始樣本的,這意味著在實(shí)際為正的樣本中被預(yù)測(cè)為正樣本的概率。
Precision 和Recall 可用P-R 圖表示。為確定P-R曲線上最佳閾值點(diǎn),希望準(zhǔn)確率和召回率高,但事實(shí)上這兩個(gè)指標(biāo)相互矛盾,無(wú)法達(dá)到雙高。因此,選擇正確的閾值點(diǎn)需要根據(jù)實(shí)際問(wèn)題的要求,例如,如果想要高精度,必須犧牲一些召回率;為了獲得高的召回率,必須犧牲一些精確度。但通常,可根據(jù)他們之間的平衡來(lái)定義一個(gè)新的指標(biāo),即F1 指數(shù)。F1 指數(shù)平衡了準(zhǔn)確度和召回率,同時(shí)考慮了準(zhǔn)確度和召回率。
2.3結(jié)果對(duì)比分析
在準(zhǔn)確性方面,Isolation Forest 和OC-SVM 的準(zhǔn)確性低于80%,Isolation Forest 算法模型測(cè)量的數(shù)據(jù)最低準(zhǔn)確性為0.6184,比平均值0.7975 低近10個(gè)百分點(diǎn)。剩余算法模型的最高精度為PCA+GMM(TN=0),為0.8508,并且PCA+ KMeans、DBSCAN、DAGMM、LOF、AE-OCSVM、VAEGMM 在(0.8000,0.8500)的區(qū)間內(nèi)增加。在精度方面,OC-SVM 和DBSCAN 算法的精度特別突出,比其余算法模型高出約5 個(gè)百分點(diǎn)。DAGMM、VAEGMM 和AE-OCSVM與其余算法模型相比具有約1~2 個(gè)百分點(diǎn)的優(yōu)勢(shì)。召回?cái)?shù)據(jù)的狀態(tài)和準(zhǔn)確性相似,Isolation Forest 和OC-SVM 遠(yuǎn)未達(dá)到平均水平,PCA GMM(TN=0)尤為突出,其值為0.9444。F1 指數(shù)是精度和召回率平衡的結(jié)果,Isolation Forest 和OC-SVM 的指數(shù)比其他算法低,其余算法的F1 指數(shù)在90% 左右略有波動(dòng)。
基于以上分析,Isolation Forest 的4 個(gè)指標(biāo)相對(duì)較低,數(shù)據(jù)處理能力最差。OC-SVM 和DBSCAN 只具有更高的精度,而準(zhǔn)確度、召回率和F1 指數(shù)都低于平均值,但DBSCAN 的評(píng)估指標(biāo)值高于OC-SVM,并且都適合于只注重準(zhǔn)確度的試驗(yàn)數(shù)據(jù)處理。除準(zhǔn)確度一般外,PCA+GMM(TN=0)的準(zhǔn)確度、召回率和F1 指數(shù)在所有模型中最高,數(shù)據(jù)處理能力最好。PCA+K-Means 的值都是平均值,其余數(shù)據(jù)模型的數(shù)據(jù)處理能力相對(duì)較強(qiáng)且相似。具體的選擇取決于試驗(yàn)對(duì)象。9種不同算法分析見(jiàn)表1。
3結(jié)束語(yǔ)
針對(duì)電力數(shù)據(jù)維數(shù)較高,數(shù)量龐大,以及數(shù)據(jù)的多源異構(gòu)特點(diǎn),文章引入深度自編碼模型(AE),提出了AE-OCSVM(深度自動(dòng)編碼一類(lèi)支持向量機(jī))組合算法對(duì)異常值進(jìn)行檢測(cè)。試驗(yàn)結(jié)果表明,該方法取得了良好的檢測(cè)效果,準(zhǔn)確率,精確率,召回率和F1指數(shù)4個(gè)指標(biāo)在9個(gè)模型對(duì)比分析中具有突出優(yōu)勢(shì),能夠處理電力高維大數(shù)據(jù)的異常值檢測(cè)情況。