基于混合高斯變分自編碼網(wǎng)絡(luò)的異常檢測(cè)算法

2021-05-17 08:00:30陳華華陳哲郭春生應(yīng)娜葉學(xué)義章堅(jiān)武

電信科學(xué) 2021年4期

陳華華，陳哲，郭春生，應(yīng)娜，葉學(xué)義，章堅(jiān)武

（杭州電子科技大學(xué)通信工程學(xué)院，浙江杭州 310018）

1 引言

異常檢測(cè)是指在數(shù)據(jù)中檢測(cè)出不符合期望行為的數(shù)據(jù)。異常數(shù)據(jù)在統(tǒng)計(jì)領(lǐng)域也被稱(chēng)為偏差值或離群值，是指遠(yuǎn)離大量正常數(shù)據(jù)點(diǎn)的數(shù)據(jù)[1]。異常產(chǎn)生的原因有很多，比如數(shù)據(jù)本身的錯(cuò)誤，或人為因素，而這些異常往往蘊(yùn)含著一些隱秘的行為信息。在金融尤其是互聯(lián)網(wǎng)金融領(lǐng)域[2]，高效準(zhǔn)確的異常檢測(cè)系統(tǒng)能夠識(shí)別并預(yù)警用戶(hù)潛在的異常行為，控制金融風(fēng)險(xiǎn)，減少金融欺詐行為導(dǎo)致的經(jīng)濟(jì)損失。因此，如何從海量數(shù)據(jù)中監(jiān)控并檢測(cè)異常數(shù)據(jù)是一個(gè)亟待解決的重要問(wèn)題。此外，異常檢測(cè)還廣泛應(yīng)用于網(wǎng)絡(luò)入侵檢測(cè)[3]、醫(yī)療圖像輔助病癥判斷[4]、工業(yè)設(shè)備異常監(jiān)控[5]、智能安防監(jiān)控[6]等領(lǐng)域，為各類(lèi)系統(tǒng)的正常運(yùn)轉(zhuǎn)提供重要支撐。

2 相關(guān)工作

LOF（local outlier factor，局部異常因子）算法[7]是一種經(jīng)典的基于密度估計(jì)的異常檢測(cè)算法，其將數(shù)據(jù)點(diǎn)的可達(dá)距離、局部可達(dá)密度與其鄰域數(shù)據(jù)點(diǎn)進(jìn)行比較，并計(jì)算局部異常因子評(píng)估數(shù)據(jù)的異常程度，判斷數(shù)據(jù)是否屬于異常。基于密度的異常檢測(cè)算法適合用于數(shù)據(jù)分布不均的情況，算法復(fù)雜度較高。Liu 等[8]提出了孤立森林（isolation forest，IF）算法，其采用集成學(xué)習(xí)的方式，利用二叉搜索樹(shù)對(duì)樣本進(jìn)行孤立計(jì)算，并以此衡量樣本的異常程度，異常點(diǎn)往往因?yàn)榫哂信c正常點(diǎn)分離的特性而被更快地孤立，但是該方法難以檢測(cè)局部異常的情況。

近年來(lái)，隨著數(shù)據(jù)維度的提高，深度神經(jīng)網(wǎng)絡(luò)已經(jīng)顯示出其優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)的優(yōu)點(diǎn)。An 等[9]提出了使用變分自編碼器進(jìn)行異常檢測(cè)，并提出使用重構(gòu)概率衡量分布差異程度，該方法優(yōu)于使用自動(dòng)編碼器的方法。杜辰飛等[10]提出了一個(gè)基于稀疏自編碼器的異常檢測(cè)模型，輸入正常數(shù)據(jù)對(duì)稀疏自編碼器進(jìn)行訓(xùn)練和優(yōu)化，然后基于測(cè)試數(shù)據(jù)的重構(gòu)誤差檢測(cè)數(shù)據(jù)中的異常情況。Li 等[11]提出了基于膠囊網(wǎng)絡(luò)的深度異常檢測(cè)算法，其使用膠囊網(wǎng)絡(luò)搭建編碼器和分類(lèi)器，并基于預(yù)測(cè)概率和重建誤差對(duì)圖片數(shù)據(jù)進(jìn)行異常檢測(cè)。丁建立等[12]采用自然語(yǔ)言處理常用的seq2seq 模型對(duì)數(shù)據(jù)進(jìn)行建模，利用數(shù)據(jù)的重構(gòu)誤差對(duì)數(shù)據(jù)進(jìn)行異常檢測(cè)。

目前的異常檢測(cè)算法大多依賴(lài)于重建誤差或重建概率等啟發(fā)式方法進(jìn)行異常判斷，沒(méi)有利用數(shù)據(jù)的特征表示進(jìn)行異常判斷。因此，本文以混合高斯先驗(yàn)建立自編碼器，以得到數(shù)據(jù)更合理的特征分布，然后以自編碼器構(gòu)建深度支持向量網(wǎng)絡(luò)壓縮特征空間，通過(guò)尋找最小超球體分離異常數(shù)據(jù)和正常數(shù)據(jù)，從而實(shí)現(xiàn)對(duì)異常數(shù)據(jù)的檢測(cè)。該方法擺脫了目前主流的基于重構(gòu)誤差或重建概率的異常檢測(cè)方法，基于數(shù)據(jù)特征的優(yōu)化進(jìn)行異常檢測(cè)。

3 異常檢測(cè)模型

3.1 混合高斯變分自編碼器

變分自編碼器[13]通過(guò)將深度學(xué)習(xí)與概率統(tǒng)計(jì)相結(jié)合，能夠?qū)W習(xí)到數(shù)據(jù)的特征分布。標(biāo)準(zhǔn)的變分自編碼器的優(yōu)化目標(biāo)如式（1）所示。

模型通過(guò)最小化近似后驗(yàn)分布和假設(shè)先驗(yàn)分布之間的 KL 散度，使優(yōu)化目標(biāo)證據(jù)下限（ELBO）最大化。然而，標(biāo)準(zhǔn)變分自編碼器中先驗(yàn)采用簡(jiǎn)單的標(biāo)準(zhǔn)正態(tài)分布，可能會(huì)導(dǎo)致后驗(yàn)塌陷問(wèn)題[14]，并且容易忽略一些潛在的變量約束，導(dǎo)致無(wú)法較好地逼近不同類(lèi)別數(shù)據(jù)的分布，影響編碼和解碼的效果。為此本文引入混合高斯分布作為變分自編碼器的先驗(yàn)分布，如式（2）所示。

此時(shí)，式（1）中的第一項(xiàng)為混合高斯分布的KL 散度。式（2）、式（3）的高斯分量個(gè)數(shù)相同，都為M。一般地，先驗(yàn)分布的混合高斯個(gè)數(shù)應(yīng)不同于后驗(yàn)分布的混合高斯個(gè)數(shù)，這樣先驗(yàn)和后驗(yàn)中的高斯分量之間就必須進(jìn)行逐一匹配，但是會(huì)出現(xiàn)后驗(yàn)中多個(gè)高斯分量匹配先驗(yàn)分布中某個(gè)高斯分量的情況，而后驗(yàn)分布中的這些高斯分量的均值和方差都是由網(wǎng)絡(luò)從各批訓(xùn)練數(shù)據(jù)中取得的，訓(xùn)練數(shù)據(jù)的切分會(huì)影響均值和方差的估計(jì)，同時(shí)高斯分量個(gè)數(shù)的選擇也會(huì)影響匹配的準(zhǔn)確性，導(dǎo)致求解問(wèn)題復(fù)雜化。為簡(jiǎn)化問(wèn)題求解，本文采用了先驗(yàn)和后驗(yàn)由相同個(gè)數(shù)的高斯分量組成。但是到目前為止，尚未有一個(gè)高效的算法能夠求出與混合高斯分布相關(guān)的KL 散度的解析解。為了解決這個(gè)問(wèn)題，Hershey[15]提出了混合高斯分布之間的KL 散度的近似求解算法，該算法使用變分推斷求解出所需要計(jì)算的KL 散度的上界。因此可以將最小化KL 散度的目標(biāo)轉(zhuǎn)換為最小化其近似上界。

根據(jù)Hershey 提出的近似算法，可以得到式（1）中的第一項(xiàng)KL 散度的表達(dá)式，如式（4）所示。

3.2 深度支持向量網(wǎng)絡(luò)

支持向量數(shù)據(jù)描述（support vector 2ata 2escription，SVDD）是Tax 等[16]提出的一種在統(tǒng)計(jì)學(xué)理論基礎(chǔ)上發(fā)展的單值分類(lèi)方法。SVDD 的目標(biāo)是在特征空間Fk中找到中心c∈Fk、半徑R>0的超球體，該超球體將大多數(shù)目標(biāo)類(lèi)數(shù)據(jù)包圍，以此分離目標(biāo)類(lèi)數(shù)據(jù)與所有非目標(biāo)類(lèi)數(shù)據(jù)。

假設(shè)輸入數(shù)據(jù)為x(i)，i=1, …,N，SVDD 在特征空間上尋找最優(yōu)超球體的優(yōu)化目標(biāo)被定義為式（7）。

本文訓(xùn)練一個(gè)混合高斯變分自編碼網(wǎng)絡(luò)，將網(wǎng)絡(luò)輸出擬合到最小超球體中，以學(xué)習(xí)數(shù)據(jù)特征分布變化的共同因素。本文將深度支持向量網(wǎng)絡(luò)的目標(biāo)函數(shù)定義為式（8）：

其中，φ是自編碼網(wǎng)絡(luò)的參數(shù)，φ(x(i);φ)是自編碼網(wǎng)絡(luò)輸入為x(i)時(shí)的輸出，第二項(xiàng)是L2 正則化項(xiàng)，L是神經(jīng)網(wǎng)絡(luò)的層數(shù)，φ(l)是自編碼網(wǎng)絡(luò)第l層的參數(shù)，λ是正則化系數(shù)，該正則化項(xiàng)可以減少模型過(guò)擬合，提高模型的泛化能力。由此，將數(shù)據(jù)的特征被壓縮到了以c為中心的超球體內(nèi)。

對(duì)于給定的測(cè)試數(shù)據(jù)x′，計(jì)算測(cè)試數(shù)據(jù)經(jīng)自編碼網(wǎng)絡(luò)的輸出到超球體中心的距離，定義深度支持向量網(wǎng)絡(luò)的異常分?jǐn)?shù)s(x′)如式（9）所示。

圖1 異常檢測(cè)模型網(wǎng)絡(luò)結(jié)構(gòu)

3.3 網(wǎng)絡(luò)模型

本文使用卷積神經(jīng)網(wǎng)絡(luò)搭建混合高斯變分自編碼器，其網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。在編碼器中，輸入圖像首先經(jīng)過(guò)一層含64 個(gè)卷積核、大小為3×3、步長(zhǎng)為1 的卷積層，激活函數(shù)使用非線性的ReLU 函數(shù)。池化層在進(jìn)行下采樣操作的時(shí)候，存在丟失有價(jià)值的信息的問(wèn)題[17]。因此本文使用含64 個(gè)卷積核、大小為3×3、步長(zhǎng)為2 的卷積層代替池化層進(jìn)行下采樣，保留圖像中的重要信息。然后級(jí)聯(lián)一層含128 個(gè)卷積核、大小為3×3、步長(zhǎng)為1 的卷積層，使用含128 個(gè)卷積核、大小為3×3、步長(zhǎng)為2 的卷積層代替池化層。最后級(jí)聯(lián)含256 個(gè)卷積核、大小為3×3、步長(zhǎng)為1 以及含256 個(gè)卷積核、大小為3×3、步長(zhǎng)為2 的卷積層，然后級(jí)聯(lián)一個(gè)reshape 層，將數(shù)據(jù)維度轉(zhuǎn)換為2 304×1，再連接一個(gè)維數(shù)是10 的全連接層。

解碼器中使用反卷積完成對(duì)特征的復(fù)原工作。解碼器在結(jié)構(gòu)上和編碼器對(duì)稱(chēng)，使用兩個(gè)維數(shù)分別是10 和2 304 的全連接層，再級(jí)聯(lián)一個(gè)reshape 層，將數(shù)據(jù)維度轉(zhuǎn)換為3×3×256，再級(jí)聯(lián)3 層反卷積層，分別具有128 個(gè)、64 個(gè)、1 個(gè)大小為3×3 的卷積核。與編碼器類(lèi)似，解碼器使用步長(zhǎng)為2 的反卷積層代替上采樣。除最后一層反卷積使用Sigmoi2 作為激活函數(shù)，其余卷積層、反卷積層均使用ReLU 作為激活函數(shù)。

訓(xùn)練得到的混合高斯變分自編碼器的編碼器部分作為深度支持向量網(wǎng)絡(luò)，并以學(xué)習(xí)獲得的編碼器參數(shù)作為初始值，以特征均值作為超球體中心，進(jìn)一步訓(xùn)練深度支持向量網(wǎng)絡(luò)。

3.4 異常檢測(cè)

在訓(xùn)練階段中構(gòu)建并訓(xùn)練混合高斯變分自編碼器，通過(guò)訓(xùn)練混合高斯變分自編碼器得到正常類(lèi)別數(shù)據(jù)的特征表示及特征的均值c。然后將均值c作為超球體中心，構(gòu)建并訓(xùn)練深度支持向量網(wǎng)絡(luò)。在測(cè)試階段中將測(cè)試數(shù)據(jù)輸入深度支持向量網(wǎng)絡(luò)，根據(jù)式（9）計(jì)算異常分?jǐn)?shù)。異常檢測(cè)的判別如式（10）所示，當(dāng)測(cè)試數(shù)據(jù)的異常分?jǐn)?shù)小于閾值時(shí)，則說(shuō)明該數(shù)據(jù)落在超球體之內(nèi)，認(rèn)為是正常數(shù)據(jù)；當(dāng)測(cè)試數(shù)據(jù)的異常分?jǐn)?shù)大于閾值時(shí)，則說(shuō)明該數(shù)據(jù)落在超球體之外，認(rèn)為是異常數(shù)據(jù)。

4 實(shí)驗(yàn)結(jié)果分析

4.1 實(shí)驗(yàn)配置及數(shù)據(jù)集

實(shí)驗(yàn)采用Win2ows 10 平臺(tái)下的Python 3.6 編譯器。計(jì)算機(jī)參數(shù)配置為Intel Core i5-7300HQ@2.50 GHz CPU，內(nèi)存為8 GB，使用的編程環(huán)境為T(mén)ensorFlow 和Keras，編程語(yǔ)言為Python。網(wǎng)絡(luò)使用正態(tài)分布隨機(jī)值初始化網(wǎng)絡(luò)參數(shù)，batch size 設(shè)置為100，使用A2am 優(yōu)化器更新模型參數(shù)，學(xué)習(xí)率設(shè)置為0.000 1。異常檢測(cè)就是在數(shù)據(jù)中檢測(cè)出遠(yuǎn)離大量正常數(shù)據(jù)點(diǎn)的數(shù)據(jù)，將正常數(shù)據(jù)看作目標(biāo)類(lèi)數(shù)據(jù)，將各種異常數(shù)據(jù)均看作離群類(lèi)數(shù)據(jù)，因此在這個(gè)意義上可以看作一個(gè)二分類(lèi)問(wèn)題；同時(shí)Tucker[18]也指出，在混合高斯分布中，由兩個(gè)高斯分布分量組成的混合高斯分布具有較好的描述性質(zhì)，并且兼顧了參數(shù)個(gè)數(shù)和擬合效果，保證了模型的靈活性。因此本文中混合高斯自編碼器的先驗(yàn)和后驗(yàn)均使用二分量的混合高斯分布，其系數(shù)分別為coefficient、1?coefficient。

為評(píng)估本文方法的有效性，本文采用了MNIST 數(shù)據(jù)集[19]和Fashion-MNIST 數(shù)據(jù)集[20]用于實(shí)驗(yàn)測(cè)評(píng)。MNIST 數(shù)據(jù)集是一個(gè)包含 10 種不同數(shù)字（0～9）的數(shù)據(jù)集，將其中1 個(gè)數(shù)字作為正常類(lèi)別數(shù)據(jù)，其余9 個(gè)數(shù)字作為異常類(lèi)別數(shù)據(jù)。Fashion-MNIST 數(shù)據(jù)集是一個(gè)包含10 種不同時(shí)尚商品的數(shù)據(jù)集，將其中1 種時(shí)尚商品作為正常類(lèi)別數(shù)據(jù)，其余9 種時(shí)尚商品作為異常類(lèi)別數(shù)據(jù)。兩個(gè)數(shù)據(jù)集均以正常類(lèi)別的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)，約各有6 000 個(gè)樣本。兩個(gè)數(shù)據(jù)集的測(cè)試集中各有10 000 個(gè)樣本，其中包括正常類(lèi)別數(shù)據(jù)和異常類(lèi)別數(shù)據(jù)。實(shí)驗(yàn)中本文將兩個(gè)數(shù)據(jù)集中的圖像像素值歸一化到[0,1]。

4.2 評(píng)價(jià)標(biāo)準(zhǔn)

本文使用異常檢測(cè)模型常用的AUC（area un2er curve）指標(biāo)進(jìn)行評(píng)估。AUC 值一般用于評(píng)價(jià)二分類(lèi)模型，其值是ROC（receiver operating characteristic）曲線下的面積，常由混淆矩陣得到，混淆矩陣見(jiàn)表1。其中，TP（true positive）表示實(shí)際和預(yù)測(cè)均為正常的樣例；FN（false negative）表示預(yù)測(cè)為異常的正常樣例；FP（false positive）表示預(yù)測(cè)為正常的異常樣例；TN（true negative）表示實(shí)際與預(yù)測(cè)均為異常的樣例。

表1 二分類(lèi)的混淆矩陣

由此可根據(jù)式（11）、式（12）計(jì)算出假陽(yáng)性率（false positive rate，F(xiàn)PR）和真陽(yáng)性率（true positive rate，TPR）。將式（9）中異常分?jǐn)?shù)s(x′) 轉(zhuǎn)換成概率，則式（10）中閾值的取值落在[0,1]，在[0,1]等間隔取200 個(gè)閾值，每一個(gè)閾值根據(jù)式（11）和式（12）得到一組FPR 和TPR 值。根據(jù)設(shè)定閾值的不同，從模型中得到各組 FPR和TPR 值，以FPR 作為橫坐標(biāo)，TPR 作為縱坐標(biāo)，即可得到模型的ROC 曲線。由于異常檢測(cè)中樣本往往存在分布不均的情況，使用準(zhǔn)確率指標(biāo)評(píng)估模型并不合適，而采用ROC 曲線下的面積AUC 指標(biāo)同時(shí)考慮了模型針對(duì)正常例和異常例的分類(lèi)能力，因此適合作為異常檢測(cè)模型的評(píng)估指標(biāo)。

4.3 MNIST 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

本文在MNIST 數(shù)據(jù)集上進(jìn)行了異常檢測(cè)實(shí)驗(yàn)。根據(jù)高斯分量混合系數(shù)的不同會(huì)產(chǎn)生多種混合高斯先驗(yàn)，為了得到最佳的混合高斯分布的混合系數(shù)（coefficient），本文分別依次以10 個(gè)不同數(shù)字為正常數(shù)據(jù)，其余數(shù)字為異常數(shù)據(jù)，coefficient 在[0.1,0.9]以0.1 為步長(zhǎng)取值，計(jì)算AUC 值，每個(gè)coefficient 值求取10 個(gè)不同數(shù)字的平均AUC 值，畫(huà)出平均AUC 值和coefficient值之間的曲線關(guān)系，結(jié)果如圖2 所示。由圖2 可知，本文算法在MNIST 數(shù)據(jù)集上的最佳混合高斯系數(shù)為（0.5，0.5）。

本文也與其他異常檢測(cè)算法進(jìn)行了比較，實(shí)驗(yàn)結(jié)果對(duì)比見(jiàn)表2，最優(yōu)結(jié)果加粗顯示。

表2 中數(shù)字“4”的AUC 略低于最高值，主要是因?yàn)轭?lèi)似于、、的數(shù)字“9”檢測(cè)為數(shù)字“4”，這對(duì)混淆矩陣中的FP 值影響比較大；數(shù)字“7”的AUC 略低，主要是因?yàn)椴荒軝z測(cè)出類(lèi)似于的數(shù)字“7”，這對(duì)FN 值影響比較大。從表2 可知，本文算法的平均AUC 值較其他異常檢測(cè)算法有一定的提高，表明本文算法在MNIST 數(shù)據(jù)集中實(shí)現(xiàn)了較好的檢測(cè)效果，能夠進(jìn)行有效的異常檢測(cè)。

圖2 MNIST 數(shù)據(jù)集在不同高斯分量混合系數(shù)下的實(shí)驗(yàn)結(jié)果平均值

表2 MNIST 數(shù)據(jù)集在各種異常檢測(cè)方法下的實(shí)驗(yàn)結(jié)果對(duì)比

4.4 Fashion-MNIST 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

本文也在Fashion-MNIST 數(shù)據(jù)集上進(jìn)行了異常檢測(cè)實(shí)驗(yàn)。為了得到混合高斯分布的最佳混合系數(shù)，本文分別依次以10種不同商品為正常數(shù)據(jù)，其余商品為異常數(shù)據(jù)，coefficient 采用和MNIST 數(shù)據(jù)集類(lèi)似的方法，求得每個(gè)coefficient 值時(shí)10 種不同商品的平均AUC 值，畫(huà)出平均AUC 值和coefficient 值之間的曲線關(guān)系，結(jié)果如圖3 所示。由圖3 可知，本文算法在Fashion-MNIST 數(shù)據(jù)集上的最佳混合高斯系數(shù)為（0.4，0.6）。

圖3 Fashion-MNIST 數(shù)據(jù)集在不同高斯分量混合系數(shù)下的實(shí)驗(yàn)結(jié)果平均值

同樣，本文也與其他異常檢測(cè)算法進(jìn)行了比較，實(shí)驗(yàn)結(jié)果對(duì)比見(jiàn)表3，最優(yōu)結(jié)果加粗顯示。

由表2 和表3 可知，本文算法具有較好的異常檢測(cè)效果，并優(yōu)于當(dāng)前的一些異常檢測(cè)算法。

表3 Fashion-MNIST 數(shù)據(jù)集在各種異常檢測(cè)方法下的實(shí)驗(yàn)結(jié)果對(duì)比

5 結(jié)束語(yǔ)

本文提出了一種基于混合高斯變分自編碼網(wǎng)絡(luò)的異常檢測(cè)算法，采用混合高斯為先驗(yàn)構(gòu)建變分自編碼器提取數(shù)據(jù)特征，以自編碼器構(gòu)建深度支持向量網(wǎng)絡(luò)壓縮特征空間，尋找最小超球體分離正常數(shù)據(jù)與異常數(shù)據(jù)，并以此進(jìn)行異常檢測(cè)。實(shí)驗(yàn)結(jié)果表明，本文算法優(yōu)于當(dāng)前的一些異常檢測(cè)方法，實(shí)現(xiàn)了較好的異常檢測(cè)效果。然而，本文算法模型也有一定的不足，算法中高斯分量最佳混合系數(shù)的確定是根據(jù)混合系數(shù)與平均AUC值之間的曲線人為選擇的，下一步的重點(diǎn)是建立優(yōu)化模型來(lái)自適應(yīng)地確定混合系數(shù)。