共享域特征的深度神經網絡異常檢測方法

2018-07-04 10:31:32黎紹發林智勇

小型微型計算機系統 2018年6期

梁鵬，黎紹發，林智勇，郝剛

1(廣東技術師范學院計算機科學學院，廣州 510665)

2(華南理工大學計算機科學與工程學院，廣州 510006)

1 引言

異常影響參數是一組用以描述對象(系統)當前狀態水平并可以確定其未來行為的變量.異常檢測是指監測異常影響參數、指示異常種類并預測監測對象發展的過程.特別地，異常檢測可通過對特征信號的采集、處理和分析，評價監測對象的整體或部分的狀態水平，判斷其有無異常與劣化的征兆，或對異常進行追蹤，確定異常趨勢、預測異常種類.

常用的異常檢測方法主要分為基于機理模型和基于數據驅動[1-3]兩種.基于機理模型的異常檢測方法通過對復雜系統的機理分析，揭示系統能耗狀態與參數之間的關系.然而，系統運行過程受到多種物理變化、化學變化和參數耦合的影響，通常難以建立準確、魯棒的機理模型.基于數據驅動的異常檢測方法采集大量與異常影響因素相關的運行數據，利用支持向量機和神經網絡等學習模型對采集獲得的數據直接進行訓練學習，進而獲得復雜系統的網絡模型，實現對異常檢測的建模.

由于無需對復雜系統進行機理分析，基于數據驅動的異常檢測方法有更好的適用性，目前受到了廣泛關注.文獻[4-7]提出一種混合自回歸積分滑動平均模型(ARIMA)和人工神經網絡(ANN)的預測模型，同時結合了ARIMA時間序列預測和ANN非線性擬合的特點，分別實現了對季節性氣候、燃料木材價格、風力速度、電力價格的異常檢測.文獻[8]提出基于統計聚類RBF神經網絡的異常檢測方法，該方法利用隱單元簡化機制減少了隱含層的節點，降低了算法復雜度.上述方法均需要使用大量目標數據用于訓練復雜網絡的參數，然而在實際中往往難以獲得大量有標簽的目標數據，這使得基于數據驅動的異常檢測方法難以得到令人滿意的預測結果.

為了提高基于數據驅動的異常檢測方法在標簽數據不足情況下的預測性能，人們提出了利用遷移學習的解決思路.例如，Hu et.al[9]使用深度神經網絡實現短期風速預測的遷移學習，該方法利用深度神經網絡提取出源域數據的抽象特征表示，用于提升目標域的分類準確率.Huang et.al[10]使用共享隱含層節點的方法實現深度神經網絡的知識遷移，有效地降低了新語言識別的錯誤率.Heigold et.al[11]和Vu et.al[12]利用分布式深度神經網絡實現多語言聲學模型，從一種語音模型遷移到另一個缺乏訓練數據的語音模型.李陽輝等[13]利用降噪自動編碼器實現了微博情感的分析.需要指出，上述遷移學習方法直接使用所有源域的標簽數據訓練深度神經網絡.然而，由于源域數據和目標域數據的分布是不同的，并非所有的源域標簽數據對目標域來說都是有用的，如果大部分源域數據與目標域數據不相關，使用遷移學習反而可能降低異常檢測的準確率.受此啟發，針對能耗異常檢測的需求，本文提出一種基于共享域特征的深度神經網絡(Deep Neural Network based on Shared Domain Feature，DNN-SDF).

DNN-SDF的核心思想是將深度神經網絡和遷移學習相結合，并且通過源域和目標域的共享特征，實現對源域數據的有效使用，進而提高異常檢測性能.具體地，DNN-SDF通過共享編碼層使得源域數據和目標域數據映射到同一個特征空間，減少源域數據與目標域數據的概率分布差異，同時求取源域數據和目標域數據中具有共同域特性的數據實現遷移學習.基于真實能耗數據的實驗結果表明，DNN-SDF能有效地提高異常檢測準確率.

2 基于共享域特征的深度神經網絡

基于共享域特征的深度神經網絡(DNN-SDF)由兩部分組成，即，基于共享編碼的無監督特征提取以及基于共享域特征的半監督學習，它們的具體做法如下.

圖1 基于共享域特征的深度神經網絡Fig.1 Deep neural network based on shared domain feature

2.1 基于共享編碼的無監督特征提取

如圖1所示，結合兩個自動編碼器，實現提取源域數據和目標域數據中的共同特征，兩個自動編碼器共享編碼層，在解碼層分別輸出為重構后的源域數據和目標域數據.其原理在于，通過共享編碼層使得源域數據和目標域數據映射到同一個特征空間，減少源域數據與目標域數據的概率分布差異，從而提取出具有共同特性的特征用于后續分類.

圖2 DNN-SDF和DNN使用10天源域數據訓練后的MAPE圖Fig.2 MAPE comparison result of DNN-SDF and DNN method via 10-days source-domain training data

給定源域數據Xs和目標域數據Xt，合并輸入數據集X=Xs∪Xt，編碼器將輸入向量x∈Rdx映射到隱含層，隱含層特征h(x)∈Rdh表示為：

圖3 DNN-SDF和DNN使用10天源域數據訓練后的MSE圖Fig.3 MSE comparison result of DNN-SDF and DNN method via 10-days source-domain training data

h(x)=s(W1x+b1)

(1)

(2)

無監督特征提取的損失函數L(θ)為：

(3)

其中θ={W1，b1，Ws，bs，Wt，bt}為自動編碼器的參數，α為正則約束項系數，用于表示源域數據和目標域數據的概率分布差異.損失函數的目的在于獲取輸入數據的壓縮特征表示，同時盡可能使源域數據與目標域數據統一在一個特征空間內.

通過梯度下降法計算最小化公式(3)的目標函數，實現參數的求取，并采用{W1，b1}作為深度學習框架第一部分特征提取的初始參數.

2.2 基于共享域特征的半監督學習

得到特征提取的壓縮表示特征h(x)后，利用有標簽的源域數據和無標簽的目標域數據對實現半監督學習，提升目標分類準確率，具體描述如下：

根據有標簽的源域數據實現有監督學習的能耗異常預測，能耗異常預測的損失函數為：

(4)

其中θy={θy1，θy2，…，θym}，θyi∈Rdh為能耗異常預測部分的網絡參數，1{·}是一個指示函數，1{true}=1，1{false}=0.ns表示源域數據的樣本個數.

由于源域數據與目標域數據存在分布上的差異，因此直接使用有標簽的源域數據進行目標域的異常預測，會產生性能衰退.為此，求取源域數據和目標域數據中，具有共同域特性的數據，其損失函數表示為：

(5)

則目標函數變為：

(6)

其中β為超參數，采用EM迭代計算方法求解，固定其中一個參數θy，通過梯度下降法求取θd最優參數；然后再固定θd，求取θy最優參數.給定學習率γ，梯度下降的更新公式為：

(7)

3 在線能耗異常預測

在使用預測值進行決策時，需要考慮預測誤差帶來的不確定性.為此通過預測值的置信水平分析，可以使預測誤差控制在一定的置信范圍內.從而有效地避免單次預測誤差過大帶來的決策風險.

(8)

4 實驗與分析

為了檢驗基于共享域特征的深度神經網絡(DNN-SDF)的有效性，以某鋁型材制造企業擠壓車間為例，影響擠壓機組能耗的影響因素有：型材種類、模具類型、擠壓溫度、擠壓速度、截面面積、擠壓長度等，能耗的輸出數據為單次擠壓的燃氣量.從該企業能源監控服務器的數據庫中讀取一臺擠壓機組于2013.4-2014.4的能耗數據以及異常記錄作為源域訓練數據輸出及標簽，平均兩分鐘擠壓一次，一天平均擠壓次數為300次，總的擠壓次數為108760次，共有897次能耗異常，從企業ERP數據庫中讀取每次擠壓過程的影響因素數據作為源域訓練數據輸入；再通過企業能源監控系統對另一臺擠壓機組進行實時監控，讀取該擠壓機組的能耗影響因素及真實能耗輸出，作為目標域訓練數據.

4.1 實現細節和評價準則

為了進行算法的比較，采用未使用共享域特征的深度神經網絡(DNN)進行能耗異常檢測，能耗異常檢測分為能耗預測和異常檢測兩部分.在能耗預測部分，如公式(9)所示，采用均方差 (MSE)和平均絕對百分比誤差(MAPE)對預測結果進行評價，兩種指標反映有所不同，均方差衡量了預測值和真實值之間的絕對差異，平均絕對百分比誤差衡量預測值與真實值的相對誤差，均方差反映預測方法的精度，而平均絕對百分比誤差反映預測方法的無偏性.

(9)

在異常檢測部分，使用錯誤率(FR)和漏檢率(MR)來對不同置信度下的異常檢測結果進行評價，錯誤率(FR)和漏檢率(MR)的計算公式如(10)所示：

(10)

其中Nf是錯誤識別為異常的樣本個數，Nd是異常檢測方法識別為異常的樣本個數，Nm是異常檢測方法未檢測到的異常樣本個數，Na是所有的異常樣本個數.

圖4 DNN-SDF和DNN使用20天源域數據訓練后的MAPE圖Fig.4 MAPE comparison result of DNN-SDF and DNN method via 20-days source-domain training data

DNN-SDF和DNN方法均采用Windows7平臺，MATLAB R2012b實現，運行于Intel i7-5500 cpu和8GB內存環境中.對于算法的參數選擇，隱含層的節點個數為{200，100，50}，超參數α和β分別為{0.1，0.5，1，2}，學習率γ設置為{0.001，0.005，0.01}，網絡的權重系數設為主對角線為1，其余為0的矩陣，初始化網絡偏置參數為0，上述參數是通過對源訓練樣本進行交叉驗證的基礎上獲得的.

4.2 實驗結果

圖2-圖5分別是DNN-SDF和DNN使用10天和20天的源域數據訓練網絡后，對目標域進行100分鐘的能耗預測的MSE和MAPE結果，圓圈表示DNN-SDF的預測結果曲線，星號曲線表示DNN的預測結果曲線，其中DNN直接使用源域數據的標簽對網絡進行微調.從結果中可以看出，使用10天的源域數據進行能耗預測時，DNN-SDF的MSE和MAPE和DNN方法大致相同，隨著預測的時間長度增加，MSE和MAPE值不斷增長，且當預測的時間長度超過50分鐘時，DNN的預測結果好于DNN-SDF的預測結果；當使用20天的源域數據進行預測時，隨著預測的時間長度增加，和MAPE值不斷增長，DNN-SDF的MSE結果比DNN方法降低了約10%.

圖5 DNN-SDF和DNN使用20天源域數據訓練后的MSE圖Fig.5 MSE comparison result of DNN-SDF and DNN method via 20-days source-domain training data

圖6是DNN-SDF和DNN使用20天的源域數據進行能耗預測的結果，無標記曲線表示實時能耗監測值，圓圈曲線表示DNN-SDF的預測值，星號曲線表示DNN方法的預測值，從圖中可以看出，在第29、37、105、111、172分鐘的能耗預測值，DNN-SDF方法的預測結果比DNN方法更接近目標的真實能耗.

圖6 兩種方法使用20天源域數據進行能耗預測的結果圖Fig.6 Energy prediction result of DNN-SDF and DNN method via 20-days source-domain training data

表1是兩種方法分別使用3個月的源域數據，以及10天、20天、30天的目標域數據對深度學習網絡進行訓練后，對目標域進行60分鐘、120分鐘、180分鐘能耗預測的MAPE結果.當MAPE低于10%時，表示預測方法的結果值得信賴.在所有時間的目標域預測中，隨著源域訓練數據的增加，兩種方法的MAPE值都在不斷減小，這說明大量的源域數據有助于提升目標域的分類準確率；當目標域訓練數據較少時(10天)，DNN-SDF的MAPE值比DNN的更小，這是因為缺少足夠的目標域數據訓練分類器，而DNN-SDF可以通過大量的源域標簽進行半監督學習，尋找到與目標域相同分布的源域特征，用于提升分類準確率；當目標域訓練數據足夠多時(30天)，DNN-SDF的MAPE值和DNN相近甚至更低，這是因為有足夠的目標域訓練數據后，不同概率分布的源域數據反而會降低目標域分類的準確性.

表1 DNN-SDF和DNN方法在不同數量目標域數據下的MAPE和MSETable 1 MAPE and RMSE for DNN-SDF and DNN models for different amount of target training data

表2 DNN-SDF方法在不同置信度水平上的檢測性能Table 2 Detection performance of DNN-SDF method with different confidence level

表2是DNN-SDF方法在不同的置信度下的異常檢測效果，隨著置信度的增加，誤檢率會減少但是漏檢率會增加，因此需要在兩者之間尋找一個平衡.圖7是本文方法在97%置信度下的在線能耗異常檢測曲線，共檢測到了30個異常樣本，漏檢了3個異常樣本.

圖7 置信度為97%時的DNN-SDF在線能耗異常檢測結果圖Fig.7 Online energy anomaly detection result of DNN-SDF method via 97% confidence coefficient

5 結論及未來工作

提出了一種基于共享域特征的深度神經網絡，該網絡分為無監督特征提取部分和半監督遷移學習部分.在無監督特征提取部分，使用兩個自動編碼器提取源域數據和目標域數據中的共同特征；在半監督遷移學習部分，求取源域數據和目標域數據中具有共同域特性的數據.最后將該方法在某鋁型材企業擠壓車間的真實能耗數據集上進行能耗異常檢測實驗，實驗結果表明，當目標域的數據較少時，基于遷移學習的深度神經網絡通過遷移源域數據中與目標域具有共同分布的特征知識，提升目標域的分類準確率；當目標域的訓練數據足夠時，深度神經網絡可以很好地預測目標域的能耗異常，無需使用源域的遷移知識.

：

[1] Gutiérrez P A，Pérez-Ortiz M，Sánchez-Monedero J，et al.Ordinal regression methods：survey and experimental study[J].IEEE Transactions on Knowledge & Data Engineering，2016，28(1)：127-146.

[2] Matthew Brown，Chris Barrington-Leigh，Zosia Brown.Kernel regression for real-time building energy analysis[J].Journal of Building Performance Simulation，2012，5(4)：1-14.

[3] Salcedo-Sanz S，Deo R C，Carro-Calvo L，et al.Monthly prediction of air temperature in Australia and New Zealand with machine learning algorithms[J].Theoretical and Applied Climatology，2016，125(1)：13-25.

[4] Tseng F M，Yu H C，Tzeng G H.Combining neural network model with seasonal time series ARIMA model[J].Technological Forecasting & Social Change，2002，69(1)：71-87.

[5] Koutroumanidis T，Ioannou K，Arabatzis G.Predicting fuelwood prices in Greece with the use of ARIMA models，artificial neural networks and a hybrid ARIMA-ANN model[J].Energy Policy，2009，37(9)：3627-3634.

[6] Liu H，Tian H Q，Li Y F.Comparison of two new ARIMA-ANN and ARIMA-Kalman hybrid methods for wind speed prediction[J].Applied Energy，2012，98(1)：415-424.

[7] Areekul P，Senjyu T，Urasaki N，et al.Next day price forecasting in deregulated market by combination of artificial neural network and ARIMA time series models[J].Ieej Transactions on Power & Energy，2009，129(10)：1267-1274.

[8] Weng He，Pi De-chang.Chaotic RBF neural network anomaly detection algorithm[J].Computer Technology and Development,2014，24(7)：29-33.

[9] Hu Q，Zhang R，Zhou Y.Transfer learning for short-term wind speed prediction with deep neural networks[J].Renewable Energy，2016，85：83-95.

[10] Huang J T，Li J，Yu D，et al.Cross-language knowledge transfer using multilingual deep neural network with shared hidden layers[C].IEEE International Conference on Acoustics，Speech and Signal Processing，IEEE，2013：7304-7308.

[11] Heigold G，Vanhoucke V，Senior A，et al.Multilingual acoustic models using distributed deep neural networks[C].IEEE International Conference on Acoustics，Speech and Signal Processing,IEEE，2013：8619-8623.

[12] Vu N T，Imseng D，Povey D，et al.Multilingual deep neural network based acoustic modeling for rapid language adaptation[C].IEEE International Conference on Acoustics，Speech and Signal Processing，IEEE，2014：7639-7643.

[13] Li Yang-hui，Xie Ming，Yi Yang.Sentiment analysis of micro-blogging based on DAE and its improved model[J].Application Research of Computers，2017，34(2)：373-377.

附中文參考文獻：

[8] 翁鶴，皮德常.混沌RBF神經網絡異常檢測算法[J].計算機技術與發展，2014，24(7)：29-33.

[13] 李陽輝，謝明，易陽.基于降噪自動編碼器及其改進模型的微博情感分析[J].計算機應用研究，2017，34(2)：373-377.