于燁 柴育峰 康樂 郭景維 張波
摘 要: 針對用戶訪問軌跡的數據特征,提出一種基于EEMD技術的多步時間序列預測模型。該模型利用了集合經驗模態分解EEMD結合極限學習機ELM模型,混合人工魚群MAFA優化的方式,克服了算法中存在過擬合和多步時間序列預測的策略限制問題。通過該模型,實現了對訪問軌跡時間序列多步預測,結合安全范圍包絡線,進而提前發現是否存在入侵行為。驗證結果表明,優化后的EEMD?ELM模型比傳統時間序列預測方法的迭代速率與精度得到了極大提高,泛化能力增強,說明了該方法的有效性、可行性。
關鍵詞: 勢態感知; 集合經驗模態; 極限學習機; 混合人工魚群; 多步時間序列預測
中圖分類號: TN915.08?34; V249 文獻標識碼: A 文章編號: 1004?373X(2017)07?0159?04
Multi?step time series prediction method based on EEMD technology
in electric power information security
YU Ye, CHAI Yufeng, KANG Le, GUO Jingwei, ZHANG Bo
(Information and Communication Company, State Grid Ningxia Electric Power Company, Yinchuan 750000, China)
Abstract: According to the data characteristics of the user access path, a multi?step time series prediction model based on ensemble empirical mode decomposition (EEMD) technology is proposed. The model uses the EEMD combining with the extreme learning machine (ELM) model, and optimization method of the hybrid artificial fish swarm algorithm to overcome the constraint problems of the over?fitting and multi?step time series prediction strategy existing in the algorithm. The time series multi?step prediction of the access path was implemented with the model, and the intrusion behavior can be found in advance in combination with the envelope line of the safety range. The verification results show that the optimized EEMD?ELM model has higher iteration rate and accuracy than those of the traditional time series prediction methods, its generalization ability is enhanced, and the effectiveness and feasibility of this method was illustrated.
Keywords: situation awareness; ensemble empirical mode; extreme learning machine; hybrid artificial fish swarm; multi?step time series prediction
0 引 言
電力信息系統的安全性往往關系到企業的核心利益,不斷發展與變化的網絡信息技術和網絡入侵攻擊技術越來越表現出不確定性、復雜性、多樣性等特點。
目前,國內外學者在時間序列預測的研究中,采用的都是單步時間序列預測ARIMA、直接策略、迭代策略、經驗模態分解等[1],而目前還未能出現針對電力信息系統數據庫的訪問軌跡勢態感知的多步時間序列預測方法。
本文基于集合經驗模態分解EEMD技術引入極限學習機ELM模型,利用人工魚群算法結合多模態函數優化算法建立了一個對訪問軌跡的數據進行多步時間序列預測的模型。該算法在求解類似大規模訪問軌跡數據的多步預測突破了傳統算法策略的限制,具有更高的迭代效率和能力。以某信通公司信息系統數據庫中20臺分布式服務器的訪問軌跡數據集為例,建立樣本集的特征向量,對訪問數據進行了多步時間序列預測,有效地提前發現是否存在入侵行為,提高了模型泛化能力。
1 EEMD?ELM時間序列預測方法
針對電力信息系統數據庫的網絡訪問軌跡時間序列,采用EEMD混合模型技術進行不同特征尺度的分解,使用EEMD?ELM混合模型進行單步時間序列預測。
1.1 集合經驗模態分解
經驗模態分解(Empirical Mode Decomposition, EMD)[2]是一種實現數據局部特征自適應的分解技術。EMD通過對繁雜的網絡入侵電力信息系統操作序列進行平穩化預處理,進而將復雜的入侵操作記錄序列分解成一組性能較好,特征尺度差異較大的本征模函數(Intrinsic Mode Function,IMF)。詳細的分解過程為:
(1) 確定入侵操作記錄序列[P(t)]的所有極值點,用核密度函數擬合成全包絡線,序列[P(t)]與上下包絡線的平均值[m1]的差記為[h1。]
(2) 把[h1]視為新序列,重復以上過程,直到[h1]滿足IMF的上述兩個條件,則其成為從原始序列篩選出最高頻的分量[c1,]其他剩余量可以表示為[r1=P(t)-c1。]
(3) 對[r1]繼續上述分解,直到第[n]階段的殘余序列為單調函數或其值小于預先給定的值,分解結束。
網絡入侵操作記錄序列可以寫為:
[p(t)=i=1nci(t)+rn(t)]
由于在EMD中存在一個IMF分量,包含了尺度差異較大的信號,針對這個問題采用集合經驗模態分解(Ensemble Empirical Mode Decomposition,EEMD)[3],通過在網絡入侵操作記錄序列中加入一系列低信噪比白噪聲,進行上述經驗模態分解,集合平均使得加入白噪聲相互抵消,克服模式混合的問題。
1.2 極限學習機算法原理
本文采用的極限學習機神經網絡(Extreme Learning Machine,ELM)是一種前饋神經網絡學習算法[4]。
設[H]是隱含層的輸出矩陣,ELM神經網絡的輸出公式就簡化為:[H?β=ZT,]令[ε=YT-ZT]是逼近殘差,那么隱含層和輸出層間的連接權值[β]就可以通過求解以下方程組的最小二乘解獲得[5]:
[minβHβ-YTβ=H+YT]
式中[H+]為隱含層輸出矩陣[H]的廣義逆。
2 混合魚群MAFA優化算法
本文中網絡入侵電力信息系統數據庫訪問規矩在本質上是一種時間序列,為了實現此時間序列多步預測,采用基于混合魚群MAFA優化EEMD?ELM策略,該策略能夠自適應優化調整輸出向量的長度,有效地克服了現有多步預測策略中的限制條件,其體系結構如圖1所示。
本文對模型全局搜索采用人工魚群AFA(Artificial FishAlgorithm)[6]算法。狀態為[X=x1,x2,…,xn,][xi]為尋優目標變量。
引入多模態函數優化算法(Multimodal Function Optimization,MFO)[7]實現人工魚群算法AFA的動態策略調整。避免當尋優區域平坦,算法出現局部收斂、早熟等現象。
假設個體[i]與個體[j]間歐式距離以[dij]表示,調整后的個體適應度為:
[f′i=fimi]
式中:[mi]為多模態數目,[mi]為個體[i]與其他個體所得的共享函數[sh(dij)]之和。[sh(dij)]與[mi]的表達式如下:
[sh(dij)=1-dijσshλ,dij<σsh0,otherwise,mi=j=1nsh(dij)]
式中:[λ]為共享程度;[σsh]為多模態半徑;[n]為群體規模。
人工魚群AFA算法結合多模態函數優化算法(MFO)的MAFA算法描述如圖2所示。
3 訪問軌跡的多步時間預測方法
3.1 訪問軌跡勢態感知的全局流程
本文首先將電力信息系統數據庫的訪問歷史數據經過密度估計方程得到其安全范圍包絡線,并作為標準閾值范圍。為了突破時間序列預測策略在多步預測的限制,本文提出多模態優化結合人工魚群的EEMD?ELM算法,實現了多步時間序列預測。算法模型結合系統審計日志對數據庫的訪問數據進行實時數據收集與預測,根據其訪問軌跡進行預測分析,如果預測發現有安全問題的存在,那么進行重點關注,一旦發現違反安全策略的行為,或者可能存在入侵行為,予以警告提醒。全局整體流程如圖3所示。
3.2 特征向量的建立
訪問軌跡信息是多維度數據,不能直接使用EEMD?ELM算法進行時間序列預測。可以先提取訪問軌跡的統計特征,然后用一個特征向量表征訪問軌跡后代入預測算法。
設包括有[n]個操作、[m]個數據點的訪問軌跡為:
[X=X11X12…X1nX21X22…X2n????Xm1Xm2…Xmn]
為了消除不同訪問操作數據間數量級上的差異,本文按照下式將操作數據歸一化為-0.5~0.5。
[Xij=Xij-Xj,minXj,max-Xj,min-0.5]
分別計算操作數據歸一化后的方差與均值:
[Xi=1mj=1mXij,i=1,2,…,n]
[Si=1mj=1mXij-Xi2,i=1,2,…,n]
最終構建的特征向量包括[2n]個元素。
[y=X1S1X2S2…XnSnT]
3.3 自適應的多步時間預測
文獻[2]中歸結出MISMO多步預測策略,預測步長和輸出節點的個數應該相等。本文采用MAFA結合EEMD?ELM的算法實現,突破了MISMO的限制。
對于MAFA優化問題,每個人工魚[P=p1,p2,…,pF-1]代表一個可能的可行解。[P=p1,p2,…,pF-1]中的[F-1]個成分是0或1,[pi]為0,則任務不會在[pi]進行分割;[pi=1,]則任務在[pi]進行分割,多步預測的編碼結構如圖4所示。
3.4 預測結果的評價
為了評價EEMD?ELM在訪問軌跡時間序列單步預測的性能情況,本文選取均方根誤差RMSE與平均絕對百分誤差MAPE為指標。對于混合魚群算法MAFA優化EEMD?ELM進行提前的多步預測,本文采用對稱平均絕對百分比誤差SMAPE[8]來評價整體預測性能效果:
[SMAPEh=1Mm=1MδmN+F-δmN+FδmN+F+δmN+F×100%]
式中:[δmN+F]表示時間序列[m]提前[F]步的預測值;[δmN+F]表示對應的實際值。
4 實例結果分析
為了驗證本文MAFA優化的EEMD?ELM多步預測算法模型的性能,本文采用三個月時間內信通公司信息系統數據庫中20臺分布式服務器的訪問軌跡數據,具體是把每臺的網絡連接和審計日志數據作為原始數據。將每臺服務器的數據轉化為特征向量后等分為A,B,C,D四組,選取A,B,C三組的數據作為測試數據集,D組的數據作為實際數據集。
將測試數據集代入EEMD?ELM模型網絡后進行時間序列單步預測。把實際數據集作為標準值,與預測結果對比計算。
EEMD?ELM,ELMs和ARIMA算法對每臺服務器上的訪問數據做了單步預測,并以RMSE,MAPE作為評價性能指標,將三種算法結果進行對比,具體如圖5,圖6所示。
從圖5和圖6中可以明顯看出本文提出的基于EEMD技術的ELM模型在單步時間序列的預測上相比ELMs,ARIMA模型誤差較小,精度更高。
采用本文提出的MAFA優化的EEMD?ELM模型,將此算法用于自適應調整EEMD?ELM模型的多步預測步長,實現多步時間序列預測。將實際數據集劃分為多步時間序列進行驗證,并以SMAPE作為評價性能指標,得到算法的預測誤差,具體如表1所示。
本文提出人工魚群算法AFA結合多模態函數優化MFO算法的混合魚群算法MAFA,進行測試函數的迭代計算,并與其他優化算法的效果進行對比,具體如圖7所示。
從結果可以看出,本文提出的混合魚群MAFA算法的迭代效率和收斂速度要明顯優于其他優化算法。同時,利用MAFA自適應調整EEMD?ELM模型的多步預測步長,使多步時間序列預測的誤差控制在4.5%以內,滿足工程精度要求。
5 結 論
本文提出基于EEMD技術的電力信息安全的多步時間序列預測方法,該方法僅憑借電力信息系統數據庫的當前訪問軌跡數據,即可實現對訪問軌跡時間序列多步預測,結合安全范圍包絡線,進而提前發現是否存在入侵行為。根據本文分析可以得到以下結論:
(1) 本文創新性地運用EEMD技術對復雜多樣的訪問軌跡時間序列數據進行分解,然后運用極限學習機ELM對分解得到的子時間序列實現分布式預測,從而實現對復雜多樣的時間序列單步預測。
(2) 面對極限學習機ELM容易出現過擬合和局部收斂的現象,提出人工魚群AFA結合多模態函數MFO優化算法,根據驗證結果表明,該算法具有較好的迭代效率,并克服過擬合和局部收斂的問題。
(3) 本文提出MAFA優化EEMD?ELM模型的方法,能夠有效地突破現有MISMO多步預測策略限制,自適應調整多步預測步長。根據驗證結果表明,實現多步預測的誤差控制在4.5%以內,滿足工程精度要求。
參考文獻
[1] 李瑞國,張宏立,范文慧,等.基于改進教學優化算法的Hermite正交基神經網絡混沌時間序列預測[J].物理學報,2015(20):104?116.
[2] SANG Y F, WANG Z, LIU C. Comparison of the MK test and EMD method for trend identification in hydrological time series [J]. Journal of hydrology, 2014, 510: 293?298.
[3] 熊濤.基于EMD的時間序列預測混合建模技術及其應用研究[D].武漢:華中科技大學,2014.
[4] 王萍,王迪,馮偉.基于流形正則化的在線半監督極限學習機[J].上海交通大學學報,2015,49(8):1153?1158.
[5] BAI Z, HUANG G B, WANG D, et al. Sparse extreme lear?ning machine for classification [J]. IEEE transactions on cybernetics, 2014, 44(10): 1858?1870.
[6] ROCHA A M, COSTA M F, FERNANDES E M. A filter?based artificial fish swarm algorithm for constrained global optimization: theoretical and practical issues [J]. Journal of global optimization, 2014, 60(2): 239?263.
[7] OLIVA D, CUEVAS E, PAJARES G. Parameter identification of solar cells using artificial bee colony optimization [J]. Energy, 2014, 72(7): 93?102.
[8] LI Y, RYU D, WESTERN A W, et al. An integrated error parameter estimation and lag?aware data assimilation scheme for real?time flood forecasting [J]. Journal of hydrology, 2014, 519: 2722?2736.