王雪松,趙躍龍
1.佛山職業技術學院電子信息系,廣東佛山528137
2.華南理工大學計算機科學與工程學院,廣州510640
近年來,互聯網始終處于一種高速發展的態勢,相對于10年前網絡,目前網絡覆蓋面更廣,用戶數量更龐大,應用范圍更寬,這些變化給人們帶來了方便的同時,也給網絡管理帶來巨大挑戰[1]。網絡流量預測可以發現網絡流量異常,有利于更好地管理網絡,受到網絡研究工作者關注[2]。
傳統網絡流量預測方法主要有自回歸法(AR)、自回歸移動平均(ARMA)等線性預測技術,尤其是ARMA模型融合了回歸分析和時間序列分析功能,在網絡流量預測中取得了不錯效果[3-4]。隨著網絡流量研究的不斷深入,研究者們發現網絡流量不僅具有線性變化特性,同時具有隨機、混沌性和突變性等非線性變化特性,而傳統方法無法描述網絡流量的非線性變化特性,應用范圍受限[5]。隨著非線性理論發展,出現了基于神經網絡、支持向量機、相關向量機等網絡流量預測模型,并且獲得了較理想的預測效果[6-9]。傳統神經網絡在訓練樣本數量大的條件下,才可以獲得較高的網絡流量預測精度,當訓練樣本有限時,預測結果存在過擬合現象;支持向量機、相關向量機雖然泛化能力優異,但是存在訓練耗時長,效率低,不能滿足網絡流量在線的要求[10-11]。正則化回聲狀態網絡模型(Regularized Echo State Network,RESN)是一種新型的神經網絡,不僅克服了傳統神經網絡過擬合的缺陷,同時解決了支持向量機等訓練效率低的缺陷,在網絡流量預測中得了廣泛的應用[12]。但是大量研究表明,RESN雖然可以獲得較好的非線性網絡流量預測結果,但是實際網絡流量受到多種因素綜合影響,不僅存在非線性變化特性,同時存在線性變化特性,這樣RESN難以對線性變化特性準確刻畫。因此對于復雜多變的網絡流量,單一的RESN或ARMA均難以建立準確的預測模型,預測精度有待進一步提高。
針對ARMA和RESN存在的不足,為了獲得更加理想的網絡流量預測結果,提出一種基于ARMA-RESN的網絡流量預測模型(ARMA-RESN)。首先利用ARMA強大的線性擬合能力,對網絡流量進行建模,得到線性變化預測結果,然后采用非線性捕捉能力優異的RESN對網絡流量非線性變化特性進行預測,對兩者預測值進行融合得到網絡流量的最終預測結果,并采用具體網絡流量數據進行仿真實驗,以驗證ARMA-RESN的可行性和優越性。
ARMA是一種線性預測能力優異的時間序列模型,其由AR和移動平均(MA)兩部分組成,描述當前時刻預測值同時與以前時刻自身值和誤差擾動直接相關。當AR=0時,ARMA模型變化為MA(q)模型,MA=0時,ARMA模型變為AR(p)模型[13]。AR(p)模型為:

式中,ε(t)表示誤差;v和φi(i=1,2,…,p)為待估計的參數。
如果ε(t)自相關,那么MA(q)模型可以表示為:

式中,Θj(j=1,2,…,q)為待估計的參數;a(t)是零均值白噪聲。
綜合上述可知,ARMA(p,q)模型為:

如果階數n比較大,那么AR(n)模型可以近似等價為ARMA(p,q),則有:

式中,an(t)表示階數為n時的誤差項。
根據式(5)可以得到an(t)的估計值:

根據式an(t)可以建立ARMA(p,q)模型:

通過采用AIC準則確定ARMA模型的參數n、p和q,即:

RESN是一種由輸入層、內部儲備池和輸出層組成的非線性遞歸神經網絡,儲備池起到存儲歷史信息的作用,是RESN的核心部分,保證了網絡的回聲性質。RESN狀態方程為:

式中,sigmoid為激活函數;Win和Wx分別為輸入和儲備池內部的連接矩陣;u(t)、x(t)分別表示t時刻的輸入向量和儲備池內部狀態向量。
那么RESN的輸出方程為:

式中,y(t)為t時刻的輸出向量;Wout為輸出連接向量,是惟一需要通過訓練進行求解的參數。
輸出權值對RESN性能起著關鍵作用,常采用最小二乘法進行求解,目標函數的最小化形式為:

式中,X=[x(1),x(2),…,x(l)]T,Y=[y(1),y(2),…,y(l)]T,X∈Rl×N,N為儲備池節點數;l為訓練樣本數。
對于大規模網絡流量數據,訓練樣本數常大于儲備池節點數,那么,根據式(10)得到解:

設狀態矩陣X的奇異值分解為:

式中,U=(u1,u2,…,ul)和V=(v1,v2,…,vl)是酉陣,對角矩陣Σ=diag(σ1,…,σr,σr+1,…,σN)。
如果X的秩為r,那么奇異值為:

X+可以描述為:

有

對于實際采集的網絡流量數據常含有擾動信號ep,則目標值變為=Y+ep,輸出權值計算公式變為:

根據式(16)可知,奇異值大小與輸出權值幅值是一種反比例關系,如果奇異值過小,那么RESN模型就會得到病態解,ep對過大,網絡泛化性能就越差。為解決該難題,在目標函數中增加正則項,并將嶺回歸方法應用于RESN模型的儲備池網絡中,以提高泛化能力,那么有:值產生不利影響。

式中,u∈R+表示正則項系數。
其與最小化代價函數等價:

由于施加正則項,防止σi過小現象的發生,使輸出權值幅值減小,對模型誤差項和復雜度進行較好的平衡,使RESN模型具有更優的泛化能力。
RESN可以對非線性函數輸入、輸出映射的關系進行較好擬合,然而網絡流量受到多種因素影響,實際收集的網絡流量數據一般包括非線性和線性特性,因此RESN對于網絡流量的線性性能不能較好刻畫,難以得到滿意的網絡流量預測效果。鑒于以上分析,提出一種ARMA-RESN的網絡流量預測模型(ARMA-RESN),采用ARMA和RESN分別對網絡流量線性和非線性特性進行建模與預測,以刻畫網絡流量的動力學變化特性,以提高預測精度。ARMA-RESN的網絡流量預測模型工作流程如圖1所示。

圖1 網絡流量的工作流程圖
為驗證ARMA-RESN網絡流量預測模型的有效性,數據源于標準流量文庫:http://netnew s.nctu.edu.tw/~new s/innreport/的每小時網絡訪問流量作為仿真對象,共獲得3 000個數據,具體如圖2所示。選擇前2 500個數據作為訓練集,建立網絡流量預測模型,其余500個樣本作為測試集對模型性能進行檢驗。

圖2 標準文庫的網絡流量數據
同時為了測試ARMA-RESN的魯棒性,采用含有噪聲的網絡流量進行對比仿真實驗,具體如圖3所示,其中前800個數據作為訓練集,其余200個數據作為測試。所有仿真實驗環境均為W indow s XP操作系統,Intel?CoreTMi3-2120 2.8 GHz CPU,4 GB RAM,采用VC++編程實現。

圖3 含噪的網絡流量數據
ARMA對圖2的網絡流量的預測結果及預測誤差如圖4和5所示,對含噪的網絡流量的預測結果及預測誤差如圖6和7所示。從圖4~7可知,ARMA可以較好地對網絡流量的線性變化規律進行描述,但是預測結果誤差比較大,尤其對于含噪網絡流量數據,預測誤差大幅度增加,預測結果極不穩定。這表明ARMA不能對非線性、隨機變化特點進行準確描述,難以建立預測精度高的網絡流量預測模型,應用范圍受限。

圖4 ARMA的標準網絡流量預測結果

圖5 ARMA的標準網絡流量預測誤差

圖6 RESN的含噪網絡流量預測結果

圖7 RESN的含噪網絡流量預測誤差

圖8 標準網絡流量的延遲時間計算

圖9 標準網絡流量的嵌入維數計算

圖10 含噪網絡流量的延遲時間計算

圖11 含噪網絡流量的嵌入維數計算
計算網絡流量真實值與ARMA的預測結果之間的誤差,得到殘差序列,然后采用相關系數法和關聯維法分別確定殘差序列的延遲時間和嵌入維數,分別如圖8~圖11所示。從圖8~圖11可知,對于標準網絡流量數據,最優延遲時間τ=3,m=5。對于含噪網絡流量數據,最優延遲時間τ=6,m=3。
采用τ=3,m=5對標準網絡流量數據進行重構,τ=6,m=3對含噪網絡流量數據進行重構,建立相應的RESN網絡流量預測模型,它們的預測結果分別如圖12和圖13所示。從圖12和圖13可知,RESN模型可以對網絡流量的非線性變化特征進行準確刻畫,預測十分理想。然后將ARMA和RESN的預測結果進行融合,得到網絡流量的最終預測結果,分別如圖14和15所示。從圖14和15可知,ARMA-RESN的預測精度相當的高,網絡流量的實際值和預測值吻合得相當的好,預測誤差相當小,預測誤差變化比較平穩,網絡流量預測結果十分可靠。

圖12 RESN的標準網絡流量殘差預測結果

圖13 RESN的含噪網絡流量殘差預測結果

圖14 ARMA-RESN的標準網絡流量預測結果

圖15 ARMA-RESN的含噪網絡流量預測結果
為了使ARMA-RESN的網絡流量預測結果具有可比性,選擇ARMA、RESN、支持向量機(RVM)、RBF神經網絡(RBFNN)、文獻[14]的改進RESN模型(SVESM)和文獻[15]的改進RESN模型(ESGP)進行對比實驗。采用均方根誤差(RMSE)和平均絕對百分率誤差(MAPE)作為預測性能的評價指標,它們計算公式為:

對于網絡流量測試集,不同模型的預測誤差見表1。對表1的各模型誤差進行分析可以得到如下結論:
(1)單一ARMA模型和RESN模型的網絡流量預測誤差比較大,主要由于網絡流量受到多種因素綜合影響,具有時變性、非線性、自相似性等變化特點,單一線性或非線性模型難以建立預測精度高的網絡流量預測模型,應用范圍受限。
(2)相對于ARMA模型,改進RESN模型(ESGP、SVESM)獲得較高的預測精度,這主要是由于改進RESN模型具有更強的非線性建模能力,因此獲得比較理想的網絡流量預測結果。
(3)相對于SVM、RBFNN,ARMA-RESN的預測誤差更小,預測精度更高,這表明ARMA-RESN較好地克服了SVM、RBFNN的不足,預測結果更優。
(4)ARMA-RESN預測值與網絡流量真實值偏差最小,預測精度最高,明顯好于其他模型。主要因為實際收集的網絡流量數據含有較大隨機誤差,ARMA-RESN模型對誤差進行了補償,使預測值與網絡流量真實值之間的偏差減少,更好地描繪了網絡流量變化特性。

表1 不同模型網絡流量預測誤差比較
網絡流量受到多種因素的影響,具有混沌性、非線性和時變性等變化特點,是一個復雜的動力變化系統,傳統模型或單一模型存在預測精度低的缺陷,為了提高網絡流量預測精度,提出一種基于ARMA-RESN的網絡流量預測模型。首先分別采用自回歸移動平均和回聲狀態網絡對網絡流量線性變化特征和非線性變化特性進行建模與預測,然后對自回歸移動平均和回聲狀態網絡的預測結果進行融合,得到網絡流量最終預測結果,最后采用多個網絡流量數據以及多個對比模型進行了仿真對比實驗。仿真結果表明,相對于其他網絡流量預測模型,ARMA-RESN不僅提高了網絡流量的預測精度,而且具有更好的魯棒性。
[1]王升輝,裘正定.結合多重分形的網絡流量非線性預測[J].通信學報,2007,28(2):45-57.
[2]王兆霞,孫雨耕,陳增強,等.基于模糊神經網絡的網絡業務流量預測研究[J].通信學報,2005,26(3):136-140.
[3]Yu G Q,Zhang C S.Switching ARIMA model based forecasting for traffic flow[C]//Proceedings of ICASSP,2004,2:429-432.
[4]姜明,吳春明,胡大民.網絡流量預測中的時間序列模型比較研究[J].電子學報,2009,37(11):2353-2359.
[5]黨小超,郝占軍.季節周期性Elman網絡的網絡流量分析與應用[J].計算機工程與應用,2010,46(28):98-101.
[6]孟慶芳,陳月輝,馮志全,等.基于局域相關向量機回歸模型的小尺度網絡流量的非線性預測[J].物理學報,2013,62(13):1-7.
[7]Wang J S,Gao Z W.Network traffic modeling and prediction based on RBF neural network[J].Computer Engineering and Applications,2008,44(13):6-11.
[8]黃悅.改進型Elman網絡用于網絡流量預測[J].計算機工程與應用,2010,46(24):121-123.
[9]傅秀文,鄭明春.基于改進的BP神經網絡的Overlay網絡流量預測[J].計算機工程與應用,2012,48(12):83-87.
[10]馮華麗,劉淵,陳冬.QPSO算法優化BP網絡的網絡流量預測[J].計算機工程與應用,2012,48(3):102-104.
[11]黨小超,郝占軍.基于改進Elman神經網絡的網絡流量預測[J].計算機應用,2010,30(10):2648-2652.
[12]宋彤,李菡.小波回聲狀態網絡的混沌時間序列預測[J].物理學報,2012,61(8):1-7.
[13]許培,陳其工,葛愿,等.基于ARMA模型的NCS前向時延預測研究[J].計算機工程與應用,2013,49(20):91-95.
[14]彭宇,王建民,彭喜元.基于回聲狀態網絡的時間序列預測方法研究[J].電子學報,2010,21(8):1609-1617.
[15]王建民,彭宇,彭喜元,等.基于擴展卡爾曼濾波的回聲狀態網絡在線訓練算法[J].儀器儀表學報,2011,32(7):1514-1520.