盛 虎,張玉雪
(大連交通大學電氣信息工程學院,遼寧 大連 116028)
網絡流量的實時分析對于網絡流量監控、網絡資源優化、網絡擁塞避免和網絡安全策略具有重要的意義[1-2]?;诰W絡流量時間序列的建模分析是進行網絡流量數據研究的一種主要方法,已經廣泛應用于網絡流量預測和網絡性能評價。研究人員可以通過建立準確的流量模型描述網絡流量特性,從而優化網絡拓撲結構、完善網絡協議,提供可靠的服務質量保障。
傳統的網絡流量模型是在平穩隨機過程假設的前提下,線性差分方程基礎上建立的滑動平均自回歸(Auto-Regressive and Moving Average Model,ARMA)模型[3-4]。網絡流量ARMA模型可以有效分析短時間內流量穩定的網絡數據,但對于存在網絡異常的長時間網絡流量數據卻并不適合,其主要原因在于ARMA模型建立的前提是被分析數據是平穩隨機過程。現實的網絡流量數據大部分是非平穩的,但經過有限次差分后可以轉化為平穩數據,因此在研究過程中學者提出了回歸積分滑動平均(ARIMA)模型[5],廣義自回歸條件異方差(Generalized AutoRegressive Conditional Heteroskedasticity,GARCH)模型等。其中ARIMA模型因為其實現簡單,可以描述網絡流量數據的非平穩特性而被廣泛采用。
前期研究的網絡流量ARIMA模型的被分析數據大多采用小范圍的局域網,且預測結果的數據點較少,其分析結果不具有代表性。因此本文被分析數據采用貝爾實驗室提供的BC-Oct89Ext實測流量數據,流量數據是在貝爾Morristown研究中檢測的以太網數據,包含一百萬個數據包,數據具有充分的代表性。本文采用ARIMA(0,2,2)模型對BC-Oct89Ext實測流量數據進行建模并對流量數據進行了48個數據點的預測。根據分析結果,ARIMA模型可以有效描述部分非平穩網絡流量數據,且預測結果與真實流量數據十分接近,建模結果和預測方法可以廣泛應用于網絡流量監控、網絡資源優化和網絡擁塞避免研究。
ARIMA模型[5]全稱為自回歸積分滑動平均模型(Autoregressive Integrated Moving Average Model),是由Box和Jenkins于70年代初提出的著名時間序列預測方法,所以又稱為box-jenkins模型。ARIMA(p,d,q)模型中p為自回歸階數,q為移動平均階數,d為是序列平穩時所做的差分次數。模型的表達式為:

其中,B為滯后算子:

ARIMA模型是基于有限次差分后為穩定的時間序列,AR、MA、ARMA模型可以看成是ARIMA的某種特殊形式。
本研究選取貝爾實驗室提供的BC-Oct89Ext實測流量數據。流量數據是在貝爾Morristown研究中檢測的以太網數據,包含一百萬個數據包。本文選取了BC-Oct89Ext流量數據的部分數據段進行建模分析。圖1給出了BC-Oct89Ext實測流量數據中的10 000個數據包,流量數據額持續時間為1 752.26 s。
ARIMA建模首先需要判斷被分析數據的平穩性,對于非平穩序列采取差分運算去掉其趨勢或周期性,然后確定數據的自回歸參數p和滑動平均參數q,得到數據的ARIMA模型,具體的建模及預測流程為:
(1)采用Dickey-Fuller Test方法檢測被分析數據的平穩性;
(2)如果被分析數據是非平穩序列,則要先進行d階差分運算,將其轉化為平穩序列;

圖1 BC-Oct89Ext流量數據
(3)對d階差分后的平穩時間序列分別求得其自相關系數ACF(Auto Correlation Function)和偏自相關系數PACF(Partial Autocorrelation Coefficient Pacf),通過對自相關圖和偏自相關圖的分析,得到最佳的階數p和階數q;
(4)根據分析得到的參數d,p和q建立ARIMA模型,并對模型進行模型檢驗;
(5)利用已通過檢驗的模型進行預測分析。
ARIMA的建模及預測流程如圖2所示。

圖2 ARIMA建模流程
本研究對圖1所示部分BC-Oct89Ext流量數據建立ARIMA模型。根據2.2節給出的建模流程,首先應用Augment Dickey-Fuller test(ADF)方法檢測數據的平穩性,如果數據為非平穩則對數據進行差分,根據差分次數確定模型參數d的數值,根據分析d=2。
為了估計參數p和q的數值,首先對得到的平穩時間序列分別求得其自相關系數ACF和偏自相關系數PACF。圖3給出網絡流量數據差分后的ACF的前40個數據點,ACF明顯具有截尾性。圖4給出差分后數據的PACF的前12個數據點,從圖中可以看出報頭捕獲數據塊(Preamble Acquisition Chunk,PAC)具有拖尾性。根據BC-Oct89Ext流量差分數據的ACF和PACF可以推斷出數據可以用滑動平均模型(Moving Average Model,MA模型)描述,且可以初步判斷出差分后數據模型參數p=0,q=2。

圖3 差分序列自相關函數

圖4 差分序列偏相關函數
按照以上參數估計結果可以初步建立模型為ARIMA(0,2,2)。為了驗證模型參數的有效性,本研究采用最小二乘法估計法計算10階以內的AIC(Akaike Information Criterion)信息準則的數值,結果如表1所示。應用AIC準則為模型定階,取AIC值為最小值的階次,由上表可知階次為2時,AIC值為11 091.480 7,符合最小條件,因此判斷模型階次為2。

表1 ARIMA(0,2,2)模型AIC值
根據已經建好的ARIMA(0,2,2)模型,得到樣本逼近曲線如圖5所示,其中“*”為模型逼近曲線數據點。從圖5中可以看出樣本逼近曲線與BC-Oct89Ext網絡流量數據基本吻合,證明了模型的正確性。

圖5 模型樣本逼近預測曲線
最后,對殘差序列進行分析檢驗,殘差序列符合白噪聲序列的特性,其自相關系數為-0.110 6。經過AIC信息準則測試,樣本逼近曲線和殘差序列分析,本研究建立的ARIMA(0,2,2)模型可以準備描述BC-Oct89Ext網絡流量數據。
本研究選取圖1給出的BC-Oct89Ext實測流量數據中最后48個數據點進行預測。應用2.4節驗證的ARIMA(0,2,2)模型對BC-Oct89Ext流量數據進行預測分析。圖6給出了BC-Oct89Ext流量數據最后48個數據點的預測結果,其中“+”號為實際的流量數據,“*”號為ARIMA(0,2,2)模型的預測結果。從圖6可以看出,預測結果與真實的流量數據十分接近,證明模型的可靠性。為了量化分析預測效果,對預測平均絕對誤差進行了計算,48個數據點的預測平均絕對誤差為5.171 4,預測誤差較小可以對網絡流量的趨勢進行有效預測。

圖6 ARIMA模型48步預測結果
本文對貝爾實驗室提供的BC-Oct89Ext實測流量數據進行分析并建立ARIMA(0,2,2)模型,應用ARIMA模型實現網絡流量數據預測。實驗結果表明ARIMA模型可以較好描述實際網絡流量數據并可用于實際網絡流量預測。ARIMA模型對于有限次差分后平穩的非平穩網絡數據建模效果好,且預測誤差較小。本文研究結果可以應用于網絡資源優化和網絡擁塞避免,對網絡業務規劃、故障檢測、資源調配等操作也具有一定借鑒意義。在后續研究中將對具有自相似特性的網絡流量數據進行建模研究,建立更加穩定可靠的數學模型。