王柯
湖南城建職業技術學院,湖南 湘潭 411101
隨著網絡規模的急劇增加,網絡信息流量呈現指數級增加,給網絡管理帶來嚴峻挑戰,對網絡流量進行高精度預測對網絡管理和規劃具有重要的實際價值和理論意義。傳統流量預測方法主要集中在回歸分析法[1]、時間序列法[2]、神經網絡[3]和支持向量機[4]等。由于網絡數據的復雜性和不確定性,傳統的方法存在一定局限性,存在預測誤差大和預測存在滯后性的問題,針對網絡流量數據,本文將云計算和極限學習機相結合,提出一種基于云計算和極限學習機的網絡流量預測方法。研究結果表明,本文方法可以有效提高網絡流量預測的精度,為網絡流量預測提供新的方法和決策依據。
Hadoop云計算平臺是由Apache基金會開發的開源軟件工程,其由MapReduce框架和分布式文件系統組成。MapReduce是一個程序模型,可以用來在集群中處理海量數據集,適合解決分布式存儲問題、運算問題。MapReduce框架可以被抽象為兩個函數,分別為Map和Reduce函數,這兩個函數可以由用戶編寫完成。MapReduce模型的運行機制如圖1所示,具體流程如下:

圖1 MapReduce運行機制Fig.1 Operation mechanism of MapReduce
(1)Input。讀取分布式文件系統中的輸入數據,將數據切分為數據片。MapReduce框架中每一個Map函數可以分配一個數據片;
(2)Map。將數據片當作一組鍵值對,根據Map函數程序邏輯,運行、處理MapReduce框架分配的鍵值對,最后產生新的中間鍵值對;
(3)Shuffle。該階段將中間鍵值對從Map節點轉移到Reduce節點中,同時合并相同的中間鍵值對,形成中間鍵鏈和鍵值排序等工作;
(4)Reduce。執行Reduce函數;
(5)Output。輸出Reduce函數的處理結果,將結果保存在指定的分布式文件系統中。
極限學習機[5](Extreme Learning Machine,ELM)是在Moore-Penrose矩陣理論基礎上所提出的一種新型的單隱含層前饋神經網絡(Single-hidden Layer Feed-forward Neural Networks,SLFNs),其結構模型圖如圖2所示。

圖2 ELM結構模型圖Fig.2 ELM structural model
對于N個不同樣本(xi,ti),其中,隱含層神經元個數為,激勵函數為g(x)的SLFN的數學模型可表示為[6]:

其中,αi=[αi1,αi2,…,αin]T、βi=[βi1,βi2,…,βim]T和bi分別表示第i個隱含層神經元的輸入權值、輸出權值和偏置;ai·xj表示ai和xj的內積。公式(1)可表示為矩陣形式:

其中:

求解該問題是在保證期望值與實際值之間的誤差平方和E(W)最小的前提下,尋找最優的權值W=(a,b,β)使代價函數E(W)最小的過程,其數學模型為[7]:

其中,εj=[εj1,εj2,…,εjm]表示第j個樣本的誤差。
隨著網絡規模的急劇增加,網絡信息流量呈現指數級增加,給網絡管理帶來嚴峻挑戰,對網絡流量進行高精度預測對網絡管理和規劃具有重要的實際價值和理論意義。將云計算和極限學習機結合,利用MapReduce框架,將網絡流量數據進行切片處理,之后再切片處理的基礎上,利用ELM極限學習機進行分布式并行處理實現網絡流量的高精度預測。通過Map和Reduce函數實現并行化設計和計算,基于MapReduce的分布式MR-ELM的網絡流量預測過程如下:
(1)讀取云計算平臺分布式文件系統中的網絡流量數據訓練集,通過MapReduce框架的底層機制,實現網絡流量數據訓練集的分割,獲取k個不同的網絡流量數據訓練子集,其中k表示并行Map的個數;
(2)網絡流量數據的訓練子集根據Map函數的程序邏輯運行,即ELM的訓練算法邏輯,對網絡流量數據的訓練集并行訓練,也就是k個不同的ELM;
(3)將k個不同ELM網絡流量預測結果,通過MapReduce框架的Shuffle階段傳輸到Reduce階段,在此基礎上,計算不同ELM預測結果的權重確定各Map操作輸出的網絡流量預測的權重,最后確定網絡流量預測結果。
本文實驗搭建的Hadoop平臺由32個節點構成,每個節點電腦配置均為Intel(R)Core(TM)i5-24004-core,中央處理器CPU的主頻為2.60 GHz,內存8 GB,云計算平臺如圖4所示。

圖3 基于云計算和ELM的預測流程圖Fig.3 Flow chart of ELM prediction on cloud computing

圖4 云計算平臺Fig.4 Platform of cloud computing
為了驗證MR_ELM進行網絡流量預測的有效性,選擇2018年4月15日-2018年4月25日11天的流量文庫流量數據為研究對象[8,9],其中每天每間隔1 h采集一點流量數據,一共采集264組流量數據,流量數據如圖5所示。

圖5 流量數據Fig.5 Traffic data
為評價訪問流量的預測結果,選擇MAE、RMSE和nRMSE作為流量預測的評價指標[9-11]:


其中,Xi為模型的第i樣本點流量實際值,Xj為模型的第i樣本點流量預測值;為Xi的平均值;n表示樣本數量。
為了證明本文算法MR_ELM進行網絡流量預測的優越性,將其與ELM、和LSSVM進行對比,對比結果如圖6~8所示和表1所示。

圖6 對比結果Fig.6 Comparative results

圖7 絕對誤差Fig.7Absolute error

圖8 相對誤差Fig.8 Relative error

表1 不同算法結果對比Table 1 Comparative results of different algorithms
結合圖6-圖8和表1不同算法進行網絡流量預測結果可知,在RMSE、MAE和nRMSE三個評價指標上,與ELM和LSSVM相比較,MR-ELM具有更高的預測精度;其次,ELM的預測精度優于LSSVM;最后,LSSVM的預測精度最差,RMSE、MAE和nRMSE分別比MR-ELM低0.5032、0.4421和5.1042%,通過對比可知,本文提出的算法MR-ELM可以有效提高網絡流量預測的精度,效果較好,為網絡流量預測提供新的方法和途徑。
針對傳統的流量預測算法存在精度低和誤差大的缺點,提出一種基于云計算和極限學習機的網絡流量預測算法。研究結果表明,本文提出的算法MR-ELM可以有效提高網絡流量預測的精度,效果較好,為網絡流量預測提供新的方法和途徑。