鄭曉亮 陳華亮 來文豪
1(安徽理工大學電氣與信息工程學院 安徽 淮南 232001) 2(安徽理工大學采動響應與災害防控國家重點實驗室 安徽 淮南 232001)
隨著4G技術和網絡的大范圍普及,移動網絡流量的增長愈發迅速,人們對于網絡流量的需求也持續增長,網上購物、手機支付、移動短視頻等新行業隨著網絡的發展不斷出現,未來在5G技術、物聯網的普及下,數據流量將持續增長,將給移動網絡帶來新的挑戰。
人流多變地區的潮汐效應[1-3]一直是運營商在規劃網絡時需要考慮的問題之一,但由于網絡資源配置通常是靜態配置的[4],面對潮汐效應的坡峰、谷底時期,網絡資源配置過多將會造成帶寬資源浪費,過少將導致網絡擁塞,影響用戶體驗。對于網絡流量的預測將是解決這類問題的關鍵點。
網絡流量具有復雜性、不確定性、高度非線性關系。為了準確地預測網絡流量,國內外許多研究者進行了大量關于網絡流量預測方法的研究。Feng等[5]分別利用ARIMA、FARIMA、ANN和基于小波的預測器來預測網絡流量,并比較了它們的計算復雜性和預測準確性。Adeleke[6]使用回聲狀態網絡(ESN)預測網絡流量,利用這種儲存學習算法較好地預測了網絡流量。Alarcon-Aquino等[7]提出了一種基于最大重疊離散小波變換(MODWT)的基于神經網絡的多分辨率有限沖激響應(FIR)學習算法,并將它應用在預測上面。在預測方法方面分為線性與非線性兩種。線性模型有自回歸滑動平均模型(ARMA)、自回歸(AR)[8-10]等。非線性模型有小波神經網絡[1-12]、極限學習機(ELM)[13-16]、人工神經網絡(ANN)[17-18]、支持向量回歸(SVR)等。SVR由于結構風險最小化原理具有較好的泛化能力,使得它在預測問題中發揮著重要的作用。文獻[19]將SVR用于期權價格的預測,明顯提高了預測的精度。文獻[20]將SVR用于城市供水管網余氯預測,并與人工神經網絡作比較,結果表明,SVR相較于人工神經網絡具有較好的預測性能。文獻[21]利用對GDP增長速率的預測中,對比SVR與自回歸模型,研究結果表明,SVR更適合用于GDP增長速率的預測。此外,SVR還被用于電力負荷預測[22]、短期客流量預測[23]、煤層瓦斯含量預測[24-28]、毒性預測[29]等方面,證明了SVR優秀的預測性能。此外,已有文章將SVR用于網絡流量預測,例如文獻[30]就利用基于主成分分析的SVR進行了網絡流量的預測,并取得了不錯的效果,文獻[31]將全局人工魚群算法(GAFSA)優化SVR,提高SVR預測的精度。
本文將SVR用于移動網絡流量預測,并對原有的手動參數尋優作出改進,將PSO、DE-GWO、CS用于SVR的參數尋優,找出一種最佳的優化方案,改變傳統SVR手動尋優耗時費力的情況。
支持向量回歸(Support Vector Regression,SVR)是支持向量機(Support Vector Machines,SVM)的一個重要的分支。SVM是由Vapnik首先提出的,主要思想是建立一個分類超平面作為決策曲面,使得正例和反例之間的間隔邊緣被最大化,可以用于模式分類和非線性回歸。
SVM一般用于解決分類問題,基本思想是找到具有最大間隔的超平面,將訓練樣本的不同類別分開。其數學問題表示為:
(1)
s.t.yi(wTxi+b)≥1 ?i=1,2,…,m
式中:w為決定超平面方向的法向量;b為超平面到原點的位移量;m為樣本總量;b為訓練樣本;xi為輸入;yi為輸出。
SVR則是用于回歸問題,基本思想是找到一個回歸平面,讓所有的D到該平面的距離最近,其數學問題表示為:
(2)
式中:C為正則化常數;lε為損失函數;f(x)為回歸平面方程:f(x)=wTx+b;x為輸入。
為了降低噪聲的影響,引入松弛變量ξ,則式(2)可改寫成:
(3)
式中:C為常數;ε為損失變量。對于這種有約束條件的優化問題,可以用拉格朗日乘子法來得到其“對偶問題”。對于式(3)的每條約束添加拉格朗日乘子 ,得到其對偶問題為式(4)。
(4)
式中:α是拉格朗日算子。
以上是基于線性可分情況考慮,但實際中的數據大都不是線性可分的,對這種問題,可以通過引入核函數將原來的樣本映射到一個更高維的特征空間,引入核函數如下:
k(xi,x)=Φ(xi)TΦ(xj)
(5)
式中:Φ(·)為從低維空間到高維空間的映射函數,也被稱為核函數。則SVR的對偶問題表示為:
(6)
式中:參數v用來控制支持向量的數目以及訓練誤差。
常見的核函數主要有:
線性核函數:k(x,y)=xTy+c
Sigmoid:k(x,y)=tanh(γxTy+r)
這里的c、δ、γ、r均為核函數參數。
對于SVR預測模型來說,選擇合適的參數c(懲罰因子)和g(核函數參數)很重要,圖1是同一樣本數據下,不同的c和g參數的預測效果。

(a) c=0.01,g=0.01原始數據和回歸預測數據對比

(b) c=0.01,g=0.01原始數據和回歸預測數據對比

(c) c=0.01,g=0.01原始數據和回歸預測數據對比

(d) c=0.01,g=0.01原始數據和回歸預測數據對比圖1 不同c和g參數預測效果
可以看出,c和g參數選擇對于SVR的預測性能的影響還是較大的,一般的SVR的c和g參數的選擇方法是人工擇優方法,煩瑣耗時,且可信性不強。由于一種優化算法不可能適用于所有優化問題,所以本文使用三個優化程序PSO、CS、DE-GWO來優化SVR的參數選擇過程。PSO具有搜索速度快、結構簡單等優勢,但需要參數多;CS具有參數少、操作簡單、易實現、隨機搜索路徑優和尋優能力強等特點,但PSO與CS都易陷入局部最優;利用DE算法的變異過程來增加狼群的多樣性,減少GWO陷入局部最優的概率,DE-GWO具有收斂性強、易實現、不易陷入局部最優的特點。我們選擇三種不同特點的算法來優化SVR,找出最適合的一種。
PSO是Kennedy等提出的一種全局搜索算法,源于模擬鳥群覓食過程中的遷徙和群聚行為,基本思想是:通過群體中個體之間的協作和信息共享來尋找最優解,算法的基本流程如圖2所示。

圖2 PSO流程
CS是2009年由Yang等提出的啟發式算法,源于布谷鳥的Levy飛行和卵寄生行為,基本思想是布谷鳥通過隨機飛行找到最優的鳥巢來孵化鳥蛋。其算法流程如圖3所示。

圖3 CS流程
GWO是2014年由Mirjalili等提出的智能優化算法,源于自然界狼群的群體狩獵捕食行為,主要思想是通過模仿狼群跟蹤、包圍、追捕、攻擊獵物的過程來完成尋優過程。DE是由Storm等提出的全局搜索算法,源于生物的進化機制,主要思想是通過變異、交叉、選擇來得到最優解;其算法流程如圖4所示。

圖4 DE-GWO流程
優化算法的主要方法為:將SVR的MSE(均方誤差)作為三個優化算法的適應度函數,通過優化算法找到SVR的最佳參數c和g,代入SVR預測模型中,可以得到較好的預測結果,基本流程如圖5所示。

圖5 優化算法流程
本文中的評價機制為SVR算法的均方誤差MSE和平方相關系數r2,公式為:
(7)
(8)

實驗用原始數據采集于淮南市吾悅廣場,由安徽省移動淮南分公司提供,采集時間為2019年1月1日至5月15日,數據采集粒度為15分鐘,如圖6所示。

圖6 15分鐘粒度流量走勢
將15分鐘粒度數據轉化為如圖7所示的日粒度數據,可見流量峰值出現在5月1日,為299.86 GB。因為5月1日為勞動節,人流量最大,這樣突發的高負荷流量將給基站帶來極大的壓力,對人流突變場景的流量預測可以幫助運營商做好資源調度和安全保障,保證用戶有良好的使用體驗。

圖7 日粒度流量走勢
對于相同算法優化參數的SVR,核函數不同,它們的預測效果也會不同,所以我們將實驗數據用基本的SVR做實驗,選出最適合當前實驗數據的核函數類型。
由表1可知,線性核函數與RBF核函數的預測時間(t)、均方誤差(MSE)和平均絕對百分誤差(MAPE)效果都比較好,而多項式函數與Sigmoid核函數的MSE與MAPE比較大,多項式函數的預測時間t更是比其他核函數大得多。所以初步選擇線性核函數與RBF核函數,接下來再進行兩者的進一步比較。

表1 不同核函數參數預測效果表線性核函數
由表2可知線性核函數與RBF核函數的MSE相差不大,但是隨著c和g的增大,RBF核函數的預測時間遠遠小于線性核函數的預測時間,對于優化的SVR預測模型,本身的優化程序耗時就應考慮在內,所以應該選擇RBF核函數,盡量減少SVR預測的時間,提高預測效率。

表2 線性和RBF核函數預測對比表
本文選擇了PSO、DE-GWO、CS三種優化算法來優化SVR的參數,參數設置如表3所示,其中:Ub為參數上限;Lb為參數下限。

表3 參數設置表
本文實驗的硬件條件是:CPU為Intel Core i5- 8300H,主頻為2.3 GHz,內存為8 GB;實驗系統為Windows 10,實驗平臺是MATLAB2018b。
為了驗證優化SVR模型的優勢,將基本的SVR算法與優化的SVR作比較。
基本的SVR算法的核函數與參數上下界的設置與優化SVR算法的相同,c和g的取值為0.01、0.1、1、10、50、100中的隨機組合,一共36種組合,每個組合獨立重復10次實驗,取平均結果,結果如表4(見附錄)所示。得到最優c=50,g=0.01,與PSO、CS、DE-GWO優化的SVR做實驗對比,結果如表5所示。

表4 基本SVR不同參數預測效果表

表5 算法預測結果對比表
可以看出,手動尋優的SVR模型煩瑣耗時,三種優化的SVR預測模型的性能均比未優化的SVR模型好,且三種優化的SVR中,DEGWO-SVR的預測性能最好,最優的c和g參數為50.702 2和0.01,MSE約是未優化的SVR的1/28,r2提高了0.050 5;DEGWO-SVR的測試集預測效果如圖8所示。

圖8 DE-GWO優化SVR預測效果
人流多變場景的移動網絡流量預測對節假日及大型活動的網絡應急保障具有重大意義。本文針對流量預測問題,提出基于參數優化SVR的流量預測模型,以淮南吾悅廣場為實驗對象,選擇RBF核函數作為主要核函數,通過PSO、CS、DE-GWO對SVR算法進行參數尋優,并與未優化的SVR做實驗對比。實驗結果表明,參數優化的SVR模型相對于未優化的SVR擁有更好的預測效果,其中DE-GWO優化的SVR預測模型得到的最優參數為54.702 2和0.01,擁有最好的預測效果。對于移動網絡流量的準確預測,既可以幫助運營商在規劃和設計網絡時做出合理的資源分配,又可以提前預知網絡流量高峰期時段,做好網絡運營,提高用戶體驗水平。本文所進行的網絡流量預測只針對手機用戶流量,未對無線及電腦端流量有所研究,后期研究將往這兩方面進行。