任君明
(中國移動通信集團廣東有限公司江門分公司,江門 529000)
隨著4G網絡的快速發展,移動通信業務的形態、結構和客戶行為逐步發生轉變,如何基于歷史話務數據對未來業務量進行準確預測,并以此指導網絡投資規劃、建設運營和市場營銷,這是目前運營商無線網絡規劃工作的一個重要研究課題。通過數據挖掘技術,建立科學的預測模型,能為話務預測帶來更高的精度,相比傳統粗放的曲線擬合、趨勢外推等預測方法更精準化,對運營商網絡精準規劃和市場精確營銷具有重要指導意義。
話務預測是依據話務量歷史數據和現有信息,建立恰當的數學模型對未來的話務量進行預測。話務預測按時間周期可分為短期、中期和長期預測;按業務類型可分為話音業務話務量預測和數據業務流量預測。話務預測流程包括數據收集、數據預處理、預測模型建立、預測誤差分析等步驟。
數據挖掘(Data Mining)是數據庫中的知識發現(Knowledge Discover in Database),基于大數據分析挖掘,從海量數據中揭示出隱含的有潛在價值的信息。數據挖掘通過遺傳算法、決策樹方法、模糊集方法和神經網絡方法等,實現關聯分析、偏差檢測、聚類分析和趨勢及行為預測等功能。數據挖掘的基本過程主要有數據篩選、數據預處理、數據挖掘、數據分析與同化等步驟。
本文使用的主要建模工具:一是SPSS Statistics 19.0,用于話務統計數據的預處理,以及回歸分析模型、ARIMA時間序列模型的建模和分析;二是MATLAB 7.0,用于BP神經網絡模型的建模和分析。
本文選取某市2010~2013年每月晚忙時月均話務量統計數據,通過對2010~2012年話務量進行數據挖掘,分別建立回歸分析預測模型、BP神經網絡預測模型以及ARIMA時間序列預測模型等3種預測模型,并以2013年的實際話務數據作為測試驗證,探析3種模型預測數據與實際話務數據之間的誤差。本文采用的主要原始數據如表1所示。

表1 某市2010~2013年月均晚忙時話務量數據表(單位:Erl)
回歸分析預測法是在分析自變量和因變量相關關系的基礎上,建立變量之間的回歸方程,并將回歸方程作為預測模型,根據自變量在預測期的數量變化來預測因變量。
使用SPSS Statistics軟件的回歸分析模塊,對2010年1月至2012年12月的月均忙時話務量數據進行回歸分析,從話務量分布圖來看,話務數據的變化趨勢并非呈線性變化,而是出現多個不同拐點,故選擇SPSS的“曲線估計”功能建立非線性回歸分析預測模型,將話務量作為因變量,將日期序列作為自變量。通過對比分析,采用指數函數曲線擬合度較高,對2013年1~12月的話務量變化趨勢進行預測,得出指數回歸分析預測模型:
y=60049.571e0.008x
對回歸方程進行相關性檢驗:回歸方程的方差分析表明,F=121.326,顯著水平為0.000,相關系數R2為0.771,該模型具有一定的擬合程度。
BP(Back Propagation)神經網絡屬于多層前饋網絡,以誤差逆傳播算法進行訓練,學習和存儲“輸入-輸出”模式映射關系,采用最快速下降法,通過反向傳播調整網絡權值,使誤差最小。BP神經網絡模型包含輸入層、隱含層和輸出層。本研究應用MATLAB編寫代碼,對BP神經網絡預測模型進行建模和仿真。
1.2.1 BP模型核心算法
(1)采用2010、2011年月均話務量為訓練集輸入數據,2012年月均話務量為訓練集輸出數據。
(2)使用newff()函數創建BP神經網絡,隱含層設置17個神經元,輸出層為1個神經元,隱含層的傳輸函數為tansig,輸出層的傳輸函數為purelin,訓練函數為traingdx,使用帶有動量項的自適應學習算法,網絡的權值學習函數為learngdm。相關核心代碼:net=newff(minmax(P),[17,1], {'tansig','purelin'},'traingdx','le arngdm')
(3)調用train()函數進行訓練。
(4)將2011、2012年月均話務數據用作測試集。
(5)使用sim()函數對2013年月均話務量進行仿真預測,輸出結果。
1.2.2 預測結果分析
通過建立BP神經網絡模型并進行仿真預測,在進行201次迭代后,學習精度MSE就達到了0.004 814 2,達到低于0.005的目標,學習速度較快。BP神經網絡模型對歷史話務數據、預測數據具有較好的擬合度,預測結果與實際值偏差不大,本模型中平均絕對百分誤差MAPE為2.99%,控制在5%以下,對于中短期話務預測,該預測模型和預測結果可用。
ARIMA模型為自回歸求和移動平均模型(Autoregressive Integrated Moving Average Model),用數學模型描述預測對象隨時間產生的數據序列的變化規律和行為,模型考慮季節變動、隨機波動、趨勢變動和循環變動等綜合因素,識別后的模型能通過時間序列過去值以及現在值進行未來值的精確預測。
本研究運用SPSS Statistics建立ARIMA預測模型,應用“時間序列建模器”,設置因變量為“話務量”,選擇模型為“ARIMA模型”并考慮“季節”因素,將評估日期設置為2013年12個月,設定預測值變量為“P_預測值”,選擇要顯示的R方擬合度量和統計量等圖表,建立ARIMA模型:ARIMA(0,0,0)(1,1,0)。MAPE為1.71%,對2013年各月份話務量的預測誤差如表2所示。ARIMA時間序列預測模型對歷史話務數據具有非常好的擬合度,預測結果與實際值誤差小,預測精度高,對于中短期話務預測,該預測模型和預測結果可用。

表2 ARIMA模型預測誤差對比表
1.4.1 誤差對比
3種模型預測值與實際值的對比如圖1所示,預測誤差MAPE對比如表3所示,由此可見,回歸分析模型平均絕對百分誤差MAPE最大,達到3.33%;BP神經網絡模型預測誤差次之,為2.99%;ARIMA時間序列模型預測誤差最小,僅為1.71%,ARIMA模型擬合度和預測精度在3種預測模型中最高。
1.4.2 適用場景
在話務量預測精度要求不高的場景,回歸分析預測模型方便快捷,但其考慮的因素不夠全面細致,雖能一定程度擬合歷史數據并對未來數據做出預測,但誤差相對較大,不適用于預測精度要求較高的場景。
BP神經網絡模型預測精度比回歸分析模型高一些,但BP模型也存在不足,對于隱含層神經元數量的設置,需多次對比試驗才能確定較合適值,并且傳輸函數、訓練函數及相關參數的選取也需反復試驗對比,另外BP模型由于其固有特性,每次仿真運算后的預測結果都不盡相同,增加了研究難度和工作量。
相比之下,ARIMA時間序列預測模型在這3種模型中預測誤差最小,對于預測精度要求較高的場景最合適。ARIMA模型對歷史數據具有很高的擬合度,特別能精確反映數據變化的拐點和波動,并且模型還考慮了季節等因素,具有很高的預測精度,在移動通信行業話務量預測領域,具有較顯著的優勢,值得進一步推廣應用。

表3 3種模型預測誤差MAPE對比表

圖1 3種模型預測值與實際值對比圖
將話務預測模型實現信息化、自動化,能為話務預測管理工作帶來質的飛躍。智能話務預測管理平臺面向運營商網絡運營、市場運營,以及網絡規劃、分析和優化人員,提供網絡規劃管理、話務預測管理和市場營銷管理支撐等功能。系統從整體分成3層:數據倉庫、業務邏輯層和應用層。基于數據挖掘技術的智能話務預測管理平臺系統架構如圖2所示。

圖2 智能話務預測管理平臺系統架構圖
本文主要結合數據挖掘技術,建立了回歸分析預測模型、ARIMA時間序列預測模型和BP神經網絡預測模型,通過對比發現ARIMA時間序列模型的平均預測誤差最小,預測精度最高,值得運營商在話務預測工作中推廣應用。隨著移動互聯網以及4G業務的不斷豐富,話務量已不單單局限于傳統話音通話產生的業務量,手機上網等數據業務流量所占比重已日益加大,本研究提出的3種話務預測模型,同樣適用于數據業務流量的預測。本文還提出了基于數據挖掘技術的智能話務預測管理平臺架構設想,為提升話務預測管理工作的高精度化、自動化、智能化和信息化提供了有價值的參考。