韓明+彭宣+孫克雄+陳明



【摘 要】為滿足用戶4G數據業務需求,預警數據業務流失,研究了4G數據業務中的流量抑制現象及其影響因素,選取頁面顯示時長作為流量抑制現象的表征指標,并建立了預測分析模型,應用相關性和回歸分析方法研究無線網絡各因素的影響程度。結果表明,建立的多元線性回歸模型對頁面顯示時長的解釋有效,上下行覆蓋的信號強度和質量以及小區負荷因素對影響頁面顯示時長有重要影響。
【關鍵詞】LTE 流量抑制 頁面顯示時長 線性回歸
中圖分類號:TN929.5 文獻標志碼:A 文章編號:1006-1010(2017)19-0015-06
Research on Data Traffic Suppression Model Using Linear Regression
HAN Ming1, PENG Xuan2, SUN Kexiong1, CHEN Ming3
[Abstract] In order to meet the users requirement of 4G data traffic and warn the loss of data traffic, the traffic suppression and influencing factors in 4G data service were investigated. The page display duration is used as the indicator of traffic suppression. The prediction and analysis model was built. The correlation and linear regression analysis method were used to study the impact of different wireless network factors. Results demonstrate the multiple linear regression model can effectively interpret the page display duration. Besides, both the uplink and downlink signal strength and quality and the cell load have the significant impact on the page display duration.
[Key words]LTE traffic suppression page display duration linear regression
1 引言
隨著4G LTE技術發展以及運營商對終端用戶消費習慣的引領,移動數據業務收入占比越來越高,據2016年底統計,無線數據業務已成中國移動第一大收入來源[1],其運營情況越來越得到重視。但在實際的無線數據運營過程中,由于多種原因的影響,部分數據業務不能得到及時有效的釋放,會造成資源承載效率降低、數據業務流失、客戶感知下降等問題。
為了充分釋放用戶數據業務需求,預警數據業務的流失,本文提出流量抑制的概念并選取了其表征指標,建立了基于網絡KPI的多元線性回歸模型。線性回歸作為一種回歸預測方法在各行各業有著廣泛的應用,可將定性問題定量化,確定各特征對結果的影響程度,用于指導工作實踐。
2 流量抑制及模型構建
2.1 流量抑制現象的產生
在無線數據業務中,由于各種網絡原因導致部分數據業務不能及時有效地釋放,造成數據業務流失及用戶體驗降低的情況稱為流量抑制。比如下載速率低而導致用戶頁面瀏覽減少,或者是音質差畫面卡頓等因素導致用戶放棄使用即時通信、視頻瀏覽等。
根據LTE用戶數據業務模型統計,基于HTTP協議的Web業務類型占據主導地位[2]。在假設用戶數據業務模型一致的情況下,小區流量會隨著用戶數增加而線性增長,公式如下:
數;a為單用戶數據量,受用戶模型影響;統計時長一般為1小時。
實際小區流量由于受各種網絡因素影響,不能滿足以上線性關系,當用戶數增加時出現流量增長緩慢甚至下降的情況,如圖1所示,比如用戶數超出小區限制后,潛在用戶不能有效接入小區導致業務流失,流失業務量即為流量抑制的損失量。流量損失公式表示如下:
LTE RRU小區并發用戶數增加會對多個網絡KPI、用戶感知、小區流量等指標產生影響[3]。根據實際網絡性能統計,當小區用戶數低于200時,小區流量基本線性增長;超過200時小區流量增長變緩,甚至有下降的可能,如受故障、覆蓋、干擾等因素影響時。
2.2 流量抑制的表征指標選取
單用戶頁面瀏覽一般是脈沖式突發行為,如圖2所示。對于單個用戶的流量損失,假設一個用戶在t1~t6時間內正常情況下有4次頁面請求,柱體寬度標示平均頁面顯示時長t≈2.5 s[4]。t2時刻頁面顯示正常,t3時刻由于網絡因素影響,頁面顯示時長增加?t而延長到t4時刻,原來t4/t5時刻的流量需求就會順序后延,原t5時刻的流量需求延遲到統計時間T(t1~t6期間)之外或直接放棄,則在統計時間內由于流量抑制而導致的流量損失量ΔLoss=0.7 MB。
用戶突發式頁面請求的業務量可以轉換為連續值近似代替,假設統計時間T內的用戶正常業務需求量是B,?t為增加的時延,則流量抑制損失量可以用公式(3)表示:
ΔLoss=?t×() (3)
公式(3)可以近似且定量地反應流量抑制現象和時間因素的關系,頁面顯示時長增加時用戶流量需求會被抑制,小區所有用戶流量損失之和為小區流量損失量,因此可用頁面顯示時長這項感知指標來表征流量抑制現象。endprint
2.3 模型構建及特征變量選擇
頁面顯示時長過大引起的流量抑制受多重因素影響,包括網絡覆蓋、無線干擾、規劃容量、信令流程、網絡結構、編碼方式等。從通信全流程來看(端到端分析),流量抑制既有SP運營商的內容、服務器路由等因素,也有網絡質量、用戶終端行為等因素,如圖3所示:
在移動通信網絡中,無線網質量更易受外界因素的影響,性能波動性較大,是影響流量抑制的關鍵,其他則視為固定因素,暫時不在本文研究范圍內。流量抑制的無線側流量模型如圖4所示。
特征變量是多維度描述一個模型的量化指標,各變量之間相互影響,會由于相關性、冗余性等問題導致模型出現偏差。各特征間最好能保持獨立,有時需要剔除一些不相關或冗余特征,從而減少特征個數提高模型精確度。
特征提取是數據預處理過程,可以選取與目標變量關聯性強的一些特征。但是如果對數據了解程度不夠的話,還可以采用相關性分析對數據進行處理。最終選取的特征應是所有特征的一個子集。流量抑制模型部分特征變量的說明如表1所示,頁面顯示時長作為目標變量。
3 相關性及回歸模型分析
首先用相關性分析對已知特征變量做預處理,了解各變量對目標變量的相關程度以及各特征變量之間的獨立性,再結合回歸模型系數權重,了解特征變量對目標變量的重要程度。
3.1 特征變量的相關性分析
相關性分析是指對兩個或多個具備相關性的變量進行分析,從而衡量兩個變量因素的密切程度。當兩個變量帶有測量誤差時,它們之間的相關性會削弱。常用相關性計算方法是Pearson相關系數[4-5],計算公式如下:
其中n是樣本個數,Xi是特征變量,Yi是目標變量,X_和Y分別是其對應變量的均值。相關系數r的范圍在-1和1之間,|r|值越大,表示連個變量之間影響越顯著。
選取某地區LTE忙時(中午11點)數據作為分析樣本,剔除異常樣本后,各特征向量與目標變量之間的相關系數如表2所示,其中重疊覆蓋度、切換成功率等特征變量與頁面顯示時長的相關系數極低,為精簡模型可以考慮將這些特征變量從模型中剔除。
另外為檢驗各特征變量之間的獨立性,建立特征變量之間的相關系數矩陣,因矩陣較大這里僅列出矩陣中相關系數較高的幾個特征變量:RRC連接平均數與PRB利用率的相關系數是0.74;高CQI占比與下行64QAM編碼比例之間的相關系數是0.7。為保證特征指標的獨立性及模型精度,刪除相關系數為零的切換指標、冗余指標PRB利用率(保留RRC連接平均數是因為其更直觀且PRB利用率容易受限)以及下行64QAM編碼比例。
3.2 多元線性回歸方程
多元線性回歸是一種應用較為廣泛的預測模型,可通過多個特征值來解釋目標值[7]。其數學模型如下:
其中Y是目標變量,本文指頁面響應時長;θ是線性回歸系數;X是特征變量矩陣;b為偏置常數。
多元線性回歸模型的計算目的是得到回歸系數θ值和偏置常數b,常用計算方法包括最小二乘法的矩陣解法[8]、梯度下降法[9]等。Matlab軟件作為一種常用數據處理工具,簡單易用,編程效率高,可以比較方便地得到線性回歸方程并對其做顯著性檢驗[10]。
根據相關性選取的12個特征變量構建模型1,用Matlab做標準化處理,然后采用梯度下降算法得到多元線性回歸模型系數和偏置常數,該結果如表3所示:
回歸模型的權值大小反應特征變量對目標變量的影響程度,結合相關性分析,MR覆蓋率、上行丟包率、eNB接收干擾、UE高發射功率占比、RRC連接平均數等5項對目標變量有顯著影響,如圖5所示:
選取圖5中有顯著影響的5項特征建立模型2,應用多元線性回歸得到權重系數如表4所示:
對于權重系數的理解有助于了解其對應特征對頁面顯示時長的影響程度,比如MR覆蓋率與頁面顯示時長負相關,覆蓋率下降則頁面顯示時長增加。
3.3 回歸方程顯著性檢驗及偏差分析
所建立模型的多元線性回歸方程對目標變量的解釋是否準確,需要對回歸方程進行統計意義上的顯著性檢驗[11]。檢驗方法包括:判定系數檢驗(R2檢驗)、回歸方程顯著性檢驗(F檢驗)等。若回歸方程-顯著性檢驗未通過,可能是選擇特征變量時漏掉了重要影響因素,或是特征變量與目標變量間的關系非線性。
模型1是建立的基本模型,設定顯著性水平α=0.05,對其檢驗結果如表5所示:
整體相關系數R=0.226,判定系數R2=0.051較小,說明預測結果與目標變量之間關聯性較低,預測準確性有待提升。F檢驗值為109.343,在置信度α=0.05時,查F檢驗的臨界值表得到臨界值F0.05(12, >1000)≈1.76,且P值也小于α=0.05,可拒絕回歸方程非顯著性的假設,由此認為多元性回歸方程顯著。均方差比較大是由于離散性比較大,模型的擬合較困難。
實際工程中為了檢驗模型預測效果,一般會采用比較直觀的偏差分析法。偏差分析的計算方法設定如下:
偏差=abs(實際值-預測值)
準確度=1-偏差/實際值
正確率=準確度大于等于0.8的小區數量/小區總數 (6)
模型1和模型2的特征變量選取數目不同,得到的回歸方程也有差別。它們的預測結果差別如何就可以通過偏差分析,了解特征變量對目標變量的解釋是否滿足要求以及模型的預測精度。模型1和模型2的偏差及準確度情況如表6所示:
從表6可以看出,兩個模型的預測偏差差別不大,說明模型2的5項特征也可以較好地反應頁面顯示時長變化,在優化工作中可以重點關注。比如覆蓋率不足將直接影響小區性能與用戶感知,頁面顯示時長增加,進而抑制用戶的流量需求。
決定系數以及預測偏差顯示得到的多元線性回歸方程精度還存在不足,原因可能是特征變量的選取有偏差,也可能模型中某些變量與頁面顯示時長非線性關系。特征變量的選取可在工作中繼續完善,至于特征變量和頁面顯示時長是否非線性,比較簡單的方法是用單變量的多項式擬合來檢驗。以RRC連接數和覆蓋率兩個變量與頁面顯示時長的關系為例,多項式擬合的結果顯示具有非線性特征,所以采用線性回歸分析時對目標變量的解釋偏差會大些,如圖6和圖7所示:endprint
一般來說,當頁面顯示時長超過均值時就可以認為存在流量抑制現象(大約3 000 ms,如圖6的A點),實際工作中可選擇平均頁面顯示時長顯著增加區域為流量抑制重點關注區,如圖6的B點和圖7的C點,大約4 200 ms。
4 結論
流量抑制模型的建立便于網絡運營和優化人員了解LTE數據業務流失的基本原因,在工作中采取針對措施提升網絡質量。由特征變量選取及建立不同的線性回歸方程可了解到,頁面顯示時長與MR覆蓋率負相關,而與用戶數、上行干擾、終端發射功率等正相關,模型可用于流量抑制的預測與分析,這對網絡優化工作具有實際指導意義,比如關注頁面顯示時長大于4.2 s的小區在某些特征上是否存在異常,或預測特定網絡條件下流量抑制是否嚴重。模型中部分變量與頁面顯示時長實際是非線性關系,對模型預測精度有影響;特征變量選取也會影響模型精度,另外本文的研究還忽略了核心網的影響,這都需要在實際工作中不斷改進和完善。
參考文獻:
[1] 搜狐網. 中國移動尚冰:無線數據業務已成公司第一大收入來源[EB/OL]. (2016-12-20)[2017-08-28]. http://www.sohu.com/a/122104339_114877.
[2] 謝衛浩. FDD LTE業務模型和商用網統計實例[EB/OL]. (2013-10-29)[2017-08-28]. http://www.zte.com.cn/cndata/magazine/zte_technologies/2013/10_2013/magazine/201310/t20131029_411037.html.
[3] 江敏. RRC并發用戶數對LTE網絡影響分析[J]. 2016(1): 263-264.
[4] 周京勝. 基于用戶感知的TD-LTE網絡場景化擴容[J]. 電信快報, 2015(12): 28-31.
[5] 謝娟英,高紅超. 基于統計相關性與K-means的區分基因子集選擇算法[J]. 軟件學報, 2014(9): 2050-2075.
[6] 郭紅霞. 相關系數及其應用[J]. 武警工程學院學報, 2010(2): 3-5.
[7] KP Murphy. Machine Learning: A Probabilistic Perspectiv[M]. Cambridge: MIT Press Massachusetts, 2012.
[8] 易芳. 采用MATLAB的線性回歸分析[J]. 兵工自動化, 2004,23(1): 68-69.
[9] 李航. 統計學習方法[M]. 北京: 清華大學出版社, 2012.
[10] 劉勇,白林. 基于MATLAB的回歸分析模型在經濟預測分析中的應用[J]. 中國管理信息化, 2008,11(5): 69-71.
[11] 賈俊平,何曉群,金勇進. 統計學[M]. 北京: 中國人民出版社, 2015.endprint