文/謝榮安
(中國移動通信集團福建有限公司廈門分公司 福建省廈門市 361013)
隨著4G網絡的規模部署,移動互聯網已經成為人們生活中不可或缺的重要手段,在各項移動互聯網業務中,視頻業務是其中尤其重要的一項。根據艾瑞咨詢統計報告,2018年手機視頻的日使用時長占總時長的10%,同比2017年增幅位居所有應用類別的首位。如圖1所示。
由于視頻業務對于數據傳輸的流暢性和穩定性要求較高,如果視頻在網絡傳輸過程中出現擁塞或者波動等情況,就可能導致觀看過程中出現卡頓、花屏等問題,從而引起用戶感知不佳。隨著業務發展,用戶對視頻業務的感知已經越來越高,以某地市運營商統計月投訴量為例,隨著手機視頻使用時長的增多,投訴量也呈上升趨勢,亟需從基于網絡本身的質量管理向注重客戶感知的端到端橫向一體化質量保障機制轉變。
根據3GPP定義,整個LTE網絡從接入網和核心網方面分為E-UTRAN和EPC兩個大的部分。其中EPC 核心網主要由移動性管理設備(MME)、服務網關(S-GW)、分組數據網關(P-GW)、存儲用戶簽約信息的HSS、策略控制單元(PCRF)等組成。EPC 核心網架構秉承了控制與承載分離的理念,MME 負責移動性管理、信令處理等功能,S-GW 負責媒體流處理及轉發等功能,P-GW 則仍承擔GGSN 的職能。基站(eNodeB)將直接通過S1 接口與MME、S-GW 互通。視頻業務流程圖如圖2所示。
用戶在訪問視頻業務的時候,視頻的數據要從SP業務平臺經由P-GW、S-GW、傳輸網到達無線基站后,才會由基站發送到終端上,整個流程需要經過多個網元,這給問題端到端的定位帶來了較大的挑戰,現有的移動視頻業務質量評估體系和方法依然是在移動終端或者視頻解碼器中提取的數據,研究用戶的主觀感知,并沒有和網絡關聯起來。而傳統4G上網問題定界利用深度報文檢測,只采集http相關數據,無法獲得播放流暢度等視頻業務的感知指標,整體效率較低,也不適用于移動視頻問題定界。
目前視頻類的問題主要通過外部投訴才能發現,且發現后需由人工通過后臺數據進行分析,定位難度大,整體定位時間較長,對人員技能水平要求也較高,據某運營商某月數據統計,在100例用戶投訴中,通過人工定位分析能定位的投訴僅占22%,且這些問題會出現在無線側、終端側、SP側、用戶側等任意環節,視頻問題的平均解決時長為12.3小時,不適用于目前爆發式增長的業務需求。

圖1:各類手機應用使用時長增幅

圖2:視頻業務流程圖

圖3:定界流程層次分析模型示意圖

圖4:數據預處理流程
為了能夠提高視頻類問題定位的效率和準確率,本文研究了一種基于層次分析和機器學習算法的移動視頻端到端定界方法。本方法基于用戶級的信令大數據,利用二次識別出純視頻的單據,并結合無線指標數據、用戶套餐流量數據、投訴數據以及LTE撥測數據等信息以及每條XDR數據的問題情況,通過機器學習訓練一個適應當前視頻業務體驗的問題定界模型算法。通過微觀的、細粒度的、大數量的分析,建立移動視頻質量評估模型,實現對用戶使用移動視頻業務產生的問題進行端到端的定界。首先通過小樣本量建立利用機器學習訓練出適應當前場景的的模型;然后將對評估模型輸出的評估結果與現網情況進行對比分析,對評估模型進行校正;最后用現網海量數據作為輸入,并對模型的評估精度進一步驗證和校驗調整,提升評估的準確率,最終輸出基于層次分析以及機器學習算法的移動視頻端到端定界結果。

圖5:特征構造示意圖
上述方法包括以下操作步驟:
(1)以移動視頻用戶感知為對象,確定可能影響用戶感知的端到端中出現的各種原因,依據從大到小的原則,可以將問題定界為用戶限速、業務問題、終端問題、無線問題和非共性問題。
(2)關聯端到端過程中的相關數據,包含用戶觀看視頻的DPI數據,用戶的流量套餐數據,用戶投訴數據,無線小區數據,用戶終端品牌、終端型號等。
(3)通過投訴、撥測以及模擬在不同問題場景下進行分類測試,多次測試和記錄不同問題情況下移動視頻的各項指標參數以及用戶觀看的DPI數據等進行關聯。
(4)將投訴、撥測等獲取的問題場景下撥測的樣本數據用不同的數學變量分別表示不同問題場景,并抽取流暢不卡頓的用戶數據構成數據集。
(5)構建從大到小的層次分析模型,將步驟(4)中得到的數據集進行數據預處理后,用作層次總模型的總輸入,先把各個指標作為自變量,定界的結果作為因變量。首先將測試數據進行預處理,再把預處理后的數據集分為訓練集合測試集,80%作為訓練集和余下的20%作為驗證集。利用不同的分類算法進行多次對比計算,得出準確率和召回率相對最優的算法作為該場景算法。
(6)將步驟(5)已定界出的問題數據剔除,剩余數據作為下一場景的輸入,重復步驟(5),直到定界出所有問題。
下面,本文將具體針對層次分析及機器學習算法進行分析:
為了解決在運維過程中碰到的移動視頻問題定界的技術缺陷,需要從端到端的角度出發,除了視頻的各個關鍵的KQI指標并關聯無線指標、終端信息、用戶流量套餐數據、進行全程全網分析,并進行分析和定界。
基于LTE移動業務實現過程,按照業務端到端可以分為用戶、終端、小區、EPC核心網、SP業務網絡等五類功能域。因此,常規移動視頻卡頓原可以定界到細分為用戶限速、終端問題、無線小區問題、SP業務問題以及非共性問題。具體的定界流程基于移動上網的業務特點,提出了基于從大到小的分層次模型,并結合分類算法等進行仿真實驗,實現移動視頻端到端分析預測。為了能夠確定整體定界分層模型的流程,我們分別對每個問題的原因進行分析:
2.1.1 用戶限速問題分析
通過獲取用戶的套餐和流量信息,當用戶使用達量限速的套餐時候,用戶到達流量門限就會進行限速。由于經過多次對比測試,對于用戶限速的場景,觀看視頻時候基本都會出現卡頓問題。因此,該問題可直接通過指標判斷用戶是否限速場景。若非上述質差,則進一步進入下一環節進行分析。
2.1.2 流暢判斷問題分析
獲取用戶非限速的用戶進入下一環節,根據集團定義的視頻流暢度規范,通過測試記錄不流暢的XDR,定義流暢度指標低于一定值的記錄數為非流暢記錄進入下一環節進行建模分析,定界出問題點,轉后續環節處理。
流暢度指標定義:
視頻播放流暢度=N1/N2*100%;
N1=∑[(視頻平均下載速率/視頻碼率)>=1.2]的單據量;
N2=∑視頻單據量視頻平均下載速率=視頻XDR里的視頻下載數據量/視頻下載時間。
2.1.3 視頻應用業務問題分析
通過樣本分析獲知視頻應用業務維度的質差會導致上千個無線小區指標,幾十萬個用戶流暢度指標下降,而且視頻側的業務維度出問題一般影響范圍很大,影響到全省業務或者好幾個地市的業務,因此將視頻業務維度先進行建模分析。
2.1.4 終端問題分析
隨著視頻播放的演進,以及IPv6的不斷推進,對于某些終端可能會出現各種適配問題。從終端維度來說,主要就是終端品牌、終端廠家差異帶來的指標的不同,該問題也會覆蓋多個用戶甚至影響無線小區。因此將終端維第二步進行建模分析,預測出終端問題。

圖6:視頻類業務場景仿真實驗結果
2.1.5 無線問題分析
最后進行無線小區維度的定界,一個無線小區包含幾個扇區,關聯無線小區的指標通過建模分析,預測出無線問題,其他無法沒有集中性的問題,則定義為非共性問題輸出。
最終,基于上述分析,我們可將分層定界組合模型的步驟流程確定如下:數據表 ->(指標判斷) 是否限速問題->(模型預測) 是否流暢度問題->(模型預測) 是否視頻平臺問題->(模型預測) 是否終端問題->(模型預測) 是否無線問題。具體如圖3所示。
定界流程確定后,需要對底層的數據進行處理,再提交給算法進行分析,本方法選取移動視頻底層DPI單據、無線指標數據、限速用戶、投訴數據以及LTE探針以及人工撥測數據作為建模樣本數據。自變量主要選取了視頻相關指標,如下行流量(MB)、上行流量(MB)、合成視頻下載平均速率_加權分子等,小區的無線指標數據,如小區名、地市、區縣、無線廠家,限速用戶指標,如ERAB_NU、UP_BYTE、DOWN_BYTE等63項指標。具體預處理流程如圖4。
2.2.1 缺失值處理
針對列缺失情況:對缺失占比大于20%的特征進行刪除。
針對行缺失情況:由于行數據缺失較少,從優化效率角度考慮對缺失行進行刪除處理,量級不影響機器學習模型的訓練。
2.2.2 分類變量處理
啞變量(Dummy Variable),又稱為虛擬變量、虛設變量或名義變量,從名稱上看就知道,它是人為虛設的變量,通常取值0或1,來反映某個變量不同的屬性。對于有n個分類屬性的自變量,通常需要選取1個分類作為參照,因此可以產生n-1個啞變量。將啞變量引入模型,雖然使得模型變得較為復雜,但可以更直觀反映該自變量的不同屬性對因變量的影響,提高了模型的精度和準確度。針對是分類變量的特征,進行啞變量處理。
2.2.3 歸一化處理
由于不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到數據分析的結果,因此為了消除指標之間的量綱影響,需要進行數據標準化處理,以解決數據指標之間的可比性。原始數據經過數據標準化處理后,各指標處于同一數量級,適合進行綜合對比評價。

圖7:分層次模型算法選擇結果

圖8:重抽樣結果

圖9:參數摸索結果
2.2.4 特征構造
由于某些指標的波動變化能體現出用戶使用感知不流暢,因此通過構造一些體現指標波動變化的新特征來進入模型。選取HTTP_DOWN、HTTP_UP等23個指標構造周均值。如圖5所示。
2.2.5 特征篩選
由于很多特征之間有極高的相關性,他們的存在會影響模型的準確性。計算在本次樣本數據119個特征的相關系數矩陣,把對角元賦值為0,要是兩兩特征間的相關系數絕對值大于0.75,就將相關系數總和最大的特征進行剔除;要是最大的相關系數絕對值不大于0.75,則算法停止;經過此步驟后,最終篩選出62個指標進入模型。
2.3.1 算法選取
移動視頻端到端定界結果涉及SP、無線、終端等多個環節,而這幾個問題是從大到小的分層關系,無法通過單一的模型就能精確定位問題,通過查遵循從大到小的層次分析方法,結合本次視頻端到端問題定界特點,選取傳統的邏輯回歸、隨機森林和XGBoost三種算法,通過多次仿真試驗,對比得到三個模型仿真結果的平均值,選出最優的平均值對應的模型,供本次業務場景使用。以SP模型為例我們進行了1000次的仿真實驗,首先排除了準確率和召回率最低的邏輯回歸,其次,我們發現另外兩種模型的整體仿真效果差別不大,但從概率密度分布來看,XGBoost更穩定均勻,選為本場景的算法。同理,選出終端模型和無線模型的最優算法。如圖6所示。
最終各個步驟的算法篩選如圖7所示。
2.3.2 數據重抽樣
樣本出現正負量級不平衡的狀況時,通過重抽樣bootstrap方法進行反復抽樣,最終使正負樣本比例接近1:1,并且整理后的數據分布能夠接近總體分布。進行1000次bootstrap,求平均值的置信區間,可以對每個偽樣本計算平均值。獲得1000個平均值。對1000個平均值的分位數進行計算,得到置信區間,在初始樣本足夠大的情況下,bootstrap抽樣能夠無限接近總體分布。如圖8所示。
2.3.3 模型超參數摸索
建立XGBOOST和隨機森林模型,分別設置兩個模型的參數組合,遍歷所有的參數組合,每個組合重復5次,每次重復按等比例抽取標本方式,隨機把10%用作測試集,20%用作驗證集,剩下的70%用作訓練集,用訓練集建立當前模型,用驗證集決定是否提前停止訓練,用測試集評價當前這次建模的準確率。統計5次重復綜合評價每種組合的平均準確率,選取準確率最高的超參數組合。如圖9所示。
系統穩定上線后,通過對100例視頻問題的定位進行回顧,發現視頻問題平均定界時長從12.3小時縮短至0.44小時,縮短了96%。通過進行規模部署,共覆蓋400萬個視頻用戶、24萬個小區、418款終端。通過移動視頻端到端定界分析,月均發現性能問題130個,月均輸出視頻質差小區800個重點優化提升,有效提高了用戶使用4G觀看視頻的感知。
本方法基于視頻端到端業務問題定位開展研究,引入機器學習算法,打破了傳統的基于網元級別的用戶感知評估方法,基于用戶粒度的網絡性能大數據,實現細粒度、微觀級別的感知客戶,能定界出用戶觀看移動視頻的質差情況。創新地將二次識別的視頻底層數據、無線指標數據、限速用戶、投訴數據以及LTE探針以及人工撥測數據進行關聯并作為建模樣本數據。解決了單一指標對比定界造成的問題局限性,以及端到端指標關聯難等問題。為運營商后續處理投訴及問題定位可以起到積極的幫助。