基于GBDT算法的潛在5G用戶預測研究與實現

2021-05-14 08:30:28

郵電設計技術 2021年4期

0 引言

隨著國家5G 新基建時代的來臨，5G 移動用戶規模發展帶來的高流量高收益成為當下及今后運營商收入的主要來源。運營商移動網絡5G 用戶傳統營銷方式較為粗放，主要體現在5G用戶營銷策略和定位不夠清晰；5G 用戶目標缺乏針對性；營銷成功與否和5G營銷人員的營銷水平相關；事前沒對用戶進行有效的篩選，營銷成功率低；已有的傳統網絡用戶遷轉到5G過程中形成的歷史數據沒有得到利用。如何規避上述問題，精準有效地推動傳統移動網絡用戶向5G轉化成為業界研究的熱點方向。作為電信運營商的優勢之一，多年的包含日常運營過程中形成的B 域和O 域的大數據集可以用來對5G用戶進行畫像，通過大數據手段充分挖掘這些數據中包含的用戶基礎信息、用戶消費信息、用戶上網行為偏好和用戶網絡感知等能夠為5G用戶智能營銷開辟新的方向的信息。

作為人工智能的重要組成部分，機器學習技術是國家發展戰略重點扶持的目標［1］，也是當下各行業關注的焦點。為了推動傳統5G用戶營銷方式的數字化，提升網優專業5G市場支撐智能化水平，有必要對基于機器學習算法的潛在5G用戶預測進行研究。

1 移動網絡5G用戶傳統營銷方式的痛點

移動網絡傳統用戶營銷方法存在諸多短板，比如營銷策略模糊、目標用戶存在盲目性、營銷成效與人員水平相關等。

1.1 5G用戶營銷策略和定位不夠清晰，沒有形成差異化營銷

受到長期傳統標準化大生產經驗的影響，運營商在制定5G用戶營銷策略時往往是一刀切，對所有用戶采用統一的口徑和指標做營銷宣傳，沒有考慮用戶個體差異性；但實際上5G敏感用戶始終比不敏感用戶容易發展，對2 類用戶不加區分地采用相同營銷手段容易造成參差不齊的營銷結果。

1.2 5G用戶目標不精準，營銷目標對象與實際結果存在偏差

由于5G用戶營銷數據的局限性和分析方法不當，運營商在發展5G用戶時沒能形成5G用戶特征評估體系，未能對5G 用戶進行精準畫像，導致常規方法評估出來的目標用戶與實際營銷結果偏差較大，浪費不必要的人力物力。

1.3 5G用戶營銷成效與營銷人員主觀水平相關，降低了營銷效率

在現場營銷或代理商營銷場景中，營銷人員只能通過個人主觀判斷該用戶是否是潛在5G用戶，缺乏客觀的評估手段，不同營銷水平的人員營銷結果千差萬別，判斷能力不強的人員消耗了不必要的時間在5G不敏感用戶上，降低了營銷效率。

2 基于GBDT算法預測潛在5G用戶

隨著5G網絡規模的不斷擴大，運營商越來越需要進行精準的5G 用戶營銷來拉動收入。影響傳統移動網絡用戶轉化為5G用戶的因素很多，其中用戶基本屬性、用戶消費信息、用戶上網行為偏好和用戶網絡感知是影響用戶轉化為5G用戶的最核心因素，充分挖掘這些數據有利于指導5G用戶營銷。

本文通過利用GBDT 機器學習算法學習5G 用戶正負樣本歷史上的B 域出賬數據和O 域網絡數據，建立5G 用戶分類預測模型預測出傳統移動網絡用戶是否是潛在5G 用戶。該模型可在5G 用戶營銷支撐、5G網絡感知保障等網優日常工作中起到積極作用。

2.1 GBDT分類算法原理概述

GBDT 分類算法屬于集成學習中的Boosting 方法。Boosting 方法使用多個弱基分類器，訓練基分類器時采用串行的方式，每個基分類器之間有依賴，它的基本思路是將基分類器一個個疊加，每個基分類器在訓練的時候，對前一個基分類器分錯的樣本，給予更高的權重。測試時，根據各個分類器的結果加權得到最終結果。GBDT 的原理就是所有弱分類器的結果相加等于預測值，然后下一個弱分類器去擬合誤差函數對預測值的殘差（殘差就是預測值與真實值之間的誤差），其中弱分類器的表現形式就是各棵決策樹。該算法具體原理如下［2］：

假設輸入訓練集樣本D={(x1,y1),(x2,y2),…,(xm,ym)}，最大迭代次數T，損失函數L(y,f(x))=log(1+exp(-yf(x)))，其中y∈{-1,+1}。輸出是強學習器f(x)。

b）對迭代次數t=1，2，…，T，有：

（a）對樣本i=1，2，…，m計算負梯度誤差：

（b）利用(xi,rti)（i=1，2，…，m），擬合一棵CART 回歸樹，得到第t棵回歸樹，其對應的葉子節點區域為Rtj（j=1，2，…，J），其中J為回歸樹t的葉子節點個數。

（c）對葉子區域j=1，2，…，J，計算最佳負梯度擬合值：

c）得到強學習器f（x）的表達式：

2.2 訓練集和測試集樣本生成

2.2.1 樣本的采集

提取某省聯通2020 年3 月份5G 用戶46 170 個和等量的非5G 用戶生成正負樣本標簽，5G 用戶作為正樣本標記為1，非5G 用戶作為負樣本標記為0。樣本字段都是用戶在傳統網絡（3G/4G）用戶時的歷史數據，這些原始字段包含B 域的用戶基礎信息和用戶消費信息、O 域的用戶上網行為和用戶網絡感知KQI 指標（見表1）。

表1 5G用戶正負樣本原始字段

這些原始字段中，用戶基礎信息使用2019 年8 月份的當月數據（2019年8月份開始5G 放號）；用戶消費信息使用當月及前3 個月的數據；用戶上網行為使用當月數據，其中最大使用APP 指的是當月用戶產生最大流量的APP；用戶網絡感知KQI 指標是用戶當月每天流量最高的10 個小區的KQI 指標值匯總，形成每天的KQI指標字段。

2.2.2 樣本劃分為訓練集和測試集

機器學習一般將樣本劃分為訓練集和測試集，訓練集用于模型訓練，測試集用于測試模型性能。本文利用scikit-learn 的train_test_split（）函數將樣本劃分為訓練集和測試集，其中參數測試集比例test_size 取0.2，即訓練集和測試集比例為8∶2。

2.3 數據預處理

數據預處理主要是檢查每個特征是否有缺失值或非法字符，對不合理的值進行校正替換，對類別值過多的高基數類別特征進行降基處理，類別特征不平衡字段需重新歸并。檢查樣本數據發現，數值型特征的用戶消費信息存在缺失值，比如語音通話時長、流量字段；類別型特征的性別、終端廠家等字段存在缺失值，對這些列調用scikit-learn 的SimpleImputer 對象進行均值填充；有609 個類別特征套餐名稱值和204個終端廠家值存在高基數問題，需要降基處理，這里根據特征的分布情況使用pandas 的分箱操作cut（）方法對高基數特征進行分段編碼［3］；歸屬地（市）、最大APP 協議大類存在特征取值不均衡問題，對比例較低的類別值重新歸并。

2.4 特征工程

特征工程是機器學習過程的重要環節，樣本特征的好壞決定了機器學習性能的上限，而模型只是逼近這個上限而已。特征工程的主要內容包括特征構造、特征抽取和特征選擇［4］。本文的原始特征包括B 域的用戶基礎信息和用戶消費信息、O 域的用戶上網行為和用戶網絡感知KQI 指標共100 多個維度。為了滿足特征選擇的需要，在此先進行特征構造和特征抽取，最后進行特征選擇，避免過高的特征維數導致模型過擬合。

2.4.1 特征構造

原始字段中的入網時間是Object 類別特征，無法進行數值計算提取有效信息。本文通過設置一個標桿時間2020 年12 月來構造用戶從入網到標桿時間的在網月數特征。

2.4.2 特征抽取

（2）工作態度要絕對認真，遇到問題要考慮全面。對試驗過程中出現的任何可疑之處都不能放過，分析考慮問題要周密細心，抓住關鍵點。對于變壓器而言，若分接開關接觸不良，經受不起短路電流的沖擊而發生故障，極有可能將變壓器線圈燒損，其后果是十分嚴重的。通過認真分析，找到了問題所在，并進行了有針對性的工作，順利完成了該缺陷的處理。

用戶網絡感知KQI 共一個月（30 天）的數據，每天有頁面響應成功率、視頻流媒體初始播放成功率、視頻流媒體有效下載速率3 個指標，總計有90 個維度的特征。數據特征維度太高，首先會導致計算很麻煩，其次增加了問題的復雜程度，分析起來也不方便。但盲目減少數據的特征會損失數據包含的關鍵信息，容易導致模型預測性能下降。主成分分析（PCA——Principal Component Analysis）降維方法，既減少了需要分析的指標，又盡可能多地保持了原來數據的信息。本文使用scikit-learn 的PCA 估計器對KQI 數據進行降維，由于不確定具體變換的合適維數，就取PCA 的n_components 參數為0.95，即變換后的結果保留95%的原始信息，計算后維數降至67。將67 維的PCA 分量與目標列做相關性分析，最相關的是第1 個分量kqi_data_pca_0相關系數0.14，后續只采納該分量進行訓練。

2.4.3 特征/目標相關性分析

特征選擇不僅具有減少特征數量（降維）、減少過擬合、提高模型泛化能力等優點，而且還可以使模型獲得更好的解釋性，增強對特征和特征、特征和目標之間關系的理解，加快模型的訓練速度獲得更好的預測性能。此處采用pandas的相關系數計算函數corr（）來分析特征和目標間的相關性（見表2）。

表2 部分特征和目標間的相關系數值

由于部分特征間的相關性過高，將造成特征間的多重共線性，影響模型效果，這里剔除相關系數大于0.8的特征，保留與目標相關性最大的特征。

2.5 模型訓練

2.5.1 基于交叉驗證的分類預測模型選擇

機器學習中常用的分類預測模型有邏輯回歸、KNN、樸素貝葉斯、隨機森林、GBDT和XGBoost等。這里分別使用這些模型進行5 折交叉驗證打分，評估標準為正確率accuracy，選出最好的模型。實驗結果表明，最佳模型為GBDT，平均cross_val_score 得分最高為0.814（見圖1）。后續就使用GBDT 模型進行建模訓練。

圖1 基于交叉驗證的分類模型選擇

2.5.2 基于隨機搜索的GBDT模型超參數優化

GBDT 模型的超參數分2 類：第1 類是Boosting 框架的重要參數，調節模型中boosting 的操作，主要包括n_estimators、learning_rate 和subsample，第2 類是弱學習器即CART 回歸樹的重要參數，調節模型中每個決策樹的性質，主要包括max_depth、min_samples_split、min_samples_leaf和max_features等［5］。

learning_rate=［0.005，0.01，0.05，0.1］

n_estimators=［100，400，800，1000］

subsample=［0.5，0.6，0.7，0.8］

min_samples_split=［500，700，900，1100］

min_samples_leaf=［100，200，300，400］

max_depth=［5，10，15，20］

max_features=［13，20，27，34］

最終搜索得到的最佳超參數組合是：{'subsample'：0.6，'n_estimators'：400，'min_samples_split'：1100，'min_samples_leaf'：300，'max_features'：13，'max_depth'：5，'learning_rate'：0.01}。在測試集上進行評估，分類正確率acurracy為0.808，召回率0.632。

2.5.3 基于GBDT分類模型的潛在5G用戶預測

運營商可根據5G 用戶GBDT 分類模型特征字段采集數據，構成樣本輸入模型對潛在5G 用戶進行預測。實驗結果表明，現網5G 用戶預測命中率為71%，即真實5G用戶中有71%被模型預測出來。

3 5G用戶預測模型在現網中的應用

從2020年4月份開始收集某市聯通全網3G/4G用戶的B 域和O 域數據進行5G 用戶預測，將預測出的5G 用戶清單交市場部進行5G 精準營銷。市場部反饋營銷結果及建議給項目組，項目組人員根據實際結果修正訓練數據的特征，重新進行樣本建模學習，整個流程不斷閉環迭代開發，提高預測的命中率（見圖2）。

圖2 5G用戶預測項目運行環節流程

2020 年4 月前按每月營銷目標人數6 萬計算，平均每月營銷成功的5G 用戶數約為3 335 人，占營銷用戶總數的5.56%，即營銷成功率為5.56%；在開始使用5G 用戶預測模型后，平均每月營銷成功的5G 用戶數約為14 659 人，營銷成功率提升至24.43%，每月多發展5G 用戶11 324 人（見圖3）。按每用戶月平均ARPU值50 元計算，2020 年4 月份、5 月份、6 月份3 個月共增加收入339萬元。

圖3 使用5G用戶預測模型前后用戶數增長情況

4 總結

5G 用戶傳統營銷方式存在諸多痛點，人工標準化營銷費時費力。通過引入機器學習算法學習5G 用戶正負樣本歷史出賬數據和網絡數據，建立分類預測模型，可精準預測全網潛在的5G用戶，解決了5G時代用戶規模發展的困境，極大程度地提高了5G用戶營銷的成功率。