張晴晴,張 濤,韓玉輝,程新洲,王云云,高 潔(中國聯通研究院,北京 100048)
在整體收入增速放緩、公眾市場飽和的大背景下,各大運營商均在探索如何在公眾市場實現存量客戶價值運營,同時對增量客戶進行有效挖掘。其中發展融合業務用戶便成為運營商加固維穩存量客戶,同時有效挖掘增量客戶的有效利器。所謂融合業務,是運營商根據其業務特點將多類產品進行捆綁銷售,常見的捆綁策略為將固網產品、移動網產品和IPTV 等產品進行融合,通過各類融合套餐產品的創新性設計可實現客戶價值提升,同時提升客戶滿意度。融合產品將是勢不可擋的大趨勢,未來運營商的產品將隨著業務邊界不斷擴展向深度融合和廣度覆蓋方向轉變,故對于融合用戶的發展和挖掘將是未來運營商客戶運營的一項重要工作。
中國聯通對于融合捆綁的策略相對于友商起步較晚,雖然也有固移套餐、主副卡(親情卡)等產品,但整體融合力度稍弱,所以對于融合用戶發展的市場空間較大。尤其在攜號轉網服務全面開放后,大力發展融合業務將有助于中國聯通加固維穩存量客戶,同時也有助于實現異網拉新。本文基于移動網絡大數據和寬帶網絡大數據的聯合分析,針對單移用戶的移動網絡業務行為特征,構建機器學習模型識別其真實用寬帶狀態,并推送給市場前端進行精準營銷,促進用戶進行固移融合套餐產品的遷轉。中國聯通各省分公司可以根據自身資源稟賦和用戶規模占比,分別采取不同的固移用戶發展策略。
為了實現對單移用戶中潛在寬帶用戶的精準識別,本文基于移動網絡大數據和寬帶網絡大數據的聯合分析,構建了潛在寬帶用戶識別的方法體系架構,如圖1所示。

圖1 潛在寬帶用戶識別流程
該框架由2 部分組成:線下訓練部分和市場推送部分。
a)線下訓練部分。主要目的是利用現有的歷史數據得到理想的分類模型,并將訓練好的穩定魯棒模型用于現網數據識別,得到潛在寬帶用戶列表。
b)市場推送部分。將模型得到的后臺結果推送到市場前端進行精準營銷,市場前端通過不同觸點觸達用戶并進行融合產品營銷。由于最終用戶是否成功辦理轉化會涉及各類原因,故前端在接觸客戶時要分別記錄模型預測準確率以及辦理意向率,并將結果反饋給線下訓練模型,從而實現模型的迭代訓練。
首先進行數據準備,構造模型訓練所需的正負樣本集合。根據BSS 端用戶的簽約信息,收集有寬帶業務和無寬帶業務用戶的歷史OSS數據和BSS數據。對于無寬帶業務用戶,僅通過套餐簽約識別會出現不準確的情況,要結合家庭關系庫以及OSS 用戶行為特征來進行準確識別,為模型訓練打好數據基礎。另外在數據準備過程中的另一個挑戰是正負樣本不均衡,會導致模型過擬合問題,所以在數據準備階段要盡可能多的收集正負樣本集合。
特征工程是提高機器學習模型表現和準確性的重要步驟。對于潛在寬帶用戶識別問題,基于對業務目標的理解以及手中掌握的數據,構造特征集合。本文在進行特征選擇時,會通過可視化的方式,比較有寬帶用戶和無寬帶用戶在各個特征上的差異性,將有明顯區分性的特征加入到特征集合中。圖2展示了有寬帶用戶和非寬帶用戶的小時流量使用對比,可以看到有寬帶用戶的夜間流量使用有明顯的下降特征。圖3 展示了有寬帶用戶和非寬帶用戶在白天(8:00-18:00)的流量與夜晚流量(19:00-24:00)的流量對比,可以發現無寬帶用戶無論在白天還是晚上的流量總體消耗都更多,尤其在夜晚會更加明顯,無寬帶用戶與有寬帶用戶夜晚流量比值為1.6 倍,要大于二者白天流量比值的1.2 倍。其他特征的構造方法類似,這里不再贅述,最終形成的部分用戶特征總結如表1 所示,分別構造了O域特征與B域特征共約40個特征。

表1 O域與B域特征工程表

圖2 有寬帶用戶和無寬帶用戶的小時流量對比

圖3 有寬帶用戶和無寬帶用戶白天和夜晚流量對比
對于模型訓練部分,由于訓練集合正負樣本的不平衡特性,選擇具有類權重參數的Class Weighted eXtreme Gradient Boosting(XGBoost)作為模型來進行模型訓練。對于分類中不同樣本數量的類別,分別賦予不同權重的方法,具體操作是設置類樣本權重反比于類樣本數量。XGBoost的最小化目標函數公式如下:

式(1)和(2)分為2 個部分,第1 部分為損失函數,第2 部分為正則化參數。對于XGBoost,在模型訓練時,可通過調節參數‘scale_pos_weight’值來平衡正負權重。
在模型評估時,應選擇與業務問題相匹配的評估方法。本文中的潛在用戶挖掘問題是二分類問題,對于二分類模型,可采用多種不同的評估方式,如AUC(Area Under Roc Curve)、F1 值、查準率(Precision)、查全率(Recall)等。為了體現模型預測的準確性,將實例分為正類(Positive/+)或負類(Negative/-),對于模型是否預測正確,可形成混淆矩陣,基于得到的混淆矩陣結果可計算F1值、查準率和查全率。三者的計算公式如下:

根據交叉驗證模型在測試集上的表現,得到模型評價指標結果:Precision 為51%,Recall為36.8%,F1值為42.4%。圖4 顯示了Roc 曲線結果,AUC 值為0.648。同時為了驗證模型的泛化能力,繪制了學習曲線,學習曲線是將訓練集誤差和交叉驗證集誤差在不同樣本點數量下的誤差進行對比,從圖5 的學習曲線結果來看,模型具備較好的泛化能力。

圖4 潛在寬帶用戶識別Roc曲線

圖5 潛在寬帶用戶模型學習曲線
將形成的潛在用戶列表推送到市場前端開展各種形式的觸達及融合產品推廣活動,在觸達過程中記錄用戶真實寬帶狀態,以此作為2 種方法的直接驗證指標。圖6 為驗證效果。由結果可以看出,命中到的真實無寬帶用戶及有寬帶用戶比例均高于隨機組,說明方法是有效的,能夠對現網中用戶的真實狀態進行更有效的判斷。

圖6 模型識別方法現網驗證效果
運營商發展融合業務用戶是勢不可擋的大趨勢。本文基于移動網絡大數據和寬帶網絡大數據的聯合分析,提出基于模型的潛在固移融合目標用戶挖掘方法體系可以顯著提高目標用戶的識別率,同時將結果推送到市場前端進行精準營銷,促進用戶進行固移融合套餐產品的遷轉。現網實際驗證的結果表明,運用本文提出的方法發展固移融合用戶,不僅可以提升單用戶ARPU 值,也有助于提高用戶體驗和用戶忠誠度。在后續的研究中,根據市場前端的反饋,將對算法進行不斷迭代,進一步提升整體模型的精準性。