◆趙雨露
基于大數(shù)據(jù)分析的電信用戶離網(wǎng)預(yù)測
◆趙雨露
(江蘇省南通市海安市住房和城鄉(xiāng)建設(shè)局檔案館 江蘇 226600)
本文通過對用戶數(shù)據(jù)庫中的數(shù)據(jù)進行挖掘分析,分析南通電信用戶的離網(wǎng)現(xiàn)狀、原因,挖掘出電信用戶流失的影響因子,通過計算、分析,得出影響因子的閾值。最后基于xgboost算法,以客戶離網(wǎng)行為分析為前提,根據(jù)已有數(shù)據(jù)進行分類歸納,將離網(wǎng)數(shù)據(jù)進行量化后,利用多種算法進行投票表決,從而計算出用戶的離網(wǎng)規(guī)則,根據(jù)設(shè)置的風(fēng)險值來判斷用戶是否具有離網(wǎng)傾向。本文最大的創(chuàng)新點在于,加入了營銷話術(shù)的匹配程度,判斷在得出離網(wǎng)用戶的同時是否能夠挽回用戶,實現(xiàn)精準(zhǔn)營銷。
離網(wǎng);數(shù)據(jù)分析;xgboost;營銷話術(shù)
隨著信息技術(shù)的高速發(fā)展和移動終端的飛速進步,家用寬帶和電信用戶的規(guī)模也在不斷擴大,同時,因為運營商之間的價格競爭激烈,并且面臨互聯(lián)網(wǎng)技術(shù)的巨大挑戰(zhàn),離網(wǎng)用戶的規(guī)模也日漸增多,寬帶等移動產(chǎn)品作為電信行業(yè)的主要收入來源,在國家提速降費政策面前停滯不前,面臨巨大的挑戰(zhàn)。
數(shù)據(jù)挖掘能夠分析用戶痛點、癢點、興奮點,以大數(shù)據(jù)為驅(qū)動力,以統(tǒng)計學(xué)習(xí)為工具,深入客戶潛在的需求。通過機器學(xué)習(xí)算法可以有效地挖掘出離網(wǎng)用戶,但是如何精確營銷,使用哪種營銷話術(shù)挽回離網(wǎng)用戶是一大難題。
精準(zhǔn)營銷就是企業(yè)需要更精準(zhǔn)地把握市場動向、客戶需求、企業(yè)效益目標(biāo),結(jié)合客戶日常行為數(shù)據(jù),給客戶進行更個性化的服務(wù)。
在電信行業(yè),國外運營商也早已涉足大數(shù)據(jù)技術(shù)應(yīng)用:美國 T-mobiles 采用 Informatica-The Data Integration Company 平臺開展大數(shù)據(jù)工作,通過對客戶流失原因的分析,可以對潛在流失客戶進行預(yù)警,根據(jù)不同客戶的需求,提供個性化的服務(wù),以最大程序減少客戶的流失。
客戶離網(wǎng)是全球各大電信運營商非常重視的話題,根據(jù)統(tǒng)計,美國電信行業(yè)的客戶離網(wǎng)率達到了30%,歐洲則為25%。客戶離網(wǎng)導(dǎo)致的直接后果就是公司利益的損失,因此對客戶離網(wǎng)進行預(yù)警,能夠?qū)Ω邼撛陔x網(wǎng)的用戶進行挽留操作。
如果存在高潛在離網(wǎng)用戶,通過對該用戶的歷史行為進行分析,懂得用戶真正的需求,給用戶進行個性化的服務(wù)推薦,滿足用戶需求,可以減小用戶離網(wǎng)的可能性。
本文研究內(nèi)容主要可以分為下面三個部分:一是基于用戶行為、用戶屬性的離網(wǎng)預(yù)測,前期對電信大量數(shù)據(jù)進行預(yù)處理(樣本采樣、過濾,數(shù)據(jù)分類、歸一化、離散化、特征降維等等),通過公式計算得出一些列規(guī)律,建立較為準(zhǔn)確的模型和損失函數(shù),使用正規(guī)化選擇較好的算法模型,利用梯度下降算法對參數(shù)進行快速的確定,最后使用xgboost,將多個算法結(jié)合投票的得出結(jié)果。二是基于得出的離網(wǎng)用戶,配合各個不同營業(yè)員的特征參數(shù),話術(shù)參數(shù)進行第二次回歸分析將第一步得到的結(jié)果,作為第二部的參數(shù),再次進行分類,利用Softmax回歸進行分類,得出結(jié)果。第三針對第一步和第二部的結(jié)果精準(zhǔn)判斷哪些是潛在用戶,哪些是保有用戶,哪些是離網(wǎng)用戶,正確畫出用戶畫像后,對比用戶的購買行為,在第一層使用邏輯回歸算法,第二層使用人工神經(jīng)網(wǎng)絡(luò),從而實現(xiàn)精準(zhǔn)營銷。
數(shù)據(jù)獲取:在南通市電信局,我們采用HDFS和Spark負責(zé)原始數(shù)據(jù)的存儲和管理包括詳細的通話記錄單及寬帶用戶表。其中兩張表均含有用戶自身數(shù)據(jù),包括年齡、性別、主套餐、融合套餐、資費、基站、套餐使用情況、教育程度、通話時間、最大流量APP、流量使用前10名APP等。
數(shù)據(jù)預(yù)處理:(1)進行數(shù)據(jù)清理,對數(shù)據(jù)的唯一屬性值進行刪除(如身份證、姓名等)。(2)對數(shù)據(jù)進行缺失值填充,先對異常數(shù)據(jù)進行過濾,將其值變?yōu)榭刂疲缓笫褂美窭嗜詹逯捣椒▽?shù)據(jù)進行填充,使用回歸方法進行噪聲平滑處理。(3)對特征值進行One-HotEncoding,使得我們能夠處理非數(shù)值屬性;在一定程度上擴充了特征;編碼后的屬性是稀疏的,存在大量的零元分量。(4)對數(shù)據(jù)進行標(biāo)準(zhǔn)化操作于每個屬性,設(shè)minA和maxA分別為屬性A的最小值和最大值,將A的一個原始值x通過min-max標(biāo)準(zhǔn)化映射成在區(qū)間[0,1]中的值x',其公式為:新數(shù)據(jù)=(原數(shù)據(jù) - 最小值)/(最大值 - 最小值)。(5)因為前期進行了One-HotEncoding,為了減輕維度災(zāi)難問題,對特征向量使用filter進行降維處理。
Feature Engineering:特征工程模塊將原始數(shù)據(jù)處理成和離網(wǎng)相關(guān)的結(jié)構(gòu)化特征,用作分類器的輸入,在這里,我們使用GMM和EM聚類方法。我們將用戶的特征集進行劃分,得到了三種行為分類:通信行為判別模型、交友圈與社交行為模型、業(yè)務(wù)質(zhì)量感知評估模型。
Classifiers:利用分類器訓(xùn)練出來的模型預(yù)測未來有離網(wǎng)傾向的用戶,按照離網(wǎng)傾向高低排名,根據(jù)這個名單進行個性化維挽。在分類過程中,我們整體的算法使用了投票的機制,運用多種機器學(xué)習(xí)算法,得出閾值,再對閾值進行xgboost分類,從而德奧最終的結(jié)果,在第一層,我們分別使用了SVM算法、隨機森林算法、邏輯回歸算法,最后使用決策樹將三種算法的閾值進行分類,得到最后的分類結(jié)果。最后將用戶維挽的結(jié)果反饋到模型中形成閉環(huán),不斷提高模型預(yù)測容易維挽的離網(wǎng)用戶精度。通過設(shè)置一個預(yù)警值來進行離網(wǎng)預(yù)警,使用隨機森林畫出用戶特征值的影響程度,并找到最相關(guān)的特征變量。通過交叉驗證,進行模型的優(yōu)化,防止過擬合和欠擬合,模型融合可以比較好地緩解訓(xùn)練過程中產(chǎn)生的過擬合問題,從而對于結(jié)果的準(zhǔn)確度提升有一定的幫助。用python中scikit-learn里面的Bagging來完成。
結(jié)合營銷話術(shù)進行二次分類:本文最大的亮點就是在找到離網(wǎng)用戶和即將離網(wǎng)的情況下,如何通過營銷話術(shù)和用戶行為偏好挽留用戶,在這里,我們結(jié)合已經(jīng)畫好的用戶畫像,對我們的營業(yè)員數(shù)據(jù)和營銷數(shù)據(jù)進行結(jié)合,再次進行新的一輪數(shù)據(jù)清理,使用人工審計網(wǎng)絡(luò)的方法對每一項特征值計算得出相對應(yīng)的權(quán)值,使用后向傳播算法對其進行二次分類。
收集用戶屬性和偏好。要從客戶的行為和偏好中發(fā)現(xiàn)規(guī)律,并基于此給予推薦,如何收集用戶的偏好信息成為系統(tǒng)推薦效果最基礎(chǔ)的決定因素。
找到相似的用戶。當(dāng)已經(jīng)對用戶行為進行分析得到用戶喜好后,我們可以根據(jù)用戶喜好計算相似用戶,然后基于相似用戶進行推薦,這就是最典型的基于用戶的協(xié)同過濾。最后采用皮爾遜相關(guān)系數(shù)或者余弦相似度計算用戶的相似度。
計算推薦。基于用戶對物品的偏好找到相鄰鄰居用戶,然后將鄰居用戶喜歡的推薦給當(dāng)前用戶。計算上,就是將一個用戶對所有物品的偏好作為一個向量來計算用戶之間的相似度,找到 K 鄰居后,根據(jù)鄰居的相似度權(quán)重以及他們對物品的偏好,預(yù)測當(dāng)前用戶沒有偏好的未涉及物品,計算得到一個排序的物品列表作為推薦。
初始化推薦列表,對列表進行過濾、排名等處理,從而生成最終的推薦結(jié)果。
[1]王文學(xué),陳天池,徐海燕.大數(shù)據(jù)在電信行業(yè)的應(yīng)用研究[J].信息通信,2019(03):241-243.
[2]姚黎強.大數(shù)據(jù)在運營商中的應(yīng)用[J].電信工程技術(shù)與標(biāo)準(zhǔn)化,2018,31(09):56-59.
[3]王遠征,吳峰,夏明鏡,等.電信寬帶用戶離網(wǎng)大數(shù)據(jù)預(yù)測實例[J].電信技術(shù),2016(10):83-87.