摘 要:隨著移動互聯網的發展,電信運營商的傳統語音和短信收入快速下降,同時流量價值也不斷向云端結合的OTT服務商轉移,擠壓運營商收入增長空間。文章通過研究電信運營商大數據能力優勢及精準營銷需求,基于logistic回歸模型,提出了電信運營商流量經營的大數據精準營銷應用,有效提升客戶的滿意度,快速提高運營商效益。
關鍵詞:logistic回歸模型;大數據應用;運營商;流量經營
隨著移動互聯網的發展,流量已成為客戶的核心需求,能否順利從以“話務量”為中心的經營轉向“流量經營”轉型,能否通過流量經營提升公司的價值,已成為運營商戰略轉型的關鍵。移動互聯網時代的流量經營與語音和寬帶業務的經營有很大不同:客戶使用的終端多樣性,流量承載的內容性豐富,客戶流量使用行為的數據的復雜性,僅通過傳統的“暴力營銷”極易引起客戶的反感和投訴。基于logistic回歸模型的大數據精準營銷應用將有效解決提升客戶滿意度及運營商效益提升問題。
1 基于logistic回歸模型的大數據精準營銷應用的解決方案
1.1 基本思路
根據用戶的特征,判別哪些是誘發用戶訂購流量包的因素,使用logistic回歸分析出其影響權重,從而預測哪些用戶是潛在的訂購用戶。
1.2 logistic模型
根據樣本數據可以通過最似然估計法計算出模型參數。
1.3 抽取數據
抽取五大類11子項數據作為分析顆粒度。
1.4 數據描述
本模型使用部分流量包訂購數據,它有94455個樣本觀測,每個觀測包括12個變量:
用戶號碼(phone)、使用流量(current_flow)、套餐類型(taocan_type)、終端類型(os)、用戶類型(utype)、訂購狀態(order)、套餐消耗比(main_rate)、日均使用流量(avg_day_flow)、閑時消耗比(free_rate)、活躍度(day_log_count)、APP個數(client_count)和潛力值(big_client_pv)。
1.4.1 觀測樣本套餐劃分情況:
3G套餐包括A/B/C/iPhone/wopai,占比為36%;2G套餐根據流量分為流量卡(占比28%)和非流量卡(占比35%)。
1.4.2 觀測樣本終端情況
Android操作系統用戶占比達51%,iOS操作系統用戶占比為9%。
1.4.3觀測樣本流量使用情況
把觀測樣本用戶使用流量劃分成8個區間,對流量需求旺盛用戶開展流量包營銷非常必要。(圖3)
1.4.4 觀測樣本流量飽和度情況
極大部分用戶都出現了流量超套行為,占一半用戶以上,進行合適的流量包推送很在必要。(圖4)
2 基于logistic回歸模型的大數據精準營銷應用的模型建立
2.1 數據
隨機抽取80%的數據(75564條)建立一個logistic模型,再用余下20%的數據(18891條)進行預測。
2.2 方法
多元logistic模型,使用stepwise選擇變量。
2.3 變量
涉及多個分類變量-用戶類型、終端類型和套餐類型,設置啞變量處理,并設置相應的參照水平-3G用戶、Andriod終端和A套餐。
2.4 影響因素參數估計
2.4.1 整體顯著性檢驗
假設:H0:b1=b2=…=bn=0;H1:b1,b2,…bn不全為0。
檢驗的結果如下所示:從表4中可以看到p-value<0.0001,拒絕原假設,說明回歸系數對模型有顯著性的影響,這個模型整體上比空模型更顯著。
2.4.2 參數估計
從表5中可以看到9個因素的回歸系數都通過了Wald Chi-Square檢驗,說明各系數在統計上是顯著的。
2.5 模型結論
閑時消耗率、終端類型、套餐類型為此模型中誘發訂購行為的最重要的三個因素。(表6)
2.6 參數意義
回歸的系數給出了概率的對數變化一個單位對應的預測變量的增加。OR比是取冪的系數,可以解釋為乘法概率增加一單位預測變量的變化。3G用戶相對于2G用戶:訂購概率的對數增加1.7443;訂購的概率相對不訂購的概率增加0.175。Current_flow增加1M:訂購概率的對數增加0.00116;訂購的概率相對不訂購的概率增加1.001。(表7)
2.7 模型描述
預測模型:
3 基于logistic回歸模型的大數據精準營銷應用監測及實施案例
(1)對 18891個用戶數據進行預測,ROC曲線如下:
·訂購覆蓋率Sensitivity=正確預測到的訂購數/實際訂購總數
·未訂覆蓋率Specificity=正確預測到的未訂數/實際未訂總數
·ROC曲線是在不同閾值下,Sensitivity和1-Specificity 的組合。隨著閾值的減小(更多的用戶就會被認為訂購),Sensitivity和1-Specificity 也相應增加。
·ROC曲線與45度線偏離越大,AUC值越大,模型的效果就越好。
·閾值e=0.5時, Sensitivity=75.24%
Specificity=87.14%
設檢驗數據中訂購的比率為p,預測結果中訂購的比率為Depth,命中率PV+=正確預測到的訂購數/預測訂購總數,提升值Lift=PV+/p,Lift圖表示不同閾值下Lift和Depth的軌跡。用來衡量:與不利用模型相比,模型的預測能力“變好”了多少。Lift值越大,模型的運行結果越好。
圖5,在depth為1之前,lift一直保持較高的(大于1的)數值,表明此模型分類效果良好。
(2)預測檢驗-混淆矩陣:
對18891個用戶數據進行預測,設e=0.5,結果如下:
4 結束語
該模型的應用極大提高了目標用戶營銷成功率,較運用前營銷成功率提升50%,用戶投訴率降低60%,效果顯著。基于logistic回歸模型大數據分析,匹配流量用戶特征,科學分析用戶需求點,達到公司與用戶雙贏。
參考文獻
[1]安·A.奧康奈爾,定序因變量的logistic回歸模型/格致方法定量研究系列[M].北京:清華大學出版社,2009.
[2](美)梅納德.應用logistic回歸分析(第二版)[M].李俊秀,譯.格致出版社,2012.
[3]顧芳,劉旭峰,左超.大數據背景下運營商移動互聯網發展策略研究[J].郵電設計技術,2012.
[4]童曉渝,張云勇,房秉毅,等.大數據時代電信運營商的機遇[J].通信信息技術,2013.