曾國文 趙寶峰 王波
【摘 要】為了減少運營商核心資源的流失,降低4G用戶流失率,通過采用與大數據技術緊密結合的R語言技術,從消費異動、競爭對手影響、不正常沉默和長期異地漫游等維度設計建模指標,基于邏輯回歸分析搭建了4G用戶流失預警模型,并通過卡方檢驗和ROC分析等方法驗證了模型的正確性。該模型預測效果明顯,可以很好地對4G用戶的狀態進行精準定位,以達到對4G用戶的保有。
【關鍵詞】4G用戶 流失預警模型 R語言 邏輯回歸
1 引言
隨著數據通信與多媒體業務的發展,第四代移動通信(4G)快速興起,為移動通信用戶提供了“高速對話”,通信運營商全業務經營已成趨勢,這也加劇了市場競爭,為了獲得更多的市場占有率,運營商想方設法降低用戶流失率,以減少用戶離網現象的發生。研究表明,若一個公司的用戶流失率降低5%,則利潤將會增加25%~85%[1]。企業往往獲得一位新用戶的費用是比較高的,但是挽留一位用戶有時僅僅只需要一個電話或者策略[2]。因此,運營商需對用戶屬性進行精準定位,試圖挽留存在流失傾向的用戶資源[3]。4G用戶資源儼然已成為運營商核心資源,如何通過建立數據挖掘模型進行4G用戶流失預警,對有流失傾向的用戶進行精準定位是當前重要課題。本文通過對用戶流失歷史情況進行統計分析,歸納出用戶流失的共有特性,設計建模指標,搭建4G用戶流失預警模型并提出相應的挽留政策,最終目的是降低用戶流失率[4]。
2 建模技術及模型選擇
2.1 建模技術選擇
R語言一直是統計學家的經典工具,它是一種開源軟件編程語言與操作環境,主要用于統計分析、繪圖、數據挖掘。R語言具有豐富的統計方法,擁有強大的統計功能,是一套完整的數據處理、計算和制圖軟件系統,提供數學計算的環境,用戶能夠靈活地在其中進行數據分析,甚至創造出符合需要的新的統計計算方法。
此外,大數據處理是潮流和趨勢。當前出現了以Hadoop家族為代表的用于開發和運行處理大規模數據的軟件平臺,重點是全量數據分析,而R語言的重點則是樣本數據分析,這兩種技術結合在一起剛好取長補短。因此,本文采用R語言作為數據建模語言,后續的建模過程均基于R語言開展。
2.2 模型選擇
用戶流失即企業原有用戶不想或不再使用該企業的服務[5]。用戶流失的原因多種多樣,如:Kenveney通過對消費品用戶流失原因進行分析,將用戶流失類型分為價格流失型、產品流失型、服務流失型、技術流失型、便利流失型等;Madden、Savage和Coble以澳大利亞ISP市場不同的移動用戶消費行為為研究對象,提出定價、不方便性、核心服務失敗、服務接觸失敗、服務失敗的反應、競爭對手、道德問題等因素影響用戶流失意愿[6]。
邏輯回歸分析方法[7]是數據挖掘技術中的分類方法,也是基于統計理論的識別技術。其主要目的是進行分類,同時預估事件發生的概率,優點是能處理二值因變量,不需滿足其他多變量技術所要求的假設,可進行模型精確度和擬合優度的檢驗以便評估模型的預測力等。
本文采用了邏輯回歸技術來搭建4G用戶流失預警模型。從運營商的角度來看,用戶狀態可分為在網和離網。其中,在網為依然使用運營商為其提供的服務;離網為不再使用,也即是流失。判斷用戶狀態屬于一個典型的二分類變量問題時,可采用邏輯回歸分析來處理。邏輯回歸模型公式如下[8]:
(1)
由于邏輯回歸模型是非線性模型,所以就少了像線性模型那樣的約束,如自變量與因變量需具有線性關系等。其實邏輯回歸本質上是線性回歸的一種,只是邏輯回歸中的因變量是未知的類別變量取某一個值的概率[9]。邏輯回歸是一個被邏輯方程歸一化后的線性回歸,事實上以上模型公式只需進行log it變換即可變換成線性形式,公式如下:
log it (2)
4G用戶流失預警模型設計流程如圖1所示:
3 用戶流失預警模型構建
3.1 分析思路
本文將搭建4G用戶流失預警模型,其研究過程主要實現以下目標:
(1)定義4G用戶的消費異動、不正常沉默、呼轉競爭對手、異地漫游這4類流失類型的口徑,完成建模指標的設計;
(2)搭建4G用戶流失預警模型;
(3)對模型進行評估驗證。
建模過程:該業務問題是一個二元預測問題(是否流失),并且與之相關的數據大都是數值型的數據,適合采用邏輯回歸的方法來建模。
3.2 建模指標設計與分析
通過對已流失4G用戶進行觀察、統計和分析,發現在用戶流失之前可能會出現以下方面的情況,可圍繞這些情況進行建模指標的選取:
(1)消費異動:與歷史消費水平相比,突然出現消費異常波動,一般通信行業選取ARPU(Average Revenue Per User,每用戶平均收入)值作為衡量用戶消費水平的指標,因此設計建模指標包括近三個月ARPU標準差、(本月ARPU-前三均值)/前三均值;
(2)競爭對手影響:用戶日常聯系的主要通信圈子外網占比增加,網外通話占比增加,受競爭對手客服的影響或者有呼轉到競爭對手的情況,因此設計建模指標包括本月網內通話次數占比、本月網外通話時長占比、本月網外主叫次數占比、本月競爭對手客服主被叫通話次數、本月呼轉競爭對手次數;
(3)不正常沉默:通信行為出現突然減少乃至不正常沉默,從通話時長、通話次數和4G流量的使用情況綜合考量,因此設計建模指標包括(本月通話時長-前三均值)/前三均值、最近三個月MOU(Minutes Of Usage,平均每戶每月通話時間)值標準差、(本月通話次數-前三均值)/前三均值、前三月通話次數均值/本月通話次數、最近三個月聯系次數標準差、本月4G流量;
(4)長期異地漫游:若用戶近期經常在異地漫游,則有可能該用戶主要生活在異地,并有可能換號,因此設計建模指標包括(本月異地漫游通話次數/本月通話總次數)-(異地漫游通話次數前三均值/通話總次數前三均值)、(本月異地漫游通話次數/本月通話總次數)-(上月異地漫游通話次數/上月通話總次數)、本月異地漫游通話次數、上月異地漫游通話次數;
(5)其他:統計分析還發現流失用戶與入網時長關系緊密,入網時長越長,流失的可能性就越小,因此把入網時長也作為建模指標。
3.3 數據準備與數據探索
(1)數據準備
從廣東移動某分公司經營分析數據集市,通過ETL獲取上述建模指標所需數據源,數據提取的口徑完全參照該運營商市場部門日常工作需求。如提取2015年涉及上述指標所需的在網和離網4G用戶消費及通信行為基礎數據集,總樣本數為559 185,其中選取訓練集和測試集比例為6:4。
將所有基礎數據集從數據集市導出到R語言建模環境,在該建模環境對數據進行預處理,采用統計方法計算生成數據建模指標。因變量為用戶是否流失,也即該字段判斷用戶是在網還是已經離網;自變量為用戶消費通信行為各指標字段。
(2)數據探索
在對基礎數據進行數據探索的過程中,發現存在缺失值,因此利用R語言函數進行缺失值分析。繪制缺失值統計圖如圖2所示:
考慮到缺失值或異常值對統計分析結果和建模結果會產生不利影響,因此直接剔除缺失的數據和消費波動很大的數據。
進行建模指標的相關性分析時,部分指標的相關性分析結果如圖3所示:
回歸分析一般假設建模變量之間都是獨立不相關的,如果有任何兩個變量存在強相關性,則只需保留其中一個而刪除其余變量[9]。將建模指標中存在明顯相關的指標進行篩選剔除,使得所有自變量都不顯著相關,避免自變量之間存在很強的共線性而導致模型效果不好。
采用箱線圖、直方圖、分析曲線等統計圖表技術對各建模指標數據進行分散分布情況分析,發現異常指標,尋找奇異值,并進一步進行數據清洗和數據轉換,以確保建模數據的有效性。
3.4 數據建模與模型評估
(1)數據建模
本文研究過程中將樣本數據按0.6、0.4的比例分為訓練集和測試集,進行數據建模分析的時間窗口設置如圖4所示:
采用R語言邏輯回歸函數對已經完成數據清洗和轉換的訓練集數據建模指標進行邏輯回歸建模,經過反復多次的建模指標分析,剔除掉P-Value值小于0.05的指標,再用評估函數對模型結果進行初步評估,具體如圖5所示:
從上述評估結果可以發現,所有變量的P值均小于0.05,這說明通過了顯著性檢驗。至此,已完成了基于R語言搭建的通信運營商4G用戶流失預警模型,下面需要對模型進行深入評估。
(2)模型評估
先對模型進行卡方檢驗,檢驗結果如圖6所示:
隨著變量從第一個到最后一個逐個加入模型,模型最終通過顯著性檢驗,這說明由上述這些變量組成的模型是有意義且正確的。
采用ROC曲線(Receiver Operating Characteristic Curve,受試者工作特征曲線)分析方法這樣一種可視化的方法來衡量模型的優劣。該曲線的橫坐標、縱坐標分別表示1-反例的覆蓋率和正例的覆蓋率。采用R語言專有函數包計算ROC曲線各項結果值,并用繪圖函數繪制圖形,具體如圖7所示。
ROC分析思想來源于統計學的決策理論,ROC曲線越凸則說明判斷模型價值越高,并可以通過計算ROC曲線下的面積做定量分析,面積越接近1,表明模型效果越好[10]。
圖7中,AUC即為ROC曲線和y=x直線之間的面積,模型的優劣是通過該面積大小來判斷的,而對于一般情況而言,AUC大于0.7就能夠說明模型是比較合理的。上述結果中,AUC為0.86,這表明本文研究中建立的模型是合理的。
使用已建好的模型計算測試數據集流失概率,取流失概率大于0.5的用戶預測其潛在流失,再與實際情況比較得到命中率為pv=74%,而在隨機的方式下抽取出正類的比例為k=10%,從而可得pv/k=7.4,預測效果提升了7.4倍,同時計算模型的整體準確率達到了91.4%,因此本文研究搭建的模型效果是明顯的,模型預測的準確率也能達到較高水平,可從消費異動、競爭對手影響、不正常沉默和長期異地漫游等維度指標建模準確地預測用戶是否潛在流失。
4 結論
本文采用能夠很好地結合大數據技術的R語言來建模,并從消費異動、競爭對手影響、不正常沉默和長期異地漫游等維度創新性地設計建模指標,最終成功搭建了4G用戶流失預警模型。通過卡方檢驗和ROC曲線驗證了模型是正確的、合理的,計算提升值提升了7.4倍,且計算模型的整體準確率達到了91.4%,這表明模型預測效果是明顯的,從而驗證了本文研究的模型有助于對有流失傾向的用戶進行精準定位,以便及時地進行預警挽留,達到對核心資源的保有。
參考文獻:
[1] 方紅. 讀者流失預警模型及其在公共圖書情報機構中的應用[J]. 黑龍江科技信息, 2007(4): 103.
[2] 嚴偉. 如何防范客戶流失[J]. 企業管理, 2003(6): 52-54.
[3] 林明輝. 基于BP網絡的通訊行業客戶流失預警模型研究[J]. 陜西學前師范學院學報, 2016,32(3): 146-149.
[4] 顧光同,王力賓,費宇. 電信客戶流失預警規則及其信度測定實證研究——以云南電信為例[J]. 云南財經大學學報, 2010,26(6): 94-98.
[5] 肖水清. 基于CRM探討電信業的客戶流失問題[J]. 現代計算機, 2006(1): 57-59.
[6] SY Hung, DC Yen, HY Wang. Applying data mining to telecom churn management[J]. Expert Systems with Applications, 2006,31(3): 515-524.
[7] 施朝健,張明銘. Logistic回歸模型分析[J]. 計算機輔助工程, 2005,14(3): 74-78.
[8] 付杰,方芳,嚴克文. 基于Logistic回歸的通信業客戶流失預測與挽留研究[J]. 鄂州大學學報, 2015,22(6): 110-112.
[9] 任康,李剛. Logistic回歸模型在判別分析中的應用[J]. 統計與信息論壇, 2007,22(6): 71-73.
[10] 萬柏坤,薛召軍,李佳,等. 應用ROC曲線優選模式分類算法[J]. 自然科學進展, 2006,16(11): 1511-1516.