侯興政

摘要:電信行業用戶數據量呈現指數型增加,傳統分析挖掘技術已經不能勝任如此龐大的工作。為此,引入大數據平臺組件Spark進行大數據分析,進而提升分析挖掘的效率。電信用戶的流失造成了運營商經濟利潤嚴重下滑,利用隨機森林算法構建預警模型,挽留可能流失用戶,保證運營商的市場份額。
關鍵詞:流失預警;Spark技術;隨機森林算法
中圖分類號:TPl81
文獻識別碼:A
文章編號:1001-828X(2016)036-000369-01
隨著通信技術的迅猛發展和手機的普及應用,電信行業應用系統的規模迅速擴大,行業內應用所產生的數據量則呈現爆炸性增長趨勢,因此尋求有效的大數據處理技術、方法和手段已經成為現實世界的迫切需求。中國移動一個省的電話通聯記錄數據每月可達0.5PB~1PB,不少專家預測全世界數據量未來10年將增長40余倍,年均增長保持在40%左右。
電信行業的海量數據為數據挖掘技術提供了發揮自己獨特作用的機會,目前也已經存在廣泛的場景應用,尤其是對于行業客戶流失的預警分析。如何減少客戶流失,提高客戶的挽留率,已經是電信業的當務之急??蛻袅魇ьA測是基于歷史數據,對已流失的用戶進行分析,找出這些流失用戶的行為特征,對現有用戶挖掘預測出可能流失的部分,并有針對性地采取相應的挽流政策。為提高海量數據進行分類預測的運行效率,我們引入大數據平臺的spark組件。spark是基于內存計算的大數據并行計算框架,基于內存計算,提高了在大數據環境下數據處理的實時性,同時保證了高容錯性和高可伸縮性,spark是MapReduce的替代方案,而且兼容HDFS、Hive等分布式存儲層,融入Hadoop的生態系統,并彌補MapReduce的不足。如今,Spark分析技術已經被騰訊、雅虎、淘寶、優酷土豆等大型互聯網公司廣泛使用。
首先,我們將流失用戶定義為上一月分出賬繳費,而本月未出賬繳費的用戶。構建用戶流失預警模型,需要結合業務知識進行字段的選取,并加大時間跨度,捕捉更加細節的變化,分析用戶的使用情況的細微波動。選取的字段有標識用戶唯一性的用戶編號、分類類型的標志是否流失、是否為融合業務用戶、VIP會員級別編號、在網時長、資費產品、是否參與合約計劃、發展渠道的類型、每月費用均值、費用波動、本地語音通話均值、本地語音通話波動情況長途語音通話均值、長途語音通話波動、漫游語音通話均值、漫游通話波動、通話次數均值、通話次數波動、流量使用均值、流量使用波動、繳費金額均值、繳費金額波動、近三月是否有過欠費行為、語音飽和度、流量飽和度;同時,通過不斷改變模型的參數,調優分類預測模型效果,以達到最高的精確率。最終,將預測數據分配給客戶服務部門,整合銷售服務資源,根據客戶的需求,設計個性化的營銷策略,快速反應,以此達到召回流失客戶,挽留流失概率高的客戶,實現對客戶的守護。
構建模型選用的分類預測算法為隨機森林,它是組合分類器(ensemble)的一種,組合分類器作為一種復合模型,由多個分類器組合而成。首先,個體分類器進行投票。然后,組合分類器基于投票返回類標號預測結果,進行最終判別,因此組合分類器往往比個體分類器更加準確。隨機森林內的每個個體分類器都是一顆決策樹,構造決策樹時,每個結點隨機選擇F個屬性作為該結點劃分的候選屬性。每一棵樹都依賴于獨立抽樣,并在森林中所有樹具有相同分布的隨機向量的值。分類時,每棵樹都進行投票,隨機森林返回最終得票數最多的預測類別。對于每次迭代使用有放回抽樣,這樣使得某些元組在抽取的樣本中重復出現或者未出現,這樣就保證了樹的多樣性。隨機森林算法對錯誤和離群點的表現出很好的魯棒性。隨著森林中決策樹的數目增長,森林的泛化誤差會收斂,這樣就不存在過擬合問題。在數據處理過程中,往往會遇到數據不平衡問題,即感興趣的一類只有少量數據。提高類不平衡數據分類準確率的方法有過抽樣和欠抽樣。其中,過抽樣是復制稀有類的元組,而欠抽樣則是隨機地刪除多數類別。
對于分類模型所構建的結果,我們可以通過幾個評價度量指標進行衡量。首先,引入混淆矩陣,真正例TP是正確分類的正元組,真負例TN是正確分類的負元組,假正例FP是錯誤標記為正元組的負元組,假負例FN是錯誤標記為負元組的正元組。分類的準確率是被正確分類的元組所占的百分比,但是準確率存在著弊端,在處理不平衡數據時,往往會給出錯誤的效果,為此,我們使用召回率和精確率:
召回率,也稱覆蓋率:被正確預測的正例在整個正例的比例;
精確率,也稱命中率:被預測為正例中真正是正例的比例;
并且,精確率與召回率是一對逆關系,往往需要降低一個為代價而提高另一個。
實例數據結果如下:
原始數據
訓練集:2月份數據總數:244.2082萬(不流失=229.7690萬;流失=14.5563萬)
測試集:3月份數據總數:250.9384萬(不流失=234.7360萬;流失=16.2024萬)
準確率:88.8%覆蓋率:90.45%命中率:97.42%
結合電信行業的業務知識,應用挖掘理論建立起來一套科學的、完整的客戶流失指標體系,有較高的預警效果,希望能將流失預測技術實際應用于電信行業,分析和預測客戶的消費行為特征,從而為建立用戶離網和欠費預警機制提供客觀的、可靠的數據支撐,為制定更好的客戶服務策略提供決策支持。