999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Spark平臺的電信行業用戶流失預警

2017-05-06 15:31:25侯興政
現代經濟信息 2016年36期

侯興政

摘要:電信行業用戶數據量呈現指數型增加,傳統分析挖掘技術已經不能勝任如此龐大的工作。為此,引入大數據平臺組件Spark進行大數據分析,進而提升分析挖掘的效率。電信用戶的流失造成了運營商經濟利潤嚴重下滑,利用隨機森林算法構建預警模型,挽留可能流失用戶,保證運營商的市場份額。

關鍵詞:流失預警;Spark技術;隨機森林算法

中圖分類號:TPl81

文獻識別碼:A

文章編號:1001-828X(2016)036-000369-01

隨著通信技術的迅猛發展和手機的普及應用,電信行業應用系統的規模迅速擴大,行業內應用所產生的數據量則呈現爆炸性增長趨勢,因此尋求有效的大數據處理技術、方法和手段已經成為現實世界的迫切需求。中國移動一個省的電話通聯記錄數據每月可達0.5PB~1PB,不少專家預測全世界數據量未來10年將增長40余倍,年均增長保持在40%左右。

電信行業的海量數據為數據挖掘技術提供了發揮自己獨特作用的機會,目前也已經存在廣泛的場景應用,尤其是對于行業客戶流失的預警分析。如何減少客戶流失,提高客戶的挽留率,已經是電信業的當務之急??蛻袅魇ьA測是基于歷史數據,對已流失的用戶進行分析,找出這些流失用戶的行為特征,對現有用戶挖掘預測出可能流失的部分,并有針對性地采取相應的挽流政策。為提高海量數據進行分類預測的運行效率,我們引入大數據平臺的spark組件。spark是基于內存計算的大數據并行計算框架,基于內存計算,提高了在大數據環境下數據處理的實時性,同時保證了高容錯性和高可伸縮性,spark是MapReduce的替代方案,而且兼容HDFS、Hive等分布式存儲層,融入Hadoop的生態系統,并彌補MapReduce的不足。如今,Spark分析技術已經被騰訊、雅虎、淘寶、優酷土豆等大型互聯網公司廣泛使用。

首先,我們將流失用戶定義為上一月分出賬繳費,而本月未出賬繳費的用戶。構建用戶流失預警模型,需要結合業務知識進行字段的選取,并加大時間跨度,捕捉更加細節的變化,分析用戶的使用情況的細微波動。選取的字段有標識用戶唯一性的用戶編號、分類類型的標志是否流失、是否為融合業務用戶、VIP會員級別編號、在網時長、資費產品、是否參與合約計劃、發展渠道的類型、每月費用均值、費用波動、本地語音通話均值、本地語音通話波動情況長途語音通話均值、長途語音通話波動、漫游語音通話均值、漫游通話波動、通話次數均值、通話次數波動、流量使用均值、流量使用波動、繳費金額均值、繳費金額波動、近三月是否有過欠費行為、語音飽和度、流量飽和度;同時,通過不斷改變模型的參數,調優分類預測模型效果,以達到最高的精確率。最終,將預測數據分配給客戶服務部門,整合銷售服務資源,根據客戶的需求,設計個性化的營銷策略,快速反應,以此達到召回流失客戶,挽留流失概率高的客戶,實現對客戶的守護。

構建模型選用的分類預測算法為隨機森林,它是組合分類器(ensemble)的一種,組合分類器作為一種復合模型,由多個分類器組合而成。首先,個體分類器進行投票。然后,組合分類器基于投票返回類標號預測結果,進行最終判別,因此組合分類器往往比個體分類器更加準確。隨機森林內的每個個體分類器都是一顆決策樹,構造決策樹時,每個結點隨機選擇F個屬性作為該結點劃分的候選屬性。每一棵樹都依賴于獨立抽樣,并在森林中所有樹具有相同分布的隨機向量的值。分類時,每棵樹都進行投票,隨機森林返回最終得票數最多的預測類別。對于每次迭代使用有放回抽樣,這樣使得某些元組在抽取的樣本中重復出現或者未出現,這樣就保證了樹的多樣性。隨機森林算法對錯誤和離群點的表現出很好的魯棒性。隨著森林中決策樹的數目增長,森林的泛化誤差會收斂,這樣就不存在過擬合問題。在數據處理過程中,往往會遇到數據不平衡問題,即感興趣的一類只有少量數據。提高類不平衡數據分類準確率的方法有過抽樣和欠抽樣。其中,過抽樣是復制稀有類的元組,而欠抽樣則是隨機地刪除多數類別。

對于分類模型所構建的結果,我們可以通過幾個評價度量指標進行衡量。首先,引入混淆矩陣,真正例TP是正確分類的正元組,真負例TN是正確分類的負元組,假正例FP是錯誤標記為正元組的負元組,假負例FN是錯誤標記為負元組的正元組。分類的準確率是被正確分類的元組所占的百分比,但是準確率存在著弊端,在處理不平衡數據時,往往會給出錯誤的效果,為此,我們使用召回率和精確率:

召回率,也稱覆蓋率:被正確預測的正例在整個正例的比例;

精確率,也稱命中率:被預測為正例中真正是正例的比例;

并且,精確率與召回率是一對逆關系,往往需要降低一個為代價而提高另一個。

實例數據結果如下:

原始數據

訓練集:2月份數據總數:244.2082萬(不流失=229.7690萬;流失=14.5563萬)

測試集:3月份數據總數:250.9384萬(不流失=234.7360萬;流失=16.2024萬)

準確率:88.8%覆蓋率:90.45%命中率:97.42%

結合電信行業的業務知識,應用挖掘理論建立起來一套科學的、完整的客戶流失指標體系,有較高的預警效果,希望能將流失預測技術實際應用于電信行業,分析和預測客戶的消費行為特征,從而為建立用戶離網和欠費預警機制提供客觀的、可靠的數據支撐,為制定更好的客戶服務策略提供決策支持。

主站蜘蛛池模板: 中国一级毛片免费观看| 久久夜色精品| 伊人久久大香线蕉成人综合网| 视频一本大道香蕉久在线播放 | 国产精品亚欧美一区二区三区 | 亚洲系列中文字幕一区二区| 国产真实乱人视频| 国产成人精品男人的天堂下载 | 国产日韩欧美在线播放| 老熟妇喷水一区二区三区| 中文字幕久久亚洲一区| 成人免费网站久久久| 女同久久精品国产99国| 国产特一级毛片| 精品人妻AV区| 伊人色天堂| 久无码久无码av无码| 久久99精品久久久久久不卡| 欧美成人午夜在线全部免费| 伊人成人在线视频| 色首页AV在线| 亚洲侵犯无码网址在线观看| 91精品国产91久无码网站| 亚洲美女一区二区三区| 亚洲永久免费网站| 欧美国产日韩一区二区三区精品影视| 国产精品99在线观看| 欧美日韩福利| 91精品专区| 无码精品国产VA在线观看DVD| 久久99国产视频| 国产男人的天堂| 一级毛片免费高清视频| 无码人妻免费| 日本一区二区三区精品国产| 久久精品免费看一| 色噜噜综合网| 久久亚洲欧美综合| 99在线视频网站| 午夜啪啪网| 狠狠综合久久| 天堂网亚洲综合在线| 在线看片免费人成视久网下载| 久久这里只精品国产99热8| 992tv国产人成在线观看| 国产中文一区a级毛片视频| 91国语视频| 亚洲国产欧美国产综合久久 | 国产一级α片| 丰满人妻被猛烈进入无码| 精品自拍视频在线观看| 在线免费观看a视频| 久久婷婷六月| 久草视频福利在线观看| 成人在线观看一区| 这里只有精品国产| 91亚瑟视频| 激情综合图区| 天天躁日日躁狠狠躁中文字幕| 国产精品自在自线免费观看| 中文字幕 日韩 欧美| 99久久精品国产精品亚洲| 高潮爽到爆的喷水女主播视频 | 中文字幕亚洲另类天堂| 性欧美久久| 亚洲V日韩V无码一区二区| 丝袜亚洲综合| 亚洲性视频网站| 老汉色老汉首页a亚洲| 亚洲无码91视频| 天天躁狠狠躁| 国产美女丝袜高潮| 在线日韩一区二区| 女人18毛片一级毛片在线| 天天色天天操综合网| 91精品啪在线观看国产| 黄色网页在线播放| 国产产在线精品亚洲aavv| 香蕉视频在线观看www| 精品无码一区二区三区电影| 中文字幕无码电影| 日韩欧美色综合|