999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于C5.0算法的電信用戶流失預警分析

2014-08-10 08:10:00張衛東
宜賓學院學報 2014年6期
關鍵詞:數據挖掘用戶模型

張衛東,李 媛

(成都理工大學管理科學學院,四川成都610059)

基于C5.0算法的電信用戶流失預警分析

張衛東,李 媛

(成都理工大學管理科學學院,四川成都610059)

穩定客戶是電信企業提高競爭力的關鍵,將數據挖掘技術應用于電信企業的客戶保有,采用基于客戶行為的客戶細分方法,運用信息熵增益的決策樹算法,實現客戶的細分.構建客戶流失預警分析模型,為企業提供準確、可靠的決策指導,找出流失客戶,幫助電信公司有針對性地改善客戶關系,避免客戶流失.

客戶流失;C5.0;業務;預警分析

隨著4G牌照的發放,電信行業的競爭勢必更加激烈,中國電信行業的幾次拆分重組更是把電信市場一塊大蛋糕分成了三塊,由中國移動、中國電信和中國聯通三家企業共同分享.一家壟斷的局面被打破,電信行業進入三國爭霸時代,呈現出激烈的競爭勢態.電信行業比較特別的是用戶量的多少對運營商前期的資金投入影響不大[1].因此,運營商擁有的固定客戶越多,其企業前期收入就會越高,企業的利潤就越大.在日常的運營中,為了占據更多的市場份額,公司一直把存量運營和客戶保有作為企業的核心工作,這對企業品牌建設、提高企業利潤乃至以后的發展都有極為深遠的意義.

數據挖掘在電信行業有著廣泛的應用(如客戶細分、市場細分、個性化業務定位、客戶流失預警分析等).客戶流失預警分析是通過數據挖掘,分析出客戶的業務屬性和行為軌跡特征,從而對流失客戶進行定位,為電信公司挽留這類客戶提供決策依據.對于一般的客戶流失預測任務,使用如決策樹、邏輯回歸、支持向量機等數據挖掘算法模型均能獲得理想的效果,而決策樹比一些其它類型的模型更易于理解,模型推出的規則非常直觀,比較容易從業務角度解釋.本文主要通過決策樹算法中的C5.0算法來實現客戶流失的預警分析,找出離網用戶的特征,幫助電信公司有針對性地改善客戶關系,防止客戶流失.

1 模型設計思路和研究方法

1.1 確定數據源

數據是數據挖掘的基礎,因此首先要提取用戶的部分通信數據,主要包括用戶基本信息、捆綁信息、消費信息、行為信息和趨勢信息.然后將客戶分為正常用戶和流失用戶.正常用戶定義為:在數據統計日狀態為正常,包含統計日最近一周有通話行為,統計日當月為出賬用戶,統計日下月有通話行為,統計日下月月底狀態為正常且出賬,統計日第3個月底狀態為正常且出賬.流失用戶定義為:在數據統計日狀態為正常使用且非停機,包含統計日最近一周有通話行為,截至到統計日的下月月底,已經連續一周及以上無通話行為且3個月后狀態為預拆機、拆機,或下月月底為不出賬用戶.提取的用戶數據如下:

用戶編號:用戶電話號碼.

入網時長:單位:月.本月入網,在網時長為1個月,上月入網,在網時長為2個月依此類推,本月入網本月離網,則在網時長為1個月,本月入網下月離網,則在網時長為2個月.1為入網一個月、2為入網兩個月,依此類推.

是否流失:1是、0否.

手機卡類型:各運營商手機卡類型不同,如中國移動可分為:1全球通、2神州行、3動感地帶.

付費類型:1預付費、0后付費.

賬戶余額:單位為元,指賬戶本金余額.

最后一次通話至統計日的天數:最后一次通話至統計日的通話天數,若統計日當天有通話,則天數為0.

近三個月平均ARPU:單位為元,統計日前三個月的ARPU平均值,如果客戶入網未滿三月,按照實際月出賬算平均值,不包含入網月.

近一周主叫次數:統計客戶撥叫時,發生通話的次數.

近一個月總通話次數:統計客戶撥叫時和被叫時發生通話的次數之和.

總通話時長:單位為分鐘.

總賬單收入:單位為元.

手機上網:1是、0否.

集團客戶:1是、0否.

客戶在上個月有話費返還且上個月返還結束:1是、0否.

客戶在本月有話費返還且本月返還結束:1是、0否.

捆綁剩余月數:指用戶到期時間最遠的合約剩余的捆綁月數,0表示未參加捆綁業務.

通話次數趨勢值:統計最近四周.

主叫通話次數走勢值:統計最近四周

被叫通話次數走勢值:統計最近四周.

上網計費流量走勢值:統計最近四周.

注:①以上取數日期,未特別說明均為統計日當天數據.

③部分字段處理:字段選擇:將有大量不同取值且無量化操作符的屬性依據業務經驗進行刪除(如客戶姓名、身份證號碼等),或將無量化操作符用其他屬性替代(如手機卡類型、付費類型等).連續型字段屬性進行離散化:表中的賬戶余額總通話時長、總賬單收入等均為連續型數據構建的決策樹太過茂盛,且處理速度過慢.為了加快處理速度,應對連續型數據進行離散化處理[2].

1.2 構造決策樹

1.2.1 C5.0算法

1979年Quinlan提出了ID3算法,主要針對離散型屬性數據,其后又不斷地改進,形成C4.5,它在ID3基礎上增加了對連續屬性的離散化.C5.0是C4.5應用于大數據集上的分類算法,主要在執行效率和內存使用方面進行了改進.下面對C5.0算法[3]略作介紹.

C5.0算法選擇分支變量的依據:以信息熵的下降速度作為確定最佳分支變量和分割閥值的依據.信息熵下降就意味著信息的不確定性下降[3].信息熵指信息量的數學期望,是信源發出信息前的平均不確定性,也稱先驗熵[4].

信息ui()

i=1,2,…r的發生概率P(ui)組成信源數學模型,

信息量(單位是bit,取以2為底的對數):

信息熵:

信息熵H(U)的性質:

H(U)=0時,表示只存在唯一的可能性,不存在不確定性.

如果信源的k個信號有相同的發出概率,即所有的ui有P(ui)=1/k,H(U)達到最大,不確定性最大.

P(ui)差別越小,H(U)就越大;P(ui)差別大,H(U)就越小.

決策樹中熵的應用:

設S是一個樣本集合,目標變量C有k個分類,freq(Ci,S)表示S中屬于Ci類的樣本數,|S|表示樣本集合S的樣本數.則集合S的信息熵定義為:

如果某屬性變量T,有n個分類,則屬性變量T引入后的條件熵定義為:

屬性變量T帶來的信息增益為:

C5.0基本算法可以描述如下:

%R表示判定對象屬性,C表示目標屬性,S表示訓練集,Tree()是決策樹生成的函數:

C5.0算法主要是對C4.5在執行效率和內存使用改進、通常不需要很長的訓練次數進行估計,面對數據遺漏和輸入字段很多的問題時非常穩健,與其他算法相比其模型易于理解,生成的規則有非常直觀的解釋;允許進行多次多于兩個子組的分割.因此此算法特別適合于商業產生的大數據.

1.2.2 使用Clementine軟件建模

SPSS Clementine是一款易操作、擁有高級建模技術的數據挖掘軟件,能夠幫助用戶發現和預測數據中有用的關系,它提供了通向數據、統計量和復雜算法這一抽象世界的可視化窗口[6].每個步驟都由一個圖標(即節點)表示,將各個步驟連接即可形成一個流,表示數據沿各個步驟流動.圖形化的操作簡單明了,易用性高[5].

提取C市電信BOSS、BASS、CRM系統數據,訓練決策樹模型數據流如圖1.

數據流說明如下:

源:數據通過SPSS源節點導入數據流中.

圖1 數據流

定義變量類型:是否流失定義為標志類型,入網時長、賬戶余額、近三個月平均ARPU、近一周主叫次數、近一個月總通話次數、總通話時長和總賬單收入定義為范圍類型,手機上網、集團客戶和客戶在上個月有話費返還且上個月返還結束、客戶在本月有話費返還且本月返還結束定義為集類型,其余均為默認.

重新分類:是否流失、手機上網、集團客戶、客戶在上個月有話費返還且上個月返還結束、客戶在本月有話費返還且本月返結束的是、否屬性分別替換為1,0.

篩選字段:過濾客戶姓名,用戶編號,手機卡類型.

數據審核:缺失值插補,極值丟棄,離群值強制形成超節點.

離散數據:主叫通話次數走勢值、被叫通話次數走勢值、上網計費流量走勢值按注②規則離散.

分區:隨機抽取2/3作為訓練集,剩下1/3作為測試集.

C5.0:以簡單類型多次訓練構建決策樹.

評估:選擇重合矩陣,驗證模型準確率.

生成的變量重要性如圖2.

圖2 變量重要性

以2013年5月1日為統計數據日,抽取C州電信2013年3月28日日以前入網且正常使用用戶2 785 109人,剔除公免用戶4 594人、剔除電信員工19 099人、剔除行業應用235 237人、剔除無線寬帶34 276人、剔除后剩余2 491 803人、近一周有通話行為1 319 383人、養卡用戶7 530人、跳蚤用戶5 001人、總篩選用戶1 306 064人,對篩選出的用戶利用訓練的流失預警C5.0模型進行用戶離網分析.利用此模型預測出離網人數79 841人,公司對這類人群針對性地進行關懷,其最終離網67 863人,保留用戶11 978人可以看出用戶流失預警分析在客戶保有和提高公司利潤方面起到了良好的效果.

2 總結

商業中的數據挖掘在數據選擇過程中是基于業務知識,數據挖掘的目標是業務目標的映射;在數據理解過程中把業務知識與業務問題相關的數據結合起來,考慮它們是如何相關的;在建模過程中使用數據挖掘算法創建預測模型,同時解釋模型和業務目標的特點,也就是說理解它們之間的業務相關性;在實施過程中是將數據挖掘結果用于業務實施.總之,沒有堅實的業務知識,數據挖掘過程的每一步都是不切實際的,更沒有“單純的技術”步驟.業務知識引導過程產生有益的結果,并使得那些有益的結果用于商業實踐.隨著數據的日益增加變化,數據挖掘是一個長期反復的過程,業務知識是它的核心,驅動著結果的持續優化.

流失用戶的保有在實際操作中是非常復雜的流程,運營商每個月都要對預警模型預測出的客戶進行保有.可以看出,客戶的保有工作是一個長期系統的工程,涉及的部門包括IT部門、市場部門、客戶服務中心等部門.同時,它也是一個循環式操作,需要通過對挽留效果的分析及時優化模型.挽留效果與模型數據的質量,各地區的用戶差異性,挽留的關鍵時刻選擇、客服人員的溝通技巧等因素密切相關[7].各運營商自從3G時代以來就傾盡全力來防止其客戶流失,在客戶保有方面投入了大量的人力、財力.文章還有很多的細節不足,如沒有對用戶細分,不同客戶群體的流失情況不同,不可一概而論,更要進行客戶群體的細分,針對不同的流失客戶群體,比如對高價值客戶流失等要進行更深入的研究,使預警模型更全面實用.

[1]趙宏波.數據挖掘技術在電信客戶關系管理中的應用[J].電信技術, 2001(12):10-12.

[2]鄧松.數據挖掘原理與SPSS[M].北京:人民郵電出版社,2007.

[3]Soman K P,Diwakar S,Ajay V.Insight into data mining theory and practice[M].India:Prentice Hall,2006.

[4]曹雪虹,張宗橙.信息論與編碼[M].北京:清華大學出版社,2004.

[5]廖劍平.數據挖掘原理與SPSS Clementine應用[M].北京:清華大學出版社,2011.

[6]薛薇,陳歡歌.CLEMENTINE數據挖掘方法及應用[M].北京:電子工業出版社,2010.

[7]徐懿瑾.基于數據挖掘的移動中高端用戶流失預警分析[J].科技信息,2010(3):72-73.

【編校:王露】

Prewarning Analysis of the Telecom Customer Churn Based on C5.0 Algorithm

ZHANG Weidong,LI Yuan
(College of Management Science,Chengdu University of Technology,Chengdu,Sichuan 610059,China)

Holding customers is the key to raise competitiveness of a telecom company.The data mining method was applied to classify telecom customer segmentation.Customer segmentation classification is based on customer behavior analysis and the decision tree combined with information entropy production.Building the customer churn prewarning analysis will be helpful in providing precise and reliable information to enterprise decision makers,which can be used as reference for strategy making and finding out the characteristics of customer churn and help telecommunications companies improve the customer relationship, thus avoiding the customer churn.

customer churn;C5.0;business;prewarning analysis

TP301

A

1671-5365(2014)06-0119-04

2014-01-04修回:2014-02-28

張衛東(1989-),男,碩士,研究方向為數據分析與統計、數據挖掘最優化理論

時間:2014-03-28 17:12

http://www.cnki.net/kcms/detail/51.1630.Z.20140328.1712.004.html

猜你喜歡
數據挖掘用戶模型
一半模型
探討人工智能與數據挖掘發展趨勢
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: av性天堂网| 国产极品粉嫩小泬免费看| 国产偷国产偷在线高清| 亚洲欧美一区在线| 国产精品成人啪精品视频| 国产成人福利在线| 免费一级毛片不卡在线播放| 青青草综合网| 亚洲精品人成网线在线| 国产精品三区四区| 国产成人综合网| 精品伊人久久大香线蕉网站| 制服丝袜在线视频香蕉| 欧美日韩精品在线播放| 91破解版在线亚洲| 亚洲最新地址| 制服丝袜 91视频| 国产精品成人AⅤ在线一二三四| 重口调教一区二区视频| 国产成人1024精品下载| 日韩欧美国产三级| 亚洲欧美日韩另类在线一| 在线中文字幕网| 亚洲人成影院在线观看| 在线观看免费人成视频色快速| 国产国拍精品视频免费看| 亚洲精品自拍区在线观看| 中文字幕人成乱码熟女免费| 国产99免费视频| 免费观看男人免费桶女人视频| 1769国产精品免费视频| 国产精品人人做人人爽人人添| 国产午夜无码专区喷水| 91无码网站| 亚洲日韩精品欧美中文字幕| 香蕉久久国产超碰青草| 国产成人av一区二区三区| www.91中文字幕| 91日本在线观看亚洲精品| 国产精品免费露脸视频| 一本色道久久88亚洲综合| 一区二区欧美日韩高清免费| 欧洲日本亚洲中文字幕| 亚欧乱色视频网站大全| 欧美一级在线| 青青草原偷拍视频| 欧美成人在线免费| 国产精品永久在线| 亚洲人成网站日本片| 亚洲自偷自拍另类小说| 亚洲无码精彩视频在线观看| 在线观看热码亚洲av每日更新| 亚洲黄色成人| 婷婷六月综合| 91精品久久久无码中文字幕vr| 国产情侣一区二区三区| 亚洲大尺码专区影院| 国产9191精品免费观看| 青青草91视频| 亚洲一区免费看| 国产丝袜一区二区三区视频免下载| 国产男人天堂| 亚洲国产欧美目韩成人综合| 自拍偷拍欧美日韩| 亚洲永久精品ww47国产| 色综合色国产热无码一| 97国产在线观看| 欧美怡红院视频一区二区三区| 夜夜操天天摸| 国产99视频精品免费观看9e| 国产精品免费露脸视频| 狼友av永久网站免费观看| 2021无码专区人妻系列日韩| 最新国产在线| 日韩在线永久免费播放| 国产美女精品人人做人人爽| 白丝美女办公室高潮喷水视频| 无码国产偷倩在线播放老年人 | 精品無碼一區在線觀看 | 国产女同自拍视频| 青青草原国产一区二区| 狠狠亚洲婷婷综合色香|