999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

電信客戶流失預測模型研究

2010-04-16 09:15:30路美秀李鋒向仍濤
電腦與電信 2010年6期
關鍵詞:數據挖掘模型

路美秀李鋒向仍濤

(1.廣東外語外貿大學信息學院,廣東廣州510006;2.廣東工業大學應用數學學院,廣東廣州510006;3.廣東電信,廣東廣州510000)

1.引言

目前在全球電信業發展處于低迷的情況下,我國不斷深化改革電信行業,對電信運營企業進行重組。各電信企業一方面投入大量時間、人力、財力去發展新客戶,另一方面因客戶流失管理的不完善導致現有客戶流失。如何保留住既有客戶,及如何從這些客戶獲得最大的收益,將成為國內電信企業重要的課題。本文結合電信業務規則,對基于數據挖掘的流失預測模型進行了合理的分析和應用,使企業對流失客戶能夠采取更有效的營銷策略。

2.客戶流失預測模型

二十世紀末,一些軟件供應商和用戶成立了行業協會,包括NCR Systems Engineering Copenhagen(丹麥)、Daimler-Benz AG(德國)、SPSS/Internal Solutions Ltd(英國)和OHRA Verzekeringen en Bank Grep B.V(荷蘭),這個組織建立了數據挖掘的過程模型CRISP–DM(Cross-Industry Standard Process-Data Mining)[1],CRISP-DM方法把數據挖掘看作一個商業過程,將一個數據挖掘項目的生存周期定義為六個過程,分別為:商業理解(Business Understanding)、數據理解(Data Understanding)、數據準備(Data Preparation)、建立模型(Modeling)、模型評估(Evaluation)、結果發布(Deployment)。

本文以此模型為參考,選擇SPSS公司的Clementine工具進行數據預測模型的建立,數據處理采用了Sybase公司的IQ數據倉庫。

3.數據挖掘模型應用

3.1 商業理解和環境評估

電信行業的客戶流失可分為兩種:客戶被動流失與客戶主動流失。客戶被動流失表現為電信運營商由于客戶欺詐或惡意欠費等行為而主動終止客戶使用網絡和業務。而客戶主動流失分為如下幾種情況:客戶不再使用任何一家電信運營商的電信業務;客戶選擇了另一家運營商;客戶轉移至本電信運營商的不同網絡、不同業務或不同品牌等。為了減少客戶流失,需整合用戶信息,對用戶進行合理的分類和識別。本次客戶流失預測主要是針對電信行業的流失客戶。

3.2 數據理解和準備

為了建立客戶流失模型,必須收集所有的原始數據,并將其轉換成數據模型所需的格式——數據挖掘目標表,此階段稱為數據預處理階段或數據準備階段。此項目采用某地市電信企業6個月的數據作為訓練數據。

針對被動流失客戶(即欠費銷戶)建立模型,對一般客戶而言,若因欠費停機,并且在3個月內沒有還款,最后會被欠費銷戶。對于這類欠費銷戶的客戶,為了能考察到他們的行為變化,選定了在欠費銷戶月份之前的倒數第4~9個月這6個月作為觀察的時間窗口。

3.2.1 變量選擇和設計

根據電信客戶流失的業務特征,電信客戶流失的數據挖掘目標表通常需要如下變量:客戶流失的狀態變量Y;個體鑒別變量X1;人口統計變量X2;客戶行為變量X3。將這些行為變量加以整理可歸納為以下幾類來描述[2](本地通話的行為變量;省內、國內漫游通話的行為變量;港澳臺、其它國家漫游通話及國際、港澳臺長途的行為變量;呼轉及呼叫。反映客戶呼轉到不同電信運營商的情況,客戶呼叫不同電信運營商的情況;數據業務的使用情況;通話號碼數;客戶的總體主被叫行為等);進一步的衍生變量X4。建模的目的就是要分析、確定這些向量變量與客戶流失狀態變量Y的關系,即:Y=F(X1,X2,X3,X4)。

3.2.2 數據挖掘過程

進行知識挖掘時[3],先從原始數據集合(這里指數據挖掘目標表)中取出一個與探索的問題相關的樣本數據集,經過數據抽樣后,把樣本數據分成訓練數據集(Train Data Set)和校驗數據集(Validation Data Set)。訓練數據集實現初步的模型適應,可以由此找出較好的模型權重。校驗數據集用于評估模型是否適當。數據探索階段的任務包括:數據質量檢查、數據的必要整理、通過圖形化呈現工具和其它的統計方法理解數據、分析候選自變量和目標變量之間的關系、數據轉換以輔助數據的分析、數據派生為建立模型做準備、整理和呈現數據探索的發現。通過數據抽樣、數據探索兩個步驟對數據的狀態有了進一步的了解后可以按照問題的具體要求對數據進行修正,如增刪、組合或者生成一些新的變量等。例如由于客戶沒有使用某一業務而造成該變量值的缺失,可直接對缺失值進行補零處理。根據對變量的觀察和實際的業務需求,去掉與變量均值相差大于或等于若干個標準偏差的觀測記錄,避免極端值影響后面的分類、預測模型的精度。

4.數據建模

根據數據集的特征和要實現的目標,本文采用因子分析與回歸、決策樹等方法結合的建模策略。通過兩次因子分析(Factor Analysis),研究客戶變量的相關矩陣或協方差矩陣,將多個客戶變量綜合為少數幾個因子,進而獲得代表主要因子的原始變量,利用這些原始變量建模,獲得最終的流失模型結果。在最后的流失建模中,對由因子分析篩選出來的原始變量再用決策樹模型挑選一次,然后把結果放到Logistic對數回歸模型里得到最終結果。這個過程是通過反復嘗試得到的。決策樹(Decision Tree)中的每個內部節點(internal node)表示在一個屬性上的測試,每個分支代表一個測試輸出,而每個樹葉節點(leaf)代表類(class)或類分布(classdistribution)。用決策樹表示客戶是否流失,而葉節點用橢圓表示,用它可以預測某條記錄(某個客戶)的流失意向。在確定輸入變量之后,運行模型建立流失預測模型(見圖1)。

圖1 模型結果

下面對模型的規則研究,試圖從中總結規則與實際業務的關系,決策樹流失模型的決策樹(見圖2):

圖2 決策樹

圖3 產生規則

我們發現在產生的規則中(見圖3),接入時長趨勢、竣工月份數(入網時間)、品牌等都是出現頻率高的字段,這些字段在預測模型中應為重要變量。另外,品牌和欠費次數也是影響流失的重要因素。

5.模型評估

此模型是對目標問題多個側面的描述,但要形成最終的決策支持信息,還需要對這些結果和模型進行綜合的解釋。如可以擴大樣本的范圍,檢驗模型是否仍然滿足。如果通過檢驗發現第一次構建的樣本數據不具有充分的代表性,或模型本身不夠完善,就需要重新進行數據挖掘,因此,數據挖掘是反復進行的過程。

建模后要對各個模型進行比較評估,得出最佳的模型。這里我們把客戶按照預測的流失概率P由高到低進行排序,順序等數量分成N組客戶,對三種評價指標:提升率、查全率、命中率計算相應的累計指標,我們主要使用累計提升率(Cumulative Lift)(即累計流失數量與每百分段值累計平均流失數量的比值)進行模型評估。對決策樹模型、神經網絡模型和沒有進行建模的數據進行評估比較,累計提升率的計算比較結果(見圖4、圖5):

圖4 神經網絡模型

圖5 決策樹模型

在按照預測的流失概率由高到低進行排序的全體客戶的前10%,20%,30%,40%,50%中,神經網絡建模的累計提升率比決策樹建模要稍好。將客戶按照回歸模型預測的流失概率P由高到低進行排序,等數量分成10組客戶,其前幾個百分段分組的客戶流失預測精度較高,由此可以選取此段的目標用戶清單來進行處理,當然輔助決策人員和業務人員還需要根據業務處理能力以及工作成本來選定客戶范圍進行客戶挽留工作。

由模型評估中也發現,該客戶流失模型對未流失客戶的預測比較好,但對流失客戶的預測還不夠理想。這與客戶數據中流失客戶比較少以及現在取得的客戶數據資料還不夠完備有關。建議將來進一步優化客戶流失模型時,能夠獲得更多客戶的相關數據資料,并且可以把最近幾個月(例如:3個月)內的所有流失客戶一塊進行分析,這樣可以更好得到流失客戶的數字特征,改善模型的效果。在建模過程中,還可利用已經得到的模型去預測下個月的主動流失的客戶,以便進一步檢測模型的穩定性。

6.模型發布與應用

這個階段主要任務是將模型的結果交付于管理者,為決策提供支持。一般情況下需要將模型結果可視化,而模型的業務分析需要由業務專家結合自己的經驗完成,以提供更為可行的決策計劃。為了針對模型選定的客戶流失關鍵因素,有針對性地設計挽留營銷方案,可采用如下方式:將由客戶流失模型預測的流失傾向較高的客戶分為n-1個組,一個組是無行動組,只占總客戶的10%,這部分客戶不采用任何的挽留措施,純粹為了觀察流失模型的效果:將剩下的90%的客戶分為n個組,可對這n組客戶分別采用不同的挽留措施,保持一段時間之后觀察挽留效果。最后根據不同挽留措施的效果,進一步完善營銷策略。在具體挽留工作中,可綜合考慮客戶的流失風險和客戶價值兩個因素,優先對高價值且高流失風險的客戶進行挽留。

在模型應用過程中,可以先選擇一個試點,試點應用期間隨時注意模型應用的收益情況,一旦發生異常偏差則立即停止應用并對模型進行修正。試點結束后,若模型被證明應用良好,可以考慮大范圍推廣。在模型應用一段時期或經濟環境發生重大變化后,模型的偏差可能會增大,這時應該考慮重建適用性更強的模型。

7.結論

數據挖掘工具作用的發揮依賴于商業數據采集的準確性,本文主要以某地市電信企業的客戶為目標用戶群,由于企業級的數據倉庫還在建設中,一些相關的原始數據還沒有采集到,此模型最后產生的數據作用還不是很準確和全面。另在客戶流失模型的建立中,還需要考慮各個變量的交互作用對模型的影響,可使用邏輯回歸等其它算法進行嘗試。

[1]郭亮.用CRISP-DM模型來規范企業數據中心建設[J].華北科技學院學報,2008,(10):69-72.

[2]耿慶鵬,盧子芳.利用數據挖掘技術實現對電信行業用戶欺詐行為的預測[J].電信快報,2003,(10):40-42.

[3]李丙春,耿國華.數據倉庫與數據挖掘在電信業中的應用[J].新疆大學學報(自然科學版),2002,(8):46-47.

猜你喜歡
數據挖掘模型
一半模型
探討人工智能與數據挖掘發展趨勢
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
3D打印中的模型分割與打包
一種基于Hadoop的大數據挖掘云服務及應用
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 亚洲欧美日韩中文字幕在线| 久久狠狠色噜噜狠狠狠狠97视色| 手机精品视频在线观看免费| 欲色天天综合网| 成人免费黄色小视频| 久久综合九色综合97网| 亚洲色图欧美激情| 91成人免费观看在线观看| 狼友视频一区二区三区| 91久久夜色精品| 精品91自产拍在线| 欧亚日韩Av| 99re经典视频在线| 国产精品xxx| 欧美日韩福利| 国产欧美又粗又猛又爽老| 不卡午夜视频| 激情综合网激情综合| 国产手机在线ΑⅤ片无码观看| 婷婷六月综合网| 欧美在线导航| 国产成人高清在线精品| 欧美成人日韩| 国产精品亚欧美一区二区| 国产精品永久不卡免费视频| 日韩a级片视频| 四虎影院国产| 亚洲天堂网视频| 成人午夜精品一级毛片 | 日韩AV无码免费一二三区| 中文字幕伦视频| 日韩精品一区二区三区大桥未久| 青青久久91| 国产毛片久久国产| A级毛片高清免费视频就| 國產尤物AV尤物在線觀看| 欧美日韩国产精品va| 国产精品亚洲欧美日韩久久| 高清视频一区| 中文无码精品A∨在线观看不卡| 国产亚洲精品va在线| 老色鬼欧美精品| 2021国产在线视频| 亚洲综合一区国产精品| 91原创视频在线| 国产精品30p| 四虎影视库国产精品一区| 中国国产高清免费AV片| 色综合中文综合网| 亚洲精品无码抽插日韩| 狠狠做深爱婷婷久久一区| 久久综合九九亚洲一区| 亚洲第一精品福利| 亚洲一区二区在线无码| 欧美怡红院视频一区二区三区| 亚洲精品久综合蜜| 亚洲精品图区| 日韩成人午夜| 国产成人综合日韩精品无码不卡| 久久精品国产免费观看频道| 国产在线观看91精品亚瑟| 国产亚洲美日韩AV中文字幕无码成人 | 亚洲浓毛av| 亚洲毛片网站| 1024你懂的国产精品| 毛片卡一卡二| 午夜一区二区三区| 色妞www精品视频一级下载| 国产成人调教在线视频| 99视频国产精品| 欧美国产菊爆免费观看 | 在线观看亚洲国产| 亚洲高清在线播放| 亚洲中字无码AV电影在线观看| 97国产在线观看| 亚洲男人的天堂视频| 日本亚洲国产一区二区三区| 亚洲国产欧美中日韩成人综合视频| 亚洲无码视频一区二区三区| 人人爽人人爽人人片| 亚洲伦理一区二区| av色爱 天堂网|