摘要:客戶頻繁流失是電信行業發展中所面臨的一個嚴重問題,該文主要是對電信行業客戶流失情況進行數據挖掘,針對運營商的歷史數據資料,通過對已流失的客戶和在網客戶的自然屬性和行為屬性進行挖掘分析,建立客戶流失的預測模型。介紹了建立模型的過程,對模型的評價及與營銷活動的關系,其中運用決策樹方法實現了整個建模過程。
關鍵詞:客戶流失;數據挖掘;決策樹;客戶流失預測模型
中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2010)03-518-04
The Study and Application of Data Mining to Client Churning Management in Telecom
LI Yang1, LIU Sheng-hui1, ZHAO Hong-song2
(1.College of Computer Science Technology, Harbin University of Science and Technology, Harbin 150080, China; 2.China Mobile Communications Group Co. Ltd, Harbin 150001, China)
Abstract: Customers frequent churn is a serious problem in development of the telecommunication industry. According to the data in a telecom provider's database, by analyzing and mining the natural attribute and action attribute among the clients, lose or not, we set up a prediction model for client churn. Also describes the building process of model, the evaluation of the model and the relationship with the marketing strategies. Based on decision tree the model is sets up.
Key words: client churn; data mining; decision tree; prediction model for client churn
1 概述
隨著國內電信市場競爭格局的形成,如何以高質量的服務吸引和挽留客戶、擴大市場份額、降低成本、提高收益,已經成為電信業決策者們共同關注的課題。國內電信業競爭不斷加劇,客戶爭奪愈演愈烈,每個企業都存在客戶流失的問題。傳統上講,留住一個客戶所需要的成本是爭取一個新用戶成本的1/5,尤其對剩余客戶市場日漸稀疏的通信行業來說,減少客戶流失就意味著用更少的成本減少利潤的流失,這點已為運營商所廣為接受。
數據挖掘技術強大的數據分析功能可為運營商在海量的客戶資料中提取有 效的信息,以判斷客戶流失的狀況或者傾向,以便有針對性地挽留客戶。
客戶流失管理作為經營分析系統中的一個重要主題。主要任務是根據已流失客戶和未流失客戶的性質和消費行為,進行挖掘分析,建立客戶流失預測模型,分析比較各種類型客戶的流失率,流失客戶的消費行為,為市場經營與決策人員制訂相應的挽留政策提供依據,降低客戶離網率,減少運營成本。
2 數據挖掘概述
數據挖掘(Data Mining)是從大量存儲的數據中,利用模式識別、統計和數學的技術,篩選發現新的有意義的關系、模式和趨勢的方法。數據挖掘所要處理的問題就是在龐大的數據庫中尋找出有價值的隱藏事件,加以分析并將這些有意義的信息歸納成結構模式以幫助企業進行科學化的決策。
數據挖掘是一個循環往復的過程,其挖掘過程一般分為五個階段:
1) 定義業務問題:從業務角度來理解數據挖掘的目標和要求,在轉化為數據挖掘問題。
2) 設計數據模型,建立數據倉庫。
3) 分析挖掘數據,建立數據集市。
4) 建立模型:選取挖掘工具提供的算法并應用于準備好的數據,選取參數,生成模型。
5) 評估、解釋和應用模型:對模型進行比較和評估、生成一個相對最優模型,并對此模型用業務語言加以解釋且應用到業務活動中。
3 電信行業客戶流失管理中數據挖掘的過程
在客戶流失管理中,應用數據挖掘技術的主要思路是根據所擁有的客戶流失數據建立客戶屬性、服務屬性和客戶消費數據與客戶流失可能性關聯的數據模型,找出其中的關系,并給出數學公式,從而計算客戶流失的可能性。
數據挖掘技術在經營分析系統中是比較重要的也是相對獨立的部分,它是在數據倉庫的基礎上直接進行的,由于數據倉庫為其提供了集成的,一致的,經過清洗的數據,使數據挖掘免除了繁雜的數據準備過程。
3.1 定義業務問題
業務問題定義要明確數據挖掘技術解決的是何種問題,對客戶流失管理來說就是要定義何為流失,包括判定客戶為流失客戶的標準與客戶流失類型的定義。一般采用數據挖掘中的分類和預測方法來解決。
在移動通信領域的客戶流失分析中有兩個核心變量:財務原因與非財務原因、主動流失與被動流失。客戶流失可以相應分為四種類型:其中非財務原因主動流失的客戶通常是高價值的客戶,這種客戶是移動通信企業真正需要保住的客戶。
3.2 設計數據模型,建立數據倉庫
數據準備的是否充分,對于挖掘算法的效率乃至正確性都有關鍵性的影響。
3.2.1 數據選擇
1) 客戶信息:包括用戶的年齡、職業、在網時間、入網品牌、注冊服務等,這些資料在客戶登記入網的過程中得到,是對客戶個體特征的描述,并永久保存在客戶資料數據庫中。
2) 通話行為數據:這部分數據包括兩類:一是基于用戶通話清單設計的多個統計變量,例如:工作日通話時間、費用;IP通話時間、費用;親情號碼、漫游類型、消費積分等。這些數據可以在計費中心客戶話費賬單中獲取。二是客戶通過投訴渠道或客戶服務界面進行有關繳費、服務投訴的情況。通過這兩類數據給客戶個體有了一個較為全面的描述,每一類描述就是一個相關變量。
3) 其他信息:包括通信網絡運行質量情況,如網絡的質量、無線信道通話接通率等影響客戶消費的網絡因素。
3.2.2 數據清洗和預處理
原始數據首先要通過ETL(Extract Translate Load)工具完成數據抽取,轉換和裝載,將來自不同數據庫的數據在類型、格式、編碼規則等方面集成和規范化,最后將數據導入數據庫。
在客戶流失的分析模型中,數據的轉換和整合在ETL階段已基本完成,主要工作是提取符合流失判定條件的用戶數據,然后根據各種情況所占比例進行抽樣,對所抽取數據中的缺失值進行處理,以免對分析造成影響。
3.3 數據挖掘模型建立
數據挖掘的建模方法有決策樹、神經網絡、回歸、關聯、聚類等多種建模方法。這里選用決策樹方法進行建模,采用的是一種改進的ID3算法。
3.3.1 傳統ID3算法
決策樹方法是數據挖掘的核心技術之一,是模式識別中進行分類的一種有效方法,它通過將大量數據有目的地分類,從中找出潛在的,對決策有價值的信息,應用于預測模型中,同時決策樹方法可以把一個復雜的多類別分類問題轉化成若干個簡單的分類問題來解決。
國際上最有影響的決策樹方法是Quinlan提出的ID3算法,其基本思想是將一棵決策樹看作一個信源,利用信息增益尋找數據倉庫中具有最大信息量的字段(屬性),建立決策樹的一個節點,再依次將字段的不同取值作為信宿的表現狀態,找出信息量最大的字段建立樹的分支;然后在每個分支子集中重復建立下層節點和分支的過程,即可建立決策樹。
但ID3算法偏向于選取屬性較多的屬性,而不一定是最優的屬性,此外ID3算法學習簡單的邏輯表達能力較差,針對這些不足,本文提出一種加權熵的思想,對傳統的ID3算法進行改進。
3.3.2 ID3算法的改進
設E=A1×A2×…×An是n維有窮向量空間,其中A1是有窮離散符號集,E中的元素e={V1,V2,…,Vn}稱為例子,其中Vi∈Ai,i=1,2,…,n。
加權熵的定義:設X為選擇屬性值,X有V個屬性值,對應的權數為W1,W2,…,Wv,按照ID3算法對屬性X進行擴展,對應的信息熵為E(B1), E(B2),…, E(Bv),定義加權熵為:
E(X)* = ∑Wi * E(Bi)
式中(B1,B2,…,Bv)是v個結點選擇的屬性,Wi是指分枝子集所占的權數。本文用分枝子集Bi在整個集合中所占的比重來計算權數Wi,然后計算出加權熵,通過比較加全熵的大小來選擇屬性的取值,改進的ID3算法基本步驟如下:
1) 對屬性X,假設X有V個屬性值,對應的權數為W1,W2,…,Wv,以屬性X為擴展,生成V個子結點(B1, B2,…,Bv),求對應的信息熵E(B1), E(B2),…, E(Bv);
2) 計算加權熵E(X)*;
3) 選擇屬性X使得選擇E(X*)*,將X作為新選擇的屬性;
4) 利用步驟1)的計算結果,建立結點X*的后繼結點(B1,B2,…,Bv);
5) 對所有的Bi,若Bi為葉子結點,則停止擴展此結點,否則遞歸執行步驟1)至步驟5),直至完成決策樹的建立為止。
構造過程中,需要對決策樹進行修剪,修剪采用兩種方法,預先修剪和事后修剪,在構造某結點時,若該結點下的記錄數在所有記錄數中的比例小于0.1%時,則停止該子樹的生長;當決策樹生成后,根據前面關聯規則生成的規則,若可信度小于30%時,則剪掉該樹枝;當所有遞歸子集的運行狀態全為流失時,則停止樹的生長。
用ID3算法對客戶流失問題進行建模時可以區分不同的流失客戶的群組以及每一群組的潛在流失因素,使用ID3算法建立的決策樹如圖1所示。
從圖中可以看到決策樹的基本組成部分:決策節點、分支和葉子。決策樹最上面的根結點是整個決策樹的開始。圖中根結點是“在網時間>1年”,不同的回答產生“是”與“否”兩個分支,每個分支要么是一個新的決策節點,要么是葉子。在沿著樹從上到下遍歷的過程中,在每個節點都會遇到一個問題,對每個節點上問題的不同回答導致不同的分支,最后到達一個葉子節點。
決策樹建立之后,通過使用該預測模型可以得到每個用戶的離網概率,設定離網概率大于0.7的用戶有離網傾向,從圖2中可以看出,在網時間超過1年,投訴次數不超過10次,話費連續2個月降低60%,不同呼叫次數不超過15次,話費結構中呼轉金額>30%的用戶離網率有83%,由此可以確定離網數據提取的sql查詢語句為:
select * from cust_loss where completed_date <= add_month(sysdate,-12)
and complaints <= 10 and pct_feedec >= 0.6
and calls <= 15 and pct_fectrans > 0.3
模型建立以后,對其輸出的結果會得到多個結果組群,還需要具有業務專長的人員和建模人員根據每個組群的特征對其中隱含的意義和合理性進行檢查及診斷,對所得到的模型做出業務解釋,找出潛在的業務規律,指導業務行為。
4 模型的評估與應用
4.1 模型評估
客戶流失預測模型要求兩方面的準確率:預測命中率、預測覆蓋率。預測命中率是描述模型精確度的指標,是預測流失中實際流失的比例;預測覆蓋率是描述模型普適性的指標,是實際流失中預測正確的比例。在此引入客戶流失評價矩陣,如表1所示:
表1 客戶流失評價矩陣
■
TP(True Positives):正確肯定的數目,將流失的客戶預測為流失的數目;
TN(True Negatives):正確否定的數目,將正常的客戶預測為正常的數目;
FP(False Positives):錯誤肯定的數目,將正常的客戶預測為流失的數目;
FN(False Negatives):錯誤否定的數目,將流失的客戶預測為正常的數目;
本模型應用于某移動通信公司的客戶流失預測,從2009年5月前的歷史數據中隨機抽取了50000條客戶記錄進行建模(其中離網客戶所占比例為46.2%,為建模的均衡性,增加了離網客戶在訓練集中的比例,實際離網比例較低),運用該訓練集建立決策樹預測模型,表2給出了預測模型對訓練集的預測結果:
表2 訓練結果
■
通過計算得到:預測命中率為96.88%,預測覆蓋率為81.81%。
運用該模型對2009年5月的在網客戶進行離網預測,隨機抽取20000個客戶作為檢驗集,不采取任何挽留措施,觀測實際離網情況,檢驗結果如表3所示。
表3檢驗結果
■
通過計算得到:預測命中率為70.02%,預測覆蓋率為72.05%。
檢驗結果表明,模型的預測命中率與覆蓋率比訓練情況稍差,但依然保持了較好的預測性能。
4.2 流失客戶特征分析
決策樹中從根結點到葉結點都是某類客戶的特征,因此分析所有從根結點到流失標示的葉結點的遍歷過程,可以找出流失客戶的特征。從生成的決策樹結果中,可以分析出對市場營銷有決策支持意義的結論,該模型中分析與“在網時間”相關的葉結點可得到如下結論:
1) 影響客戶流失的最關鍵因素是客戶的在網時間,在網時間短的客戶其流失比例較大,在網時間越長的客戶越穩定,越不易流失;
2) 對于在網時間小于1年,投訴次數大于10次的用戶,流失概率是68%;
3) 對于在網時間超過1年,投訴次數不大于10次的用戶,流失概率是2.7%;
4) 對于在網時間超過1年,投訴次數不大于10次,話費連續2個月降低60%,不同呼叫次數不超過15次,話費結構中呼轉金額不超過30%的用戶,其流失概率是67%;
5) 對于在網時間超過1年,投訴次數不大于10次,話費連續降低小于40%,不同呼叫次數超過15次,呼轉金額小于30%的用戶,其流失概率為0,即該類用戶不會流失。
5 結束語
客戶資源是電信企業的生命,保留并鞏固企業的客戶資源對企業來說意義重大。本文提出基于數據挖掘算法的客戶流失管理解決方案,充分發揮了數據挖掘技術面對海量數據的強大優勢,科學的幫助電信運營商解決客戶流失的商業問題。
客戶流失預測模型的建立是數據挖掘技術在電信行業的一個較為典型的應用,通過對模型不斷修正使之更加完備,結合相應的市場營銷策略和客戶服務,對挽留客戶起到至關重要的作用。
參考文獻:
[1] 劉蓉,陳曉紅.基于數據挖掘的移動通信客戶消費行為分析[J].計算機應用與軟件,2006,23(2):60-62.
[3] Alex Berson,Stephen Smith,Kurt Thearling.Building Data Mining Application for CRM[M].McGraw-Hill,2001:180~230.
[4] 連建勇.基于數據挖掘技術的電信客戶流失預測模型研究[D].中山大學,2008
[5] 孫曉健.數據挖掘技術在經營分析系統中的應用[J].微計算機信息,2007,(12):175-177.
[6] 湯效琴,畢利.數據挖掘中的軟計算方法及應用綜述[J].計算機與信息技術,2006,(11):68-71.
[7] 賈琳,李明.基于數據挖掘的電信客戶流失模型的建立與實現[J].計算機工程與應用,2004(04).
[8] Kim H S, Yoon C H.Determinants of subscriber churn and customer loyalty in the Korean mobile telephony market[J].Telecommunications Policy,2004,28(9):751-765.
[9] Ni Jae Sik Lee,Jin Chun Lee.Customer Churn Prediction by Hybrid Model[J].Lecture Notes In Computer Science,2006:959-966.