路美秀李鋒向仍濤
(1.廣東外語外貿大學信息學院,廣東廣州510006;2.廣東工業大學應用數學學院,廣東廣州510006;3.廣東電信,廣東廣州510000)
目前在全球電信業發展處于低迷的情況下,我國不斷深化改革電信行業,對電信運營企業進行重組。各電信企業一方面投入大量時間、人力、財力去發展新客戶,另一方面因客戶流失管理的不完善導致現有客戶流失。如何保留住既有客戶,及如何從這些客戶獲得最大的收益,將成為國內電信企業重要的課題。本文結合電信業務規則,對基于數據挖掘的流失預測模型進行了合理的分析和應用,使企業對流失客戶能夠采取更有效的營銷策略。
二十世紀末,一些軟件供應商和用戶成立了行業協會,包括NCR Systems Engineering Copenhagen(丹麥)、Daimler-Benz AG(德國)、SPSS/Internal Solutions Ltd(英國)和OHRA Verzekeringen en Bank Grep B.V(荷蘭),這個組織建立了數據挖掘的過程模型CRISP–DM(Cross-Industry Standard Process-Data Mining)[1],CRISP-DM方法把數據挖掘看作一個商業過程,將一個數據挖掘項目的生存周期定義為六個過程,分別為:商業理解(Business Understanding)、數據理解(Data Understanding)、數據準備(Data Preparation)、建立模型(Modeling)、模型評估(Evaluation)、結果發布(Deployment)。
本文以此模型為參考,選擇SPSS公司的Clementine工具進行數據預測模型的建立,數據處理采用了Sybase公司的IQ數據倉庫。
電信行業的客戶流失可分為兩種:客戶被動流失與客戶主動流失。客戶被動流失表現為電信運營商由于客戶欺詐或惡意欠費等行為而主動終止客戶使用網絡和業務。而客戶主動流失分為如下幾種情況:客戶不再使用任何一家電信運營商的電信業務;客戶選擇了另一家運營商;客戶轉移至本電信運營商的不同網絡、不同業務或不同品牌等。為了減少客戶流失,需整合用戶信息,對用戶進行合理的分類和識別。本次客戶流失預測主要是針對電信行業的流失客戶。
為了建立客戶流失模型,必須收集所有的原始數據,并將其轉換成數據模型所需的格式——數據挖掘目標表,此階段稱為數據預處理階段或數據準備階段。此項目采用某地市電信企業6個月的數據作為訓練數據。
針對被動流失客戶(即欠費銷戶)建立模型,對一般客戶而言,若因欠費停機,并且在3個月內沒有還款,最后會被欠費銷戶。對于這類欠費銷戶的客戶,為了能考察到他們的行為變化,選定了在欠費銷戶月份之前的倒數第4~9個月這6個月作為觀察的時間窗口。
3.2.1 變量選擇和設計
根據電信客戶流失的業務特征,電信客戶流失的數據挖掘目標表通常需要如下變量:客戶流失的狀態變量Y;個體鑒別變量X1;人口統計變量X2;客戶行為變量X3。將這些行為變量加以整理可歸納為以下幾類來描述[2](本地通話的行為變量;省內、國內漫游通話的行為變量;港澳臺、其它國家漫游通話及國際、港澳臺長途的行為變量;呼轉及呼叫。反映客戶呼轉到不同電信運營商的情況,客戶呼叫不同電信運營商的情況;數據業務的使用情況;通話號碼數;客戶的總體主被叫行為等);進一步的衍生變量X4。建模的目的就是要分析、確定這些向量變量與客戶流失狀態變量Y的關系,即:Y=F(X1,X2,X3,X4)。
3.2.2 數據挖掘過程
進行知識挖掘時[3],先從原始數據集合(這里指數據挖掘目標表)中取出一個與探索的問題相關的樣本數據集,經過數據抽樣后,把樣本數據分成訓練數據集(Train Data Set)和校驗數據集(Validation Data Set)。訓練數據集實現初步的模型適應,可以由此找出較好的模型權重。校驗數據集用于評估模型是否適當。數據探索階段的任務包括:數據質量檢查、數據的必要整理、通過圖形化呈現工具和其它的統計方法理解數據、分析候選自變量和目標變量之間的關系、數據轉換以輔助數據的分析、數據派生為建立模型做準備、整理和呈現數據探索的發現。通過數據抽樣、數據探索兩個步驟對數據的狀態有了進一步的了解后可以按照問題的具體要求對數據進行修正,如增刪、組合或者生成一些新的變量等。例如由于客戶沒有使用某一業務而造成該變量值的缺失,可直接對缺失值進行補零處理。根據對變量的觀察和實際的業務需求,去掉與變量均值相差大于或等于若干個標準偏差的觀測記錄,避免極端值影響后面的分類、預測模型的精度。
根據數據集的特征和要實現的目標,本文采用因子分析與回歸、決策樹等方法結合的建模策略。通過兩次因子分析(Factor Analysis),研究客戶變量的相關矩陣或協方差矩陣,將多個客戶變量綜合為少數幾個因子,進而獲得代表主要因子的原始變量,利用這些原始變量建模,獲得最終的流失模型結果。在最后的流失建模中,對由因子分析篩選出來的原始變量再用決策樹模型挑選一次,然后把結果放到Logistic對數回歸模型里得到最終結果。這個過程是通過反復嘗試得到的。決策樹(Decision Tree)中的每個內部節點(internal node)表示在一個屬性上的測試,每個分支代表一個測試輸出,而每個樹葉節點(leaf)代表類(class)或類分布(classdistribution)。用決策樹表示客戶是否流失,而葉節點用橢圓表示,用它可以預測某條記錄(某個客戶)的流失意向。在確定輸入變量之后,運行模型建立流失預測模型(見圖1)。

圖1 模型結果
下面對模型的規則研究,試圖從中總結規則與實際業務的關系,決策樹流失模型的決策樹(見圖2):

圖2 決策樹

圖3 產生規則
我們發現在產生的規則中(見圖3),接入時長趨勢、竣工月份數(入網時間)、品牌等都是出現頻率高的字段,這些字段在預測模型中應為重要變量。另外,品牌和欠費次數也是影響流失的重要因素。
此模型是對目標問題多個側面的描述,但要形成最終的決策支持信息,還需要對這些結果和模型進行綜合的解釋。如可以擴大樣本的范圍,檢驗模型是否仍然滿足。如果通過檢驗發現第一次構建的樣本數據不具有充分的代表性,或模型本身不夠完善,就需要重新進行數據挖掘,因此,數據挖掘是反復進行的過程。
建模后要對各個模型進行比較評估,得出最佳的模型。這里我們把客戶按照預測的流失概率P由高到低進行排序,順序等數量分成N組客戶,對三種評價指標:提升率、查全率、命中率計算相應的累計指標,我們主要使用累計提升率(Cumulative Lift)(即累計流失數量與每百分段值累計平均流失數量的比值)進行模型評估。對決策樹模型、神經網絡模型和沒有進行建模的數據進行評估比較,累計提升率的計算比較結果(見圖4、圖5):

圖4 神經網絡模型

圖5 決策樹模型
在按照預測的流失概率由高到低進行排序的全體客戶的前10%,20%,30%,40%,50%中,神經網絡建模的累計提升率比決策樹建模要稍好。將客戶按照回歸模型預測的流失概率P由高到低進行排序,等數量分成10組客戶,其前幾個百分段分組的客戶流失預測精度較高,由此可以選取此段的目標用戶清單來進行處理,當然輔助決策人員和業務人員還需要根據業務處理能力以及工作成本來選定客戶范圍進行客戶挽留工作。
由模型評估中也發現,該客戶流失模型對未流失客戶的預測比較好,但對流失客戶的預測還不夠理想。這與客戶數據中流失客戶比較少以及現在取得的客戶數據資料還不夠完備有關。建議將來進一步優化客戶流失模型時,能夠獲得更多客戶的相關數據資料,并且可以把最近幾個月(例如:3個月)內的所有流失客戶一塊進行分析,這樣可以更好得到流失客戶的數字特征,改善模型的效果。在建模過程中,還可利用已經得到的模型去預測下個月的主動流失的客戶,以便進一步檢測模型的穩定性。
這個階段主要任務是將模型的結果交付于管理者,為決策提供支持。一般情況下需要將模型結果可視化,而模型的業務分析需要由業務專家結合自己的經驗完成,以提供更為可行的決策計劃。為了針對模型選定的客戶流失關鍵因素,有針對性地設計挽留營銷方案,可采用如下方式:將由客戶流失模型預測的流失傾向較高的客戶分為n-1個組,一個組是無行動組,只占總客戶的10%,這部分客戶不采用任何的挽留措施,純粹為了觀察流失模型的效果:將剩下的90%的客戶分為n個組,可對這n組客戶分別采用不同的挽留措施,保持一段時間之后觀察挽留效果。最后根據不同挽留措施的效果,進一步完善營銷策略。在具體挽留工作中,可綜合考慮客戶的流失風險和客戶價值兩個因素,優先對高價值且高流失風險的客戶進行挽留。
在模型應用過程中,可以先選擇一個試點,試點應用期間隨時注意模型應用的收益情況,一旦發生異常偏差則立即停止應用并對模型進行修正。試點結束后,若模型被證明應用良好,可以考慮大范圍推廣。在模型應用一段時期或經濟環境發生重大變化后,模型的偏差可能會增大,這時應該考慮重建適用性更強的模型。
數據挖掘工具作用的發揮依賴于商業數據采集的準確性,本文主要以某地市電信企業的客戶為目標用戶群,由于企業級的數據倉庫還在建設中,一些相關的原始數據還沒有采集到,此模型最后產生的數據作用還不是很準確和全面。另在客戶流失模型的建立中,還需要考慮各個變量的交互作用對模型的影響,可使用邏輯回歸等其它算法進行嘗試。
[1]郭亮.用CRISP-DM模型來規范企業數據中心建設[J].華北科技學院學報,2008,(10):69-72.
[2]耿慶鵬,盧子芳.利用數據挖掘技術實現對電信行業用戶欺詐行為的預測[J].電信快報,2003,(10):40-42.
[3]李丙春,耿國華.數據倉庫與數據挖掘在電信業中的應用[J].新疆大學學報(自然科學版),2002,(8):46-47.