陳寶華 柳炳祥 萬川南
摘要:企業的客戶關系管理工作好壞,直接影響到企業的核心競爭力,發現一個潛在的客戶,往往比挽留一個客戶所花費的成本要大的多,因此,發現睡眠用戶,并做好相應的客戶關懷,挽留住即將流失的客戶,就顯得非常重要。論文利用logistic回歸模型,建立客戶睡眠客戶的預測模型,建模步驟分為變量分析、變量變換、模型建立評估。從實驗分析和結果上看,模型效果擬合較好,評價logistic回歸模型結果好壞的ROC、KS曲線驗證了該方法的可行性和有效性,為睡眠用戶的預測提供了一種分析的思路和方法。
關鍵詞:睡眠客戶 預測模型 logistic回歸模型
中圖分類號:F123.9 文獻標識碼:A 文章編號:1007-9416(2016)08-0069-02
1 引言
睡眠用戶的定義和模型目標變量的選定息息相關,而目標變量是用模型確定業務問題的模型解釋,這個過程本身就是業務問題轉化統計模型問題過程。鑒于睡眠用戶定義的重要性,睡眠用戶的直接表現是停止交易,所以最后一次交易到無交易的時間是一個比較合理定義。為此從統計用戶兩次之間交易間隔來確定睡眠用戶的定義。統計用戶的最大交易間隔天數分布情況,從圖1中可以看出,到當用戶最大交易間隔天數在90天后,用戶的最大交易間隔分布下降平緩,而且70%以上的用戶的最大交易間隔小于等于90天。
發現睡眠客戶對于企業的客戶管理工作非常重要,論文采用logistic回歸模型對睡眠客戶進行分析,發現睡眠客戶的特征,進而改善客戶關系管理工作,提升客戶價值。
2 數據處理
2.1 數據來源
論文數據來自于某第三方支付平臺歷史交易數據,對一些涉及商業機密的數據,如交易金額等進行線性變換,對用戶個人隱私信息進行剔除。
2.2 數據預處理
在建立模型之前,對重復數據進行了預處理。首先從業務的角度上,對用戶的交易是主動性交易與被動性交易進行整理,從業務的角度上理解主動交易更能反映用戶的行為,所以數據刪除被動交易記錄。對文本字段轉換成數值字段,時間字段轉換成標準時間格式,即數據處理中截取、清洗、轉換。
2.3 確定高價值客戶
從業務的角度上,歷史活躍度很低的用戶,對企業的認可度可能更小,對這樣的用戶營銷收益不高。所以建立模型時,要考慮確定什么樣的用戶是高價值用戶。高價值的用戶有一定的活躍度,而活躍度主要表現在交易次數上。而為了確定有價值用戶的規則,篩選出在歷史交易時期沒有睡眠的用戶,計算這些用戶在6個月中的歷史交易情況,并對整體用戶的分布趨勢進行匯總統計分析,數據處理結果如表1所示。
3 logistic回歸模型在睡眠客戶預測中的應用與分析
3.1變量選取
對于本次建立的睡眠用戶,預測模型的變量選取,主要是客戶屬性變量與客戶交易行為變量。其中客戶屬性變量有:CUSTOMER_NO,用戶實名等級,注冊時間;客戶交易行為變量有:交易金額,交易類型,交易時間,每次交易前余額,每次交易后余額,交易類型(涉及商業機密數據,所以將金額數據進行線性變換處理),還有一些衍生變量。
3.2 變量處理
原始數據繁雜冗余,不能直接用于建模。數據處理過程包括缺失處理、變量類型轉換、日期型變量處理、錯誤變量處理、異常值處理、相關性變量處理、變量選擇。其中缺失值處理的方法是,當交易數據為缺失時,用零來代替,代表沒有發生交易,是一個合理的解釋。所以,本文的原始變量缺失則用零代替。變量的刪減的方法是,刪除變量是一個非常慎重的問題,但是若是存在較強相關性的情況下,logistic 回歸結果是不滿意的。因為變量過多,一次性進行變量相關性分析結果,顯得過于繁雜,不利于找出其中的規律。為此,先進行變量重要性分析,將變量相關性分成兩階段進行。第一個階段,先分析三個維度中變量的相關性分析。第二階段,在完成第一階段分析之后,剩余的變量全在一起分析變量相關性。
3.3 模型建立
按上面的分析,對變量進行選取及變量的處理后,進入建模階段。實驗所選變量主要體現用戶交易行為變化、最近交易行為、用戶身份特征來擬合用戶是否會進入睡眠狀態。將整理好的數據按50%比例隨機抽樣,分別得到訓練集和測試集。實驗模型是基于SAS軟件中的PROC LOGISTIC過程來實現的。選取逐步回歸估計的方式,模型估計結果如表2所示。logistic 回歸分析的極大似然估計分析,如表3所示。
3.4 模型評估
評價logistic回歸模型結果好壞,主要有K-S曲線、ROC曲線等方法,圖2、圖3是本次實驗所建立模型的K-S曲線、ROC曲線。ROC 曲線橫坐標為(1-特異度),縱坐標為靈敏度。特異度是實際上屬于非目標事件的觀測中被正確分類的比例;靈敏度十實際上屬于目標事件的觀測被正確分類的比例;K-S統計分布是用來衡量模型的辨識能力。sleep=0(非睡眠)曲線是模型預測值小于某個值時sleep=0(非睡眠)的累計觀測數占比分布;sleep=1(睡眠)曲線是模型預測值小于某個值時sleep=1(睡眠)的累計觀測數占比分布;D值在0 到1 之間,D 值越大,模型的辨識能力越強。此模型兩條曲線的最大垂直距離,即K-S 統計值D=0.625,說明該模型辨識能力較好。
4 結語
通過對變量的標準化系數比較各變量的影響程度。最后一次交易后余額,最近三月消費次數,最近三個月消費筆數占比,最近三個月交易金額占個月總交易額百分比,最近三個月轉賬筆數占比,實名等級0,最近三月轉賬金額占比與最近4-6個月轉賬金額占比變化比例的標準化系數分別是-0.8781,-0.4041,0.3305,-0.2005,0.1773,0.1382,0.1036,即這些變量的影響程度呈現遞減趨勢。
從實際業務角度上驗證,JinePChange3(最近三月轉賬金額占比與最近4-6個月轉賬金額占比之差)越大,表示最近三月轉賬金額增加,Pred 值變大,睡眠可能性增加。NumPercent32(最近三個月消費筆數占比)越大,表示最近三月消費相對增加睡眠可能性增加。NumPercent33(最近三月轉賬筆數占比)越大,表示最近三月轉賬相對增加睡眠可能性增加。Sum3P6(最近三個月交易金額占六個月總交易額百分比)越大,表示最近的交易相對之前更活躍,睡眠可能性降低。RealName等于0,表示非高級實名用戶,相對高級實名用戶睡眠可能性更大。Num32(最近三月消費次數)越大,表示消費頻率較大,用戶更不容易進入睡眠。AfterAmt(最后一次交易后余額)越大,表示用戶的粘性更大,更不容易進入睡眠狀態。
論文利用logistic回歸模型,建立客戶睡眠客戶預測模型,建模步驟分為變量分析、變量變換、模型建立評估。從ROC、KS曲線上可以看出,模型效果擬合較好。實驗中也有一些不足之處,首先是數據收集還存在不足,根據行為分析,對用戶的行為特征除交易行為,還有個人偏好、性別、年齡、消費能力、學歷等因素未考慮,直接影響到模型預測的精度,有待今后進一步完善。
參考文獻
[1]趙小寧,李鳳霞.因子分析法和聚類分析法在網上銀行客戶滿意度研究中的應用[J].時代金融,2015(3).
[2]李凡.數據挖掘技術的研究與應用[D].西安電子科技大學,2002.
[3]杜建軍,李海玉,馬蓉等.數據預處理與決策樹在客戶行為分析中的應用[J].信息技術,2008(12).
[4]蔣斌.數據挖掘技術在客戶關系管理中的運用[J].云南大學學報(自然科學版),2006 (12).
[5]郭立碩,王兆剛,李星.基于因子分析和聚類分析上市房地產公司的財務風險評價[J].中小企業管理與科技,2015(1).