基于屬性約簡和ＬＯＧＩＳＴＩＣ回歸的客戶信用度預測研究

2009-04-29 00:00:00彭凱

中國經貿 2009年18期

摘要:目前在通信領域的運營商仍然缺乏一套有效的對客戶信用度的評價方法，原因是模型構造科學性不強;評價模型的參數選擇不理想;因地區經濟差異個別省份研究的模型無法在全國統一推廣應用等等問題。為了改進上述不足，基于對某西部通信企業實際業務的商業理解，首先通過專家法選取了以歷史信用、消費滿意度、消費力、消費意愿、關鍵人物和忠誠度為業務緯度的27項與用戶信用好壞有關的屬性，并根據27條屬性通過數據抽取、轉換和裝載(即ETL過程)我們從該企業數據倉庫中提取大量真實的實驗數據774萬條。另外我們利用基于互信息的屬性約簡對原始的27項屬性進行重要性篩選得到用于挖掘的16個屬性，大大簡化了模型構件過程的復雜度。最后我們以16個屬性為輸入值，以被定義的用戶信用度為輸出值，利用數據挖掘中的Logistic回歸算法構造了完整的客戶信用度預測模型。最終我們采用似然比檢驗方法驗證了Logistic回歸的適用性，并采用Wald檢驗自變量的有效性，對實際數據的預測準確率達到88.13%。在實踐應用中，我們利用該模型計算出的用戶信用差的概率來做為信用度高低的評分依據，再此基礎上開展各種個性話的客戶關懷和促銷活動。目前該模型已經在西部的某通信運營商的正式生產系統環境中使用。

關鍵詞:客戶信用度;Logistic回歸;似然比檢驗;Wald檢驗;收益分析

一、問題背景

1.通信領域信用度的重要性。截止2009年5月，我國移動電話用戶數已經接近7億，移動通信網的規模已達到世界第一.隨著3G時代運營商重組工作的完成，激烈的競爭要求企業為了獲得最大的利潤，就必須牢牢把控中、高價值客戶，如何定義中高價值客戶(既價值模型)已成為近年來運營商大力研究的重點，而該模型中的一個重要參數既客戶信用度評定就成為急待解決的難題。

信用度的判定不但成為客戶價值模型搭建的基礎，同時在其他方面的也有很高的應用價值:作為客戶價值(客戶價值)模型的重要組成部分;緩解欠費風險;刺激消費，提升收入。

2.通信領域目前評價信用度的方法。目前在通信領域，評定客戶信用度的方法中用得最多的有以下幾類:

單值評價法;專家法;線性方程;這些方法雖然都有各自的優勢，但也都存在各自的不完善的地方.因此進幾年各省運營商開始引入高級的數據挖掘算法來協助模型的搭建，也取得部分進展，但也因為沒有考慮的地區因素對用戶消費的影響，所以在選取參數時，無法確保全國性的標準統一和推廣應用.因此運營商需要根據各省的特點，設計一個數學模型，以便輔助進行客戶信用度的研究和應用。

二、商業理解

通信領域的用戶信用度就是表示用戶因各種原因而不按時繳納話費和拖欠話費的可能性的度量。這里我們定義用戶停止消費一個月以上且沒有繳清欠費的客戶為信用度“差”客戶，否則為“好”客戶。因此我們需要建立一個數學模型，基于客戶資料、業務屬性、消費情況和交費行為計算出與用戶信用好壞的關系，并輸出一個信用度數值，預測違約風險，直接或間接地成為客戶可以透支消費的門限，并可以應用計費帳務系統對客戶欠費進行管理。

目前移動運營商企業內部都建立了自己專業級的數據倉庫，并通過多年的積累，已經擁有了較完整的用戶屬性、消費屬業務屬性和繳費行為等各種詳細資料，這些數據已經形成了幾百T的信息資源，為通過數據挖掘方法來分析用戶的信用度模型提供了可能。

為進行模型的研究，我們定義了一個客戶信用度預測系統S=，其中U是對象集合，這里每個用戶被稱為一個對象。

C是條件屬性集，通過專家法我們確定了以下27個可能會造成用戶信用度低條件屬性集:

2009年1-3月內客戶欠費停機次數; 2009年1-3月平均每次停機總時長(小時); 2009年1-3月平均每月停機總天數; 2009年1-3月是否上過黑名單; 2009年1-3月是否曾經被催繳; 2009年3月31日活躍標志; 2009年3月31日欠費標志; 2009年1-3月客戶投訴累計次數; 2009年4月用戶的話費余額; 2009年1-3月客戶當前套餐持續的時間; 2009年1-3月平均數據業務費用占比;2009年1-3月用戶平均ARPU;2009年1-3月是否對公托收;2009年1-3月用戶欠費經額;2009年1-3月用戶ARPU變化趨勢;2009年1-3月是否有年齡資料;2009年1-3月是否有收入資料;2009年1-3月是否有學歷資料;2009年1-3月用戶使用品牌;是否高收入者;是否集團關鍵人;是否中高端用戶;Vip等級;2009年1-3月積分;2009年1-3月呼叫聯客服次數;2009年1-3月集團內主被叫次數;2009年1-3月網內主被叫號碼數;2009年1-3月是否集團成員;2009年1-3月在網時長。

分別對以上的屬性進行編號:A1;A2;A3;A4;A5;A6;A7;B1;B2;B3;B4;C1;C2;C3;D1;E1;E2;E3;E4;E5;E6;E7;E8;F1;F2;F3;F4;F5;F6

客戶信用度預測系統中的D為結果屬性集(既分類屬性 )，這里我們僅包含了一個屬性，其值域為1或則為0。根據低用戶信用度的定義:

1.截止2009年1—3月期間，用戶狀態在用或停機時間小于1天的用戶。

2.排除免話費用戶。

3.以拍照號碼為基礎，在2009年4月1日發生欠費停機，且一個月仍然按時繳費的用戶號碼。

根據以上條件，當滿足以上關系的用戶該屬性的值為“1”，否則為“0”。

預測系統中的V代表屬性值集合:

預測系統中的f為結果屬性集，它指定U中每個對象(即每個用戶)的屬性制.

三、數據預處理和屬性簡約

在進行商業過程處理后，我們將從企業數據倉庫中直接抽取相關數據，我們從某西部通信運營商獲得有效用戶數據共774萬條.在進行數據挖掘前，為了提升挖掘的效率，我們需要進行數據的預處理，包括數據質量的驗證，以及屬性簡約.

1.數據質量檢驗。數據質量問題主要是數據缺失和數據噪音，通過稽核，為提升預測模型的質量，條件屬性C集中的元素{A4，45，E1，E2，E3，E5，E6}共七個屬性被直接取消，新的條件屬性集為C-1，而新的客戶信用度預測系統為S1=.

2.屬性簡約。通過對海量的數據進行復雜的數據分析和挖掘將需要很長的時間，從而導致模型比較復雜，效果也不明顯，屬性簡約可以幫助減少條件屬性集C-1中屬性的數量，但仍然可以保持原數據的完整性.這里我們通過，該算法是通過不斷的向預測系統中增加條件屬性C-1中的元素后，對預測系統分類能力(既預測結果屬性D中元素d的值的能力)的變化來評價該屬性的重要度.

開始假設，然后逐步將C-1中各元素分別引入，最后我們計算C-1中各元素的重要度指標。

在C-1中屬性{C2，C3，F1，F2，F3，F4}重要度比較小，因此可以考慮在挖掘以前直接剔除.最后得到用于最終挖掘模型的條件屬性集為C-2，而新的預測系統為S1=.(注:C-2=C-1{C2，C3，F1，F2，F3，F4})

完成數據整理和屬性簡約后，得到輸入字段16個.

四、模型的構建

在數據挖掘的概念中，客戶信用預測系統S1=中條件屬性集C-2的元素又被稱為自變量，而D中的元素又被稱為因變量(其信用度標識屬性是一個二分類變量，當d=1時，說明用戶信用度差，d=0時，說明用戶信用度好).我們將通過合理的算法來構造一個模型，以該模型來描述自變量對因變量對應關系.

該模型將被直接應用于運營商的經營分析系統中，由計算機自動為用戶計算信用等級，因此模型需要具備較好的可解釋性，同時又能較好的擬合自變量和因變量之間的對應函數，由于兩者的關系屬于非線性，因此我們選擇了數據挖掘中的LOFISTIC回歸算法[3]來構件預測系統S1=的模型:

影響用戶信用屬性取值的14個自變量分別為C-2={A1，A2，A3，A6，A7，B1，B2，B3，B4，C1，D1，E4，E7，E8，F5，F6}。令自變量作用用戶信用度為差的條件概率為，則logistic回歸模型可表示為:

其中為常數項，其表示當各種自變量取值為0時，d=1與d=0的概率之比的自然對數值.為偏回歸系數。其中表示在其它自變量固定的條件下，第j個自變量每改變一個單位時logit的改變量。

這里進行logit變換: 為P的logit變換，通過logit變換之后，就可將的資料轉換為的資料.

預測模型的構建就是利用最大似然估計來測算偏回歸系數 .我們將抽取的770萬條左右的實驗數據分成三部分，其中一部分作為訓練數據，一部分作為模型驗證數據，最后一部分為測試數據.

通過運算，我們得到最后的模型:

中的系數值如下(表3):

表 1 模型系數值

根據模型后，我們對每個用戶進行信用度情況進行評分:通過模型計算每個用戶信用度差的概率P，根據該概率的大小從高到低對用戶進行排名，并將用戶分為信用度差、信用度較差，信用度較好，信用好、高信度群體。

五、模型的效果檢驗

1.模型擬合效果檢驗。通過實驗數據進行模型訓練，用戶信用屬性等于1占比為1%，為0占70.2%，記錄中有效數據為100%，沒有丟失數據。因此可以認為本次實驗數據有效。

另外我們采用了指標來評價模型的擬合優度。當自變量與因變量完全無關時，類R2值趨近于0;而當回歸模型能夠全部準確預測時，類R2趨近于1。通過計算，的類R2值(表5)為0.67，說明信用評價模型的擬合優度較理想。

通過(表6)，以檢驗Logistic回歸模型是否適用，模型的顯著性水平低于0.05，因此表明Logistic回歸模型是適用的，符合“比例性”的要求。

2.自變量顯著性檢驗。要檢驗所選的自變量引入模型后是否對模型的預測結果有顯著貢獻，判斷某個自變量是否應該包含在Logistic回歸模型中，需要通過Wald統計量來檢驗.一般情況下，Wald值越大或顯著性概率越小，則自變量在回歸方程中的重要性越大、貢獻較大，應該將其納人模型，反之則應該去除。

Wald的統計量為u，計算方法如下:

式中: 表示第i個自變量的回歸系數樣本值，表示自變量的回歸系數標準差.對自變量進行Wald檢驗的結果如表2所列，表2分別給出了各自變量的Wald統計值和對應的顯著性概率，將其用于回歸系數的顯著性檢驗。

在95%置信度水平下，除常數項以外，只有自變量B3和F5的系數和的顯著性概率均大于0.05，其作用在統計上不顯著，對預測因變量的貢獻不大，可以考慮不作為自變量進入模型.其他的14個變量的的顯著性概率均小于0.05，在統計上顯著。這說明建模前我們基于互信息的屬性約簡算法對于簡化屬性的作用是有效的。

3.模型收益效果。我們利用CLIMENTINE軟件來檢驗了模型的收益效果。圖1展示了使用模型和不使用模型的時候的效益.可以看到與理想的收益線相比，模型預測效果較接近理想狀況.在實際應用中，我們將取信用度差的概率值排名前20%的用戶來進行模型預測效果是不使用模型時的2.5倍，這將大大減少企業在的客戶維護成本.

4.模型的實際效果檢驗。最后我們將企業數據倉庫中獲得的700萬條真實數據代入模型，計算預測值和真實值對比，計算結果如表5所示.總體而言，總體預測準確率達到88.13%，錯誤率為11.87%.因此我們認為該模型預測效果檢驗有效。

5.模型實際運用效果檢驗。該模型目前已被某西部通信運營商投入商業試運行，運用范圍包括:

(1)根據客戶信用度來設置客戶可欠費的額度，以提高客戶通信服務滿意度，同時刺激用戶消費，提升企業收入。

(2)將信用模型引入客戶價值模型，為根據客戶價值的精確化營銷提供有利的依據。

六、總結

通過上述研究，本文形成以下主要結論:

1.通過基于互信息的屬性約簡算法進行屬性簡約，在實際應用中可以大大簡化模型構件過程的復雜度，該簡約算法在實際應用中可實施性強，通過Wald檢驗，顯示了該方法對于屬性簡約效果明顯.

2.通過對模型進行擬合效果的檢驗，發現采用累積Logistic回歸方法是適用的.

3.通過采用Wald統計量對不同自變量進行顯著性檢驗和篩選，發現最后選出的14個自變量能夠很好地預測低信用度的用戶.

4.通過模型收益效果檢驗，模型的實際效果將極大的減少企業的客戶關系運營成本.

5.最后通過對模型的實際效果檢驗，對實測數據的預測準確性達到88.13%.

6.將Logistic回歸算法引入到客戶價值預測，可以根據模型預測的概率結果的大小作為用戶信用度級別的依據。該方法因為可解釋性強，因此在實際的應用中便于系統實現，該方法可在電信運營商的客戶信用評估中具備較好的推廣價值.

總體而言，本文所提出的客戶信用度評價模型能夠較為準確地反映某公司，但模型的預測結果仍存在一定的差異性，主要原因在于:客戶信用低還存在很多的偶然因素，例如，客戶丟卡，客戶臨時出差等特殊情況可能造成預測數據偏差，另外算法在進行非線性性擬合的時候還需要進一步改進，因此在將來有必要深入分析上述因素對客戶信用的影響，進一步完善評價模型。

參考文獻:

[1]伊蒙著王志海等譯:數據倉庫(第三版)[M]. 機械工業出版社，2003.

[2]王宏著:基于粗糙集數據挖掘技術的客戶價值分析[M].經濟科學出版社，2006-9-1.

[3]王濟川鍋志剛:Logistic 回歸模型---方法與應用[M]。高等教育出版社，2001-09-01.

[4]王濟川郭志剛:Logistic回歸模型方法與應用[M].北京高等教育出版社，2001.

[5]謝邦昌:數據挖掘Clementine應用實務[M].機械工業出版社，2008-04.

中國經貿2009年18期

中國經貿的其它文章: 墨西哥石油工程服務項目合同的價格特點和對項目居間協議服務費的影響; 美國天使投資的組織化; 淺析國際輸變電工程承包領域ＥＰＣ模式的新發展; 淺析績效改進的誤區與對策; 歐盟碳排污權交易機制研究; 淺談會計誠信缺失及治理對策