基于決策樹模型的商業銀行基金客戶分類研究

2012-04-29 00:00:00董紀昌趙銘紀鵬飛吳迪

現代管理科學 2012年4期

摘要：文章論述了基金客戶分類對商業銀行基金營銷的重要性。通過對商業銀行已有的基金客戶數據進行預處理和分析，運用決策樹技術對商業銀行基金客戶構建起分類模型，找出高端（低端）客戶特征進而在銀行的儲蓄客戶中挖掘出潛在的基金交易客戶，提高商業銀行業績。

關鍵詞：決策樹；客戶細分；基金理財客戶

一、引言

我國的證券基金業經過20世紀90年代的高速發展，現在正處于緩慢增長期，客戶數量動態增長，然而在銀行基金客戶業務中尚缺乏準確有效的客戶分類模型，這成為銀行代銷基金業務發展的一個瓶頸。因此準確的對銀行基金客戶進行分類對銀行吸引潛在客戶交易、增加現有客戶滿意度、減少客戶流失幾率、提高客戶交易水平、提高基金交易業績具有非常重要的現實意義。

二、相關文獻和方法回顧

1. 文獻回顧。數據挖掘是從大量原始數據中挖掘出有用的、隱含的、尚未發現的知識和信息，國外的許多學者認識到數據挖掘應用于銀行客戶關系管理中的重要意義，并對應用數據挖掘進行客戶分類進行了大量的研究和應用。Tillett L Scott（2000）認為數據挖掘優化了CRM的服務功能，可以為客戶服務提供準確的參考信息，提高對客戶事務處理的能力。AdamRombel（2001）認為客戶關系管理為客戶與銀行之間創建了一個溝通渠道，而數據挖掘技術則進一步優化了銀行內部的業務流程，使這一渠道變得更加高效與快捷，并且銀行能夠通過分析客戶的交易行為，更好的了解客戶和保留客戶，挖掘客戶的愛好和興趣，從而以最快的速度響應客戶的需求，為客戶提供最優質的服務，極大地提高客戶的忠誠度。Groth R（1999）認為集成有數據挖掘技術的營銷輔助工具可以提供高精確度的模式識別和預測功能，使商業人員有效地策劃和開展營銷活動。Koh Hian Chye、Chan Kin Leong Gerry（2002）闡述了數據挖掘技術在銀行CRM中的重要應用，數據挖掘可以應用于客戶關系管理中的多個方面，比如客戶價值分析和客戶貸款預測、洗黑錢以及其他金融犯罪的偵破。另外，國外許多銀行和研究機構也對數據挖掘技術進行了理論研究和產品開發，并且廣泛應用于銀行業的客戶關系管理：Mellon銀行通過應用IBM公司開發的Intelligent Miner軟件，大大提高了定價和銷售金融產品的精確度；美國HNC公司開發了功能強大的數據挖掘產品Marksman，美國Firstart銀行能夠根據該軟件產品對客戶的信息數據和消費偏好的研究從而對客戶的行為進行預測，以確定何時對客戶采取何種市場活動。

綜述所述，國外有關數據挖掘和客戶關系管理的研究為下面進行實證研究奠定了堅實的理論基礎，也提供了頗具價值的研究經驗和理論基礎。但由于銀行體制結構的差異，國外的研究方法尚無法直接套用在國內的研究上。

我國銀行業對于數據挖掘在銀行客戶關系管理方面的研究和應用還處于起步階段；聶晶、孫捷（2005）進行了基于數據挖掘的商業銀行客戶關系管理系統的體系的架構。張穎、杜斌、鐘永紅（2005）提出了一種基于數據挖掘技術的銀行客戶關系管理系統的設計方案，希望能夠用來解決我國現行銀行信息系統中在銀行客戶關系管理中所存在的問題。他們在分析了現有銀行客戶信息系統的現狀后，討論了數據倉庫、OLAP和數據挖掘在銀行CRM中的應用，并將XML以及多維數據模式設計的思想結合在一起，并在此基礎上構造了一個新的銀行客戶關系管理系統。張忠磊、孫玉娟（2006）介紹了一種基于數據挖掘技術的銀行客戶關系管理系統的設計方案。在分析了現有銀行客戶信息系統的現狀后，討論了數據倉庫、OLAP和數據挖掘在銀行CRM中的應用，并結合XML和多維數據模式設計的思想，構造了一個銀行客戶關系管理系統的架構。趙寶華（2009）闡述了基于銀行細分的數據倉庫設計，并將數據挖掘技術中的聚類算法應用于用戶市場的細分，從而有助于銀行的業務發展和市場定位。常雪琦、劉偉（2009）研究了在銀行客戶關系管理中如何應用數據挖掘技術，并在此基礎上構建了以數據挖掘為核心的銀行客戶關系的管理系統；魯江、何曉玲（2009）將數據挖掘技術與銀行信用風險度量系統結合在一起，此技術能夠輔助銀行的決策者進行信用方面的風險管理；鄒少軍（2009）利用決策樹分析了在銀行的客戶關系管理的應用模式，并闡述了它的實現過程以及決策樹構造算法。

由以上相關文獻檢索可知，我國銀行業對數據挖掘方面的應用較少，且國內的相關研究的成果主要集中在客戶關系管理，證券客戶分類等方面，缺乏對銀行基金客戶分類的研究。對數據挖掘技術在客戶關系管理中的應用多是采用因子分析和回歸分析，還較少有人對數據挖掘技術在商業銀行客戶關系管理中進行定量、系統地進行過研究。因此本文在繼承以往學者研究的基礎上，運用決策樹方法對某商業銀行2009.01.01到2010.03.31期間的數據建模，構建銀行基金客戶的決策樹模型，并且將其與常用的分類模型邏輯回歸模型和神經網絡模型進行對比以此說明決策樹方法的可行性。

2. 決策樹分類算法。決策樹算法起源于概念學習系統CLS（Concept Iearning System），決策樹分類算法主要是利用信息論原理對大量樣本的屬性進行分析和歸納而產生的，發展到ID3方法而為高潮，最后又演化為能處理連續屬性的C5.0。基于決策樹的分類技術以其特有的優點廣為人們采用。首先，決策樹以樹形結構表示，且樹的節點處是對預測結果影響顯著的屬性，方法結構簡單，便于理解；其次，決策樹模型效率高，適合訓練數據集較大的情況；再次，決策樹方法通常不需要受訓數據外的知識；最后，決策樹方法具有較高的分類準確度。

決策樹技術主要是利用信息論中的信息增益來尋找訓練數據集中具有最大信息量的屬性字段，并將該屬性字段作為決策樹的一個節點，然后根據該屬性字段的不同取值來建立樹的分支，在每個分支集中重復建立樹的下一個節點和分支的過程。樹的質量取決于分類準確度和決策樹的規模。一般來說，決策樹的構造主要由兩個階段組成：第一階段，建樹階段。選取部分受訓數據建立決策樹，決策樹是按廣度優先建立直到每個葉節點包括相同的類標記為止。第二階段，調整階段。用剩余數據檢驗決策樹，如果所建立的決策樹不能正確回答所研究的問題，就要對決策樹進行調整，直到建立一棵正確的決策樹。

在決策樹構造完成之后，便可以對未知的樣本數據進行分類預測。通過對樣本數據的各個屬性值在決策樹上進行測試，便形成了一條由根節點到葉子節點的路徑。決策樹可以很容易地轉化成分類規則。

三、基于決策樹的商業銀行客戶分類

1. 研究思路。本文的研究思路是首先將某商業銀行的樣本分為兩部分：隨機抽取60%的樣本作為訓練集；其余40%的樣本作為測試集，然后，通過計算訓練集樣本的各特征因素（如：客戶年齡、交易金額、交易手續費、最后一次交易時間等）與貢獻度標簽的關系，建立決策樹分類器，最后再檢驗該分類器在測試集中的準確性，換而言之是否具有外推性。

2. 數據來源及說明。國內某商業銀行的數據為客戶在2009年01月01日到2010年03月31日共一年零三個月的交易數據以及客戶的銀行存款數據，共計6 394條數據。其中剔除2009年沒有交易數據的無效數據1 084條數據，剩余5 310條有效數據，這部分數據具有以下特點：

（1）交易數據全面：有詳細的交易金額，時間，次數。

（2）信息充足：不僅擁有交易數據，還擁有客戶的存貸款數據，其他業務數據，以及個人信息數據。

（3）真實度較高：數據真實可靠，數據缺失較少。

本文將2009年1月1日至2009年12月31日共計一年的時間確定為觀察期，將2010年1月1日至2010年3月31日為表現期，將在表現期中有交易的客戶即認定為優質客戶，打標為1。這樣認定的原因是只有客戶存在交易就會給銀行帶來收入，即帶來正的現金流；而銀行成本分攤至每個客戶可以忽略；即短期（3個月）有現金流入即認定為優質客戶。按照上述原則，對5 310名有效客戶進行了分類打標，得到標簽為0的客戶即低端客戶數量為2 854名，占樣本總數的53.75%，標簽為1的客戶數量為2 456名，占樣本總數的46.25%。如表1所示。

3. 模型構建。本文用WEKA軟件進行運算處理，分類模型過程如下所示：

（1）對訓練集進行訓練，計算每個屬性的信息增益和獲取率，選擇獲取率最大的但同時獲取的信息增益又不低于所有屬性平均值的屬性，作為當前的主屬性節點，為該屬性的每一個可能的取值構建一個分支。對該子結點所包含的樣本子集遞歸地執行上述過程，直到子集中的數據記錄在主屬性上取值都相同，或沒有屬性可再供劃分使用，生成初始的決策樹。

（2）對初始決策樹進行樹剪枝；主要采用后剪枝算法對生成的初始決策樹進行剪枝，并在剪枝過程中使用一種悲觀估計來補償樹生成時的樂觀偏差。

（3）由所得到的決策樹提取分類規則；對從根到樹葉的每一條路徑創建一個規則，形成規則集。將規則集顯示給用戶，把用戶篩選過認為可行的規則存入規則數據庫。

（4）當新客戶發生市場交易行為時，系統運用決策樹所得規則對新客戶的數據信息進行分析，預測該客戶的行為屬于哪一類，從而為客戶營銷策略提供輔助決策。

根據以上的決策樹分類模型過程構造決策樹并根據決策樹模型進行分析，當客戶最后一次交易距2009年末時間長度超過52天時客戶識別為高端客戶的比例為11.9%，低端客戶的比例為88.1%。在最后一次交易小于52天時且定投次數大于0時高端客戶占到90.4%，當定投次數小于0時，客戶的類別又與凈值偏好和股票型支數有關，凈值偏好大于0且股票型支數大于2支時，高端客戶所占樣本比例很高。從總體而言，從決策樹模型看出的客戶分類直觀明確，且符合邏輯。經測試集對模型分類測試后，準確率達到87.85%

4. 模型效果及對比。由于隨機樣本分成60%的訓練集和40%的測試集可能具有一定的偶然性，因此本文采用使用weka軟件的決策樹工具包進行十折交叉運算進行驗證效果，同時也用邏輯回歸和模糊神經網絡方法進行十折交叉運算，對模型的效果加以對比，得出的結果如表所示。

從表2可以看出，進過十折交叉運算后決策樹方法準確率為86.478 3%高于邏輯回歸和神經網路的85.762 7%，84.463 3%，從Mean absolute error指標看出決策樹方法的誤差低于邏輯回歸和神經網絡，說明決策樹方法在商業銀行基金客戶分類中的準確率高于其他方法。從Kappa statistic參數來看決策樹方法為0.722 2，同樣也高于邏輯回歸和神經網絡的0.707 8，0.683 9，說明決策樹在銀行基金客戶分類中的一致性相對另外兩種常用的方法較好。

表格中第一行TP Rate是判斷分類是0，結果也是0的概率。第二行TP RATE是判斷分類是1結果也是1的概率。這個值越高越好，從表中可以看出決策樹方法在基金客戶分類中預測效果高于其他兩種方法。

四、結論

客戶關系管理的基本原則之一就是客戶分類，合理準確的客戶分類也是商業銀行維護不同層次客戶，提高利潤的重要手段和前提。決策樹分類方法作為比較常用的分類方法卻很少用于商業銀行基金客戶分類。本文運用決策樹分類方法建立了商業銀行的客戶分類模型，獲得了較為準確的分類結果，同其他常用的數據挖掘方法相比較，其解釋能力和準確性都有很好的效果。銀行可以運用此方法進行客戶分類進而針對不同類別采取不同的營銷策略，實現收益的最大化。

參考文獻：

1. Adam Rombel.CRM Shifts to Data Mining to Keep Customers.Global Finance，2001，15(11):97-98.

2. Groth R.Data Mining，Building Competitive Advantages.Prentice-Hall Ptr，1999.

3. 洪家榮，丁明峰，李星原，王麗薇.一種新的決策樹歸納學習算法.計算機學報，1995，（6）.

4. John Durkin，蔡競峰，蔡自興.決策樹技術及其當前研究方向.控制工程，2005，（1）.

5. 劉小虎，李生.決策樹的優化算法.軟件學報， 1998，（10）.

6. 田金蘭，趙慶玉.并行決策樹算法的研究.計算機工程與應用，2001，（20）.

7. Tillett L Scott.Banks Mine Customer Data.Internet Week，2000，（831）:45-46.

8. 徐愛琴，張德賢.基于神經網絡的分類決策樹構造.計算機工程與應用，2000，（10）.

9. 聶晶，孫捷.基于數據挖掘的商業銀行客戶關系管理系統構建研究.科技創業月刊，2005，（10）:95-96.

10. 張忠磊，孫玉娟.數據挖掘技術在銀行客戶關系管理系統中的應用研究.華南金融電腦，2006，（5）：89-91.

11. 趙寶華.數據挖掘技術在銀行客戶細分中的應用.微型電腦應用，2009，25（10）:40-44.

12. 常雪琦，劉偉.數據挖掘技術在客戶關系管理中的應用分析——以銀行業為例.信息技術與信息化，2009，（5）:70-78.

13. 魯江，何曉玲.數據挖掘在我國商業銀行信用風險度量模型中的應用. 中國管理信息化，2009，12（11）: 75-78.

14. 鄒少軍.數據挖掘與決策樹在銀行 CRM 中的設計與實現.電腦知識與技術，2009，5（33）:9154-9156.

15. 吳迪.高鵬.董紀昌.基于場景理論的中國城市居住房地產需求研究. 系統科學與數學，2011，31（3）：253- 264.

16. 吳迪，高鵬，董紀昌.保障性住房違規出租問題的博弈分析和治理研究.管理評論，2011，23（2）：3-10.

17. 吳迪，高鵬，董紀昌.公共租賃房租金定價研究.數學的實踐與認識，2011，41（5）：47-55.

18. 吳迪，高鵬.“城中村”問題的國內理論研究進展.學術論壇，2009，12（227）：114-119.

19. 吳迪，李秀婷，高鵬，董紀昌.我國房地產市場的短期量價變化研究及預測.改革與戰略，2011，27（3）：139- 141.

20. 李朝暉.建立國家級戰略性新興產業創業投資引導基金的對策建議．現代經濟探討，2011，（10）．

基金項目：國家自然基金項目“我國房地產市場區域差別與調控政策差異化研究”（項目號：71173213）；中國科學院預測科學研究中心主任基金項目“高陽金信基金理財產品研究”（項目號：Y0410411G2）；中國科學院預測科學研究中心主任基金項目“中國宏觀經濟預測”（項目號：0929018ED2）。

作者簡介：董紀昌，中國科學院管理學博士，中國科學院研究生院管理學院應用經濟中心主任、院長助理；趙銘，中國科學院研究生院管理學院碩士生；紀鵬飛，中國科學院研究生院管理學院碩士生；吳迪，中國科學院研究生院管理學院博士后。

收稿日期：2012-01-28。

現代管理科學2012年4期

現代管理科學的其它文章: 中國R&D人力資源結構與經濟增長的關系研究; 中美兩國醫藥供應鏈拓撲結構比較研究; 蘇南中小企業融資問題探析; 控制權轉移溢價的影響因素研究; 我國企業自主創新的現狀及問題分析; 中國傳統價值觀對移動應用消費行為影響的分析