組合分類器在金融行業數據分類中的應用研究

2018-04-18 11:07:56陳江濤呂建秋

計算機應用與軟件 2018年2期

陳江濤　呂建秋,2*

1(華南農業大學　廣東廣州 510642) 2(廣東省科技管理與規劃研究院　廣東廣州 510642 )

0　引　言

金融行業是一個與我們的生活息息相關的行業，每天都會產生大量的數據，越來越多的金融企業也認識到這些客戶數據背后的價值，重視對于客戶關系的管理。客戶分類是客戶關系管理中的重要一環，它通過對以往的客戶數據的分析建立分類模型，幫助金融從業人員識別目標客戶，有助于金融企業更好地開展金融產品的營銷。常用的客戶分類算法有很多，并且已廣泛應用于金融數據分析，幫助金融機構取得了巨大的效益。但是任何一種分類算法都有其優劣勢所在，在分類過程中難免產生一些由于分類器本身的特點造成的分類錯誤，從而影響分類的準確率。為了避免這種由于分類器自身特點所產生的分類錯誤，分析目前單一分類方法的缺陷，找出它們的局限性，并結合他們各自的優點，構建組合分類模型是一種值得探究的重要方式。

1　國內外文獻綜述

金融行業的客戶分類模型一直是分類研究中的熱點領域之一，客戶分類對于銀行、證券或者保險機構識別目標客戶，規避潛在風險發揮著越來越重要的作用。在此基礎上，大量學者也對金融行業的客戶分類進行了研究與改進，針對金融分行業的客戶數據特點提出了各種各樣的分類模型，這其中應用較多的有C5.0、貝葉斯網絡、SVM支持向量機，神經網絡算法等。例如Tam等[1]通過比較神經網絡、支持向量機、KNN和ID3算法發現神經網絡在銀行提供的樣本數據集中的預測準確性、適應性等的表現更好。Becerra等[2]則認為線性模型雖然簡單易懂，但需要統計學上的假設，這是不現實的，神經網絡能夠區分不可線性分離的模式，但是參與神經模型的大量參數通常會導致泛化問題。因此提出運用小波分析來改善神經網絡的分類模型。Dixon等[3]運用深度神經網絡(DNN)算法來預測金融市場的運行方向。羅方科等[4]則運用Logistic信用風險評估模型對客戶信貸風險進行分類處理，提出了一些風險規避的建議。周駟華等[5]則對多層感知器神經網絡算法、SVM、線性判別、二次判別和邏輯回歸等數據挖掘方法進行了比較發現多層神經網絡算法在某小貸公司的小微企業信貸分類效果最好。

還有一些學者結合啟發式算法對傳統的分類算法進行了改進。這方面的研究有Gorzaczany等[6]運用多目標進化優化算法(MOEOAs)設計的基于模糊規則的分類器，發現這種分類器在準確性和分類速率方面要明顯優于其他分類器。Marinakis等[7]針對金融行業的客戶分類特征值的選擇往往有很嚴重的主觀性的問題，提出引進蟻群算法來進行特征值的選擇并與分類算法相結合，有限避免了專家主觀選擇因素帶來的分類結果影響。湯亞玲等[8]針對BP神經網絡容易陷入局部極小值和收斂速度慢的問題提出將遺傳算法與神經網絡相結合，發現可以以更短的時間、更高的精度得到分類結果。

組合分類方法是將多種分類器組合起來，規避一種分類器分類錯誤風險的方法，在很多領域都有應用。例如閆瑞等[9]運用組合分類的方法研究了短文本分類中組合分類器的應用，發現組合分類器可有效改善分類算法在短文本分類中的查準率與召回率。陳學泓等[10]則在誤差分析的基礎上，結合兩種有監督的學習算法，運用組合分類器有效提高了模型的分類精度。王昱等[11]則運用組合分類器研究了消費者信用評估，并發現其分類效果要明顯好于決策樹分類。

金融行業客戶樣本數據往往呈現維度高，樣本容量大的特點，數據中可能還會存在各種各樣的缺值、漏值的情況。因而在實際分析中，往往一種分類方法并不能完全滿足需要，可能會陷入各種各樣的分類誤區，這就需要我們能綜合運用多種分類方法，減少單一方法帶來的缺陷。

2　本文的主要研究目標

由于幾種分類算法本身的限制，其分類結果往往有一些差異，本文的主要研究目標是探究C5.0、logistic、貝葉斯網絡三種分類模型對金融行業數據集中的分類表現，并根據置信度構建加權投票的組合分類模型來提高分類的準確率，為以后金融行業的客戶分類等提供參考。

3　主要的研究方法

本文主要通過SPSS Modeler建模得到三種分類器在三個數據集上的分類結果。然后根據分類結果的置信度對分類數據進行組合加權，構建組合分類器模型。最后通過比較分析檢驗組合分類器的分類效果。

4　數據介紹

文中所選取的數據均來自于UCI數據集，UCI數據庫是加州大學歐文分校提出的用于機器學習的數據庫，是一個常用的標準測試數據集。本文選擇的是其中三個關于金融行業客戶分類的數據集[12]。

4.1　銀行電話營銷數據集

該數據集是葡萄牙銀行從2008年-2010年的電銷數據，包括有17個變量，45 211條記錄，其中包含有客戶的年齡、工作、教育、余額、房貸、個人信貸、電話營銷結果等[13]。

4.2　信貸審批客戶數據集

信貸審批的數據集包含有16個變量，690條記錄，由于數據信息關系到客戶信貸審批的個人隱私，因此所有的變量名都經過處理，用A1-A16表示，另外，該數據中還存在37條缺失值[14]。

4.3　信用卡客戶數據集

使用信用卡客戶的數據集有23個變量，30 000條數據，主要包含有給定的用戶的年齡、性別、給定的信貸金額、還款歷史，欠款數量等[15]。

5　基本分類方法介紹

5.1　C5.0算法

C5.0算法是一種基于決策樹的分類算法，決策樹的概念最早由Hunt等在1966年提出，后來提出了很多基于決策樹的分類算法。其中比較著名的有Quinlan提出的基于信息增益的ID3算法，以及后來有ID3算法改進而來的C4.5算法，由C4.5算法發展而來的C5.0算法。C5.0是C4.5應用于大數據集上的分類算法，主要在執行效率和內存使用方面進行了改進，適用于處理大數據集，采用Boosting方式提高模型準確率，在軟件上計算速度比較快，占用的內存資源較少[16-17]。

5.2　Logistic回歸

Logistic回歸是根據輸入域值對記錄進行分類的統計方法。Logistic回歸建立一種方程，把輸入域值與輸出字段每一類的概率聯系起來。一旦生成模型，便可用于估計新的數據的概率。對每一個記錄，計算其從屬于每種可能輸出類的概率。概率最大的目標類被指定為該記錄的預測輸出值。Logistic算法計算代價不高，易于理解和實現，但是容易出現欠擬合的狀態，分類精度偏低[18-19]。

5.3　貝葉斯網絡

貝葉斯網絡是一種以貝葉斯定理為基礎的分類方法，它的基本原理是通過某對象的先驗概率，利用貝葉斯公式計算出其后驗概率，即該對象屬于某一類的概率，選擇具有最大后驗概率的類作為該對象所屬的類。貝葉斯網絡所需估計的參數很少，對缺失數據不太敏感，但是屬性之間的獨立性假設往往不成立，對獨立性不好的數據分類效果較差[20-21]。

5.4　組合分類器

組合分類器是將多種分類器組合起來的一種方法，通過整合多種分類器的優點，避免單一分類器缺陷帶來的分類錯誤，提升分類準確度。1990年Schapire提出了著名的弱學習定理，即只要能找到比隨機猜測更好的弱學習方法，就可以將其提升為強學習方法。這里單獨的分類方法就是弱學習方法，組合就是提升，因而通過組合分類器有可能找到更好的分類方法[22-23]。

6　模型構建

本文采用的是SPSS Modeler進行模型的構建與客戶數據的分類。分別在上述三個數據集上應用上述三種分類算法進行分類，并比較各種算法在各個數據集上的預測精確度。最后運用組合分類器對樣本進行重新分類。

6.1　數據整理

首先通過數據審核節點對三組數據進行檢查，檢查其中缺失值、無效值、離群值等，通過數據審核節點分析可以發現，銀行電銷數據集和信用卡客戶數據集中無缺失值，但信貸審批客戶數據集中存在部分缺失值，本文按照中程數插補這些缺失值。另外對于三個數據表中的離群值和極值按照強制替換離群值和丟棄極值得方法處理。

6.2　建　模

進行初步的數據整理后，本文建立了基于三種分類方法的分類模型，數據流圖如圖1所示。

圖1　數據流圖

6.3　組合分類器的構建

本文嘗試將C5.0算法、Logistic算法和貝葉斯網絡三種算法組合起來，基于這三種分類方法的分類結果得出一種新的匯總的分類模型。這種組合分類模型主要是在上述三種分類結果的基礎上，通過置信度計算出權重，進行加權組合的。模型的主要流程如圖2所示。

圖2　組合分類器的分類流程

首先運用SPSS Modeler模型對數據進行建模，分別使用C5.0算法、logistic算法和貝葉斯網絡三種方法得出分類結果以及代表各個數據對象分類精確度的置信度值。以其中一個數據集的分類結果為例，表1中最后兩列分別代表分類結果以及置信度，置信度越高，說明分類的精確度越高。

表1　信用卡客戶數據集部分貝葉斯分類結果

假設有N個分類樣本，分別用yij代表第i種方法中的樣本j的分類結果，yj表示樣本j的組合分類器分類結果，yij=0或1；αij代表第i種方法中的樣本j的分類置信度，αij在0到1之間；用cij表示第j個樣本中第i種分類方法的分類結果在組合分類器中的權重，以置信度來確定權重即：

(1)

(2)

(3)

通過對三種分類結果的加權組合，我們可以得到組合分類器的分類結果，由于篇幅限制，本文只截取其中部分分類結果。若三種分類方法的分類結果都是0，此時計算出來的mj必然也是0。若全是1，則計算出來的mj必然還是1，最終組合分類器的分類結果與其他三種分類結果相同。若三種分類器出來的結果不一樣，組合分類器就會依據加權方法出來的mj進行判斷，若大于0.5，則判斷分類為1，否則為0。

從表2中我們可以看到，若三個分類器的分類結果相同，組合分類器上結果必然相同。若不同，比如mj=0.705的那一行數據樣本來看，本來logistic的分類結果是錯誤的，但同時其置信度水平也處于最低水平，因而它在組合分類其中的權重會較小，達不到影響組合分類器分類結果的水平，最終組合分類器會在其他兩種正確分類結果的影響下，得到正確的分類結果。

表2　信貸審批客戶數據集部分分類結果

同理，在表3、表4兩個數據集上組合分類器也會采取同樣的計算方法，最終通過置信度來影響組合分類器的分類結果，提高分類的準確率。

表3　信用卡客戶數據集部分分類結果

表4　銀行電話營銷數據集部分分類結果

7　幾種分類模型的分類結果分析

從表5中我們可以看到，該組合分類器在銀行電話營銷數據集上表現最好，準確率遠遠超過其他三種單一的分類器，達到了91.39%。在信貸審批客戶數據集上的分類效果也要遠好于logistic分類器和貝葉斯網絡分類器，略微超過C5.0分類器。在信用卡客戶分類上，雖然沒有明顯的改進，甚至準確率要低于C5.0算法，但幾種分類方法的分類準確率并沒有太大的差距。從總體上來講這種組合分類器對于分類模型能夠起到一定的改善作用。

表5　幾種分類方法的分類準確率比較

8　結　語

本文選取了三個金融行業的數據集，對這三個數據集分別使用SPSS Modeler中的C5.0算法、logistic算法和貝葉斯網絡進行了分類。然后根據分類結果中的置信度對各個分類器的分類結果進行賦權，運用加權組合分類器的方法對三個數據樣本進行了重新分類，發現該組合分類器在銀行電話營銷數據集和信貸審批數據集上要優于其他三種分類方法。在信用卡客戶數據集上準確率雖然略低于C5.0，但高于其他兩種方法，且與C5.0的準確率非常接近。從總體上講，該種組合分類器能夠對金融行業數據分類起到一定的改進作用。

[1] Tam K Y,Kiang M Y.Managerial applications of neural networks:the case of bank failure predictions[J].Management science,1992,38(7):926-947.

[2] Becerra V M,Galv?o R K H,Abou-Seada M.Neural and wavelet network models for financial distress classification[J].Data Mining and Knowledge Discovery,2005,11(1):35-55.

[3] Dixon M,Klabjan D,Bang J H.Classification-based Financial Markets Prediction using Deep Neural Networks[J].Social Science Electronic Publishing,2016.

[4] 羅方科,陳曉紅.基于Logistic回歸模型的個人小額貸款信用風險評估及應用[J].財經理論與實踐,2017,38(1):30-35.

[5] 周駟華,王素南.基于多層感知器神經網絡的小微企業信貸風險研究[J].現代管理科學,2015(9):45-48.

[7] Marinakis Y,Marinaki M,Doumpos M,et al.Ant colony and particle swarm optimization for financial classification problems[J].Expert Systems with Applications,2009,36(7):10604-10611.

[8] 湯亞玲,黃華,程澤凱.基于自適應遺傳神經網絡的銀行客戶分類研究[J].計算機技術與發展,2014(7):192-195.

[9] 閆瑞,曹先彬,李凱.面向短文本的動態組合分類算法[J].電子學報,2009,37(5):1019-1024.

[10] 陳學泓,陳晉,楊偉,等.基于誤差分析的組合分類器研究[J].遙感學報,2008,12(5):683-691.

[11] 王昱.基于組合分類的消費者信用評估[J].管理工程學報,2015,29(1):30-38.

[12] Frank A,Asuncion A.UCI machine learning repository[Z].2010.

[13] Moro S,Cortez P,Rita P.A data-driven approach to predict the success of bank telemarketing[J].Decision Support Systems,2014,62(1246):22-31.

[14] Mason L,Bartlett P,Baxter J.Direct optimization of margins improves generalization in combined classifiers[C]//Conference on Advances in Neural Information Processing Systems II.MIT Press,1999:288-294.

[15] Quinlan R.Data mining tools see5 and c5[J].Researchgate Net,2008(9).

[16] Quinlan J R.C5.0:An Informal Tutorial[J].Rulequest Research,2009(Suppl 4):834.

[17] 李強.創建決策樹算法的比較研究——ID3,C4.5,C5.0算法的比較[J].甘肅科學學報,2006,18(4):84-87.

[18] Witten I H,Frank E,Hall M A,et al.Data Mining:Practical machine learning tools and techniques[M].Morgan Kaufmann,2016.

[19] 楊小平.二分Logistic模型在分類預測中的應用分析[J].四川師范大學學報(自然科學版),2009,32(3):393-395.

[20] Buntine W.Learning classification rules using Bayes[C]//Proceedings of the sixth international workshop on Machine learning,2016:94-98.

[21] 蔣良孝.樸素貝葉斯分類器及其改算法研究[D].中國地質大學,2009.

[22] 付忠良.分類器線性組合的有效性和最佳組合問題的研究[J].計算機研究與發展,2009,46(7):1206-1216.

[23] Schapire R E.The strength of weak learnability[J].Machine learning,1990,5(2):197-227.

組合分類器在金融行業數據分類中的應用研究

0 引 言

1 國內外文獻綜述

2 本文的主要研究目標

3 主要的研究方法

4 數據介紹

4.1 銀行電話營銷數據集

4.2 信貸審批客戶數據集

4.3 信用卡客戶數據集

5 基本分類方法介紹

5.1 C5.0算法

5.2 Logistic回歸

5.3 貝葉斯網絡

5.4 組合分類器

6 模型構建

6.1 數據整理

6.2 建 模

6.3 組合分類器的構建

7 幾種分類模型的分類結果分析

8 結 語