基于決策樹方法的信用卡信譽檢測

2011-12-27 08:16:46周宓

中原工學院學報 2011年4期

關鍵詞：檢測信息模型

周宓

(泉州師范學院,福建泉州 362000)

基于決策樹方法的信用卡信譽檢測

周宓

(泉州師范學院,福建泉州 362000)

介紹了決策樹分類方法,建立了基于決策樹方法的信用卡信譽檢測模型,并用該模型進行了信用卡信譽檢測實驗.結果表明,基于決策樹的信譽檢測方法可為銀行信用卡風險管理提供有效信息,規避可能出現的壞賬風險.

信譽檢測;數據挖掘;決策樹;測全率;測準率

由于我國銀行信用卡業務的急劇擴展,產生了規模巨大的信用卡交易數據,迫切需要對各種數據進行有效的管理和挖掘.

數據挖掘[1](Data M ining,DM)又被稱為數據庫知識發現(Know ledge Discovery in Database,KDD),通常是指從數據源(如數據庫、文本、圖片、萬維網等)中探尋有用的模式(Patterns)或知識的過程.這些模式必須有用、有潛在價值,并且是可以被理解.

信用卡數據因其巨大的數據量以及繁雜的屬性信息,常規手段無法從中直接得出有效直觀的規則,以降低信用卡信譽欺詐和控制信用卡壞賬風險.采用數據挖掘技術,可以處理大量的信用卡業務數據,從中找出有價值的信息.

本文結合預處理過的數據,采用數據挖掘中的決策樹方法進行信用卡信譽檢測模型的建立,并對實驗結果進行分析.

1 基于決策樹的檢測模型

1.1 決策樹分類法

決策樹學習是應用最廣的歸納推理算法之一.它對數據進行分類,以達到預測的目的.決策樹方法首先根據訓練集數據形成決策樹,如果該樹不能對所有對象給出正確的分類,那么選擇一些例外加入到訓練集數據中,重復該過程一直到形成正確的決策集.決策樹的一個非常突出的優勢就是能處理非數值數據,免去了將非數值數據轉化為數值數據的預處理工作,且它的分類結果通俗易懂,極易轉化成SQL語句.

目前,決策樹己經發展出了多種算法,如CART、ASSISTAN T、ID3、C4.5 和 C5.0 等 ,其中應用最廣泛、最具有代表性的當屬1986年Quinlan J R提出的ID3算法[2].

ID3算法以信息論為基礎,以信息熵和信息增益作為實體選擇重要屬性的衡量標準.它以信息增益最大的屬性作為決策樹的根結點,由該結點的不同取值建立樹的分枝,然后對各分枝運行同樣的遞歸算法,從而實現對數據的分類歸納.ID3算法的基本思路如下[3]:

設S為一個包含s個數據樣本的集合,每個樣本具有2個不同的類別屬性:正例和反例,這里將它記為Li,i=1,2.假設類別Li中的樣本個數為Si,那么要對一個給定數據集進行分類所需要的信息量為:

設一個屬性X取n個不同的值{x1,x2,…,xn},依據不同的取值將集合S劃分為n個子集{S1,S2,…,Sn},其中Sj包含了S集合中屬性X取xj值的數據樣本,若屬性X被選為測試屬性(用于對當前樣本集進行劃分),設Sy為子集Sj中屬于類別L i的樣本集,利用屬性X劃分當前樣本集合所需要的信息熵:

這樣利用屬性X對當前分支結點進行相應樣本集合劃分所獲得的信息增益是:

信息增益是指信息熵的有效減少量,該量越高,表明目標屬性在該參考屬性那兒失去的信息熵越多,那么該屬性越應該在決策樹的上層.

ID3算法采用自頂向下不回溯策略,遍歷可能的決策空間,能夠保證找到一個簡單的樹[4].信息增益正是在ID3算法增長樹的每一步中選取最佳屬性的度量標準.選取屬性作為決策樹結點的原則是:取能夠得到最大信息增益的屬性來分類形成樹,然后依次檢測每個候選屬性,用相同的處理過程遞歸地形成決策子樹S1,S2,…,Sn.

但是ID3算法存在以下明顯的缺點[5]:

(1)ID3算法采用信息增益作為屬性選擇的度量標準,所以它傾向于選擇取值較多的屬性.

(2)ID3算法只能處理離散型數據,所以它在進行構建決策樹前要先對屬性進行離散化處理.

針對以上不足,Quinlan J R在1993年對ID3算法進行了補充和改進,提出了后來比較流行的C4.5算法[6].

(1)C4.5算法采用信息增益比而非信息增益來選擇屬性,消除多值傾向,其中確定屬性X本身需要的信息熵是:

則屬性X相對應的信息增益比為:

采用此增益比劃分屬性得到決策樹,其中每個結點取具有最大信息增益比的屬性.該方法簡單高效,結論可靠,無需很強的相關知識.

(2)C4.5算法能完成對連續屬性的離散化處理.具體來說就是對某個連續屬性A,找到一個最佳閉值T,根據A的取值與閉值的比較結果,建立兩個分支A<=T(左支)和A>=T(右支),T為分割點,從而用一個二值離散屬性A(只有兩種取值A<=T、A>=T)替代A,將問題又歸為離散屬性的處理.這一方法既可以解決連續屬性問題,又可以找到最佳分割點,同時解決了人工試驗尋找最佳閉值的問題.

但是C4.5算法構建決策樹的效率較低,因為它需要對數據集進行多次的掃描和排序,所以它只適合于能夠駐留于內存的數據集.而C5.0不僅在執行效率上對C4.5進行了改進,而且它允許應用于大數據集上的分類預測.

1.2 模型建立

本文采用決策樹方法建立信用卡信譽檢測模型.模型如圖1所示.

圖1 決策樹檢測模型

2 信用卡數據描述

由于現階段國內沒有公開的信用卡持卡人交易數據,因此選取的是國外某銀行發布的信用卡數據.信用卡數據由8個ASC文件組成,分別為ACCOUN T.ASC,CL IEN T.ASC,D ISP.ASC,ORDER.ASC,TRANS.ASC,LOAN.ASC,CARD.ASC,D ISTRICT.ASC,包含持卡人、持卡人對應的賬戶信息所包含的關聯信息以及相關數據.數據關聯如圖2所示.

數據的初始格式為文本格式,將其預先處理存儲到數據庫中.本文選取了SQL server 2000,并在數據庫基礎上對數據進行了統計分析和屬性抽取.抽取如下13個屬性用于后面的數據挖掘訓練及測試:

(1)Sex:顧客性別;

(2)Age:顧客年齡;

圖2 數據關聯圖

(3)Amount of loan:顧客的借貸總額;

(4)Loan duration:借貸歸還的時間區間;

(5)Type of the credit card:顧客所持有的信用卡類別;

(6)District:顧客居住的地區;

(7)M inim um amount:在某時間段內該客戶所有交易中的最小額度;

(8)M axim um amount:在某時間段內該客戶所有交易的最大額度;

(9)Average amount:在某時間段內該客戶所有交易的平均額度;

(10)M inim um account:在某時間段內該賬戶所有交易的最小額度;

(11)M axim um account:在某時間段內該賬戶所有交易的最大額度;

(12)Average account:在某時間段內該賬戶所有交易的平均額度;

(13)Credit status:信用卡信譽狀態,離散屬性,A表示優質信譽客戶,B表示非優質信譽客戶.

根據數據數量,對上述提到的某時間段本文取一年為限定條件.其中第13個屬性為信用卡信譽狀態,并且是本文信用卡信譽檢測的目標屬性.

3 實驗結果與分析

3.1 實驗環境

本文在 W indow XP的系統環境下,使用 SQL server 2000存儲實驗數據,采用C5.0算法構建信用卡信譽檢測模型.

3.2 評估標準

本文建立了多個信用卡信譽檢測模型,并對其進行了以下測準率和測全率兩方面的統計與評估.測試集數據通過信用卡信譽檢測模型后,輸出結果被劃分為兩類:A(優質信譽客戶)和B(非優質信譽客戶).其中A數據中包含真實信譽為A的數據 Ta以及真實信譽為B而被誤判為A的數據Fa;分類結果B的數據包含 Tb和Fb,解釋同理.

(1)A的測準率=Ta/(Ta+Fa);

(2)A的測全率=Ta/(Ta+Fb);

(3)B的測準率=Tb/(Tb+Fb);

(4)B的測全率=Tb/(Tb+Fa).

為了避免單次實驗結果的偶然性,本文采取對數據進行多次隨機分組,將每次分組得到的訓練集和測試集作為多個信用卡檢測模型建立方法的輸入,得到各個檢測模型的檢測效果并進行比較和評估.

3.3 結果統計

本文建立了一個基于決策樹的信譽檢測模型,將數據預處理后得到的訓練集中所有13個屬性數據作為模型建立方法的輸入,訓練得到一個檢測模型,以此來對測試集進行測試分類.相關實驗結果如表1、表2所示.

表1 決策樹中A類預測效果

表2 決策樹中B類預測效果

從表1和表2可以看出,決策樹方法對A類的預測效果,不論是測全率還是測準率均較高;對B類預測效果的測準率也較高.

4 結語

本文研究了基于決策樹的信用卡客戶信譽檢測,其目的是在銀行已有的大量數據基礎上建立信用卡信譽檢測模型,根據當前信用卡用戶特征幫助銀行對用戶信譽進行檢測,預防未來可能出現的壞賬情況.

由于信用卡數據處于不斷增長中,且用戶的行為有可能在未來發生改變,而本文建立的模型是基于靜態數據得到的,沒有考慮到實際中的動態變化.可以將用戶的行為視為不斷連續變化的,結合行為時效性及在線算法,建立一個能適應時間變化的信譽檢測模型,是接下來需要研究的內容.

[1]Vapnik V N.The Nature of Statistical Learning Theo ry[M].New York:Sp ringer-Verlag,1995.

[2]Quinlan J R.Induction of Decision Tree[J].Machine Learning,1986,l(l):86-106.

[3]吳婷.數據挖掘在信用卡欺詐識別上的應用研究[D].南京:東南大學,2006.

[4]曹忠升,薛梅艷.基于決策樹的軟件分類方法[J].計算機工程,2008,34(1):56-58.

[5]于莉.常用的決策樹生成算法分析[J].天津市財貿管理學院學報,2008(2):20.

[6]毛聰莉,易波.基于決策協調度的最簡決策樹生成算法[J].計算機工程與設計,2008,29(5):1250-1252.

Reputation Detection of Credit Card Based on Decision Tree

First,the classificationmethod of decision tree in reputation detection of credit card is introduced,and then themodel of reputation detection of credit card isestabished.Reputation detection test has been done by thismodel.Themethod p rovides effective info rmation fo r banks in the risk management of credit card,and guarantee the bank asset safety in the future.

credit classify;datamining;decision tree;sensitivity;specificity

ZHOU M i
(Quanzhou No rmal University,Quanzhou 362000,China)

TP393

10.3969/j.issn.1671-6906.2011.04.017

1671-6906(2011)04-0075-04

2011-07-08

周宓(1981-),女,福建泉州人,碩士.

基于決策樹方法的信用卡信譽檢測

1 基于決策樹的檢測模型

1.1 決策樹分類法

1.2 模型建立

2 信用卡數據描述

3 實驗結果與分析

3.1 實驗環境

3.2 評估標準

3.3 結果統計

4 結 語

4 結語