李哲瑜,簡(jiǎn)宋全,李青海
(廣東精點(diǎn)數(shù)據(jù)科技股份有限公司,廣州510630)
基于Logistic回歸的個(gè)人消費(fèi)貸款預(yù)測(cè)
李哲瑜,簡(jiǎn)宋全,李青海
(廣東精點(diǎn)數(shù)據(jù)科技股份有限公司,廣州510630)
研究個(gè)人住房貸款與個(gè)人消費(fèi)貸款之間的關(guān)系,通過(guò)住房貸款業(yè)務(wù)累積的客戶(hù)賬戶(hù)信息,作為自變量構(gòu)建一個(gè)Lo?gistic回歸模型來(lái)預(yù)測(cè)客戶(hù)是否會(huì)申請(qǐng)消費(fèi)貸款,以此來(lái)精準(zhǔn)定位客戶(hù)群體,實(shí)現(xiàn)精準(zhǔn)營(yíng)銷(xiāo)。
消費(fèi)貸款也稱(chēng)消費(fèi)者貸款,是商業(yè)銀行和金融機(jī)構(gòu)以消費(fèi)者信用為基礎(chǔ),對(duì)消費(fèi)者個(gè)人發(fā)放的,用于購(gòu)置耐用消費(fèi)品或支付其他費(fèi)用的貸款。從種類(lèi)上看,包括居民住宅抵押貸款、非住宅貸款和信用卡貸款。具有高風(fēng)險(xiǎn)、高收益、周期性和利率不敏感性,是商業(yè)銀行和金融機(jī)構(gòu)的一項(xiàng)很重要的業(yè)務(wù),帶來(lái)很大的利潤(rùn),所以有必要對(duì)其潛在客戶(hù)進(jìn)行定位和挖掘,實(shí)現(xiàn)精準(zhǔn)營(yíng)銷(xiāo)。
消費(fèi)貸款和住房貸款都是針對(duì)個(gè)人客戶(hù)的業(yè)務(wù),它們之間會(huì)共享一些客戶(hù)信息。本文研究的就是能否通過(guò)住房貸款業(yè)務(wù)累積的客戶(hù)信息來(lái)預(yù)測(cè)客戶(hù)是否會(huì)申請(qǐng)消費(fèi)貸款。
本文使用的數(shù)據(jù)包含20229個(gè)客戶(hù)的信息,12個(gè)屬性,具體描述如表1。
(1)Logistic回歸
在很多定量分析的研究中比較常使用的基本統(tǒng)計(jì)方法是線(xiàn)性回歸方法,然而現(xiàn)實(shí)生活中很多應(yīng)變量都只是分類(lèi)變量,特別是二分類(lèi)變量,例如客戶(hù)是否拖欠貸款、貸款審批是否通過(guò)等等,這時(shí)線(xiàn)性回歸方法就顯得不太適用。
Logistic回歸是解決這種二分類(lèi)問(wèn)題的有效方法之一。首先考慮函數(shù):
hw(x)=g(wTx)=moid函數(shù),它的圖形如下,當(dāng)橫坐標(biāo)刻度足夠大時(shí),就像一個(gè)階躍函數(shù)。

表1
假設(shè)在給定x,w的條件下,y=1出現(xiàn)的概率服從伯努利分布,表示為:


圖1
在m個(gè)獨(dú)立樣本情況下,可得似然函數(shù)為:

訓(xùn)練模型的過(guò)程就是選擇恰當(dāng)?shù)膚使得l(w)達(dá)到最大。常用的方法有梯度上升法和牛頓法。
(2)ROC曲線(xiàn)與AUC值
接收者操作特征曲線(xiàn)(Receiver Operating Charac?teristic Curve,簡(jiǎn)稱(chēng)ROC曲線(xiàn)),又稱(chēng)為感受性曲線(xiàn)(Sen?sitivity Curve),ROC曲線(xiàn)上每個(gè)點(diǎn)反映著對(duì)同一信號(hào)刺激的感受性,是一種在二分類(lèi)建模問(wèn)題中比較常見(jiàn)的檢驗(yàn)指標(biāo)。
根據(jù)實(shí)際結(jié)果和預(yù)測(cè)結(jié)果可以做出如下列聯(lián)表,1代表正例,0代表負(fù)例:

表2
根據(jù)表2,分別定義下面幾個(gè)變量:
(1)真正類(lèi)率(True Postive Rate)TPR:TP/(TP+FN),代表分類(lèi)器正確預(yù)測(cè)的正例占所有真實(shí)正實(shí)例的比例,又稱(chēng)靈敏度(Sensitivity)。
(2)負(fù)正類(lèi)率(False Postive Rate)FPR:FP/(FP+TN)=1-Specificity,代表分類(lèi)器錯(cuò)誤預(yù)測(cè)的負(fù)例占所有真實(shí)負(fù)實(shí)例的比例。
(3)真負(fù)類(lèi)率(True Negative Rate)TNR:TN/(FP+TN),代表分類(lèi)器預(yù)測(cè)的壞客戶(hù)中實(shí)際負(fù)實(shí)例占所有負(fù)實(shí)例的比例,TNR=1-FPR。又稱(chēng)特異度(Specificity)。
采用邏輯回歸分類(lèi)器時(shí),其給出針對(duì)每個(gè)實(shí)例為正類(lèi)的概率,那么通過(guò)設(shè)定一個(gè)閾值如0.5,概率大于等于0.5的為正類(lèi),小于0.5的為負(fù)類(lèi),對(duì)應(yīng)的就可以算出一組(FPR,TPR),在平面中得到對(duì)應(yīng)坐標(biāo)點(diǎn)。隨著閾值的逐漸減小,越來(lái)越多的實(shí)例被劃分為正類(lèi),但是這些正類(lèi)中同樣也摻雜著真正的負(fù)實(shí)例,即TPR和FPR會(huì)同時(shí)增大。閾值最大時(shí),對(duì)應(yīng)坐標(biāo)點(diǎn)為(0,0),閾值最小時(shí),對(duì)應(yīng)坐標(biāo)點(diǎn)(1,1)。
如下面這幅圖,(a)圖中實(shí)線(xiàn)為ROC曲線(xiàn),線(xiàn)上每個(gè)點(diǎn)對(duì)應(yīng)一個(gè)閾值。

圖2
橫軸FPR:1-TNR,1-Specificity,F(xiàn)PR越大,預(yù)測(cè)正類(lèi)中實(shí)際負(fù)類(lèi)越多。
縱軸TPR:Sensitivity(正類(lèi)覆蓋率),TPR越大,預(yù)測(cè)正類(lèi)中實(shí)際正類(lèi)越多。
理想目標(biāo):TPR=1,F(xiàn)PR=0,即圖中(0,1)點(diǎn),故 ROC曲線(xiàn)越靠攏(0,1)點(diǎn),越偏離45度對(duì)角線(xiàn)越好,Sensitiv?ity、Specificity越大效果越好。
ROC曲線(xiàn)有個(gè)很好的特性:當(dāng)測(cè)試集中的正負(fù)樣本的分布變換的時(shí)候,ROC曲線(xiàn)能夠保持不變。在實(shí)際的數(shù)據(jù)集中經(jīng)常會(huì)出現(xiàn)類(lèi)不平衡現(xiàn)象,即正負(fù)樣本比例差距較大,而且測(cè)試數(shù)據(jù)中的正負(fù)樣本的分布也可能隨著時(shí)間變化。
ROC曲線(xiàn)下的面積被稱(chēng)為AUC統(tǒng)計(jì)量(Area un?der the Curve),介于0.1和1之間。由上述描述可知,一個(gè)隨機(jī)預(yù)測(cè)模型對(duì)應(yīng)的AUC值為0.5,而一個(gè)完美的預(yù)測(cè)模型對(duì)應(yīng)的AUC值為1.AUC作為數(shù)值可以直觀的評(píng)價(jià)分類(lèi)器測(cè)好壞,值越大越好。一般情況下,一個(gè)評(píng)分模型的AUC值在0.7與0.8之間則表示該模型的區(qū)分能力尚可接受,若在0.8和0.9之間,則表示模型有著良好的區(qū)分能力,而如果AUC值大于0.9則說(shuō)明模型的區(qū)分能力非常好。使用AUC值作為評(píng)價(jià)標(biāo)準(zhǔn)是因?yàn)楹芏鄷r(shí)候ROC曲線(xiàn)并不能清晰的說(shuō)明哪個(gè)分類(lèi)器的效果更好,而作為一個(gè)數(shù)值,對(duì)應(yīng)AUC更大的分類(lèi)器效果更好。
數(shù)據(jù)集中包含所屬地市、貸款種類(lèi)等分類(lèi)變量,這些變量都包含多個(gè)取值。如果用啞變量來(lái)直接處理這些分類(lèi)變量的話(huà),會(huì)增加很多變量,但可能包含一些對(duì)最終結(jié)果沒(méi)有太大影響的特征,造成結(jié)果的不準(zhǔn)確,所以先對(duì)分類(lèi)變量做處理。步驟如下:
(1)選定一個(gè)分類(lèi)變量,計(jì)算不同取值下的貸款概率
(2)計(jì)算所有概率的均值
(3)不考慮均值附近的取值,將剩下的概率相同或近似的取值歸為一類(lèi),生成一個(gè)啞變量
通過(guò)這種方法可以簡(jiǎn)化模型并且提升模型的效果。最終得到的部分特征如表3:

表3
從樣本集中隨機(jī)抽取70%的數(shù)據(jù)作為訓(xùn)練集,訓(xùn)練Logistic回歸模型,并用不同的逐步回歸方法對(duì)自變量進(jìn)行篩選,最終得到10個(gè)模型,整合結(jié)果如下:

表4
綜合上表,我們選取第二個(gè)模型作為最終的擬合模型。結(jié)果如下:
Call:
glm(formula=V17~V1+V5+V6+V7+V8+V10+
V11+V12+V13+V14+V16,family=binomial(link="log?
it"),data=train_data)
Deviance Residuals:
Min1Q Median 3QMax
-1.0876-0.4224-0.3374-0.2653 3.1793
Coefficients:
Estimate Std.Error z value Pr(>|z|)
(Intercept)0.166569 1.114357 0.149 0.8812
V10.7954150.157199 5.060 4.19e-07***
V5-1.0245840.164124-6.243 4.30e-10***
V6 -0.4590670.094846-4.840 1.30e-06***
V70.544794 0.087695 6.212 5.22e-10***
V8-0.1721730.076259-2.258 0.0240*
V10 0.182286 0.076137 2.394 0.0167*
V110.2522490.109495 2.304 0.0212*
V12 -0.477404 0.101634-4.697 2.64e-06***
V130.1726750.098817 1.747 0.0806.
V14 1.1416730.183889 6.209 5.35e-10***
V16 0.0394490.005739 6.874 6.24e-12***
Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1
‘’1
(Dispersion parameter for binomial family taken to be 1)
Null deviance:7300.2 on 14157 degrees of freedom
Residual deviance:6904.3 on 14146 degrees of freedom
AIC:6928.3
Number of Fisher Scoring iterations:6
用模型二來(lái)預(yù)測(cè)測(cè)試集的結(jié)果。下圖為模型二的ROC曲線(xiàn)。

圖3
步驟如下:
(1)對(duì)所有訓(xùn)練集的預(yù)測(cè)結(jié)果進(jìn)行排序
(2)獲取十分位點(diǎn)對(duì)應(yīng)的值
以②得到的值為閾值計(jì)算訓(xùn)練集和測(cè)試集的召回率,得到表5。
根據(jù)實(shí)際業(yè)務(wù)需求和經(jīng)驗(yàn),選擇第五個(gè)分位點(diǎn),即-2.75194作為閾值得到的結(jié)果是最好的。
本文的研究目的是預(yù)測(cè)客戶(hù)是否有意愿申請(qǐng)個(gè)人消費(fèi)貸款,提出的方法是以客戶(hù)的住房貸款情況構(gòu)建一個(gè)Logistic回歸模型。在構(gòu)建模型之前,先對(duì)分類(lèi)型特征做了處理,刪去一些多余特征,簡(jiǎn)化模型。用ROC曲線(xiàn)和AUC值為指標(biāo)選擇擬合效果最好的模型,并用召回率來(lái)確定最終的閾值。最終通過(guò)實(shí)驗(yàn)驗(yàn)證表明,該模型可行且有效。

表5
[1]施朝建,張明銘.Logistic回歸模型分析[J].計(jì)算機(jī)輔助工程,2005,14(3):74-78.
[2]廖國(guó)民,涂穩(wěn)華,寧?kù)o.基于Logistic模型的個(gè)人消費(fèi)信貸風(fēng)險(xiǎn)評(píng)估[J].廣東外語(yǔ)外貿(mào)大學(xué)學(xué)報(bào),2013,(5):27-33.
李哲瑜(1993-),女,廣東廣州人,碩士研究生,助理工程師,研究方向?yàn)橛?jì)算機(jī)軟件和信息服務(wù)領(lǐng)域
簡(jiǎn)宋全(1971-),男,廣東廣州人,碩士研究生,工程師,研究方向?yàn)橛?jì)算機(jī)軟件和信息服務(wù)領(lǐng)域
李青海(1980-),男,廣東廣州人,碩士研究生,工程師,研究方向?yàn)橛?jì)算機(jī)軟件和信息服務(wù)領(lǐng)域
2017-07-19
2017-09-26
Individual Consumer Loans;Logistic Regression Model;ROC Curve and AUC
Prediction of Personal Consumption Loan Based on Logistic Regression
LI Zhe-yu,JIAN Song-quan,LI Qing-hai
(Guangdong Fine Point Data Polytron Technologies Inc,Guangzhou 510630)
Digs into the relationship between housing loads and individual consumer loans,builds a logistic regression model to predict customers'willingness to apply for consumer loans.The dependent variable is customers'account information,which is gained from the housing loan business.Using the model,we can locate customer groups precisely and realize precision marketing.
個(gè)人消費(fèi)貸款;Logistic回歸;ROC曲線(xiàn)和AUC值
天河區(qū)科技計(jì)劃項(xiàng)目(No.201502YH019)
1007-1423(2017)29-0009-04
10.3969/j.issn.1007-1423.2017.29.002