【摘要】本文以中國(guó)西南地區(qū)個(gè)人小額信貸真實(shí)數(shù)據(jù)樣本為基礎(chǔ),通過(guò)建立申請(qǐng)信用評(píng)分模型,探討小貸公司風(fēng)控政策量化的可行性以及信用評(píng)分模型對(duì)中國(guó)中低收入人群的實(shí)用性。
【關(guān)鍵詞】小貸公司 信用評(píng)分 logistic回歸
引言
至2008年中國(guó)銀行業(yè)監(jiān)督管理委員會(huì)、中國(guó)人民銀行頒布《關(guān)于小額貸款公司試點(diǎn)的指導(dǎo)意見(jiàn)(銀監(jiān)發(fā)〔2008〕23號(hào))》以來(lái),國(guó)內(nèi)小貸公司迅速崛起,貸款余額逐年穩(wěn)步提升。小貸公司以服務(wù)廣大微小企業(yè)、中低收入人群為宗旨,已成為我國(guó)多層次金融體系中不可或缺的一環(huán)。
小額貸款業(yè)務(wù)金額小、筆數(shù)多,目前國(guó)內(nèi)機(jī)構(gòu)多采取“信貸工廠(chǎng)模式”進(jìn)行運(yùn)作,其特點(diǎn)是“人海戰(zhàn)術(shù)”、“大數(shù)定律”,即依靠大量銷(xiāo)售人員進(jìn)行掃樓式營(yíng)銷(xiāo),又配比相應(yīng)風(fēng)控人員進(jìn)行準(zhǔn)入審核,風(fēng)險(xiǎn)控制主要特點(diǎn)是不斷擴(kuò)大貸款余額,以減小逾期、不良率。此運(yùn)營(yíng)模式的癥結(jié)在于人力成本奇高,經(jīng)營(yíng)效率相對(duì)低下,而風(fēng)控效果完全取決于風(fēng)控人員的個(gè)人經(jīng)驗(yàn),主觀(guān)性較大,缺乏對(duì)整個(gè)市場(chǎng)客群的全面判斷和對(duì)客戶(hù)的標(biāo)準(zhǔn)畫(huà)像,因此風(fēng)險(xiǎn)常常處于不可控之中。2014年下半年以來(lái),隨著國(guó)家宏觀(guān)經(jīng)濟(jì)調(diào)整,小微企業(yè)生存環(huán)境惡化,以之為主要客群的小貸公司經(jīng)營(yíng)也舉步維艱,貸款余額增速明顯放緩,2015年3季度迎來(lái)拐點(diǎn),貸款余額下降趨勢(shì)開(kāi)始顯現(xiàn),如圖1所示。
與小貸行業(yè)的“瓶頸期”境遇不同,互聯(lián)網(wǎng)金融、消費(fèi)金融公司等新興業(yè)態(tài)依靠大數(shù)據(jù)和先進(jìn)的風(fēng)控技術(shù),采取“線(xiàn)上申請(qǐng)、自動(dòng)審批、快速放款”運(yùn)作模式,逆勢(shì)蓬勃發(fā)展,贏(yíng)得了市場(chǎng)的認(rèn)可,其依賴(lài)的關(guān)鍵技術(shù)便是信用評(píng)分模型。信用評(píng)分模型運(yùn)用現(xiàn)代數(shù)理統(tǒng)計(jì)技術(shù),通過(guò)對(duì)信貸客戶(hù)信用歷史記錄和業(yè)務(wù)活動(dòng)記錄的深度數(shù)據(jù)挖掘、分析和提煉,發(fā)現(xiàn)蘊(yùn)藏在紛繁復(fù)雜數(shù)據(jù)中,反映信貸申請(qǐng)者風(fēng)險(xiǎn)特征和預(yù)期信貸表現(xiàn)的知識(shí)和規(guī)律,并通過(guò)評(píng)分的方式總結(jié)出來(lái),作為管理決策的科學(xué)依據(jù)[1]。早期,國(guó)內(nèi)信用評(píng)分模型主要應(yīng)用于銀行信用卡領(lǐng)域,原因在于銀行信用卡用戶(hù)數(shù)量龐大、而金額相對(duì)較少,且銀行擁有完善的數(shù)據(jù)庫(kù)系統(tǒng)、標(biāo)準(zhǔn)化的數(shù)據(jù)結(jié)構(gòu)及字段,再加上銀行系都能接入央行征信系統(tǒng),模型的建立有著完備的物質(zhì)基礎(chǔ)。2010年前后,隨著一大批海歸金融從業(yè)者轉(zhuǎn)戰(zhàn)國(guó)內(nèi)普惠金融市場(chǎng),信用評(píng)分模型應(yīng)用逐漸普及。以P2P為代表的互聯(lián)網(wǎng)金融有著天然的技術(shù)基因,隨著網(wǎng)絡(luò)技術(shù)的不斷升級(jí),在客戶(hù)數(shù)據(jù)獲取方面優(yōu)勢(shì)明顯;消費(fèi)金融公司多數(shù)有著銀行背景(如:北銀消費(fèi)金融、中銀消費(fèi)金融)或有著較強(qiáng)的產(chǎn)業(yè)背景(如:馬上消費(fèi)金融,海爾消費(fèi)金融),可借鑒的歷史客戶(hù)數(shù)據(jù)存量本就龐大,所以也有著評(píng)分模型建立的物質(zhì)基礎(chǔ)。反觀(guān)小貸,08年國(guó)家政策放開(kāi)后,一度野蠻生長(zhǎng),卻忽略了技術(shù)與人才的沉淀,采取粗放式的運(yùn)營(yíng)模式,再加上客群質(zhì)量普遍較差,數(shù)據(jù)庫(kù)建設(shè)滯后,鮮有小貸公司建立信用評(píng)分模型,并加以應(yīng)用,因此在這方面國(guó)內(nèi)的研究處于空白狀態(tài)。本文以實(shí)證的方法,基于西南地區(qū)個(gè)人小額信貸真實(shí)數(shù)據(jù)樣本,借助R語(yǔ)言平臺(tái),建立logistic回歸模型,并建立申請(qǐng)信用評(píng)分卡,以驗(yàn)證小貸公司風(fēng)控政策量化的可行性以及信用評(píng)分模型對(duì)中國(guó)中低收入人群的實(shí)用性等問(wèn)題。
二、數(shù)據(jù)獲取和清洗
數(shù)據(jù)樣本取重慶地區(qū)某小貸公司2015年9月~2017年3月的部分業(yè)務(wù)數(shù)據(jù),共計(jì)6581條;取審批通過(guò)的且有人行征信的,共計(jì)1804條。樣本選取時(shí)間是2017年4月,所有客戶(hù)表現(xiàn)期均在1月以上。由于獲取樣本數(shù)量的局限和方便數(shù)據(jù)處理等原因,特定義本模型的表現(xiàn)期為1月,壞客戶(hù)定義為:任何逾期客戶(hù)。
剔除掉缺省過(guò)多,或無(wú)法建模的字段,或不適用于申請(qǐng)信用評(píng)分建模字段,按需建立衍生類(lèi)字段,建立數(shù)據(jù)集市字段如表1所列。
按照7:3的比例隨機(jī)選擇1263條樣本作為訓(xùn)練樣本,剩下540條樣本作為檢驗(yàn)樣本。
三、模型學(xué)習(xí)
利用條件推斷樹(shù)函數(shù)smbinning對(duì)連續(xù)變量離散化處理并分箱,從決策樹(shù)的原理可知,“無(wú)法分箱”的變量無(wú)預(yù)測(cè)能力,因此刪除,分箱結(jié)果見(jiàn)表2。
對(duì)剩余變量進(jìn)行woe轉(zhuǎn)換,轉(zhuǎn)化公式如下所示:
根據(jù)各變量的WOE值,發(fā)現(xiàn)有些WOE值出現(xiàn)無(wú)窮大,對(duì)變量不合理分箱進(jìn)行臨近分段合并。
然后進(jìn)行person相關(guān)性分析,計(jì)算公式如下所示:
找出中等以上相關(guān)(correlation≥0.3)變量,見(jiàn)表3。
算出各變量的信息值,計(jì)算公示后如公式(3)所示:
對(duì)相關(guān)性較強(qiáng)的變量,為避免多重共線(xiàn)性,去掉信息值較小的或大于0.5的變量,見(jiàn)表4。
從圖中可知,fend和estates的woe圖形不符合經(jīng)濟(jì)規(guī)律,或有一定虛假成分,在后續(xù)回歸中應(yīng)該去掉;eductation從5開(kāi)始不符合經(jīng)濟(jì)規(guī)律,嘗試把5和4合并后,重新畫(huà)圖,如圖3所示,隨著學(xué)歷的升高,壞客戶(hù)概率相應(yīng)降低,符合經(jīng)濟(jì)規(guī)律。
建立logistic回歸模型,其中P為好客戶(hù)的概率,Xi為自變量,βi為回歸系數(shù),如下所示:
通過(guò)逐步回歸,排除了不顯著變量cddraw_cddebttoltal,最終得到如下回歸結(jié)果,其中sex(性別)、addr(住址)、incometype(收入發(fā)放形式)、cdcredit(信用卡總授信額度合計(jì))、cdholdmob(信用卡最長(zhǎng)持卡月數(shù))、cdexpnum12(信用卡近12月現(xiàn)1上次數(shù))、inquirynum6(近6個(gè)月累計(jì)查詢(xún)數(shù))在0.05水平以?xún)?nèi)顯著,見(jiàn)表6。
Signif.codes:0‘***0.001‘**0.01‘*0.05‘.0.1‘
利用方差膨脹因子VIF檢查各參數(shù)的共線(xiàn)性,計(jì)算公式如下所示,其中Ri為復(fù)相關(guān)系數(shù):
經(jīng)檢驗(yàn),所有參數(shù)的方差膨脹因子均小于5,表明模型不存在多重共線(xiàn)性。
下面,進(jìn)行評(píng)分卡刻度的設(shè)定,設(shè)優(yōu)比Odds{60:1}時(shí)的分值為600,PDO=20,算出B=28.85,A=481.86計(jì)算公式如下所示:endprint
用公式(7)進(jìn)行評(píng)分卡的分值分配,其中Wij第i個(gè)變量第j個(gè)取值的證據(jù)權(quán)重;δij是二元變量,表示變量i是否取第j個(gè)值。
最終得到標(biāo)準(zhǔn)評(píng)分卡,見(jiàn)表7。
四、模型檢驗(yàn)
(一)分?jǐn)?shù)分布
根據(jù)訓(xùn)練樣本及檢驗(yàn)樣本的直方圖,發(fā)現(xiàn)波峰均向左偏移,表明客群質(zhì)量總體偏差,與現(xiàn)實(shí)情況相符合,見(jiàn)圖4。
(二)模型擬合
畫(huà)出訓(xùn)練樣本及檢驗(yàn)樣本的擬合曲線(xiàn),訓(xùn)練樣本和檢驗(yàn)樣本曲線(xiàn)基本重合,隨著信用評(píng)分的升高,壞客戶(hù)占比逐漸走低,符合預(yù)期規(guī)律,見(jiàn)圖5。
(三)模型區(qū)分度
由訓(xùn)練樣本的區(qū)分圖可知,模型有一定區(qū)分能力;但檢驗(yàn)樣本量過(guò)小,區(qū)分度不明顯,見(jiàn)圖6。
(四)K-S統(tǒng)計(jì)量
訓(xùn)練樣本K-S統(tǒng)計(jì)量為0.335,在0.3~0.5可接受范圍內(nèi),而檢驗(yàn)樣本K-S統(tǒng)計(jì)量?jī)H為0.237,低于可接受水平,見(jiàn)圖7。
(五)Gini系數(shù)
訓(xùn)練樣本Gini曲線(xiàn)明顯下凹,Gini系數(shù)為0.444,在0.4~0.6可接受范圍內(nèi),而檢驗(yàn)樣本Gini曲線(xiàn)相較平緩,系數(shù)僅為0.296,低于可接受水平,見(jiàn)圖8。
五、結(jié)論
本文以實(shí)證的方法,基于中國(guó)西南地區(qū)個(gè)人小額信貸真實(shí)數(shù)據(jù)樣本,建立申請(qǐng)信用評(píng)分模型,以驗(yàn)證小貸公司風(fēng)控政策量化的可行性以及信用評(píng)分模型對(duì)中國(guó)中低收入人群的實(shí)用性等問(wèn)題。從模型的logistic回歸結(jié)果看,sex(性別)、addr(住址)、incometype(收入發(fā)放形式)、cdcredit(信用卡總授信額度合計(jì))、cdholdmob(信用卡最長(zhǎng)持卡月數(shù))、cdexpnum12(信用卡近12月現(xiàn)1上次數(shù))、inquirynum6(近6個(gè)月累計(jì)查詢(xún)數(shù))等7個(gè)變量在0.05水平以?xún)?nèi)顯著,另4個(gè)變量在0.1水平內(nèi)顯著;從最終模型的檢驗(yàn)效果看,模型分?jǐn)?shù)分布符合現(xiàn)實(shí)情況,模型表現(xiàn)符合經(jīng)濟(jì)規(guī)律,訓(xùn)練樣本各項(xiàng)驗(yàn)證指標(biāo)均在可接受范圍內(nèi),模型具備一定的預(yù)測(cè)能力。
從實(shí)證的結(jié)果看,相比銀行、消費(fèi)金融公司,雖然小貸公司客群整體質(zhì)量偏差,比如中國(guó)西南地區(qū)低收入人群,但信用評(píng)分技術(shù)仍然適用,仍能通過(guò)申請(qǐng)人個(gè)人歷史信息提煉出有價(jià)值的信息,對(duì)信貸的準(zhǔn)入決策提供量化依據(jù)。這為小貸公司的技術(shù)升級(jí)提供了可行性依據(jù)。實(shí)踐中,小貸公司可根據(jù)自身業(yè)務(wù)特點(diǎn),統(tǒng)一數(shù)據(jù)庫(kù)字段結(jié)構(gòu),做好客戶(hù)數(shù)據(jù)的積累;另外,針對(duì)逾期客戶(hù),應(yīng)根據(jù)自身風(fēng)險(xiǎn)容忍度及催收表現(xiàn)制定“好”、“壞”的劃分標(biāo)準(zhǔn),以為后續(xù)信用評(píng)分模型的建立奠定物質(zhì)基礎(chǔ)。
當(dāng)然,本文研究中部分問(wèn)題還有待進(jìn)一步解決,如:由于檢驗(yàn)樣本不足,導(dǎo)致檢驗(yàn)樣本區(qū)分度不佳,K-S、Gini等各統(tǒng)計(jì)指標(biāo)低于理想水平,對(duì)模型的表現(xiàn)提出質(zhì)疑。筆者將在后續(xù)研究中,不斷積累樣本數(shù)據(jù),進(jìn)行反復(fù)驗(yàn)證,待樣本數(shù)據(jù)積累到一定程度后,重新建模進(jìn)行驗(yàn)證,以求得更可靠結(jié)果。
參考文獻(xiàn)
[1]陳建.信用評(píng)分模型技術(shù)與應(yīng)用[M].北京:中國(guó)財(cái)政經(jīng)濟(jì)出版社,2005.
[2]Mamdouh Refaat.信用風(fēng)險(xiǎn)評(píng)分卡研究基于SAS的開(kāi)發(fā)與實(shí)施[M].北京:社會(huì)科學(xué)文獻(xiàn)出版社,2013.
[3]王濟(jì)川,郭志剛.logistic回歸模型——方法與應(yīng)用[M].北京:高等教育出版社,2001.
[4]徐毅,陳麗萍主編.統(tǒng)計(jì)建模與R軟件[M].北京:清華大學(xué)出版社,2006.
作者簡(jiǎn)介:陳亮(1983-),男,漢族,重慶渝中區(qū)人,畢業(yè)于重慶大學(xué)經(jīng)濟(jì)與工商管理學(xué)院,碩士,任職于重慶匯金小額貸款有限公司,金融研究員,研究方向:普惠金融。endprint