陳 卓 蔣 煒
(上海交通大學(xué) 安泰經(jīng)濟(jì)與管理學(xué)院,上海 200030)
目前,以Lending Club和拍拍貸為首的國內(nèi)外多數(shù)P2P平臺都將貸款人的信用評分作為投資人的參考依據(jù)。信用評分是一個(gè)分類問題,它以二元的“是否會違約”作為因變量,并應(yīng)用邏輯回歸或神經(jīng)網(wǎng)絡(luò)等技術(shù)試圖估計(jì)借款人的違約概率(PD)。然而在P2P平臺上,對于投資人而言,相較于借款人是否會違約,如何使自己的投資獲得最大的盈利才是更為直觀的最終目的。在這一點(diǎn)上,違約概率似乎并不是最佳放貸標(biāo)準(zhǔn)。低違約率的借款人雖然壞賬率低,但其利率也遠(yuǎn)低于高違約率的借款人。而高違約率的借款人雖然很可能不償還整個(gè)貸款,但也會收回一定的金額,且風(fēng)險(xiǎn)最高的貸款類別也支持高利率,可以在一定程度上彌補(bǔ)拖欠的貸款。一個(gè)例子是小額信貸,貸款給經(jīng)濟(jì)上被排除在外的人,但是鑒于他們的高利率,這些貸款可能有風(fēng)險(xiǎn)但有利可圖。
在貸款市場,內(nèi)部收益率(Internal Rate of Return(IRR))是評估投資回報(bào)率的常用指標(biāo)。IRR即資金流入現(xiàn)值總額與資金流出現(xiàn)值總額相等、凈現(xiàn)值等于零時(shí)的折現(xiàn)率。IRR的使用有兩個(gè)好處:首先,IRR是一個(gè)連續(xù)變量,與二分變量相比,可以提供更準(zhǔn)確的信息。第二個(gè)好處是IRR不僅考慮貸款支付,而且還考慮貸款利率。風(fēng)險(xiǎn)最高的貸款有很高的違約率,但也為貸款人提供高利率來補(bǔ)償他們的高PD。
本論文采用Lending Club 2015年的貸款數(shù)據(jù),刪除缺失率大于70%的記錄以及還款仍在進(jìn)行中的記錄后,共剩余213 730條貸款記錄,65個(gè)變量。其中,違約記錄為56 348條,占總記錄數(shù)的26.3%。
本文利用還款周期、月供金額以及總還款額來計(jì)算每筆貸款的內(nèi)部收益率。結(jié)果表明,213 730條貸款記錄中,IRR為負(fù)值的記錄數(shù)為53 216,占總貸款記錄數(shù)的25%。具體IRR分布圖見圖1。由圖1可以看出,IRR并不遵循正態(tài)分布,而是不對稱分布。這種扭曲的分配是由于尾部極端的違約貸款造成的負(fù)IRR值較多。整體的平均內(nèi)部收益率為-5.15%,中位數(shù)為6.01%,標(biāo)準(zhǔn)差為0.259 0。
表1呈現(xiàn)了不同F(xiàn)ICO等級的借款記錄間IRR的差異。可以看出,F(xiàn)ICO等級越高,IRR的均值就越大,但與此同時(shí),IRR的波動也逐漸增大。這從一定程度上說明,若以IRR作為投資決策的依據(jù),現(xiàn)有的信用等級系統(tǒng)仍有很大的改進(jìn)空間。

圖1 所有貸款記錄的IRR分布直方圖

表1 按FICO等級對利率與IRR的分組分析
CHAID算法通過計(jì)算類別變量與特征變量之間的相關(guān)性檢驗(yàn)統(tǒng)計(jì)量的p值,即卡方統(tǒng)計(jì)量對應(yīng)的p值,p值越小,說明特征變量與類別變量之間的關(guān)系越密切,應(yīng)當(dāng)被選為最佳分組特征變量。然后繼續(xù)按此準(zhǔn)則選擇后續(xù)特征變量,直至所有樣本被分類完畢。CHAID算法在構(gòu)建決策樹時(shí)具有一定的優(yōu)勢,它從統(tǒng)計(jì)顯著性的角度來確定特征變量和分割數(shù)值,對決策樹的分枝過程優(yōu)化明顯。且CHAID算法是為數(shù)不多的可將連續(xù)型數(shù)值變量作為因變量的決策樹算法,因此,本文選擇了CHAID算法。
本文所建立的CHAID模型通過使用IBM SPSS Modeler來實(shí)施,旨在建立以連續(xù)型數(shù)值變量IRR為目標(biāo)變量的決策樹模型,實(shí)現(xiàn)對貸款利潤率的準(zhǔn)確預(yù)測。
此次建模,從213 730條貸款數(shù)據(jù)中隨機(jī)選取80%作為訓(xùn)練集,剩余20%的記錄作為測試集,用于對模型擬合結(jié)果進(jìn)行檢測。圖2展示了決策樹在預(yù)測貸款I(lǐng)RR的過程中,從65個(gè)自變量中所篩選采用的10個(gè)自變量及其相應(yīng)的重要程度。表2是對上述變量的含義所作出的解釋。

圖2 決策樹所采用變量及其重要程度
此決策樹包含84個(gè)終端節(jié)點(diǎn),表3總結(jié)列舉了其中8個(gè)節(jié)點(diǎn)的訓(xùn)練和測試結(jié)果,顯示了該節(jié)點(diǎn)的分支,并揭示了獲得正向異常收益的某些策略。例如,向dti為11.26~13.79,按揭賬戶為1~3,且過去24個(gè)月內(nèi)的交易數(shù)量不超過4的用戶借款,可獲得高于整體水平的收益。

表2 CHAID決策樹所用變量
為了將CHAID分析所得結(jié)果與傳統(tǒng)的信用評估方法相對比,本文參照前人的建模經(jīng)驗(yàn),采用和CHAID一樣的訓(xùn)練集和測試集,對上述建模所用數(shù)據(jù)進(jìn)行邏輯回歸(Logistic Regression-LR)分析以評估其違約概率。LR提供從0到1的分?jǐn)?shù),可以將其解釋為貸款的償付能力指標(biāo)。將測試樣本中的貸款根據(jù)其LR評分進(jìn)行排名,如果貸款人根據(jù)LR信用評分結(jié)果選擇前10%的最佳借款人,則將獲得平均1.0%的內(nèi)部收益率。而在同樣的借款人集合中,根據(jù)FICO得分選擇前10%的最佳借款人將獲得平均1.6%的內(nèi)部收益率,按CHAID得分選擇前10%的最佳借款人將獲得平均1.9%的內(nèi)部收益率。圖3展示了兩種模型結(jié)果的差異,可以看出,CHAID模型在選擇高IRR的借款人時(shí),較LR和FICO評分有著明顯而穩(wěn)定的優(yōu)勢。

表3 CHAID決策樹部分節(jié)點(diǎn)展示

圖3 CHAID模型和LR模型預(yù)測結(jié)果對比
由前文可以知曉,目前P2P行業(yè)存在較高的違約率和較低的IRR。這與目前P2P市場以信用評分為唯一的投資參考標(biāo)準(zhǔn)有關(guān)。在本文的研究中,我們提出了一個(gè)通過CHAID決策樹模型預(yù)測P2P貸款收益率,并將其作為P2P平臺投資人決策依據(jù)的思路。在建模過程中,本文發(fā)現(xiàn)了影響貸款收益率的重要因素,且模型結(jié)果顯示,使用CHAID模型的預(yù)測結(jié)果作為投資決策依據(jù)可以在一定范圍內(nèi)穩(wěn)健提升投資人的收益率,使投資者更有積極性地將資金應(yīng)用到網(wǎng)貸平臺,有助于網(wǎng)貸平臺更健康的發(fā)展。
本文的局限性在于,由于P2P數(shù)據(jù)獲取較為困難,本研究僅分析Lending Club單一電子平臺的數(shù)據(jù)。盡管確定內(nèi)部收益率的因素已經(jīng)確定,但這些結(jié)果不能擴(kuò)展到其他P2P借貸平臺,所獲得的規(guī)則僅適用于分析的案例。