王琴英+由林青



【摘要】本文對可能影響逾期行為的因素采用隨機森林的方法進行粗選,發現借款人所在的地區、借款用途、性別、有無子女、學歷等因素的特征得分較高,通過建立邏輯回歸,對粗選的結果采用逐步回歸的方法,結果表明:婚姻狀況、區域因素、貸款年限、學歷、工作單位對逾期行為產生有較強的影響。
一、引言
2014年以來,我國P2P行業迅速發展,成為全世界P2P發展最快的國家,但與此同時,跑路的平臺也急劇增加,類似e租寶等平臺占到30%以上,針對該行業的整體態勢,國家監管部門出臺《私募股權眾籌融資管理辦法(試行)(征求意見稿)》,加強了對P2P等行業的監管,本文主要從信用風險得角度,以國內某一大型P 2P公司為研究對象,探究客戶逾期行為的影響因素。
國內對于P2P行業逾期行為的研究有很多,談超等將影響逾期的因素劃分為標的特征、信用特征、個人特征和往期借款4個維度,從中選取15個變量,通過建立logit回歸方程,探究逾期行為與這些變量的關系:王重潤以“紅嶺創投”的真實業務數據為基礎,選取借款者違約行為的9個特征因素建立Logit模型進行分析,探究影響逾期的因素。
二、還款逾期特征變量的選擇
1.數據說明
因變量是客戶類型,其中l代表新增逾期客戶;0代表非逾期客戶。
本文選取我國某一較大規模的P2P公司,獲取該公司2015年1月為M0,2016年1月為M1,2016年2月為M2,共931條新增逾期客戶在2016年1月的數據,以及2015年12月,2016年1月,2016年2月為M0,共931條正常客戶在2016年1月的931條數據,共1862條數據進行分析。其中M0:客戶逾期0-30天:M1:客戶逾期30-60天;M2:客戶逾期60-90天;在實際業務中,習慣定義M2為新增逾期。
選取的自變量包括:合同版本、貸款品種、片區、性別、是否續貸、綜合費率、判斷貸款信息是否提交過、判斷個人信息是否添加過、判斷工作信息是否添加過、判斷聯系人信息是否添加、貸款用途、學歷、婚姻狀態等信息。
2.變量篩選
本文對可能影響客戶分類的35個因素采用隨機森林的方法對關鍵變量進行提取,同時,為了避免分布不均勻的問題,采用五重交叉驗證,具體過程如下:
(1)將樣本分為訓練集和測試集,其中測試集占30%。
(2)將訓練集樣本隨機均勻分成5份樣本,取其中4份樣本記為N1,另一份樣本記為n。
(3)將N1采用隨機森林的方法,提取特征集S1,并去掉特征分x小于0.01的特征變量。
三、模型的建立及應用
1.Logit回歸方程
本文對篩選出的變量采用逐步回歸的方法建立Logit方程。具體過程如下:
3.模型檢驗
3.3.1模型泛化誤差
運用建立的模型,對30%的測試集進行測試,結果如下:
四、結論及建議
1.結論
綜上所述,影響新增逾期的因素包括:
(1)婚姻狀況。一般而言離異,喪偶,再婚的客戶逾期率要高一點。
(2)學歷。學歷越低,逾期率越高;一般而言學歷在大專,高中,高中以下的逾期率相對來說要高。
(3)區域因素。華東地區整體信用狀況和華北相比較差,導致華東地區逾期率較高,華北片區逾期率較低。
(4)貸款年限。一般而言期限越長的逾期率較高,風險越高。
(5)工作單位。從單位性質來看,機關單位、國企性質的單位逾期率較低。
2.建議
(1)避免期限較長的產品。平臺在產品設計時,盡量避免貸款期限超過一年的產品,對于超過一年的產品,加強風控部門對客戶的事中管理。
(2)盡快完善P 2 P行業的信息共享機制。目前,由于P 2 P公司對客戶的信息不共享,因此,部分客戶存在倒賬行為,行業整體的系統性風險偏高,因此,盡快實現行業內部的信息共享機制,有利于降低這類風險,降低逾期率。
因此,預測的準確度86.95%,模型的泛化誤差較小。