孟志青,姜 琦
(浙江工業大學 管理學院,浙江 杭州 310023)
在一個良性的個人借貸生態圈內,理想狀態是平臺、借款人、投資人能夠各取所需、合作共贏。一旦控制不好違約率,借貸本金將產生較大損失,會嚴重導致投資人退出、借款平臺成交量不斷縮水以及更多借出人出走等現象發生。為維持好良性可持續的借貸生態圈,借貸預測模型顯得尤為重要。分析借貸數據,會發現它是典型的不平衡數據——違約類為少數類。再加上它海量數據、緯度高、類型多(文本型、離散型、連續型)的特性,極大地影響分類精度[1-2]。在不平衡數據機器學習場景下,采用準確率(accuracy)來評估模型的策略不再適用[3]。以往的研究者為消除不平衡影響,提出一般性的代價敏感分類方法(P Domingos,1999)。Bahnsen等[4]提出基于代價敏感的邏輯斯蒂回歸,并于2015年提出基于代價敏感的決策樹[5-6]。但以往的代價敏感技術都使用單一分類器,應用于集成模型(例如Bagging和Boosting)很少被提及[7]。從借貸模型的業務角度出發研究,Serrano-Cinca等[8]提出利潤評分方法而不是借貸的信用評分。Verbraken等剔除基于期望利潤最大化思想,在預期損失和收益間進行權衡,進而給出允許向客戶放貸的閾值。這給筆者以啟發,重視預測的現實意義,引入期望損失的概念來量化借貸樣本的代價敏感項。
Lending Club是美國最大規模的P2P個人借貸平臺,成立于2007年,由美國Experian公司提供信用評分(社會保障號碼的唯一性),美國證券交易委員會(SEC)進行監管。該平臺對以往的歷史借貸數據隱去隱私信息后公開發布供學者、業界研究。……