李麗 趙陸亮 陳軍



【摘 要】為了解決西南財經大學“新網銀行杯”競賽數據中存在的高維稀疏數據、無標簽數據、多產品客群來源及好壞樣本不平衡等問題,采用機器學習方法,如Logistic回歸、決策樹、Adaboost、GradientBoosting和LGB模型對數據進行訓練,得出LGB模型的性能評價指標AUC數值最大的結論。
【關鍵詞】信用風險預測;機器學習;性能評價指標
【中圖分類號】F830.589 【文獻標識碼】A 【文章編號】1674-0688(2021)03-0046-03
1 研究背景
銀行信用風險評估一直是學術研究和商業銀行管理領域重要的研究話題。信貸信用風險是銀行所面臨的信用風險中最重要的一個部分,又由于銀行是整個金融系統的核心,銀行的主要資產業務是銀行對企業發放的貸款,若企業由于破產或資金流動性等原因無法按期償還貸款甚至造成違約會給商業銀行帶來巨大的損失。此外,商業銀行不良貸款率的不斷提升也會導致整個金融市場風險的提升。因此,商業銀行能否獲得性能極好又切實可行的信用風險預測模型,對于銀行金融機構乃至整個金融市場至關重要。
早期的預測模型大多使用傳統計量和統計方法,例如多元判別分析方法、Logistic回歸分析方法等。近年來,隨著人工智能的興起、機器學習和數據挖掘在世界范圍內的推廣,幫助商業銀行風險預測獲得了新的、更有效的預測方法,也預示著在商業銀行信用風險預測領域,人工智能方法會逐漸取代傳統統計方法,成為預測商業銀行信用風險的首選方法。
2 文獻回顧
Ekinci & Erdal(2011)[1]對土耳其的35家私人商業銀行進行分析,比較了SVM方法和神經網絡方法的預測精度。余晨曦等人(2008)[2]運用支持向量機技術(SVM),構建了基于支持向量機的我國商業銀行信貸信用風險度量模型,將支持向量機的非線性分類器應用到貸款違約的判別中,研究發現SVM可以處理非線性分類問題,但不能很好地估計違約概率。李佳等人(2018)[3]將SVM、BP神經網絡和PCA變量降維處理結合使用,對2015—2016年我國的144家滬深上市公司開展研究和預測,最后得出了良好的預測能力。
3 數據來源及解析
3.1 數據來源
本文數據是來自DC競賽網中的西南財經大學“新網銀行杯”數據科學競賽,四川新網銀行已經開發出了國內第一款全在線辦理的銀行大額云授信產品——“好人貸”。比賽提供真實業務場景下的脫敏數據,在“好人貸”的量化風控實踐中,四川新網銀行面臨多個維度的挑戰:高維數據、稀疏數據、無標簽樣本、多產品客群好壞樣本不平衡等。其中,對于包含多產品(客群)的高維特征數據和表現數據(部分有標簽,部分無標簽),邀請參賽者對數據進行探索分析,綜合利用監督和半監督機器學習算法、遷移學習算法等設計區分能力高、穩定性強的信用風險預測模型,對客戶信用風險進行預測。
通過初步的數據分析,我們發現數據的特征缺失嚴重,可能會對模型的預測帶來干擾,并且雖然特征維度僅有157維,但是由于是匿名特征,因此很難確定數據的具體含義。脫敏數據不能使用相關性分析方法,也不能構造新的特征,所以在數據清洗中對缺失值的處理與分析和模型的訓練與評估都是需要我們解決的關鍵問題。
3.2 數據解析
此次競賽提供的數據包括用戶id,157項脫敏的屬性/行為特征,以及是否屬高風險用戶的標簽項。一共有3個文件,數據描述如下。
(1)train_xy.csv,帶標簽的訓練集數據,共15 000條。
(2)train_x.csv,不帶標簽的訓練集數據,除無標簽字段‘y外,其余字段與train_xy.csv相同,共10 000條。
(3)test_all.csv,測試集數據,除無標簽字段‘y外,其余字段與train_xy.csv相同,共10 000條。
train_xy數據節選如圖1所示。
那么,根據賽題任務與數據,可以將問題轉化為“二分類”問題,0代表低風險客戶,1代表高風險客戶,賦值為0的個數有14 309,為1的個數為691,0和1的數量比值為21∶1,不同cust_group的樣本分布也不平衡(見表1)。
評估指標為AUC=0.3×AUC1+0.3×AUC2+0.4×AUC3,并且提供有/無標簽數據樣本,可以使用監督與半監督方法綜合預測用戶的信用風險概率。
4 數據清洗與處理
4.1 缺失值分析
根據數據介紹,x變量的缺失值統一以-99表示,我們首先對每個x特征變量,在列方向上進行缺失值的個數統計,從而轉化為缺失率。缺失率的大小可以表明某個特征缺失是否嚴重及嚴重程度。以train_set為例,從圖2中可以更加直觀地看出,有較多的特征缺失率高達100%,說明這些特征缺失嚴重,可能會對模型預測帶來干擾。
4.2 缺失值處理
根據上面的分析,幾乎所有數據都存在缺失值-99。一般處理缺失值的方法有中位數、平均數、眾數填充等操作。在對變量進行填充之前,根據每個樣本的缺失值的個數,對缺失值進行離散化并劃分成7個區間引入虛擬變量。
在這里我們針對數值型的數據利用均值進行填充,對類別型的數據引入啞元變量,并對填充完的數據進行歸一化處理。圖3以x_81為例,可以看到均值填充后進行歸一化的結果。
5 特征選取
一般而言,常見的特征選擇方法有如下3種:一是過濾式選擇,即通過相關系數、卡方檢驗、信息增益等篩選特征;二是包裹式選擇,是通過迭代特征,利用學習器的性能評估進行選擇;三是嵌入式選擇,特點是利用學習器自動選擇特征,包括正則化、基于樹模型選擇。
通過運用隨機森林的方法對157個特征進行了重要性的排序,我們從中選取TOP25作為模型的特征,各個特征的重要性如圖4所示。
6 模型選擇與評估
6.1 降維與不降維結果比較分析
本文的數據建模方法主要有Logistic回歸、決策樹、Adaboost、GradientBoosting 4個模型。這兩種方式的保留信息會有所不同,那么通過模型做出的預測結果肯定有區別。通過對兩者的結果進行比較與分析,如圖5所示,我們發現不降維的結果要優于降維之后的結果,所以我們最后決定不刪除任何原始特征,而是使用模型自動選擇。這樣做有兩個考慮,一是特征維度并不高(157維),而且是匿名特征,很難確定具體含義;二是模型自身具有選擇特征的特性,可以更好地表現數據。
6.2 模型存在的問題
在上述模型中,會存在不同程度的過擬合現象(如圖5所示)。
6.3 解決方法
我們將采用5折分層交叉驗證及將模型升級為LGB模型的方法減輕過擬合的現象,并且得到的結果AUC1=0.744 82、AUC2=0.765 77、AUC3=0.842 87、AUC=0.788 7。LGB訓練的AUC值明顯高于其他幾個模型。所以,最終我們選取LGB作為我們的最終模型。
出現過擬合的原因:一是數據可能過小,容易產生過擬合;二是模型本身性能可能不理想,那么增加訓練數據是沒有效果的。但是相較這兩種原因,我們認為前者的可能性更大。
7 結語
本文將數據集隨機選取70%作為訓練集,剩下的30%的數據作為驗證集,并對缺失數據進行均值填充,運用多種機器學習方法,以AUC為模型的性能評價指標,由于決策樹、邏輯斯蒂回歸等模型出現過擬合現象,所以我們采取五折交叉驗證,并改進模型引入LGB模型,得到的結果也是最優的,選取LGB模型作為我們最終的模型。
參 考 文 獻
[1] Ekinci A,Erdal H I.An Application on Prediction of Bank Failure in Turkey[J].Iktisat Isletme ve Fi-nans Dergisi,2011,26(298):21-44.
[2]余晨曦,梁瀟.基于支持向量機的商業銀行信用風險度量模型[J].計算機與數字工程,2008,36(11):10-14.
[3] 李佳,黃之豪.銀行信用風險預測——基于SVM和BP神經網絡的比較研究[J].上海立信會計金融學院學報,2018(6):40-48.