999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習算法的信用風險預測模型研究

2021-06-15 17:55:51李麗趙陸亮陳軍
企業科技與發展 2021年3期
關鍵詞:機器學習

李麗 趙陸亮 陳軍

【摘 要】為了解決西南財經大學“新網銀行杯”競賽數據中存在的高維稀疏數據、無標簽數據、多產品客群來源及好壞樣本不平衡等問題,采用機器學習方法,如Logistic回歸、決策樹、Adaboost、GradientBoosting和LGB模型對數據進行訓練,得出LGB模型的性能評價指標AUC數值最大的結論。

【關鍵詞】信用風險預測;機器學習;性能評價指標

【中圖分類號】F830.589 【文獻標識碼】A 【文章編號】1674-0688(2021)03-0046-03

1 研究背景

銀行信用風險評估一直是學術研究和商業銀行管理領域重要的研究話題。信貸信用風險是銀行所面臨的信用風險中最重要的一個部分,又由于銀行是整個金融系統的核心,銀行的主要資產業務是銀行對企業發放的貸款,若企業由于破產或資金流動性等原因無法按期償還貸款甚至造成違約會給商業銀行帶來巨大的損失。此外,商業銀行不良貸款率的不斷提升也會導致整個金融市場風險的提升。因此,商業銀行能否獲得性能極好又切實可行的信用風險預測模型,對于銀行金融機構乃至整個金融市場至關重要。

早期的預測模型大多使用傳統計量和統計方法,例如多元判別分析方法、Logistic回歸分析方法等。近年來,隨著人工智能的興起、機器學習和數據挖掘在世界范圍內的推廣,幫助商業銀行風險預測獲得了新的、更有效的預測方法,也預示著在商業銀行信用風險預測領域,人工智能方法會逐漸取代傳統統計方法,成為預測商業銀行信用風險的首選方法。

2 文獻回顧

Ekinci & Erdal(2011)[1]對土耳其的35家私人商業銀行進行分析,比較了SVM方法和神經網絡方法的預測精度。余晨曦等人(2008)[2]運用支持向量機技術(SVM),構建了基于支持向量機的我國商業銀行信貸信用風險度量模型,將支持向量機的非線性分類器應用到貸款違約的判別中,研究發現SVM可以處理非線性分類問題,但不能很好地估計違約概率。李佳等人(2018)[3]將SVM、BP神經網絡和PCA變量降維處理結合使用,對2015—2016年我國的144家滬深上市公司開展研究和預測,最后得出了良好的預測能力。

3 數據來源及解析

3.1 數據來源

本文數據是來自DC競賽網中的西南財經大學“新網銀行杯”數據科學競賽,四川新網銀行已經開發出了國內第一款全在線辦理的銀行大額云授信產品——“好人貸”。比賽提供真實業務場景下的脫敏數據,在“好人貸”的量化風控實踐中,四川新網銀行面臨多個維度的挑戰:高維數據、稀疏數據、無標簽樣本、多產品客群好壞樣本不平衡等。其中,對于包含多產品(客群)的高維特征數據和表現數據(部分有標簽,部分無標簽),邀請參賽者對數據進行探索分析,綜合利用監督和半監督機器學習算法、遷移學習算法等設計區分能力高、穩定性強的信用風險預測模型,對客戶信用風險進行預測。

通過初步的數據分析,我們發現數據的特征缺失嚴重,可能會對模型的預測帶來干擾,并且雖然特征維度僅有157維,但是由于是匿名特征,因此很難確定數據的具體含義。脫敏數據不能使用相關性分析方法,也不能構造新的特征,所以在數據清洗中對缺失值的處理與分析和模型的訓練與評估都是需要我們解決的關鍵問題。

3.2 數據解析

此次競賽提供的數據包括用戶id,157項脫敏的屬性/行為特征,以及是否屬高風險用戶的標簽項。一共有3個文件,數據描述如下。

(1)train_xy.csv,帶標簽的訓練集數據,共15 000條。

(2)train_x.csv,不帶標簽的訓練集數據,除無標簽字段‘y外,其余字段與train_xy.csv相同,共10 000條。

(3)test_all.csv,測試集數據,除無標簽字段‘y外,其余字段與train_xy.csv相同,共10 000條。

train_xy數據節選如圖1所示。

那么,根據賽題任務與數據,可以將問題轉化為“二分類”問題,0代表低風險客戶,1代表高風險客戶,賦值為0的個數有14 309,為1的個數為691,0和1的數量比值為21∶1,不同cust_group的樣本分布也不平衡(見表1)。

評估指標為AUC=0.3×AUC1+0.3×AUC2+0.4×AUC3,并且提供有/無標簽數據樣本,可以使用監督與半監督方法綜合預測用戶的信用風險概率。

4 數據清洗與處理

4.1 缺失值分析

根據數據介紹,x變量的缺失值統一以-99表示,我們首先對每個x特征變量,在列方向上進行缺失值的個數統計,從而轉化為缺失率。缺失率的大小可以表明某個特征缺失是否嚴重及嚴重程度。以train_set為例,從圖2中可以更加直觀地看出,有較多的特征缺失率高達100%,說明這些特征缺失嚴重,可能會對模型預測帶來干擾。

4.2 缺失值處理

根據上面的分析,幾乎所有數據都存在缺失值-99。一般處理缺失值的方法有中位數、平均數、眾數填充等操作。在對變量進行填充之前,根據每個樣本的缺失值的個數,對缺失值進行離散化并劃分成7個區間引入虛擬變量。

在這里我們針對數值型的數據利用均值進行填充,對類別型的數據引入啞元變量,并對填充完的數據進行歸一化處理。圖3以x_81為例,可以看到均值填充后進行歸一化的結果。

5 特征選取

一般而言,常見的特征選擇方法有如下3種:一是過濾式選擇,即通過相關系數、卡方檢驗、信息增益等篩選特征;二是包裹式選擇,是通過迭代特征,利用學習器的性能評估進行選擇;三是嵌入式選擇,特點是利用學習器自動選擇特征,包括正則化、基于樹模型選擇。

通過運用隨機森林的方法對157個特征進行了重要性的排序,我們從中選取TOP25作為模型的特征,各個特征的重要性如圖4所示。

6 模型選擇與評估

6.1 降維與不降維結果比較分析

本文的數據建模方法主要有Logistic回歸、決策樹、Adaboost、GradientBoosting 4個模型。這兩種方式的保留信息會有所不同,那么通過模型做出的預測結果肯定有區別。通過對兩者的結果進行比較與分析,如圖5所示,我們發現不降維的結果要優于降維之后的結果,所以我們最后決定不刪除任何原始特征,而是使用模型自動選擇。這樣做有兩個考慮,一是特征維度并不高(157維),而且是匿名特征,很難確定具體含義;二是模型自身具有選擇特征的特性,可以更好地表現數據。

6.2 模型存在的問題

在上述模型中,會存在不同程度的過擬合現象(如圖5所示)。

6.3 解決方法

我們將采用5折分層交叉驗證及將模型升級為LGB模型的方法減輕過擬合的現象,并且得到的結果AUC1=0.744 82、AUC2=0.765 77、AUC3=0.842 87、AUC=0.788 7。LGB訓練的AUC值明顯高于其他幾個模型。所以,最終我們選取LGB作為我們的最終模型。

出現過擬合的原因:一是數據可能過小,容易產生過擬合;二是模型本身性能可能不理想,那么增加訓練數據是沒有效果的。但是相較這兩種原因,我們認為前者的可能性更大。

7 結語

本文將數據集隨機選取70%作為訓練集,剩下的30%的數據作為驗證集,并對缺失數據進行均值填充,運用多種機器學習方法,以AUC為模型的性能評價指標,由于決策樹、邏輯斯蒂回歸等模型出現過擬合現象,所以我們采取五折交叉驗證,并改進模型引入LGB模型,得到的結果也是最優的,選取LGB模型作為我們最終的模型。

參 考 文 獻

[1] Ekinci A,Erdal H I.An Application on Prediction of Bank Failure in Turkey[J].Iktisat Isletme ve Fi-nans Dergisi,2011,26(298):21-44.

[2]余晨曦,梁瀟.基于支持向量機的商業銀行信用風險度量模型[J].計算機與數字工程,2008,36(11):10-14.

[3] 李佳,黃之豪.銀行信用風險預測——基于SVM和BP神經網絡的比較研究[J].上海立信會計金融學院學報,2018(6):40-48.

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 亚洲免费黄色网| 国产精品原创不卡在线| 亚洲国产高清精品线久久| 91精品人妻一区二区| 91系列在线观看| 草草线在成年免费视频2| 久久精品国产999大香线焦| 国产美女无遮挡免费视频网站| 欧美福利在线观看| 欧美激情第一欧美在线| 国产在线视频福利资源站| 一级香蕉视频在线观看| 午夜福利视频一区| 欧美成人看片一区二区三区| 亚洲va在线观看| 国内精品视频在线| 国产AV无码专区亚洲精品网站| 国产网站免费看| 欧美 亚洲 日韩 国产| 国产成人夜色91| 亚洲成年人片| 国产女主播一区| 亚洲成a人片7777| www欧美在线观看| 亚洲第一视频免费在线| 国产激情第一页| 中国一级毛片免费观看| 欧美第一页在线| 亚洲色图欧美一区| 国产午夜一级毛片| 亚洲男人在线天堂| 亚洲综合色婷婷| 99久久无色码中文字幕| 欧美中文字幕一区| 在线国产三级| 久久久久久午夜精品| 久久这里只有精品66| 日韩欧美视频第一区在线观看| 久久亚洲美女精品国产精品| 亚洲午夜综合网| 日本不卡在线| 亚洲日韩每日更新| 亚洲综合18p| 久久动漫精品| 欧美成人A视频| 亚洲综合色在线| 久久亚洲高清国产| 久久动漫精品| 中文字幕有乳无码| 亚洲欧美h| 久久久久九九精品影院 | 国产在线视频自拍| 看你懂的巨臀中文字幕一区二区| 国产精品亚洲а∨天堂免下载| 国产乱码精品一区二区三区中文 | 国产精品美乳| 国产人成网线在线播放va| 亚洲精品国产自在现线最新| 97成人在线视频| 亚洲激情99| 久久亚洲美女精品国产精品| 又粗又硬又大又爽免费视频播放| 毛片免费在线视频| 黄色不卡视频| 动漫精品中文字幕无码| 久久99蜜桃精品久久久久小说| 一级香蕉视频在线观看| 波多野结衣一区二区三区四区| 国产理论精品| 亚洲精品va| 亚洲人成网址| 国产精品不卡片视频免费观看| 免费一级毛片在线播放傲雪网| 亚洲天堂网视频| 欧美精品二区| 美女亚洲一区| 国产精品久久自在自线观看| 日韩资源站| 日韩福利视频导航| 一本久道久久综合多人| 国产精品高清国产三级囯产AV| 亚洲国产成人久久77|