999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?
500 Internal Server Error

500 Internal Server Error


nginx

基于機器學習的信貸違約預測研究

2023-04-06 22:14:58趙川鞠紅梅王美玲
電腦知識與技術 2023年5期
關鍵詞:風險預測機器學習大數據

趙川 鞠紅梅 王美玲

關鍵詞:大數據;風險預測;機器學習;信貸違約;投票算法

0 引言

為了響應國家穩經濟的政策,金融機構對資金困難的企業和個人進行信貸支持,幫助供企業打通供應鏈資金需求,鼓勵個人進行創業創新、開展副業、互聯網辦公等多種靈活就業方式,共渡難關,起到穩定市場經濟作用。面對如此龐大的資金需求,金融機構需要依托機器學習模型,輔助進行風險評估和風險預測。

1 文獻回顧

隨著計算機技術在金融領域的應用,許多學者加入信貸風險的研究,其中Linwei Hu等人在相關文獻中分析了監督學習算法在銀行中的應用場景[1];XiaojunMa等人使用多觀測數據清洗的LightGBM算法,表明該算法在預測違約方面具有較高的準確性[2];馬海花針對性地在個人信用風險評估中,使用隨機森林和XG?Boost模型進行對比分析,指出XGBoost模型更加適合處理大量高緯度的噪音和非線性信用風險的數據[3];陳紅在文獻中構建邏輯回歸模型、樸素貝葉斯、支持向量機、決策樹、組合模型進行綜合對比,同時對違約客戶進行客戶畫像分析,給出合理化建議和應用方向[4]。

國內外學者對于信貸風險預測的相關問題進行了大量的可行性分析與研究,不同學者選取的研究數據、評價指標和模型有所不同,最終得出不同的研究結果,這些研究具有重要的參考和借鑒意義。本文將結合銀行數據集,以機器學習算法中XGBoost、Light?GBM模型、邏輯回歸模型和隨機森林模型為基礎,結合Voting投票算法,進行個貸違約預測方面的研究。

2 算法及方案簡介

2.1 算法簡介與預備知識

1) 邏輯回歸

邏輯回歸是在線性回歸的基礎上進行改進的,增加了sigmoid激活函數[5]。線性回歸模型為輸入,f (x)為預測值,W T 為截線,b 為真實值和預測值的差值,具體公式為:

邏輯回歸把預測值映射到0-1區間。當預測值y > 0.5時,判斷為正例,y < 0.5時,判斷為反例,以此進行分類。

2) 隨機森林

隨機森林的特點在于隨機性和集成學習,通過隨機采取樣本,隨機挑選特征,形成多棵決策樹,每棵決策樹都有自己判斷權力,隨機森林收集每一棵樹投票結果,以少數服從多數的原理,進行最終分類判斷[6]。

3) XGBoost

XGBoost的預測模型通過設定損失函數,并根據參數進行一階、二階導數計算,以提高泛化能力[7]。令k 表示全部樹的數量,t 表示預測輪數,fk 是第k 顆預測結果,ft (xi )為第t 輪改善參數,Y ti 表示基于xi 樣本第t輪預測結果,預測公式為

4) LightGBM

LightGBM由微軟研究院研究開發,基于不犧牲速度的情況下,盡可能使用更多的數據運算,具有準確率高、區分能力強的特點[8]。基于直方圖(Histogram)算法、基于梯度的單邊采樣算法(GOSS)和互斥特征捆綁算法(EFB),這3個算法的引入下,降低了葉子生成的復雜度,從而節約了大量的運行計算時間和存儲空間。

5) Voting投票算法

Voting投票算法是集成算法中的一種,該算法又分為硬投票(Hard Voting) 和軟投票(Soft Voting) 兩種使用方式。其中硬投票是基于少數服從多數的原則,將不同分類器的結果分別進行統計,看最終哪個投票多來確定分類結果;而軟投票可以為不同分類器設置不同權重,由于每個分類器都有獨立估算分類的概率,軟投票法將所有概率再進行平均,最后平均概率最大的作為分類結果。

6) 淆矩陣(confusion matrix)

假如收到一些樣本,倘若該樣本集中只存在兩種類別,即正例和反例。而當預測值為正例時,本文將其記為positive(P),而當預測值為反例的時候,本文將其記為negative(N)。此時如果預測值與真實值相同的時候,本文記為true(T),而當預測值和真實值相反不一樣的時候,則記為false(F)。從而有了以下的混淆矩陣(confusion matrix),如表1所示。

7) ROC曲線

ROC曲線以假正例率(FPR)為X軸,以真正例率(TPR)為Y軸,進行圖形的繪制。由于ROC曲線能夠反映出分類效果,但從表現程度上還是不夠直觀,對此,通過AUC來直觀地凸顯出分類能力,即該指標實際為ROC曲線下的面積。

2.2 方案流程

本文研究的方案流程主要包括7個步驟:數據導入、數據預處理、模型訓練、擇優選擇、集成、對比評估、總結,如圖1所示。

3 數據處理及模型訓練

3.1 數據描述

本文采用天池公開銀行貸款數據集,該數據總量有47類指標信息,80萬條用戶數據。47類指標信息具體描述如表2所示。

3.2 數據處理

數據處理是模型訓練的前提,圍繞關鍵指標進行數據處理,通過對數據缺失值占比、數據異常值篩查進行多次降維,缺失部分采取為向上填充法的方式進行空值填充,特殊字符進行數字化處理。表3 為Grade指標數字化處理前后對比。

3.3 繪制相關性熱力矩陣圖

經過數據處理,最終將數據集降維至23項指標,并制作成相關性矩陣熱力圖,觀察各個指標與關鍵指標之間的相關性。呈現如圖2所示。

由相關性熱力矩陣圖可以看出,與isDefault關鍵性指標相關度較高的為loanAmnt、term、interestRate、installment、grade和dti,而其他指標起到相關性較小,用于提供輔助性作用。

3.4 模型訓練及評分結果

數據集采取8:2的分配比例,即訓練集為640000 條,測試集160000條,進行數據集的拆分,分別帶入到模型中訓練和測試,并記錄邏輯回歸、隨機森林、XG?Boost、LightGBM這四種單一模型的AUC評分。單一模型評分結果如表4所示。

3.5 模型集成及對比結果

本文選擇AUC評分較高的模型,即邏輯回歸模型、LightGBM模型和隨機森林模型,使用Voting硬投票算法進行模型融合,發現Voting模型融合后的AUC 評分有較大提升。對比數據如表5所示。

4 總結

通過對數據集的清洗篩選,選出部分相關聯的特征值進行多種模型的訓練,以數學原理闡述了不同模型的處理方式,本文測試中以最優的模型進行Voting 投票算法的融合,其結果表明十分優異,能夠起到提升預測準確度的作用,具體得出以下結論。

1) 在進行數據集處理時,將數據字符類型進行定量數值化,能夠更好地形成圖像,進行指標的選擇,比如在等級劃分時,采用數值的形式,進行數據集優化。

2) 不同模型在處理同一數據集的處理效果差異性很大,如在XGBoost模型處理與隨機森林模型在處理同一數據集時,AUC評分差距很大。

3) 作為Voting投票融合算法,將三種有效的單一模型進行融合,能夠有效提升AUC評分,證明融合算法相較于單一的模型,能夠發揮融合算法的強化性,提高準確度。

猜你喜歡
風險預測機器學習大數據
電費回收風險預測及規避策略
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
新舊高校會計制度比較實施建議
基于支持向量機的金融數據分析研究
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
統計學在證券投資中的應用研究
商(2016年6期)2016-04-20 17:54:08
我國企業資金管理存在的問題及對策分析
科技與創新(2015年8期)2015-05-06 23:08:15
500 Internal Server Error

500 Internal Server Error


nginx
500 Internal Server Error

500 Internal Server Error


nginx
500 Internal Server Error

500 Internal Server Error


nginx
500 Internal Server Error

500 Internal Server Error


nginx
500 Internal Server Error

500 Internal Server Error


nginx
主站蜘蛛池模板: 欧美视频在线第一页| 在线观看视频99| 亚洲乱码在线播放| 亚洲av无码成人专区| A级毛片高清免费视频就| 91福利在线观看视频| 日韩AV手机在线观看蜜芽| 狠狠色狠狠综合久久| 东京热av无码电影一区二区| 青青草91视频| 免费毛片在线| 久久久波多野结衣av一区二区| 国模私拍一区二区三区| 国产手机在线ΑⅤ片无码观看| 热九九精品| 丁香综合在线| 久久久久久久97| 小蝌蚪亚洲精品国产| 97视频免费在线观看| 精品福利一区二区免费视频| 亚洲人精品亚洲人成在线| 五月天久久综合| 中文字幕伦视频| jizz国产视频| 国产成人超碰无码| 伦伦影院精品一区| 尤物在线观看乱码| 岛国精品一区免费视频在线观看| 最新亚洲av女人的天堂| 国产一区二区三区在线观看视频 | 蜜桃视频一区二区| 亚洲中文无码h在线观看| 二级特黄绝大片免费视频大片| 国产精品xxx| 国产成人精品亚洲日本对白优播| 国产波多野结衣中文在线播放| 亚洲人成在线精品| 在线中文字幕网| 国产一区在线观看无码| 国产SUV精品一区二区| 久久久亚洲国产美女国产盗摄| 国产人人射| 天堂网亚洲系列亚洲系列| 国产精品性| 18禁黄无遮挡网站| 99re66精品视频在线观看 | 久久精品国产电影| 91久久天天躁狠狠躁夜夜| 久久久久无码国产精品不卡| 2018日日摸夜夜添狠狠躁| 呦系列视频一区二区三区| 亚洲不卡av中文在线| 久久国产精品波多野结衣| 黄色一级视频欧美| P尤物久久99国产综合精品| 久久综合伊人 六十路| 亚洲日韩第九十九页| 免费在线a视频| 国产精品尤物在线| 欧美国产日韩在线播放| 亚洲AⅤ波多系列中文字幕| 亚洲国产在一区二区三区| 无遮挡国产高潮视频免费观看 | 自拍偷拍欧美日韩| 国产精品免费入口视频| 亚洲另类第一页| 91麻豆精品国产高清在线| 亚洲第一区欧美国产综合| 欧美无专区| 伊人色综合久久天天| 香蕉久久永久视频| julia中文字幕久久亚洲| 99九九成人免费视频精品| 天天干伊人| 国产精品成人啪精品视频| 欧美综合中文字幕久久| 欧美日韩国产精品综合| 91九色国产porny| 精品欧美一区二区三区久久久| 亚洲天堂精品视频| 国产三级视频网站| 欧美精品一区二区三区中文字幕|