999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

Logistic回歸在銀行個人信貸風險評估上的應用研究

2018-10-13 03:43:18佘朝兵
科技與創新 2018年19期
關鍵詞:實驗

佘朝兵

?

Logistic回歸在銀行個人信貸風險評估上的應用研究

佘朝兵

(吉首大學張家界學院,湖南 張家界 427000)

信貸風險是影響銀行穩定性的一個主要因素。利用Logistic回歸算法,對2007—2011年某信貸網站40 000多條個人貸款數據進行訓練,在采用權重策略解決樣本不平衡問題的實驗背景下發現,在不同實驗權重下,Logistic回歸算法召回率達65%以上,銀行可根據目的采取合適的權重,從而獲取更好的結果。

Logistic回歸;信貸風險;風險評估;訓練數據

1 概述

隨著市場經濟的發展,金融行業欣欣向榮。個人信用貸款已經成為銀行的主營業務之一,同時,個人貸款也進一步促進了經濟的繁榮發展。因此,個人信貸對銀行和社會的發展都是十分重要的。然而,由于個人信貸的主體條件不同,此外,我國也缺乏個人信用制度,因此,個人信貸業務存在信貸風險,而信貸風險也是銀行不可避免的問題。對于銀行,如何有效地控制信貸風險,從而降低成本,成為了銀行管理部門需要重點解決的問題。因此,信貸風險的評估顯得尤其必要。Logistic回歸算法是機器學習領域分類的經典算法,該算法可通過大量的訓練數據對新樣本進行預測。本文主要利用邏輯回歸算法對個人信貸風險評估進行預測,以期為銀行管理部門信貸風險評估的決策提供依據。

2 Logistic回歸算法

Logistic回歸算法是指通過對已有的數據進行分析,對已有數據的分類邊界線建立回歸公式,利用回歸公式計算新樣本數據的函數值,以此對新樣本進行分類預測。Logistic回歸算法主要解決二分類問題。

2.1 Logistic回歸算法的基本原理

上面提到的Logistic回歸算法的主要原理為在分類邊界建立回歸函數。該函數接收預測數據并進行預測分類,特別是處理二分類問題時,回歸函數輸出0或1用于判定類別。考慮到回歸函數的性質以及計算的方便性,回歸函數沒有采用階躍函數,而是采用Sigmoid函數。Sigmoid函數的計算公式如下:

上述函數的定義域為[-∞,+∞],值域為(0,1).當=0時,函數值為0.5,隨著的增大,函數值趨近0;隨著的減少,函數值趨近1.

對于訓練樣本而言,設計損失函數,利用梯度下降法為每個特征設置最優的權重。當預測新樣本類別時,利用得到的最優權重,得到新樣本所有特征的回歸值,最后將回歸值賦予,代入Sigmoid函數中。如果函數結果大于等于0.5,則預測為1;否則預測為0.預測類別的公式如下:

假設訓練樣本有個,分別用1,2,…,N表示。每個樣本有個特征屬性,以第個樣本i為例,該樣本的個特征分別用i1,i2,…ij,…iM表示,該樣本的真實類別為(i),其中,損失函數的計算公式如下:

式(3)中:(i)為第個樣本的回歸值,其計算公式如下:

梯度下降法求最優權重的計算公式如下:

2.2 算法步驟

Logistic回歸算法的步驟如下:①收集數據;②將數據類型預處理為數值型;③輸入訓練數據得出最佳分類回歸系數;④根據分類回歸函數,計算預測樣本的類別;⑤評估分類效果。

3 應用實例

3.1 數據來源

實驗數據來自互聯網。下載的實驗數據包含了從2007—2011年間約40 000條個人貸款數據。實驗數據中每個記錄包括編號、會員編號、申請貸款額、實際貸款額、貸款期限、申請人所在單位名稱、等級、利率、平均年收入、固定資產、貸款狀態、貸款目的等52個特征屬性。部分實例數據如表1所示。

3.2 數據預處理

根據基本的數據預處理方法,首先對空值或者異常值進行刪除處理,然后根據應用的目的以及算法特點,采取其他方法進行預處理。由上節對數據的描述可知,數據具有以下特點:特征屬性數量較多、數據類型多樣。為了提高實驗效率,避免出現過擬合現象,需要針對上述特點做以下預處理工作。

表1 實驗數據部分實例

idloan-amntfunded-amnttermint-rate/(%)gradesub-gradeLoan-status 15 0005 0003610.63BB2full paid 210 00004811.32EE2charged off 315 00007210.57DD3late

3.2.1 特征選擇

在原始數據52個特征屬性中,選擇合適的特征屬性來試驗。根據原始數據,總結特征選擇的原則有3項:①與貸款結果有關的特征;②重復特征選擇只保留一項;③原始數據中特征值唯一的特征不用保留。為了方便理解,以下對上述原則舉例說明。根據第一個原則,原始數據中編號、會員編號等與貸款結果無關,應該剔除;根據第二個原則,等級和子等級都是表達的是類似含義,只保留等級一項特征;而設置第三個原則的原因是假設原始數據中某個特征全部為0,則該特征對于決策沒有參考價值,因此,沒有必要參與實驗。總之,利用上述3項原則,通過python代碼對原始數據進行處理后,最終選擇的特征屬性為24個。

3.2.2 數據類型數值化

根據表1,所有的特征值中既包含整型,也包含浮點型、字符型。邏輯回歸算法適合處理整型、浮點型等數值型數據,因此,有必要對多字符類型數據進行處理。

處理的方法即將特征屬性的屬性值按類賦予不同的數值,可假設特征屬性i共i1,i2,…,ij有個屬性值,每個屬性值都是字符類型,則為了將數據類型統一,可以按順序將第個屬性值ik賦值為.

經過數據類型數值化后,原始數據中所有特征值是整型或浮點型。此處特別要說明的是,貸款狀態(loan-status)表示貸款結果,可在實驗中預測標簽。該屬性有9種屬性值,比如完全支付(full paid)、不予支持(charged off)、推遲決策(late)等。由于在上述屬性值中,前2種屬性值包含的記錄數超過90%的樣本,且邏輯回歸算法主要用于二分類問題,因此,本文只采用完全支付和不予支持兩個屬性值,并將其屬性值分別賦值為1和0.

3.3 評價指標

分類問題一般采用預測準確率來評價,但由于本文的樣本數據中每條記錄貸款額度不一致,因此,每個記錄的分類結果不能平等看待,預測準確率不適合評價貸款預測的結果。在貸款風險評估的應用中,真實結果和預測結果都有“完全支付”和“不予支持”兩種情況。根據組合原理,真實結果與預測結果之間存在4種情況,比如真實結果為“完全支付”,預測結果也為“完全支付”,則可讓管理部門獲利;真實結果為“不予支持”,預測為“完全支付”,則讓管理部門承擔風險;其他情況不影響管理部門的利益。由此可見,管理部門希望邏輯回歸算法的預測結果能讓管理部門獲取最大利益。考慮到上述情況,筆者希望所有真實結果為“完全支付”的樣本中,預測結果為“完全支付”的樣本越多越好;而所有“不予支持”的樣本中,預測為“完全支付”的樣本越少越好。上述4種情況具體如表2所示。

表2 真實結果與預測結果樣本數量的對比

預測真實 完全支付不予支持 完全支付ac 不予支持bd

根據表2所示,本文的評價指標公式為:

3.4 實驗結果

本文實驗數據樣本有2類,即“完全支付”樣本和“不予支持”樣本。而“完全支付”樣本在所有實驗樣本數量上超過了80%,出現了樣本不均衡的問題。

3.4.1 樣本不均衡問題的解決策略

由于樣本不均衡,容易導致算法失效。比如,90%的樣本都是“完全支付”的情況下,即使不采用機器學習算法,只需要將所有樣本預測結果設為“完全支付”也可以得到不錯的評價指標。因此,有必要在實驗中解決樣本不均衡問題。一般的解決策略有2類:①增加比例較少的樣本數量,平衡不同類別的樣本數量;②根據不同類別樣本數量的比例,反比例設置每類樣本的權重,以使每類樣本數量與權重的乘積結果基本一致。

考慮到第一類策略需要額外設計樣本數據,本文采用第二種策略。

3.4.2 不同權重下的實驗結果

由于訓練數據的樣本中貸款狀態為“完全支付”樣本數量與“不予支持”的樣本數量比例為6∶1,因此,本文要有針對性地設置不同類別的權重進行實驗。實驗中采用scikit-learn框架的邏輯回歸算法對預處理后的樣本數據進行訓練,交叉驗證后的結果如表3所示。

表3 交叉驗證結果

權重比例TPRPR 1∶60.670 70.400 7 1∶100.973 80.940 9 1∶50.731 70.478 9

根據實驗結果發現,在不同的權重比例下,PR即召回率達65%以上,而PR則有較大的波動。一般而言,希望PR高、PR低,但此結果如何平衡,還需要根據銀行目的采用合適的權重比例。

[1]哈林頓.機器學習實戰[M].李銳,譯.北京:人民郵電出版社,2013.

[2]姜楠.淺析我國商業銀行個人消費貸款風險管理[J].商業經濟,2017(04):177-179.

[3]陳倩.基于Logistic模型的大學生校園貸研究[J].商洛學院學報,2017,31(02):80-82.

[4]逯宇鐸,金艷玲.基于Lasso-logistic模型的供應鏈金融信用風險實證研究[J].管理現代化,2016,36(02):98-100.

〔編輯:張思楠〕

2095-6835(2018)19-0113-02

F832.4

A

10.15913/j.cnki.kjycx.2018.19.113

佘朝兵(1982—),男,湖南邵東人,碩士,吉首大學張家界學院講師,研究方向為云計算、大數據、數據挖掘。

猜你喜歡
實驗
我做了一項小實驗
記住“三個字”,寫好小實驗
我做了一項小實驗
我做了一項小實驗
記一次有趣的實驗
有趣的實驗
小主人報(2022年4期)2022-08-09 08:52:06
微型實驗里看“燃燒”
做個怪怪長實驗
NO與NO2相互轉化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 欧美在线伊人| 亚洲色图欧美激情| 岛国精品一区免费视频在线观看| 国产h视频免费观看| 综合色天天| 免费人成视频在线观看网站| 久久黄色毛片| 91久久国产成人免费观看| 蜜芽国产尤物av尤物在线看| 国产黄网站在线观看| 伊人AV天堂| 国产自产视频一区二区三区| 99精品福利视频| 六月婷婷综合| 日韩毛片免费| 成年A级毛片| 中文字幕久久亚洲一区| 国产主播在线观看| 欧美日韩在线国产| 99在线视频网站| 亚洲欧美天堂网| 伊人五月丁香综合AⅤ| 日韩欧美国产综合| 日韩欧美国产成人| 玩两个丰满老熟女久久网| 国产一区二区在线视频观看| 中文字幕免费在线视频| 亚洲国产欧美国产综合久久 | 精品无码一区二区在线观看| 无码精品福利一区二区三区| 九九热视频精品在线| 91在线丝袜| 人妻少妇久久久久久97人妻| 在线播放国产99re| 四虎影视8848永久精品| 呦视频在线一区二区三区| V一区无码内射国产| 91福利免费视频| 国产亚洲精品无码专| 精品国产女同疯狂摩擦2| 99视频国产精品| 狠狠v日韩v欧美v| 亚洲人成人伊人成综合网无码| 在线观看欧美国产| 亚洲第一色网站| 制服无码网站| 精品国产免费观看| 亚洲成综合人影院在院播放| 青青青国产视频| 在线观看免费AV网| 香蕉99国内自产自拍视频| 欧美日韩亚洲国产| 91偷拍一区| 国产嫖妓91东北老熟女久久一| 久久久噜噜噜| 日韩欧美中文字幕在线精品| 亚洲国产成人精品青青草原| 亚洲天堂伊人| 88av在线播放| 亚洲成肉网| 色悠久久久久久久综合网伊人| 亚洲91在线精品| 国产无码在线调教| 97成人在线视频| 欧美有码在线| 精品无码一区二区三区电影| 视频二区欧美| 免费无遮挡AV| 久久久久88色偷偷| 2022国产91精品久久久久久| 自拍偷拍欧美日韩| 99ri国产在线| 亚洲一级毛片在线观播放| 在线国产你懂的| 亚洲中文久久精品无玛| 国产精品内射视频| 视频一区亚洲| 亚洲无码视频一区二区三区| 亚洲欧美另类中文字幕| 四虎精品国产AV二区| 天天摸天天操免费播放小视频| 久久精品一品道久久精品|