Logistic回歸在銀行個人信貸風險評估上的應用研究

2018-10-13 03:43:18佘朝兵

科技與創新 2018年19期

關鍵詞：實驗

佘朝兵

佘朝兵

（吉首大學張家界學院，湖南張家界 427000）

信貸風險是影響銀行穩定性的一個主要因素。利用Logistic回歸算法，對2007—2011年某信貸網站40 000多條個人貸款數據進行訓練，在采用權重策略解決樣本不平衡問題的實驗背景下發現，在不同實驗權重下，Logistic回歸算法召回率達65%以上，銀行可根據目的采取合適的權重，從而獲取更好的結果。

Logistic回歸；信貸風險；風險評估；訓練數據

1 概述

隨著市場經濟的發展，金融行業欣欣向榮。個人信用貸款已經成為銀行的主營業務之一，同時，個人貸款也進一步促進了經濟的繁榮發展。因此，個人信貸對銀行和社會的發展都是十分重要的。然而，由于個人信貸的主體條件不同，此外，我國也缺乏個人信用制度，因此，個人信貸業務存在信貸風險，而信貸風險也是銀行不可避免的問題。對于銀行，如何有效地控制信貸風險，從而降低成本，成為了銀行管理部門需要重點解決的問題。因此，信貸風險的評估顯得尤其必要。Logistic回歸算法是機器學習領域分類的經典算法，該算法可通過大量的訓練數據對新樣本進行預測。本文主要利用邏輯回歸算法對個人信貸風險評估進行預測，以期為銀行管理部門信貸風險評估的決策提供依據。

2 Logistic回歸算法

Logistic回歸算法是指通過對已有的數據進行分析，對已有數據的分類邊界線建立回歸公式，利用回歸公式計算新樣本數據的函數值，以此對新樣本進行分類預測。Logistic回歸算法主要解決二分類問題。

2.1 Logistic回歸算法的基本原理

上面提到的Logistic回歸算法的主要原理為在分類邊界建立回歸函數。該函數接收預測數據并進行預測分類，特別是處理二分類問題時，回歸函數輸出0或1用于判定類別。考慮到回歸函數的性質以及計算的方便性，回歸函數沒有采用階躍函數，而是采用Sigmoid函數。Sigmoid函數的計算公式如下：

上述函數的定義域為[－∞，+∞]，值域為（0，1）.當=0時，函數值為0.5，隨著的增大，函數值趨近0；隨著的減少，函數值趨近1.

對于訓練樣本而言，設計損失函數，利用梯度下降法為每個特征設置最優的權重。當預測新樣本類別時，利用得到的最優權重，得到新樣本所有特征的回歸值，最后將回歸值賦予，代入Sigmoid函數中。如果函數結果大于等于0.5，則預測為1；否則預測為0.預測類別的公式如下：

假設訓練樣本有個，分別用1，2，…，N表示。每個樣本有個特征屬性，以第個樣本i為例，該樣本的個特征分別用i1，i2，…ij，…iM表示，該樣本的真實類別為（i），其中，損失函數的計算公式如下：

式（3）中：（i）為第個樣本的回歸值，其計算公式如下：

梯度下降法求最優權重的計算公式如下：

2.2 算法步驟

Logistic回歸算法的步驟如下：①收集數據；②將數據類型預處理為數值型；③輸入訓練數據得出最佳分類回歸系數；④根據分類回歸函數，計算預測樣本的類別；⑤評估分類效果。

3 應用實例

3.1 數據來源

實驗數據來自互聯網。下載的實驗數據包含了從2007—2011年間約40 000條個人貸款數據。實驗數據中每個記錄包括編號、會員編號、申請貸款額、實際貸款額、貸款期限、申請人所在單位名稱、等級、利率、平均年收入、固定資產、貸款狀態、貸款目的等52個特征屬性。部分實例數據如表1所示。

3.2 數據預處理

根據基本的數據預處理方法，首先對空值或者異常值進行刪除處理，然后根據應用的目的以及算法特點，采取其他方法進行預處理。由上節對數據的描述可知，數據具有以下特點：特征屬性數量較多、數據類型多樣。為了提高實驗效率，避免出現過擬合現象，需要針對上述特點做以下預處理工作。

表1 實驗數據部分實例

idloan-amntfunded-amnttermint-rate/（%）gradesub-gradeLoan-status 15 0005 0003610.63BB2full paid 210 00004811.32EE2charged off 315 00007210.57DD3late

3.2.1 特征選擇

在原始數據52個特征屬性中，選擇合適的特征屬性來試驗。根據原始數據，總結特征選擇的原則有3項：①與貸款結果有關的特征；②重復特征選擇只保留一項；③原始數據中特征值唯一的特征不用保留。為了方便理解，以下對上述原則舉例說明。根據第一個原則，原始數據中編號、會員編號等與貸款結果無關，應該剔除；根據第二個原則，等級和子等級都是表達的是類似含義，只保留等級一項特征；而設置第三個原則的原因是假設原始數據中某個特征全部為0，則該特征對于決策沒有參考價值，因此，沒有必要參與實驗。總之，利用上述3項原則，通過python代碼對原始數據進行處理后，最終選擇的特征屬性為24個。

3.2.2 數據類型數值化

根據表1，所有的特征值中既包含整型，也包含浮點型、字符型。邏輯回歸算法適合處理整型、浮點型等數值型數據，因此，有必要對多字符類型數據進行處理。

處理的方法即將特征屬性的屬性值按類賦予不同的數值，可假設特征屬性i共i1，i2，…，ij有個屬性值，每個屬性值都是字符類型，則為了將數據類型統一，可以按順序將第個屬性值ik賦值為.

經過數據類型數值化后，原始數據中所有特征值是整型或浮點型。此處特別要說明的是，貸款狀態（loan-status）表示貸款結果，可在實驗中預測標簽。該屬性有9種屬性值，比如完全支付（full paid）、不予支持（charged off）、推遲決策（late）等。由于在上述屬性值中，前2種屬性值包含的記錄數超過90%的樣本，且邏輯回歸算法主要用于二分類問題，因此，本文只采用完全支付和不予支持兩個屬性值，并將其屬性值分別賦值為1和0.

3.3 評價指標

分類問題一般采用預測準確率來評價，但由于本文的樣本數據中每條記錄貸款額度不一致，因此，每個記錄的分類結果不能平等看待，預測準確率不適合評價貸款預測的結果。在貸款風險評估的應用中，真實結果和預測結果都有“完全支付”和“不予支持”兩種情況。根據組合原理，真實結果與預測結果之間存在4種情況，比如真實結果為“完全支付”，預測結果也為“完全支付”，則可讓管理部門獲利；真實結果為“不予支持”，預測為“完全支付”，則讓管理部門承擔風險；其他情況不影響管理部門的利益。由此可見，管理部門希望邏輯回歸算法的預測結果能讓管理部門獲取最大利益。考慮到上述情況，筆者希望所有真實結果為“完全支付”的樣本中，預測結果為“完全支付”的樣本越多越好；而所有“不予支持”的樣本中，預測為“完全支付”的樣本越少越好。上述4種情況具體如表2所示。

表2 真實結果與預測結果樣本數量的對比

預測真實完全支付不予支持完全支付ac 不予支持bd

根據表2所示，本文的評價指標公式為：

3.4 實驗結果

本文實驗數據樣本有2類，即“完全支付”樣本和“不予支持”樣本。而“完全支付”樣本在所有實驗樣本數量上超過了80%，出現了樣本不均衡的問題。

3.4.1 樣本不均衡問題的解決策略

由于樣本不均衡，容易導致算法失效。比如，90%的樣本都是“完全支付”的情況下，即使不采用機器學習算法，只需要將所有樣本預測結果設為“完全支付”也可以得到不錯的評價指標。因此，有必要在實驗中解決樣本不均衡問題。一般的解決策略有2類：①增加比例較少的樣本數量，平衡不同類別的樣本數量；②根據不同類別樣本數量的比例，反比例設置每類樣本的權重，以使每類樣本數量與權重的乘積結果基本一致。

考慮到第一類策略需要額外設計樣本數據，本文采用第二種策略。

3.4.2 不同權重下的實驗結果

由于訓練數據的樣本中貸款狀態為“完全支付”樣本數量與“不予支持”的樣本數量比例為6∶1，因此，本文要有針對性地設置不同類別的權重進行實驗。實驗中采用scikit-learn框架的邏輯回歸算法對預處理后的樣本數據進行訓練，交叉驗證后的結果如表3所示。

表3 交叉驗證結果

權重比例TPRPR 1∶60.670 70.400 7 1∶100.973 80.940 9 1∶50.731 70.478 9

根據實驗結果發現，在不同的權重比例下，PR即召回率達65%以上，而PR則有較大的波動。一般而言，希望PR高、PR低，但此結果如何平衡，還需要根據銀行目的采用合適的權重比例。

［1］哈林頓.機器學習實戰［M］.李銳，譯.北京：人民郵電出版社，2013.

［2］姜楠.淺析我國商業銀行個人消費貸款風險管理［J］.商業經濟，2017（04）：177-179.

［3］陳倩.基于Logistic模型的大學生校園貸研究［J］.商洛學院學報，2017，31（02）：80-82.

［4］逯宇鐸，金艷玲.基于Lasso-logistic模型的供應鏈金融信用風險實證研究［J］.管理現代化，2016，36（02）：98-100.

〔編輯：張思楠〕

2095－6835（2018）19－0113－02

F832.4

10.15913/j.cnki.kjycx.2018.19.113

佘朝兵（1982—），男，湖南邵東人，碩士，吉首大學張家界學院講師，研究方向為云計算、大數據、數據挖掘。