佘朝兵
?
Logistic回歸在銀行個人信貸風險評估上的應用研究
佘朝兵
(吉首大學張家界學院,湖南 張家界 427000)
信貸風險是影響銀行穩定性的一個主要因素。利用Logistic回歸算法,對2007—2011年某信貸網站40 000多條個人貸款數據進行訓練,在采用權重策略解決樣本不平衡問題的實驗背景下發現,在不同實驗權重下,Logistic回歸算法召回率達65%以上,銀行可根據目的采取合適的權重,從而獲取更好的結果。
Logistic回歸;信貸風險;風險評估;訓練數據
隨著市場經濟的發展,金融行業欣欣向榮。個人信用貸款已經成為銀行的主營業務之一,同時,個人貸款也進一步促進了經濟的繁榮發展。因此,個人信貸對銀行和社會的發展都是十分重要的。然而,由于個人信貸的主體條件不同,此外,我國也缺乏個人信用制度,因此,個人信貸業務存在信貸風險,而信貸風險也是銀行不可避免的問題。對于銀行,如何有效地控制信貸風險,從而降低成本,成為了銀行管理部門需要重點解決的問題。因此,信貸風險的評估顯得尤其必要。Logistic回歸算法是機器學習領域分類的經典算法,該算法可通過大量的訓練數據對新樣本進行預測。本文主要利用邏輯回歸算法對個人信貸風險評估進行預測,以期為銀行管理部門信貸風險評估的決策提供依據。
Logistic回歸算法是指通過對已有的數據進行分析,對已有數據的分類邊界線建立回歸公式,利用回歸公式計算新樣本數據的函數值,以此對新樣本進行分類預測。Logistic回歸算法主要解決二分類問題。
上面提到的Logistic回歸算法的主要原理為在分類邊界建立回歸函數。該函數接收預測數據并進行預測分類,特別是處理二分類問題時,回歸函數輸出0或1用于判定類別。考慮到回歸函數的性質以及計算的方便性,回歸函數沒有采用階躍函數,而是采用Sigmoid函數。Sigmoid函數的計算公式如下:

上述函數的定義域為[-∞,+∞],值域為(0,1).當=0時,函數值為0.5,隨著的增大,函數值趨近0;隨著的減少,函數值趨近1.
對于訓練樣本而言,設計損失函數,利用梯度下降法為每個特征設置最優的權重。當預測新樣本類別時,利用得到的最優權重,得到新樣本所有特征的回歸值,最后將回歸值賦予,代入Sigmoid函數中。如果函數結果大于等于0.5,則預測為1;否則預測為0.預測類別的公式如下:

假設訓練樣本有個,分別用1,2,…,N表示。每個樣本有個特征屬性,以第個樣本i為例,該樣本的個特征分別用i1,i2,…ij,…iM表示,該樣本的真實類別為(i),其中,損失函數的計算公式如下:

式(3)中:(i)為第個樣本的回歸值,其計算公式如下:

梯度下降法求最優權重的計算公式如下:

Logistic回歸算法的步驟如下:①收集數據;②將數據類型預處理為數值型;③輸入訓練數據得出最佳分類回歸系數;④根據分類回歸函數,計算預測樣本的類別;⑤評估分類效果。
實驗數據來自互聯網。下載的實驗數據包含了從2007—2011年間約40 000條個人貸款數據。實驗數據中每個記錄包括編號、會員編號、申請貸款額、實際貸款額、貸款期限、申請人所在單位名稱、等級、利率、平均年收入、固定資產、貸款狀態、貸款目的等52個特征屬性。部分實例數據如表1所示。
根據基本的數據預處理方法,首先對空值或者異常值進行刪除處理,然后根據應用的目的以及算法特點,采取其他方法進行預處理。由上節對數據的描述可知,數據具有以下特點:特征屬性數量較多、數據類型多樣。為了提高實驗效率,避免出現過擬合現象,需要針對上述特點做以下預處理工作。
表1 實驗數據部分實例
idloan-amntfunded-amnttermint-rate/(%)gradesub-gradeLoan-status 15 0005 0003610.63BB2full paid 210 00004811.32EE2charged off 315 00007210.57DD3late
3.2.1 特征選擇
在原始數據52個特征屬性中,選擇合適的特征屬性來試驗。根據原始數據,總結特征選擇的原則有3項:①與貸款結果有關的特征;②重復特征選擇只保留一項;③原始數據中特征值唯一的特征不用保留。為了方便理解,以下對上述原則舉例說明。根據第一個原則,原始數據中編號、會員編號等與貸款結果無關,應該剔除;根據第二個原則,等級和子等級都是表達的是類似含義,只保留等級一項特征;而設置第三個原則的原因是假設原始數據中某個特征全部為0,則該特征對于決策沒有參考價值,因此,沒有必要參與實驗。總之,利用上述3項原則,通過python代碼對原始數據進行處理后,最終選擇的特征屬性為24個。
3.2.2 數據類型數值化
根據表1,所有的特征值中既包含整型,也包含浮點型、字符型。邏輯回歸算法適合處理整型、浮點型等數值型數據,因此,有必要對多字符類型數據進行處理。
處理的方法即將特征屬性的屬性值按類賦予不同的數值,可假設特征屬性i共i1,i2,…,ij有個屬性值,每個屬性值都是字符類型,則為了將數據類型統一,可以按順序將第個屬性值ik賦值為.
經過數據類型數值化后,原始數據中所有特征值是整型或浮點型。此處特別要說明的是,貸款狀態(loan-status)表示貸款結果,可在實驗中預測標簽。該屬性有9種屬性值,比如完全支付(full paid)、不予支持(charged off)、推遲決策(late)等。由于在上述屬性值中,前2種屬性值包含的記錄數超過90%的樣本,且邏輯回歸算法主要用于二分類問題,因此,本文只采用完全支付和不予支持兩個屬性值,并將其屬性值分別賦值為1和0.
分類問題一般采用預測準確率來評價,但由于本文的樣本數據中每條記錄貸款額度不一致,因此,每個記錄的分類結果不能平等看待,預測準確率不適合評價貸款預測的結果。在貸款風險評估的應用中,真實結果和預測結果都有“完全支付”和“不予支持”兩種情況。根據組合原理,真實結果與預測結果之間存在4種情況,比如真實結果為“完全支付”,預測結果也為“完全支付”,則可讓管理部門獲利;真實結果為“不予支持”,預測為“完全支付”,則讓管理部門承擔風險;其他情況不影響管理部門的利益。由此可見,管理部門希望邏輯回歸算法的預測結果能讓管理部門獲取最大利益。考慮到上述情況,筆者希望所有真實結果為“完全支付”的樣本中,預測結果為“完全支付”的樣本越多越好;而所有“不予支持”的樣本中,預測為“完全支付”的樣本越少越好。上述4種情況具體如表2所示。
表2 真實結果與預測結果樣本數量的對比
預測真實 完全支付不予支持 完全支付ac 不予支持bd
根據表2所示,本文的評價指標公式為:
本文實驗數據樣本有2類,即“完全支付”樣本和“不予支持”樣本。而“完全支付”樣本在所有實驗樣本數量上超過了80%,出現了樣本不均衡的問題。
3.4.1 樣本不均衡問題的解決策略
由于樣本不均衡,容易導致算法失效。比如,90%的樣本都是“完全支付”的情況下,即使不采用機器學習算法,只需要將所有樣本預測結果設為“完全支付”也可以得到不錯的評價指標。因此,有必要在實驗中解決樣本不均衡問題。一般的解決策略有2類:①增加比例較少的樣本數量,平衡不同類別的樣本數量;②根據不同類別樣本數量的比例,反比例設置每類樣本的權重,以使每類樣本數量與權重的乘積結果基本一致。
考慮到第一類策略需要額外設計樣本數據,本文采用第二種策略。
3.4.2 不同權重下的實驗結果
由于訓練數據的樣本中貸款狀態為“完全支付”樣本數量與“不予支持”的樣本數量比例為6∶1,因此,本文要有針對性地設置不同類別的權重進行實驗。實驗中采用scikit-learn框架的邏輯回歸算法對預處理后的樣本數據進行訓練,交叉驗證后的結果如表3所示。
表3 交叉驗證結果
權重比例TPRPR 1∶60.670 70.400 7 1∶100.973 80.940 9 1∶50.731 70.478 9
根據實驗結果發現,在不同的權重比例下,PR即召回率達65%以上,而PR則有較大的波動。一般而言,希望PR高、PR低,但此結果如何平衡,還需要根據銀行目的采用合適的權重比例。
[1]哈林頓.機器學習實戰[M].李銳,譯.北京:人民郵電出版社,2013.
[2]姜楠.淺析我國商業銀行個人消費貸款風險管理[J].商業經濟,2017(04):177-179.
[3]陳倩.基于Logistic模型的大學生校園貸研究[J].商洛學院學報,2017,31(02):80-82.
[4]逯宇鐸,金艷玲.基于Lasso-logistic模型的供應鏈金融信用風險實證研究[J].管理現代化,2016,36(02):98-100.
〔編輯:張思楠〕
2095-6835(2018)19-0113-02
F832.4
A
10.15913/j.cnki.kjycx.2018.19.113
佘朝兵(1982—),男,湖南邵東人,碩士,吉首大學張家界學院講師,研究方向為云計算、大數據、數據挖掘。