基于機器學習的信用卡逾期預測研究

2024-03-16 10:11:06盧榮偉黃嫦娥謝久暉

科學技術創新 2024年6期

盧榮偉，黃嫦娥*，謝久暉＊

（桂林電子科技大學數學與計算科學學院，廣西桂林）

引言

隨著互聯網和移動支付的快速發展，信用卡已經成為了人們日常生活中必不可少的支付手段之一。準確預測逾期風險可以幫助銀行更好地管控風險，減少損失。客戶的信用卡信息和個人消費數據往往與其違約行為有著某種聯系。借助機器學習方法來學習這種“聯系”，從而對大規模客戶進行信用評價是可行的。已有的研究表明，機器學習算法在信用卡逾期預測問題上具有更高的效率和準確性。R Singh1.1.1[1]在信用評分問題中，對傳統的統計和現代數據挖掘、機器學習工具進行了評估，其對比了線性判別分析、支持向量機核密度估計、邏輯回歸、遺傳算法、鄰近算法等技術，結果表明，支持向量機和遺傳算法在分類信用卡申請人誤判率上較其他技術優越。然而，已有的研究中，很少基于本文針對傳統機器學習模型預測為“未逾期”客戶的可信度不高問題，對傳統的機器學習模型進行改進，降低將“逾期”客戶預測成“未逾期”客戶的概率，使得模型預測結果有較高的可信度，從而為銀行實現信用卡精準銷售，優化客戶資源，降低信用違約風險的目的。

1 預備知識

1.1 ROC 曲線與PR 曲線

ROC(Receiver Operating Characteristic)曲線是描述二元分類器在不同閾值下的表現的曲線。PR(Precision-Recall)曲線是彌補了ROC 曲線在處理不平衡數據時出現缺陷而誕生的一種評估指標。橫軸表示召回率(recall)，縱軸表示精確率(precision) 。PR 曲線顯示了在不同閾值下，精確率和召回率之間的折中關系。曲線上每個點代表一個不同的閾值，需要根據實際需求來選擇合適的閾值。如果更加關注查準率，則應該選擇PR 曲線上靠較左側的點作為最佳閾值；如果更加關注查全率，則應該選擇PR 曲線上靠較右側的點作為最佳閾值[2]。

1.2 評價指標

混淆矩陣[3]是機器學習中用于評估分類模型性能的一種方法。它是一個二維數組，橫軸表示實際的類別，縱軸表示預測的類別，每個元素表示將實際類別預測為某個類別的樣本數目，見表1。

表1 混淆矩陣

根據混淆矩陣可以計算得到多個指標來評估分類模型性能，如準確率、召回率、精確率和可信度等。準確率（Accuracy）是指所有被正確分類的樣本占總樣本數的比例。召回率（Recall）是指所有真正例被正確識別出來的比率。精確率（Precision）是指被正確識別出來的真正例占所有被識別為真正例的樣本數目的比率。可信度（credibility）是指被識別為負例的樣本中，實際的負例樣本所占比例。

可信度是基于本文研究的實際問題——信用卡逾期預測，提出的一個模型評價指標。可信度值越大，說明該模型識別出來的“未逾期”客戶更可靠。

2 數據獲取與預處理

本文的數據來自Default of Credit Card Clients Dataset[4]，數據集共有30 000 條數據，包含了持卡人的個人信息以及從2005 年4 月到2005 年9 月的信用卡信息，其中被解釋變量是客戶違約的狀態，解釋變量是客戶的個人特征以及行為特征。

信用卡數據集中含有大量的分類數據，例如歷史逾期信息等。若直接將這些分類數據作為模型輸入，會導致模型無法理解或產生偏好。因此，本文首先對分類數據采用獨熱編碼處理，這樣可以提高模型性能，獨熱編碼后的特征可以保留原始分類信息，同時在模型訓練中不會給予不同取值之間的誤導，還能夠避免出現負數和相對大小等比較難處理的問題。其次，因為各個特征的量綱不一致，本文對所有樣本數據進行標準化處理。最后，考慮到信用卡數據集實際逾期客戶人群的占比較少，導致了樣本不平衡的問題。樣本不平衡會導致模型過擬合、準確率誤導、少數類別分類效果差等。因此，為了解決樣本不平衡問題，采用了SMOTE 采樣方法平衡處理，改善模型的性能。

3 模型構建與評估

3.1 基于PR 曲線的隨機森林模型構建

在實際應用中，銀行不但希望模型整體預測的準確率保持在一定的水平，更要盡可能降低實際逾期的客戶被預測為未逾期的比例，以使貸款銀行遭受的損失最小。基于這樣的現實問題，本文致力于構建一種機器學習模型，使可信度credibility 和召回率recall 值都較高。首先采用十折交叉驗證對邏輯回歸、樸素貝葉斯、隨機森林、XGBoost、決策樹模型進行交叉驗證，結果見圖1。圖1 的橫坐標依次為邏輯回歸，樸素貝葉斯，隨機森林，XGBoost，決策樹模型，縱坐標為AUC值。隨機森林模型的AUC 值最高，說明隨機森林模型的分類表現最好。

圖1 各模型交叉驗證結果

數據集中特征的重要性往往是參差不齊的，構建一個好的隨機森林分類，需要選擇合適數量且對目標變量解釋性強的特征進入分類器訓練中。通過計算基尼純度或信息增益的減少量可以對特征進行重要性評估，容易得到X6（最近一個月的逾期狀態）在重要程度上遠高于其他特征，其次仍然是前幾個月的信用卡特征，而對于客戶的性別年齡受教育程度和婚姻狀況其實對下個月是否逾期并沒有顯著的影響關系。評估完各個特征的重要性后，還需確定入選多少個特征最好，選擇的依據是以AP 值（PR 曲線下的面積）。選擇重要性排在前十的特征（見表2）進入隨機森林模型中，且利用網格搜索法尋找出最優超參數訓練得到分類結果，模型的最佳得分為0.839。

表2 特征重要性程度排名

為了盡可能降低實際逾期標簽被分類為未逾期的比例，在模型評估中使用PR 曲線。并利用F2得分來衡量模型優劣。根據PR 曲線上使得F2得分最大的對應點，可計算得最佳閾值為0.182。

根據以上分析，得到基于PR 曲線改進的隨機森林模型算法如下。

基于PR 曲線的隨機森林分類算法。1:對于每個隨機森林分類器i,進行如下操作:(a) 從訓練數據集D 中隨機有放回地抽取n 個樣本,構成新的訓練數據集 D ；輸出:預測結果P p p p={ , ,..., }(b) 使用 D 訓練一棵深度為D 的決策樹 T 。2:對于每個測試樣本 z ,進行如下操作:(a) 對于每個隨機森林分類器i,計算出 T 對于 z 的預測輸出 y y = +1 ;1 exp( ( ))f x(b) 計算所有N 棵決策樹的預測結果 y 的平均值 y_ avg Σ y=y avg N_.3:根據所有測試樣本的 y_ avg 值和每一個給定的概率閾值t,計算預測結果的精確率和召回率TP t TP t precision t recall t TP t FP t TP t FN t( ) ( )( ) , ( ).( ) ( ) ( ) ( )=+4:將每個概率閾值t 對應的精確率和召回率組成一條PR 曲線,在PR 曲線上選擇最佳閾值(best_ threshold ),使得該閾值對應的PR 曲線點具有最大的 F 值。+=5? ?= ? +precision recall F precision recall 4.5:對于每個測試樣本 z ,進行如下操作:(a) 對于每個隨機森林分類器i,計算出 T 對于 z 的預測輸出 y ；(b) 計算所有N 棵決策樹的預測結果 y 的平均值 y_ avg；>,則預測結果為正例,否則為負例。6:輸出預測結果P。(c) 如果 _ _y avg best threshold

3.2 實驗結果比較

利用Default of Credit Card Clients Dataset 的數據，按4:1 的比例劃分為訓練集和測試集，其中訓練數據包含24 000 個樣本，測試數據包含6 000 個樣本。使用本文提出的基于PR 曲線的隨機森林模型與邏輯回歸，樸素貝葉斯，決策樹，隨機森林，XGBoost 模型的預測效果進行比較實驗。結果見表3。

表3 各模型預測效果對比

其中前五種模型為基于ROC 曲線評價體系的傳統模型，從模型預測準確率（accuracy）和AUC 值來看決策樹、隨機森林和XGBoost 模型表現都比較好，其次是邏輯回歸，樸素貝葉斯的準確率相對較低，但注意到樸素貝葉斯分類器可信度（credibility）這一指標相較于另外四種模型略微有些優勢，而邏輯回歸模型的可信度最低。

考慮到信貸機構把實際逾期的客戶錯標為未逾期，帶來的經濟損失更嚴重。因此，從獲取商業利益最大化這一實際角度出發，信用卡逾期預測模型的評價體系中最重要的兩個指標應當是召回率（recall）和可信度（credibility），而模型的準確率次之。本文提出的基于PR 曲線的隨機森林模型可信度（0.918）和召回率（0.854）有顯著的優勢，這兩個主要指標較高意味著信貸機構以最大程度減少了錯誤分類的損失，因此我們的模型更符合信貸機構的商業利益，有更高的實際應用價值。

4 結論

本文研究的基于機器學習的信用卡逾期預測，實際上是一個二分類問題，以客戶的信用卡記錄數據為模型的輸入指標，根據預期違約概率確定模型的輸出指標0 或1（0 表示未違約，1 表示違約）。將輸入指標體系和輸出指標的樣本值輸入五種傳統的機器學習方法和本文提出的方法，進行綜合比較分析。結果表明：

（1）在五種傳統的機器學習方法中，隨機森林和XGBoost 模型具有相對較好的逾期預測性能，可以更好地刻畫輸入指標體系的數據特征，利用十折交叉驗證表明隨機森林模型具有較好的外推性，所以預測模型的構建選用隨機森林更合適。

（2）利用基尼純度或信息增益的減少量對特征進行重要性評估，信用卡客戶逾期行為影響較大的10個重要因素是前三個月的逾期狀況和賬單支付金額以及信貸額度，通過實驗比較，選擇這十個重要特征用于隨機森林模型訓練時PR 曲線的AP 值最大。

（3）從信用卡逾期預測這一實際問題的特殊性考慮，銀行希望預測為未逾期客戶的準確率要高，本文用可信度來衡量這一指標。本文提出的基于PR 曲線的隨機森林模型的可信度（0.918）和召回率（0.854）相較于傳統機器學習模型具有顯著的優勢，更符合信貸機構的商業利益，相對于五個傳統的機器學習模型有更高的應用價值。