999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的信用卡逾期預測研究

2024-03-16 10:11:06盧榮偉黃嫦娥謝久暉
科學技術創新 2024年6期
關鍵詞:分類特征模型

盧榮偉,黃嫦娥*,謝久暉*

(桂林電子科技大學 數學與計算科學學院,廣西 桂林)

引言

隨著互聯網和移動支付的快速發展,信用卡已經成為了人們日常生活中必不可少的支付手段之一。準確預測逾期風險可以幫助銀行更好地管控風險,減少損失。客戶的信用卡信息和個人消費數據往往與其違約行為有著某種聯系。借助機器學習方法來學習這種“聯系”,從而對大規模客戶進行信用評價是可行的。已有的研究表明,機器學習算法在信用卡逾期預測問題上具有更高的效率和準確性。R Singh1.1.1[1]在信用評分問題中,對傳統的統計和現代數據挖掘、機器學習工具進行了評估,其對比了線性判別分析、支持向量機核密度估計、邏輯回歸、遺傳算法、鄰近算法等技術,結果表明,支持向量機和遺傳算法在分類信用卡申請人誤判率上較其他技術優越。然而,已有的研究中,很少基于本文針對傳統機器學習模型預測為“未逾期”客戶的可信度不高問題,對傳統的機器學習模型進行改進,降低將“逾期”客戶預測成“未逾期”客戶的概率,使得模型預測結果有較高的可信度,從而為銀行實現信用卡精準銷售,優化客戶資源,降低信用違約風險的目的。

1 預備知識

1.1 ROC 曲線與PR 曲線

ROC(Receiver Operating Characteristic)曲線是描述二元分類器在不同閾值下的表現的曲線。PR(Precision-Recall)曲線是彌補了ROC 曲線在處理不平衡數據時出現缺陷而誕生的一種評估指標。橫軸表示召回率(recall),縱軸表示精確率(precision) 。PR 曲線顯示了在不同閾值下,精確率和召回率之間的折中關系。曲線上每個點代表一個不同的閾值,需要根據實際需求來選擇合適的閾值。如果更加關注查準率,則應該選擇PR 曲線上靠較左側的點作為最佳閾值;如果更加關注查全率,則應該選擇PR 曲線上靠較右側的點作為最佳閾值[2]。

1.2 評價指標

混淆矩陣[3]是機器學習中用于評估分類模型性能的一種方法。它是一個二維數組,橫軸表示實際的類別,縱軸表示預測的類別,每個元素表示將實際類別預測為某個類別的樣本數目,見表1。

表1 混淆矩陣

根據混淆矩陣可以計算得到多個指標來評估分類模型性能,如準確率、召回率、精確率和可信度等。準確率(Accuracy)是指所有被正確分類的樣本占總樣本數的比例。召回率(Recall)是指所有真正例被正確識別出來的比率。精確率(Precision)是指被正確識別出來的真正例占所有被識別為真正例的樣本數目的比率。可信度(credibility)是指被識別為負例的樣本中,實際的負例樣本所占比例。

可信度是基于本文研究的實際問題——信用卡逾期預測,提出的一個模型評價指標。可信度值越大,說明該模型識別出來的“未逾期”客戶更可靠。

2 數據獲取與預處理

本文的數據來自Default of Credit Card Clients Dataset[4],數據集共有30 000 條數據,包含了持卡人的個人信息以及從2005 年4 月到2005 年9 月的信用卡信息,其中被解釋變量是客戶違約的狀態,解釋變量是客戶的個人特征以及行為特征。

信用卡數據集中含有大量的分類數據,例如歷史逾期信息等。若直接將這些分類數據作為模型輸入,會導致模型無法理解或產生偏好。因此,本文首先對分類數據采用獨熱編碼處理,這樣可以提高模型性能,獨熱編碼后的特征可以保留原始分類信息,同時在模型訓練中不會給予不同取值之間的誤導,還能夠避免出現負數和相對大小等比較難處理的問題。其次,因為各個特征的量綱不一致,本文對所有樣本數據進行標準化處理。最后,考慮到信用卡數據集實際逾期客戶人群的占比較少,導致了樣本不平衡的問題。樣本不平衡會導致模型過擬合、準確率誤導、少數類別分類效果差等。因此,為了解決樣本不平衡問題,采用了SMOTE 采樣方法平衡處理,改善模型的性能。

3 模型構建與評估

3.1 基于PR 曲線的隨機森林模型構建

在實際應用中,銀行不但希望模型整體預測的準確率保持在一定的水平,更要盡可能降低實際逾期的客戶被預測為未逾期的比例,以使貸款銀行遭受的損失最小。基于這樣的現實問題,本文致力于構建一種機器學習模型,使可信度credibility 和召回率recall 值都較高。首先采用十折交叉驗證對邏輯回歸、樸素貝葉斯、隨機森林、XGBoost、決策樹模型進行交叉驗證,結果見圖1。圖1 的橫坐標依次為邏輯回歸,樸素貝葉斯,隨機森林,XGBoost,決策樹模型,縱坐標為AUC值。隨機森林模型的AUC 值最高,說明隨機森林模型的分類表現最好。

圖1 各模型交叉驗證結果

數據集中特征的重要性往往是參差不齊的,構建一個好的隨機森林分類,需要選擇合適數量且對目標變量解釋性強的特征進入分類器訓練中。通過計算基尼純度或信息增益的減少量可以對特征進行重要性評估,容易得到X6(最近一個月的逾期狀態)在重要程度上遠高于其他特征,其次仍然是前幾個月的信用卡特征,而對于客戶的性別年齡受教育程度和婚姻狀況其實對下個月是否逾期并沒有顯著的影響關系。評估完各個特征的重要性后,還需確定入選多少個特征最好,選擇的依據是以AP 值(PR 曲線下的面積)。選擇重要性排在前十的特征(見表2)進入隨機森林模型中,且利用網格搜索法尋找出最優超參數訓練得到分類結果,模型的最佳得分為0.839。

表2 特征重要性程度排名

為了盡可能降低實際逾期標簽被分類為未逾期的比例,在模型評估中使用PR 曲線。并利用F2得分來衡量模型優劣。根據PR 曲線上使得F2得分最大的對應點,可計算得最佳閾值為0.182。

根據以上分析,得到基于PR 曲線改進的隨機森林模型算法如下。

基于PR 曲線的隨機森林分類算法。1:對于每個隨機森林分類器i,進行如下操作:(a) 從訓練數據集D 中隨機有放回地抽取n 個樣本,構成新的訓練數據集 D ;輸出:預測結果P p p p={ , ,..., }(b) 使用 D 訓練一棵深度為D 的決策樹 T 。2:對于每個測試樣本 z ,進行如下操作:(a) 對于每個隨機森林分類器i,計算出 T 對于 z 的預測輸出 y y = +1 ;1 exp( ( ))f x(b) 計算所有N 棵決策樹的預測結果 y 的平均值 y_ avg Σ y=y avg N_.3:根據所有測試樣本的 y_ avg 值和每一個給定的概率閾值t,計算預測結果的精確率和召回率TP t TP t precision t recall t TP t FP t TP t FN t( ) ( )( ) , ( ).( ) ( ) ( ) ( )=+4:將每個概率閾值t 對應的精確率和召回率組成一條PR 曲線,在PR 曲線上選擇最佳閾值(best_ threshold ),使得該閾值對應的PR 曲線點具有最大的 F 值。+=5? ?= ? +precision recall F precision recall 4.5:對于每個測試樣本 z ,進行如下操作:(a) 對于每個隨機森林分類器i,計算出 T 對于 z 的預測輸出 y ;(b) 計算所有N 棵決策樹的預測結果 y 的平均值 y_ avg;>,則預測結果為正例,否則為負例。6:輸出預測結果P。(c) 如果 _ _y avg best threshold

3.2 實驗結果比較

利用Default of Credit Card Clients Dataset 的數據,按4:1 的比例劃分為訓練集和測試集,其中訓練數據包含24 000 個樣本,測試數據包含6 000 個樣本。使用本文提出的基于PR 曲線的隨機森林模型與邏輯回歸,樸素貝葉斯,決策樹,隨機森林,XGBoost 模型的預測效果進行比較實驗。結果見表3。

表3 各模型預測效果對比

其中前五種模型為基于ROC 曲線評價體系的傳統模型,從模型預測準確率(accuracy)和AUC 值來看決策樹、隨機森林和XGBoost 模型表現都比較好,其次是邏輯回歸,樸素貝葉斯的準確率相對較低,但注意到樸素貝葉斯分類器可信度(credibility)這一指標相較于另外四種模型略微有些優勢,而邏輯回歸模型的可信度最低。

考慮到信貸機構把實際逾期的客戶錯標為未逾期,帶來的經濟損失更嚴重。因此,從獲取商業利益最大化這一實際角度出發,信用卡逾期預測模型的評價體系中最重要的兩個指標應當是召回率(recall)和可信度(credibility),而模型的準確率次之。本文提出的基于PR 曲線的隨機森林模型可信度(0.918)和召回率(0.854)有顯著的優勢,這兩個主要指標較高意味著信貸機構以最大程度減少了錯誤分類的損失,因此我們的模型更符合信貸機構的商業利益,有更高的實際應用價值。

4 結論

本文研究的基于機器學習的信用卡逾期預測,實際上是一個二分類問題,以客戶的信用卡記錄數據為模型的輸入指標,根據預期違約概率確定模型的輸出指標0 或1(0 表示未違約,1 表示違約)。將輸入指標體系和輸出指標的樣本值輸入五種傳統的機器學習方法和本文提出的方法,進行綜合比較分析。結果表明:

(1) 在五種傳統的機器學習方法中,隨機森林和XGBoost 模型具有相對較好的逾期預測性能,可以更好地刻畫輸入指標體系的數據特征,利用十折交叉驗證表明隨機森林模型具有較好的外推性,所以預測模型的構建選用隨機森林更合適。

(2) 利用基尼純度或信息增益的減少量對特征進行重要性評估,信用卡客戶逾期行為影響較大的10個重要因素是前三個月的逾期狀況和賬單支付金額以及信貸額度,通過實驗比較,選擇這十個重要特征用于隨機森林模型訓練時PR 曲線的AP 值最大。

(3) 從信用卡逾期預測這一實際問題的特殊性考慮,銀行希望預測為未逾期客戶的準確率要高,本文用可信度來衡量這一指標。本文提出的基于PR 曲線的隨機森林模型的可信度(0.918)和召回率(0.854)相較于傳統機器學習模型具有顯著的優勢,更符合信貸機構的商業利益,相對于五個傳統的機器學習模型有更高的應用價值。

猜你喜歡
分類特征模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 国产成人免费手机在线观看视频| 国产jizz| 亚洲香蕉久久| 丝袜亚洲综合| 精品久久久久成人码免费动漫| 伊人久久大线影院首页| 国产真实乱了在线播放| 国产第一页亚洲| 国产丝袜啪啪| 欧美一区二区精品久久久| 国产屁屁影院| 久久一本日韩精品中文字幕屁孩| 国产91小视频在线观看| 久99久热只有精品国产15| 婷婷六月综合| 久久久久亚洲AV成人网站软件| 日韩第八页| 亚洲精品福利视频| 亚洲综合一区国产精品| 亚洲天堂2014| 国产系列在线| 国产国语一级毛片在线视频| 亚洲AV无码久久天堂| 少妇高潮惨叫久久久久久| 999国产精品| 日韩在线网址| 亚洲日韩图片专区第1页| 国产九九精品视频| 国产微拍精品| 丰满人妻久久中文字幕| а∨天堂一区中文字幕| 国产超碰在线观看| 亚洲综合色区在线播放2019| 青青青草国产| 色噜噜狠狠色综合网图区| 亚洲成人在线免费观看| 毛片网站免费在线观看| 国产自在线拍| 无码国内精品人妻少妇蜜桃视频 | 亚洲一区二区日韩欧美gif| 国产亚洲欧美日韩在线一区二区三区| 免费看av在线网站网址| 波多野结衣一二三| 波多野结衣第一页| 色婷婷在线播放| 日本a级免费| 国产精品 欧美激情 在线播放| 欧美中文字幕一区| 香蕉eeww99国产在线观看| 精品1区2区3区| 精品少妇人妻无码久久| 亚洲制服丝袜第一页| 精品人妻无码区在线视频| 欧美日韩午夜| 欧美日韩中文国产| 日韩精品成人在线| 四虎影视库国产精品一区| 色哟哟国产精品一区二区| 中美日韩在线网免费毛片视频 | 制服无码网站| 91精品国产麻豆国产自产在线| 在线免费无码视频| 亚洲最大福利网站| 亚洲永久色| 久久夜夜视频| 日本AⅤ精品一区二区三区日| 多人乱p欧美在线观看| 国产免费看久久久| 色视频久久| 香蕉久久永久视频| 99热这里只有精品2| 91色老久久精品偷偷蜜臀| 国产精品久久精品| 欧类av怡春院| 国禁国产you女视频网站| 五月婷婷激情四射| 精品国产自在现线看久久| 毛片免费高清免费| 五月天在线网站| 久久无码av一区二区三区| 亚洲国产精品成人久久综合影院| 国产噜噜在线视频观看|