999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

機器學習視角下 商業銀行客戶信用風險評估研究

2022-02-28 22:34:13顧洲一胡麗娟
金融發展研究 2022年1期
關鍵詞:機器學習

顧洲一 胡麗娟

摘? ?要:有效把控信貸風險是商業銀行穩健運行的關鍵環節。本文從商業銀行客戶信貸數據出發,運用非平衡樣本處理算法使少數類樣本信息得到平衡,并通過機器學習分類器挖掘影響客戶違約的重要風險因子,最后構建Logistic模型計算違約概率。研究發現:第一,客戶忠誠度是重要因子,忠誠度越高,客戶違約概率越低;第二,客戶歷史信貸數據價值高,是事前風險控制中的重要參考依據;第三,信貸合同特征是影響客戶違約的另一重要維度,包括合同期限和合同利率。研究結論可以為銀行授信、風險預警和防范違約風險提供理論參考和實踐指導。

關鍵詞:信貸風險;非平衡處理;機器學習;Logistic模型

中圖分類號:F830.5? ?文獻標識碼:B? 文章編號:1674-2265(2022)01-0079-06

DOI:10.19647/j.cnki.37-1462/f.2022.01.010

一、引言

隨著全球經濟一體化步伐加快以及區塊鏈、人工智能等信息技術的快速發展,經濟金融環境日益復雜多變,金融衍生品種類日益增多,金融機構面臨著更多的風險挑戰。銀行業作為金融業的重要組成部分,在我國經濟和社會發展過程中不僅承擔著吸收存款、發放貸款等基本職責,還要發揮正確引導貨幣流向、提高資金使用效率以及調節社會資金需求量等作用,成為國民經濟發展中的關鍵因素。因此,銀行體系的平穩運行是一國經濟穩定發展的有力保障。

《巴塞爾新資本協議》將商業銀行面臨的風險分為8大類,例如市場風險、流動性風險、信用風險和操作風險等,其中信用風險是最為主要的風險之一。傳統觀點認為商業銀行信用風險來自信貸業務所引起的違約風險,但是伴隨著金融產品迭代創新以及風險環境日益變化,現代意義上的商業銀行信用風險范疇已有所改變,還包括由于債務人信用狀況和履約能力變化導致商業銀行資產價值變動進而遭受損失的風險。

近年來,我國經濟下行壓力加大,作為金融體系核心的商業銀行面臨的信用風險也在逐漸擴大。截至2020年末,國內銀行業不良貸款余額已達3.5萬億元,不良貸款率為1.92%,不良貸款余額較上年末增加2816億元,不良貸款率較上年末下降0.06個百分點。科學客觀地評估銀行業信用風險對商業銀行管理以及實體經濟發展有著舉足輕重的作用。

傳統商業銀行信用風險評估主要依靠商業銀行從業人員的主觀經驗判斷,即通過線下收集客戶年齡、職業、歷史違約記錄等個人信息進行人為風險把控,但是這類方式往往存在效率低、準確率難以保障等缺點。近年來,隨著數據量的爆發式增長,傳統人為風控制度已無法滿足當下銀行業信貸業務發展需要,利用大數據技術實現風控成為新的趨勢。其核心思想是基于海量銀行客戶行為數據,利用大數據技術挖掘數據背后的價值,實現信用風險評估。因此,在大數據風控體系下如何借鑒已有成熟的信息技術,并依托商業銀行現有的海量客戶數據,實現精準風險預測,是值得進一步深入研究的問題。

二、文獻綜述

(一)關于商業銀行信用風險影響因子研究

商業銀行信用風險影響因子的研究分為宏觀因素和微觀因素。宏觀上,Salas和Saurina(2002)[1]研究發現,宏觀經濟政策變動會對商業銀行客戶的不良貸款率產生影響。謝太峰等(2020)[2]從總資產規模、通貨膨脹率、GDP增長率等方面來分析它們對商業銀行信用風險所產生的影響。微觀上,Copestake(2007)[3]指出客戶的年齡、性別等基本特征最終會影響到用戶的信用記錄。吳金旺和顧洲一(2018)[4]利用隨機森林方法篩選出5個重要的因子,均與用戶歷史信貸信息有關。

(二)關于商業銀行客戶信用風險預警模型研究

商業銀行客戶信用風險預警模型的研究大致可分為三個階段。第一階段是經驗判斷時期,以指標體系為構建基礎,通過行業專家對客戶進行信用風險評分實現預警效果。Sowers和David(1942)[5]最早構建個人信用風險評價指標,利用經驗判斷和專家打分,對個人風險級別作出判斷。之后,“5C”“5W”以及“5P”等要素分析法被廣泛應用于個人信用風險評價研究,但是這些方法主要以定性為主,主觀因素較強。第二階段為計量分析時期,開始應用計量分析模型解決個人信用風險問題。線性回歸模型是最早被應用于個人信用風險評估的模型之一,Orgler(1970)[6]從借款人個人信息維度選取解釋變量,通過構建線性回歸模型來對借款人的信用風險進行評估。Wiginton(1980)[7]最早在線性回歸的基礎上引入Logistic模型進行實證分析。李萌(2005)[8]以不良貸款率作為信用風險衡量標準,構建Logistic模型,進而證明Logistic模型具有可信的識別、預測及推廣能力。方匡南等(2014)[9]將Lasso和Logistic模型相結合,構建個人信用風險評估模型,顯著提升了基礎模型的估計精度。另外,還有學者將判別分析、主成分分析等統計方法應用于客戶信用風險研究。第三階段為人工智能時期,以人工神經網絡、支持向量機、隨機森林等應用最為廣泛。Bekht和Eletter(2014)[10]采用人工神經網絡方法為約旦商業銀行貸款決策提供技術支持,并證實該方法能夠有效改善信貸決策效率,幫助金融機構降低評估成本。姚瀟和余樂安(2012)[11]將模糊隸屬度引入支持向量機,顯著提高了信用風險分類精度。Cano(2017)[12]利用隨機森林算法對不同數據集作特征選擇,并用其選出的重要因子進行風險預測,結果顯示隨機森林方法較人工神經網絡和支持向量機更有優勢。吳金旺和顧洲一(2018)[4]利用隨機森林算法對平衡后的數據集做重要變量篩選,并利用Logistic模型作預測,預測效果顯著。方匡南等(2010)[13]將改進后的非參數隨機森林算法用于信用卡違約風險識別,并發現該算法比支持向量機、單一決策樹以及Logistic回歸有更高的準確率。周永圣等(2020)[14]利用改進的隨機森林算法應用于德國信用數據集,驗證了隨機森林類模型的可行性和優越性。

綜上,隨著移動互聯網的快速發展,數據呈現爆發式增長,微觀視角的用戶數據呈現標簽多、類型復雜且價值高等特征。而受人工智能、機器學習等信息技術影響,信用風險預警方法存在較大的拓展空間。本文從商業銀行客戶數據出發,運用非平衡樣本處理算法使少數類樣本信息得到平衡,并通過多種機器學習分類器挖掘影響客戶違約的重要風險因子來提升模型預測效果,最后構建Logistic模型計算違約概率。根據模型研究結論,完善信用風險評估機制,為銀行授信、風險預警和防范違約風險提供理論參考和實踐指導。

三、數據來源及分析

(一)數據來源及變量介紹

客戶樣本數據集來源于國內某商業銀行A,共計15000份,剔除無效客戶數據,最終得到有效數據集14073份。數據集包括客戶年齡、服務年數、貴賓卡客戶、網銀客戶等20個變量。其中,[X1,X2,…,X19]為解釋變量,即客戶特征信息;[Y]為被解釋變量,即客戶最終是否違約的情況。具體見表1。

(二)相關分析

計算發現,各變量之間相關關系并不顯著。同時,由于篇幅限制,本文選擇個別變量作相關關系矩陣熱力圖(見圖1)。圖1中解釋變量與被解釋變量的相關性很低,相關系數絕對值最大不超過7%,間接說明傳統模型的建模效果可能欠佳。解釋變量之間的弱相關也表明不存在顯著的共線性問題。

四、商業銀行客戶信用風險評估研究

(一)非平衡樣本處理

本文共收集有效樣本數據14073份。其中,違約客戶數目為200個,僅占客戶數據的1.42%;而未違約客戶數目有13873個,占總樣本數據98.58%。顯然,兩者之間的比例存在較大差異,屬于非平衡數據集。在傳統處理數據的方法中,大多數方法都會更傾向于數據量較大的那一部分,從而忽略了數據量較少的部分,最終導致整體方法性能下降。因此,在對訓練集生成分類器之前,需要做非平衡數據處理。

過采樣(Over-sampling)是在不損失原有信息情況下,對少數類樣本集中進行隨機抽樣復制,讓整體樣本比例保持平衡的方法。欠采樣(Under-sampling)是通過隨機概率刪除多數類樣本,以達到兩類數據集比例平衡的目的。人工合成(SMOTE)方法的基本思想是通過在少數類樣本與其鄰近樣本間插入新樣本以平衡原數據集。表2分別展示了過采樣、欠采樣、過采樣與欠采樣混合以及人工合成這4種方法對訓練集進行了非平衡數據處理生成的結果,其中訓練集數據是在原有數據集中進行簡單隨機抽樣產生的,抽樣比例為原數據集的75%。

(二)性能分析

在數據挖掘技術中,分類模型(Classifier)的種類眾多,可以將其分為單一方法和組合方法。單一分類方法主要包括:K-近鄰、決策樹、神經網絡以及支持向量機等;而組合分類方法有Bagging和Boosting。本文將從這兩大類方法中選取6種分類算法,以客戶是否違約作為二分類響應變量,根據表2中四種不同非平衡數據處理方法生成的4個數據集,分別使用CART、C4.5、隨機森林、SVM、Adaboost和Bagging模型,并以敏感度、特異度、正負例命中率、準確率、AUC曲線等6種指標作為調節參數,以此來評價不同算法下的分類器性能。

基于同種非平衡數據處理方法,不同分類器得出的指標并不相同,具體見表3。隨機森林的各項指標是分類器中整體表現最好的,Adaboost次之,而CART分類效果相對較差。計算發現,幾乎每個分類器的負例命中率均等于或接近于1,說明不同分類器對于未違約的識別準確率較高,而與其對應的正例命中率差異較大,其他指標也出現了不同程度的差異。基于同一個分類器模型,不同的非平衡樣本處理方式也會造成分類表現的不同。欠采樣這一方法對于該數據集呈現的效果十分弱,正例命中率較低,過采樣與欠采樣混合的方法也隨之受影響,部分分類器效果不算明顯。而過采樣和人工合成兩種方法的敏感度、特異度、準確率等指標都較高,正例命中率在大部分分類器中也有較高的分數,說明這兩種方法在處理非平衡數據時起到了較好的作用,適合本數據集。

綜上所述,隨機森林分類算法在過采樣、過采樣與欠采樣混合、人工合成處理后評價指標差異不大,相對于其他分類器具有較大優勢,敏感度、特異度、負例命中率、準確率達到了100%,正例命中率均達到了90%以上,由此證明了該模型具有優秀的性能。而CART、SVM這兩類模型與隨機森林相比性能相對較弱且不穩定。C4.5、Adaboost和Bagging的整體評價相較于CART和SVM相對較好,在幾類評價指標中展現了模型性能的優勢。因此,基于此,本文對隨機森林、C4.5、Adaboost和Bagging四類分類器進行詳細比較。

在過采樣中,隨機森林、Adaboost和Bagging除正例命中率不同之外,其余指標均相同,且隨機森林的正例命中率是三者中最高的;在過采樣與欠采樣混合方法中,隨機森林的正例命中率遠遠大于另外兩種模型,其他指標也有較小優勢;在人工合成算法中,評價指標效果與混合采樣類似,隨機森林的正例命中率大于另外兩種模型,負例命中率相同,其他指標也是隨機森林較為領先。

由前文分析可知,隨機森林算法在處理樣本數據集時性能相較于其他分類算法是最佳的。因此,本文在隨機森林算法的前提下對欠采樣、過采樣與欠采樣混合、人工合成三種方法的ROC曲線和AUC值做進一步比較。ROC曲線越靠近左上角、AUC值越高說明該模型的分類性能越好。結合圖2可知,在訓練集三種數據處理方式得到的AUC值分別為0.999、0.999、0.983,差距甚微,其ROC曲線也都十分靠近左上角并無太大差別。本文用同樣的方法測試集進行了運算,得到的AUC值分別為0.518、0.518、0.648。相對于前兩種方法,人工合成算法的ROCA曲線較靠近左上角,AUC值也大于前兩種。因此,本文對于非平衡數據處理采用人工合成算法,分類算法采用隨機森林算法。

(三)重要節點分析

經過非平衡樣本處理后,隨機森林在所有分類器中表現出較優的性能,能顯著降低客戶違約的誤判率。因此,為了進一步探究影響客戶違約的重要因子,對表現性能較優的分類器節點進行重要度排序。表4為經過過采樣,過采樣與欠采樣混合、人工合成處理后,排名前10的重要性節點。通過比較發現,貸記卡額度占用率、貸款日前6個月存款日均金額、貸記卡最近6個月平均使用額度、貸款最近6個月平均應還款、我行服務年數、合同期限以及合同利率為三種平衡處理后的共性重要因子。

(四)個人信貸風險評估的Logistic模型

基于上一節重要因子結果,將7個重要因子作為解釋變量,客戶違約情況作為被解釋變量,構建二分類Logistic模型,并采用逐步回歸法對模型進行優化。顯然,自變量系數均在5%顯著性水平上通過檢驗,一定程度上說明逐步回歸后的6個重要變量對模型有一定解釋能力。

由表5可得Logistic模型為:

[LnP1-P=-2.88-0.16X2-0.57X9+0.05X11-0.07X12+0.92X14+0.06X18]

其中P表示為客戶違約的概率。

研究發現:第一,客戶在A行服務年數越高,則其發生違約的概率就越低。第二,客戶貸款日前6個月存款日均金額越高,則該客戶發生違約概率越低。顯然,客戶在貸款日前6個月存款日均金額越高,說明客戶具有一定的經濟基礎和抗風險能力,能夠有效降低信用風險發生率。第三,客戶與銀行簽訂的貸款合同利率越高,則其發生違約概率就越高,這可能由于現實生活中大量貸款客戶所選擇的貸款利率超出其自身承載能力,一旦資金方面出現問題,那么償還的壓力就會變大,最終導致違約事件發生。第四,通常情況下,一個較長的還款時間可能會降低用戶在短期內的貸款壓力。客戶合同期限越長,則其發生違約概率就越低。第五,客戶貸記卡最近6個月平均使用額度越高,則其發生違約的概率就越高。客戶名下貸記卡近6個月平均使用額度如果過高,或者與普通群體的均值有著顯著差別,那么說明這個客戶的開支具有不合理性,此時該客戶的資金風險也在加劇,一旦某一個資金環節出現問題,則會導致違約現象的出現。第六,客戶貸款最近6個月平均應還款越高,則其發生違約概率越高。客戶貸款最近6個月平均應還款增加,客戶還款壓力就會變大,發生違約情況的概率隨之也會增加。

五、結論與建議

本研究主要工作是基于國內A商業銀行客戶信貸數據,利用非平衡樣本處理算法,并借助機器學習技術分析影響客戶違約的重要因子,最后構建Logistic模型計算客戶違約概率。本文的主要貢獻在于填補了當前機器學習視角下信用風險評估研究的不足,拓展了關于銀行授信、風控等領域的理論研究。

研究發現:(1)借款人年齡、借款人業務類型(貴賓客戶、網銀客戶以及理財客戶)等客戶基本信息并不是客戶違約過程中的關鍵因素。但是,客戶基本信息中的忠誠度(A行服務年數)占據主導地位。模型結果表明,客戶在A行的服務年數越高,即客戶忠誠度越高,則客戶違約的概率越低。因此,加強客戶忠誠度管理,提高客戶留存率及留存時間,有益于優化風控機制。(2)客戶歷史信貸數據是相關銀行從業人員做好事前風險把控的重要參考依據。貸款日前6個月存款日均金額、貸記卡最近6個月平均使用額度以及貸款最近6個月平均應還款是該維度下利用機器學習方法篩選出的重要因子,能在某種程度下反映出客戶過往的經濟能力和償貸能力。(3)信貸合同特征是影響客戶違約的另一大類因素,主要包含合同期限和合同利率。研究表明,合同期限與違約率呈負相關,合同利率與違約率呈正相關。因此,基于客戶基礎信息和歷史信貸數據,實行合同期限和合同利率最優動態管理機制,能夠有效降低客戶違約風險。

針對以上研究結論,本文給出以下幾點建議:

第一,在商業銀行與客戶之間建立起一種相互信任、相互依賴的“質量價值鏈”。通過提升商業銀行產品、服務等質量價值,構建商業銀行客戶文化運營與管理機制,從而有效提高客戶忠誠度,實現信用風險事前防范。

第二,通過數倉搭建與數據治理,有效發揮客戶大數據的價值。通過銀行、政府、企業等多方數據融合,打造互聯互通的數據生態,從而有效豐富客戶特征指標,并利用機器學習、區塊鏈等新興信息技術,挖掘數據價值,實現精準風險評級。

第三,雙視域下科學客觀地設置信貸合同,構建商業銀行客戶分層管理機制。宏觀視角下,以國內及全球宏觀經濟發展大環境為基礎,綜合考慮宏觀經濟因素,基于理論模型,科學計算客戶合同期限、合同利率等理論值;微觀視角下,優化客戶風險因子,實現客戶動態分層管理,從而降低客戶信用風險的發生率以及風險值。

第四,加強自我信用意識,筑牢道德基礎。通過加強信用教育,積極倡導誠信行為,為進一步完善社會信用體系建設奠定基礎,為實現客戶自我約束提供價值觀保障。

參考文獻:

[1]Salas V,Saurina J. 2002. Credit Risk in Two Institutional Regimes:Spanish Commercial and Savings Banks [J]. Journal of Financial Services Research,22(3).

[2]謝太峰,王蘊鑫,徐子麒.我國城市商業銀行信用風險影響因素的實證研究 [J].征信,2020,38(6).

[3]Copestake J. 2007. Mainstreaming Microfinance:Social Performance Management or Mission Drift? [J].World Development,35(10).

[4]吳金旺, 顧洲一. 基于非平衡樣本的商業銀行客戶信用風險評估——以A銀行為例 [J].金融理論與實踐,2018,(7).

[5]Sowers D C,David D. 1942. Risk Elements in Consumer Instalment Financing [J].Journal of Marketing,6(4).

[6]YE Orgler. 1970. A Credit Scoring Model for Commercial Loans [J].Journal of Money Credit & Banking,2(04).

[7]John C Wiginton. 1980. A Note on the Comparison of Logit and Discriminant Models of Consumer Credit Behavior [J].Journal of Financial and Quantitative Analysis,15(3).

[8]李萌. Logit模型在商業銀行信用風險評估中的應用研究 [J].管理科學,2005,(2).

[9]方匡南,章貴軍,張惠穎.基于Lasso-logistic模型的個人信用風險預警方法 [J].數量經濟技術經濟研究, 2014,(2).

[10]Hussain Ali Bekhet,Shorouq Fathi Kamel Eletter.? 2014. Credit Risk Assessment Model for Jordanian Commercial Banks:Neural Scoring Approach [J].Review of Development Finance,4(1).

[11]姚瀟,余樂安.模糊近似支持向量機模型及其在信用風險評估中的應用 [J].系統工程理論與實踐,2012,32(3).

[12]Gaspar Cano,Jose Garcia-Rodriguez,Alberto Garcia-Garcia,Horacio Perez-Sanchez,Jón Atli,Benediktssonc,Anil Thapad,Alastair Barre. 2017. Automatic Selection of Molecular Descriptors Using Random Forest:Application to Drug Discovery [J].Expert Systems With Applications,72 .

[13]方匡南,吳見彬,朱建平,謝邦昌.信貸信息不對稱下的信用卡信用風險研究 [J].經濟研究,2010,45(S1).

[14]周永圣,崔佳麗,周琳云,孫紅霞,劉淑芹.基于改進的隨機森林模型的個人信用風險評估研究 [J].征信,2020,38(1).

Research on Customer Credit Risk Assessment of Commercial Banks from the Perspective of Machine Learning

Gu Zhouyi/Hu Lijuan

(Zhejiang Financial College,Hangzhou? ?310018,Zhejiang,China)

Abstract:Effectively controlling credit risk is the key link for the steady operation of commercial banks. Based on the customers' credit data of commercial banks,this paper uses an unbalanced sample processing algorithm to balance the information of minority samples,and mines the key risk factors affecting customer default by a machine-learning classifier. Finally,a Logistic Model is constructed to calculate the default probability. It is found that: firstly,customer loyalty is an important fundamental factor; the higher the loyalty,the lower the chance of customer default;secondly,high value of historical customer credit data,which is an important reference basis in ex ante risk control;thirdly,credit contract characteristics are another important dimension affecting customer default,including contract duration and contract interest rate. The findings of the study can provide theoretical references and practical guidance for bank credit granting,risk warning and default risk prevention.

Key Words:credit risk,unbalanced processing,machine learning,Logistic Model

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 99久久精品免费看国产电影| 91美女视频在线观看| 99久久精品视香蕉蕉| 91麻豆精品视频| 欧美在线视频不卡第一页| 亚洲免费毛片| 最近最新中文字幕在线第一页 | m男亚洲一区中文字幕| 精品三级网站| 国产一级在线观看www色| 中文成人无码国产亚洲| 国产乱子伦手机在线| 欧美亚洲国产视频| 国产三级毛片| 福利片91| 亚洲精品无码久久毛片波多野吉| 久久精品午夜视频| 国产亚洲美日韩AV中文字幕无码成人| 四虎永久免费在线| 91福利免费| 亚洲69视频| 国产精品理论片| 激情六月丁香婷婷四房播| 最新国产精品第1页| 亚洲精品麻豆| 欧美日韩导航| 国产不卡一级毛片视频| 国产第二十一页| 国产美女丝袜高潮| 日韩精品一区二区深田咏美| 亚洲色图狠狠干| 国产欧美精品专区一区二区| 91精品国产91欠久久久久| 日本亚洲欧美在线| 不卡国产视频第一页| 精品自拍视频在线观看| 尤物特级无码毛片免费| 亚洲成A人V欧美综合天堂| 亚洲欧美综合精品久久成人网| 欧美亚洲国产日韩电影在线| 三区在线视频| 五月婷婷精品| 一级成人a毛片免费播放| 国产区网址| 中文字幕有乳无码| 国产高清又黄又嫩的免费视频网站| 在线国产91| 亚洲水蜜桃久久综合网站 | 欧美成a人片在线观看| 99久久精品国产精品亚洲| 性做久久久久久久免费看| 国产真实乱子伦视频播放| 日本不卡在线视频| 成人精品亚洲| 特级毛片8级毛片免费观看| 亚洲一区国色天香| 亚洲av无码久久无遮挡| 国产青榴视频| 国内精品视频区在线2021| 无码日韩精品91超碰| 9999在线视频| 久久无码av三级| 国产精品hd在线播放| 一级成人欧美一区在线观看 | 亚洲色图欧美| 国产欧美亚洲精品第3页在线| 国产一级α片| 成人欧美在线观看| 美女内射视频WWW网站午夜 | 欧美色视频日本| 国产乱人伦偷精品视频AAA| 免费国产在线精品一区| 女人18毛片一级毛片在线 | 国产在线第二页| 91成人在线免费视频| 午夜影院a级片| 国产亚洲成AⅤ人片在线观看| 欧美国产日韩另类| 日本AⅤ精品一区二区三区日| 色综合日本| 久久精品女人天堂aaa| 波多野结衣亚洲一区|