李常勝
摘要:過去個人信貸風險評估應用的主體是商業銀行,2014年以來隨著國家允許個人或團體從事放貸業務以來,非銀行借款機構如雨后春筍般的出現在人們的生活中,同時伴隨著互聯網的發展,互聯網金融公司如虎添翼不斷發展壯大,非銀行金融公司也越來越多,這些機構如潤滑劑一樣加速了我國的資金融通,一定程度上促進了我國經濟的發展。與此同時個人信用風險評估就成為這些機構必須解決的問題。傳統的信用評估方法如專家評分卡的評估方法主要依靠業內專家的經驗數據制定出評分規則,但這些方法不能相對精確量化風險水平,效果有限。而數學模型是根據客戶的歷史數據建模,可以用相對精確的度量客戶的風險水平,在數據質量較好的情況下數學模型對客戶的區分度下相對較高,可以更好得降低信貸機構的信貸風險。本文主要研究數學模型在信用風險中的應用及其優勢。
關鍵詞:信用評分;數學模型;組合模型
一、信用評分的背景
近年來隨著網絡小貸的發展,信用評估越來越受到重視,信用評估的質量的對這些公司不僅重要,是這些公司賴能否降低風險損失的關鍵,對申請貸款的客戶也很重要,以避免不該申請成功的客戶申請到了貸款后來無法還貸而陷入債務的泥潭無法脫身。對銀行而言他們可以要求客戶提資產證明同時要求客戶提供貸款抵押進再根據客戶在銀行留存的數據可以很好得控制信貸的風險,而對互聯網小貸公司而言他們往往提供的是小額現金貸,他們無法像銀行一樣要求客戶提供資產證明和更多的信息。因此相對銀行而言他們做信用評估較為困難。但近年來隨著計算機信息技術的發展以及越來越多的算法工具被開發及應用,數學模型在信用評估領域的應用越來越成熟,與此同時用于信用評估的數據公司在市場上的發展也為小額貸款線上評估提供了數據支持。這些條件的成熟都為數學模型在小額現金貸信用評分中的應用提供了條件。
二、信用評分的發展
(1)信用評分在國外的發展。1940年代末至1950年代初。美國有些銀行為了處理大量的信貸申請提高審批效率降低成本開始進行了一些有關信用評分方法的試驗。此后還出現了專業提供信用評分服務的公司Fair Isaac&Company,60年代,相繼出現了專門提供客戶信用分數和信用報告的信用管理局,比如美國著名的三大信用管理局(Experian,Equifaxand TransUnion)。過去10年中,全球信用評分市場蓬勃發展,出現了許多信用評分公司和信用管理局,極大地提高了銀行對用戶進性信用評估的準確性、有效性和一致性。
(2)信用評分在國內的發展。個人資信評估在國內發展較晚,上世紀80年代中后期,信用卡這一金融工具開始在我國沿海城市興起,使我國的個人信用評估工作逐步向規范化發展。而個人信用評分則出現在90年代末20世紀初的銀行,首先在個人住房信貸業務內實行,后逐步推廣到個人消費貸款中。2014以來國家允許個人或機構以合法的方式向社會提供貸款,小貸公司的業務對個人評分的需求,使得個人信用評分工作得以進一步發展。
三、傳統專家判別評分卡模型
商業銀行最初采用專家判別法評估貸款客戶的信用風險,常見的有3C分析法、5C分法、6C分析法[品德(Character)、能力(Capacity)、抵押擔保(Collateral)、個人條件(Condition)、資本(Capital)、經營連續性(Continuity)]。目前,我國商業銀行對借款客戶進行信用風險評估時,主要用到以下3種方法:
(1)主觀判斷法。例如傳統的5C分析法;
(2)簡單的量化評估法。既通過對客戶歷史資料的統計分析,對個人信用風險進行簡單量化實現對個人信貸風險的評估;
(3)擔保轉移。既由貸款申請人找人擔保或繳納保證金,緩釋個人信貸風險。
傳統的方法對近年來興起的小貸貸款而言不太適合,主要是這些用于個人信貸風險評估的客戶資料小貸公司很難獲取而且會加重小貸公司的經營成本。而今年來發展起來的統計及學方法和人工智能方法為互聯網小貸公司對客戶的信貸風險評估提供了便利。
四、統計學方法在信用評分中的應用
David D最早將統計思想引入信用評估領域,將貸款客戶總體按照特征不同分成若干組,根據特征的不同對貸款客戶的信用風險進行評估,以此判斷客戶的好壞。
(1)判別分析法
個人信貸風險的分析方法包括定性評估和定量分析,定性評估主要依靠信貸經理的知識、經驗和直覺對個人信貸業務進行評估,是一種非量化方法。個人信用評分法是典型的定量分析方法,目的是預測誰會違約,但不能解釋違約的原因。線性判別分析(Linear Discriminat Analysis,LDA)是的模式識別算法。該方法通過確定‘信用正常和‘信用異常兩類個人信貸客戶的幾何中心構建相應的線性判別函數,最小化錯分的可能性,實現對個人信貸客戶的分類。
(2)線性回歸法
一般線性回歸模型在做個人信用風險評估時可描述如下:假設個人信貸者的違約概率P與申請者的特征變量X1,X2,…,Xm之間存在以下的關系:
P=a0+a1X1+a2X2+一+amXm+b
其中b是擾動項,利用樣本數據對ai進行估計,進而估計出違約概率P。(3)Logistic回歸模型
Logistic回歸模型用于處理二分類問題,適用于解釋變量為定性指標的問題。一般情況下,Logistic回歸表現較好,穩定性高,并且解釋能力強,是信用評分領域普遍采用的算法。該方法主要是對客戶的歷史信息建模,通過對客戶的特征比變量和違約狀態建立Logistic回歸模型:
log(p/(1-P))=b0+b1X1+b2X2+…+bkXk
最后應用該模型對樣本發生違約的概率P進行預測,其中Xk是描述樣本特征的指標變量,p/(1-P)稱為違約“發生比”,最后經過log()函數轉換建立樣本的信用風險評估值與違約概率之間的對應關系。
(4)分類樹方法
該方法是基于統計理論的非參數識別技術的方法,其基本思想是將所有申請貸款的個人按樹型生成不同組別,由此判斷貸款申請個人是‘好還是‘壞客戶。
五、人工智能方法
20世紀90年代后,隨著計算機技術、網絡技術和數學統計理論的發展,神經網絡、SVM、Xgboost等現代算法得以有效的應用于智能評估領域并成為一種趨勢。
(1)神經網絡
神經網絡具有自適應性、自組織性以及較強的穩健性同時具有非線性映射能力,被證明是一種適用于個人信用風險評估的算法。由于個人信用風險因素之間相互影響、關聯。具有強非線性關系,而神經網絡具有較好的自組織、自適應性和魯棒性,因此神經網絡模型也被認為是一種精確度較高的算法模型。但同時神經網路存在穩定性較差、結構難確定、容易陷入局部極小、過度適應于數據、收斂速度慢、結果難解釋等缺點也限制了神經網絡在信用風險評估中的應用。
(2)SVM方法
支持向量機(SVM)是由Corinna Cortes和Vapnik等于1995年提出基于統訓理論發展而來。與神經網絡、LDA、k——近鄰判別法、回歸分析及決策樹等相比,SVM具有性能穩定、建模容易、運行時間短、不易過擬合等優點。由于SVM對樣本數據沒有嚴格的要求,SVM在信用評估領域得到了很好的應用,其基本思路如下:
尋找位于兩個支持向量面(對應‘好和‘壞樣本)之間的分界面,最大化兩個支持向量兩面之間的距離m=2/‖w‖或最小化權重w。進一步轉化為最小化h(w)=‖w‖2/2=(wTw)/2。最后通過構建拉格朗日方程求出分界面函數。
(3)XGBoost方法
XGBoost由陳天琪博士提出的boosting樹型算法,其特點就是能進行多線程并行計算,提高計算效率,并通過一次次迭代生成一代代新的樹,把分類性能較低的弱學習器組合成一個準確率高的強學習器,為了避免過擬合現象,XGBoost加入了正則項到目標函數尋求最優解,使目標函數的下降和模型的復雜度得到平衡。XGBoost應用于信用評估領域具有分類效果好、運行速度快、支持自定義損失函數等優點。通常情況下調優后的XGBoost模型的ROC、AUC值、F1值、KS值、Accuracy要比決策樹、SVM、GBDT等算法的高。
六、不同數學模型的在信用評分中的應用
在信貸行業里由于業務需求不同,不同的模型有不同的應用場景,也不完全看模型的分類效果。比如在銀行業或有些小貸公司在做信用風險訓牙占時要求解釋性,那么可用的模型的范圍就比較小,比如決策樹、邏輯回歸、線性回歸等。而在這些模型里邏輯回歸分類效果較好,理論基礎較好,能把客戶的違約概率與評估得分結果對應起來,有利于調控信貸政策,且在信用評分領域應用由來已久已經相當成熟。這里重點介紹下Logistic回歸中的分段轉換問題,銀行或其他金融機構要求具有強解釋性時往往會選擇Logistic回歸為基礎算法開發評分卡,Logistic回歸在構建評分卡模型時會把數據做離散化處理(對于連續性數值變量來說就是分段),是為了評分卜的簡潔性和可解釋性考慮,那么分段的不同會影響模型的分類效果,所以我們在把數值型變量做離散化處理的過程中對數據的合理的離散化是模型效果好壞的關鍵。
在不要求可解釋性的信用風險評估時,其他機器學習模型都可以作為備選對象,但在大學生申請助學貸款的場景中,由于學生不像已有工作的人群那樣有收入、住房、或其他資產。群體比較特殊,而傳統的神經網絡算法不支持小樣本。而SVM由于對樣本數據沒有嚴格的要求,因此,在大學生助學貸款申請的信用風險評估中取得了良好的效果。其他模型如XGBoost算法都可以作為參考算法,我們在選用模型時可以根據具體的數據和模型的特點選擇模型。再經過參數優化把不同的模型進過對比選擇分類效果比較好的模型。
有時金融機構要求在保持評分卡的可解釋性的同時要求把模型的性能提高,這時我們可以把機器學習模型跟傳統的Logistic回歸結合起來使用,如在變量挑選過程中我們可以用GBDT或XGBoost按變量的重要性挑選變量,用機器學習算法挑選的變量放到Logistic回歸中構建信用評分卡。而在構建模型中我們也可以通過串行或并行等不同的方式把機器學習算法跟Logistic回歸融合起來。在串行的評分卡構建時,其主要處理方法是把一個模型的處理結果傳給下一個模型,把不同的模型串行處理,如果其中一個模型出現問題,就會導致后面的模型出現問題,其穩定性比較差。因此在實際建模工作中也很少采用串行的方式。對于并行結構個模型也有不同的并行方式,比如在變量很多的情況下,可以把Logistic回歸沒挑選到的變量作為機器學習的變量做機器學習模型,然后把模型的結果作為一個新的變量放到Logistic回歸的變量中,重新訓練Logistic回歸模型,這樣模型可以保留大部分的變量解釋性和提高模型的分類效果。其他并行模式比如異態并行結構的組合模型。由于不同的算法的原理不同,通過選擇不同的算法進行并行組合是構建組合模型的另外一種思路。這種方法通過采用不同的算法構建多個單一模型,組成不同的及分類器,在接受分類時,先由不同的分類器得到各自的分類結果,再通過融合的方式將各分類器的結果進行處理,最后得到組合的分類結果,這樣做出的模型既可綜合及分類器的分類信息,又能考慮到不同基分類器在分類模式上的差異性。
參考文獻
[1]向暉.個人信用評分組合模型研究與應用[J].經濟科學出版社2012.12
[2]周宗放,帥理,周一懋.個人信用風險評估理論和方法[J].中國金融出版社,2015.12