謝霖銓 趙楠 徐浩



摘 要:個人信用風險評估是我國商業銀行信貸風險管理的重要內容。為了有效識別個人信用風險,規避由于借款者違約而給商業銀行經營帶來損失的風險,本文對個人信用風險評估的發展歷程以及信用風險研究的模型進行了總結。個人信用風險評估的模型存在一定的缺點,還須進一步完善研究方法,得到更精準的模型,降低風險問題的發生概率。
關鍵詞:信用評估;統計學方法;人工智能方法;信用指標體系;組合模型
中圖分類號:TP391 文獻標識碼:A 文章編號:1003-5168(2018)02-0011-04
Analysis on the Development of Personal Credit Risk Assessment Model
XIE Linquan ZHAO Nan XU Hao
(School of Science, Jiangxi University of Science and Technology, Ganzhou Jiangxi 341000)
Abstract: Personal credit risk assessment is an important content of our country commercial bank credit risk management, in order to effectively identify individual credit risk, avoid because borrowers default and bring the risk of loss to commercial banks, in this paper, the development of personal credit risk assessment and credit risk models of research were summarized. There are some shortcomings in the model of personal credit risk assessment, and we need to further improve the research method, get more accurate models and reduce the occurrence probability of risk problems.
Keywords: credit evaluation;statistical method;artificial intelligence method;credit index system;portfolio model
隨著我國經濟的快速發展,住房按揭、汽車貸款、商業貸款、教育貸款和信用卡消費等各種信用貸款的規模迅速擴大,信用消費也逐漸占據人們的生活。個人信貸作為銀行正常運行的主要資產業務,對銀行的未來發展具有較大影響。隨著金融業的快速發展,銀行信貸中的信用風險問題逐漸顯現出來,如何加強信用風險的防范變得尤為重要;貸款系統中客戶的資源信息增加,如何有效識別借貸者并預測其未來貸款償還的意愿,降低借貸者違約事件的發生概率,已經成為當前銀行業以及金融機構亟須解決的問題。
1 信用風險的內涵及研究現狀
1.1 信用風險的內涵
信用風險是指借貸者因信用違約而給放貸者造成損失的風險。從商業銀行的視角來看,信用風險源于信貸風險,是借貸或交易承諾、資金使用以及資金償還等各個環節所面臨風險與市場風險相結合的結果。
1.2 信用評估的研究現狀
自20世紀40年代以來,個人信用風險評估受到了專家學者的關注。個人信用評估的研究從早期的傳統方法、統計學方法逐步發展為人工智能方法。
1.2.1 統計學方法。David Durand[1]把特性劃分差異的方法運用在個人信用評估中,以區分貸款好壞。Orgler[2]把線性回歸方法運用到商業銀行個人信用風險評估中。Wiginton[3]最先把Logistic回歸應用于信用評估的中。Makowski[4],Carter和Catlett[5],Lee[6]把決策樹方法運用在信用風險評估中,且取得了滿意的成果。Chatterjee和Barcun[7]最先將最近鄰方法應用于個人信用風險評估中。Hand[8]用最近鄰方法和決策樹方法來識別貸款風險,結果顯示:最近鄰方法有更高的預測精度。Hsieh[9]的研究表明,貝葉斯網絡能直觀地表示屬性和概率之間的關系,具有較好的解釋性。
1.2.2 人工智能算法。20世紀90年代以后,人工智能算法成為個人信用風險評估研究的主要方法。Odom[10]最先把神經網絡的方法用于個人信用評估中。Fogarty和Ierson[11]最先將遺傳算法應用到個人信用評分中。而Michalewicz和Obas等[12]運用遺傳算法對個人信用風險評估進行了更進一步的探討。Baesens和Gestei[13]最早對信用評估使用支持向量機,結果表明:支持向量機明顯優于線性回歸和神經網絡方法。
1.2.3 組合方法。石慶焱[14]利用Logistic回歸和神經網絡對個人信用風險進行評估,組合模型具有更高的精度和穩定性,且對特征變量有較好的解釋性。姜明輝等[15]通過改進的PSO算法對SVM中的參數進行優化,提高了模型的分類精度,有效降低了第二類錯誤率。向暉等[16]將判別分析、決策樹等七種方法組合起來對信用進行評估,結果表明:組合模型能有效提高預測精度及穩定性。高尚等[17]將K-means和支持向量機結合起來,得到分類結果和具體的信用度,還有效提高了模型的預測精度。楊勝剛等[18]把決策樹BP神經網絡相結合,不僅增強了神經網絡的可解釋性,還提高了模型的預測精度和穩定性。林漢川[19]等提出將Logistic回歸和隨機森林組合起來運用到個人信用風險評估中。
2 信用評估指標體系分析
一般評估指標的識別能力采用以下3種方法。
2.1 T檢驗
T檢驗,判別評估指標數據在“信用正常”樣本和“信用異常”樣本中的均值是否相等,通過[P]值來判別評估指標的識別能力。
假設樣本數據近似服從正態分布,其統計量為:
[t=DSn] (1)
式(1)中,[D]為平均差,[S]為樣本方差。
對評估指標進行獨立樣本T檢驗,取置信水平[α]為0.05。若[P]值小于給定的[α],說明評估指標識別能力較強;反之,則識別能力弱。
2.2 Wald檢驗
Wald檢驗可以解決T檢驗中評估指標數據不服從正態分布的問題。Wald檢驗的目的是判別非正態分布的評價指標數據在違約樣本和非違約樣本中的均值是否相等,對信用風險是否具有較好的識別能力,其識別過程類似于T檢驗。
2.3 Log(Odds)判別
Log(Odds)判別方法,首先對評估指標進行分欄劃分,將其劃分為[i]個欄位,然后根據違約和非違約樣本將第[i]欄位中的樣本劃分為[Niy]、[Nib],違約樣本和非違約樣本分別有[Ny]、[Nb],那么在該欄位的應該表示為:
[LogOddi=NiyNyNibNb] (2)
根據公式得到結果,對這些結果進行分析,若[LogOddi]的值呈單調性,說明該指標有較強的識別能力;反之,則指標的識別能力較弱。
3 個人信用評估方法的發展
個人信用風險評估方法由定性轉變為定量研究,早期信用評估以單一的統計方法為主,后來以非統計學方法作為主要的研究方式。單一的方法自身具有缺點,專家們把兩種或多種方法組合起來研究個人信用風險評估,提高信用風險評估的精度。
3.1 專家判別法
商業銀行最初進行信用風險評估采用的主要方法是專家判別法,常見的還有3C分析法,后來發展為5C分析法,其評價指標為品德(Character)、能力(Capacity)、抵押擔保(Collateral)、個人條件(Condition)和資本(Capital)。
專家判別法主要是以定性為主,操作簡單,但過于依賴行業專家及信貸從業人員的經驗,具有較強的主觀色彩。
3.2 統計學方法
3.2.1 判別分析法。線性判別分析法通過確定“信用正常”和“信用異常”兩類客戶的幾何中心構建相應的線性判別函數,以對個人信貸客戶進行分類。該方法的思路如下。
假設樣本A由“信用正常”的好客戶G和“信用異常”的壞客戶B組成,則[AG]和[AB]分別表示樣本中的“好”“壞”客戶。用[PG]和[PB]分別表示樣本中“好”客戶和“壞”客戶占的比例;[L]表示把一個“好”客戶錯分為“壞”客戶造成的平均利潤損失;[D]表示把一個“壞”客戶錯分為“好”客戶帶來的損失;[px|G]、[px|B]分別表示“好”“壞”客戶的特征向量,取值為[x]的概率密度;[qG|x]、[qB|x]分別表示取[x]時一個“好”“壞”客戶的概率;[qG|x]正比[px|GpG],[qB|x]正比[px|BpB]。為了減少錯分,可以通過以下公式使期望損失達到最小化:
[min Loss=Lx∈AGpx|GpGdx+Dx∈ABpx|BpBdx]
[=Lx∈AGqG|xdx+DqB|xdx] (3)
由于[px|GpGpx|BpB=qG|xqB|x],則可以求出式子(3)的最優解,即借貸者總體中的“壞”客戶[AB]的數量為:
[AB=x|qG|xqB|x3.2.2 線性回歸法。把一般的線性回歸模型運用到個人信用風險評估時可以這樣來描述,假設某個借貸者的違約概率[p]與申請者的特征變量存在著如下關系:
[P=ω0+ω1X1+ω2X2+…+ωmXm+ε] (5)
式(5)中,[ε]是隨機擾動項。我們可以利用樣本數據對參數[ωi](i=1,2,… ,m)i和m進行估計,然后再估計出違約概率[p]的值。
3.2.3 Logistic回歸法。先定義“信用正常”和“信用異常”樣本,則[y=1]表示到期后違約狀態,[y=0]表示按期償還狀態,主要是對違約概率[p]預測的研究。利用已有的樣本數據建立如式(6)所示的Logistic回歸模型:
[logp1-p=β0+β1X1+β2X2+…βkXk] (6)
其中,[p]表示[y=1],即“壞”貸款的概率;Xi(i=1,2,… ,k) 表示與違約概率有關的指標;[p1-p]被稱為“發生比”。
可以用已有的樣本對模型中的[βi]進行估計,對模型進行相關性檢驗。根據估測出來的[βi]得到較為穩定、預測精度較高的模型,把新的借款者的相關指標數據帶入得到違約發生比,即可得到新的借款者的違約概率,最后考慮是否借貸給客戶。
3.2.4 運籌規劃方法。在運籌規劃方法上利用數據挖掘技術擴展了線性規劃模型,得到信用數據分類的多準則線性規劃模型,模型的基本形式是:
[Mind+α+d-αp]
Subject to
[α?+iαi=d-α-d+α]
[β?-iβi=d-β-d+β]
[AiX=b+αi-βi,Ai∈G]
[AiX=b-αi+βi,Ai∈B] (7)
其中,[Ai]和[b]是常數;[αi]是錯分樣本點偏離分界面的距離;[βi]是正確分類樣本點到分界面的距離;[d-α]和[d+β]是負、正偏差變量,且滿足[d+α]和[d-β≥0];[α?]和[β?]是目標值。通過求得距離的和與目標偏離最小,解得最優的分類平面。
3.2.5 決策樹方法。設總樣本[S]是樣本數據的集合,指標屬性具有[m]個不同類[Cii=1,…,m],[Si]是類[Ci]中的樣本數。對一個給定的樣本數分類的期望式子為:
[IS1,S2,…,Sm=-i=1mpilog2pi] (8)
式中,[pi]是任意樣本屬于[Ci]的概率,可以用[sis]來估計。
設屬性[A]具有[v]個不同的值[a1,a2,…,av],可以用屬性[A]將[S]劃分為[v]個子集[Si,S2,…,Sv],包括[Sj]中這樣一些樣本,在[A]上的值為[aj]。設[Sij]是[Sj]中類[Ci]的樣本數。由[A]劃分成子集為:
[EA=i=1vS1j+…+SmjSIS1j,…,Smj] (9)
式中,[S1j+…+SmjS]充當第[j]個子集的權,等于子集中的樣本與[S]中樣本總數的比值。熵值越小,子集劃分的精度就越高。對給定的子集[Sj]有如下表達:
[IS1j,…,Smj=-i=1mpijlog2pij] (10)
其中,[pij=SijSj],是[Sj]中樣本屬于[Ci]的概率。
在[A]上分枝將獲得的信息增益是:
[GainA=IS1,S2,…,Sm-EA] (11)
先分析影響信用的指標,然后將指標分為不同的屬性,計算這些屬性的信息增益值,下一步計算每個屬性的熵值。通過計算屬性的每個樣本值在屬性類別的分布及每個分布期望信息,得到屬性的重要程度。最后計算屬性的風險度量值,以給顧客進行評分,并對模型進行預測。
3.2.6 貝葉斯方法。本小節講述引入“稀疏學習”在信用風險評估中的貝葉斯方法。稀疏學習的一般描述是:
[y=Dx+v] (12)
其中,[D]為[N×M]的感知矩陣;[y]為[N×1]維矩陣;[x]為[M]維待求解向量;[v]為噪聲。通過一定的算法將[x]變為稀疏的。
求得(12)中的解向量[x]。對于一個測試樣本[T],可以計算出觀測值(自變量或者屬性值)[A=a1,a2,…,aM]與因變量[r]之間的關系表達式:
[r=Ax=i=1Maixi] (13)
式中,[ai]是測試樣本的第[i]個屬性值;[r]是一個實數。在稀疏模型中,分別用1和-1表示正負類的標簽,將正數和0映射為1,負數映射為-1,即:
[LabelT=signr=signi=1Maixi] (14)
其中,[signr]表示取數值[r]的符號,即:
[ signr=1 , r≥0-1 , r<0] (15)
輸入[N]個訓練樣本構成的訓練集[D,y],則[DD1,D2,…,DNT∈RN×M]為訓練樣本的矩陣,[y=y1,y2,…,yN∈-1,1N×1]為樣本的類標簽構成的向量,測試樣本[T]的向量為[A=a1,a2,…,aM];輸出測試樣本的類標簽[LabelT]。具體步驟如下:先將訓練樣本屬性矩陣[D]按列進行歸一化處理,然后根據上述求解得到最優解向量[x]和測試樣本類標簽[LabelT]。
3.3 人工智能方法
3.3.1 神經網絡。神經網絡具有自組織性、自適應及較強的穩健性的優點,能夠很好地用于個人信用風險評估。目前,神經網絡模型的類型已經有不下十種方法,相較而言,BP神經網絡的使用更成熟。
在個人信用風險評估中,BP神經網絡模型的具體作用步驟如下。首先,將個人信用評價指標體系的信息作為神經網絡的輸入向量[R=r1,r2,…,rn];然后,將信用等級作為神經網絡的輸出[O];最后,利用樣本,使不同的輸入向量得到不同的輸出值,則神經網絡所持有的權重值為[wij],閾值就是神經網絡經過自適應學習所得到的正確內部表示。若神經網絡訓練完畢,可以作為個人信用評價的工具,對不同的評估對象作出相應判斷。
3.3.2 支持向量機(SVM)。支持向量機是一種二類分類模型,其模型是定義在特征空間上的間隔最大的線性分類器,間隔最大使其有別于感知機。
在個人信用風險評估問題中,對歷史樣本數據進行預處理,然后構建具有該函數的主持向量機模型,優化支持向量機模型參數;初始化樣本個體的位置和速度,更新樣本數據的位置和速度,直到輸出全局最優樣本,將最優樣本個體分解為支持向量機模型的參數,完成模型訓練,最后將支持向量機模型用于新樣本的辨別,比較樣本的誤判率。支持向量機的評分精度較高,預測能力也強,且受變量限制少,具有很強的泛化能力。
3.4 組合模型
由于單一模型各有各的優勢,因此學者們開始對組合模型進行研究。近年來,國內用組合的方法對個人信用風險評估進行研究,且取得了不少成果。Logistic回歸和神經網絡組合、K均值和支持向量機、BP神經網絡和支持向量機等。在實際應用中,可以選擇合適的組合模型來提高預測的精度和穩定性。
4 結論
對個人信用風險評估模型的發展進行了梳理總結,闡明了個人信用風險評估模型由傳統評判方法和統計學方法到人工智能方法,由單一模型到組合模型的演變。
隨著我國征信體系的不斷完善,商業銀行在進行個人信用風險評估模型開發時,可供選擇的指標會越來越多,這些指標及衍生的指標會導致信用評估模型的訓練時間冗長,無關指標和交叉指標還會降低模型的預測效果,因此對信用指標的選取有了更高的要求。我國信用評估的發展還不夠成熟,樣本數據難以獲取,各銀行的數據還沒能實現共享,存在信息不平衡的問題。因此,還須尋找更加優秀的信用評分模型。
參考文獻:
[1]Durand D.Risk Elements in consumer Installment financing[M].New York:National Bureau of Economic Research,1941.
[2] YE Orgler.A credit scoring model for commercial loans[J].Journal of Money Credit & Banking,1970(4):435-445.
[3] JC Wiginton.A note on the comparison of logit and discriminant models of consumer credit behavior[J].Journal of Financial and Quantitative Analysis,1980(3):757-770.
[4]P Makowski.Credit scoring branches out[J].Credit Wbrld,1985(75):30-37.
[5]C Carter,J Catlett. Assessing credit card application using machine learning[J].IEEE Expert,1987(3):71-79.
[6]TS Lee, CC Chiu,YC Chou,et al.Mining the customer credit using classification and regression tree and multivariate adaptive regression splines [J].Computational Statistics & DataAnalysis,2006(4):1113-1130.
[7] S Chatterjee, S Barcun. A Nonparametric Approach to Credit Screening[J]. Publications of the American Statistical Association,1970(329):150-154.
[8] Hand D J. Discrimination and Classification[J]. Journal of the Royal Statistical Society Series A (General),1982(4):428.
[9] NC Hsieh, LP Hung. A data driven ensemble classifier for credit scoring analysis[J].Expert Systems with Applications,2010(1):534-545.
[10]M Odom, R Sharda. A neural network model for bankruptcy prediction[C]// IEEE .Proceedings of the international joint conference on neural networks. Alamitos,1990.
[11]TC Fogarty,NS Ireson. Evolving Bayesian classifiers for credit control-comparison with other machine-learning methods[J]. Ima Journal of Management Mathematics,1993(1):63-75.
[12]Z Michalewicz. Evolutionary Algorithms for Constrained Parameter Optimization Problems[J]. Evolutionary computation,1 996(1):l-32.
[13]Baesens B,Van Gestel TViaene S,et a1.Benchmarking state-of-the-art classification algorithms for credit scoring: An update of research[J].Journal of the Operational Research Society,2003(1):627-635.
[14]石慶焱.一個基于神經網絡——Logistic回歸的混合兩階段個人信用評分模型研究[J].統計研究,2005(5):45-49.
[15]姜明輝,袁緒川,馮玉強.PSO-SVM模型的構建與應用[J].哈爾濱工業大學學報,2009(2):169,171.
[16]向暉,楊勝剛.基于多分類器組合的個人信用評估模型[J].湖南大學學報,20l1(3):30-33.
[17]高尚,劉夫成.與k均值混合的支持向量機的個人信用評估[J].中南大學學報,2013(S2):169-173.
[18]楊勝剛,朱琦,成程.個人信用評估組合模型的構建一基于決策樹一神經網絡的研究[J].金融論壇,2013(2):57-61.
[19]林漢川,張萬軍,楊柳.基于大數據的個人信用風險評估關鍵技術研[J].管理現代化,2016(4):95-97.