姜明輝,許 佩,任 瀟,車 凱
(1.哈爾濱工業大學 管理學院,150001哈爾濱;2.哈爾濱工業大學計算機科學與技術學院,150001哈爾濱)
個人信貸作為銀行的主要資產業務之一,其風險水平的控制關系到商業銀行對于經濟資本的整體要求.因此,能否對個人信用風險進行有效的識別與計量,成為商業銀行能否合理控制風險的關鍵因素.隨著我國個人信貸規模和涉及領域日益擴大,自90年代后期開始,個人信用評分方法開始引起國內的關注.近年來隨著我國經濟的高速發展,個人住房抵押貸款逐年增加,房地產市場出現過熱現象,個人信用貸款的風險也隨之增加.因此,在后金融危機時代,研究我國個人信用評分,對有效識別信用風險、規避金融危機的不利影響以及保持我國信貸和金融市場的正常運轉,甚至對維持國民經濟的持續穩定增長都具有重大的理論和現實意義.
文獻[1]指出,金融機構的傳統做法是由專家基于自身經驗對個人信用進行判斷,并由此形成了“5C”評價法.由于過度依賴于專家的經驗,存在著訓練成本高,主觀性和隨意性強等問題.正是為了解決這些問題,個人信用評分模型應運而生,其實質是基于客觀的數學模型,根據已掌握的客戶的相關信息對客戶將來可能的信用情況進行判斷.模型通過對客戶特定個人信息的輸入,將客戶分為“好客戶”(能夠按時還本付息)和“壞客戶”(會出現違約情況)兩類.
隨著國內外對信用評分研究的不斷深入,個人信用評分模型也經歷了由統計學方法到非參數方法、運籌學方法再到人工智能方法的演變,同時由單一模型到組合模型逐漸演進.但是,已有的個人信用評分模型在我國的實際應用中仍存在諸如樣本的有效性及完整性、指標體系的適用性、模型選擇的可解釋性等問題.鑒于此,本文提出采用通過對已有樣本的規則提取實現異常數據的預警,結合樣本有效性及完整性的改進,選取解釋能力強的單一模型對信用評分的指標體系進行顯著性排序,選取適用的指標顯著性權重并綜合考慮整體的準確率、兩類誤判率和差異性,對現有模型進行優化.
判別分析(discriminant analysis,DA)源于對3種鳶尾屬植物的分類實驗并被文獻[2]首次用來區分信用客戶的好壞.判別分析的主要思想是基于某些分類方法來使同類之間距離最小,異類之間距離最大,通過建立一個或多個判別方程,來判斷某一變量的類別歸屬.文獻[3]認為當變量服從多元橢球面分布(多元正態分布是其特例)時,線性判別無疑是最優的選擇(忽略樣本抽樣偏差).此后,隨著著名的 FICO(fair isaac corporation)信用評分系統的建立,作為FICO系統的核心方法——判別分析在個人信用評分領域得到了廣泛運用.近年來,文獻[4]將最新的判別分析方法——SNDA、STDA、SDA、Sparse DA、FDA、MDA分別應用于個人信用評分,以總精確度及錯分率為判別指標,指出 SNDA、STDA和SDA在個人信用評分領域表現良好.
回歸分析法(regression analysis,RA)是起源于遺傳學研究的經典統計學方法之一.回歸分析法是在大量已知數據的基礎上,來探究一種變量(自變量)對另外一種變量(因變量)的影響,并建立描述二者間相關關系的回歸方程,根據已知的自變量的值對因變量的值進行預測.在回歸分析法中,應用較為廣泛的有Logistic回歸分析、Probit回歸分析及多元線性回歸.與判別分析相比,回歸分析的魯棒性較低,但回歸分析對數據分布的要求相對寬松,而且能夠提供客戶的違約概率,因此獲得了大多數學者和銀行業的青睞.目前為止,Logistic回歸已經成為最成功且最常用的統計方法之一.文獻[5]得出Logistic回歸在分類效果上要優于判別分析的結論.
最近鄰法(nearest neighbors,NNs)是首先被用于分類問題的標準非參數方法,最早由紐約銀行應用于信用評分領域.最近鄰法中最常用的是KNN模型,KNN模型能夠很好的解決概率密度函數的分類和估計問題,在個人信用評分研究中取得了較好的效果.KNN模型的基本原理是通過計算尋找與待判樣本點距離最近的k個信用樣本,再根據k個樣本的表現,以投票的方式確定待判樣本的信用情況.文獻[6-7]均指出由于最近鄰法不用提前學習和訓練模型,允許動態的更改客戶信息,從而能很好的解決人口漂移問題.有關KNN模型較近的應用研究主要關注了“維數禍根”(curse of dimensionality)問題,指出最近鄰法在應用于高維數據時,即使樣本量很大,散落在高維空間內的樣本點仍十分稀疏,難以找到相鄰的樣本.針對該問題,文獻[8]提出可以通過非線性的數據投影法來降低數據維度;文獻[9]提出可以對最近鄰法進行改進,使用基于排序的最近鄰法來解決這一問題.
決策樹法(decision tree,DT)是近年來被引入信用評分領域的主要非參數方法之一.決策樹法以違約的可能上同質性更強為劃分標準,將信用申請者劃分為兩個子類,每個子類再次劃分為同質性更強的子類,整個遞歸過程直到子類達到預設的終止條件為止.決策樹算法支持多個參數,會對所生成的挖掘模型的性能和準確性產生影響.文獻[10]首次將決策樹用于個人信用評估方法中.考慮到樣本屬性中包括了數值型數據及非數值型數據,文獻[11]將Boosting算法技術嵌入決策樹中,該嘗試取得了更好的判別效果.
數據包絡分析法(data envelopment analysis,DEA)是在相對效率評價基礎上發展的系統分析方法.它是以相對效率概念為基礎,根據多指標投入和多指標產出對相同類型的單位進行相對有效性或效益評價的一種新方法.將數據包絡分析法應用于個人信用評估,可將客戶的特征向量視為投入指標,客戶的信用情況視為產出指標進行分類.數據包絡分析法的優點在于能夠有效的避免主觀因素,減少誤差,且建立模型前無須對數據進行量綱一的處理,與個人信用指標的特征一致.文獻[12]將DEA模型應用于私人融資計劃中借款人的信用評分,指出DEA有著能夠自動生成相對權重等優點.
在個人信用評分中應用的運籌學方法主要是線性規劃法(linear programming,LP).早在1965年,線性規劃法即被應用于分類問題.但是直到1981年,文獻[13]闡明線性規劃在判別及分類上的應用及實現之后,該方法才引起了更多學者的關注.線性規劃模型通過找到一組權重值,在給定的臨界值的條件下,使得所有好客戶的得分都在該臨界值之上,而所有壞客戶的得分都在這個臨界值之下從而實現個人信用樣本的分類.在線性規劃方法應用于個人信用評分的基礎上,學者們更關注于與統計學方法在應用效果上的差異,文獻[14]通過研究指出統計學方法要優于線性規劃的方法.
專家系統(expert system),作為人工智能方法應用于個人信用評分最成功的嘗試,其核心思想為通過一個包含某特定領域知識的數據庫和對信息進行遞推的規則,分析新情況并給出專家級的解決方案.文獻[15]介紹了CLUES專家系統的構建,該系統可以決策是否批準住房抵押貸款申請,后被美全國金融公司采用.
神經網絡(artificial neural networks,ANNs)作為最具有代表性的人工智能方法之一,其原理是通過對變量進行線性組合和非線性變化,然后循環修正,進而模擬人類大腦的決策過程,利用神經元相互觸發,建立一種學習機制.文獻[16]在信用風險評測中引入神經網絡的方法.2000年,Moody's公司公布了一套上市公司的信用風險評估模型,這套模型的主要方法為神經網絡.至此,研究者和實踐者開始廣泛關注神經網絡這一方法,文獻[17]將傳統的參數和非參數方法和5種不同的神經網絡算法(包括混合專家系統、失真適應響應和多層感知器等)進行了比較分析,其結果是神經網絡的穩定性較好.
支持向量機(support vector machine,SVM)的核心思想是通過某種事先選擇的非線性映射將輸入向量映射到一個高維特征空間,在此空間中根據區域中的樣本計算該區域的決策曲面,由此確定該區域中未知樣本的類別.SVM的出現解決了以往學習方法中存在的小樣本、非線性、過學習、高維數、局部極小等實際問題,在個人信用評分中,支持向量機方法評分精度較高,預測能力強,且受變量限制少,具有很強的泛化能力,因此支持向量機不僅在手寫數字識別、文本分類、語音辨識等問題上得到了廣泛應用,在個人信用評分領域也成為了研究的熱點.文獻[18]指出SVM算法能夠更好的捕捉變量間的非線性關系,并在SVM的基礎上提出了混合支持向量機算法,通過實證驗證了混合支持向量機算法有著更高的精確度,并有效降低了第2誤判率.
正是考慮到上述的單一信用評分方法各有優勢,由此引發了學者們對組合方法的嘗試.文獻[19]總結不同領域的大量相關研究,得出組合模型能夠取得更高預測精度的結論,成為組合預測研究的一個里程碑.受此影響,同年《預測雜志》出版了一期組合預測的專刊,進一步激發了學者們對組合方法的熱情.組合方法主要分為線性組合和非線性組合.其中權重的確定是問題的關鍵,權重的確定可分為固定權重和可變權重.到目前為止,比較常用的方法有簡單平均法、勝出法、最優法和回歸法.
近年來國內在個人信用評分組合方法的研究上也取得了不少成果.文獻[20]提出基于貝葉斯算法的投票式組合模型的思想,選擇Logistic回歸、聚類分析和神經網絡進行組合,既發揮了這些具有代表性的單一模型優勢,同時減少了由于權重確定產生的誤差.文獻[21]指出現有信用評級中存在的問題,基于粗糙集算法對兩個混合模型FA-RS和MEPA-RS模型進行了深入研究.
在實際應用中,個人信用評分模型選擇的決定因素往往來自于多個方面,如線性統計學模型常被有一定歷史的評分機構所應用,因為已有的技術比較根深蒂固,而且這些機構也傾向于使用那些已經被使用并通過實踐檢驗的方法.Logistic回歸多被新建機構采用,那些為了防止嚴重的假設條件違背,或需要違約概率估計的借貸者(尤其是簽訂新巴塞爾協議的銀行)也對其更加青睞.
樣本有效性是國外成熟的評分模型在我國信用數據中進行應用面對的首要問題.由于我國消費信用貸款業務發展較晚,信用體系尚未完善,現有的信用數據相當有限,且由于信用信息的提交和紕漏仍不規范,灰色收入等的存在,造成信用樣本數據的權威性和有效性面臨挑戰.對于商業銀行而言,無法對每一位貸款的個體進行數據真實性考察,如何及時的發現信貸業務中存在的“異常數據”,摒棄冗雜的干擾數據,是目前個人信用評分領域需要研究的問題之一.
在信用樣本的完整性上,已有的個人信用評分模型都面對著一個不可忽視的數據問題——樣本偏差(biased sample).樣本偏差來自于非隨機性的樣本獲取過程,表現為樣本和總體分布的非一致性,其本質是一種樣本選擇問題(sample selection).在個人信用評分上,樣本偏差表現為拒絕推論(reject inference).拒絕推論就是指在個人信用評分的過程中,銀行的評估模型是建立在已接受的信用樣本之上,而缺少那些申請被拒絕的樣本(拒絕樣本)的相應數據.這就導致了銀行的信用評分模型所用數據不是隨機樣本,不能代表整個申請者的“入門總體”(through-the-door population),從而導致評估的偏差.個人信用評分模型的準確性與模型采用的訓練數據有著密切的關系,拒絕推論問題的存在也降低了評分模型的價值與精度.
常用的解決樣本偏差的方法有外推法(extrapolation)、賦權法(enlargement)和重新賦權法(Re-weighting).外推法是利用已接受的樣本建立初始信用評分模型,并用于被拒絕樣本的判別,最后利用所有樣本建立最終的評分模型.重新賦權法通常與增補法共同使用,通過對已接受的樣本重新賦予權重來代表被拒絕的樣本.但是,文獻[22]認為以上方法都是針對隨機性的樣本缺失,在解決非隨機性的拒絕推論問題時,效果并不理想.
信用評分指標體系的確定是個人信用評分的第一步,對整個信用評分的精確性及信用風險的有效識別至關重要.目前商業銀行在個人信用評分中應用的指標有限且彼此不同.國內學者又偏向于對模型的優化與改進,對指標體系的研究較少,導致我國尚未建立有效、權威的指標體系.而我國的文化習慣和道德標準與國外相差較大,國內不同地區間經濟發展水平、人口結構和生活方式,各民族間文化及道德標準也有著較大差異,這就導致同一指標在不同的實際應用中顯著性有著較大的變化,因此針對不同的數據樣本,對指標體系中的特征變量及變量的權重有所調整,充分適應實際業務需求十分必要.目前優化信用指標體系的方法主要是屬性約簡法,文獻[23]通過SVM等方法對指標進行篩選,保留比較重要的指標,構建新的指標體系.但是屬性約簡的方法在個人信用評分中的應用效果并不理想,因為個人信用評分指標體系中的指標數量較少,約簡后所得的指標體系其有效性和代表性仍有待考證.
目前,無論是學術研究還是商業銀行的實踐都致力于提高個人信用評分模型的精確性、穩定性及解釋性,以便有效地進行風險識別并降低信用風險.但已有的模型各具優缺點.如判別分析法對數據有著較為苛刻的要求,要求信用樣本數據服從正態分布,且要求自變量與因變量間存在線性相關關系,但它通過不同的變量組合來探求最小化的特定分離程度,具有良好的解釋性;最近鄰法不用提前學習和訓練模型,從而允許動態的更改客戶信息,在解決人口漂移問題上具有優勢,如何選擇距離公式和確定k個相近樣本投票權重卻是應用中的難點,且對于高維數據,其在樣本空間中分布較為稀疏,絕大多數點附近根本沒有樣本點,導致方法很難使用;決策樹法的優點在于能夠充分的利用先驗信息,受異常數據點影響較小,具有較高的分類精度,缺點則在于對特征屬性的權重缺乏判斷;傳統的神經網絡模型具有較高的預測精度但無法處理非數值型數據,而且對初始中心的選取及異常值十分敏感,訓練中易于出現過度擬合.同時神經網絡“黑箱”化特征決定了其不具解釋性.綜上所述,統計學模型可以提供假設檢驗,具有一定的解釋性,但與人工智能方法相比,其精確度不高,對數據的要求比較嚴格;而人工智能方法則正好相反,精確度較高但解釋性差.在實際應用的過程中,商業銀行的信貸政策也在不斷調整,如何根據商業銀行的政策及業務需要進行模型選擇是目前個人信用評分所面對的一個難題.針對該問題,文獻[24]指出,在個人信用評分中應將對模型的研究與對信用評分實際應用的研究進行有效結合;文獻[25]認為可以引入商業銀行個人信用評分的錯分代價(misclassification cost)作為模型選擇的標準.
針對上述個人信用評分研究中的問題,本文從樣本有效性及完整性、指標體系的合理性及模型的適用性3個方面對個人信用評分模型進行優化.
針對信用樣本有效性及完整性問題,本文提出通過對已有的樣本進行相關性分析,提取樣本各特征變量間的相關關系,作為預警規則,對新加入的樣本進行識別,實現對異常數據的預警,并通過蒙特卡洛模型生成模擬樣本,根據規則進行樣本篩選,選取其中的“壞客戶”樣本進行樣本補足.
針對指標體系合理性問題,由于統計學模型理論基礎豐富,解釋能力強,穩健性良好,采用統計學模型能夠輸出個人信用評分指標的顯著性,更有效的剖析影響個人信用的相關因素,因此,本文選取了Fisher判別分析、Logistic回歸、Probit回歸、多元線性回歸4種常用的統計學模型,結合投票器的方法對影響個人信用的特征向量進行顯著性排序;又由于人工智能方法的判別精度較高,能夠有效的識別不良數據,因此,在顯著性權重的計算上,采用步長遍歷算法,以BP神經網絡和支持向量機兩種精度較高的個人信用評分模型的平均精度為判別標準,輸出顯著性權重,對個人信用評分指標體系進行顯著性加權,提高指標體系的合理性和科學性.
針對模型的選擇及適用性問題,本文設計模型選擇器,選擇器中包括目前個人信用評分中最具有代表性的5個模型:Logistic回歸、分類樹、Bayes網絡、BP神經網絡和支持向量機,輸出每個模型的精確度、穩健性、第1誤判率、第2誤判率及差異性作為模型選擇的指標,根據實際應用的具體需求,輸出適用的單一模型、同類別加強組合模型及差異性組合模型,具體算法設計如圖1所示.

圖1 優化算法技術路線
1)對個人信用評分模型的發展進行了梳理總結,闡明了個人信用評分模型由統計學方法到非參數方法、運籌學方法再到人工智能方法的演變,同時由單一模型到組合模型的演進過程,指出了各種個人信用評分模型在實際應用中的優勢及局限性.
2)結合個人信用評分模型的發展及最新動態,指出個人信用評分研究中仍存在樣本有效性及完整性差、指標體系合理性有待提高、模型適用性不明確、難以選擇等問題.
3)針對樣本的有效性及完整性問題,本文以提升樣本有效性及完整性、指標體系合理性及模型適用性為目標,通過規則提取及模擬樣本的加入實現對我國個人信貸業務中存在的“異常數據”預警,在豐富樣本集的同時使樣本結構更接近于實際情況,優化樣本結構;針對信用指標的合理性問題,本文選取解釋性好的統計學模型,結合投票器和步長遍歷算法對信用評分指標體系進行顯著性加權,避免指標減少的同時充分體現重要的樣本屬性在評分中的作用;針對模型的選擇與適用性問題,通過模型選擇器的設計,分別設定不同的標準進行模型的組合,比較單一模型與組合模型,旨在為商業銀行基于信貸政策目標選擇最適用模型.
[1]THOMAS L C.A surveyofcreditand behavioural scoring:forecasting financial risk of lending to consumers[J].International Journal of Forecasting,2000,16(2):149-172.
[2]DURAND D.Appendix B:Application of the Method of DiscriminantFunctions to the Good-and Bad-Loan Samples[M].Cambridge,MA:NBER(Risk Elements in Consumer Instalment Financing,Technical Edition),1941:125-142.
[3]HAND D J,HENLEY W E. Statistical classification methods in consumer credit scoring:a review[J].Journal of the Royal Statistical Society:Series A,1997,160(3):523-541.
[4]CHEN H, CHEN Y. A comparative study of discrimination methods for credit scoring[C]//Proceedings of the 2010 40th International Conference on Computers and Industrial Engineering (CIE).Piscataway,NJ:IEEE,2010:1-5.
[5]SRINIVASAN V,KIM Y H. Creditgranting:a comparative analysis of classification procedures[J].Journal of Finance,1987,42(3):665-683.
[6]姜明輝,王雅林,趙欣,等.k-近鄰判別分析法在個人信用評估中的應用[J].數量經濟技術經濟研究,2004,(2):143-147.
[7]HAR-PELED S,INDYK P,MOTWANI R.Approximate nearestneighbor:towards removing the curse of dimensionality[J].Theory of Computing,2012,8(1):321-350.
[8]VERLEYSEN M, FRAN?OIS D. The Curse of Dimensionality in Data Mining and Time Series Prediction[M]. Berlin Heidelberg Springer:Computational Intelligence and Bioinspired Systems,2005.
[9] HOULE M E,KRIEGEL H P,KR?GER P,et al.Can shared-neighbor distances defeat the curse of dimensionality?[C]//Proceedings of the 22nd International Conference,SSDBM.Berlin Heidelberg:Springer,2010:482-500.
[10]PORTER B W,BAREISS R,HOLTE R C.Concept learning and heuristic classification in weak-theory domains[J].Artificial Intelligence,1990,45(1):229-263.
[11]龐素琳,鞏吉璋.C5.0分類算法及在銀行個人信用評級中的應用[J].系統工程理論與實踐,2009,29(12):94-104.
[12]CHENG E W L,CHIANG Y H,TANG B S.Alternative approach to creditscoring by DEA:evaluating borrowers with respect to PFI projects[J].Building and Environment,2007,42(4):1752-1760.
[13]FREED N,GLOVER F.Applications and Implementation[J].Decision Sciences,1981,12(1):68-74.
[14]NATH R,JACKSON W M,JONES T W.A comparison of the classical and the linear programming approaches to the classification problem in discriminant analysis[J].Journal of statistical computation and simulation,1992,41(1/2):73-93.
[15]TALEBZADEH H,MANDUTIANU S,WINNER C F.Countrywide loan-underwriting expert system[J].AI magazine,1995,16(1):51-64.
[16]WOLPERT D H.Stacked generalization[J].Neural networks,1992,5(2):241-259.
[17]ZHANG R Q,HUANG Z S.Statistical inference on parametric part for partially linear single-index model[J].Science in China Series A:Mathematics,2009,52(10):2227-2242.
[18]HUANG C L,CHEN M C,WANG C J.Credit scoring with a data mining approach based on support vector machines[J].Expert Systems with Applications,2007,33(4):847-856.
[19]CLEMEN R T.Combining forecasts:A review and annotated bibliography[J].International journal of forecasting,1989,5(4):559-583.
[20]王雪.投票式組合預測模型在個人信用評估中的應用研究[D].哈爾濱:哈爾濱工業大學,2011.
[21]CHEN Y S,CHENG C H.Hybrid models based on rough set classifiers for setting credit rating decision rules in the global banking industry[J].Knowledge-Based Systems,2013,39:224-239.
[22]GARCIA S,HAROU P,MONTAGNE C,et al.Models forsample selection biasin contingentvaluation:Aplication to forest biodiversity[J].Journal of Forest Economics,2009,15:59-78.
[23]BELLOTTI T,CROOK J.Support vector machines for credit scoring and discovery of significant features[J].Expert Systems with Applications,2009,36(2):3302-3308.
[24]MARTIN N.Assessing scorecard performance:A literature review and classification[J].Expert Systems with Applications,2013,40(16):6340-6350.
[25]LEE T S,CHEN I F.A two-stage hybrid credit scoring model using artificial neural networks and multivariate adaptive regression splines[J].Expert Systems with Applications,2005,28(4):743-752.