基于偏最小二乘方法的信用評分模型

2012-07-25 08:14:18魏秋萍張景肖

統計與決策 2012年10期

魏秋萍，張景肖

0 引言

在建立信用評分模型時，備選的自變量過多是一個非常突出的問題。盡管已經有比較成熟的變量選擇方法如IV值、Gini指數等，但是使用這些方法做變量選擇時仍有很多的自變量無法取舍，并且這些自變量之間往往存在著多重共線性。

當自變量之間存在多重共線性時，使用普通最小二乘法（Ordinary Least Squares）或者極大似然法（Maximum Likelihood Estimation）往往會放大模型的誤差，弱化模型的預測精確度，使得模型的穩健性欠缺。這時一般采用偏最小二乘（Partial Least Squares，簡稱PLS）方法。其思想是通過對系統中的數據信息進行分解和篩選，提取最能解釋因變量的主成分的手段來克服多元回歸模型中常見的多重共線性問題。

偏最小二乘模型出現于上個世紀60年代，經濟學家Wold H.[1]在給一些變量組擬合因果關系路徑時首次使用該算法。Wold H.[2]等把偏最小二乘方法用于化學計量學中的變量降維來克服變量的多重共線性。Frank[3]等把偏最小二乘方法和主成分分析等方法進行比較，說明了偏最小二乘方法是一種有效的降維技術。在此后，偏最小二乘方法在各個涉及多元分析的領域有了廣泛的應用。在國內，王惠文[4][5]對偏最小二乘思想展開了比較深入的研究，并應用該方法來解決實際經濟問題。

本文將針對信用評分中的變量眾多問題展開研究，并建立基于偏最小二乘方法的信用評分模型。

1 基于偏最小二乘方法的信用評分模型

線性回歸模型用自變量的線性組合來解釋因變量的變異，通過普通最小二乘法來估計函數中的各個參數。線性回歸在參數估計中唯一的約束條件為：要使得對樣本中因變量的預測誤差最小。偏最小二乘回歸模型是對線性回歸模型的一個改進，該算法兼顧了因變量的變異和自變量的變異兩個目標。

偏最小二乘回歸參數估計的核心思想為：先從自變量中提取能夠最佳解釋因變量的主成分，再對這些主成分應用最小二乘法擬合線性回歸模型，通過不斷迭代得到偏最小二乘回歸模型的參數估計值。

其中，T是根據自變量提取出來的主成分矩陣，對因變量具有最強的解釋能力；Q是主成分矩陣T的回歸系數矩陣；E為誤差矩陣，代表了模型的噪音。上述模型也等價于：

對于某一個觀測而言，其預測值為：

這里，H小于自變量X的維度d。

偏最小二乘算法抽取的潛在主成分不僅可以解釋建模樣本中因變量的變異，還可以解釋自變量的變異。在信用評分模型中，因變量的取值是好客戶還是壞客戶是表現出來的特征，是度量客戶風險大小的一個標識；而自變量如學歷、婚姻、職業等也都是表現出來的特征。自變量往往并不是決定因變量的因素，真正決定客戶好壞的本質特性是不可觀測的潛在因素，如客戶的償還意愿、客戶的償還能力等?？蛻舻膬斶€意愿是他的婚姻、學歷教育和職業等特征綜合出來的表現其道德修養的主成分，客戶的償還能力是他的收入、年齡和工齡等特征綜合出來的表現其經濟水平的主成分?；谶@種業務特點，能夠同時解釋因變量和自變量變異的偏最小二乘模型在業務邏輯上更利于信用評分模型的創建。

1.1 限制預測值的偏最小二乘回歸模型

基于偏最小二乘回歸模型擬合模型和估計參數的獨特思路，使得它更加能夠解釋信用評分模型要解決的業務問題。但是，該模型也存在著一定的局限性，必須對其做出一些修正才能應用于信用評分模型的創建。

一般來說，偏最小二乘模型適用于因變量為連續變量的情況，它估計出的預測值會在(-∞,+∞)這個范圍內變化。在信用評分模型中，因變量是只有兩種可能取值的屬性變量，可以用0（表示好客戶）和1（表示壞客戶）來表示其取值。但是創建信用評分模型是為了得到每個申請人未來成為壞客戶的概率，而不是直接預測因變量的值到底是1還是0。因此，如信用評分模型輸出形式是預測概率P(yt=1|X)，它就可以被看成是一個連續變量，只是取值范圍在0到1之間。這樣只要根據偏最小二乘法的一般原理略加限制修改，就可以讓其適用于信用評分模型。

這樣通過對偏最小二乘回歸模型的預測值加以限制，就可以從技術上保證它可以應用于信用評分模型的創建。

1.2 偏最小二乘Logistic回歸模型

為了使得偏最小二乘回歸的思想能夠適用于信用評分模型的創建，限制預測值的偏最小二乘回歸模型從控制預測值的角度對模型做出了改進。除了這種改進思路以外，還可以結合偏最小二乘回歸和Logistic回歸的思想來解決信用評分模型的實際問題。這兩種思想的結合產生了偏最小二乘Logistic回歸模型，該模型是由V.E.Vinzi和M.Tenenhaus提出的[5]。

4.強化人才保障。一是要做好電子商務人才的引進工作，尤其要重視做好高端人才的引進工作，引進一批處于電子商務發展前沿、運行和管理經驗豐富的優秀人才和團隊。二是強化對電子商務人才的培訓培養工作，注重發揮社會培訓機構的作用，并加強與高校的戰略合作，利用在渝高校的巨大人才資源優勢，全方位培訓電商從業人員，運用多種途徑培養高級電子商務職業經理，打造一支高素質的電子商務專業人才隊伍。三是探索完善電商人才“留住”機制，營造市內電商人才宜居宜業良好環境，為我市電子商務產業發展提供人才保障。

偏最小二乘Logistic回歸模型的主要假設是：事件發生的概率的Logit變換可以用主成分來解釋，而這個主成分綜合了自變量的信息，也可以解釋自變量的變異。把偏最小二乘Logistic回歸模型應用于信用評分模型，則可以表示為

這里 pt=P(yt=1|xt)表示一個申請人在未來成為壞客戶的概率。偏最小二乘Logistic回歸等價于Logistic回歸加上偏最小二乘回歸模型，它兼顧了兩種模型的優點。不管從技術的角度還是從業務的角度分析，源自偏最小二乘思想的偏最小二乘Logistic回歸都非常適用于創建信用評分模型。偏最小二乘方法用影響因變量和自變量的潛在因子來解釋模型，不但能解決信用評分模型中常出現的變量共線性問題，也更符合業務邏輯,必然在信用評分領域發揮獨特的作用。

2 實證分析

針對某商業銀行信用卡的實際數據，分別利用Logistic回歸、神經網絡、支持向量機、決策樹、限制預測值的偏最小二乘回歸和最小二乘Logistic回歸這六種建模方法分別創建信用評分模型，并比較它們所得的預測結果。評判各個模型預測結果的優點和不足將依據模型在訓練集、測試集和樣本外驗證集上的性能表現。源自實際數據的建模樣本中共有24583條觀測，25個自變量和1個因變量。樣本中好壞客戶所占的比例分別為96.75%和3.25%?？梢园呀颖局?0%的觀測選擇作為訓練集，用于模型的創建；選擇剩下的40%的觀測作為測試集，用于樣本內的測試和評價。在分割訓練集和測試集的時候采用分層抽樣的方法來保證訓練集和測試集中好壞客戶的占比和原來樣本中的占比保持一致。同時，還選擇了一個從其它時間段獲得的記錄數為14750條的樣本外驗證集來評價模型的準確性和可推廣性，該數據集中的觀測和建模樣本中的觀測完全不重合。樣本外驗證集中的好壞客戶的占比也是96.75：3.25。

實證分析的具體結果如表1。

表1 各種評分模型建模方法的實證分析結果

由上面的結果可知：

（1）Logistic回歸模型創建的信用評分模型在訓練集、測試集和樣本外驗證集的AUC統計量分別為0.871、0.862和0.866，K-S統計量分別為0.59、0.574和0.601，GINI系數的值分別為0.743、0.724和0.732，Lift值分別為3.34、3.302和3.35。訓練集的評價統計量取值略優于測試集和驗證集的取值，并且這些統計量相對比較穩定。這說明了Logistic回歸模型具有穩定性的優點。

（2）神經網絡模型創建的信用評分模型在訓練集、測試集和樣本外驗證集的AUC統計量分別為0.865、0.866和0.872，K-S統計量分別為0.581、0.566和0.587，GINI系數的值分別為 0.731、0.733 和 0.744，Lift值分別為 4.175、3.364和4.735。這些統計量的值相對比較大，表明了模型有較好的預測準確性。一般情況下，都是訓練集的評價統計量要優于測試集和樣本外驗證集的，但是樣本外驗證集的驗證統計量普遍要高于測試集的，這在一定程度上也表明了神經網絡并不是很穩定性的算法。

（3）支持向量機算法創建的信用評分模型在訓練集、測試集和樣本外驗證集的AUC統計量分別為0.87、0.864和0.878，K-S統計量分別為0.585、0.575和0.599，GINI系數的值分別為0.741、0.728和0.756，Lift值分別為3.507、2.991和1.36。盡管AUC、K-S統計量和GINI系數表現出了較好的穩定性，但是支持向量機算法的LIFT值相對不穩定，這也說明了該算法有微弱的不穩定性。

（4）決策樹的結果相對不理想，它在訓練集中有很好的性能表現，AUC、K-S統計量和Gini指數都是最高的，但是到了測試集中這三個指標都是最低的，決策樹模型在樣本外驗證集中的表現也是相對比較差的。這些結果表明用決策樹創建信用評分模型得到的結果最不穩定。

（5）限制預測值的偏最小二乘回歸模型創建的信用評分模型在訓練集、測試集和樣本外驗證集的AUC統計量分別為0.861、0.855和0.87，K-S統計量分別為0.575、0.562和0.586，GINI系數的值分別為0.722、0.71和0.74，Lift值分別為4.008、2.383和4.132。只有測試集的LIFT值相對偏小，其他統計量的表現都比較穩定。這也說明限制預測值偏最小二乘回歸模型具有穩定性的優點。

（6）偏最小二乘Logistic回歸模型創建的信用評分模型在訓練集、測試集和樣本外驗證集的AUC統計量分別為0.861、0.855和0.866，K-S統計量分別為0.563、0.570和0.577，GINI系數的值分別為0.722、0.71和0.733，Lift值分別為5.58、5.537和5.576。各個驗證集上的驗證統計量都保持了穩定的特點，這說明了偏最小二乘Logistic回歸模型具有穩定性的優點。同時，該模型的Lift值和其他模型相比取值更大更加穩定，這表明偏最小二乘Logistic回歸在識別最壞的壞客戶的能力要優于其他算法。

總而言之，以上六種建模方法均可用來創建信用評分模型，除了決策樹以外，其他五種建模方法創建出的模型效果各有優劣。實證研究的結果也表明，限制預測值的偏最小二乘回歸和偏最小二乘Logistic回歸模型這兩種基于偏最小二乘思想的信用評分模型具有良好的預測效果，值得進一步推廣。

3 結論

信用評分模型的建模方法不拘一格，現代常用的統計模型和機器學習算法都可以用來創建信用評分模型。每一種建模方法各有優缺點，在使用的過程中必須根據實際需要來決定選用哪一種算法。同時，采用不同的建模方法來創建信用評分模型可以互相驗證彼此的準確性。本文提出的限制預測值的偏最小二乘回歸模型和和偏最小二乘Logistic回歸模型用潛在的因子同時解釋了因變量和自變量的變異，在實際運用中具有很好的可操作性，實證分析的結果也表明，用這兩類這兩種基于偏最小二乘思想的信用評分模型具有比較好的性能表現。

[1] Wold,H.Estimation of Principal Components and Related Models by Iterative Least Squares[A].In P.R.Krishnaiah,ed.Multivariate Analy?sis[C].New York:Academic Press,1966.

[2] Wold,H.Soft Modelling by Latent Variables:the Non-linear Iterative Partial Least Squares(NIPALS)Approach,Papers in Honor of M.S.Bartlett[C].Academic Press,London,1975.

[3] Frank,I.E.,Friedman,J.H.A Statistical View of Chemometrics Re?gression Tools[J].Technometrics,1993,(35).

[4] 王惠文.偏最小二乘回歸方法及其應用[M].北京：國防工業出版社,1999.

[5] 王惠文等.偏最小二乘回歸的線性與非線性方法[M].北京：國防工業出版社,2006.