魏秋萍,張景肖
在建立信用評分模型時,備選的自變量過多是一個非常突出的問題。盡管已經(jīng)有比較成熟的變量選擇方法如IV值、Gini指數(shù)等,但是使用這些方法做變量選擇時仍有很多的自變量無法取舍,并且這些自變量之間往往存在著多重共線性。
當(dāng)自變量之間存在多重共線性時,使用普通最小二乘法(Ordinary Least Squares)或者極大似然法(Maximum Likelihood Estimation)往往會放大模型的誤差,弱化模型的預(yù)測精確度,使得模型的穩(wěn)健性欠缺。這時一般采用偏最小二乘(Partial Least Squares,簡稱PLS)方法。其思想是通過對系統(tǒng)中的數(shù)據(jù)信息進(jìn)行分解和篩選,提取最能解釋因變量的主成分的手段來克服多元回歸模型中常見的多重共線性問題。
偏最小二乘模型出現(xiàn)于上個世紀(jì)60年代,經(jīng)濟(jì)學(xué)家Wold H.[1]在給一些變量組擬合因果關(guān)系路徑時首次使用該算法。Wold H.[2]等把偏最小二乘方法用于化學(xué)計量學(xué)中的變量降維來克服變量的多重共線性。Frank[3]等把偏最小二乘方法和主成分分析等方法進(jìn)行比較,說明了偏最小二乘方法是一種有效的降維技術(shù)。在此后,偏最小二乘方法在各個涉及多元分析的領(lǐng)域有了廣泛的應(yīng)用。在國內(nèi),王惠文[4][5]對偏最小二乘思想展開了比較深入的研究,并應(yīng)用該方法來解決實際經(jīng)濟(jì)問題。
本文將針對信用評分中的變量眾多問題展開研究,并建立基于偏最小二乘方法的信用評分模型。
線性回歸模型用自變量的線性組合來解釋因變量的變異,通過普通最小二乘法來估計函數(shù)中的各個參數(shù)。線性回歸在參數(shù)估計中唯一的約束條件為:要使得對樣本中因變量的預(yù)測誤差最小。偏最小二乘回歸模型是對線性回歸模型的一個改進(jìn),該算法兼顧了因變量的變異和自變量的變異兩個目標(biāo)。
偏最小二乘回歸參數(shù)估計的核心思想為:先從自變量中提取能夠最佳解釋因變量的主成分,再對這些主成分應(yīng)用最小二乘法擬合線性回歸模型,通過不斷迭代得到偏最小二乘回歸模型的參數(shù)估計值。

其中,T是根據(jù)自變量提取出來的主成分矩陣,對因變量具有最強(qiáng)的解釋能力;Q是主成分矩陣T的回歸系數(shù)矩陣;E為誤差矩陣,代表了模型的噪音。上述模型也等價于:

對于某一個觀測而言,其預(yù)測值為:

這里,H小于自變量X的維度d。
偏最小二乘算法抽取的潛在主成分不僅可以解釋建模樣本中因變量的變異,還可以解釋自變量的變異。在信用評分模型中,因變量的取值是好客戶還是壞客戶是表現(xiàn)出來的特征,是度量客戶風(fēng)險大小的一個標(biāo)識;而自變量如學(xué)歷、婚姻、職業(yè)等也都是表現(xiàn)出來的特征。自變量往往并不是決定因變量的因素,真正決定客戶好壞的本質(zhì)特性是不可觀測的潛在因素,如客戶的償還意愿、客戶的償還能力等。客戶的償還意愿是他的婚姻、學(xué)歷教育和職業(yè)等特征綜合出來的表現(xiàn)其道德修養(yǎng)的主成分,客戶的償還能力是他的收入、年齡和工齡等特征綜合出來的表現(xiàn)其經(jīng)濟(jì)水平的主成分。基于這種業(yè)務(wù)特點,能夠同時解釋因變量和自變量變異的偏最小二乘模型在業(yè)務(wù)邏輯上更利于信用評分模型的創(chuàng)建。
基于偏最小二乘回歸模型擬合模型和估計參數(shù)的獨特思路,使得它更加能夠解釋信用評分模型要解決的業(yè)務(wù)問題。但是,該模型也存在著一定的局限性,必須對其做出一些修正才能應(yīng)用于信用評分模型的創(chuàng)建。
一般來說,偏最小二乘模型適用于因變量為連續(xù)變量的情況,它估計出的預(yù)測值會在(-∞,+∞)這個范圍內(nèi)變化。在信用評分模型中,因變量是只有兩種可能取值的屬性變量,可以用0(表示好客戶)和1(表示壞客戶)來表示其取值。但是創(chuàng)建信用評分模型是為了得到每個申請人未來成為壞客戶的概率,而不是直接預(yù)測因變量的值到底是1還是0。因此,如信用評分模型輸出形式是預(yù)測概率P(yt=1|X),它就可以被看成是一個連續(xù)變量,只是取值范圍在0到1之間。這樣只要根據(jù)偏最小二乘法的一般原理略加限制修改,就可以讓其適用于信用評分模型。

這樣通過對偏最小二乘回歸模型的預(yù)測值加以限制,就可以從技術(shù)上保證它可以應(yīng)用于信用評分模型的創(chuàng)建。
為了使得偏最小二乘回歸的思想能夠適用于信用評分模型的創(chuàng)建,限制預(yù)測值的偏最小二乘回歸模型從控制預(yù)測值的角度對模型做出了改進(jìn)。除了這種改進(jìn)思路以外,還可以結(jié)合偏最小二乘回歸和Logistic回歸的思想來解決信用評分模型的實際問題。這兩種思想的結(jié)合產(chǎn)生了偏最小二乘Logistic回歸模型,該模型是由V.E.Vinzi和M.Tenenhaus提出的[5]。
4.強(qiáng)化人才保障。一是要做好電子商務(wù)人才的引進(jìn)工作,尤其要重視做好高端人才的引進(jìn)工作,引進(jìn)一批處于電子商務(wù)發(fā)展前沿、運行和管理經(jīng)驗豐富的優(yōu)秀人才和團(tuán)隊。二是強(qiáng)化對電子商務(wù)人才的培訓(xùn)培養(yǎng)工作,注重發(fā)揮社會培訓(xùn)機(jī)構(gòu)的作用,并加強(qiáng)與高校的戰(zhàn)略合作,利用在渝高校的巨大人才資源優(yōu)勢,全方位培訓(xùn)電商從業(yè)人員,運用多種途徑培養(yǎng)高級電子商務(wù)職業(yè)經(jīng)理,打造一支高素質(zhì)的電子商務(wù)專業(yè)人才隊伍。三是探索完善電商人才“留住”機(jī)制,營造市內(nèi)電商人才宜居宜業(yè)良好環(huán)境,為我市電子商務(wù)產(chǎn)業(yè)發(fā)展提供人才保障。
偏最小二乘Logistic回歸模型的主要假設(shè)是:事件發(fā)生的概率的Logit變換可以用主成分來解釋,而這個主成分綜合了自變量的信息,也可以解釋自變量的變異。把偏最小二乘Logistic回歸模型應(yīng)用于信用評分模型,則可以表示為

這里 pt=P(yt=1|xt)表示一個申請人在未來成為壞客戶的概率。偏最小二乘Logistic回歸等價于Logistic回歸加上偏最小二乘回歸模型,它兼顧了兩種模型的優(yōu)點。不管從技術(shù)的角度還是從業(yè)務(wù)的角度分析,源自偏最小二乘思想的偏最小二乘Logistic回歸都非常適用于創(chuàng)建信用評分模型。偏最小二乘方法用影響因變量和自變量的潛在因子來解釋模型,不但能解決信用評分模型中常出現(xiàn)的變量共線性問題,也更符合業(yè)務(wù)邏輯,必然在信用評分領(lǐng)域發(fā)揮獨特的作用。
針對某商業(yè)銀行信用卡的實際數(shù)據(jù),分別利用Logistic回歸、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、決策樹、限制預(yù)測值的偏最小二乘回歸和最小二乘Logistic回歸這六種建模方法分別創(chuàng)建信用評分模型,并比較它們所得的預(yù)測結(jié)果。評判各個模型預(yù)測結(jié)果的優(yōu)點和不足將依據(jù)模型在訓(xùn)練集、測試集和樣本外驗證集上的性能表現(xiàn)。源自實際數(shù)據(jù)的建模樣本中共有24583條觀測,25個自變量和1個因變量。樣本中好壞客戶所占的比例分別為96.75%和3.25%。可以把建模樣本中60%的觀測選擇作為訓(xùn)練集,用于模型的創(chuàng)建;選擇剩下的40%的觀測作為測試集,用于樣本內(nèi)的測試和評價。在分割訓(xùn)練集和測試集的時候采用分層抽樣的方法來保證訓(xùn)練集和測試集中好壞客戶的占比和原來樣本中的占比保持一致。同時,還選擇了一個從其它時間段獲得的記錄數(shù)為14750條的樣本外驗證集來評價模型的準(zhǔn)確性和可推廣性,該數(shù)據(jù)集中的觀測和建模樣本中的觀測完全不重合。樣本外驗證集中的好壞客戶的占比也是96.75:3.25。
實證分析的具體結(jié)果如表1。

表1 各種評分模型建模方法的實證分析結(jié)果
由上面的結(jié)果可知:
(1)Logistic回歸模型創(chuàng)建的信用評分模型在訓(xùn)練集、測試集和樣本外驗證集的AUC統(tǒng)計量分別為0.871、0.862和0.866,K-S統(tǒng)計量分別為0.59、0.574和0.601,GINI系數(shù)的值分別為0.743、0.724和0.732,Lift值分別為3.34、3.302和3.35。訓(xùn)練集的評價統(tǒng)計量取值略優(yōu)于測試集和驗證集的取值,并且這些統(tǒng)計量相對比較穩(wěn)定。這說明了Logistic回歸模型具有穩(wěn)定性的優(yōu)點。
(2)神經(jīng)網(wǎng)絡(luò)模型創(chuàng)建的信用評分模型在訓(xùn)練集、測試集和樣本外驗證集的AUC統(tǒng)計量分別為0.865、0.866和0.872,K-S統(tǒng)計量分別為0.581、0.566和0.587,GINI系數(shù)的值分別為 0.731、0.733 和 0.744,Lift值分別為 4.175、3.364和4.735。這些統(tǒng)計量的值相對比較大,表明了模型有較好的預(yù)測準(zhǔn)確性。一般情況下,都是訓(xùn)練集的評價統(tǒng)計量要優(yōu)于測試集和樣本外驗證集的,但是樣本外驗證集的驗證統(tǒng)計量普遍要高于測試集的,這在一定程度上也表明了神經(jīng)網(wǎng)絡(luò)并不是很穩(wěn)定性的算法。
(3)支持向量機(jī)算法創(chuàng)建的信用評分模型在訓(xùn)練集、測試集和樣本外驗證集的AUC統(tǒng)計量分別為0.87、0.864和0.878,K-S統(tǒng)計量分別為0.585、0.575和0.599,GINI系數(shù)的值分別為0.741、0.728和0.756,Lift值分別為3.507、2.991和1.36。盡管AUC、K-S統(tǒng)計量和GINI系數(shù)表現(xiàn)出了較好的穩(wěn)定性,但是支持向量機(jī)算法的LIFT值相對不穩(wěn)定,這也說明了該算法有微弱的不穩(wěn)定性。
(4)決策樹的結(jié)果相對不理想,它在訓(xùn)練集中有很好的性能表現(xiàn),AUC、K-S統(tǒng)計量和Gini指數(shù)都是最高的,但是到了測試集中這三個指標(biāo)都是最低的,決策樹模型在樣本外驗證集中的表現(xiàn)也是相對比較差的。這些結(jié)果表明用決策樹創(chuàng)建信用評分模型得到的結(jié)果最不穩(wěn)定。
(5)限制預(yù)測值的偏最小二乘回歸模型創(chuàng)建的信用評分模型在訓(xùn)練集、測試集和樣本外驗證集的AUC統(tǒng)計量分別為0.861、0.855和0.87,K-S統(tǒng)計量分別為0.575、0.562和0.586,GINI系數(shù)的值分別為0.722、0.71和0.74,Lift值分別為4.008、2.383和4.132。只有測試集的LIFT值相對偏小,其他統(tǒng)計量的表現(xiàn)都比較穩(wěn)定。這也說明限制預(yù)測值偏最小二乘回歸模型具有穩(wěn)定性的優(yōu)點。
(6)偏最小二乘Logistic回歸模型創(chuàng)建的信用評分模型在訓(xùn)練集、測試集和樣本外驗證集的AUC統(tǒng)計量分別為0.861、0.855和0.866,K-S統(tǒng)計量分別為0.563、0.570和0.577,GINI系數(shù)的值分別為0.722、0.71和0.733,Lift值分別為5.58、5.537和5.576。各個驗證集上的驗證統(tǒng)計量都保持了穩(wěn)定的特點,這說明了偏最小二乘Logistic回歸模型具有穩(wěn)定性的優(yōu)點。同時,該模型的Lift值和其他模型相比取值更大更加穩(wěn)定,這表明偏最小二乘Logistic回歸在識別最壞的壞客戶的能力要優(yōu)于其他算法。
總而言之,以上六種建模方法均可用來創(chuàng)建信用評分模型,除了決策樹以外,其他五種建模方法創(chuàng)建出的模型效果各有優(yōu)劣。實證研究的結(jié)果也表明,限制預(yù)測值的偏最小二乘回歸和偏最小二乘Logistic回歸模型這兩種基于偏最小二乘思想的信用評分模型具有良好的預(yù)測效果,值得進(jìn)一步推廣。
信用評分模型的建模方法不拘一格,現(xiàn)代常用的統(tǒng)計模型和機(jī)器學(xué)習(xí)算法都可以用來創(chuàng)建信用評分模型。每一種建模方法各有優(yōu)缺點,在使用的過程中必須根據(jù)實際需要來決定選用哪一種算法。同時,采用不同的建模方法來創(chuàng)建信用評分模型可以互相驗證彼此的準(zhǔn)確性。本文提出的限制預(yù)測值的偏最小二乘回歸模型和和偏最小二乘Logistic回歸模型用潛在的因子同時解釋了因變量和自變量的變異,在實際運用中具有很好的可操作性,實證分析的結(jié)果也表明,用這兩類這兩種基于偏最小二乘思想的信用評分模型具有比較好的性能表現(xiàn)。
[1] Wold,H.Estimation of Principal Components and Related Models by Iterative Least Squares[A].In P.R.Krishnaiah,ed.Multivariate Analy?sis[C].New York:Academic Press,1966.
[2] Wold,H.Soft Modelling by Latent Variables:the Non-linear Iterative Partial Least Squares(NIPALS)Approach,Papers in Honor of M.S.Bartlett[C].Academic Press,London,1975.
[3] Frank,I.E.,Friedman,J.H.A Statistical View of Chemometrics Re?gression Tools[J].Technometrics,1993,(35).
[4] 王惠文.偏最小二乘回歸方法及其應(yīng)用[M].北京:國防工業(yè)出版社,1999.
[5] 王惠文等.偏最小二乘回歸的線性與非線性方法[M].北京:國防工業(yè)出版社,2006.