999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于偏最小二乘方法的信用評分模型

2012-07-25 08:14:18魏秋萍張景肖
統計與決策 2012年10期
關鍵詞:方法模型

魏秋萍,張景肖

0 引言

在建立信用評分模型時,備選的自變量過多是一個非常突出的問題。盡管已經有比較成熟的變量選擇方法如IV值、Gini指數等,但是使用這些方法做變量選擇時仍有很多的自變量無法取舍,并且這些自變量之間往往存在著多重共線性。

當自變量之間存在多重共線性時,使用普通最小二乘法(Ordinary Least Squares)或者極大似然法(Maximum Likelihood Estimation)往往會放大模型的誤差,弱化模型的預測精確度,使得模型的穩健性欠缺。這時一般采用偏最小二乘(Partial Least Squares,簡稱PLS)方法。其思想是通過對系統中的數據信息進行分解和篩選,提取最能解釋因變量的主成分的手段來克服多元回歸模型中常見的多重共線性問題。

偏最小二乘模型出現于上個世紀60年代,經濟學家Wold H.[1]在給一些變量組擬合因果關系路徑時首次使用該算法。Wold H.[2]等把偏最小二乘方法用于化學計量學中的變量降維來克服變量的多重共線性。Frank[3]等把偏最小二乘方法和主成分分析等方法進行比較,說明了偏最小二乘方法是一種有效的降維技術。在此后,偏最小二乘方法在各個涉及多元分析的領域有了廣泛的應用。在國內,王惠文[4][5]對偏最小二乘思想展開了比較深入的研究,并應用該方法來解決實際經濟問題。

本文將針對信用評分中的變量眾多問題展開研究,并建立基于偏最小二乘方法的信用評分模型。

1 基于偏最小二乘方法的信用評分模型

線性回歸模型用自變量的線性組合來解釋因變量的變異,通過普通最小二乘法來估計函數中的各個參數。線性回歸在參數估計中唯一的約束條件為:要使得對樣本中因變量的預測誤差最小。偏最小二乘回歸模型是對線性回歸模型的一個改進,該算法兼顧了因變量的變異和自變量的變異兩個目標。

偏最小二乘回歸參數估計的核心思想為:先從自變量中提取能夠最佳解釋因變量的主成分,再對這些主成分應用最小二乘法擬合線性回歸模型,通過不斷迭代得到偏最小二乘回歸模型的參數估計值。

其中,T是根據自變量提取出來的主成分矩陣,對因變量具有最強的解釋能力;Q是主成分矩陣T的回歸系數矩陣;E為誤差矩陣,代表了模型的噪音。上述模型也等價于:

對于某一個觀測而言,其預測值為:

這里,H小于自變量X的維度d。

偏最小二乘算法抽取的潛在主成分不僅可以解釋建模樣本中因變量的變異,還可以解釋自變量的變異。在信用評分模型中,因變量的取值是好客戶還是壞客戶是表現出來的特征,是度量客戶風險大小的一個標識;而自變量如學歷、婚姻、職業等也都是表現出來的特征。自變量往往并不是決定因變量的因素,真正決定客戶好壞的本質特性是不可觀測的潛在因素,如客戶的償還意愿、客戶的償還能力等??蛻舻膬斶€意愿是他的婚姻、學歷教育和職業等特征綜合出來的表現其道德修養的主成分,客戶的償還能力是他的收入、年齡和工齡等特征綜合出來的表現其經濟水平的主成分?;谶@種業務特點,能夠同時解釋因變量和自變量變異的偏最小二乘模型在業務邏輯上更利于信用評分模型的創建。

1.1 限制預測值的偏最小二乘回歸模型

基于偏最小二乘回歸模型擬合模型和估計參數的獨特思路,使得它更加能夠解釋信用評分模型要解決的業務問題。但是,該模型也存在著一定的局限性,必須對其做出一些修正才能應用于信用評分模型的創建。

一般來說,偏最小二乘模型適用于因變量為連續變量的情況,它估計出的預測值會在(-∞,+∞)這個范圍內變化。在信用評分模型中,因變量是只有兩種可能取值的屬性變量,可以用0(表示好客戶)和1(表示壞客戶)來表示其取值。但是創建信用評分模型是為了得到每個申請人未來成為壞客戶的概率,而不是直接預測因變量的值到底是1還是0。因此,如信用評分模型輸出形式是預測概率P(yt=1|X),它就可以被看成是一個連續變量,只是取值范圍在0到1之間。這樣只要根據偏最小二乘法的一般原理略加限制修改,就可以讓其適用于信用評分模型。

這樣通過對偏最小二乘回歸模型的預測值加以限制,就可以從技術上保證它可以應用于信用評分模型的創建。

1.2 偏最小二乘Logistic回歸模型

為了使得偏最小二乘回歸的思想能夠適用于信用評分模型的創建,限制預測值的偏最小二乘回歸模型從控制預測值的角度對模型做出了改進。除了這種改進思路以外,還可以結合偏最小二乘回歸和Logistic回歸的思想來解決信用評分模型的實際問題。這兩種思想的結合產生了偏最小二乘Logistic回歸模型,該模型是由V.E.Vinzi和M.Tenenhaus提出的[5]。

4.強化人才保障。一是要做好電子商務人才的引進工作,尤其要重視做好高端人才的引進工作,引進一批處于電子商務發展前沿、運行和管理經驗豐富的優秀人才和團隊。二是強化對電子商務人才的培訓培養工作,注重發揮社會培訓機構的作用,并加強與高校的戰略合作,利用在渝高校的巨大人才資源優勢,全方位培訓電商從業人員,運用多種途徑培養高級電子商務職業經理,打造一支高素質的電子商務專業人才隊伍。三是探索完善電商人才“留住”機制,營造市內電商人才宜居宜業良好環境,為我市電子商務產業發展提供人才保障。

偏最小二乘Logistic回歸模型的主要假設是:事件發生的概率的Logit變換可以用主成分來解釋,而這個主成分綜合了自變量的信息,也可以解釋自變量的變異。把偏最小二乘Logistic回歸模型應用于信用評分模型,則可以表示為

這里 pt=P(yt=1|xt)表示一個申請人在未來成為壞客戶的概率。偏最小二乘Logistic回歸等價于Logistic回歸加上偏最小二乘回歸模型,它兼顧了兩種模型的優點。不管從技術的角度還是從業務的角度分析,源自偏最小二乘思想的偏最小二乘Logistic回歸都非常適用于創建信用評分模型。偏最小二乘方法用影響因變量和自變量的潛在因子來解釋模型,不但能解決信用評分模型中常出現的變量共線性問題,也更符合業務邏輯,必然在信用評分領域發揮獨特的作用。

2 實證分析

針對某商業銀行信用卡的實際數據,分別利用Logistic回歸、神經網絡、支持向量機、決策樹、限制預測值的偏最小二乘回歸和最小二乘Logistic回歸這六種建模方法分別創建信用評分模型,并比較它們所得的預測結果。評判各個模型預測結果的優點和不足將依據模型在訓練集、測試集和樣本外驗證集上的性能表現。源自實際數據的建模樣本中共有24583條觀測,25個自變量和1個因變量。樣本中好壞客戶所占的比例分別為96.75%和3.25%??梢园呀颖局?0%的觀測選擇作為訓練集,用于模型的創建;選擇剩下的40%的觀測作為測試集,用于樣本內的測試和評價。在分割訓練集和測試集的時候采用分層抽樣的方法來保證訓練集和測試集中好壞客戶的占比和原來樣本中的占比保持一致。同時,還選擇了一個從其它時間段獲得的記錄數為14750條的樣本外驗證集來評價模型的準確性和可推廣性,該數據集中的觀測和建模樣本中的觀測完全不重合。樣本外驗證集中的好壞客戶的占比也是96.75:3.25。

實證分析的具體結果如表1。

表1 各種評分模型建模方法的實證分析結果

由上面的結果可知:

(1)Logistic回歸模型創建的信用評分模型在訓練集、測試集和樣本外驗證集的AUC統計量分別為0.871、0.862和0.866,K-S統計量分別為0.59、0.574和0.601,GINI系數的值分別為0.743、0.724和0.732,Lift值分別為3.34、3.302和3.35。訓練集的評價統計量取值略優于測試集和驗證集的取值,并且這些統計量相對比較穩定。這說明了Logistic回歸模型具有穩定性的優點。

(2)神經網絡模型創建的信用評分模型在訓練集、測試集和樣本外驗證集的AUC統計量分別為0.865、0.866和0.872,K-S統計量分別為0.581、0.566和0.587,GINI系數的值分別為 0.731、0.733 和 0.744,Lift值分別為 4.175、3.364和4.735。這些統計量的值相對比較大,表明了模型有較好的預測準確性。一般情況下,都是訓練集的評價統計量要優于測試集和樣本外驗證集的,但是樣本外驗證集的驗證統計量普遍要高于測試集的,這在一定程度上也表明了神經網絡并不是很穩定性的算法。

(3)支持向量機算法創建的信用評分模型在訓練集、測試集和樣本外驗證集的AUC統計量分別為0.87、0.864和0.878,K-S統計量分別為0.585、0.575和0.599,GINI系數的值分別為0.741、0.728和0.756,Lift值分別為3.507、2.991和1.36。盡管AUC、K-S統計量和GINI系數表現出了較好的穩定性,但是支持向量機算法的LIFT值相對不穩定,這也說明了該算法有微弱的不穩定性。

(4)決策樹的結果相對不理想,它在訓練集中有很好的性能表現,AUC、K-S統計量和Gini指數都是最高的,但是到了測試集中這三個指標都是最低的,決策樹模型在樣本外驗證集中的表現也是相對比較差的。這些結果表明用決策樹創建信用評分模型得到的結果最不穩定。

(5)限制預測值的偏最小二乘回歸模型創建的信用評分模型在訓練集、測試集和樣本外驗證集的AUC統計量分別為0.861、0.855和0.87,K-S統計量分別為0.575、0.562和0.586,GINI系數的值分別為0.722、0.71和0.74,Lift值分別為4.008、2.383和4.132。只有測試集的LIFT值相對偏小,其他統計量的表現都比較穩定。這也說明限制預測值偏最小二乘回歸模型具有穩定性的優點。

(6)偏最小二乘Logistic回歸模型創建的信用評分模型在訓練集、測試集和樣本外驗證集的AUC統計量分別為0.861、0.855和0.866,K-S統計量分別為0.563、0.570和0.577,GINI系數的值分別為0.722、0.71和0.733,Lift值分別為5.58、5.537和5.576。各個驗證集上的驗證統計量都保持了穩定的特點,這說明了偏最小二乘Logistic回歸模型具有穩定性的優點。同時,該模型的Lift值和其他模型相比取值更大更加穩定,這表明偏最小二乘Logistic回歸在識別最壞的壞客戶的能力要優于其他算法。

總而言之,以上六種建模方法均可用來創建信用評分模型,除了決策樹以外,其他五種建模方法創建出的模型效果各有優劣。實證研究的結果也表明,限制預測值的偏最小二乘回歸和偏最小二乘Logistic回歸模型這兩種基于偏最小二乘思想的信用評分模型具有良好的預測效果,值得進一步推廣。

3 結論

信用評分模型的建模方法不拘一格,現代常用的統計模型和機器學習算法都可以用來創建信用評分模型。每一種建模方法各有優缺點,在使用的過程中必須根據實際需要來決定選用哪一種算法。同時,采用不同的建模方法來創建信用評分模型可以互相驗證彼此的準確性。本文提出的限制預測值的偏最小二乘回歸模型和和偏最小二乘Logistic回歸模型用潛在的因子同時解釋了因變量和自變量的變異,在實際運用中具有很好的可操作性,實證分析的結果也表明,用這兩類這兩種基于偏最小二乘思想的信用評分模型具有比較好的性能表現。

[1] Wold,H.Estimation of Principal Components and Related Models by Iterative Least Squares[A].In P.R.Krishnaiah,ed.Multivariate Analy?sis[C].New York:Academic Press,1966.

[2] Wold,H.Soft Modelling by Latent Variables:the Non-linear Iterative Partial Least Squares(NIPALS)Approach,Papers in Honor of M.S.Bartlett[C].Academic Press,London,1975.

[3] Frank,I.E.,Friedman,J.H.A Statistical View of Chemometrics Re?gression Tools[J].Technometrics,1993,(35).

[4] 王惠文.偏最小二乘回歸方法及其應用[M].北京:國防工業出版社,1999.

[5] 王惠文等.偏最小二乘回歸的線性與非線性方法[M].北京:國防工業出版社,2006.

猜你喜歡
方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
學習方法
可能是方法不對
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 五月激情婷婷综合| 亚洲日韩高清无码| 亚洲人成网站色7799在线播放 | 青青草91视频| 欧美午夜在线播放| 最近最新中文字幕在线第一页| 国产无遮挡猛进猛出免费软件| 亚洲欧美自拍一区| 国产不卡在线看| 国产小视频免费观看| 精品视频在线一区| 国产91久久久久久| 国产亚洲欧美在线人成aaaa| 亚洲国产精品日韩专区AV| 国产白浆一区二区三区视频在线| 99er这里只有精品| 亚洲嫩模喷白浆| h视频在线播放| 一本久道久综合久久鬼色| 综合社区亚洲熟妇p| 99色亚洲国产精品11p| 亚洲欧美不卡中文字幕| 丝袜无码一区二区三区| 国产精品美女免费视频大全| 亚洲VA中文字幕| 丝袜久久剧情精品国产| 亚洲国产成人久久精品软件| 毛片免费网址| 欧美亚洲激情| 四虎影视8848永久精品| 久久久精品国产亚洲AV日韩| 欧美日韩国产综合视频在线观看 | 亚洲熟女中文字幕男人总站| 欧美国产视频| 99热这里只有精品在线播放| 制服丝袜一区| 91久久国产成人免费观看| 91成人在线观看| 色网在线视频| 国产女人在线视频| 四虎永久免费地址| 毛片久久久| 国产毛片基地| 99精品免费欧美成人小视频| 91蜜芽尤物福利在线观看| 少妇极品熟妇人妻专区视频| 99久久亚洲精品影院| 51国产偷自视频区视频手机观看| 国产欧美日韩91| 一本一道波多野结衣av黑人在线| 国产精品亚欧美一区二区| 欧美日韩国产一级| 丰满人妻一区二区三区视频| 香蕉视频在线精品| 中文字幕精品一区二区三区视频| 色综合天天操| 无码网站免费观看| 中国国产A一级毛片| 久久久久久高潮白浆| 韩日午夜在线资源一区二区| 精品99在线观看| 欧美国产在线看| 国产麻豆另类AV| 永久免费无码日韩视频| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 久久无码av三级| 国产综合日韩另类一区二区| 日本免费新一区视频| 一级毛片基地| 欧美日韩福利| 五月婷婷精品| 久久影院一区二区h| 精品一区二区三区波多野结衣| 麻豆精品久久久久久久99蜜桃| 国产91丝袜在线播放动漫 | 新SSS无码手机在线观看| 亚洲美女视频一区| 亚洲欧洲美色一区二区三区| 国产精品9| 青青青国产视频| 中日韩欧亚无码视频| 亚洲成a∧人片在线观看无码|