一、引言
個人住房貸款是指貸款人向借款人發放的用于購買各類自用住房的貸款,具體是指購房人在向房地產開發商購買房產時,自己先交首期房款,其余部分由銀行貸款墊付,并用所購買的房產權益作為抵押,按月償還貸款本息(月供)的一種貸款方式。由于個人住房貸款不良率低,有利于商業銀行資產結構的改善,所以我國商業銀行一般認為個人住房貸款是銀行的優質貸款,長期以來其風險沒有引起足夠的重視,直到最近幾年我國商業銀行事件頻繁發生,關于個人住房貸款風險的討論才開始升溫。從近幾年的情況來看,在個人住房貸款的風險中,有一半以上是來源于信用風險。而信用風險的評估是商業銀行信用風險管理的基礎和關鍵環節,因此,怎樣分析貸款人的信用狀況,對信貸管理者如何衡量個人住房貸款的風險具有極大的價值。本文利用交通銀行長沙分行的個人住房貸款資料,建立logistic回歸模型,其目的是為商業銀行發放個人住房貸款需要對個人進行信用評估時提供一個初步的信用評估模型,同時希望通過建立信用評估模型的過程,發現目前中國商業銀行在建立信用評估模型時遇到的難點、問題,并探索解決辦法。
二、Logistic回歸分析法
假設用表示發放一筆貸款這一事件,用Y=1表示到期后借款人違約(通常稱為一個“壞”的貸款),Y=0表示借款人不違約(通常稱為一個“好”的貸款)。我們的目的是利用已有的樣本資料建立模型,對借款人違約(即Y=1)的概率p進行預測。
在Logistic回歸模型中,假設:
Logit(p)=ln(p1-p)=β0+β1x1+…+βkxk
其中p表示Y=1(即“壞”的貸款)的概率,xi是描述借款人特征的一些指標(這些指標被認為與違約的概率有關,又稱為解釋變量),p/(1-p)稱為發生比(odds)。
我們可以利用已有的樣本指標對模型中的參數進行估計,并對模型進行相關的統計檢驗及計量經濟檢驗。待得到一個較為穩定的、預測準確性較高的模型后,模型即可投入使用:即一個新的借款人的相關指標數據輸入模型,對其違約發生比(或違約概率)進行預測。在實際使用時,通常將違約發生比或違約概率通過某種線性變換轉換成分數,銀行可以根據申請人的信用得分情況決定是否發放貸款及發放的額度。
三、實證分析
(一)變量選取與數據的處理
研究選取的指標全部來自于某銀行個人住房貸款資料冊,在參考了已有文獻以及考慮到盡量保留原始指標的基礎上,本文選取了性別、年齡、教育程度、戶籍性質、婚姻狀況、供養人口、個人月收入、家庭年收入、單位性質、職務、職稱、目前有無使用交行產品、貸款期限、貸款金額,共14個指標進入Logistic回歸模型作為自變量;客戶質量作為因變量。由于15個變量都是分類變量,在建立模型時必須將它們用虛擬變量來表示,具體情況如下:
1.性別(X1):男,X1=1;女,X1=2。
2.年齡(X2):30歲以下(不包括30歲),X2=1;30-40歲(包括30歲,不包括40歲),X2=2;40歲以上(包括40歲),X2=3。
3.教育程度(X3):研究生以上,X3=1;大學本科,X3=2;大學大專,X3=3;中專及高中,X3=4;其他,X3=5。
4.戶籍性質(X4):本地,X4=1;外地,X4=2。
5.婚姻狀況(X5):未婚,X5=1;已婚,X5=2;離異,X5=3;喪偶,X5=4。
6.供養人口(X6):0個,X6=0;1個,X6=1;2個,X6=2;3個及以上,X6=3。
7.個人月收入(X7):2千以下(不包括2千),X7=1;2千-4千(包括2千,不包括4千),X7=2;4千-6千,(包括4千,不包括6千),X7=3;6千以上(包括6千),X7=4。
8.家庭年收入(X8):5萬以下(不包括5萬),X8=1;5萬-10萬(包括5萬,不包括10萬),X8=2;10萬-15萬(包括10萬,不包括15萬),X8=3;15萬-20萬(包括15萬,不包括20萬),X8=4;20萬-25萬(包括20萬,不包括25萬),X8=5;25萬以上(包括25萬),X8=6。
9.單位性質(X9):行政事業單位,X9=1;企業,X9=2;個體私營,X9=3;其他X9=4。
10.職務(X10):高級領導,X10=1;中級領導,X10=2;一般員工,X10=3;其他,X10=4。
11.職稱(X11):高級,X11=1;中級,X11=2;初級,X11=3;無,X11=4。
12.目前有無使用交行產品(X12):有,X12=1;無,X12=2。
13.貸款期限(X13):10年,X13=1;15年,X13=2;20年,X13=3;20年以上,X13=4。
14.貸款金額(X14):10萬以下(不包括10萬),X14=1;10萬-20萬(包括10萬,不包括20萬),X14=2;20萬-30萬(包括20萬,不包括30萬),X14=3;30萬-40萬(包括30萬,不包括40萬),X14=4;40萬以上(包括40萬),X14=5。
15.客戶信譽(Y):好,Y=0;壞,Y=1。
其中需要說明的是:年齡(X2)指的是貸款人申請貸款時的年齡。供養人口(X6)指的是貸款人撫養孩子的個數,不包括父母。家庭年收入(X8)的算法是如果貸款人未婚、離婚或喪偶,就只算自己的年收入,如果貸款人已婚,就把自己和配偶的年收入加一起作為家庭年收入??蛻粜抛u(Y)好與壞的判斷標準有兩個,人民銀行對貸款人的征信報告和貸款人的還款記錄,由銀行的專業人員綜合以上兩方面對客戶信譽進行好與壞的評定。
本文從某銀行個人住房貸款的9000多個客戶中采用簡單隨機抽樣的方法選取500個樣本,再對500份原始資料中的各項指標用虛擬變量來表示,最后整理匯總(見附表1)。所有數據的處理都運用統計軟件SAS進行處理。
(二)因變量與自變量的二元分析
二元分析對連續性變量來說會通過擬和單變量Logistic模型來檢驗自變量的顯著性,而對名義變量或序次變量則實行卡方顯著性檢驗。由于本文在前面已經對變量進行過預處理,因此所有的自變量都已轉換成名義變量或序次變量,所以本文對這些變量進行了卡方顯著性檢驗,并選擇所有二元分析結果中P值小于0.25的變量作為后續的建模分析的侯選變量,這里之所以選擇P值為0.25是因為如果不選擇大一點的顯著性水平,有可能在建立模型時會遺漏一些重要的自變量,這些重要的自變量可能在做二元分析時會呈現與因變量弱相關的關系,但當它們與其它的變量放在一起的時候就會顯示出它們的重要性,所以放棄這些重要的變量就會導致模型的偏差。
通過逐一對所有的自變量進行卡方顯著性檢驗的二元分析,并按照上文論述的選取標準,本文從中選取了以下幾個變量作為候選變量:性別、戶籍性質、個人月收入、家庭年收入、單位性質、職務、職稱、貸款期限、貸款金額。具體的檢驗結果見表1。

(三)Logistic回歸模型的建立
在確定了建立模型的候選變量后,下一步我們需要對利用這些變量建立Logistic回歸模型,在這個過程中我們首先要考慮的是選擇變量進入模型的方法,通常的會有三種方法來完成這個任務:第一個是Forward方法,這一方法是根據經驗,先選定一個回歸變量,然后逐個引入其他回歸變量,“只進不出”,其優點是計算量小,缺點是可能將最優方程遺漏;第二個是Backward方法,這一方法是先引進所有的變量,然后逐一淘汰,“只出不進”,選出估計的標準誤差最小者,優點是計算量小,缺點也是可能將最優方程遺漏;第三個是Stepwise方法,這一方法的基本思想是,對于全部回歸變量,按照其對因變量Y的影響程度的大小,從大到小逐次逐個引入到線性回歸方程,每引入一個回歸變量后,均對回歸系數進行檢驗,一旦發現作用不顯著的回歸變量,就加以剔除,如此往復,直至無法進入新自變量為止,較之Forward、Forward方法,這一方法計算量會增加許多,但不會遺失“最優方程”。在本文中我們選擇第三種方法,即Stepwise方法,顯著性水平保持默認的0.05(如果有需要,可以調整來比較獲取不同的結果以得到比較理想的模型),最后的模型結果為性別(X1)、家庭年收入(X8)、職稱(X11)以及貸款期限(X13)進入了最終的模型當中,具體的過程可見附件的Logistic模型結果,根據這個結果本文給出了下面的擬合模型:
Logit(p)=-0.0641-0.4943x1-0.375x8+0.4106x11-0.3959x13
這是加法模型,為了更好的進行系數的解釋,需要對兩邊進行指數轉換,結果會轉換為事件發生比與以自然指數為底的乘法模型,這樣就可以對模型系數進行合理的解釋了,首先說明系數的正負對發生比的影響方向,正的系數值會使得當自變量值的增加時對應的發生比增加,相反,負的系數值會使得當自變量值增加時對應的發生比減少,從本文的模型結果來看,其中的自變量對發生比的影響都符合現實情況,即家庭年收入越高,那么相應的發生比(為“壞”客戶的可能性)就會越低(在其它條件不變的情況下),對變量性別來說,女性的信譽會比男性的好,本文中的模型反映的也是這種結果,職稱在本文的模型中影響也符合行業經驗的,即職稱越高,其信譽也就越好,最后是貸款期限的影響,這個因素看起來可能不會那么明顯,但是只要稍微轉換一下思考的角度就可以給出合理的解釋,當貸款期限越長的時候,一般來說,其每期供款額就會越少(這里可能還需要考慮貸款金額),所以其還款壓力相應的就會減少,這樣的話,其變“壞”的可能性就會降低,即其會表現出好的信譽。
四、模型的評價
模型的評價指標有很多,它們從不同的角度來對建立的模型進行評價,由于本文建立的Logistic模型是關于預測違約的模型,因此本文對模型的評價側重于模型的預測的準確性,對準確性的度量有三種不同的方法:(1)類R2指標,該指標類似與線性回歸分析中的R2;(2)預測概率與觀測值之間的關聯,有若干指標來度量這種關聯性;(3)分類表,這種方法是現在用得比較多的一種方法,這個方法的原理就是利用已經建立的Logistic模型來對違約概率進行預測,并把這些預測概率與預先設定的一個闕值來進行比較,從而來決定把觀測分類為發生或不發生,同時把這些分類結果與預分類的觀測組成一個分類表來計算該Logistic模型預測的準確性,其中會有幾個指標來度量這種準確性。
本文將會運用第三種方法分類表法來對模型的準確性進行評價,在運用這種方法的時候有一個問題需要解決,很多的時候,我們建立的Logistic模型對建模樣本的預測分類是比較準確的,但我們建立預測模型的最終的目的是要把它用于非建模樣本或未來的客戶上,而往往當模型用于這些樣本的時候會表現出很低的準確性,這就是所謂的“過度擬合”的問題,要解決這個問題我們一般有兩種方法可以運用:第一種方法被稱為“交叉確認”,它的思想是把樣本分為以下幾個部分:訓練集、測試集和驗證集,它們扮演著不同的角色,訓練集用來建立模型,測試集用來調整模型以得到最佳模型,而驗證集則用于對模型的各個方面進行評價,包括模型的準確性。使用這種方法的前提是樣本量需要足夠大,因為如果樣本量太少會導致分割樣本后每種類型的樣本集比較小,從而會導致結果的不準確,由于本文所擁有的樣本量為500,顯然,在把它分割為三個部分或兩個部分后會使得每部分的樣本量不夠,為此我們考慮另外一種方法,也就是下面將要介紹的第二種方法;這種方法被稱為刀切法,它的原理是這樣的:在原始數據中省略一個觀測,然后運行Logistic模型,計算這一省略觀測的預測概率,并根據觀測值和預測值進行分類,重復這一過程,直到每個觀測得到分類。在本文中我們設定的闕值從0.05到1的區間,并且間隔為0.05,最后的結果具體可見附件分類表,從該分類表中可以看出,在闕值為0.5的時候正確率是最高的,并且通常的情況下,我們也是取0.5為闕值,所以在本文我們最終的確定的闕值為0.5,其對應的正確率為78.6%。這一方面說明模型有較好的預測精度,但同時也說明了模型的預測能力還需要進一步提高。模型的預測性沒有達到比較完美的程度,其主要原因可能是:(1)對客戶各方面信息的考察還不夠全面;(2)由于目前我國的個人征信體系還沒有完全建立起來,銀行對客戶信譽好與壞的判斷還存在著較大的主觀性。因此,對商業銀行來說,除了對信貸工作人員進行專業培訓外,還應該注意盡可能全面地考察客戶(包括潛在客戶)的貸款申請信息及交易信息,從而可以對客戶的特征進行更加全面的分析和了解,為建立信用評估模型挑選特征變量時有更多的選擇,提高模型的預測精度。
參考文獻:
[1]石慶焱.個人信用評分的主要模型與方法綜述[J],統計研究,2003,(8).
[2]王濟川,郭志剛.Logistic回歸模型:方法與應用[M],北京:高等教育出版社,2001.
[3]楊軍.商業銀行客戶評價[M],北京:中國財經經濟出版社,1999.
(作者單位:交通銀行長沙分行)