李新華 余開朝 凌靈



摘 ?要: 本文采用阿里云網站天池實驗室中的公開部分個人信貸面板數據資料,利用STATA軟件實現二分類Logistics Regression建模,對個人信貸信用風險進行了研究。研究結果顯示:該模型的擬合能力較好,對違約的識別正確率較高,達到80.26%。在0.95的置信區間內,工齡、信用卡負債和負債率對信用違約風險有顯著的影響,而其他的因素的影響不是很明顯。借款公司可借助該模型評估貸款客戶的違約風險,改善貸款的質量。
關鍵詞: 信用風險;STATA軟件;Logistic模型
中圖分類號: O212.4;TP39 ? ?文獻標識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2020.08.044
本文著錄格式:李新華,余開朝,凌靈. 基于二分類LR的個人信貸違約風險評估[J]. 軟件,2020,41(08):165-167
【Abstract】: The published personal credit panel data in tianchi laboratory of aliyun website were used to study the credit risk of personal ?credit in this paper, and a dichotomy Logistics Regression model was implemented by using STATA software. The results show that the model has a good fitting ability and a high recognition accuracy of default (80.26%). Within the confidence interval of 0.95 years of service, credit card debt and debt ratio had significant effects on credit default risk, while other factors were less significant. Loan companies can use this model to evaluate the default risk of loan customers and improve the quality of loans.
【Key words】: The credit risk; STATA software; Logistic model
0 ?引言
隨著我國經濟體制和政策不斷改革創新,信用經濟和市場得到了迅速的發展和開放。另一方面,互聯網不斷創新發展,廣泛普及,使得各種網貸平臺應運而生,由于其便利和受眾廣等因素受到客戶的認可。但我國相關的經濟政策仍需不斷的完善,公眾信用素養需進一步提高,信用經濟和市場需穩定和發展。對于借貸而言,由于借貸雙方之間的信息不對稱性、不透明性,借款人違約的風險增加。因此,信用風險評估受到各界的關注。建立行之有效的評估模型和體系,對相關的信用數據進行科學研究,來降低風險,提高貸款質量。本文利用阿里云網站天池實驗室中的公開部分個人信貸數據資料,采用二分類LR(Logistics Regression,LR)模型,識別主要影響因素,為借貸方開展信貸業務,評估違約風險提供一定的參考。
信用風險評估的研究可從定性化和定量化來進行,王穎基于模糊綜合評價模型對農戶信貸風險進行評估[1]、宋麗平等人建立BP神經網絡模型預測P2P網貸風險[1]、王華松基于貝葉斯網絡建立信用評估模型[2]和羅方科等人對廣大銀行某分行的信貸風險進行評估[3]。席衛華用LR模型設計廢舊物資處理系統[5]。關于LR模型使用的研究表明,LR模型因為限制條件較少,便于操作,預測性較好等原因,使用較為廣泛,可在信貸違約風險評估上取得良好的效果。
1 ?LR模型簡介
LR分析,作為一種廣義的線性模型,用途比較廣泛。根據因變量的類型,模型中的可以分為多分類LR和常用的二分類LR。LR不局限在類條件概率服從Normal Distribution,也不要求等協方差等作為前提假設,只需要類條件概率服從Exponential Family of Distributions,可知該回歸模型的魯棒性較強,而對于最佳回歸系數,則使用最大似然法來確定。
2 ?基于二分類LR的個人信貸風險評估模型
2.1 ?數據變量處理
為建立二分類LR的個人信貸風險評估模型,作者采用阿里云天池實驗室中的公開部分個人信貸面板數據作為實證數據來源,其中包含有效數據699條,因頁面有限,僅展示部分數據如表1,其主要變量包括:年齡、教育、工齡、收入、負債率、信用卡負債和其他負債為自變量,違約作為因變量(1為違約,0為不違約),變量對應的量化或編碼如表2所示。
2.2 ?模型的建立
采用STATA軟件進行二分類LR計算,考慮到在置信區間內,自變量對結果是否存在明顯影響,本文采用逐步后退法對其進行回歸,剔除變量過程如圖2,最終得到回歸OR值、回歸系數、標準差、顯著性水平等結果如圖3,可得違約的LR方程可以表示為。
自變量工齡、信用卡負債和其他負債對應的OR值分別為0.783703、1.646704和1.092159。對于自變量的假設性檢驗,結果可以看出工齡(P=0.0000)、信用卡負債(P=0.0000)和負債率(P=0.0000)對違約有明顯的影響,對應的回歸系數為–0.2437251,0.498776和0.0881566,常數項的回歸系數為–1.229872。即工齡的系數為負,表示該變量對違約有負向的影響,該變量在定義范圍內越大違約風險越低,反知信用卡負債和負債率對違約有正向的影響,該變量越大違約風險越大。LR逐步回歸過程中,剔除P值比0.05大的因變量,可知年齡、教育、其他負債和收入對違約在95%的置信區間內,無明顯的影響。
2.3 ?模型的檢驗
為進一步評估LR模型(3)的科學合理性和預測的效果,利用以下檢驗方法對其進行檢驗和分析。
(1)擬合優度檢驗:利用擬合優度來評估預測結果與實際結果的效果,在STATA軟件中運用lfit命令進行檢驗,結果如圖4:可知擬合優度的P值為0.9720,即回歸模型與觀測值之間的擬合程度是比較高的,可以認為建立的回歸模型是合理的。
(2)交叉驗證:在STATA軟件中利用lstat命令進行交叉驗證,結果如圖5:可知模型的敏感性為45.60%、特異性為92.46%,LR模型的陽性、陰性預測值分別為68.03%、82.84%,總的結果預測分類正確率為80.26%。
(3)靈敏度和特性度圖檢驗:利用STATA中的lsens命令繪制出靈敏度、特異度的關系圖(如圖6所示),可以更直觀地看出二者與切分點的關系和位置。其靈敏度和特異度的相交點對應的P值約為0.3,得知以此為分割點可得到最佳得結果。
ROC檢驗:利用STATA中的lroc命令繪制出本回歸模型的ROC曲線(圖7所示),且其曲線下面積AUC值為0.8421,說明用該模型預測具有一定的準確性。
3 ?結論
在目前的研究基礎上,利用STATA軟件對個人信貸違約風險數據進LR回歸,可得以下主要結論:確定的回歸模型可以用于初步的違約風險評估,具有一定的科學合理性。其中有顯著影響因素是工齡的長短、信用卡負債的高低和負債率的大小,而且工齡的長短對違約有著負向影響,工齡越大則違約風險越小;信用卡負債越高和負債率越小則違約風險越大。由于收集的資料有限,考慮的因素不夠全面,可能影響評估結果。
參考文獻
[1] 王穎. 中國農戶小額信貸信用風險評估研究——基于模糊綜合評價模型[J]. 西南金融, 2010(8): 60-62.
[2] 宋麗平, 張利坤, 徐瑋. P2P網絡借貸個人信用風險評估[J]. 財會月刊, 2015(35): 94-96.
[3] 王華松. 基于貝葉斯網絡的SVM客戶信用評估模型研究[D]. 遼寧工程技術大學, 2017.
[4] 羅方科, 陳曉紅. 基于Logistic回歸模型的個人小額貸款信用風險評估及應用[J]. 財經理論與實踐, 2017, 38(1): 30-35.
[5] 席衛華. 基于多因素Logistic回歸分析的廢舊物資處理系統設計與實現[J]. 軟件, 2018, 39(9): 188-193.