孫治河 張雷



摘 要:采用大數(shù)據(jù)方法預測企業(yè)違約風險具有重大的現(xiàn)實意義。傳統(tǒng)的信用評估模型主要是統(tǒng)計分析模型、判別分析模型等,預測能力有限。因此,文章建立了基于隨機森林和支持向量機兩種機器學習算法的信用預測模型,并引入ACC、AUC以及FNR評價指標來衡量模型預測的效果。對比實驗表明,基于隨機森林的信用預測模型較支持向量機模型具有更好的預測效果,證實了模型的優(yōu)越性。
關鍵詞:隨機森林;支持向量機(SVM);信用評估模型;中小企業(yè)
0 引言
中小微企業(yè)在吸收社會就業(yè)和促進經(jīng)濟發(fā)展方面逐漸發(fā)揮著越來越重要的作用[1],而中小企業(yè)本身內(nèi)外部的局限性也使其始終面臨著嚴重的融資缺口。在此背景下,各金融企業(yè)放寬了對其貸款力度,但信貸危機問題也隨之而來,需要建立全面客觀的信用評價模型實現(xiàn)對中小企業(yè)違約判別預測,最大化規(guī)避不良信貸風險,實現(xiàn)中小企業(yè)與貸款行業(yè)博弈雙方的平穩(wěn)運行和合作共贏。評估體系建立的關鍵在于科學指標體系的選取和學習算法的選擇。
通過大數(shù)據(jù)和機器學習建模的思路針對中小企業(yè)融資問題分別建立了隨機森林和支持向量機信用評估模型,克服了傳統(tǒng)方法信息挖掘不足等局限性,健全了融資風險評估體系,進一步提高金融機構降低風險的能力[2]。
1 數(shù)據(jù)處理及評價指標建立
采用中小企業(yè)貸款及各項企業(yè)特征數(shù)據(jù)集,包括企業(yè)規(guī)模在內(nèi)的170個特征值。建立原始指標體系之前,應用多重插補法和六西格瑪原則對缺失和異常值進行了預處理操作。根據(jù)企業(yè)是否違約劃分數(shù)據(jù)集,由于統(tǒng)計分析可知樣本集存在“統(tǒng)計性歧視”的不平衡分類情況,會對模型產(chǎn)生負面影響,故通過重采樣法加以糾正。
考慮到評價指標體系的全面性、系統(tǒng)科學性等原則,將信用評估指標從財務因素指標和非財務因素指標角度劃分為企業(yè)規(guī)模、償債能力、盈利能力、發(fā)展能力4方面共10個指標。
2 兩種機器學習模型對比實驗研究
2.1 基于隨機森林的信用評估模型
為評價相同數(shù)據(jù)樣本下不同模型的準確程度,本文引入林成德等人提出的精度評估方法來評價模型評估精度[3]。經(jīng)過數(shù)據(jù)處理的指標數(shù)據(jù)打包為訓練數(shù)據(jù),以企業(yè)是否存在失信行為作為標簽向量建立隨機森林回歸模型。基本步驟如下:
使用Bagging方法形成個體訓練集,從原始訓練集中隨機選擇一定比例的樣本組成新的訓練集進一步生成分類樹;
從M個指標作選出最具分類能力的指標作為節(jié)點的拆分屬性并遴選最佳分割方法的分割節(jié)點;
每棵分類樹可在不修剪情況下生長演化;
按照前3個步驟建立大量的決策樹形成隨機森林,選取決策樹投票最多的一株為最終分類結果。
2.2 應用網(wǎng)格搜索法選取最佳參數(shù)
2.2.1 決策樹編號的參數(shù)確定
將n作為決策樹的數(shù)量的估計值,以10~100為搜索空間,以10為步長進行搜索和調(diào)整。當子模型增加時,模型的標準差減小,模型泛化能力增強。進一步觀察其精度變化可知:當子模型數(shù)量增加到70個左右時,模型精度不再有顯著的提高。因此將70作為決策樹的數(shù)量參數(shù)。
2.2.2 結點和葉的參數(shù)確定
本文定義了將內(nèi)部節(jié)點重分配所需要的最小樣本數(shù)min_s和葉節(jié)點的最小樣本量定義min_l。當節(jié)點的樣本數(shù)小于min_s,則停止分割。通過調(diào)參觀察可知min_s和min_l分別為40和100時,模型取到最高精度83.7%。通過比較基尼系數(shù)和熵指數(shù)可觀察到模型的精度基本保持不變,決策樹的最大深度為9。
2.3? 基于支持向量機的信用評估模型
如果信用評估問題是線性可分的,那么SVM模型的決定邊界就是對訓練集找到的最優(yōu)超平面
D(x)=wTx+b(1)
其中:w是個特征值的權值,b是常數(shù)。
其決策函數(shù)為f(x)=sgn(wT+b)(2)
式中:sgn為符號函數(shù),當D(x)>0時,sgn(D(x))=1,反之為0。
在此模型的求解過程中,需要使用核函數(shù)進行非線性映射處理到高維特征空間從而轉化為線性可分的問題。因此,核函數(shù)和參數(shù)的選擇對SVM回歸效果影響顯著,本文選擇的是徑向基核函數(shù)。此外,還引入了懲罰參數(shù)C,在訓練集樣本上采用網(wǎng)格遍歷方法,通過遺傳算法對參數(shù)進行優(yōu)化并通過交叉驗證檢驗。觀察可知,當C值為4時,模型精度達到最大值,即82.5%。
2.4 對比實驗結果分析
通過實驗得到兩種模型預測結果對比如下圖。將使用提取的特征樣本集對測試集上的2 311個數(shù)據(jù)進行了預測,隨機森林模型中對數(shù)據(jù)模糊推理和不確定度分別為0%和88.4%,AUC=76%,預測結果的準確率為98.3%;在支持向量機模型中,F(xiàn)NR僅為3.06%,AUC為73%,預測的準確率為96.94%,表明兩種模型都具有良好的效果且隨機森林模型的評估效果優(yōu)于支持向量機模型。模型在對企業(yè)不違約的概率判別中顯示出了很好的效果,但對企業(yè)違約概率的判別由于數(shù)據(jù)的不均衡使得實驗結果較差。隨機森林模型ROC圖如圖1所示,SVM模型ROC圖如圖2所示。
3 結語
本文在兼顧原始數(shù)據(jù)可獲得性原則的基礎上,綜合考慮了包含企業(yè)規(guī)模、盈利能力和償債能力等在內(nèi)的財務及非財務指標建立了一套合理且能較好反映企業(yè)信用狀態(tài)的綜合評價指標體系,并進一步考慮到數(shù)據(jù)特征采用了適合小樣本數(shù)據(jù)集訓練的支持向量機回歸集成模型和具有良好的噪聲容限和高穩(wěn)定性的隨機森林模型。實驗結果顯示,兩種機器學習方法較傳統(tǒng)方法預測精度好、學習效率高。其中,隨機森林信用評估模型的分類準確率更是高達98.3%,表明機器學習方法在進行中小企業(yè)信用評估中能更好地進行數(shù)據(jù)有效信息的挖掘和具有更好的可行性及有效性。
[參考文獻]
[1]楊元澤.中國中小企業(yè)信貸風險評估研究[J].金融論壇,2009(3):69-73.
[2]薛霏霏.科技型中小企業(yè)信用風險評價模型及實證研究[D].大連:東北財經(jīng)大學,2019.
[3]林成德,彭國蘭.隨機森林在企業(yè)信用評估指標體系確定中的應用[J].廈門大學學報(自然科學版),2007(2):199-203.
(編輯 傅金睿)