鄭印 殷瑩瑩 王鵬 劉金嬋 梁斌

摘要:精準扶貧是打贏脫貧攻堅戰(zhàn)的重要手段,而金融扶貧在精準扶貧工作中舉足輕重。目前,農(nóng)村信貸風(fēng)險管理問題頻繁出現(xiàn),嚴重影響金融機構(gòu)在農(nóng)村開展信貸業(yè)務(wù);規(guī)范農(nóng)村信貸體系,降低風(fēng)險,迫在眉睫。本文以“農(nóng)戶信貸風(fēng)險評估”為主題,收集農(nóng)戶信貸數(shù)據(jù),多維度構(gòu)建信貸風(fēng)險評估體系,運用AdaBoost-隨機森林方法對農(nóng)戶小額信貸風(fēng)險進行評估。根據(jù)模型結(jié)果,構(gòu)建農(nóng)村信貸風(fēng)險管理體系,在降低信貸風(fēng)險的同時最大限度致力于金融扶貧工作。
關(guān)鍵詞:農(nóng)戶信貸風(fēng)險;AdaBoost;隨機森林
二十一世紀以來,“三農(nóng)”問題一直對國家農(nóng)村經(jīng)濟發(fā)展和金融穩(wěn)定有著很大的影響,要想發(fā)展農(nóng)村經(jīng)濟,必不可少的一步就是加大對農(nóng)村金融的投入,基于此農(nóng)戶小額信貸開始在我國農(nóng)村普遍實行開來。金融政策不斷加大對農(nóng)戶的服務(wù)力度,力求建立完整、完善的信貸風(fēng)險評估機制對有貸款需求的農(nóng)戶進行放貸并定制合適的貸款額度、利率和期限。但在當前的農(nóng)村金融環(huán)境下,農(nóng)戶對于信貸的風(fēng)險少有認知,農(nóng)村金融機構(gòu)對于風(fēng)險的控制能力也有待加強,所以如何規(guī)范信貸風(fēng)險問題,提高信貸管理水平,就成為當前影響著農(nóng)村經(jīng)濟發(fā)展的重要因素。Congjun Rao(2020)以 Pterosaur Loan平臺中的信貸數(shù)據(jù)集作實驗樣本,建立了兩階段融合成本敏感隨機林(SCSRF)模型來評估借款人的信用風(fēng)險。從隨機森林出發(fā),據(jù)數(shù)據(jù)類別的實際分布構(gòu)造代價關(guān)系,在代價函數(shù)中使用熵權(quán)方法引入加權(quán)馬氏距離,對代價敏感的決策樹基分類器采用加權(quán)投票。通過網(wǎng)格搜索對SCSRF模型的參數(shù)進行了優(yōu)化。顧洲一(2020)以國內(nèi) Y 銀行的相關(guān)信貸數(shù)據(jù)作為樣本,應(yīng)用XGBoost 模型建立客戶申請評分模型,并運用該模型對新客戶的違約概率進行預(yù)測,研究發(fā)現(xiàn)模型在訓(xùn)練集和測試集上得分最高 (得分即模型預(yù)測為壞客戶的概率)的5%的客戶可以分別覆蓋 78.7%和 55.6%的壞客戶。本文將從農(nóng)戶小額信貸領(lǐng)域檢驗 AdaBoost-隨機森林算法的優(yōu)異性,并與其他方法做出實證對比。
1.數(shù)據(jù)來源及基本理論
1.1數(shù)據(jù)來源
為獲取與農(nóng)戶信貸相關(guān)數(shù)據(jù)指標,本文采取實地調(diào)研與問卷相結(jié)合的形式從A省B區(qū)取得123家有信貸評級的農(nóng)戶信息,以及A省C區(qū)302家無信貸評級的農(nóng)戶信息。
1.2基本理論
為了更好的了解與預(yù)測農(nóng)戶信貸風(fēng)險水平,本文根據(jù)收集的農(nóng)戶信貸數(shù)據(jù),多維度構(gòu)建信貸風(fēng)險評估體系,運用AdaBoost-隨機森林方法對農(nóng)戶小額信貸風(fēng)險進行評估,下面對隨機森林(random forest)算法工作原理與AdaBoost如何優(yōu)化隨機森林算法進行解釋說明。
(1)隨機森林算法的基本原理
隨機森林算法是一種對樣本進行訓(xùn)練和預(yù)測的分類模型,其本質(zhì)是一種裝袋集成算法。裝袋集成算法是對決策樹(基評估器)的預(yù)測結(jié)果進行平均或用多數(shù)表決原則來決定隨機森林(集成評估器)的結(jié)果。
決策樹的結(jié)構(gòu)類似與一棵樹,它將每種可能發(fā)生的情況及對應(yīng)概率清晰的表示在一個流程圖中,是一種非常直觀的圖解法。決策樹是一種預(yù)測模型,其每個決策分支對應(yīng)不同的情況不同的概率,通過計算分析得到不同的結(jié)果,常用于估計項目的風(fēng)險,判斷項目的可行性。
為使隨機森林中每棵分類樹互不相同,一種簡單的方法是采用不同的訓(xùn)練集建立決策樹,再將多棵決策樹合并在一起組成隨機森林。
隨機森林算法的基本步驟:
1)原始訓(xùn)練集中包含n個樣本,從中有放回的抽取n次形成一個含有n個樣本的自助集
2)從自助集的所有屬性中選取a個屬性,根據(jù)這些屬性建立一棵決策樹
3)重復(fù)以上步驟m次,可以得到m棵不同決策樹,隨機森林由這m棵決策樹組成
4)m棵決策樹分別對樣本進行預(yù)測,得到m個分類結(jié)果
5)對產(chǎn)生的m個分類結(jié)果進行投票,得票最多的結(jié)果是最終的結(jié)果
(2)AdaBoost-隨機森林算法的基本原理
AdaBoost算法是一種迭代算法。AdaBoost算法的工作原理,初始樣本中每個樣本所占權(quán)重相同,用弱分類器訓(xùn)練樣本,將各個學(xué)習(xí)誤差率聯(lián)系在一起,不斷調(diào)整誤差率高的訓(xùn)練樣本點的權(quán)重值,誤差率低的弱分類器在最終分類器中占的比例較大,以得到一個強分類器。
本文將隨機森林作為弱分類器,用AdaBoost算法進行迭代構(gòu)建AdaBoost-隨機森林模型,基本步驟如下:
1)給每個初始樣本賦權(quán)重得到權(quán)值分布D1,保證每個樣本初始權(quán)重相同w1i=1/N,同時建立好隨機森林。
2)對樣本數(shù)據(jù)進行多次迭代,得到樣本數(shù)據(jù)新的權(quán)值分布Dm,再對權(quán)值分布為Dm的樣本進行訓(xùn)練得到弱分類器。
em為評估誤差和,ym(xn)為評估的結(jié)果,tn為期望的結(jié)果
3)計算隨機森林(弱分類器)在最終分類器中的權(quán)重,得各隨機森林的權(quán)重為。
4)更新樣本中每個樣本的權(quán)重,進行新一輪的迭代
Dm+1是新一輪迭代的樣本權(quán)值分布,wm-1,i是第i個樣本的權(quán)重,Zm是歸一化因子
5)迭代完成后,將若干個弱分類器(隨機森林)按其權(quán)重組合起來
2.AdaBoost-隨機森林模型
2.1研究思路
通過對調(diào)研得到的數(shù)據(jù)進行分析并選取指標,將其按層次結(jié)構(gòu)劃分為一級二級指標。一級指標有農(nóng)戶基本情況、農(nóng)戶信貸情況、農(nóng)戶家庭收入情況三個。其中農(nóng)戶基本情況共分為戶口、年齡、婚姻狀況、家庭關(guān)系、文化程度、健康狀況和家庭成員品行等七個二級指標;農(nóng)戶信貸情況共分為是否違約、貸款金額、信譽評價等三個二級指標;農(nóng)戶家庭收入情況共分為家庭人均年凈收入、家庭年凈收入等兩個二級指標。通過對指標進行量化,最后構(gòu)建Adaboost-隨機森林模型對農(nóng)戶信貸風(fēng)險進行研究。
2.2研究過程
通過對A省B區(qū)123個已知信譽評級的農(nóng)戶信貸數(shù)據(jù)進行分析,通過構(gòu)建Adaboost-隨機森林模型,把是否違約映射為0,1兩個值,其中沒有違約映射為0,違約映射為1。以是否違約為目標,用綜合指標進行邏輯回歸,劃分訓(xùn)練集和測試集,擬合出邏輯回歸函數(shù),得出一個0-1區(qū)間的連續(xù)值,模型擬合準確度為84%,混淆矩陣得出的ACC準確率為80%。
2.3結(jié)果分析
結(jié)果顯示,A省C區(qū)的302個農(nóng)戶有35個農(nóng)戶獲得A等級信譽評級,137個農(nóng)戶獲得B等級信譽評級,123個農(nóng)戶獲得C等級信譽評級,7個農(nóng)戶獲得D等級信譽評級。同時結(jié)果顯示,在302個農(nóng)戶中,有69個農(nóng)戶可能會出現(xiàn)違約情況。
3.結(jié)語
本文通過A 省B 地區(qū)調(diào)研得到的123個農(nóng)戶的信貸數(shù)據(jù)對C區(qū)的302個農(nóng)戶進行了信譽評級和是否違約的預(yù)測,構(gòu)建了AdaBoost-隨機森林模型,使用 ROC 曲線的值對 A 省 C 地區(qū)的調(diào)研數(shù)據(jù)進行了預(yù)測。
參考文獻:
[1]Rao,CJ;Liu,M;Goh,M;Wen,JH.2-stage modified random forest model for credit risk assessment of P2P network lending to Three Rurals borrowers [J].Applied Soft Computing Journal,2020,95.
[2]顧洲一.基于XGBoost模型的銀行信貸高風(fēng)險客戶識別研究——以我國Y銀行為例[J].上海立信會計金融學(xué)院學(xué)報,2020(01):17-28.
[3]宋鑫.隨機森林優(yōu)化算法在農(nóng)戶信用風(fēng)險評估中的應(yīng)用[D].云南師范大學(xué),2018.
[4]許劍,張洪偉.Adaboost算法分類器設(shè)計及其應(yīng)用[J].四川理工學(xué)院學(xué)報(自然科學(xué)版),2014,27(01):28-31.
[5]田瑩瑩,馬一寧,韓景旺.“鄉(xiāng)村振興”戰(zhàn)略下農(nóng)戶信用評價體系構(gòu)建研究[J].現(xiàn)代商貿(mào)工業(yè),2019,40(15):106-107.
[6]李佳容.隨機森林在甘肅省農(nóng)村貧困戶識別中的應(yīng)用[J].農(nóng)村經(jīng)濟與科技,2018,29(04):188+190.
本文系 安徽財經(jīng)大學(xué)大學(xué)生科研創(chuàng)新基金項目研究成果,項目編號:XSKY2198。
作者簡介:
鄭印(2001—)男,漢族,安徽六安人,安徽財經(jīng)大學(xué)管理科學(xué)與工程學(xué)院,2018級本科生,信息管理與信息系統(tǒng)專業(yè)。
殷瑩瑩(2000—)女,漢族,安徽六安人,安徽財經(jīng)大學(xué)金融學(xué)院,2018級本科生,金融學(xué)專業(yè)。
王鵬(2001—)男,漢族,安徽六安人,安徽財經(jīng)大學(xué)管理科學(xué)與工程學(xué)院,2018級本科生,計算機科學(xué)與技術(shù)專業(yè)。
劉金嬋(2000—)女,漢族,安徽安慶人,安徽財經(jīng)大學(xué)統(tǒng)計與應(yīng)用數(shù)學(xué)學(xué)院,2018級本科生,數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)。
梁斌(2000—)男,漢族,安徽六安人,安徽財經(jīng)大學(xué)管理科學(xué)與工程學(xué)院,2018級本科生,計算機科學(xué)與技術(shù)專業(yè)。