

摘 要:結合我國創新型小微企業融資難以及湖南省A行開展“投貸聯動”業務的實際情況,利用AdaBoost組合分類模型建立信貸評級模型。
關鍵詞:創新型小微企業 信貸評級 AdaBoost組合分類模型
一、引言
2016年5月國務院辦公廳印發《關于建設大眾創業萬眾創新示范基地的實施意見》(以下簡稱《實施意見》),系統部署雙創示范基地建設工作。目前我國共成立17個區域示范基地、4個高校和科研院所示范基地和7個企業示范基地。在國家雙創政策的刺激下,創新型小微企業迎來了前所未有的發展機遇。據統計,北京中關村園區“一區十六園”范圍內現共有1.7萬多家企業,其中創新型小微企業約達1.2萬家,主要集中在電子信息、新能源及節能、新材料、先進制造、環保以及生物醫藥等行業。在創新型小微企業的快速發展的背后,融資難逐漸成為制約其繼續快速發展的重要瓶頸。創新型小微企業最主要的的特點是“輕資產”。大部分的輕資產企業因找不到合適擔保物難以達到商業銀行貸款條件,使公司的貸款難度增加,貸款利率水平居高不下。面對創新型小微企業融資難的問題,2016年4月中國銀監會、科技部以及中國人民銀行出臺了《關于支持銀行業金融機構加大創新力度開展科創企業投貸聯動試點的指導意見》(以下簡稱《指導意見》)。投貸聯動是指銀行業金融機構以“信貸投放”與本集團設立的具有投資功能的子公司“股權投資”相結合的方式,通過相關制度安排,由投資收益抵補信貸風險,實現創新型企業信貸風險和收益的匹配,為創新型企業提供持續資金支持的融資模式。面對國家出臺的《實施意見》和《指導意見》兩項措施,商業銀行也應當積極調整貸款結構,建立新的信貸評級系統,滿足創新型小微企業的融資需求。
二、AdaBoost組合分類模型
大量研究表明,決策樹、BP神經網絡、Logistic回歸和支持向量機算法在研究公司及個人信貸評級時有較好的效果,其評級準確率也相對較高。相比于上述方法,AdaBoost算法能夠很好的利用了弱分類器進行級聯,將不同的分類算法作為弱分類器,具有很高的精度。
Boosting算法是一種提高任意給定學習算法準確度的方法。它的思想起源于Valiant提出的PAC(Probably Approximately Correct可編程自動化控制器)學習模型。Valiant 和Keams 提出識別錯誤率小于,即準確率僅比隨機猜測概率略高的學習算法稱為弱學習算法;識別準確率很高并能在多項式時間內完成的學習算法稱為強學習算法。同時,Valiant 和Keams首次提出了PAC學習模型中弱學習算法和強學習算法的等價性問題,即任意給定僅比隨機猜測略好的弱學習算法,是否可以將其提升為強學習算法?如果二者等價,那么只需找到一個比隨機猜測略好的弱學習算法就可以將其提升為強學習算法,而不必尋找很難獲得的強學習算法。
AdaBoost算法是Boosting家族最具代表性的算法,之后出現的各種Boosting 算法都是在AdaBoost 算法的基礎之上發展而來的。對AdaBoost算法的研究應用大多集中在分類問題中,近年來也出現了一些在回歸問題上的研究。
AdaBoost算法的基本思想是:首先給出任意一個弱學習算法和訓練集
,此處,表示某個域或實例空間,在分類問題中是一個帶類別標志的集合,。初始化時,Adaboost為訓練集指定分布為,即每個訓練例的權重都相同。接著,調用弱學習算法進行T次迭代,每次迭代后,按照訓練結果更新訓練集上的分布,對于訓練失敗的訓練例賦予較大的權重,使得下一次迭代更加關注這些訓練例,從而得到一個預測函數序列,每個預測函數,也賦予一個權重,預測效果好的,相應的權重越大。T次迭代之后,在分類問題中最終的預測函數H采用帶權重的投票法產生。單個弱學習器的學習準確率不高,經過運用Adaboost算法之后,最終結果準確率將得到提高。
AdaBoost算法具體步驟如下:
三、基于AdaBoost組合分類模型信貸評級系統
本章擬結合湖南省A行的自身情況利用AdaBoost算法建立適合湖南省A行的信貸評級模型。創新型小微企業信貸評級模型的建立可以分為四個階段,分別是建模數據的選取及預處理、評級模型的建立和檢驗、評級模型的實施已經評級模型的監測和升級。
信貸評級指標是預測企業信貸評級的重要依據,它對信貸評級模型的設計、評級模型的穩定性以及預測結果的準確率有著重要的影響。因此,建立信貸評級模型必須結合湖南省A行的實際情況才能達到預定的效果。參考湖南省A行現有的針對大中型企業的信貸管理系統,提出選取企業特征變量指標、企業規模指標、企業盈利能力、企業償債能力、企業營運指標、企業盈利指標共六個一級指標體系,總共包含二十六個二級指標,具體描述如表3-1所示:
為保證評級模型的預測力以及穩定性,本文考慮以樣本的充足性、完整性、時效性和代表性四個方面為考慮前提選取樣本數據。從湖南省A行信貸管理系統中選取截至2015年在本行有貸款業務的新三板創新型上市公司。經篩選最后選取325家樣本企業。針對現有的數據,將325個樣本數據運用隨機函數隨機產生,其比例分別為80%、20%,得到的訓練樣本個數和測試樣本個數分別為260和65。樣本數據的評級分為Ⅰ、Ⅱ、Ⅲ三個級別,其中訓練樣本中Ⅰ、Ⅱ、Ⅲ三個級別的數目分別為100、111和49,測試樣本中Ⅰ、Ⅱ、Ⅲ三個級別的數目分別為27、29和9。
考慮采用單隱層的BP神經網絡作為AdaBoost算法的基分類器。在基分類模型的參數設定方面,BP神經網絡輸出層、隱含層和輸入層其中拓撲結構為24—9—1,即輸入層有個24節點、隱層節點數為9、輸出層節點為1。
首先對基分類模型(BP神經網絡模型)數量與模型精確性的關系進行討論,基分類模型數量過多,將會加大模型的計算量,計算時間延長,降低了模型的效率;若基分類模型數量太少,則新模型的評級正確率提高太少,體現不出采用AdaBoost組合分類模型的優勢。假設初始迭代次數為400次,通過對不同數目基分類模型計算得出表1-2的預測結果。根據表3-2可知,當基分類模型的數量為30個時,預測樣本的精確度基本上達到最大,而當基分類模型的數量超過30個時,預測樣本的精確度基本保持不變。
基分類模型的數量為30個時,迭代次數從1開始,當迭代次數為210次左右,預測的精確度達到最大,超過百分之九十,當迭代次數超過250次時,預測的精確度穩定在百分之八十九左右。因此AdaBoost算法模型選取的迭代次數為250。
按照上文中確定好的基分類模型個數和迭代次數后,運用R軟件進行計算,得出的訓練樣本和測試樣本的結果分別如3-3和3-4所示:
首先比較兩種模型的精確度。從表3-3中的數據可以看出, AdaBoost組合分類模型都對訓練樣本有著較好的擬和度,訓練樣本的總正確率為百分之百。對于測試樣本數據,從表3-4中的分析預測結果可以看出,AdaBoost組合分類模型的評級的預測準確率也相對較高,Ⅰ類、Ⅱ類和Ⅲ類預測樣本的準確率分別為:96.5%、88.9%、88.9%。對于AdaBoost組合分類模型的穩定性,從上文中圖3-1可以看出,當迭代次數在0—250之間變動時,預測樣本的評級的準確率在81%—91%直接變動,迭代次數超過250次時,評級的準確率穩定在0.89,當迭代次數在200左右時,評級的準確率最高,接近91%。
四、結語
建立信貸評級模型的方法有很多,AdaBoost組合分類模型建立適合于湖南省A行的針對創新型小微企業的信貸評級模型。通過分析表明,AdaBoost組合分類模型的穩定性、準確率都相對較高,在實際運用中對于湖南省A行信貸人員進行信貸分析有一定的指導性作用,并能夠為信貸決策提供支持。
參考文獻:
[1]楊海江,魏秋萍,張景肖.基于改進的AdaBoost算法的信用評分模型[J]. 統計與信息論壇,2011.
[2]Kearns M.,ValiantL.G.,Learning Boolean Formulae or Factoring. Technical Report TR-1488,Cambridge,MA:Havard UniversityAiken Computation Laboratory,1988.
[3]龐素琳,鞏吉璋. C5.0分類算法及在銀行個人信用評級中的應用[J]. 系統工程理論與實踐,2009.