黃嘉斌
(中國建設銀行股份有限公司義烏分行,浙江 金華 322000)
當前,我國很多銀行小型網點受到硬件設施、數據處理技術的等方面限制,無法有效的把握貸款相關信息,進而無法準確、有效地評估信貸風險,容易出現決策失誤現象,因此對銀行信貸風險管理期間數據挖掘技術的應用開展深入研究,對于降低信貸風險、維護金融市場穩定有著重要的指導意義。
數據挖掘是指在海量數據中將一些隱藏,卻又具有價值的數據進行發現、提取的方法,具體是指將一些不為人知的、具有未知性、規律性、隱蔽性的信息進行發現,提取的整個過程。
信貸風險可以劃分為市場性風險、非市場性風險,其中市場性風險多數來自于借款企業、借款人的生產以及銷售風險,主要是指借款放在生產、銷售自身產品期間,由于市場條件、生產技術的變動的所引起的風險。非市場風險包括社會風險、自然風險,自然風險是指因自然因素造成借款人的經濟遭受損失,無法償還信貸本息風險;社會風險表示由組織、個人在社會上的某些行為所引起的風險。
利用數據挖掘,可利用不同類別貸款特征建立貸款管理模型,一旦有新貸款申請,當即利用模型來判斷貸款類別,銀行可依據模型的類別,對貸款申請采取針對性措施,同時,在應用數據挖掘期間,會每隔一段時間,就對每一筆貸款開展重新分類,進而有效提高信貸風險管理力度。
1.銀行信貸原始數據描述。我國一些銀行網點設立于縣級,乃至是縣級以下的地域,這些小型銀行所開展的貸款業務主要面對來自于農村地區的客戶,例如某商業銀行開展的小額貸款業務,分為農戶、商戶兩種,本次研究以商戶小額貸款為研究對象。商戶小額度貸款可分為商戶聯保貸款、商戶保證貸款,在對此類小型某商業銀行的商業信貸風險管理開展數據挖掘期間,為了不會侵犯到貸款客戶的隱私,避免客戶信息的泄露,在數據提取階段,將商戶的姓名、居住地址、店鋪位置、企業名稱、聯系方式、營業執照編號等數據信息進行過濾,經過對海量客戶相關數據分析之后,將數據提取確認為如下字段:(1)客戶代碼;(2)婚姻狀況;(3)教育程度;(4)主營業務;(5)經營年限;(6)年齡;(7)貸款種類;(8)貸款額度;(9)貸款期限;(10)客戶流動總資產;(11)固定總資產;(12)客戶負載;(13)客戶還款方式;(14)客戶月凈收入;(15)客戶月投入;(16)客戶信用信息[1]。
2.數據預處理。數據采集的第二步,就是對錯誤、空值數據進行預處理,數據預處理的過程為數據收集——數據選擇——數據清理——數據轉換,在上一部分,針對某某商業銀行信貸管理業務,進行了17個屬性字段的數據收集,隨后,以隨機的方式在數據庫中對100條貸款用戶信息記錄進行收集、整理,整理過后經過處理,去除無參考價值的數據,對剩余的屬性字段進行概化,如表1:

表1 屬性字段概化結果表
在本次開展分類抽取整理的客戶資料當中,有52個為已經分類的案例,其中關注類9例,次級類6例,可疑類5例、損失類2例、正常類30例,此外,一般損失類借款人的相關財務資料都難以獲取,因此只有其他4類參與,即:正常類=30,關注類=9;次級類=6,可疑類=5,損失類=2。
3.構造決策樹。將上表中過濾后的數據,轉換成CSC Data Files格式時WEKA可以讀取,隨后使用WEKA建造模型,選擇建立決策樹方法建立決策樹,采用準確率最高的J48分類器。
4.評估模型。以分類模型和樣本數據作為依據,利用測試樣本的百分比來表示模型預測的準確率,假設正確率可接受,那么就可以用于指導對客戶群的分流,J48分類器通過默認粉分層10折較差驗證,準確率高達82%,為可以接受范圍,此刻,當銀行收到新的貸款申請,就可以利用模型得出估計的類別,進而對不同的類別采取針對性的措施,如果貸款類型為正常范圍,直接審批通過,弱勢關注范圍,就需要對其加強審查、加強貸后檢查或是對其進行拒絕,進一步提高信貸資產安全性,有效控制銀行信貸風險[2]。
本次研究,針對銀行信貸風險管理中數據挖掘的應用進行了深入研究,在分析數據挖掘、銀行信貸風險的基礎上,分別對數據挖掘中的原始數據描述,、數據預處理、決策樹構造、評估模型開展深入的研究,通過本次研究,可以明確數據挖掘的每個步驟經過,相關行業可以借鑒本次研究,將數據挖掘應用到銀行的信貸風險管理中,以確保信貸資產的安全性,降低信貸風險。