徐 鵬
(中國石油天然氣股份有限公司華東化工銷售分公司 上海 200122)
商業銀行貸款風險評估數據的審計模型構建
徐 鵬
(中國石油天然氣股份有限公司華東化工銷售分公司 上海 200122)
在對商業銀行貸款風險評估數據進行抽象和預處理的基礎上,根據審計的業務需求構建了兩種不同的審計模型,然后根據不同的審計模型進行結果分析。
預測型決策樹;審計模型
在對數據進行預處理之后,數據的格式及類型已經符合軟件的要求,這樣就可以對數據進行挖掘。在數據挖掘過程中,由于算法的不同可能會導致挖掘效果以及效率的不同。在審計模型方面,本研究決定使用決策樹模型,該模型中最常用的算法就是ID3與CLS,需要特別說明的是,利用ID3算法對CLS算法進行相關改進,可以提高算法的效率。
在本文的研究中,主要從兩個不同的角度來構建決策樹模型。其中一個角度就是預測型決策樹,該模型的基本流程就是將所有貸款記錄分為兩個整體,一個整體是在審計年放出的,并且現在以及到期的正常貸款記錄。另外一個整體作為另一部分數據,主要用來構建數據挖掘模型,然后用該模型對五級分類進行預測,當預測結果和現實情況不一致時,注明該記錄屬于異常貸款記錄,在今后的審計中要進行重點審計。按照這個基本流程,首先要將貸款憑證表劃分為正常貸款表和預測分析貸款表。在正常貸款表中,凡是屬于正常貸款的記錄,這些數據都是預測數據集的主要構成;在預測分析貸款表中,凡是不屬于正常貸款記錄的數據,都是構成數據挖掘模型的主體。
微軟公司的AnalysisManager軟件是本決策樹的主要挖掘工具,Analysis是SQLServer的附屬產品,因此它與SQLServer在數據格式上具有高度的統一性。此外,Analysis還具有良好的用戶界面,具有向導支持作用。在多維數據的存儲和轉換方面,具有較高的靈活性,同時可伸縮架構設計可以解決海量數據等多種難題,同時也集成了客戶端、數據源以及管理工具等。
在新建一個SQLServer數據庫之后,數據中間表的測試連接已經建立好,也就是說預測分析表和正常貸款表已經完成。在本文的研究案例中,考慮到貸款都是采用五級分類,并不是使用聚合級別進行數據挖掘,因此使用關系數據來設置挖掘模型,以此用來查詢Analysis服務器所支持的所有數據類型。在事例表的選擇上,因為建立數據挖掘模型中所需要的多個列都在事例表中,因此必須使用多個事例表,從而保證信息能夠分布式存在多個表中,這樣就能保證表與表之間的關系連接。所以,把法人基本信息表和預測分析貸款表作為編輯連接和表創建。在法人基本信息表中,其主鍵為客戶代碼,在預測分析貸款表中,其主鍵為借款憑證編號,兩張表通過客戶編號進行關。
在預測型決策樹中,選擇參數是一個非常重要的環節,這影響著決策樹的輸出,因為數據挖掘引擎就是通過事例列屬性進行區分事例的,即通過事例表主鍵屬性區分。從單個事例表的角度來說,對于參數的選擇過程相對簡單,但是本文研究的案例具有多個事例表特征,所以要根據具體的審計業務來選擇相應的參數。首先將貸款作為首要分析的事例,因此貸款憑證編號就是該事例的鍵列。接下來進行選擇輸入列操作,在該操作中,至少要選擇左側的可選列表中的一列作為數據挖掘模型的屬性,因為數據挖掘模型中信息的輸出都是通過輸出列完成的。在本研究案例中,主要是利用該模型來預測五級分類的基本情況,所以可預測列就是貸款五級分類。決策樹的根就是待預測字段。
如果一筆貸款的屬性和五級分類情況相互關聯,那么數據挖掘模型在經過分析之后就期望得出一些信息,那么表示這些屬性的列就在另一個選項中輸入。在決策樹中,不同的輸入列代表的是每個貸款的五級分類情況,使用ID3算法來發現其關聯關系,就必須慎重選擇輸入列,這個因果關系不可以太明確,否則就失去了數據挖掘的意義。
在選擇好參數和輸入輸出列之后,可以執行數據挖掘模型,從而得到相應的數據挖掘結果。決策樹結構背后隱藏的較為簡單的邏輯是決策樹最重要的一個特點。內容頁和架構頁是挖掘模型編輯器底部的兩個主要選項,其中內容頁主要用來顯示決策樹中各類數據的分布,架構頁主要是用來對整個模型的結構進行控制。
在數據文件模型瀏覽器中,主要有以下幾個主要區域:
1. 節點區域。該區域主要是說明該節點內所有事例的規則。
2. 特性區域。該區域主要是以圖表的形式顯示節點的特性信息。
3. 內容選擇區域。該區域可以將整個決策樹的完整視圖進行顯示。
4. 內容詳情區域。該區域主要顯示決策樹中的焦點信息。
在決策樹中,不同的顏色代表的意義是不同的,顏色的深淺主要用來區分事例的密集度,顏色越深的表示該節點中所包含的事例數量就越大,顏色越淺的表示該節點中包含的事例數量就越小。在數據挖掘模型瀏覽器中,右側的下拉框可以選擇以哪種事例來顯示。其中251000是全部貸款記錄,也就是“全部”節點,顏色為黑色。特性區域中的全部事例數量為129883,所占比例為51.8%,其在五級分類中用“正常”表示,以此類推,其比例分別是51.8%,5.02%,2.31%,10.59%,30.28%。在決策樹的不同節點中,都可以查看該決策樹的支節點。
在圖形方面,其它兩個節點的密度要低于“管理特征”為01,02的兩個節點。當點擊管理特征為01,02的節點時,可以查看其特征區域的信息,就可以發現管理特征為04時,損失貸款的比重高達78.32%,關注貸款與正常貸款的比例分別為8.78%、0.91%,那么該結果就可以為后續的審計工作提供有效借鑒,對于此類貸款有必要進行重點審計。按照此流程進行操作,還可以得到更多類似的信息,這些信息都能給實際工作或決策的制定作為參考。此外,通過分析每個節點的屬性以及相關特性,可以發現貸款屬性的取值會對五級分類產生一定的影響。需要特別說明的是,算法關系著整個決策樹的組織結構,這也是屬性在輸出中的重要性。在本文的研究案例中,“管理特征”這一屬性決定了決策樹的第一個級別,這也是影響五級分類的重要因素。除此之外,還有一個方法可以查看每個屬性的重要性,那就是對相關網絡進行分析。在相關網絡分析瀏覽器中,屬性的網絡表示的就是數據文件或相關模型,通過對這種模型進行識別,可以分析出數據的預測性與相關性,具體如圖4.8所示。

圖4.8 相關性網絡圖
在圖4.8中,箭頭代表的是相關性,節點與箭頭的顏色變化表示的是預測性的方向,并且隨著左側關聯性的降低,就能夠發現五級分類受到不同屬性的影響情況。
在本文的研究中,還有一種決策樹的構建思路,可以稱之為決策樹的改進。使用Analysis確實能夠完成基本的功能需求,但是其功能不如Clementine強大,Clementine具有較強的理解能力和可視化能力,并且操作起來相對簡單,是目前使用最為廣泛的數據挖掘工具。Clementine中集成了標準數據挖掘流程模型,該模型和本文中研究的邏輯思路具有較高的統一性,主要可以劃分成商業理解、數據理解、數據準備、建模、模型評估以及結果部署等幾個過程。當利用Clementine進行數據挖掘時,用戶能夠擁有更多的選擇。以生成決策樹為例,能夠對成本進行評估,調整挖掘結果、設計新型變量、組變量以及減枝等。在保持原有數據的前提下,本文采用Clementine,通俗來說,就是根據國家對商業銀行貸款的約束,把五級分類劃分為兩大類,然后再用決策樹進行差別比較,這樣就可以得到更有效的審計發現。在使用Clementine軟件時,同樣需要對數據進行預處理以及表的拆分等,但是在該思路中,由于預測型決策樹已經對表進行拆分,因此就不需要再對表進行拆分,而是在新的數據挖掘模型中,有選擇性的對已拆分的表進行重新整合,在執行SQL語句后可以得到數據的輸出結果。
接下來操作“類型”選項,該模塊可以對數據的方向以及類型進行調整。完成上一步操作后,接下來就是設計新的變量,在本文研究的案例中,可疑、損失兩個等級為一類,次級、關注和正常三個等級為一類,為其設置如下條件:
貸款等級=‘次級’or貸款等級=‘關注’or貸款等級=‘正常’
貸款等級=‘損失’or貸款等級=‘可疑’
通過“類型”操作后可以將123與45設置為兩個相同變量的輸出值,并將其作為決策樹的根,此外還要選擇行業分類1,信貸對象,管理素質等等作為決策樹的分支因素。然后實施兩個不同的決策樹,并且將減枝水平值設置的盡量大,以字符作為群體輸出方式。
在構建完審計模型與運行模型之后,需要對審計結果進行分析。審計過程中最重要的因素就是企業的管理特征,在利用兩種不同的模型進行分組時,都采用了04管理特征作為最低級別的信貸評估等級,這表示審計的風險可能因此升高,這也是進行實質性測試的主要工作。在擔保方式的貸款中,信用與保證又是風險級別較高的群組,因此我們可以確定一個不變的數值,從而衡量風險的影響程度。對模型進行上述改進最終就是為了充分使用Clementine的相關功能,從而可以改變原有決策樹的相關屬性,保證審計效率的提高,同時也能增強審計的安全性。在審計工作人員進行具體分類時,還可以對五級分類的原因進行深層次分析。
使用決策樹進行數據挖掘最核心的就是歸納與分類,通過歸納和分類的方法可以提高審計人員對于風險的識別能力。對不同字段的出現概率進行分類,可以把風險較大的因素進行重點標示,這樣可以方便審計人員進行審閱,同時還能提供相關的數據支撐。尤其是使用Clementine軟件時,能夠結合基本模型,有針對性地設計出有意義的變量,從而保證數據挖掘效率與效果的提升。除此之外,還可以為今后的再次挖掘工作奠定基礎,只需要在原有模型的基礎上行稍微進行調整即可。以決策樹為例,此類分析方法和傳統的統計分析、趨勢分析以及比率分析不同,此類分析方法不用專注于財務信息,只需要對信息進行數字化處理即可,從純數學的角度去分析與審計,這樣使得審計工作更加科學,同時可以對數據的關聯進行更好地分析。
徐鵬,男,漢,吉林長春,碩士研究生,中國石油天然氣股份有限公司華東化工銷售分公司。