999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

商業銀行貸款風險評估數據的審計模型構建

2016-09-03 10:10:20
福建質量管理 2016年13期
關鍵詞:數據挖掘分類模型

徐 鵬

(中國石油天然氣股份有限公司華東化工銷售分公司 上海 200122)

商業銀行貸款風險評估數據的審計模型構建

徐 鵬

(中國石油天然氣股份有限公司華東化工銷售分公司 上海 200122)

在對商業銀行貸款風險評估數據進行抽象和預處理的基礎上,根據審計的業務需求構建了兩種不同的審計模型,然后根據不同的審計模型進行結果分析。

預測型決策樹;審計模型

在對數據進行預處理之后,數據的格式及類型已經符合軟件的要求,這樣就可以對數據進行挖掘。在數據挖掘過程中,由于算法的不同可能會導致挖掘效果以及效率的不同。在審計模型方面,本研究決定使用決策樹模型,該模型中最常用的算法就是ID3與CLS,需要特別說明的是,利用ID3算法對CLS算法進行相關改進,可以提高算法的效率。

一、預測型決策樹

在本文的研究中,主要從兩個不同的角度來構建決策樹模型。其中一個角度就是預測型決策樹,該模型的基本流程就是將所有貸款記錄分為兩個整體,一個整體是在審計年放出的,并且現在以及到期的正常貸款記錄。另外一個整體作為另一部分數據,主要用來構建數據挖掘模型,然后用該模型對五級分類進行預測,當預測結果和現實情況不一致時,注明該記錄屬于異常貸款記錄,在今后的審計中要進行重點審計。按照這個基本流程,首先要將貸款憑證表劃分為正常貸款表和預測分析貸款表。在正常貸款表中,凡是屬于正常貸款的記錄,這些數據都是預測數據集的主要構成;在預測分析貸款表中,凡是不屬于正常貸款記錄的數據,都是構成數據挖掘模型的主體。

微軟公司的AnalysisManager軟件是本決策樹的主要挖掘工具,Analysis是SQLServer的附屬產品,因此它與SQLServer在數據格式上具有高度的統一性。此外,Analysis還具有良好的用戶界面,具有向導支持作用。在多維數據的存儲和轉換方面,具有較高的靈活性,同時可伸縮架構設計可以解決海量數據等多種難題,同時也集成了客戶端、數據源以及管理工具等。

在新建一個SQLServer數據庫之后,數據中間表的測試連接已經建立好,也就是說預測分析表和正常貸款表已經完成。在本文的研究案例中,考慮到貸款都是采用五級分類,并不是使用聚合級別進行數據挖掘,因此使用關系數據來設置挖掘模型,以此用來查詢Analysis服務器所支持的所有數據類型。在事例表的選擇上,因為建立數據挖掘模型中所需要的多個列都在事例表中,因此必須使用多個事例表,從而保證信息能夠分布式存在多個表中,這樣就能保證表與表之間的關系連接。所以,把法人基本信息表和預測分析貸款表作為編輯連接和表創建。在法人基本信息表中,其主鍵為客戶代碼,在預測分析貸款表中,其主鍵為借款憑證編號,兩張表通過客戶編號進行關。

在預測型決策樹中,選擇參數是一個非常重要的環節,這影響著決策樹的輸出,因為數據挖掘引擎就是通過事例列屬性進行區分事例的,即通過事例表主鍵屬性區分。從單個事例表的角度來說,對于參數的選擇過程相對簡單,但是本文研究的案例具有多個事例表特征,所以要根據具體的審計業務來選擇相應的參數。首先將貸款作為首要分析的事例,因此貸款憑證編號就是該事例的鍵列。接下來進行選擇輸入列操作,在該操作中,至少要選擇左側的可選列表中的一列作為數據挖掘模型的屬性,因為數據挖掘模型中信息的輸出都是通過輸出列完成的。在本研究案例中,主要是利用該模型來預測五級分類的基本情況,所以可預測列就是貸款五級分類。決策樹的根就是待預測字段。

如果一筆貸款的屬性和五級分類情況相互關聯,那么數據挖掘模型在經過分析之后就期望得出一些信息,那么表示這些屬性的列就在另一個選項中輸入。在決策樹中,不同的輸入列代表的是每個貸款的五級分類情況,使用ID3算法來發現其關聯關系,就必須慎重選擇輸入列,這個因果關系不可以太明確,否則就失去了數據挖掘的意義。

在選擇好參數和輸入輸出列之后,可以執行數據挖掘模型,從而得到相應的數據挖掘結果。決策樹結構背后隱藏的較為簡單的邏輯是決策樹最重要的一個特點。內容頁和架構頁是挖掘模型編輯器底部的兩個主要選項,其中內容頁主要用來顯示決策樹中各類數據的分布,架構頁主要是用來對整個模型的結構進行控制。

在數據文件模型瀏覽器中,主要有以下幾個主要區域:

1. 節點區域。該區域主要是說明該節點內所有事例的規則。

2. 特性區域。該區域主要是以圖表的形式顯示節點的特性信息。

3. 內容選擇區域。該區域可以將整個決策樹的完整視圖進行顯示。

4. 內容詳情區域。該區域主要顯示決策樹中的焦點信息。

在決策樹中,不同的顏色代表的意義是不同的,顏色的深淺主要用來區分事例的密集度,顏色越深的表示該節點中所包含的事例數量就越大,顏色越淺的表示該節點中包含的事例數量就越小。在數據挖掘模型瀏覽器中,右側的下拉框可以選擇以哪種事例來顯示。其中251000是全部貸款記錄,也就是“全部”節點,顏色為黑色。特性區域中的全部事例數量為129883,所占比例為51.8%,其在五級分類中用“正常”表示,以此類推,其比例分別是51.8%,5.02%,2.31%,10.59%,30.28%。在決策樹的不同節點中,都可以查看該決策樹的支節點。

在圖形方面,其它兩個節點的密度要低于“管理特征”為01,02的兩個節點。當點擊管理特征為01,02的節點時,可以查看其特征區域的信息,就可以發現管理特征為04時,損失貸款的比重高達78.32%,關注貸款與正常貸款的比例分別為8.78%、0.91%,那么該結果就可以為后續的審計工作提供有效借鑒,對于此類貸款有必要進行重點審計。按照此流程進行操作,還可以得到更多類似的信息,這些信息都能給實際工作或決策的制定作為參考。此外,通過分析每個節點的屬性以及相關特性,可以發現貸款屬性的取值會對五級分類產生一定的影響。需要特別說明的是,算法關系著整個決策樹的組織結構,這也是屬性在輸出中的重要性。在本文的研究案例中,“管理特征”這一屬性決定了決策樹的第一個級別,這也是影響五級分類的重要因素。除此之外,還有一個方法可以查看每個屬性的重要性,那就是對相關網絡進行分析。在相關網絡分析瀏覽器中,屬性的網絡表示的就是數據文件或相關模型,通過對這種模型進行識別,可以分析出數據的預測性與相關性,具體如圖4.8所示。

圖4.8 相關性網絡圖

在圖4.8中,箭頭代表的是相關性,節點與箭頭的顏色變化表示的是預測性的方向,并且隨著左側關聯性的降低,就能夠發現五級分類受到不同屬性的影響情況。

二、決策樹的改進

在本文的研究中,還有一種決策樹的構建思路,可以稱之為決策樹的改進。使用Analysis確實能夠完成基本的功能需求,但是其功能不如Clementine強大,Clementine具有較強的理解能力和可視化能力,并且操作起來相對簡單,是目前使用最為廣泛的數據挖掘工具。Clementine中集成了標準數據挖掘流程模型,該模型和本文中研究的邏輯思路具有較高的統一性,主要可以劃分成商業理解、數據理解、數據準備、建模、模型評估以及結果部署等幾個過程。當利用Clementine進行數據挖掘時,用戶能夠擁有更多的選擇。以生成決策樹為例,能夠對成本進行評估,調整挖掘結果、設計新型變量、組變量以及減枝等。在保持原有數據的前提下,本文采用Clementine,通俗來說,就是根據國家對商業銀行貸款的約束,把五級分類劃分為兩大類,然后再用決策樹進行差別比較,這樣就可以得到更有效的審計發現。在使用Clementine軟件時,同樣需要對數據進行預處理以及表的拆分等,但是在該思路中,由于預測型決策樹已經對表進行拆分,因此就不需要再對表進行拆分,而是在新的數據挖掘模型中,有選擇性的對已拆分的表進行重新整合,在執行SQL語句后可以得到數據的輸出結果。

接下來操作“類型”選項,該模塊可以對數據的方向以及類型進行調整。完成上一步操作后,接下來就是設計新的變量,在本文研究的案例中,可疑、損失兩個等級為一類,次級、關注和正常三個等級為一類,為其設置如下條件:

貸款等級=‘次級’or貸款等級=‘關注’or貸款等級=‘正常’

貸款等級=‘損失’or貸款等級=‘可疑’

通過“類型”操作后可以將123與45設置為兩個相同變量的輸出值,并將其作為決策樹的根,此外還要選擇行業分類1,信貸對象,管理素質等等作為決策樹的分支因素。然后實施兩個不同的決策樹,并且將減枝水平值設置的盡量大,以字符作為群體輸出方式。

三、審計結果分析

在構建完審計模型與運行模型之后,需要對審計結果進行分析。審計過程中最重要的因素就是企業的管理特征,在利用兩種不同的模型進行分組時,都采用了04管理特征作為最低級別的信貸評估等級,這表示審計的風險可能因此升高,這也是進行實質性測試的主要工作。在擔保方式的貸款中,信用與保證又是風險級別較高的群組,因此我們可以確定一個不變的數值,從而衡量風險的影響程度。對模型進行上述改進最終就是為了充分使用Clementine的相關功能,從而可以改變原有決策樹的相關屬性,保證審計效率的提高,同時也能增強審計的安全性。在審計工作人員進行具體分類時,還可以對五級分類的原因進行深層次分析。

使用決策樹進行數據挖掘最核心的就是歸納與分類,通過歸納和分類的方法可以提高審計人員對于風險的識別能力。對不同字段的出現概率進行分類,可以把風險較大的因素進行重點標示,這樣可以方便審計人員進行審閱,同時還能提供相關的數據支撐。尤其是使用Clementine軟件時,能夠結合基本模型,有針對性地設計出有意義的變量,從而保證數據挖掘效率與效果的提升。除此之外,還可以為今后的再次挖掘工作奠定基礎,只需要在原有模型的基礎上行稍微進行調整即可。以決策樹為例,此類分析方法和傳統的統計分析、趨勢分析以及比率分析不同,此類分析方法不用專注于財務信息,只需要對信息進行數字化處理即可,從純數學的角度去分析與審計,這樣使得審計工作更加科學,同時可以對數據的關聯進行更好地分析。

徐鵬,男,漢,吉林長春,碩士研究生,中國石油天然氣股份有限公司華東化工銷售分公司。

猜你喜歡
數據挖掘分類模型
一半模型
分類算一算
探討人工智能與數據挖掘發展趨勢
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
3D打印中的模型分割與打包
主站蜘蛛池模板: 97久久超碰极品视觉盛宴| 91亚瑟视频| 色视频久久| 熟女成人国产精品视频| 国产91无码福利在线| 亚洲永久色| 亚洲人成电影在线播放| 久久99精品久久久久久不卡| 国产精品成人一区二区| 欧美日韩国产在线观看一区二区三区 | 五月婷婷综合色| 欧美人人干| 久久国产乱子| 88av在线看| 国产在线啪| 久久国产精品波多野结衣| 香蕉eeww99国产在线观看| 一本一本大道香蕉久在线播放| 国产精品v欧美| 日本免费精品| 高清久久精品亚洲日韩Av| 91色综合综合热五月激情| 秋霞国产在线| 国内精品自在自线视频香蕉| 国产精品视频a| 蜜桃视频一区二区| 亚洲国产午夜精华无码福利| 91青青草视频在线观看的| 精品久久久久久久久久久| 国产综合网站| 99re热精品视频中文字幕不卡| 无码中文字幕乱码免费2| 欧美一级夜夜爽www| 在线观看亚洲人成网站| 亚洲第一成年免费网站| 日韩在线成年视频人网站观看| 亚洲 日韩 激情 无码 中出| 无码精油按摩潮喷在线播放| 国产一区二区免费播放| 免费一极毛片| 久久伊人久久亚洲综合| 欧美中文字幕在线视频 | 亚洲日本韩在线观看| 欧美精品v日韩精品v国产精品| 国产精品欧美亚洲韩国日本不卡| 在线观看无码a∨| 日本午夜视频在线观看| 国产精品hd在线播放| 99成人在线观看| 老汉色老汉首页a亚洲| 香蕉视频国产精品人| 精品无码一区二区三区在线视频| 在线不卡免费视频| 亚欧成人无码AV在线播放| 成人一区在线| 国产成人综合在线观看| 99热这里只有精品免费| 亚洲成a人在线观看| 国产91精品久久| 久久人搡人人玩人妻精品一| 不卡国产视频第一页| 2020最新国产精品视频| 性视频一区| 露脸一二三区国语对白| 亚洲精品福利视频| 国产精品jizz在线观看软件| 国产xxxxx免费视频| 国产男人的天堂| 9啪在线视频| 中文字幕丝袜一区二区| 久久美女精品国产精品亚洲| 国产SUV精品一区二区| a级高清毛片| 国产青榴视频在线观看网站| 成人亚洲国产| 国产一级二级在线观看| 欧美高清视频一区二区三区| 亚洲精品天堂在线观看| 亚洲天堂.com| 最新日韩AV网址在线观看| 波多野结衣无码视频在线观看| 欧美精品影院|