聚類分析方法在商業銀行內部審計中的應用

2021-09-27 12:39:42李德明

現代營銷·理論 2021年9期

摘要：隨著計算機、網絡技術和數據庫技術的不斷發展，商業銀行將信息技術應用的經營和管理中，傳統的審計方法遇到了巨大的挑戰。由于傳統審計方法習慣于通過手工查賬、人工核對等方式進行審計，在被審計對象所包含的數據量越來越大的情況下，傳統審計方法已無法滿足現代審計的需要，無法對海量數據進行有效的篩選和識別。而現階段審計人員對電子數據的應用多數只體現在將審計的手工流程計算機化，還停留在通過計算機將審計數據進行簡單查詢、分類、匯總的程度上，未能對海量數據中隱藏或未知的信息進行有效發掘。本文通過分析如何利用信息化手段，對內部審計對象進行審計線索挖掘，闡述了聚類分析方法的可行性和使用方法，并利用某商業銀行貸款數據進行實證分析，檢測出貸款數據離群點，為通過聚類分析方法發現審計線索的思路提供一些參考。

關鍵詞：聚類分析;商業銀行;內部審計;貸款審計

一、內部審計應用數據挖掘方法的必要性

一方面是在信息化環境下，被審計對象經營和管理活動中產生的大量信息資料儲存在各種信息介質中，包括合同、憑證、交易數據等各類型的信息資料，紙質介質的使用數量大幅度減少，或紙質介質僅作為一個備份使用的存儲介質，審計線索相對于過去而言，變得更加模糊和隱蔽，增加了取證的難度。另一方面是隨著被審計對象處理的數據量隨著信息化技術的發展而呈幾何級數迅速增長，單憑人力已無法從海量的數據中較為快速地篩選出審計所需要數據，因此審計單位必須具備較強的數據處理能力，才能達到全面覆蓋，精準核查，突出重點的效果。數據挖掘就是從大量的、隨機的、模糊的數據中發掘潛藏在其中的有效信息，而聚類分析方法作為數據挖掘方法中的一個重要分析方法，用于發現與一般數據存在較大差別的離群點數據，對于審計單位發現隱藏在大量數據中的審計線索有著較好的應用效果。

二、聚類分析方法理論簡介

聚類分析是一種定量分析方法，從數據分析的角度來看，聚類分析屬于對多個樣本進行定量分析的多元統計分析方法，從結果來看，其分析原理就是將數據進行聚合，希望單個類之內的樣本相似度盡可能高，類與類之間的相似度盡可能低。聚類跟普通的分類方法的不同之處在于，在進行聚類分析前，我們無法確定樣本會分成幾個組和什么樣的組，也不知道是按照什么規則來進行類別的劃分，我們不對聚類分析的聚類條件進行實質性的確定，而是通過樣本之間的距離進行自動聚合。

從數據分析的角度來區分，聚類分析方法大致可劃分為四類

（一）劃分聚類

給定一個樣本數量為N 的集合，根據需要劃分呈K 個分區，其中每個分區就是一個類別，給定K 個聚類中心點，對所有樣本求和聚類中心點的距離，將與中心點距離小的樣本與中心點歸為一個類別，然后更新每個類別中的均值作為新的類別中心點，然后不斷重復該過程，直到中心點的變化小于某個閥值。對于劃分聚類而言，需要先給定各個聚類中心點，如果給定聚類中心不同，得到也結果也會有所不同。

（二）層次聚類

層次聚類方法可以分為分裂和凝聚兩種方法。分裂的方法是自上而下，一開始將所有的樣本歸為一個類別，然后通過迭代分裂的方式將與類別中心點距離最遠的樣本分離出去。凝聚方法與分裂方法剛好相反，它是自下而上，一開始將所有樣本視為單獨一個類別，然后迭代合并距離相近的其他樣本，直至達到所規定的迭代終止條件。

（三）基于密度的聚類

其主要原理是只要在“鄰域”中的密度（樣本或變量的數目）超過給定的某個閥值，就繼續增長類別的數量。具體方法是它會任意選擇一個樣本作為核心點，然后找到所有這個核心點能夠達到密度可達的樣本集合，即為一個類別，接著繼續選擇一個沒有類別的樣本作為核心點，重復以上的步驟，直到所有核心點均有類別為止。

（四）基于網格的聚類

它把對象空間量化為有限個相鄰的區間，形成一個網格結構，創建網格單元的集合，將每個樣本落入到一個網格中，所有的聚類操作都在這個網格結構中進行，并計算每個網格的密度，將密度低于閥值的網格刪除，將相鄰的網格聚合成為一個類別。

三、實證分析

（一）層次聚類分析方法概述

本次實例分析采取的是層次聚類分析方法，也叫系統聚類分析方法，本文此次使用的系統聚類方法為凝聚法，該聚類方法一開始將每一個樣本作為單獨的一個類，然后迭代合并距離最相近的兩個類，得到一個新的類，直至達到終止條件，在凝聚法中采用的距離為歐式距離。

定義1：歐式距離也叫歐幾里得度量，它是常用的距離定義，一般用于描述n 維空間中的兩個點之間的距離，假設現有兩個點，分別為x 點和y 點，維度為n，則兩點之間的歐式距離為

（二）數據來源及指標選取

為了更好地說明聚類分析方法在內部審計中的應用，本文選取了某金融機構截至2018 年末貸款余額在1，000 萬元以上的客戶，貸款發放時間為2016 年1 月1 日至2018 年12 月31 日的貸款數據進行聚類分析。

1.指標選取

該次分析分析過程中不對客戶信息進行區分比較，僅針對客戶的貸款行為數據進行聚類分析。（1）客戶號。客戶號為每個貸款客戶的唯一標識，在審計分析中具有唯一性和不可替代性。（2）貸款次數。貸款次數為客戶從在統計期間一共發生的貸款次數，反映了客戶貸款的頻次。（3）貸款余額。貸款余額為截至2018年末客戶在金融機構的貸款余額。（4）平均貸款金額。平均貸款金額=統計期間總貸款金額÷貸款次數，一定程度上反映了客戶單次貸款金額的數量。（5）平均貸款期限。平均貸款期限=統計期間總貸款期限÷貸款次數，一定程度上反映了客戶單次貸款資金的使用時長，以月為計量單位。（6）擔保方式。擔保方式反映了貸款客戶的第二還款來源，“1”代表抵押或質押擔保，“2”代表保證擔保，“3”代表信用/無擔保。（7）平均展期次數。平均展期次數=統計期間展期總次數÷ 貸款次數，一定程度上反映了客戶的到期還款能力。（8）平均借新還舊次數。平均借新還舊次數為統計期間貸款形式為借新還舊的貸款占全部貸款的比例，一定程度上反映了客戶的資金流動性。（9）平均累計逾期次數。平均累計逾期次數=統計期間逾期總次數÷ 貸款次數，一定程度上反映了客戶的信用水平。（10）平均執行利率。平均執行利率為客戶的平均貸款利率。（11）七級分類指標。七級分類指標為客戶的貸款分類結果。“11”代表正常一，“12”代表正常二，“21”代表關注一，“22”代表關注二，“30”代表次級類，“40”代表可疑類，“50”代表不良類，其中30、40、50為不良貸款，七級分類指標反映了客戶的貸款質量情況。

2.數據清洗

篩選條件為截至2018年末，貸款余額為1，000萬元以上的客戶，貸款發放時間為2016年1月1日至2018年12月31日，共篩選出客戶173名，貸款筆數2，968筆，其中64筆貸款的七級分類指標出現數據缺失的情況，采用估計遺漏值的方法，選取七級分類平均值代替遺漏值，即七級分類指標為空的數據采用“26”進行代替。除以上數據，未發現其他非正常數據。

3.數據標準化

在選取的11個指標中，除客戶號外的10個維度的變量，存在數量級差別較大的情況，如果不對數據進行標準化處理，會導致結果出現嚴重偏差，使分析結果向數量級較大的變量方向進行偏移。本文采取離差標準化的方式，假設x為標準化前的值，x?為標準化后的值，則x?= x?xminxmax?xmin，max為變量的最大值，min為變量的最小值。

（三）數據分析過程及結果

1.使用SPSS Statistic 22.0統計軟件對貸款數據進行分析，分析過程如下

（1）數據定義。在變量視圖中輸入各維度變量，對指標類型進行定義，除將客戶號類型設置字符串外，其他指標均設置為數值型。

（3）聚類分析。點擊分析-分類-聚類分析，將客戶號移至標注個案中，剩余指標移至變量中。統計方案范圍選擇3-7個類別。

（4）自定義聚類分析方法。聚類方法選擇組之間的鏈接，區間選擇歐式距離，標準化式選擇范圍0至1。

2.分析結果

由于數據量較大，SPSS的分析結果太長，因此無法一一在文中進行表述，此處僅對聚類數為3類、4類、5類、6類、7類的結果進行匯總統計，從匯總結果可看出，類數從3到7，第一類結果均比較穩定，隨著類數的增多，存在樣本從第一類中分解出來。對比聚類結果，發現離群點分別對應客戶號尾數為7712、1575、6075的客戶。

（四）對分析結果進行深入探索

將數據挖掘出來的3個離群點客戶作為分析重點，對其全部貸款數據進行深入分析。

1.尾號為7712的客戶，自2016年1月1日起，發生貸款筆數為1筆，貸款發放日期為2016年8月12日，貸款金額600萬元，截至2018年12月31日，貸款余額52 5萬元，原到期日為2018年8月2日，展期一次后到期日為2019年7月28日，累計逾期次數19次，逾期次數占還款次數的67.85%，有較高的違約風險。

2.尾號為1575的客戶，2017年4月28日發放借新還舊貸款兩筆，貸款金額共2，000萬元，原到期日為2017年10月27日，展期兩次后到期日為2018年4月25日，累計逾期次數10次，占還款次數的83.33%，此后兩筆貸款辦理借新還舊，貸款發放日期為2018年4月24日，貸款金額1，850萬元，到期日為2019年4月23日，截至2018年12月31日，貸款余額1，850萬元，累計逾期次數7次，占還款次數的87.5%，貸款用途由住房開發貸款轉換為流動資金貸款，需要重點關注，有較高的違約風險。

3.尾號為6075的客戶，自2016年5月27日至2016年10月10日期間，共新發放貸款3筆，貸款金額2，500萬元，執行年利率為5%，截至2018年12月31日，剩余貸款2筆，貸款余額1，250萬元，原到期日為2017年10月9日，展期1次后到期日為2018年10月8日，2018年10月8日發生逾期，即將逾期超過90天。

對數據挖掘所得的3個離群點客戶進行深入探索后，僅從數據上分析，發現均存在辦理展期，累計逾期次數較多或已出現本金逾期等問題，與其他貸款客戶相比，具有更高的違約風險，且需考慮機構是否存在在企業本身已存在經營困難，無力償還貸款，通過借新還舊或展期的方式掩蓋貸款資產質量的情況。

四、結論

通過對173名客戶的2，968筆貸款數據進行分析后，我們可以發現，通過聚類分析方法，可以快速篩選出大量數據中的離群點數據，對于商業銀行內部審計人員而言，在進行貸款方面的審計時，可快速有效地甄選出與其他貸款客戶存在較大差別的異常客戶數據，確立審計重點，提高審計效率，達到全面覆蓋，突出重點的目的。

作者簡介：

李德明（1993.07-），男，本科學歷，中級會計師，研究方向：金融審計與計算機科學。