江繼龍 李宇希
摘要 不良貸款是銀行業金融機構信貸風險的重要參考指標,控制不良貸款率是金融業整體風險管理的首要目標。筆者選取了某商業銀行分行的存量個人貸款客戶作為研究樣本,通過對客戶多維度數據屬性的分類、交易行為的建模和存量貸款客戶違約指數的聚類,將與已成為不良貸款客戶交易行為高度類似的正常及關注類客戶進行風險預警并提前干預,從而實現對該分行個人不良貸款率的有效控制。
【關鍵詞】個人貸款 數據挖掘 風險識別
1 業務背景
銀行業金融機構是國家金融體系的重要組成部分,而不良貸款余額和不良貸款率則是衡量銀行信貸風險的重要指標。根據國家統計局和銀監會的數字,金融機構各項貸款余額從2013年末71.90萬億元增加到2016年末106.60萬億元,年增速14。商業銀行不良貸款率也從2013年末的1.0%上升到2016年末的1.74%,年增速遠超貸款增速。對銀行業金融機構信貸風險的有效管理成為了控制金融風險,甚至是避免系統性經濟危機的重要措施。
2 個人貸款分類及特征
2.1 貸款的五級分類
商業銀行目前仍然采用脫期法對逾期貸款進行五級分類,并進行相應壞賬準備計提及核算一一未逾期貸款為正常類;逾期90天內為關注類;逾期91-180天為次級類;逾期181-730天為可疑類;逾期731天以上為損失類;后三類貸款,即次級、可疑、損失類被統稱為不良貸款,不良貸款額在貸款總額中的占比就是“不良貸款率”,這個最重要的信貸風險指標。
2.2 個人貸款特征
個人貸款是銀行的零售主要業務,和對公貸款客戶相比,個人貸款客戶擁有著原始信息不可修改、交易流水數據粘度高等特點,是數據挖據理想的研究對象。客戶在商業銀行的數據按照性質可分為靜態數據、半靜態數據和動態數據三類。其中靜態數據為客戶的姓名、性別、身份證號碼、出生地等不可修改的數據;半靜態數據為客戶的年齡、學歷、電話、工作地、所屬行業等可修改數據;動態數據為商業銀行通過發放給客戶銀行卡及衍生品產生的數據,如銀行賬戶的交易流水數據、貸款余額、逾期次數、五級分類、關聯數據等信息系統自動收集和按固定規則自動更新的結構化數據。
3 違約指數公式
客戶數據中動態數據主要描述著交易行為的動態變化,其中交易流水可以從交易時間、頻率、金額對交易行為進行客觀描述,而半靜態數據中的貸款五級分類作為重要信貸風險信號,可以與動態數據中的交易行為相互聯動,將己成為不良貸款客戶的違約指數在銀行存量客戶中進行掃描并甄別,提前對潛在的風險客戶進行前置預警并采取一定的措施,避免貸款質量下滑,甚至變成不良貸款的實質性信貸風險的發生。
4 交易流水數據的處理模型——RFM模型
交易數據在銀行中的日增量都是以TB級的,然而在如此海量的數據中進行潛在客戶的甄別,就必須用上數據挖掘的相關技術。同時,由于銀行網點分布廣泛,不同地域的文化、教育、商業、經濟水平的差異,在挖掘結論上將會是大相徑庭的,故對課題研究在一定區域內的效果將比總行層面的數據掃描好得多。
針對交易數據,使用RFM模型將是一個不錯的選擇。RFM模型的核心理念是計量銀行客戶的R值,即最近交易時間間隔、F值,即交易頻率和M值,即交易總金額來計算客戶交易行為的價值。RFM模型值便成為了客戶違約指數中權重最高的首選變量Xn。
5 數據挖掘的實際應用
5.1 數據挖掘的定義
數據挖掘,根據最新的解釋,又被譯為資料探勘和數據采礦,是從大量數據中通過一定的算法搜索隱藏于其中信息的過程。實現的方法主要有如統計、在線分析處理、機器學習和專家系統等。
5.2 銀行內的應用
數據挖掘的實施步驟大體可以分為問題定位、數據準備、數據挖掘、結果驗證、知識運用5個基本步驟。對于本文課題的實際應用層面可歸納到以下幾個詳細步驟上:
(1)問題定位,在銀行存量客戶中識別潛在風險客戶;
(2)數據準備,根據定位的問題可將客戶數據中的性別年齡、所屬行業,動態數據中的交易流水RFM模型值等多個基本數據作為變量,按照違約指數公式進行建模;
(3)數據挖掘,對貸款已經成為不良的客戶進行標記,再根據選定的數據和模型,通過簡單高效的K值聚類方法將存量貸款客戶聚類,在聚類結果中將己標記為風險客戶的高相似度正常和關注類客戶進行甄別;
(4)結果驗證,需要引入業務部門的專家評估,由于存在著某些客戶交易行為數據過少、還款行為受客觀條件約束等不可抗力影響的情況,所以需要對聚類出來的結果需要驗證。對通過驗證的風險隱患的客戶采取相應措施,如加強貸后檢查、關注還款能力的變化、評估抵押物價值的變化,甚至是提前收回貸款;
(5)知識運用,由于市場環境變化可能導致不同行業的周期性違約概率變化、又如客戶自身交易習慣的改變也會導致數據挖掘結果的置信度的降低,所以對數據挖掘模型的更新是非常有必要的。如新增核心字段的變量、調整部分核心字段變量的權重等。
6 結束語
筆者任職于國內上市的某商業銀行審計部門,擁有著訪問上述研究所需所有數據的客觀條件。就本研究課題已經在某分行進行了實際操作,選定7個變量并進入到“結果驗證”階段。但在實際操作中,遇到了總體變量的選擇難、變量權重的分配難等問題,但相信在專家團隊介入后,不斷對模型參數的調整可將最后的結果置信度達到令人滿意的高度。最終通過實現對潛在風險客戶的甄別、風險預警、前置干預等步驟而達到控制銀行不良貸款率的目標。
參考文獻
[1]劉玥,基于改進的K-means算法的銀行客戶聚類研究[D].吉林大學,2016.
[2]李博雷.超越交易重塑銀行與客戶關系——互聯網時代銀行業客戶體驗管理策略探索[J].清華金融評論,2014 (09).