消費信貸智能決策模型系統設計與實現

2020-09-10 12:29:21杜一謙

中國新技術新產品 2020年13期

杜一謙

摘 ?要：消費信貸風險管理是一個廣交的領域，其中銀行的內部控制更是變化多端。為了提升風控核心競爭力，基于先進的數據倉庫Hadoop技術建立銀行信用貸款的智能決策系統，并運用多種數據挖掘及分析工具，充分利用銀行現有數據，通過決策引擎及模型接口實現智能決策引擎風險識別和防控，判定銀行是否應該發放貸款。該系統的建立對銀行信用管理和風險預測具有指導意義，為銀行消費信貸業務的拓展提供參考和依據。

關鍵詞：消費信貸;智能決策;大數據技術

中圖分類號： TP311 ? ? ? ? ? 文獻標志碼：A

0 引言

近年來，隨著我國經濟轉型升級逐步推進，消費金融行業進入了快速發展時期。面對愈加嚴峻的互聯網風險環境，大數據、人工智能等技術逐漸進入消費信貸決策領域，科技與金融的結合日益嚴密。生物識別、OCR技術、用戶畫像、反欺詐模型、信用模型等技術成為必不可少的核心信貸決策環節。

隨著外部市場環境的不斷變化，僅僅依靠傳統的信貸決策方式已不能滿足銀行消費信貸業務發展的需要，正確及時地決策成了銀行業各機構生存與發展的重要保障，智能決策模型系統的搭建（以下簡稱“系統”）至關重要。

1 系統設計思想

智能決策引擎模型系統的設計需要結合業務實際，做到功能完備的同時，又具有可發展性，能夠應對未來的市場變化。系統的設計主要考慮以下3個方面。

1.1 多維識別，防范欺詐

消費信貸業務前端一直面臨著大量欺詐客戶的攻擊，隨著身份偽冒、團伙欺詐等風險愈演愈烈，科技反欺詐成為系統中必不可少的一環[1]。首先通過內嵌人臉活體識別、指紋識別、聲紋識別等前端生物識別技術進行客戶身份認證。其次通過銀行卡四要素鑒權技術，進一步進行客戶身份核實。最后通過OCR等文字識別技術，進行申請資料的識別，將紙質或圖像材料轉為電子化信息，使其能夠供決策模型系統后續使用。

1.2 海量數據，流暢運行

隨著業務的不斷發展，沉淀的數據量及數據維度呈指數級增長，傳統的Oracle數據庫架構在運行高維、大批量數據時顯得力不從心，模型迭代進度受數據處理速度制約。

在該背景下，系統設計搭建基于Hadoop框架的大數據平臺，采用非結構化的數據存儲方式和分布式計算功能，使模型開發在大數據運算過程中更加靈活和高效。

1.3 實時決策，智能預警

智能決策引擎模型系統主要運用于自動化審批，對于系統的實時處理能力有著極高的要求。同時，高并發的審批過程也會伴隨一定概率的錯誤進程，需要建立智能化的預警機制。

系統設計采用“決策引擎+Python模型接口”的方式，擴展自動化審批功能的同時，大幅縮短單筆審批時間。同時，系統需要通過設置相關策略，實現對單位時間內申請量、審批結果等統計信息的實時預警，幫助業務人員及時發現并快速解決問題。

2 系統結構

智能決策模型系統以大數據平臺（Hadoop）和數據倉庫（MPP）混合架構的大數據基礎體系，為后續數據應用奠定了堅實基礎（如圖1所示）。

大數據平臺負責歷史數據、外部數據、非結構化數據、數據挖掘、客戶畫像、風控、智能決策等場景的支撐，數據倉庫負責傳統報表、指標等統計分析場景，兩者相輔相成，共同支撐著整個數據條線的應用。

2.1 數據采集

利用大數據平臺自帶的數據采集組件Flume、Kafka、Sqoop，兼容各種數據源，包括流式數據（業務消息流/日志消息流等）、磁盤文件、各種數據庫、其他存儲系統等。采集后的數據落地到大數據平臺分布式存儲中，其中流式數據也可不落地直接進入實時處理應用中。

2.2 分布式存儲

利用大數據平臺HBase組件和HDFS組件的特性，對海量非結構化數據進行存儲，支持無限拓展，線性擴展能力強，數據存儲靈活。

2.3 資源調度

多租戶是大數據平臺大數據集群中的多個資源集合，具有分配和調度資源的能力。資源包括計算資源和存儲資源。多租戶將大數據集群的資源隔離成一個個資源集合，彼此互不干擾，用戶通過“租用”需要的資源集合，來運行應用和作業，并存放數據。在大數據集群上可以存在多個資源集合來支持多個用戶的不同需求。

2.4 實時處理

大數據平臺內存數據庫Redis、分布式消息隊列Kafka和實時處理引擎Flink，對數據進行分布式計算，實現實時數據傳輸、實時數據緩存和實時數據流處理的高速處理。為智能預警和智能決策系統提供實時準確的數據服務。

2.5 離線處理

Spark和ELK為海量結構化數據和非結構化數據的離線分析處理提供技術支撐。

2.6 決策模型

基于Spark架構預置機器學習算法庫和數據分析挖掘算法，提供可視化分析挖掘平臺，構建實時反欺詐平臺和模型訓練平臺。以用戶數據、畫像及行為的關系網絡為基準，通過反欺詐模型、信用模型等進行風險分析決策，完成貸前準入、貸中監控、貸后管理的信貸全生命周期管控流程。

3 業務支撐及實現

業務流程如下：客戶在信息認證界面，需要進行基礎認證及提額認證，其中基礎認證包括填寫聯系人、身份證認證（上傳身份證照片正反、進行活體認證和人臉識別、OCR解析并由系統判斷身份證有效期）、銀行卡綁定（進行四要素驗證）。提額認證主要包括人行及各類其他征信源查詢授權如圖2所示。

客戶提交貸款后，系統首先進入準入策略，篩查掉不符合公司合規要求及產品對應策略要求的客戶，然后，通過反欺詐策略攔截內外部黑名單、嚴重多頭及命中強關系欺詐規則的客戶，再進入信用策略，通過人行征信和自建的子數據源等模型劃分客戶資質和分類，評估客戶風險等級，并匹配對應額度和定價。對于評分灰色區域（評分在拒絕閾值左右）客戶和反欺詐策略給出的欺詐團伙、黑中介等屬性客戶，進入人工審核環節，跟進并確認客戶的欺詐風險和信用風險。審核通過后，短信通知客戶審核結果，提醒客戶后續做好還款準備等工作，并放款至綁定的銀行卡。

4 風控模塊及其安全性

決策模型主要運用于自動化審批，對于系統的實時處理能力有著極高的要求[2]。同時，高并發的審批過程也會伴隨一定概率的錯誤進程，需要建立智能化的預警機制。

4.1 反欺詐模塊

反欺詐模塊由身份驗證、黑名單、團伙識別、反欺詐模型等多個子模塊組成，從不同角度打擊不同形態的個人與團體欺詐，可以有效防范各種欺詐形態，減少風險損失，保護客戶的利益。

4.1.1 嚴格的身份驗證

系統采用活體檢測、人臉識別、OCR技術和銀行卡鑒權等多種技術相結合，對申請者的身份進行嚴格的驗證，增加身份偽冒的成本。這些環節均在信貸產品申請環節中嵌入并實時進行核驗，保證了風險控制的準確性和申請時效性的平衡。此外對同一設備登錄不同賬號等高風險異常行為進行嚴格控制，有效防止賬號被盜、黑中介代客下單等欺詐行為。這些技術在征信查詢之前就可以對欺詐客戶進行有效攔截，降低欺詐風險的同時，也可以保護客戶利益不被違法分子侵害。

4.1.2 黑名單

利用歷史積累的申請數據與表現數據，形成內部的黑名單并持續更新。黑名單可以對風險較高的歷史客戶進行快速識別，可以有效節省征信成本與系統資源。

4.1.3 欺詐團伙識別

傳統的信貸審核只以單筆申請的角度對客戶進行審視，無法獲得不同申請之間的關聯關系。而消費信貸申請的欺詐行為中，團伙欺詐占較大一部分，相較于個人欺詐也會帶來更大的風險損失。團伙欺詐具有組織性強、攻擊隱蔽、手段復雜等特點，傳統的風險控制手段無法應對一直更新的復雜攻擊手段，效率和準確率都有一定限制。針對該問題，建立了關系網絡模型，通過積累沉淀信貸生命周期中的客戶數據，尋找不同申請之間的關聯性，并通過社群發現等圖算法，定位高風險的欺詐團體。當新的客戶來申請時，系統可以通過算法快速定位其與高風險欺詐團體是否有關聯。關系網絡模型隨著數據的積累定期進行更新迭代，能應對一直更新的欺詐手段。

4.1.4 反欺詐模型

信用風險模型注重對所有客戶進行分級，一般采用經典的邏輯回歸算法，體現出主要特征與風險之間的線性關系。而欺詐客戶一般可以通過一些手段進行包裝，導致信用風險模型無法抓取極少部分人的異常行為。因此針對欺詐客戶，開發了專用的反欺詐模型，對異常行為進行大量的特征衍生，采用隨機森林、梯度提升決策樹、神經網絡等機器學習的領先算法，抓取大量特征與欺詐風險之間的非線性關系，對異常客戶進行甄別。

4.2 信用模塊

系統的信用模塊主要結合內外部數據，由信用規則和信用模型組成，對客戶進行風險評級。

4.2.1 信用規則

根據人行報告和外部數據顯示的申請人不同階段的申請、發放、還款等行為數據，衍生出不同時間序列維度下的數據標簽，從收入負債、資金緊迫性等方面評估申請人的還款意愿和還款能力，形成強風險規則組合。

4.2.2 信用模型

信用模型運用數據挖掘方法，通過對客戶的基本信息特征、行為記錄、交易記錄等大量原始數據進行分析，挖掘數據中客戶存在的行為模式、信用特征，預測客戶未來的信用表現。信用模型的主要功能是以科學的方法將風險模式數據化。提供客觀風險量尺，減少主觀判斷。提高風險管理效率、節省人力成本。其主要包括2個方面的內容。1）算法研究。目前系統主要運用邏輯回歸、決策樹、聚類等常規算法，實現對客戶的分層和評級，這些算法可解釋性高、穩定性好。同時，XGB、CNN等前沿算法模型也在系統中同步運行，但由于該類算法近乎黑箱，無法有效解釋其中變量與風險的關系，一旦模型出現異動，無法準確定位原因并進行有針對性地處置，同時模型穩定性較低，區分度隨時間下降較快，因此僅作為主模型的補充和交叉驗證。此外，在新模型迭代的過程中發現，如果建模樣本中不包含拒件客戶，會導致在訓練過程中表現較好的新模型，迭代后業務風險反而有所上升。所以在模型開發過程中應使用拒絕推斷算法，納入歷史拒件樣本，更準確地評估整體樣本風險，避免因模型迭代導致的風險波動。2）模型應用。為了持續篩選風險防控效果最優的模型，同時保證不同特征的客群能有一定風險表現供后期模型優化，系統中設置了一定比例的冠軍挑戰審批流，比較各個模型的風控效果及各類特征客戶的實際表現，用于逐步優化迭代模型。在線上業務發展過程中發現，不同客群的風險表現有一定差異，根據整體客戶風險表現對模型閾值采用一刀切的方式，會導致不少好客戶被拒之門外，過件率較難提升。結合客戶畫像的研究結果，在模型評分閾值的制定上納入了“分客群”的思想，根據客群資質靈活調整模型閾值，提升過件率的同時降低風險。

5 結語

項目上線以來，累計實現自動審批逾900萬筆，服務客戶逾500萬人，審批時效在1 min以內，模型表現也穩步提升。該項目極大地節省了人工成本，降低風險損失，優化客戶體驗，借助科技創新推進普惠金融。

參考文獻

[1]吳雷，楊儀，吳傳威，等.基于多層架構的信用卡反欺詐系統研究[J].金融科技時代，2018（1）：41-45.

[2]單良，喬楊.數據化風控：信用評分建模教程[M].北京：電子工業出版社，2018.