基于機(jī)器學(xué)習(xí)算法的金融公司信用風(fēng)險(xiǎn)預(yù)測模型

2021-07-05 11:59:58胡慶鋒

電子技術(shù)與軟件工程 2021年10期

胡慶鋒

（深圳市企鵝網(wǎng)絡(luò)科技有限公司廣東省深圳市 518000）

1 數(shù)據(jù)預(yù)處理

1.1 樣本數(shù)據(jù)概況

本次研究的Z 公司主營業(yè)務(wù)是消費(fèi)金融，這是一家互聯(lián)網(wǎng)科技企業(yè)，于2014年正式運(yùn)營。該企業(yè)利用網(wǎng)絡(luò)信息技術(shù)和大數(shù)據(jù)風(fēng)險(xiǎn)控制技術(shù)為用戶建立完整的信用檔案，并且對(duì)銀行等金融機(jī)構(gòu)提供用戶信用信息，幫助金融機(jī)構(gòu)降低信貸業(yè)務(wù)風(fēng)險(xiǎn)，提高信貸績效。B 公司屬于國內(nèi)著名的網(wǎng)絡(luò)中文搜索企業(yè)，該企業(yè)經(jīng)過長期的網(wǎng)絡(luò)經(jīng)營已經(jīng)具備了大量的客戶信息。利用這些數(shù)據(jù)匹配幫助B 公司建立賬戶數(shù)據(jù)信用風(fēng)險(xiǎn)模型。Z 公司借助信息共享機(jī)制分享B 公司建立的風(fēng)險(xiǎn)模型和相關(guān)的信息。經(jīng)過協(xié)商之后，雙方公司判定理想化用戶指的是Z 公司信貸客戶群體中并未出現(xiàn)逾期違約行為的客戶，判定不理想用戶指的是在Z 公司信貸客戶群體中，信貸分期產(chǎn)品的用戶還款超出了60 天規(guī)定時(shí)間，剩余的還款超出規(guī)定時(shí)間的1‐59天用戶被稱為中間樣本。這種分等級(jí)的客戶信用劃分可以提高金融服務(wù)過程中對(duì)客戶基本信息的識(shí)別能力。根據(jù)用戶信息的時(shí)間指標(biāo)劃分用戶樣本種類，其中2019年5‐7月份申請(qǐng)用戶群體定義為建模樣本，2019年3月份申請(qǐng)用戶群體定義為跨時(shí)間窗驗(yàn)證樣本。本次信用風(fēng)險(xiǎn)模型建設(shè)項(xiàng)目屬于Z、B 公司合作項(xiàng)目，其中前者負(fù)責(zé)用戶信息收集和整理，后者負(fù)責(zé)數(shù)據(jù)模型建設(shè)。本次研究從B 公司建模負(fù)責(zé)人的角度出發(fā)分析模型建設(shè)相關(guān)數(shù)據(jù)的預(yù)處理和具體的模型建設(shè)問題。

對(duì)用戶信用數(shù)據(jù)展開去重、篩選和匹配之后提取有用的用戶信息，形成的樣本定義和樣本特征如下：

（1）y=1：定義的樣本群體是分期產(chǎn)品還款超時(shí)60 天的客戶樣本，規(guī)模為1800；y=0 定義的樣本群體是分期產(chǎn)品還款從未超時(shí)的客戶樣本，規(guī)模為5755。將上述數(shù)據(jù)帶入逾期率計(jì)算公式得出：

1800/(1800+5755)=23.8%。

（2）特征時(shí)間窗口指的是2019年5‐7月份之間在Z 公司平臺(tái)中提出申請(qǐng)的客戶群體，按照客戶申請(qǐng)時(shí)間點(diǎn)前一個(gè)月的時(shí)間段為基準(zhǔn)，匹配B 公司中的對(duì)應(yīng)客戶信息，比如客戶照片、其他B 公司產(chǎn)品的注冊(cè)信息、客戶反饋信息和論壇回復(fù)情況、LBS、電子錢包相關(guān)信息以及用戶這一個(gè)月時(shí)間段中通過B 平臺(tái)檢索過的關(guān)鍵詞等。

1.2 特征變量的篩選

模型中IV統(tǒng)計(jì)量單純的值一個(gè)變量信息，信息價(jià)值（information value）的出現(xiàn)需要建立在相對(duì)熵的基礎(chǔ)上。相對(duì)熵D(1|q)度量指的是當(dāng)以p 為真實(shí)分布情況，以q 為假定分布情況，p 對(duì)q 的無效性。因此q 的編碼可以在平均指標(biāo)范圍內(nèi)比p 編碼長D(p||q)比特。這一概念按照信息論的內(nèi)容理解可以定義公式為：

總結(jié)相對(duì)熵的特性可以得出如下內(nèi)容：

（1）使用相對(duì)熵可以衡量兩個(gè)正數(shù)函數(shù)之間存在相似性。

（2）相對(duì)熵?cái)?shù)值大小可以表示兩個(gè)函數(shù)或者是分布的差異性。比如當(dāng)數(shù)值為0 的時(shí)候代表兩個(gè)函數(shù)相同，或者是隨機(jī)分布。當(dāng)數(shù)值越大，代表著兩個(gè)函數(shù)分布差異越明顯。

計(jì)算IV 統(tǒng)計(jì)量首先應(yīng)當(dāng)區(qū)分變量類型。按照變量性質(zhì)相近的變量值作為同一組，性質(zhì)遠(yuǎn)的作為不同組出現(xiàn)。完成分組后需要分別計(jì)算每一組的違約率和履約率，分別記為p1i、p0i。那么相應(yīng)組中的IV 表示為：

按照模型建設(shè)的思維分析，模型建設(shè)人期望p1、po存在明顯的分布差異，但是如果p1、po兩個(gè)指標(biāo)的分布和建模人的期望相反，分布距離近，那么可以說明該變量并沒有理想的區(qū)分用戶樣本種類的能力。假設(shè)p1、po兩個(gè)指標(biāo)的之間的差距較大，那么可以說明該變量用作區(qū)分用戶樣本種類的過程中具有理想的效果。為了將p1、po兩個(gè)指標(biāo)量化，則需要引入相對(duì)熵概念：

按照相對(duì)熵概念公式可以得出，p1、po兩個(gè)指標(biāo)的相互相對(duì)熵如下：

因此，每一組有：

這也說明，使用IV 值可以衡量該變量影響目標(biāo)變量的程度。按照機(jī)器學(xué)習(xí)建模的思維邏輯分析，計(jì)算所有變量的IV，并且選擇超過0.02 的IV 值對(duì)應(yīng)變量構(gòu)建模型，或者是進(jìn)行其他計(jì)算。

本次研究課題中，變量篩選的原有樣本是B 公司的1795 個(gè)變量數(shù)據(jù)，對(duì)應(yīng)Z 公司提供的客戶身份信息、年齡信息和性別信息等，在這些變量數(shù)據(jù)的分組和IV 統(tǒng)計(jì)量的計(jì)算中，使用R 語言包的ctree()函數(shù)，通過數(shù)據(jù)處理得出，前20 位IV 統(tǒng)計(jì)量對(duì)應(yīng)的變量信息作為重要變量，展示在表1 中。

表1：重要變量統(tǒng)計(jì)表

在本次研究課題中，以上述20 個(gè)變量為樣本建模，根據(jù)模型判定下一步的操作流程。

2 模型構(gòu)建與迭代

針對(duì)所有變量篩選，得出前20 位的IV 統(tǒng)計(jì)量對(duì)應(yīng)變量，將其進(jìn)行woe 轉(zhuǎn)碼，然后構(gòu)建Logistic 回歸模型。本次研究中模型中使用的相關(guān)參數(shù)和變量權(quán)重涉及到了商業(yè)機(jī)密，因此在此不做展示。統(tǒng)計(jì)該模型各樣本集合的AUC 值得出表2 中的內(nèi)容。

表2：簡單模型框架（%）

通過表2 AUC 值分析可見，在本次構(gòu)建的模型框架中，訓(xùn)練集和測試集的數(shù)據(jù)先對(duì)穩(wěn)定，剩余一個(gè)集合和理想相差很大，相比測試集產(chǎn)生了7 個(gè)百分點(diǎn)的偏差。這也說明該模型需要在此基礎(chǔ)上進(jìn)一步優(yōu)化，確保模型具有較高泛化能力。

本次研究中使用的GBDT 模型為用戶原始搜索詞，通過用戶違約率在回歸模型上添加新變量，提高初版模型的泛化能力。GBDT模型的樣本建設(shè)方法如下：圈定Z 公司提供的2019年5‐7月份用戶訓(xùn)練集數(shù)據(jù)，以覆蓋率最高為指標(biāo)篩選樣本集合，得出底層搜索詞2500 維，也就是按照搜索詞的覆蓋率為指標(biāo)，采用降序方法排列，選擇前面2500 維的信息構(gòu)建模型。y 仍舊作為該模型的目標(biāo)變量，其定義和初版模型的定義一樣，因此得出，y=1 代表的是用戶分期產(chǎn)品還款時(shí)間超時(shí)60 天的用戶樣本，y=0 代表的是用戶分期產(chǎn)品還款時(shí)間從沒有超過規(guī)定時(shí)間的用戶樣本。GBDT 模型的各參數(shù)如下：該模型中決策樹設(shè)置2 層，設(shè)置250 次迭代。通過模型調(diào)試得出各集合的效果如表3 中的內(nèi)容。

表3：搜索詞模型效果（%）

通過表格模型效果數(shù)據(jù)可見，GBDT 模型中單純的以搜索詞為建模材料，這樣的樣本可以在一定程度上作為信用風(fēng)險(xiǎn)的判定標(biāo)準(zhǔn)。假如模型中增加違約率為自變量，那么該指標(biāo)對(duì)信用風(fēng)險(xiǎn)的判定效果更準(zhǔn)確。本次研究中收益函數(shù)的計(jì)算使用了XGBOOST 算法中的R 語言包得出如下內(nèi)容：

通過這一公式可以通過決策樹的變量數(shù)據(jù)判定每一次分裂造成的損失函數(shù)收益大小。也就是說，通過該公式可以判刑模型中變量是否重要。通過排序統(tǒng)計(jì)前十的變量信息如表4。

表4：搜索詞模型重要變量（%）

分析統(tǒng)計(jì)的前十個(gè)變量搜索詞可見，這些名詞基本上都涉及到賭博、欺詐等性質(zhì)，尤其是“捕魚”屬于近期網(wǎng)絡(luò)賭博的一種。這一結(jié)果和前文中的假設(shè)一致，也就是通過用戶網(wǎng)絡(luò)搜索的關(guān)鍵詞可以在一定程度上判定用戶的個(gè)人喜好，能夠了解用戶的網(wǎng)絡(luò)使用習(xí)慣。通過該模型也可以檢測用戶是否存在賭博和吸毒等可能性，模型的運(yùn)算結(jié)果可以用于判定用戶信用風(fēng)險(xiǎn)。但是該模型中使用的是近一個(gè)月的用戶搜索詞，也就是說，原始搜索詞會(huì)隨著時(shí)間發(fā)生變化，這就要求模型需要定期迭代，以確保搜索詞的時(shí)效性。

在初版的模型框架中添加搜索詞的結(jié)果，也就是用戶違約率指標(biāo)，這樣可以從第一版模型的基礎(chǔ)上構(gòu)建第二版模型，通過兩個(gè)模型的預(yù)測結(jié)果對(duì)比得出表5 中的信息。

表5：模型對(duì)比結(jié)果（%）

通過三種模型的效果對(duì)比可以發(fā)現(xiàn)，搜索詞模型是另外兩個(gè)模型的基礎(chǔ)，在模型三個(gè)集合的效果對(duì)比中，該模型相對(duì)一初版模型效果更高。就算是跨時(shí)間驗(yàn)證集合中的數(shù)值較為66.15%，這一結(jié)果的AUC 值也符合可接受范圍。搜索詞和第二版模型比較可見，后者不管是AUC 還是Logistic 回歸模型都具有更高的穩(wěn)定性。這也說明，使用搜索詞模型會(huì)因?yàn)闀r(shí)間因素造成預(yù)測的結(jié)果和用戶真實(shí)結(jié)果產(chǎn)生偏差。經(jīng)過綜合性分析和各模型的效果對(duì)比，終板模型以Logistic 模型展現(xiàn)，并且上線運(yùn)行。這一種模型在預(yù)測不同時(shí)間窗口的信用風(fēng)險(xiǎn)過程中，不管是AUC 值還是訓(xùn)練集的效果都不會(huì)出現(xiàn)太大的偏差，因此該模型的穩(wěn)健性較理想，同時(shí)也具有很強(qiáng)的擴(kuò)展能力。

3 總結(jié)

本次研究的亮點(diǎn)在于將Logistic 回歸模型和GBDT 模型結(jié)合起來。經(jīng)過對(duì)比、試驗(yàn)得出兩種模型的結(jié)合才是最有效的預(yù)測模型，原因如下：研究中使用的兩種模型均具有很強(qiáng)的穩(wěn)定性，模型的運(yùn)算效果理想。在參數(shù)求解的過程中，兩種模型均使用了梯度下降的手段，尤其是二階梯度下降中使用了Xgboost 工具，這使得算法效率更高，可以方便建模人更快建模，可以降低建模過程中時(shí)間因素對(duì)預(yù)測效果的影響力，符合現(xiàn)代網(wǎng)絡(luò)信息更新速度快的特征。