胡慶鋒
(深圳市企鵝網(wǎng)絡(luò)科技有限公司 廣東省深圳市 518000)
本次研究的Z 公司主營業(yè)務(wù)是消費(fèi)金融,這是一家互聯(lián)網(wǎng)科技企業(yè),于2014年正式運(yùn)營。該企業(yè)利用網(wǎng)絡(luò)信息技術(shù)和大數(shù)據(jù)風(fēng)險(xiǎn)控制技術(shù)為用戶建立完整的信用檔案,并且對(duì)銀行等金融機(jī)構(gòu)提供用戶信用信息,幫助金融機(jī)構(gòu)降低信貸業(yè)務(wù)風(fēng)險(xiǎn),提高信貸績效。B 公司屬于國內(nèi)著名的網(wǎng)絡(luò)中文搜索企業(yè),該企業(yè)經(jīng)過長期的網(wǎng)絡(luò)經(jīng)營已經(jīng)具備了大量的客戶信息。利用這些數(shù)據(jù)匹配幫助B 公司建立賬戶數(shù)據(jù)信用風(fēng)險(xiǎn)模型。Z 公司借助信息共享機(jī)制分享B 公司建立的風(fēng)險(xiǎn)模型和相關(guān)的信息。經(jīng)過協(xié)商之后,雙方公司判定理想化用戶指的是Z 公司信貸客戶群體中并未出現(xiàn)逾期違約行為的客戶,判定不理想用戶指的是在Z 公司信貸客戶群體中,信貸分期產(chǎn)品的用戶還款超出了60 天規(guī)定時(shí)間,剩余的還款超出規(guī)定時(shí)間的1‐59天用戶被稱為中間樣本。這種分等級(jí)的客戶信用劃分可以提高金融服務(wù)過程中對(duì)客戶基本信息的識(shí)別能力。根據(jù)用戶信息的時(shí)間指標(biāo)劃分用戶樣本種類,其中2019年5‐7月份申請(qǐng)用戶群體定義為建模樣本,2019年3月份申請(qǐng)用戶群體定義為跨時(shí)間窗驗(yàn)證樣本。本次信用風(fēng)險(xiǎn)模型建設(shè)項(xiàng)目屬于Z、B 公司合作項(xiàng)目,其中前者負(fù)責(zé)用戶信息收集和整理,后者負(fù)責(zé)數(shù)據(jù)模型建設(shè)。本次研究從B 公司建模負(fù)責(zé)人的角度出發(fā)分析模型建設(shè)相關(guān)數(shù)據(jù)的預(yù)處理和具體的模型建設(shè)問題。
對(duì)用戶信用數(shù)據(jù)展開去重、篩選和匹配之后提取有用的用戶信息,形成的樣本定義和樣本特征如下:
(1)y=1:定義的樣本群體是分期產(chǎn)品還款超時(shí)60 天的客戶樣本,規(guī)模為1800;y=0 定義的樣本群體是分期產(chǎn)品還款從未超時(shí)的客戶樣本,規(guī)模為5755。將上述數(shù)據(jù)帶入逾期率計(jì)算公式得出:
1800/(1800+5755)=23.8%。
(2)特征時(shí)間窗口指的是2019年5‐7月份之間在Z 公司平臺(tái)中提出申請(qǐng)的客戶群體,按照客戶申請(qǐng)時(shí)間點(diǎn)前一個(gè)月的時(shí)間段為基準(zhǔn),匹配B 公司中的對(duì)應(yīng)客戶信息,比如客戶照片、其他B 公司產(chǎn)品的注冊(cè)信息、客戶反饋信息和論壇回復(fù)情況、LBS、電子錢包相關(guān)信息以及用戶這一個(gè)月時(shí)間段中通過B 平臺(tái)檢索過的關(guān)鍵詞等。
模型中IV統(tǒng)計(jì)量單純的值一個(gè)變量信息,信息價(jià)值(information value)的出現(xiàn)需要建立在相對(duì)熵的基礎(chǔ)上。相對(duì)熵D(1|q)度量指的是當(dāng)以p 為真實(shí)分布情況,以q 為假定分布情況,p 對(duì)q 的無效性。因此q 的編碼可以在平均指標(biāo)范圍內(nèi)比p 編碼長D(p||q)比特。這一概念按照信息論的內(nèi)容理解可以定義公式為:

總結(jié)相對(duì)熵的特性可以得出如下內(nèi)容:
(1)使用相對(duì)熵可以衡量兩個(gè)正數(shù)函數(shù)之間存在相似性。
(2)相對(duì)熵?cái)?shù)值大小可以表示兩個(gè)函數(shù)或者是分布的差異性。比如當(dāng)數(shù)值為0 的時(shí)候代表兩個(gè)函數(shù)相同,或者是隨機(jī)分布。當(dāng)數(shù)值越大,代表著兩個(gè)函數(shù)分布差異越明顯。
計(jì)算IV 統(tǒng)計(jì)量首先應(yīng)當(dāng)區(qū)分變量類型。按照變量性質(zhì)相近的變量值作為同一組,性質(zhì)遠(yuǎn)的作為不同組出現(xiàn)。完成分組后需要分別計(jì)算每一組的違約率和履約率,分別記為p1i、p0i。那么相應(yīng)組中的IV 表示為:

按照模型建設(shè)的思維分析,模型建設(shè)人期望p1、po存在明顯的分布差異,但是如果p1、po兩個(gè)指標(biāo)的分布和建模人的期望相反,分布距離近,那么可以說明該變量并沒有理想的區(qū)分用戶樣本種類的能力。假設(shè)p1、po兩個(gè)指標(biāo)的之間的差距較大,那么可以說明該變量用作區(qū)分用戶樣本種類的過程中具有理想的效果。為了將p1、po兩個(gè)指標(biāo)量化,則需要引入相對(duì)熵概念:

按照相對(duì)熵概念公式可以得出,p1、po兩個(gè)指標(biāo)的相互相對(duì)熵如下:

因此,每一組有:

這也說明,使用IV 值可以衡量該變量影響目標(biāo)變量的程度。按照機(jī)器學(xué)習(xí)建模的思維邏輯分析,計(jì)算所有變量的IV,并且選擇超過0.02 的IV 值對(duì)應(yīng)變量構(gòu)建模型,或者是進(jìn)行其他計(jì)算。
本次研究課題中,變量篩選的原有樣本是B 公司的1795 個(gè)變量數(shù)據(jù),對(duì)應(yīng)Z 公司提供的客戶身份信息、年齡信息和性別信息等,在這些變量數(shù)據(jù)的分組和IV 統(tǒng)計(jì)量的計(jì)算中,使用R 語言包的ctree()函數(shù),通過數(shù)據(jù)處理得出,前20 位IV 統(tǒng)計(jì)量對(duì)應(yīng)的變量信息作為重要變量,展示在表1 中。

表1:重要變量統(tǒng)計(jì)表
在本次研究課題中,以上述20 個(gè)變量為樣本建模,根據(jù)模型判定下一步的操作流程。
針對(duì)所有變量篩選,得出前20 位的IV 統(tǒng)計(jì)量對(duì)應(yīng)變量,將其進(jìn)行woe 轉(zhuǎn)碼,然后構(gòu)建Logistic 回歸模型。本次研究中模型中使用的相關(guān)參數(shù)和變量權(quán)重涉及到了商業(yè)機(jī)密,因此在此不做展示。統(tǒng)計(jì)該模型各樣本集合的AUC 值得出表2 中的內(nèi)容。

表2:簡單模型框架(%)
通過表2 AUC 值分析可見,在本次構(gòu)建的模型框架中,訓(xùn)練集和測試集的數(shù)據(jù)先對(duì)穩(wěn)定,剩余一個(gè)集合和理想相差很大,相比測試集產(chǎn)生了7 個(gè)百分點(diǎn)的偏差。這也說明該模型需要在此基礎(chǔ)上進(jìn)一步優(yōu)化,確保模型具有較高泛化能力。
本次研究中使用的GBDT 模型為用戶原始搜索詞,通過用戶違約率在回歸模型上添加新變量,提高初版模型的泛化能力。GBDT模型的樣本建設(shè)方法如下:圈定Z 公司提供的2019年5‐7月份用戶訓(xùn)練集數(shù)據(jù),以覆蓋率最高為指標(biāo)篩選樣本集合,得出底層搜索詞2500 維,也就是按照搜索詞的覆蓋率為指標(biāo),采用降序方法排列,選擇前面2500 維的信息構(gòu)建模型。y 仍舊作為該模型的目標(biāo)變量,其定義和初版模型的定義一樣,因此得出,y=1 代表的是用戶分期產(chǎn)品還款時(shí)間超時(shí)60 天的用戶樣本,y=0 代表的是用戶分期產(chǎn)品還款時(shí)間從沒有超過規(guī)定時(shí)間的用戶樣本。GBDT 模型的各參數(shù)如下:該模型中決策樹設(shè)置2 層,設(shè)置250 次迭代。通過模型調(diào)試得出各集合的效果如表3 中的內(nèi)容。

表3:搜索詞模型效果(%)
通過表格模型效果數(shù)據(jù)可見,GBDT 模型中單純的以搜索詞為建模材料,這樣的樣本可以在一定程度上作為信用風(fēng)險(xiǎn)的判定標(biāo)準(zhǔn)。假如模型中增加違約率為自變量,那么該指標(biāo)對(duì)信用風(fēng)險(xiǎn)的判定效果更準(zhǔn)確。本次研究中收益函數(shù)的計(jì)算使用了XGBOOST 算法中的R 語言包得出如下內(nèi)容:

通過這一公式可以通過決策樹的變量數(shù)據(jù)判定每一次分裂造成的損失函數(shù)收益大小。也就是說,通過該公式可以判刑模型中變量是否重要。通過排序統(tǒng)計(jì)前十的變量信息如表4。

表4:搜索詞模型重要變量(%)
分析統(tǒng)計(jì)的前十個(gè)變量搜索詞可見,這些名詞基本上都涉及到賭博、欺詐等性質(zhì),尤其是“捕魚”屬于近期網(wǎng)絡(luò)賭博的一種。這一結(jié)果和前文中的假設(shè)一致,也就是通過用戶網(wǎng)絡(luò)搜索的關(guān)鍵詞可以在一定程度上判定用戶的個(gè)人喜好,能夠了解用戶的網(wǎng)絡(luò)使用習(xí)慣。通過該模型也可以檢測用戶是否存在賭博和吸毒等可能性,模型的運(yùn)算結(jié)果可以用于判定用戶信用風(fēng)險(xiǎn)。但是該模型中使用的是近一個(gè)月的用戶搜索詞,也就是說,原始搜索詞會(huì)隨著時(shí)間發(fā)生變化,這就要求模型需要定期迭代,以確保搜索詞的時(shí)效性。
在初版的模型框架中添加搜索詞的結(jié)果,也就是用戶違約率指標(biāo),這樣可以從第一版模型的基礎(chǔ)上構(gòu)建第二版模型,通過兩個(gè)模型的預(yù)測結(jié)果對(duì)比得出表5 中的信息。

表5:模型對(duì)比結(jié)果(%)
通過三種模型的效果對(duì)比可以發(fā)現(xiàn),搜索詞模型是另外兩個(gè)模型的基礎(chǔ),在模型三個(gè)集合的效果對(duì)比中,該模型相對(duì)一初版模型效果更高。就算是跨時(shí)間驗(yàn)證集合中的數(shù)值較為66.15%,這一結(jié)果的AUC 值也符合可接受范圍。搜索詞和第二版模型比較可見,后者不管是AUC 還是Logistic 回歸模型都具有更高的穩(wěn)定性。這也說明,使用搜索詞模型會(huì)因?yàn)闀r(shí)間因素造成預(yù)測的結(jié)果和用戶真實(shí)結(jié)果產(chǎn)生偏差。經(jīng)過綜合性分析和各模型的效果對(duì)比,終板模型以Logistic 模型展現(xiàn),并且上線運(yùn)行。這一種模型在預(yù)測不同時(shí)間窗口的信用風(fēng)險(xiǎn)過程中,不管是AUC 值還是訓(xùn)練集的效果都不會(huì)出現(xiàn)太大的偏差,因此該模型的穩(wěn)健性較理想,同時(shí)也具有很強(qiáng)的擴(kuò)展能力。
本次研究的亮點(diǎn)在于將Logistic 回歸模型和GBDT 模型結(jié)合起來。經(jīng)過對(duì)比、試驗(yàn)得出兩種模型的結(jié)合才是最有效的預(yù)測模型,原因如下:研究中使用的兩種模型均具有很強(qiáng)的穩(wěn)定性,模型的運(yùn)算效果理想。在參數(shù)求解的過程中,兩種模型均使用了梯度下降的手段,尤其是二階梯度下降中使用了Xgboost 工具,這使得算法效率更高,可以方便建模人更快建模,可以降低建模過程中時(shí)間因素對(duì)預(yù)測效果的影響力,符合現(xiàn)代網(wǎng)絡(luò)信息更新速度快的特征。