999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機(jī)器學(xué)習(xí)算法的金融公司信用風(fēng)險(xiǎn)預(yù)測模型

2021-07-05 11:59:58胡慶鋒
電子技術(shù)與軟件工程 2021年10期
關(guān)鍵詞:效果用戶信息

胡慶鋒

(深圳市企鵝網(wǎng)絡(luò)科技有限公司 廣東省深圳市 518000)

1 數(shù)據(jù)預(yù)處理

1.1 樣本數(shù)據(jù)概況

本次研究的Z 公司主營業(yè)務(wù)是消費(fèi)金融,這是一家互聯(lián)網(wǎng)科技企業(yè),于2014年正式運(yùn)營。該企業(yè)利用網(wǎng)絡(luò)信息技術(shù)和大數(shù)據(jù)風(fēng)險(xiǎn)控制技術(shù)為用戶建立完整的信用檔案,并且對(duì)銀行等金融機(jī)構(gòu)提供用戶信用信息,幫助金融機(jī)構(gòu)降低信貸業(yè)務(wù)風(fēng)險(xiǎn),提高信貸績效。B 公司屬于國內(nèi)著名的網(wǎng)絡(luò)中文搜索企業(yè),該企業(yè)經(jīng)過長期的網(wǎng)絡(luò)經(jīng)營已經(jīng)具備了大量的客戶信息。利用這些數(shù)據(jù)匹配幫助B 公司建立賬戶數(shù)據(jù)信用風(fēng)險(xiǎn)模型。Z 公司借助信息共享機(jī)制分享B 公司建立的風(fēng)險(xiǎn)模型和相關(guān)的信息。經(jīng)過協(xié)商之后,雙方公司判定理想化用戶指的是Z 公司信貸客戶群體中并未出現(xiàn)逾期違約行為的客戶,判定不理想用戶指的是在Z 公司信貸客戶群體中,信貸分期產(chǎn)品的用戶還款超出了60 天規(guī)定時(shí)間,剩余的還款超出規(guī)定時(shí)間的1‐59天用戶被稱為中間樣本。這種分等級(jí)的客戶信用劃分可以提高金融服務(wù)過程中對(duì)客戶基本信息的識(shí)別能力。根據(jù)用戶信息的時(shí)間指標(biāo)劃分用戶樣本種類,其中2019年5‐7月份申請(qǐng)用戶群體定義為建模樣本,2019年3月份申請(qǐng)用戶群體定義為跨時(shí)間窗驗(yàn)證樣本。本次信用風(fēng)險(xiǎn)模型建設(shè)項(xiàng)目屬于Z、B 公司合作項(xiàng)目,其中前者負(fù)責(zé)用戶信息收集和整理,后者負(fù)責(zé)數(shù)據(jù)模型建設(shè)。本次研究從B 公司建模負(fù)責(zé)人的角度出發(fā)分析模型建設(shè)相關(guān)數(shù)據(jù)的預(yù)處理和具體的模型建設(shè)問題。

對(duì)用戶信用數(shù)據(jù)展開去重、篩選和匹配之后提取有用的用戶信息,形成的樣本定義和樣本特征如下:

(1)y=1:定義的樣本群體是分期產(chǎn)品還款超時(shí)60 天的客戶樣本,規(guī)模為1800;y=0 定義的樣本群體是分期產(chǎn)品還款從未超時(shí)的客戶樣本,規(guī)模為5755。將上述數(shù)據(jù)帶入逾期率計(jì)算公式得出:

1800/(1800+5755)=23.8%。

(2)特征時(shí)間窗口指的是2019年5‐7月份之間在Z 公司平臺(tái)中提出申請(qǐng)的客戶群體,按照客戶申請(qǐng)時(shí)間點(diǎn)前一個(gè)月的時(shí)間段為基準(zhǔn),匹配B 公司中的對(duì)應(yīng)客戶信息,比如客戶照片、其他B 公司產(chǎn)品的注冊(cè)信息、客戶反饋信息和論壇回復(fù)情況、LBS、電子錢包相關(guān)信息以及用戶這一個(gè)月時(shí)間段中通過B 平臺(tái)檢索過的關(guān)鍵詞等。

1.2 特征變量的篩選

模型中IV統(tǒng)計(jì)量單純的值一個(gè)變量信息,信息價(jià)值(information value)的出現(xiàn)需要建立在相對(duì)熵的基礎(chǔ)上。相對(duì)熵D(1|q)度量指的是當(dāng)以p 為真實(shí)分布情況,以q 為假定分布情況,p 對(duì)q 的無效性。因此q 的編碼可以在平均指標(biāo)范圍內(nèi)比p 編碼長D(p||q)比特。這一概念按照信息論的內(nèi)容理解可以定義公式為:

總結(jié)相對(duì)熵的特性可以得出如下內(nèi)容:

(1)使用相對(duì)熵可以衡量兩個(gè)正數(shù)函數(shù)之間存在相似性。

(2)相對(duì)熵?cái)?shù)值大小可以表示兩個(gè)函數(shù)或者是分布的差異性。比如當(dāng)數(shù)值為0 的時(shí)候代表兩個(gè)函數(shù)相同,或者是隨機(jī)分布。當(dāng)數(shù)值越大,代表著兩個(gè)函數(shù)分布差異越明顯。

計(jì)算IV 統(tǒng)計(jì)量首先應(yīng)當(dāng)區(qū)分變量類型。按照變量性質(zhì)相近的變量值作為同一組,性質(zhì)遠(yuǎn)的作為不同組出現(xiàn)。完成分組后需要分別計(jì)算每一組的違約率和履約率,分別記為p1i、p0i。那么相應(yīng)組中的IV 表示為:

按照模型建設(shè)的思維分析,模型建設(shè)人期望p1、po存在明顯的分布差異,但是如果p1、po兩個(gè)指標(biāo)的分布和建模人的期望相反,分布距離近,那么可以說明該變量并沒有理想的區(qū)分用戶樣本種類的能力。假設(shè)p1、po兩個(gè)指標(biāo)的之間的差距較大,那么可以說明該變量用作區(qū)分用戶樣本種類的過程中具有理想的效果。為了將p1、po兩個(gè)指標(biāo)量化,則需要引入相對(duì)熵概念:

按照相對(duì)熵概念公式可以得出,p1、po兩個(gè)指標(biāo)的相互相對(duì)熵如下:

因此,每一組有:

這也說明,使用IV 值可以衡量該變量影響目標(biāo)變量的程度。按照機(jī)器學(xué)習(xí)建模的思維邏輯分析,計(jì)算所有變量的IV,并且選擇超過0.02 的IV 值對(duì)應(yīng)變量構(gòu)建模型,或者是進(jìn)行其他計(jì)算。

本次研究課題中,變量篩選的原有樣本是B 公司的1795 個(gè)變量數(shù)據(jù),對(duì)應(yīng)Z 公司提供的客戶身份信息、年齡信息和性別信息等,在這些變量數(shù)據(jù)的分組和IV 統(tǒng)計(jì)量的計(jì)算中,使用R 語言包的ctree()函數(shù),通過數(shù)據(jù)處理得出,前20 位IV 統(tǒng)計(jì)量對(duì)應(yīng)的變量信息作為重要變量,展示在表1 中。

表1:重要變量統(tǒng)計(jì)表

在本次研究課題中,以上述20 個(gè)變量為樣本建模,根據(jù)模型判定下一步的操作流程。

2 模型構(gòu)建與迭代

針對(duì)所有變量篩選,得出前20 位的IV 統(tǒng)計(jì)量對(duì)應(yīng)變量,將其進(jìn)行woe 轉(zhuǎn)碼,然后構(gòu)建Logistic 回歸模型。本次研究中模型中使用的相關(guān)參數(shù)和變量權(quán)重涉及到了商業(yè)機(jī)密,因此在此不做展示。統(tǒng)計(jì)該模型各樣本集合的AUC 值得出表2 中的內(nèi)容。

表2:簡單模型框架(%)

通過表2 AUC 值分析可見,在本次構(gòu)建的模型框架中,訓(xùn)練集和測試集的數(shù)據(jù)先對(duì)穩(wěn)定,剩余一個(gè)集合和理想相差很大,相比測試集產(chǎn)生了7 個(gè)百分點(diǎn)的偏差。這也說明該模型需要在此基礎(chǔ)上進(jìn)一步優(yōu)化,確保模型具有較高泛化能力。

本次研究中使用的GBDT 模型為用戶原始搜索詞,通過用戶違約率在回歸模型上添加新變量,提高初版模型的泛化能力。GBDT模型的樣本建設(shè)方法如下:圈定Z 公司提供的2019年5‐7月份用戶訓(xùn)練集數(shù)據(jù),以覆蓋率最高為指標(biāo)篩選樣本集合,得出底層搜索詞2500 維,也就是按照搜索詞的覆蓋率為指標(biāo),采用降序方法排列,選擇前面2500 維的信息構(gòu)建模型。y 仍舊作為該模型的目標(biāo)變量,其定義和初版模型的定義一樣,因此得出,y=1 代表的是用戶分期產(chǎn)品還款時(shí)間超時(shí)60 天的用戶樣本,y=0 代表的是用戶分期產(chǎn)品還款時(shí)間從沒有超過規(guī)定時(shí)間的用戶樣本。GBDT 模型的各參數(shù)如下:該模型中決策樹設(shè)置2 層,設(shè)置250 次迭代。通過模型調(diào)試得出各集合的效果如表3 中的內(nèi)容。

表3:搜索詞模型效果(%)

通過表格模型效果數(shù)據(jù)可見,GBDT 模型中單純的以搜索詞為建模材料,這樣的樣本可以在一定程度上作為信用風(fēng)險(xiǎn)的判定標(biāo)準(zhǔn)。假如模型中增加違約率為自變量,那么該指標(biāo)對(duì)信用風(fēng)險(xiǎn)的判定效果更準(zhǔn)確。本次研究中收益函數(shù)的計(jì)算使用了XGBOOST 算法中的R 語言包得出如下內(nèi)容:

通過這一公式可以通過決策樹的變量數(shù)據(jù)判定每一次分裂造成的損失函數(shù)收益大小。也就是說,通過該公式可以判刑模型中變量是否重要。通過排序統(tǒng)計(jì)前十的變量信息如表4。

表4:搜索詞模型重要變量(%)

分析統(tǒng)計(jì)的前十個(gè)變量搜索詞可見,這些名詞基本上都涉及到賭博、欺詐等性質(zhì),尤其是“捕魚”屬于近期網(wǎng)絡(luò)賭博的一種。這一結(jié)果和前文中的假設(shè)一致,也就是通過用戶網(wǎng)絡(luò)搜索的關(guān)鍵詞可以在一定程度上判定用戶的個(gè)人喜好,能夠了解用戶的網(wǎng)絡(luò)使用習(xí)慣。通過該模型也可以檢測用戶是否存在賭博和吸毒等可能性,模型的運(yùn)算結(jié)果可以用于判定用戶信用風(fēng)險(xiǎn)。但是該模型中使用的是近一個(gè)月的用戶搜索詞,也就是說,原始搜索詞會(huì)隨著時(shí)間發(fā)生變化,這就要求模型需要定期迭代,以確保搜索詞的時(shí)效性。

在初版的模型框架中添加搜索詞的結(jié)果,也就是用戶違約率指標(biāo),這樣可以從第一版模型的基礎(chǔ)上構(gòu)建第二版模型,通過兩個(gè)模型的預(yù)測結(jié)果對(duì)比得出表5 中的信息。

表5:模型對(duì)比結(jié)果(%)

通過三種模型的效果對(duì)比可以發(fā)現(xiàn),搜索詞模型是另外兩個(gè)模型的基礎(chǔ),在模型三個(gè)集合的效果對(duì)比中,該模型相對(duì)一初版模型效果更高。就算是跨時(shí)間驗(yàn)證集合中的數(shù)值較為66.15%,這一結(jié)果的AUC 值也符合可接受范圍。搜索詞和第二版模型比較可見,后者不管是AUC 還是Logistic 回歸模型都具有更高的穩(wěn)定性。這也說明,使用搜索詞模型會(huì)因?yàn)闀r(shí)間因素造成預(yù)測的結(jié)果和用戶真實(shí)結(jié)果產(chǎn)生偏差。經(jīng)過綜合性分析和各模型的效果對(duì)比,終板模型以Logistic 模型展現(xiàn),并且上線運(yùn)行。這一種模型在預(yù)測不同時(shí)間窗口的信用風(fēng)險(xiǎn)過程中,不管是AUC 值還是訓(xùn)練集的效果都不會(huì)出現(xiàn)太大的偏差,因此該模型的穩(wěn)健性較理想,同時(shí)也具有很強(qiáng)的擴(kuò)展能力。

3 總結(jié)

本次研究的亮點(diǎn)在于將Logistic 回歸模型和GBDT 模型結(jié)合起來。經(jīng)過對(duì)比、試驗(yàn)得出兩種模型的結(jié)合才是最有效的預(yù)測模型,原因如下:研究中使用的兩種模型均具有很強(qiáng)的穩(wěn)定性,模型的運(yùn)算效果理想。在參數(shù)求解的過程中,兩種模型均使用了梯度下降的手段,尤其是二階梯度下降中使用了Xgboost 工具,這使得算法效率更高,可以方便建模人更快建模,可以降低建模過程中時(shí)間因素對(duì)預(yù)測效果的影響力,符合現(xiàn)代網(wǎng)絡(luò)信息更新速度快的特征。

猜你喜歡
效果用戶信息
按摩效果確有理論依據(jù)
迅速制造慢門虛化效果
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
模擬百種唇妝效果
Coco薇(2016年8期)2016-10-09 02:11:50
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
展會(huì)信息
主站蜘蛛池模板: 色噜噜综合网| 中文字幕在线看| 亚洲精品图区| 精品伊人久久久香线蕉| 国产理论最新国产精品视频| 久久精品一卡日本电影| 韩日免费小视频| 尤物亚洲最大AV无码网站| 亚洲欧美综合在线观看| 97免费在线观看视频| 91年精品国产福利线观看久久 | 国产精品第页| 一本视频精品中文字幕| 毛片在线播放网址| 国产午夜在线观看视频| 国产欧美日韩在线在线不卡视频| 免费亚洲成人| 久久婷婷五月综合色一区二区| 亚洲欧美综合精品久久成人网| 欧美人在线一区二区三区| 日韩欧美色综合| 久久精品人妻中文系列| 亚洲三级片在线看| 国产精品yjizz视频网一二区| 波多野衣结在线精品二区| 日韩色图在线观看| 国产精品视频导航| 亚洲二区视频| 国产精品久久自在自线观看| 亚洲综合色区在线播放2019| 狂欢视频在线观看不卡| 国产00高中生在线播放| 2019年国产精品自拍不卡| 成人在线天堂| 亚洲a免费| 久久无码高潮喷水| 国产嫖妓91东北老熟女久久一| www.av男人.com| 亚洲色无码专线精品观看| 免费看a毛片| 精品无码国产自产野外拍在线| a天堂视频在线| 欧美日韩国产综合视频在线观看 | 欧美成人免费一区在线播放| 四虎在线观看视频高清无码| 天天综合天天综合| 亚洲精品大秀视频| 91精品国产91久久久久久三级| 日本不卡在线| 国产成人精品亚洲日本对白优播| 日韩av电影一区二区三区四区| 四虎永久免费地址| 国产剧情无码视频在线观看| 欧美成一级| 久久国产精品影院| 国产探花在线视频| 欧美一级一级做性视频| 中国美女**毛片录像在线| 在线观看免费AV网| 亚洲精品在线影院| 欧美高清三区| 黄色成年视频| 性欧美久久| 萌白酱国产一区二区| 国产丝袜无码精品| 91免费片| 波多野结衣中文字幕一区二区 | 国产精品视频系列专区 | 一级福利视频| 99热这里只有精品免费| 她的性爱视频| 久久婷婷色综合老司机| 日韩欧美中文字幕一本| 亚洲综合一区国产精品| 国产日韩精品一区在线不卡| 国内丰满少妇猛烈精品播 | 一区二区日韩国产精久久| 午夜色综合| a色毛片免费视频| 国产在线观看一区精品| 18禁黄无遮挡网站| www.精品视频|