999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于遷移學習的小樣本風險用戶識別

2022-05-06 07:39:16馮強中張雨晴范文斌
中國新技術新產品 2022年3期
關鍵詞:特征用戶模型

李 飛 馮強中 張雨晴 范文斌

(科大國創云網科技有限公司,安徽 合肥 230000)

0 引言

近年來,金融行業普惠政策的推廣迎來了很多新用戶,同時,行業的特殊性對風險控制提出了很高的要求,新用戶的風控評估成了金融行業推廣普惠政策的關鍵,普惠政策作為新政策,樣本量不足的問題會給用戶風控水平預測造成困難。隨著人工智能領域的飛速發展,AI已經廣泛應用于醫療、金融以及通信等領域。但是考慮到金融領域新政策出臺時缺乏用戶數據,僅使用人工智能中的機器學習算法進行預測必將導致結果不準確的問題。為了豐富數據的來源,許多學者將遷移學習作為一個關鍵技術進行研究。遷移學習的思想是當目標領域可用數據量較少時,從不同但是相關的領域中尋找類似數據進行訓練,將大樣本遷移到小樣本中,以解決小樣本中樣本量稀疏的問題。根據遷移的過程不同,現在主流的遷移學習方法大致分為4種:基于實例的遷移、基于特征的遷移、基于參數的遷移以及基于關系的遷移。

該文利用遷移學習的思想,將與原任務樣本類似的數據遷移至訓練集中,以樣本量,結合訓練速度快、準確率高的LightGBM模型進行5折交叉驗證,從而有效地提高預測的準確率。

1 相關工作

在遷移學習的數學定義中,源域是已知的、成熟的領域,目標域是數據量小的、新的且需要借助其他領域學習的領域,給出源域的數據和任務,目標域的數據和任務,使用源領域和任務中的知識去改進對于目標領域的預測函數。其中,源域數據不等于目標域數據或者源域任務不等于目標域任務。這一技術可以借助其他領域的知識補充樣本少的任務,提升任務準確率。

采用TrAdaBoost算法解決實例遷移學習問題,假設源域和目標域使用相同特征,但是在不同的域中,該特征的值的分布情況不同,部分源域數據對目標域的學習有幫助,另一部分源域數據對目標域的學習沒有幫助甚至是負遷移,因此通過調整指定源域中數據權重的方式來降低負效果數據對訓練的影響,增強正效果數據對訓練的影響。宋鵬等人提出基于特征遷移學習方法的跨庫語音情感識別方法,為了解決語音情感識別中訓練語音和預測語音語料差異導致預測效果差的問題,通過特征變換降維選擇源域和目標域相似性高的空間維度對數據進行分類,從而實現基于特征的遷移,優化后的情感識別率比基線方法和傳統識別方法的識別率更高。

谷歌公司AI團隊發布的Bert模型用于自然語言處理(NLP),Bert模型已經在大數據集上進行了預訓練,程序員將Bert預訓練模型作為語言表征模型對參數進行遷移學習,通過微調參數后應用于NLP模型中,不僅節省了大量人力和時間,而且還可以提高預測的準確率。

遷移學習思想被廣泛應用于語音、文本以及圖像等非結構化數據領域,但是在結構化數據領域的應用較少,該文將遷移學習思想應用于風險用戶預測中,源域為網絡貸款用戶數據,目標域為銀行貸款用戶數據,把源域的數據遷移到目標域,從而提高預測的準確率。

2 基于遷移學習的風險用戶預測方法

2.1 整體架構

風險用戶評估的整體架構如圖1所示。首先,對銀行用戶貸款數據進行分析、探索和清洗,將已有特征通過類別映射、特征分解以及特征組合交叉等方法構建為新特征。其次,基于遷移學習思想使用LightGBM模型,并采用5折交叉驗證方法構建風險用戶識別模型。最后,使用ROC曲線下的面積(Area under Curve,AUC)來評估模型。

圖1 風險用戶評估整體架構

2.2 數據分析與預處理

為了更直觀地了解數據集的分布、特征間關系以及特征類型等信息,需要對數據集的分布、特征間關系以及特征類型進行分析,為后續數據預處理和特征工程做準備。對銀行數據集統計存在缺失值的特征列、缺失量以及缺失率降序表(見表1)。該數據集一共有39列,7列存在缺失值,其中,f的缺失率最高,f、f、f以及f的缺失在同一條貸款記錄中(f、f、f、f以及f為脫敏后的特征,是一些貸款人行為計數特征)。

表1 缺失值分析

探索發現時間特征在借款人最初開立信用額度的時間中存在異常時間,例如2069年10月01日、2065年09月01日為未來時間,借款人不可能在該時間開立信用額度,把這部分數據作為臟數據,根據其他正常貸款開立時間,將異常時間減100 a變為正常時間。探究銀行貸款違約記錄數據和互聯網貸款違約記錄數據的數據集中用戶是否有違約信息,銀行貸款違約記錄數據中共有1萬條數據,其中違約用戶為1 683,占總數據的16.8%;互聯網貸款違約記錄數據中共有75萬條數據,其中違約用戶為149 673,占總數據的19.9%。

對特征的離散或是連續的判定中設置閾值25,一個特征種類數大于25判定為連續特征,反之為離散特征。離散特征中每種類型的數量和對違約的影響表現為網絡貸款等級特征中網絡貸款等級為2級的數量最多,網絡貸款等級為7級的數量最少,網絡貸款等級為7級、6級以及5級的用戶更容易違約。最后探究連續特征網絡貸款利率取值對違約的影響,網絡貸款利率低于12的用戶中違約用戶少于正常用戶,網絡貸款利率高于12的用戶中違約用戶多于正常用戶。

2.3 銀行貸款用戶數據特征工程

經過對數據的分析可知,數據中含有類別特征,用字典映射和LabelEncoder編碼器將類型特征網絡貸款等級、任職公司類型、工作領域以及工作年限轉換為數值類,以便后期構建模型。為了進一步提高模型效果,對2個時間特征(貸款開戶時間和貸款發放時間)來說,首先,需要進行正則化處理使數據結構統一。其次,將時間數據分解為相應的年、月、星期以及2個日期時間差。同時,對貸款和還款相關特征進行特征交叉,例如用貸款金額除貸款年份得出年均貸款金額等。

為了提高預測的準確率,將部分特征進行交叉組合后生成新特征,新特征及其說明見表2。

表2 銀行貸款用戶數據構建新特征

2.4 基于風險用戶識別的模型構建

對構建風險用戶識別模型來說,LightGBM算法模型的預測效果雖然優于傳統的決策樹、隨機森林算法,但是當數據量較少時仍然不能達到理想的預測效果,因此該文采用遷移學習的思想提高風險用戶預測效果。

LightGBM是一個基于決策樹的梯度Boosting算法框架,與其他算法相比,有更快的訓練效率和更低的內存,并且可以自動處理類別特征和自動填充缺失值。對LightGBM參數設置見表3,表3中前兩行參數影響準確率,決定模型結構,第六至第八行參數影響過擬合。

表3 LightGBM參數設置

折交叉驗證為了減小模型過擬合,從已有數據中盡量提取更多的有效信息,將原始數據等比例劃分為份,次訓練隨機選取-1份為訓練集,1份為測試集交叉訓練,該文選取5折交叉驗證,基本流程如下:1) 將數據集均勻劃分為5份。2) 將前四份作為訓練集,第五份作為測試集。3) 訓練集訓練模型,并使用訓練集和測試集一起進行擬合。4) 預測測試集結果為1的概率,并計算評價指標。5) 重復第二步~第四步,依次選取1份數據作為測試集,其他4份為訓練集。6) 將5折交叉的結果和評估指標取均值作為最終結果。

由于用戶在銀行貸款的數據較少,考慮將網絡貸款數據遷移至訓練集,且網貸數據與銀行數據存在差異,因此該文用銀行貸款數據作為訓練集預測網貸數據,用畫圖工具畫出預測值的分布,選取預測值小于0.05且真實值為0的用戶數據以及預測值大于0.7且真實值為1的用戶數據,以達到豐富銀行數據的效果。

將銀行數據與選取的部分網貸數據與預測測試集數據相結合,通過分析數據可知,貸款違約用戶的數量遠少于正常還款用戶的數量,選取預測值小于0.05的數據,將該部分數據與上一步銀行數據以及部分網貸數據結合,并對測試集進行預測。具體樣本遷移的流程如圖2所示。

圖2 樣本遷移流程圖

3 試驗結果與分析

3.1 數據選取

風險用戶識別的數據集選取某銀行用戶貸款記錄,包括貸款號、貸款年份、貸款利率、貸款級別、貸款額、所在公司類型、工作年限、借款人在貸款評分中所屬的下限和上限、債務收入比、18個月內借款人逾期30 d以上違約數、未結信用額度數、信貸周轉余額、借款人信用額度開立時間、提前還款次數、近3個月內提前還款金額以及貸款人行為計數匿名特征等字段,原始訓練集有1萬條樣本,其中,測試集有5 000條樣本,另有75萬條來自互聯網貸款的數據。

3.2 模型結果與分析

該文采用LightGBM、XGBoost以及多層感知機NN對處理后的數據進行模型訓練,使用評估指標AUC(Area Under ROC Curve,即ROC曲線下方的面積)計算對比3種算法預測結果的值,值越接近1說明預測效果越好。

圖3為在僅使用銀行貸款數據的情況下,不同模型在不同迭代次數時值的對比,LightGBM在不同迭代次數的情況下值均優于XGBoost模型;在迭代次數為4 000次時,2種模型的值均最高,LightGBM模型的值為0.86。

圖3 銀行貸款數據不同模型在不同迭代次數下AUC值對比

表4為不同模型下選取不同數據的值評估,首先,對比LightGBM模型和神經網絡模型下的效果,LightGBM效果比NN算法的略高。其次,在使用5折交叉驗證LightGBM模型情況下,僅使用銀行貸款數據的值為0.867;將所有網貸數據與銀行貸款數據一起作為訓練集訓練后預測結果的值為0.871;網貸數據的特征雖與銀行數據的特征大致相同,但是2種數據的數據分布有差異,該文使用銀行數據預測網貸數據,將預測較為準確的數據提取出來,將其遷移至銀行貸款數據中進行模型訓練,預測結果的值為0.892,效果明顯好于其他算法。

表4 不同模型下選取不同數據的AUC值評估

4 結語

隨著科學技術的快速發展,很多領域都有海量的數據,為了能夠應對部分領域數據不足的情況,將其他領域的海量數據知識遷移學習到數據不足的領域。該文在進行小樣本風險用戶識別中為了更好地捕捉風險用戶特征,引入遷移學習思想,將擁有海量樣本領域的用戶數據遷移到樣本稀疏的風險用戶識別領域,通過選擇與該領域類似的數據擴充樣本,構建用戶特征工程,解決了金融領域風險用戶識別的冷啟動問題,并對比了LightGBM、XGBoost以及NN等算法模型的值評估模型。結果顯示該文利用數據遷移學習使用LightGBM模型5折交叉驗證的方法效果最優,值最高。

猜你喜歡
特征用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 欧美 国产 人人视频| 亚洲日本韩在线观看| 国产黄网永久免费| 新SSS无码手机在线观看| 成年女人a毛片免费视频| 国产精品久久自在自线观看| 国产成人久久综合一区| 欧美亚洲国产精品第一页| 亚洲美女一级毛片| 2021天堂在线亚洲精品专区| 国产成人免费高清AⅤ| 一本久道久久综合多人 | 青草视频在线观看国产| 国产精品美人久久久久久AV| 欧美日韩国产在线播放| 国产精彩视频在线观看| 日韩视频免费| 久久性妇女精品免费| 毛片视频网址| 精品久久久久无码| 国产精品第一区| 高清视频一区| 青青草原国产免费av观看| 免费观看无遮挡www的小视频| 亚洲一区免费看| 国产亚洲男人的天堂在线观看 | 男女精品视频| 老司国产精品视频| 色噜噜狠狠狠综合曰曰曰| 亚洲女同一区二区| 成人无码一区二区三区视频在线观看 | 免费观看男人免费桶女人视频| 久久亚洲综合伊人| 午夜日韩久久影院| 精品福利一区二区免费视频| www.亚洲一区| 亚洲激情区| 国产成人91精品| 国产偷国产偷在线高清| 亚洲成人免费看| 久久伊伊香蕉综合精品| 精品一区二区三区无码视频无码| 欧类av怡春院| 亚洲无码四虎黄色网站| 国产精品无码AV中文| 国产手机在线小视频免费观看 | 国产主播福利在线观看| 青青热久麻豆精品视频在线观看| 久久久久亚洲精品成人网| 国产精品夜夜嗨视频免费视频| 亚洲成A人V欧美综合| 日韩在线第三页| 成人免费视频一区二区三区 | 四虎精品黑人视频| 国产熟女一级毛片| 色国产视频| 秋霞国产在线| 亚洲成A人V欧美综合天堂| 在线精品自拍| 国产精品无码影视久久久久久久| vvvv98国产成人综合青青| 国产精品亚洲天堂| 国产一区二区三区日韩精品| 国内精品免费| 欧美日韩在线亚洲国产人| 亚洲欧美在线综合一区二区三区| 亚洲中文字幕精品| 国产免费自拍视频| 在线播放91| 中文字幕久久波多野结衣| AV无码国产在线看岛国岛| 99热最新网址| 麻豆精品在线播放| 午夜精品一区二区蜜桃| 国产在线精彩视频论坛| 在线看片免费人成视久网下载| 成人看片欧美一区二区| 亚洲无线国产观看| 久久特级毛片| 国产经典三级在线| 四虎国产在线观看| 国产精品视屏|