999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的貸款欺詐預測研究和應用

2020-07-04 02:14:28姚玲潔
電腦知識與技術 2020年14期
關鍵詞:機器學習

姚玲潔

摘要:針對貸款欺詐問題,該文使用隨機森林對真實信用卡貸款數(shù)據(jù)進行特征排序,采用邏輯斯特回歸構建信用卡反欺詐預測模型,訓練獲得的模型正確率較高,可應用于貸款欺詐預測系統(tǒng)中。

關鍵詞:貸款交易欺詐;機器學習;隨機森林;邏輯斯特回歸;反欺詐

中圖分類號:TP181 文獻標識碼:A

文章編號:1009-3044(2020)14-0260-03

1引言

隨著國家不斷增強對自主創(chuàng)業(yè)的支持力度,貸款已經(jīng)成為一種非常重要的支付手段。然而,犯罪分子也關注到這種便利方法,使用各種虛假信息欺詐銀行或者金融機構。因此構建一個可行性高、便利的交易欺詐預測模型對于維護正常的經(jīng)濟秩序是必不可少的。

近年,隨著機器學習的深入發(fā)展及計算機硬件的處理數(shù)據(jù)能力不斷提升,不少學者逐漸將關注點聚集在機器學習應用上。關于交易欺詐預測研究,文獻[1]利用模糊神經(jīng)網(wǎng)絡、并行處理可快速產(chǎn)生欺詐規(guī)律信息。文獻[2]利用決策樹、布爾邏輯函數(shù)、聚類分析判定欺詐行為。文獻[3]改進Apfiori算法挖掘欺詐交易的規(guī)律。文獻[4]將BP神經(jīng)網(wǎng)絡應用在信用卡反欺詐研究中。文獻[5]提出了一種基于大數(shù)據(jù)技術的三層反欺詐模型,支持日終批量檢測信用卡的交易異常行為。文獻[6]依賴于專家規(guī)則模型進行欺詐交易識別,過度依賴專家制定的規(guī)則。文獻[7]先對數(shù)據(jù)進行數(shù)據(jù)預處理、再訓練出可實施的五層DBN交易欺詐評分模型。文獻[8]建立了一個基于SVM的反欺詐模型,先將kaggle中的銀行卡消費數(shù)據(jù)進行預處理、縮放選擇特征,再采用smote算法處理數(shù)據(jù)集的分布不均問題,調(diào)整參數(shù)形成最佳的訓練模型后后,準確率達到97.00%。文獻[9]提出了結(jié)合規(guī)則引擎、數(shù)據(jù)挖掘模型、人工校驗方法,建立了一套互助互補、更加高效的信用卡反欺詐模式。本文采用機器學習里的隨機森林、邏輯斯特回歸算法應用于貸款交易欺詐判定中。

2貸款欺詐檢測原理

信用卡反欺詐是利用信用卡的歷史交易數(shù)據(jù),構建信用卡反欺詐預測模型,提前發(fā)現(xiàn)客戶信用卡被盜刷的事件。

3構建機器學習模型

3.1數(shù)據(jù)預處理

本文使用公開庫kaggle的部分交易數(shù)據(jù)來訓練及驗證機器學習模型,并將欺詐行為和正常交易行為做出相應的標記。因公開庫的數(shù)據(jù)量龐大,因此本文隨機抽取284707條數(shù)據(jù)來做驗證。正常交易信息是284315條,貸款欺詐信息為492條。

如圖1的(a)(b)所示:數(shù)據(jù)嚴重不平衡,負樣本f欺詐時的值為1的樣本)的數(shù)量太少,如果不進行處理,直接用這樣的數(shù)據(jù)來進行訓練建模,會使得到的模型效果不佳。

因此需進行樣本數(shù)據(jù)處理,主要有兩種思路。

(1)下采樣

對于數(shù)據(jù)集中出現(xiàn)的數(shù)量嚴重不等的兩類數(shù)據(jù),從數(shù)量比較多的那類樣本中,隨機選出和數(shù)量比較少的那類樣本數(shù)量相同的樣本,最終組成正負樣本數(shù)量相同的樣本集進行訓練建模。

(2)過采樣

本文使用過采樣的方法把數(shù)據(jù)擴充到相匹配的程度,去除一些負樣本,使得正負樣本數(shù)目接近,從而處理樣本不平衡問題,最后進行訓練學習。由于隨機過采樣采取簡單復制樣本的策略來增加少數(shù)類樣本,容易產(chǎn)生模型過擬合的問題,使得模型學習到的信息過于特別而不夠泛化。

本文采用的是隨機過采樣算法的改進方案SMOTE。具體過程是先分離數(shù)據(jù)中的特征和標簽,再將數(shù)據(jù)分成訓練數(shù)據(jù)和測試數(shù)據(jù),其比例為7:3,最后利用SMOTE來處理訓練樣本,得到均衡的訓練樣本。

3.2特征工程

特征工程是指自變量x對因變量v有明顯影響作用的特征,特征工程可分為三個方面:特征構建、特征提取、特征選擇。

特征構建是指從原始數(shù)據(jù)中人工的找出一些具有物理意義的特征。特征提取有多種常用的方法,如主成分分析法、LDA線性判別分析法、ICA獨立成分分析法等。特征選擇是最重要的步驟,是為了剔除不相關或者冗余的特征,減少有效特征的個數(shù),減少模型訓練的時間,提高模型的精確度。本文采用隨機森林算法獲取數(shù)據(jù)的顯著特征。具體實現(xiàn)過程如下:

首先將目標變量進行可視化,顯示的結(jié)果。其次進行特征衍生,特征Time的單位是秒,轉(zhuǎn)化為以小時為單位對應每天的時間。再進行查看信用卡正常用戶和異常用戶之間的區(qū)別。從圖2中可以看出,在貸款欺詐的事件中,部分變量之間的相關性更明顯。其中變量v1、V2、v3、V4、V5、V6、v7、V9、v10、v11、V12、V14、V16、V17和V18以及V19之間的變化在信用卡被盜刷的樣本中呈性一定的規(guī)律。另外,詐騙交易、交易金額和交易次數(shù)存在如圖3所示關系。

查看數(shù)據(jù)的維度后,特征從28個縮減到了18個,其中不包含目標變量。最后對特征的重要性進行排序,具體過程為先構建x變量和Y變量,利用隨機森林的feature impo~ance對特征的重要性進行排序,排序結(jié)果如圖4所示。

3.3模型訓練

3.3.1樣本不平衡處理

構建自變量和因變量處理樣本不平衡,樣本個數(shù)共284807個,正樣本占99.83%,負樣本占0.17%。特征維數(shù)為18。

3.3.2構建分類器進行訓練

構建邏輯回歸分類器進行訓練,產(chǎn)生測試集的預測精度分值結(jié)果為0.99992。生成混淆矩陣(如圖5)后,測試數(shù)據(jù)集中的召回度量為0.955284552846,閾值默認值為0.5,繪制ROC曲線。

3.4模型評估與優(yōu)化

上一個步驟中的模型訓練和測試都在同一個數(shù)據(jù)集上進行,會導致模型產(chǎn)生過擬合。一般來說,將數(shù)據(jù)集劃分為訓練集和測試集有3種處理方法:留出法、交叉驗證法、自助法。

本文采用交叉驗證法劃分數(shù)據(jù)集,將數(shù)據(jù)劃分為3部分:訓練集、驗證集和測試集。讓模型在訓練集進行學習,在驗證集上進行參數(shù)調(diào)優(yōu),最后使用測試集數(shù)據(jù)評估模型的性能。模型調(diào)優(yōu)采用網(wǎng)格搜索調(diào)優(yōu)參數(shù),通過構建參數(shù)候選集合,網(wǎng)格搜索窮舉各種參數(shù)組合,再根據(jù)設定評定的評分機制找到最好的那一組設置。最后結(jié)合cross-validation和gird search,具體采用scikit learn模塊modd_sdecfion中的GridSearchCV方法。

precision和recall是一組矛盾的變量。從上面混淆矩陣和PRC曲線可以看到,閾值越小,recall值越大,模型能找出信用卡被盜刷的數(shù)量也就更多,但換來的代價是誤判的數(shù)量也較大。隨著閾值的提高,recall值逐漸降低,precision值也逐漸提高,誤判的數(shù)量也隨之減少。通過調(diào)整模型閾值,控制模型反信用卡欺詐的力度,若想找出更多的信用卡被盜刷就設置較小的閾值,反之,則設置較大的閾值。

實際業(yè)務中,閾值的選擇取決于公司業(yè)務邊際利潤和邊際成本的比較;當模型閾值設置較小的值,確實能找出更多的信用卡被盜刷的持卡人,但隨著誤判數(shù)量增加,不僅加大了貸后團隊的工作量,也會降低誤判為信用卡被盜刷客戶的消費體驗,從而導致客戶滿意度下降,如果某個模型閾值能讓業(yè)務的邊際利潤和邊際成本達到平衡時,則該模型的閾值為最優(yōu)值。當然也有例外的情況,發(fā)生金融危機,往往伴隨著貸款違約或信用卡被盜刷的概率會增大,而金融機構會更愿意不惜一切代價守住風險的底線。

4實驗數(shù)據(jù)測試

將random_state設置為0,每次切分的數(shù)據(jù)都一樣,構建參數(shù)組合。確定模型Logistic和參數(shù)組合param_grid,cv指定10折,使用訓練集學習算法得到測試集的精確度為0.99916。

5總結(jié)

本文首先介紹了貸款欺詐的背景,其次講述了近年來學者們應用方法的優(yōu)缺點,最后描述了如何利用真實的信用卡歷史交易數(shù)據(jù),使用機器學習構建信用卡的反欺詐預測模型,從而提前判定信用卡被盜刷的非法行為。從這個模型的測試結(jié)果來看,將機器學習可應用于貸款欺詐系統(tǒng)的建立中,能夠降低誤判率,效果良好。

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網(wǎng)絡搜索數(shù)據(jù)的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網(wǎng)中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
基于圖的半監(jiān)督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 国产成人精品综合| 久久伊人色| 中文字幕精品一区二区三区视频| 综合网久久| 97se亚洲综合| 成人午夜在线播放| 激情综合激情| 日韩午夜伦| 乱系列中文字幕在线视频| 亚洲AV一二三区无码AV蜜桃| 国产在线高清一级毛片| 国产一级毛片在线| 久久国产拍爱| 国产97公开成人免费视频| 免费高清毛片| 综合色88| 色综合五月| av大片在线无码免费| 亚洲国产午夜精华无码福利| 中文精品久久久久国产网址| 亚洲国产成熟视频在线多多 | 欧美一级99在线观看国产| 国产高清在线观看91精品| 日韩在线视频网| 久久成人免费| 中文字幕天无码久久精品视频免费| 亚洲欧美另类日本| 欧美日韩国产在线观看一区二区三区| 午夜高清国产拍精品| 一级毛片中文字幕| 波多野结衣中文字幕久久| 精品丝袜美腿国产一区| 国产真实乱子伦精品视手机观看 | 无码中文AⅤ在线观看| 国产簧片免费在线播放| 91国语视频| 国产精品99久久久久久董美香| 欧美.成人.综合在线| 视频一区视频二区日韩专区| 亚洲精品视频免费看| 69免费在线视频| 人妻中文久热无码丝袜| 深爱婷婷激情网| 日本高清成本人视频一区| 日日拍夜夜嗷嗷叫国产| 国产xx在线观看| 午夜视频www| 久久这里只有精品66| 午夜性刺激在线观看免费| 欧美另类一区| a毛片免费在线观看| 亚洲中文字幕在线一区播放| 亚洲一道AV无码午夜福利| 亚洲大学生视频在线播放| 日韩第一页在线| 一级毛片基地| 四虎永久免费地址| 亚洲91精品视频| 日本午夜在线视频| 国产成人夜色91| 国产精品熟女亚洲AV麻豆| 亚洲第一区欧美国产综合| 亚洲午夜天堂| 五月婷婷综合网| 在线亚洲精品福利网址导航| 日韩东京热无码人妻| 亚洲人成网站18禁动漫无码| a亚洲天堂| 欧美午夜网| 久久伊人久久亚洲综合| 国产精品无码AⅤ在线观看播放| 国内精品视频区在线2021| 色成人亚洲| 国产a v无码专区亚洲av| 亚洲侵犯无码网址在线观看| 日韩在线永久免费播放| 久久午夜夜伦鲁鲁片无码免费| 白丝美女办公室高潮喷水视频| 国产一区二区三区免费观看| 无码高潮喷水专区久久| 久久精品中文字幕免费| 女人av社区男人的天堂|