999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘技術的信貸欺詐研究

2022-07-15 09:52:46劉娟娟梁龍躍蔡鉉燁
智能計算機與應用 2022年7期
關鍵詞:特征文本信息

劉娟娟, 梁龍躍,蔡鉉燁

(1貴州大學 經濟學院,貴陽 550025;2中央財經大學 統計與數學學院,北京 102206)

0 引 言

信貸欺詐識別不僅是國家有關部門關注的重點,亦是對金融市場日常交易中的嚴峻挑戰。中國金融市場發展起步較晚,金融體系尚不完善,有效識別信貸欺詐問題,有利于互聯網金融的創新發展和傳統金融業的數字化轉型升級。然而,僅靠年齡、學歷、房產狀況等“硬信息”識別欺詐行為具有一定局限性。大數據背景下,文本數據是經濟學中應用較多的非結構化數據,其中蘊含著豐富的信息,被廣泛應用于度量經濟政策的不確定性、股價預測、波動率等,以及將文本數據運用于違約預測。

借貸申請人所提供的文本數據承載了申請人的意愿、傾向,該類文本數據是指其在申請貸款時所填寫的貸款用途、貸款原因等文本,因此具有獨特的價值意義。了解客戶的資信狀況是授信過程中十分關鍵的環節,是決定是否授予貸款的前提和基礎,為此相關平臺人員必須綜合客戶的有關信息(資信狀況、還款意愿等),識別客戶真偽信息。文本數據的引入拓寬了了解客戶信息的渠道,為全面評估客戶、減少損失提供了保障。

在信貸欺詐識別模型中,機器學習算法是主流算法之一,與統計、計量分析方法(如:Logit模型)相比,具有更高的識別效率和準確率。利用機器學習進行欺詐數據檢測主要分為3條路徑:

(1)根據不平衡樣本集,使用機器學習模型預測。如:文獻[5]中構建決策樹與布爾邏輯函數的融合模型,對金融消費行為進行分析,并在此基礎上使用聚類方式區分正常交易與非正常交易,以此判斷持卡人交易是否符合規范。文獻[6]基于數據挖掘技術,設計信用卡欺詐檢測系統,該系統使用貝葉斯分類器對客戶數據進行識別,判斷客戶是否存在欺詐行為。文獻[7]提出模糊二范數二次曲面支持向量機模型,用于信貸違約預測。實證結果表明,相比二次曲面支持向量機模型、二次核的加權二范數支持向量機模型等4個支持向量機變體模型而言,該模型評估效果得到顯著提升。

(2)使用神經網絡模型進行預測。文獻[8]在BP神經網絡基礎上,融合遺傳算法(GA)評估德國信用卡消費行為風險。該研究結果表明,混合模型效果優于單一的BP神經網絡模型。

(3)平衡樣本數據之后進行預測。由于欺詐數據往往具有樣本分類不平衡的問題,SMOTE算法平衡數據被廣泛應用于欺詐檢測。文獻[9-11]研究結果表明:樣本平衡后能有效提升模型預測性能。

雖然貸款申請人所提供的文本數據蘊含豐富信息,但如何從該類文本數據中獲取有效信息仍存在一些需要解決的問題。為此,相關人員做了大量的研究工作。文獻[12]中指出,在傳統的詞頻統計、詞典法等方法中,由于選詞及詞典本身的限制,往往會存在信息遺漏問題。為了能夠充分獲取文本信息,自然語言處理技術已廣泛應用于文本挖掘。如CNN、LSTM、RNN、注意力機制等深度學習模型被廣泛用于文本信息提取。文獻[13]使用了幾種典型的CNN模型,用于文本分類中的特征提取,獲取文本信息的向量。隨著人工智能技術的發展,文獻[14]中提出了一種完全基于Attention機制的Transformer模型,打破了人們使用RNN與CNN做自然語言處理的局限。文獻[15]使用多種方式提取文本特征作為新特征變量,用于構建信用違約模型(如:LDA、CNN、Transformer等)。研究對比發現:加入Transformer模型提取的文本特征對模型性能提升效果高于其它文本提取方式。此外,使用深度學習模型所提取的文本信息存在高維問題,一般降維方式為PCA、LASSO、核PCA等方法,但由于經由模型提取后的數據為非線性高維數據,一般降維方法不能有效解決非線性問題,為保證降維效果,需選取合適的降維方法。

本文致力于解決信貸文本信息的提取及降維,并將其運用于信貸欺詐識別??紤]到英文單詞具有大小寫之分,為降低其重復性,使用Snowball對英文進行詞干還原,并在此基礎上使用Transformer提取文本信息,有效獲取了文本信息。其次,使用自動編碼器(AE)對提取的文本信息進行非線性降維,成功獲取文本信息測度指標。最后,利用多個機器學習模型(如:隨機森林、XGBoost、GBDT等)與數據均衡算法(SMOTE、TomekLinks欠采樣等)相結合,作為信貸欺詐識別基準模型。在其基礎上引入文本信息測度作為新的預測變量,根據模型預測性能及特征重要性分析,研究貸款申請人所提供的文本數據對信貸欺詐識別的判斷能力。

1 信貸文本信息提取建模

1.1 文本特征模型理論

1.1.1 自動編碼器(AE)

自動編碼器(AE)是一種基于神經網絡的數據降維方法,主要包括編碼(Encoder)和解碼(Decoder)兩部分,其網絡結構如圖1所示。當網絡輸入確定后,利用輸出等于輸入來訓練自動編碼器網絡,使得輸出盡可能地逼近輸入。其中,隱層單元數量的選取要小于輸入數據的維度。在數據降維中,AE只需使用Encoder部分的編碼操作,將高維度的輸入數據映射到低維度的特征編碼,達到降低數據維度的目的,且該方法相比于主成分分析(PCA)方法能以非線性方式解決多重共線性問題。

圖1 自編碼結構Fig.1 Autoencoder structure

1.1.2 Transformer

Transformer由Vaswani等,在2017年提出,其開創性的放棄了基于RNN、LSTM、GRU等循環神經網絡結構,取而代之使用了Attention層和全連接層構建網絡,解決了語義長期依賴問題。位置編碼器的引入解決了詞語順序的問題,并且由于沒有了循環神經網絡的遞歸結構,網絡求解過程可以并行完成,大大提高了效率。該模型由一個完整的Encoder-Decoder框架構成,如圖2所示。其中,Encoder部分功能比較單一,僅用于從原始句子中提取特征,而Decoder則功能相對較多,除特征提取功能還包含語言模型功能。

圖2 Transformer結構Fig.2 Transformer structure

1.2 信貸文本信息獲取及處理

1.2.1 信貸文本信息獲取

本文所使用的數據集,來源于美國大型信貸平臺Lending Club所提供的2007~2018年貸款申請人信息,數據集中貸款申請人提供的“貸款描述”即是本文所使用的“文本信息”。該文本主要表現為貸款申請人的貸款目的、貸款理由自述及貸款類別。由于原始數據中并非所有樣本均含有貸款描述,經數據預處理后總共獲取有效文本信息51 820條,其中文本長度90%以上少于50個單詞,表明文本數據均為短文本。

1.2.2 信貸文本信息處理

由于原始文本較短且英文單詞無需進行分詞,故本文在對原始文本進行去除無意義字符、詞干還原及轉化詞向量后,基于Python軟件構建Transformer+AE的融合模型對文本特征進行提取。由于該模型所提取的文本特征維度高達68維,為降低維度及便于后期衡量文本信息對模型貢獻度,本文使用AE將文本信息降維至1維,獲取最終的文本信息測度(文本特征)。實現流程如圖3所示。

圖3 文本特征獲取流程Fig.3 Text feature acquisition process

文本信息測度提取的主要步驟為:

使用“正則表達式”,剔除無意義字符(如:日期、特殊符號等)。

使用Snowball詞干還原,獲得原始單詞后,通過詞袋法對單詞出現次數進行排序,選取出現次數排列前38 000的詞,獲得文本向量。

將文本向量輸入Transformer模型,訓練并使用編碼層獲取文本特征(其中包括:位置編碼層、Transformer層以及全連接層),由此可得到多維度的文本特征。

使用AE對高維文本特征進行非線性降維,最終獲得一維文本信息測度。

2 變量選取與模型構建

2.1 信貸欺詐數據收集及選取

與信用風險客戶相比,欺詐風險客戶主要表現之一為沒有還款意愿,其目的是找到風控系統的漏洞或通過偽造信息等欺詐方式獲得利益,是一種主觀上的惡意欺詐、拖欠等行為。從定義出發確定欺詐樣本,將好樣本標簽以數字1表示,壞樣本以數字0表示,便于后期模型擬合使用。

本文選取的原始數據集中共有150個特征變量,為了客觀、全面判斷借款人是否有欺詐意圖,通過數據特征工程,選取以下18個指標構建反欺詐評估體系,各指標含義見表1。

表1 部分特征介紹Tab.1 Introduction to part of features

2.2 數據描述性統計

經數據預處理及特征工程后,最終剩余51 820個樣本,樣本集描述性統計結果見表2。

表2 定量指標描述性統計Tab.2 Descriptive statistics of quantitative indicators

根據數據描述性統計結果,數據集方差差異顯著。為提高模型擬合結果,需對數據進行歸一化處理,針對分類變量home_ownership、addr_state進行One-Hot編碼。歸一化處理公式為:

2.3 基準模型介紹

2.3.1 隨機森林模型

隨機森林(Random Forest,RF)算法是一種經典的裝袋法(Bagging)模型,其基本原理是先在原始數據集中隨機抽樣,構成個不同的樣本數據集,然后根據這些數據集搭建個不同的決策樹模型,最后根據這些決策樹模型的投票情況獲取最終結果。隨機森林具有擬合速度快,方便處理大規模數據、易于實現、可以避免過擬合等優點。

2.3.2 GBDT模型

GBDT(Gradient Boosting Decision Tree)屬于提升(Boosting)集成算法中的一種。Boosting集成算法的構建過程,是不斷加強之前弱學習器判別錯誤的樣本權重,保證之后的弱學習器在錯誤樣本上判別正確。GBDT算法將損失函數的負梯度作為殘差的近似值,不斷使用殘差迭代和擬合樹,使殘差沿著最大梯度的方向下降,最終生成強學習器。

2.3.3 XGBoost模型

XGBoost(eXtreme Gradient Boosting)是在GBDT的基礎上,引入正則化損失函數來實現弱學習器的生成。加入了正則化的損失函數,不僅可以降低過擬合的風險,且XGBoost模型利用損失函數的一階導數和二階導數值進行搜索,通過預排序、加權分位數、稀疏矩陣識別及緩存識別等技術,大大提高了XGBoost模型性能。XGBoost通過最小化下面的正則化目標函數來實現:

其中,是損失函數;是模型復雜程度的懲罰項;、分別是的正則化系數。

2.3.4 LightGBM模型

LightGBM算法在原理上與GBDT和XGBoost算法類似,都采用損失函數負梯度作為當前決策樹的殘差近似值,去擬合新的決策樹。只是對框架進行了優化(重點對模型訓練速度的優化)。其二叉樹的分裂增益公式為:

其中,G為該葉子節點上樣本集合中數據點在誤差函數上的一階導數和二階導數。

2.3.5 Extra-Trees模型

極端隨機樹(Extra-Trees,ET)算法與隨機森林算法十分相似,都是由許多決策樹構成。ET算法在節點劃分時,選擇的特征及對應的特征值不是搜索比較所得,而是隨機抽取一個特征,再從該特征中隨機抽取一個特征值,作為該節點劃分的依據。當子模型的準確率大于50%,并且集成的子模型數量足夠多時,整個集成系統的準確率達到合格。這樣做的優點是:提供額外的隨機性、抑制過擬合,并且具有更快的訓練速度,缺點是增大了偏差(bias)。

2.3.6 ANN模型

人工神經網絡(ANN)是由大量神經元模型組成的信息響應網絡拓撲結構,其可以分為幾個“層”,如:輸入層、隱藏層和輸出層。其中,輸入層和輸出層功能較為單一,隱藏層功能較多。隱藏層可以由多層神經網絡層構成,其主要作用是對輸入層輸入的數據進行計算轉換,并將得到的結果傳遞給輸出層。整個神經網絡中,每層內部的神經元沒有連接,連接只設置在層與層之間。此外,每個連接都具有一個權重值。

3 實證分析

本文使用Python軟件展開實證分析,構建欺詐檢測模型,將51 820個樣本按9:1的比例劃分訓練集和測試集。由于數據樣本的不均衡性,會對模型擬合效果評價產生較大影響,本文選取不同的欠采樣、過采樣方式對數據集進行均衡采樣,探索不同采樣方式下模型性能的表現。同時,多元化采樣方式有助于增強模型結果穩健性。實證結果表明,在不同采樣方式下,加入文本特征后模型性能均有一定提升。實證過程中,將樣本集分為兩組,一組不加入文本特征指標,另一組加入文本特征指標。

3.1 實驗結果評價

3.1.1 評價指標

3.1.1.1 真正例率()和假正例率()

在反欺詐模型中,其目的是為了檢測出欺詐樣本。由于傳統的準確率()指標無法準確評價該模型實際欺詐檢測準確率,為此模型評價采用指標,并繪制出模型的ROC曲線。

對于一個二分類任務,可將所有的樣例根據其真實所屬類別與模型結果組合分為真正例()、假反例()、假正例()、真反例()4種情況,見表3。

表3 混淆矩陣Tab.3 Confusion matrix

根據表3可定義真正率()和假正率()為:

3.1.1.2 ROC曲線和值

受試者工作特征曲線(Receiver Operating Characteristic Curve,ROC)以為橫軸,為縱軸繪制,當其越靠近左上角,表明模型的性能越好,如圖4所示。但當存在多條ROC曲線很難進行比較時,可使用值對模型性能進行評估。是ROC曲線和軸(軸)之間的面積,其值能直接反映出模型擬合結果的優劣。

圖4 ROC曲線Fig.4 ROC curve

3.1.2 實驗結果評價

本文選用隨機森林、GBDT、XGBoost、LightGBM、ET以及全連接神經網絡(ANN)共6個機器學習模型,驗證在不同模型上文本信息測度對預測結果貢獻的穩健性。

對全樣本分別進行鄰域欠采樣、Tomek Links欠采樣、隨機欠采樣、隨機過采樣以及SMOTE過采樣。為了降低模型過擬合及更多的獲取數據信息,研究中將訓練集數據隨機劃分為10份進行交叉驗證,每次選取其中一份作為校驗集,其余部分作為訓練集用于模型訓練。

3.1.2.1 加入文本數據前預測模型實驗結果

根據表4可知,除SMOTE采樣下,LGBM模型表現最好以外,其余采樣方式下最好模型均為GBDT;在鄰域欠采樣下,所有模型評價結果明顯高于其它采樣方式。從總體評價結果來看,GBDT模型擬合結果最佳。

表4 未加文本特征AUC值Tab.4 AUC value without text feature

3.1.2.2 加入文本數據后預測模型實驗結果

從采樣方式看:鄰域欠采樣下所有模型評價結果均高于其他采樣方式,其中SMOTE過采樣方式下除LightGBM模型外,其它模型結果均表現欠佳。由此可知,領域欠采樣方式是最優采樣方式,對提高模型評價結果具有一定意義。從模型角度看,除SMOTE過采樣方式,其余采樣方式下最佳擬合模型為GBDT模型,其值高于其它模型。

表5 加入文本特征后AUC值Tab.5 AUC values after adding text features

對比無文本特征模型的值,含文本特征模型值均有顯著提升,最高提升效果為1.42%(隨機森林模型),最差提升效果為0.68%(ET模型),GBDT模型作為值最高模型,其提升效果為1.01%。因此,加入文本特征對模型性能具有提升效果,該特征對預測結果有貢獻作用。

3.2 模型特征重要性分析

特征重要性可以查看特征變量對目標變量的作用,且按作用大小進行排序。本文選取了提升表現較好的4個模型進行特征重要性分析,提取欺詐檢測模型中排名前10的特征,并觀察文本特征在前10重要特征中的位置,結果如圖5所示。

圖5(a)表明,在隨機森林模型中,最重要的特征變量為“desc”(文本特征)。可以看出加入文本信息特征會對模型預測的結果造成較大影響,證明文本信息特征能有效改變模型預測結果;而在硬特征中,貸款利率(int_rate)占有重要影響地位。

圖5(b)顯示在GBDT模型中,最重要的特征變量為int_rate,次重要特征為desc,可看出文本特征對模型預測結果的影響程度較為顯著。

圖5(c)顯示文本信息特征“desc”重要性位列第四,展示了加入文本信息特征的作用。除此之外,int_rate及term重要性表現出一致性,且位列第一、第二。

圖5(d)的LightGBM模型中,文本(desc)特征重要性排位第一,且重要性顯著高于其它特征。除去文本特征外,前4個特征的重要性基本一致。

圖5 特征重要性結果圖Fig.5 Feature importance results

由特征重要性圖示可知,文本特征指標在各模型中均是重要特征,在大部分模型中位列第一和第二,其重要性相比硬特征處于重要位置,對模型的預測結果貢獻較大。從而驗證了加入文本特征后,反欺詐模型風險識別能力得到提升,文本特征的引入具有一定意義。

4 結束語

本研究中引入文本信息作為新的影響因子,探索了貸款文本信息對欺詐識別的作用,拓寬了非結構化數據在金融交易中的應用。此外,將Transformer與AE相結合,有效降低了文本信息維度,同時也保證了信息的全面性。

研究結果表明,以貸款利率、借款人年收入、最早循環帳戶已開立月數及文本特征為主的10個指標與客戶欺詐行為相關性最高。在反欺詐預測模型中,文本信息的引入,能夠明顯提升模型對欺詐客戶的識別性能,提升結果介于0.65%-1.42%之間。啟示有關金融機構平臺,在審核貸款申請人信息時,可要求貸款申請人提供必要的文本“軟信息”,獲取更豐富的貸款人信息,更為全面評估是否授予貸款,維護雙方利益,減少不必要損失。

在未來工作中,除基礎自編碼器外,還可使用其它編碼器進行數據降維,也可嘗試使用其他新算法構建反欺詐模型,探索更多欺詐檢測方式。文本挖掘技術的發展日新月異,新興的文本挖掘技術也可用于提取文本特征,亦是今后可以挖掘的方向。由于文本特征的特殊性,其對目標變量的影響機制有待進一步挖掘,未來可探究文本特征可解釋性分析。

猜你喜歡
特征文本信息
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 久久亚洲黄色视频| 四虎在线观看视频高清无码| 香蕉eeww99国产精选播放| 国产欧美日韩18| 国产精品福利尤物youwu| 国产亚洲精品资源在线26u| 亚洲欧美日韩成人高清在线一区| 亚洲美女一区| 五月综合色婷婷| 四虎国产精品永久在线网址| 国产成人91精品免费网址在线 | 日本欧美视频在线观看| 日韩资源站| 亚洲毛片一级带毛片基地| 亚洲无线国产观看| 一级全免费视频播放| 国产午夜一级淫片| 国产精品永久在线| 成人免费黄色小视频| 色欲综合久久中文字幕网| 国产免费久久精品99re不卡| 国产视频入口| 亚洲第一成网站| 国产精品尤物在线| 日本高清在线看免费观看| 91视频首页| 国产精品xxx| 精品无码视频在线观看| 国产亚洲精品无码专| 99久久国产综合精品2023| 少妇精品久久久一区二区三区| 激情影院内射美女| 啦啦啦网站在线观看a毛片| 国产精品综合久久久 | 日本三级黄在线观看| 色综合天天娱乐综合网| 国产正在播放| 国产打屁股免费区网站| 亚洲欧美另类专区| 色香蕉网站| av在线无码浏览| 久久精品国产精品国产一区| 人人看人人鲁狠狠高清| 国产精品视频观看裸模| 亚洲一级毛片在线观| аv天堂最新中文在线| 一级毛片在线免费看| 国产69精品久久久久妇女| 乱系列中文字幕在线视频| 99视频精品全国免费品| 国产成人a在线观看视频| 91亚洲国产视频| 成年免费在线观看| 中文字幕乱码二三区免费| P尤物久久99国产综合精品| 国产成人高清精品免费软件 | 免费国产好深啊好涨好硬视频| 亚洲精品制服丝袜二区| 91娇喘视频| 女人天堂av免费| 国产精品30p| 亚洲人成在线精品| 亚洲无码高清视频在线观看| 亚洲一区二区三区麻豆| 国产成人欧美| 亚洲天堂网视频| 欧美日韩在线成人| 久久婷婷综合色一区二区| 欧美日韩一区二区在线播放| 欧洲一区二区三区无码| 国产综合在线观看视频| 很黄的网站在线观看| 精品国产免费观看一区| 91无码人妻精品一区| 无码一区18禁| 老司国产精品视频91| 波多野结衣AV无码久久一区| 无码高潮喷水专区久久| 久996视频精品免费观看| 免费av一区二区三区在线| 一级毛片免费的| 一级看片免费视频|