基于VAE-GWO-LightGBM的信用卡欺詐檢測方法

2023-12-21 06:14:42李妞妞

東北師大學報(自然科學版) 2023年4期

趙峰,李妞妞

(安徽工業(yè)大學管理科學與工程學院,安徽馬鞍山 243032)

0 引言

“互聯(lián)網(wǎng)+金融”的發(fā)展使人們交易方式變得更為便捷,其中,信用卡交易成為線上和線下最為流行的支付方式之一,信用卡交易數(shù)量的增加,使得信用卡欺詐行為也時常發(fā)生.根據(jù)《中國銀行卡產(chǎn)業(yè)發(fā)展藍皮書(2022)》,截至2021年底,中國共發(fā)行信用卡92.5億張,全年新增發(fā)行信用卡2.7億張,同比增長3.0%;全國銀行卡交易金額1 060.6萬億元,同比增長33.8%;銀行卡未償信用余額8.62萬億元,比上年增長8.9%;信用卡逾期半年未償信用總額860.4億元,同比增長2.6%;銀行卡欺詐率為0.32個基點,較上年下降0.43個基點.

信用卡欺詐是一種以獲取經(jīng)濟利益為目的的犯罪欺騙行為,它會擾亂正常的金融發(fā)展秩序,制約金融行業(yè)的普惠目標和創(chuàng)新發(fā)展.因此,對信用卡欺詐的檢測已經(jīng)成為金融機構核心能力之一.中國銀行行業(yè)協(xié)會在《藍皮書(2019)》中提到,要加強欺詐風險防控體系建設,提高銀行卡欺詐防范水平,構建“銀行+持卡人”風險管控體系,提高欺詐監(jiān)控準確性.可見,對信用卡欺詐的檢測識別已經(jīng)成為銀行風險控制的關鍵因素.

信用卡欺詐檢測是一個不平衡分類問題,目前,不平衡數(shù)據(jù)處理方法主要以算法層和數(shù)據(jù)層為主進行改進.在算法層,有集成學習和成本敏感學習,根據(jù)不平衡數(shù)據(jù)特點對算法進行優(yōu)化,旨在提高算法處理不平衡分類問題的能力[1].數(shù)據(jù)級包括上采樣、下采樣和混合采樣.上采樣通過對少數(shù)類增加樣本、下采樣是對多數(shù)類減少樣本,或通過將兩者結合來平衡樣本[2].

由于數(shù)據(jù)層面方法對分類算法的通用性以及處理方法的簡單性和直觀性,在解決不平衡問題上得到廣泛應用.但是,在實際應用中,傳統(tǒng)過采樣僅依據(jù)少數(shù)樣本的信息,容易制造出冗余的數(shù)據(jù)樣本增加模型的訓練難度;采樣不足會導致大量樣本數(shù)據(jù)信息丟失,處理不平衡問題的能力有限[3].

變分自編碼器(VAE)作為一種新的生成式模型,自提出以來一直被認為是深度學習中最有價值的方法之一,并在許多方面得到了應用.如文本分類中,文獻[4]提出融合變分自編碼器模型和深度置信網(wǎng)絡模型(VAE-DBN)進行智能文本分類.語音處理領域中,Tan等[5]使用變分自編碼器提取語言特征.文獻[6]將VAE應用于語音語料庫數(shù)據(jù)增強和語音特征向量提取中進行聲學建模.目前,變分自編碼器關于不平衡數(shù)據(jù)處理的研究較少.

輕量級梯度提升機(LightGBM)[7-8]是以決策樹為弱分類器的boosting集成學習框架,是梯度提升決策樹(Gradient boosting decision tree,GBDT)的一種高效實現(xiàn).LightGBM不僅能夠有效提升準確率,并且診斷效率高.文獻[9-10]研究結果表明,LightGBM與XGBoost(極端梯度提升)、CNN(卷積神經(jīng)網(wǎng)絡)等算法相比,不僅能獲得更高的準確率且診斷效率更好.由于集成學習模型涉及的參數(shù)較多,許多研究表明,參數(shù)的選擇將直接影響到模型的性能,因此需要將參數(shù)優(yōu)化.灰狼算法(GWO)是一種全局迭代優(yōu)化算法.由于其收斂性能強、參數(shù)少、易于實現(xiàn),被廣泛應用到作業(yè)車間調(diào)度、參數(shù)尋優(yōu)和圖像分類等領域.然而,關于其在信用卡欺詐檢測中的應用研究還較少.

綜上所述,為了進一步提高信用卡欺詐識別率,本文提出了基于VAE-GWO-LightGBM的信用卡欺詐診斷模型.基于變分自編碼器(VAE)進行過采樣平衡樣本分布,采用GWO對模型參數(shù)進行優(yōu)化,將獲得的超參數(shù)組合輸入輕量級梯級梯度提升機(LightGBM)進行了分類預測.

1 相關工作

1.1 變分自編碼器

深度生成模型VAE是由Kingma[11]等提出的運用變分下界和貝葉斯理論的生成式網(wǎng)絡結構.VAE過采樣過程如圖1所示.VAE包含2個部分:一是編碼過程,對原始真實樣本X進行輸入編碼,生成隱變量Z的變分概率分布;另一個是解碼器將隱向量Z還原成盡可能接近原始數(shù)據(jù)的生成數(shù)據(jù)X′,此過程稱為解碼過程[12-13].

圖1 VAE過采樣原理

VAE的損失函數(shù)為

cost=KL[N(μ(X),σ2(X)||N(0,1)]-log[Pp(X′/Z)(X)].

(1)

其中:KL為q=(Z/X)與標準正態(tài)分布N(0,1)的距離,P=(X′/Z)為生成樣本X′與輸入樣本X的距離下P(X)的對數(shù)似然表示.

1.2 LightGBM算法

LightGBM是一種分布式的梯度Boosting框架[14],其原理與GBDT相似.它使用損失函數(shù)的負梯度作為當前決策樹的殘差近似來擬合新的決策樹,即每次迭代都保持原始模型不變,然后向模型添加新函數(shù),使預測值不斷接近真實值.

LightGBM的實現(xiàn)如下:

(1) 每一次迭代是為獲得一個弱學習器,使迭代損失函數(shù)L(y,Ft(x))最小.

L(y,Ft(x))=L(y,Ft-1(x)+ht(x)).

(2)

式中Ft-1(x)和L(y,Ft-1(x))是上一次迭代獲得的強學習器和損失函數(shù).

(2) 利用(2)式負梯度擬合本次迭代損失近似值,公式為

(3)

(3) 使用平方差近似擬合為

(4)

(4) 本次迭代獲得的強學習器為

Ft(x)=Ft-1(x)+ht(x).

(5)

與標準梯度提升樹算法相比,LightGBM使用直方圖優(yōu)化分割連續(xù)特征值,通過逐葉生長策略生長樹,并限制樹的深度以防止過度擬合,這可以有效提高模型預測的準確性和魯棒性.此外,LightGBM在特征的處理上和并行計算上都做了很多的優(yōu)化,是當前流行的機器學習模型,相對于神經(jīng)網(wǎng)絡模型和傳統(tǒng)機器學習模型,具有運行速度快和精度高的優(yōu)勢,所以本文選擇LightGBM模型作為分類器.

1.3 GWO算法

GWO通過對狼的社會等級和捕獵活動建立數(shù)學模型,進而提出一種具有群體智能優(yōu)化的搜索算法,簡單、快速且易于實現(xiàn)[15].灰狼優(yōu)化算法中的狼群有α,β,δ,ω4類.其中頭狼α狼是最高領導者;β是α的下屬狼,服從并輔助α做決策;δ聽從α和β的決策命令;最底層是ω,服從α,β,δ狼,并通過α,β,δ狼的位置尋找獵物.

灰狼捕食獵物的行為定義為

D=|C′·Xp(t)-X(t)|,X(t+1)=Xp(t)-A·D.

(6)

其中:D表示狼群個體與獵物間相對距離,t表示當前迭代次數(shù),X(t)是狼當前位置,獵物當前位置為XP(t).

系數(shù)向量A和E可表示為

A=2ar1-a,E=2r2.

(7)

群體中其他灰狼個體根據(jù)α,β,δ的位置分別更新各自的位置,即有

(8)

其中:X1,X2,X3表示ω向α,β,δ方向的位移量;X(t+1)是灰狼個體ω位置;X′是灰狼當前位置;Xα,Xβ,Xδ分別為灰狼α,β,δ位置.

1.4 不平衡數(shù)據(jù)分類評價指標

針對不平衡數(shù)據(jù)分類性能的評價,整體的分類精度并不能較好地評價一個分類模型的優(yōu)劣,因此本文采用F1、xAUC和yAUPRC這3個指標對不平衡數(shù)據(jù)的分類性能進行評估.

(1)F1值為綜合評價準確率(P)和召回率(R)的指標,整體衡量不平衡數(shù)據(jù)檢測模型的性能為

(9)

其中P和R分別表示準確率和召回率.

(2)xAUC值用于衡量分類性能的綜合指標.

(10)

其中:TFP和TFN分別代表欺詐類樣本被誤判為正類數(shù)量、正類樣本被誤判為欺詐類樣本數(shù)量,N代表正類樣本數(shù)量,M表示欺詐類樣本的數(shù)目.

(3)yAUPRC：P-R精確回憶曲線下面積,數(shù)值范圍是0至1,值越大越好,能夠反映全局的指標,直觀看出分類器性能好壞,yAUPRC值越大,或者PR曲線越接近右上角(p=1,r=1),則模型就越理想.

2 基于VAE-GWO-LightGBM的欺詐檢測

VAE作為當前流行的深度生成模型,該模型過采樣時考慮到少數(shù)類樣本不同層次的特征,學習到少數(shù)類采樣數(shù)據(jù)的分布,進而通過生成器模型生成相似但具有更多信息的數(shù)據(jù)樣本,使數(shù)據(jù)集達到均衡.在文本分類、自然語言處理、語音識別等領域得到多方面應用,說明其作為數(shù)據(jù)采樣方法具有很大的優(yōu)勢.因此本文將VAE應用到信用卡欺詐數(shù)據(jù)集中,通過VAE過采樣平衡少數(shù)類欺詐樣本,降低因數(shù)據(jù)集不平衡導致樣本檢測準確率低帶來的影響[16-18].

機器學習中的LightGBM算法具有訓練速度快、泛化性好、分類精度高等優(yōu)點.然而,由于訓練前模型參數(shù)數(shù)量較多,參數(shù)的隨機設置會導致一些參數(shù)未達到最佳狀態(tài),這容易導致輸出結果不穩(wěn)定[17].GWO算法作為智能搜索算法,具備較強的收斂性能,且參數(shù)少易于實現(xiàn),迄今為止,該優(yōu)化算法被廣泛地應用在各科學研究領域.因此選用GWO對LightGBM參數(shù)進行優(yōu)化,尋找LightGBM最優(yōu)的參數(shù)組合.

針對欺詐檢測數(shù)據(jù)樣本量大、樣本類別不平衡等特點,結合VAE、LightGBM和GWO的優(yōu)異性能,充分利用各自的優(yōu)勢克服各自的不足[19-20],構建了基于VAE-GWO-LightGBM的信用卡欺詐檢測分類方法.總體框架如圖2所示.

圖2 基于VAE-GWO-LightGBM的欺詐檢測框架

檢測流程如下:

(1) 對輸入的原始數(shù)據(jù)進行異常特征處理,然后對數(shù)據(jù)進行歸一化預處理.

(2) 訓練正常數(shù)據(jù)和欺詐數(shù)據(jù),欺詐樣本數(shù)據(jù)量遠小于正常數(shù)據(jù)樣本,樣本類別嚴重不平衡.因而通過VAE對訓練集中少數(shù)欺詐數(shù)據(jù)進行過采樣平衡樣本.

(3) 樣本平衡后,訓練LightGBM模型,并使用GWO優(yōu)化LightGBM的超參數(shù).優(yōu)化過程如圖3所示.

圖3 GWO算法優(yōu)化LightGBM參數(shù)流程

(4) 將優(yōu)化得到的GWO-LightGBM模型在信用卡欺詐數(shù)據(jù)集上進行驗證,檢測模型分類結果.

3 實驗過程

3.1 實驗數(shù)據(jù)與設計

本文使用數(shù)據(jù)來源于Kaggle平臺2018年最新公開發(fā)布的信用卡欺詐檢測專題,數(shù)據(jù)集有31個特征,類別是0和1,1表示少數(shù)類欺詐樣本.為了證明模型的適用性,同時選取UCI和Kaggle平臺的4個其他類型的不平衡數(shù)據(jù)集進行實驗,數(shù)據(jù)集特征如表1所示.

表1 數(shù)據(jù)集信息

實驗前先對不同數(shù)據(jù)集進行標準化處理,將每組數(shù)據(jù)集取80%樣本數(shù)量作為訓練集,20%作為測試集.根據(jù)當前不平衡數(shù)據(jù)集,首先分別以采樣效果展示和數(shù)據(jù)對比的形式將VAE方法同其他經(jīng)典過采樣方法進行比較,驗證將其作為過采樣方法的有效性;再將本文算法VAE-GWO-LightGBM同其他分類方法進行比較,證明該集成分類方法對不平衡數(shù)據(jù)進行分類表現(xiàn)效果更好.

3.2 VAE方法驗證與分析

圖4給出原始數(shù)據(jù)集以及采用不同過采樣方法的生成樣本可視化對比圖.其中Original dataset是原始數(shù)據(jù)集的分布圖,可以看出原始數(shù)據(jù)集中少數(shù)類樣本規(guī)模較小且生成的部分樣本會落在多數(shù)類區(qū)域;從SMOTE采樣方法分布圖可以看出,SMOTE方法從局部鄰域出發(fā)并通過線性插值的方法合成新樣本,合成的新樣本與原始樣本差異較小,存在較多的重疊樣本不利于分類器的訓練;從Borderline-SMOTE和SVMSMOTE采樣圖可以看出,兩者采樣效果分布類似,兩者少數(shù)類樣本與正常樣本存在部分交叉,邊界附近生成部分噪聲樣本;ADASYN和VAE過采樣可視化圖分布也是類似,兩者所生成的新樣本與真實樣本分布基本一致但又不完全相同,VAE能夠有效減緩經(jīng)典過采樣方法出現(xiàn)的樣本重疊等問題.總體比較這些采樣效果圖,可以看出本文方法所生成的樣本能較好地模擬原始數(shù)據(jù)的分布特征,基本都在原始樣本的分布區(qū)域中,雖然有小部分噪聲樣本的產(chǎn)生,說明本文采用VAE過采樣方法對少數(shù)類樣本進行擴充,可以有效學習到少數(shù)類樣本分布特征,生成更符合原始數(shù)據(jù)特征的少數(shù)類新樣本.

圖4 不同過采樣方法生成樣本對比圖

然而,僅憑直觀的可視化展示還不足以證明本文過采樣方法在不平衡數(shù)據(jù)分類處理方面的有效性和泛化性,本文將進一步對VAE改進前后的合成樣本質(zhì)量進行評估,并基于上述評價指標在信用卡欺詐數(shù)據(jù)集和其他數(shù)據(jù)集進行欺詐分類性能比較.

3.3 在信用卡數(shù)據(jù)集的實驗結果

實驗設置選用兩組對比實驗進行分析,第一組將本文所采用的過采樣方法與其他經(jīng)典過采樣方法在信用卡欺詐公開數(shù)據(jù)集以準確率(A)、F1、xAUC和yAUPRC為評價指標進行比較,實驗中均采用LightGBM輕量級梯度提升機作為分類器,驗證VAE過采樣方法在處理不平衡數(shù)據(jù)上的有效性;第二組實驗,將本文采用的VAE-GWO-LightGBM集成學習分類方法與其他機器學習方法在信用卡欺詐數(shù)據(jù)集上做比較,進一步驗證本文所提出的將VAE過采樣方法與改進的LightGBM方法相結合的方式,可進一步提升不平衡數(shù)據(jù)的分類性能.實驗中設置VAE迭代次數(shù)為2 000,將數(shù)據(jù)樣本編碼映射到高斯分布N(0,1)中.其中,編碼器和解碼器是3個隱層,每層為100個神經(jīng)元的神經(jīng)網(wǎng)絡.使用Relu函數(shù)作為激活函數(shù)、Adam optimizer優(yōu)化器進行最小損失求解.GWO算法種群規(guī)模為2 000,最大迭代次數(shù)為500.

表2為信用卡數(shù)據(jù)集使用VAE、SMOTE、Borderline SMOTE、SVMSMOTE和Adasyn與LightGBM所得出的A、F1、xAUC和yAUPRC等評價指標.表3為信用卡數(shù)據(jù)集使用RF、MLP、Catboost、KNN所得出的評價指標A、F1、xAUC和yAUPRC.

表2 各種采樣方法的評估指標值

表3 各模型的欺詐檢測指標比較

從表2可以看出各種采樣方法在A這一項都相差不大且表現(xiàn)良好,都達到了99%以上.對比各種采樣方法中可以看出采用原始數(shù)據(jù)進行檢測效果最差,F1、xAUC、yAUPRC值都低于其他過采樣方法;VAE作為過采樣方法表現(xiàn)最好,對比SMOTEF1提高了6.7%,xAUC提高了7.6%,yAUPRC提高了6.8%;對比BorderlineSMOTEF1值提高了4.7%,xAUC提高了7.1%,yAUPRC提高了4.7%;對比SVMSMOTEF1值提高了6.9%,xAUC提高了9.7%,yAUPRC提高了6.3%;對比ADASYNF1值提高了9.3%,xAUC提高了7.6%,yAUPRC提高了9.6%.

從表3可以看出各種分類算法的A都表現(xiàn)較好,尤其本文方法的準確率最好,達到了0.999 7.對比F1值和yAUPRC值,表現(xiàn)最差的是KNN,本文VAE-GWO-LightGBM方法比KNN模型的F1值提高17.7%,yAUPRC提高17.3%.對比其他分類模型,本文的xAUC值同樣表現(xiàn)最好.

綜上分析,從少數(shù)類欺詐檢測評估指標檢測A、F1、xAUC和yAUPRC、整體方面考慮,在處理非平衡的信用卡欺詐檢測數(shù)據(jù)時,VAE-GWO-LightGBM方法具有較好的整體檢測效果.

3.4 在其他數(shù)據(jù)集上的實驗結果

為了證明本文方法的適用性,在UCI和Kaggle的4個數(shù)據(jù)集上進行同樣的實驗.表4和5分別為各算法在這些數(shù)據(jù)集上所得出的A、F1、xAUC和yAUPRC值.從表4和5可以看出,以F1、A、xAUC和yAUPRC值為評價指標,在Pima、Wine_red、UCI_breast、BankNote_Authentication這4個數(shù)據(jù)集中,本文提出的算法整體表現(xiàn)性能最好,與其他分類算法對比,A最高提高了14.9%,F1值最高提高了19.0%,xAUC值最高提高了16.0%,yAUPRC最高提高了12.8%.

表4 不同算法在數(shù)據(jù)集上的A值

表5 不同算法在數(shù)據(jù)集上的F1值

表6 不同算法在數(shù)據(jù)集上的xAUC值

表7 不同算法在數(shù)據(jù)集上的yAUPRC值

4 結論

VAE作為過采樣方法處理不平衡數(shù)據(jù)時易受到少數(shù)類樣本規(guī)模的限制,在數(shù)據(jù)規(guī)模偏小的情況下難以有效學習其分布特征,導致生成的樣本質(zhì)量欠佳.針對上述問題,本文以VAE和集成學習為基礎,同時在數(shù)據(jù)層面和算法層面對不平衡數(shù)據(jù)處理方法進行改進,提出了一種基于GWO-VAE-LightGBM的不平衡數(shù)據(jù)集成分類算法,第一階段首先采用VAE方法快速生成少數(shù)類樣本,使少數(shù)類樣本達到一定規(guī)模,保證VAE能充分學習到少數(shù)類樣本的分布特征提高合成樣本的質(zhì)量;第二階段對原始LightGBM模型進行改進,采用GWO算法優(yōu)化LightGBM參數(shù),使優(yōu)化后的LightGBM方法更好地適用于不平衡數(shù)據(jù)的分類;最后用優(yōu)化后的LightGBM方法訓練平衡數(shù)據(jù)集得到集成分類模型,以A、F1、xAUC和yAUPRC作為評價指標,在5組公開數(shù)據(jù)集上的對比,結果表明,所提方法可以顯著提高不平衡數(shù)據(jù)的分類精度.后續(xù)工作考慮將此模型與其他學習算法融合,構建更為強大的欺詐檢測分類器,進一步提升分類器性能.