






















收稿日期:2022-05-10;修回日期:2022-07-11" 基金項目:國家自然科學基金項目(71801150);上海市人民政府決策咨詢研究項目(2022-Z-J07)
作者簡介:汪萬敏(1996-),女,安徽六安人,碩士研究生,主要研究方向為供應鏈管理(changcun0103@163.com);智路平(1982-),男(通信作者),山西太原人,高級實驗師,碩導,博士,主要研究方向為供應鏈管理.
摘 要:
針對行業欺詐行為形式多樣、操作隱蔽,且數據分布極端不平衡等問題,研究采用ADASYN(adaptive synthetic sampling approach for imbalanced learning)算法將分類決策邊界向困難的實例進行自適應移動實現數據擴增,以解決不平衡數據造成的過擬合問題。采用基于隨機森林的序列向前搜索策略算法篩選出最優特征子集對欺詐進行檢測,降低ADASYN算法添加噪聲數據對分類邊界確定的影響,構建欺詐檢測模型,并使用LIME對模型檢測結果作出局部解釋,提高模型的使用價值。實驗表明,該模型可以較好地克服傳統欺詐檢測模型對多數類樣本誤分類的缺陷,有助于提高行業對交易欺詐行為識別的效率。同時,通過LIME對模型檢測出的隨機樣本進行有效解析,便于決策者對算法模型的檢測結果作出實證分析,起到明顯的預警及決策參考價值。
關鍵詞:欺詐檢測;隨機森林;ADASYN;LIME;特征選擇
中圖分類號:TP181"" 文獻標志碼:A""" 文章編號:1001-3695(2022)12-012-3605-09
doi:"" 10.19734/j.issn.1001-3695.2022.05.0237
Fraud detection model generalization performance improvement and
interpretability study based on ADASYN-SFS-RF
Wang Wanmin, Zhi Luping
(Business School, University of Shanghai for Science amp; Technology, Shanghai 200093, China)
Abstract:
Aiming at the problems of various forms, hidden operations, and extremely unbalanced data distribution of fraud in the industry, this paper adopted the ADASYN algorithm to adaptively move the classification decision boundary to difficult instances to achieve data augmentation, to solve the over-fitting problem caused by unbalanced data. It used the sequence forward search strategy algorithm based on the random forest to filter out the optimal feature subset to detect fraud, reduced the impact of noise data added by the ADASYN algorithm on the determination of classification boundary, constructed a fraud detection model, and used LIME to make local interpretation of the model detection results to improve the use of the model. The experiments show that the model can better overcome the defects of traditional fraud detection models in misclassifying most classes of samples, and help to improve the efficiency of transaction fraud identification in the industry. At the same time, the random samples detected by the model are effectively analyzed through LIME, which is convenient for decision-makers to make empirical analyses on the detection results of the algorithm model and plays an obvious early warning and decision-making reference value.
Key words:fraud detection; random forest; ADASYN; LIME; feature selection
0 引言
欺詐是指故意告知對方虛假情況,或者故意隱瞞真實情況,誘使對方基于錯誤判斷作出相應的行為,是一種旨在通過非法手段獲取金錢的刑事犯罪。隨著經濟發展和科技進步,欺詐問題逐漸覆蓋多種不同的場景和業務,如信用卡欺詐、銀行欺詐、保險欺詐、財務報表欺詐、比特幣欺詐和供應鏈欺詐等,基于新技術和新場景的詐騙手段不斷升級,詐騙方式更具專業化和智能化。據公安部數據顯示,近10年來,我國電信詐騙案件每年以20%~30%的速度快速增長。在金融欺詐中,保險領域欺詐比例尤為突出。據國際保險監管者協會測算,全球每年有20%~30%的保險賠款涉嫌欺詐,損失金額約800億美元。由于欺詐行為形式多樣、覆蓋領域廣,涉及犯罪意圖的欺詐案件交易大多操作隱蔽難以識別,有效識別欺詐行為是反欺詐研究的重點和難點[1]。因此,面對數字金融欺詐多樣化、產業化、隱蔽化和場景化的復雜環境,反欺詐需要結合新技術,提高預測精度,精準防范。
反欺詐問題的解決多使用欺詐檢測系統(fraud detection system,FDS)。此類系統通常基于專家分析方法、數據分析方法或兩者的結合。專家分析方法試圖利用規則來識別具體的欺詐情況,其準確性主要取決于專家的知識,主觀性較強,解釋性較弱。數據分析方法以機器學習算法為基礎,通過學習欺詐性數據的特征,利用經驗來提高系統自身的性能[2]。然而,概念漂移、支持實時檢測、數據不平衡和數據量過大等問題和挑戰阻礙了FDS的性能,降低了檢測速度和預測精度[3]。
為了解決這些問題,關于反欺詐的研究受到越來越多的關注。在信用卡欺詐檢測領域,文獻[4]使用K-means聚類模型和遺傳算法提高了信用卡欺詐檢測的識別率,從而有效減少了錯誤分類的數量。陽文斯[5]提出一種基于聯邦學習的帶隱私保護的信用卡欺詐檢測方法,使AUC值達到95.5%,比傳統欺詐檢測系統提升了約10%。琚春華等人[6]利用KNN判別分類器篩選出安全生成樣本,克服了SMOTE算法在生成新樣本時的盲目性和局限性,構建基于KNN-SMOTE-LSTM的信用卡欺詐檢測網絡模型。在財務報表欺詐檢測領域,Calderon等人[7]采用多元化的方法,基于深度學習理論,運用神經網絡方法在財務審計和風險評估領域進行了深入研究。Rizki等人[8]在對欺詐因素進行特征選擇后,建立了SVM和人工神經網絡模型,以檢測財務報表是否存在欺詐。文獻[9]將提取的三類特征分別輸入一個經典的LSTM模型,模型的輸出層與一個多層感知器整合在一起,并與隨機森林模型進行對比實驗。在保險欺詐檢測領域,易東義等人[10]提出一種新的基于圖卷積和變分自編碼的單分類醫保欺詐檢測模型(OCGVAE),并將邏輯回歸模型用以判別數據類別。曹魯慧等人[11]提出基于TLSTM的醫保欺詐識別框架,將用戶的歷史就醫行為序列作為TLSTM模型的輸入,預測患者再入院原因及診療方案。吳文龍等人[12]采用WGAN-KDE方法改善數據不平衡問題,結合自編碼器提取數據的深層隱藏特征來檢測醫保欺詐行為。在供應鏈欺詐檢測領域,Wan[13]將XGBoost算法和隨機森林混合使F1-score分別比logistic回歸算法、SVM和高斯樸素貝葉斯算法高0.49%、0.49%和27.9%。Beteto等人[14]提出SAT的概念,有助于液體燃料供應鏈企業在欺詐和其他信息不規范的最初階段發現其前兆。通過對相關文獻的整理發現,現有欺詐檢測模型的泛化性能不足,尤其在處理不平衡數據集和特征選擇等問題上容易出現預測精度低和過擬合等問題。
在欺詐檢測領域,如何向客戶和管理者對模型檢測結果的現實意義作出解釋也是必須要考慮的問題,Rao等人[15]提出了一種可解釋的欺詐交易預測框架,xFraud檢測器可以有效且高效地預測傳入交易并生成合理的解釋。Farrugia等人[16]提出了一種實時的完全自主的規范性解決方案,用于iGaming行業內可解釋的欺詐檢測。Sinanc等人[17]將信用卡交易作為時間序列處理,并將其轉換為圖像,提出了一種新的可解釋的人工智能方法。但是關于欺詐檢測模型檢測結果可靠性的研究較少,特別是缺少關于影響欺詐檢測的重要因素是否具有現實意義的研究。
為了提高欺詐檢測模型的泛化性,增強模型檢測結果應用于實際工作的實踐指導價值,對模型理論結果進行實踐解釋,本文使用ADASYN算法18]進行數據擴增,使用基于隨機森林(random forest,RF)[19]的序列向前搜索策略算法(sequential forward selection,SFS)[20]篩選出最優特征子集,降低ADASYN算法添加噪聲數據對分類邊界確定的影響,并用該最優特征子集訓練隨機森林強分類器對欺詐進行檢測,提高模型的泛化性能,構建一個基于ADASYN-SFS-RF的欺詐檢測模型,最后使用LIME(local interpretable model-agnostic explanations)[21]對模型檢測出的隨機樣本進行解析,剖出影響該樣本預測結果重要性的前序特征,及其對應貢獻度與對應特征值,識別出影響樣本欺詐檢測的重要因素,對算法模型檢測結果的現實意義向客戶和管理者作出解釋。
1 基于ADASYN-SFS-RF的欺詐檢測模型
本文假設每個欺詐行為在時間上都是獨立的,時間不作為影響欺詐檢測的變量。欺詐檢測模型的要點是對不平衡數據集問題的處理,當不均衡比例超過4∶1,分類器就會偏向于大的類別,分類器失效。傳統欺詐檢測方法在處理不平衡數據集時存在對多數類樣本誤分類率高的缺陷。
為了克服該類缺陷,提高模型的泛化性能,首先采用ADASYN算法將密度分布作為準則來自動確定每個少數數據示例需要生成的合成樣本數量,將分類決策邊界向困難的實例進行自適應移動實現數據擴增,以解決不平衡數據造成的過擬合問題。引入隨機森林通過自助采樣和隨機選擇分割特征來構造每棵決策樹,在以決策樹為基學習器構建Bagging集成的基礎上,在決策樹的訓練過程中引入隨機屬性選擇。通過樣本擾動和屬性擾動,實現基學習器的“多樣性”,并整合所有決策樹的最終結果,利用少數服從多數的投票機制對原始特征構建迭代提升樹模型進行特征重要性度量,隨后結合基于隨機森林的序列向前搜索策略算法篩選出最優特征子集,降低ADASYN算法添加噪聲數據對分類邊界確定的影響,并用該最優特征子集訓練基礎分類器得到隨機森林強分類器,提高模型的泛化性能,構建基于ADASYN-SFS-RF的欺詐檢測模型對欺詐交易進行檢測。最后,利用LIME對模型的決策作出局部解釋。模型可分為數據預處理、模型訓練、模型測試和模型解釋四個步驟。基于ADASYN-SFS-RF的欺詐檢測模型架構如圖1所示。
ADASYN-SFS-RF欺詐檢測可解釋模型的具體步驟如下:
a)對歷史交易數據進行數據預處理:數據篩選、缺失值處理和one-hot encoding,生成原始數據集,將原始數據集劃分70%為訓練集,30%作為測試集。其中,數據篩選和缺失值處理在保持原始數據結構和含義的同時,縮小數據量,提升學習算法的泛化能力和結果的易讀性與解釋性;one-hot encoding將分類特征轉換為分類數值,使數據適應算法與庫,便于后續學習。
b)用ADASYN處理標準化訓練集Xtrain,通過將密度分布作為準則來自動確定每個少數數據示例需要生成的合成樣本數量,將分類決策邊界向困難的實例進行自適應移動實現數據擴增,以解決不平衡數據造成的過擬合問題,生成新的訓練集Xtrain_adasyn。
c)采用基于隨機森林的序列向前搜索策略方法篩選出最優特征子集Xtrain_new_adasyn(訓練集)和Xtest_new_adasyn(測試集),可以降低ADASYN算法添加噪聲數據對分類邊界確定的影響,通過降維減少模型運行時間,降低存儲成本和過擬合風險,有效提高分類模型的性能和準確性。
d)用最優特征子集Xtrain_new_adasyn訓練基礎分類器,采用“網格搜索+10折分層交叉驗證”的方式來選擇模型中的超參數,構建泛化性能最優的隨機森林強分類器f(x)。
e)用最優特征子集Xtrain_new_adasyn訓練隨機森林強分類器f(x),將準確度、查全率、F1-score和AUC值作為評價指標,用Xtest_new_adasyn評估基于ADASYN-SFS-RF的欺詐檢測模型的泛化性能,輸出測試結果。
f)LIME通過擾動最優特征子集Xtest_new_adasyn中的實例樣本Xt的輸入,在其附近采樣生成新的數據集Xt′,并根據采樣樣本到實例樣本Xt的距離賦予其權重。利用新數據集Xt′訓練出易于解釋的線性回歸模型,來擬合待解釋模型的局部邊界,得到對黑盒模型良好的局部近似,識別出影響樣本欺詐檢測的重要因素。將該結果與步驟e)的模型測試結果進行驗證,判斷模型預測結果的準確性和識別出的欺詐影響因素對模型欺詐檢測性能的影響,就模型檢測結果的現實意義向客戶和管理者作出解釋。
2 基于ADASYN-SFS-RF的欺詐檢測算法
假設數據集合為D,特征向量為X,類別標簽為Y,則令D=(Xi,Yj),i=1,2,…,M,j=1,2,…,N為樣本集合。此時,Xi∈X且Xi=(Xi1,Xi2,…,XiM),M為特征的個數。經過數據標準化處理后的標準數據集由標準化訓練集Xtrain和標準化測試集Xtest構成。其中,多數類的正常交易樣本集為Xl,少數類的欺詐交易樣本集為Xs,因此,Xs≤Xl且Xs+Xl=M。弱分類器迭代次數T,生成的隨機森林強分類器為f(x),ADASYN算法生成的數據集為Xtrain_adasyn,基于隨機森林的序列向前搜索策略方法篩選出的最優特征子集為Xtrain_new_adasyn和Xtest_new_adasyn。ADASYN-SFS-RF欺詐檢測可解釋模型的算法步驟如下:
a)通過公式d=Xs/Xl計算標準化的訓練集Xtrain中的樣本不平衡度,其中d∈(0,1]。如果dlt;dth,計算需要為少數類的欺詐交易樣本Xs合成的樣本數量,公式如下:
G=(Xl-Xs)×β(1)
其中:β∈[0,1]是隨機數,用于指定合成數據生成后所需的平衡水平。β=1表示在泛化過程之后創建了完全平衡的數據集,即采樣后正負比例為1∶1。
b)對于每個屬于少數類的Xi,基于n維空間中的歐氏距離找到K個最近的鄰居,并計算K近鄰中多數類的正常交易樣本Xl的比例ri,并對ri進行標準化,公式如下:
ri=ΔiK(2)
i=ri∑msi=1ri(3)
其中:i=1,2,…,ms;Δi是K近鄰中的屬于多數類的樣本數量。因此ri∈[0,1]。
c)根據樣本權重,計算每個少數類的欺詐交易樣本Xi需要合成新樣本的數量,公式如下:
gi=i×G(4)
其中:G為式(1)定義的少數類的欺詐交易樣本合成的樣本數量。
d)從Xi的K個最近鄰居中隨機選擇一個少數類樣本Xzi,根據公式Si=Xi+(Xzi-Xi)×λ重復合成直到滿足步驟a)需要合成的數目為止,即從1到gi進行迭代,得到新的數據集S。其中,(Xzi-Xi)是n維空間中的差向量,λ∈(0,1]是隨機數。
e)迭代完成后,使得S+Xs=Xl,數據集達到平衡狀態,記生成的新訓練集為Xtrain_adasyn。
f)先從Xtrain_adasyn的所有特征中找到最大化交叉驗證分數的特征,記做特征A,從頭開始繼續搜索,尋找一個特征B,特征B和A的組合可以達到最優的分類效果,依此類推,通過迭代找到最優的新特征來添加到選定的特征集中,當達到所需的選定特征數量時,該迭代過程停止,最終篩選出最優特征子集Xtrain_new_adasyn和Xtest_new_adasyn。
g)對最優特征子集Xtrain_new_adasyn中N個樣本進行Bootstrap抽樣(有放回抽樣),取樣N次,形成n個樣本集,重復得到T個訓練子集,并用未抽到的樣本進行預測,評估其誤差。
h)對于每個訓練子集,從其特征變量中隨機選出m個特征(其中m應遠小于M),根據m個特征,計算其最佳的分裂方式,剔除訓練集中沒有被選擇的特征對應的參數,利用新的訓練集構建決策樹,不剪枝。
i)得到T個由決策樹構成的隨機森林,對于每個測試數據,采用少數服從多數的投票機制得到最終的預測結果,構建強分類器f(x)。
j)通過超參數優化,經過網格搜索和10折分層交叉驗證調整強分類器f(x)的參數,包括基評估器的數量(森林中樹的數量)、節點的劃分標準、節點最小分割的樣本數和葉子節點含有的最少樣本。
k)用Xtrain_new_adasyn訓練步驟j)構建的強分類器f(x),并利用測試集Xtest_new_adasyn評估ADASYN-SFS-RF欺詐檢測模型的泛化性能,輸出測試結果。
l)選擇步驟f)篩選出的最優特征子集Xtrain_new_adasyn中的樣本作為實例,記示例樣本為Xt。LIME通過相似度計算,在示例樣本Xt附近進行擾動得到新數據集Xt′,相似度計算公式為
πx=exp(-D(Xt,Xt′)σ2)(5)
其中:πx為新數據集Xt′與示例樣本數據集Xt的距離。以相似度作為權重,訓練出一個易于解釋的線性回歸模型來擬合待解釋模型的局部邊界,得到對黑盒模型良好的局部近似。然后基于該線性模型找出影響示例樣本預測結果重要性的前序特征,及其對應貢獻度與對應特征值,識別出影響樣本欺詐檢測的重要因素。
m)將該結果與步驟k)的模型測試結果進行驗證,對示例進行可解釋分析,判斷模型預測結果的準確性和識別出的欺詐影響因素對模型欺詐檢測性能的影響,就模型檢測結果的現實意義向客戶和管理者作出解釋。
3 案例分析
供應鏈欺詐行為是電商企業面臨的重大問題之一,鑒于當前供應鏈的復雜性,電商企業如何有效利用沉淀的交易數據,通過機器學習方法,在事前或事中及時阻斷欺詐交易,保障用戶安全交易,減少欺詐帶來的損失,是供應鏈企業始終追求的目標。本文使用建立的基于ADASYN-SFS-RF的欺詐檢測模型對供應鏈公司DataCo Global歷史訂單數據進行供應鏈欺詐檢測,實驗Python版本為3.7.1,scikit-learn版本為1.0.2,詳細實驗配置如表1所示。
3.1 數據來源
研究使用的供應鏈歷史交易數據集為公開數據集,該供應鏈欺詐數據集由Constante等人通過Mendeley數據倉庫以知識共享4.0許可的方式透明地維護,包含DataCo Global公司2015年1月1日—2018年1月30日所有的訂單信息,約18萬條交易記錄。
其中,180 519筆交易中有4 062筆是欺詐交易,欺詐交易占所有交易的2.25%,數據分布極端不平衡。此外,它還包含了另一個名為DescriptionDataCoSupplyChain.csv的文件,該文件是對DataCoSupplyChainDatasetc.csv中每個變量的描述[22]。數據集的具體特征信息如表2所示。
3.2 數據預處理
scikit-learn是Python高效的機器學習算法庫,可以實現數據預處理、數據降維、分類、回歸、無監督等常用的機器學習算法。本文采用Python的scikit-learn機器學習庫中的preproces-sing模塊進行數據預處理。
3.2.1 數據篩選
數據篩選以降低計算復雜度為目標,通過刪除冗余和嘈雜的數據,或離散化復雜的連續特征空間來進行篩選。在保持原始數據結構和含義的同時,縮小數據量,提升學習算法的泛化能力和結果的易讀性和解釋性。
由于F44(order zipcode)有155 679個缺失值, F47(pro-duct description)有180 519個缺失值,缺失率超過85%,所以剔除這兩個特征; F12(customer email)、F16(customer password)和F51(product status)數據沒有差異性,對模型的效果沒有貢獻,遂剔除這三個特征;由于F4(benefit per order)和F40(order profit per order)、F5(sales per customer)和F39(order item total)、F8(category ID)和F46(product category ID)、F14(customer ID)和F28(order customer ID)、F31(order item cardprod ID)和F45(product card ID)、F35(order item product price)和F50(product price)的值是100%重合的,冗余的特征會降低模型的質量,為了使工作更加簡單,遵循保留特征名稱最短的原則,刪除冗余特征F40(order profit per order)、F5(sales per customer)、F46(product category ID)、F28(order customer ID)、F31(order item cardprod ID)和F35(order item product price);由于已經有客戶/部門ID作為標識,故剔除F15(customer iname)、F13(customer fname)和F22(department name)。為了便于分析,刪除一些不重要的特征,如F19(customer street)、F20(customer zipcode)、F23(latitude)、F24(longitude)、F29(order date)、F48(product image)和F52(shipping date)。
相關性分析可以判斷某些特征對某一特定欺詐交易是否具有強烈的相關性,通過相關矩陣以使本文看到哪些特征與欺詐交易有高度的正相關或負相關。如圖2所示, F8(category ID)和F21(department ID)、F8(category ID)和F45(product card ID)、F21(department ID)和F45(product card ID)相關性超過閾值(0.85),故刪除F8(category ID)和F45(product card ID)。
3.2.2 數據編碼
刪除與預測類別直接相關的特征F43(order status),并創建一個新的列,對欺詐狀態進行二進制分類。由于數據量較大且收集來源多元,存在較多缺失值,針對缺失數據量大于85%的特征,采用刪除法進行處理;對于缺失數據量小于85%的特征,采用均值插入法進行處理。數值標準化方面,為了讓數據適應算法與庫,采用one-hot encoding創建啞變量,將F1(type)、F6(delivery status)、F17(customer segment)、F25(market)和F53(shipping mode)這5個字符型數據轉換為20個0-1的數值型特征變量。其余字符型特征均調用scikit-learn庫中的oridinalEncoder函數,將分類特征轉換為分類數值。經過one-hot encoding后的特征說明,如表3所示。
3.2.3 特征標準化
為了消除特征量綱差異的影響,還需要對特征進行歸一化處理,使不同指標處于同一量綱下。常用的方法有線性函數歸一化(min-max scaling)和零均值歸一化(Z-score normalization)。數據標準化方法有多種,如:直線型方法(如極值法、標準差法)、折線型方法(如三折線法)和曲線型方法(如半正態性分布)。不同的標準化方法對系統的評價結果會產生不同的影響。其中,最常用的是Z-score標準化,這種方法給予原始數據的均值和標準差進行數據的標準化[23]。經過處理的數據符合標準正態分布,即均值為0,標準差為1,公式如下:
xz-score=x-μσ(6)
其中:μ是樣本數據的均值;σ是樣本數據的標準差。標準后的數據保持異常值中的有用信息。本文采用scikit-learn庫中的StandardScaler函數對數據進行標準化處理。
3.3 超參數優化
對于不平衡數據集來說交叉驗證是一種非常有效的訓練手段,為了保證劃分后的訓練集和驗證集中各類別樣本分布與原始數據集盡可能相同,故采用StratifiedKFold分層交叉驗證,如圖3所示。10折交叉驗證是將全部數據集D劃分為10個互斥子集,即D=D1∪D2∪…∪D10,Di∩Dj=(i≠j),每次用9個子集的并集作為訓練集,余下的那個子集作為測試集,重復10次。在9個訓練集上訓練出學習器模型,把這個模型放到測試集上,得到分類率的平均值,作為該模型或者假設函數的真實分類率。
評價指標主要采用準確度(accuracy)、查準率(precision)、查全率(recall)、F1-score、和AUC值。對于二分類問題,又可以將樣例根據其真實類別與分類器預測類別劃分出混淆矩陣(confusion matrices)來判斷實驗結果的可靠性,如表4所示。
基于表4中的符號,真正例率(true positive rate,TPR)和假正例率(1 positive rate,FPR)分別定義為
TPR=TPTP+FN(7)
FPR=FPTN+FP(8)
根據學習器的預測結果對樣例進行排序,按此順序逐個把樣本作為正例進行預測,以真正例率為縱軸、假正例率為橫軸可以畫出ROC曲線來評估二分類器的泛化性能。綜上,本文采用了“網格搜索+10折分層交叉驗證”的方式來選擇模型中的超參數,提高模型的泛化能力。由于數據集為不平衡數據集,所以選擇AUC值作為網格搜索的評估指標對結果進行評估。各基礎分類模型的參數如表5所示。
3.4 基礎分類器泛化性能對比實驗
本文選擇PyCharm2021.3.2(community edition)作為編譯環境,利用Python的scikit-learn機器學習庫將原始數據集劃分為70%訓練集和30%測試集。采用scikit-learn庫中的StandardScaler函數對數據進行標準化處理得到標準數據集,其中包括標準化的訓練集Xtrain和標準化的測試集Xtest。然后,調用scikit-learn庫中的函數,利用標準化的訓練集Xtrain訓練機器學習二分類領域主流的基礎分類模型:邏輯回歸、決策樹、BP神經網絡、K最近鄰、支持向量機和隨機森林。本文選取準確度、查全率、F1-score和AUC值作為評價指標,并利用標準化的測試集Xtest評估各基礎分類模型的泛化性能。為了便于比較,將獲得的各分類模型檢測結果統一列出,如表6所示。
表5、6中,LR為邏輯回歸(logistics regression,LR),DT為決策樹(decision tree,DT),BP為BP神經網絡(back propagation neural network,BP),KNN為K最近鄰(K nearest neighbor,KNN),SVM為支持向量機(support vector machine,SVM),RF為隨機森林(random forest,RF)。
通過對比實驗發現,RF在準確率、召回率、F1-score和AUC值均具有較高的分數。基礎分類器SVM和BP具有較高的AUC值,但SVM的召回率較低,且BP不易于并行計算,因此SVM和BP方法不適于處理供應鏈欺詐檢測。在供應鏈交易的數據集上,基礎分類器DT和LR的召回率、F1-score和AUC值均顯著低于其他的基礎分類器,分類效果較差。
圖4(a)為各個基礎分類器的ROC曲線,由于可視化效果并不好,不便于分析,所以將TPR大于0.85的部分放大得到圖4(b)。根據圖4(b)所示,由于基礎分類器RF的ROC曲線完全“包住”其余基礎分類器,則斷言RF分類器的性能最優。其中,由于基礎分類器SVM、DT和LR的ROC曲線發生交叉,則難以一般性地斷言三者孰優孰劣。但根據ROC曲線下的面積,即AUC值,可知SVM的AUC值為0.87略高于LR和DT。
綜合表6、圖4(a)(b)的結果,RF可以有效提升泛化性能,對維數較高的樣本具有很好的處理能力。對于供應鏈交易欺詐檢測,人們更傾向于找到更多的欺詐交易,同時不希望有較高的假陽率。雖然BP和SVM具有強大的分類能力,但隨著樣本數量的增加,訓練的時間過長,并不適用于大數據運算處理。RF具有易于對模型的參數進行設置、計算的時間復雜度低、對分類問題的預測精度較高、對噪聲和過擬合具有較好的魯棒性等優點,在眾多機器學習方法中,優勢明顯。因此,將更多的研究方向放在RF中,選擇RF作為模型的基礎分類器。
3.5 不平衡過采樣算法對比實驗
為了避免由于不平衡數據集造成的分類器失效或過擬合等問題,采用ADASYN算法處理標準化的訓練集Xtrain,通過將分類決策邊界向困難的實例進行自適應移動實現數據擴增,生成新的訓練集Xtrain_adasyn,以解決不平衡數據造成的過擬合問題,過采樣前后數據分布對比如圖5所示。
為了驗證基于ADASYN-SFS-RF的欺詐檢測模型的有效性及在處理數據不平衡問題時可以很好地克服傳統方法對多數類樣本誤分類的缺陷,將本文的實驗結果與不平衡過采樣算法中的SMOTE、SvmSMOTE、BorderlineSMOTE和ADASYN結合RF進行對比,且RF的參數和之前保持一致,檢測結果如表7所示。
本文將樣例根據其真實類別與分類器預測類別劃分出混淆矩陣來判斷實驗結果的可靠性,各模型的混淆矩陣中基礎指標的數值如表8所示。同時,繪制了各模型的混淆矩陣,以SMOTE+RF模型、SvmSMOTE+RF模型、ADASYN+RF模型和ADASYN-SFS-RF欺詐檢測模型為例,如圖6~9所示。
通過對比圖6~9可知,直接采用過采樣算法會提升對少數類樣本的精度,但會導致對多數類樣本嚴重的誤分類情況,假陽率大大提升。根據表8可知,在RF模型中,假陽率為0.494 9%,FP個數為262,但是該模型對少數類樣本預測的錯誤率高達16.078 8%,FN個數為196;在SMOTE+RF模型、BorderlineSMOTE+RF模型和ADASYN+RF模型中,假陽率分別為1.815 4%、1.758 7%和1.817 3%,FP個數分別為961、931和962;在SVMSMOTE+RF模型中,假陽率高達1.866 4%,FP的個數為988;由圖8可知,ADASYN-SFS-RF模型的假陽率為0.489 3%,FP個數為259,對少數類樣本預測的錯誤率僅為1.886 8%,FN個數為23。
3.6 特征選擇算法對比實驗
在降低ADASYN算法添加噪聲數據對分類邊界確定的影響的同時,從不同特征選擇算法對模型的影響的角度,驗證基于ADASYN-SFS-RF的欺詐檢測模型的有效性。本文采用基于隨機森林的序列向前搜索策略方法篩選出最優特征子集Xtrain_new_adasyn(訓練集)和Xtest_new_adasyn(測試集),其中,Xtrain_new_adasyn用于訓練RF,構建泛化性能最優的隨機森林強分類器。將實驗結果與特征選擇中的基于評價策略的嵌入式方法和帶有交叉驗證的遞歸特征消除法進行對比,基于隨機森林評價策略的嵌入式方法的特征重要性排序如圖10所示。根據圖10中隨機森林對44個特征的重要性排名結果,逐步減少變量個數(表9),以F1-score和AUC值作為評價指標,最終選擇隨機森林重要性排名前21的特征(加粗為F1-score和AUC值最高)。
帶有交叉驗證的遞歸式特征消除法根據特征消除的順序對特征進行排序,并根據剩余的特征建立模型的方法來優化模型。采用10折分層交叉驗證并以AUC值作為評價指標讓模型自主選擇最優的特征數量,由圖11可知,當特征的數量為44時,模型預測效果最優。本文選取準確度、查全率、F-score和AUC值作為評價指標,各特征選擇算法檢測結果如表10所示。
本文引入基于隨機森林的序列向前搜索策略算法對特征進行選擇,由圖12(a)可知,隨著特征數量的增加,模型泛化性能趨于穩定。由圖12(b)可知,當特征數為10時,模型預測效果最好,10個特征的具體描述如表11所示。
綜上,針對不平衡的數據分布,本文采用ADASYN算法進行數據擴增,使用基于隨機森林的序列搜索策略方法篩選出最優特征子集對欺詐進行檢測,降低ADASYN算法添加噪聲數據影響分類邊界的確定的影響,構建基于ADASYN-SFS-RF的欺詐檢測模型。實驗表明,該模型相對于其他欺詐檢測方法可以很好地克服傳統方法對多數類樣本誤分類的缺陷,降低過擬合風險,模型準確度可達到99.48%,AUC值可達到98.81%,假陽率為0.489 3%,顯著提高了供應鏈企業對識別交易欺詐行為的效率,起到非常顯著的預警效果。
4 模型解析
通過提高模型的泛化性能可以提高對欺詐的檢出度,但是在欺詐檢測領域,當一個客戶的訂單被模型檢測為欺詐交易,如何向客戶和管理者對模型檢測結果的現實意義作出解釋也是必須要考慮的問題,如為什么會有這樣的預測,或者哪些變量導致了預測的發生等。本文使用LIME通過擾動示例樣本的輸入在其附近生成新的樣本點,訓練出易于解釋的線性回歸模型來擬合待解釋模型的局部邊界,得到對黑盒模型良好的局部近似,有效地理解樣本整體特征。分別以傳遞測試集中的第25個和第146個樣本為示例,輸出了模型對這兩個樣本的預測結果,影響該樣本預測結果重要性的前序特征,及其對應貢獻度與對應特征值,如圖13、14所示(藍色表示樣本“No Fraud”,橙色表示樣本“Fraud”,見電子版) 。
實驗結果表明,基于ADASYN-SFS-RF的欺詐檢測模型預測第25個樣本有100%的概率為正常交易,由圖13(a)可知,模型作出該決策主要考慮了訂單的交付狀態和所購產品的預定交付天數,而客戶購買登記的商店所屬的國家、客戶購買商品的城市、所購產品的實際運輸天數、客戶的編號、交付地區、訂單編碼和訂單交付地區的狀態等權重較小的因素干擾模型作出正常交易的判斷。由圖13(b)可知,訂單的交付狀態為正常發貨,所購產品的預定交付天數為4天的權重較高,是模型將該樣本預測為正常交易的主要原因,而客戶購買登記的商店所屬的國家為北美洲國家波多黎各(PR),所購產品的實際運輸天數為5天,雖然使其有可能為欺詐交易,但是權重較低。調用相應的測試集標簽發現,模型的預測結果正確。
基于ADASYN-SFS-RF的欺詐檢測模型預測第146個樣本有91%的概率為欺詐交易。由圖14(a)(b)可知,模型作出該決策主要考慮了訂單的交付狀態、客戶購買登記的商店所屬的國家、所購產品的預定交付天數、所購產品的實際運輸天數、客戶的編號和交付地區,而客戶購買商品的城市、訂單交付地區的狀態等權重較小的因素干擾模型作出欺詐交易的判斷。模型經過訓練,學習得到美國賓夕法尼亞州和北美洲國家波多黎各是欺詐交易頻發地區,并根據訂單的交付狀態為取消發貨、所購產品的預定交付天數為0天和交付所購產品的實際運輸天數為0天判斷其為欺詐交易。作為美國市場份額最大的跨境電商平臺,亞馬遜標準配送的平均時長為7~12個工作日,加速配送的平均時長為5~9個工作日,所以數據集中第146個樣本,購買產品的預定交付天數為0天和實際運輸天數為0天,與實際不符。調用相應的測試集標簽發現,模型的預測結果正確,且解釋符合邏輯。
5 結束語
本文主要聚焦在欺詐檢測這一非常具有挑戰性的機器學習問題上,通過對不平衡分類、數據挖掘和機器學習技術等方面的研究,融合了隨機森林強分類器、過采樣技術、特征選擇算法和LIME,提出了基于ADASYN-SFS-RF的欺詐檢測模型。該模型相對于其他欺詐檢測方法可以很好地克服傳統方法對多數類樣本誤分類的缺陷,模型準確度達到99.48%,AUC值達到98.81%,可以顯著提高企業對識別交易欺詐行為的效率,起到非常顯著的預警效果。同時,本文將供應鏈欺詐作為載體對基于ADASYN-SFS-RF的欺詐檢測模型進行了案例分析。通過訓練基于ADASYN-SFS-RF的欺詐檢測模型,與不平衡過采樣算法中的SMOTE、SvmSMOTE、BorderlineSMOTE和ADASYN結合隨機森林強分類器進行對比。結果表明,基于ADASYN-SFS-RF的欺詐檢測模型對多數類樣本的錯誤分類率為0.489 3%,FP個數為259,對少數類樣本預測的錯誤率僅為1.886 8%,FN個數為23。在降低ADASYN算法添加噪聲數據對分類邊界確定的影響的同時,從不同特征選擇算法對模型的影響的角度,驗證基于ADASYN-SFS-RF的欺詐檢測模型的有效性,將本文的實驗結果與特征提取中的基于評價策略的嵌入式方法和帶有交叉驗證的遞歸特征消除法進行對比,該模型在準確率、召回率、F1-score和AUC值均表現最優。最后,嘗試通過LIME對模型檢測結果的現實意義作出解釋。
本文模型通過循環有機的結構化融合,克服了傳統方法對多數類樣本誤分類的缺陷,展現了優越的欺詐檢測性能,同時增強了模型的可解釋性,為企業應用機器學習技術進行欺詐檢測提供了一定的理論依據和實踐參考。同時,由于假設每個欺詐行為在時間上都是獨立的,本文模型更適用于對實時監測要求低的場景。鑒于供應鏈歷史交易數據中的數據分布會隨著時間的推移而變化,所以后續工作考慮針對這類時域序列數據展開研究,方法上則可以進一步向弱監督、無監督的學習方式進行深入研究。
參考文獻:
[1]張巍巍,吳恒亮. 大數據技術在財產保險反欺詐中的應用研究綜述 [J]. 中國管理信息化,2021,24(15): 143-145. (Zhang Weiwei,Wu Hengliang. A review of research on the application of big data technology in property insurance anti-fraud [J]. China Management Informatization,2021,24(15): 143-145.)
[2]Abdallah A,Maarof M A,Zainal A. Fraud detection system: a survey [J]. Journal of Network and Computer Applications,2016,68: 90-113.
[3]Saravanan P,Subramaniyaswamy V,Sivaramakrishnan N,et al. Data mining approach for subscription-fraud detection in telecommunication sector [J]. Contemporary Engineering Sciences,2014,7(11): 515-522.
[4]Benchaji I,Douzi S,Ouahidi B E. Using genetic algorithm to improve classification of imbalanced datasets for credit card fraud detection [C]//Proc of International Conference on Advanced Information Technology,Services and Systems. Cham: Springer ,2018: 220-229.
[5]陽文斯. 基于聯邦學習的信用卡欺詐檢測系統研究 [D]. 深圳:中國科學院大學(中國科學院深圳先進技術研究院),2020. (Yang Wensi. Research on credit card fraud detection system based on federal learning [D]. Shenzhen: University of Chinese academy of Sciences(Shenzhen Institute of Advanced Technology,Chinese Academy of Sciences),2020.)
[6]琚春華,陳冠宇,鮑福光. 基于KNN-SMOTE-LSTM的消費金融風險檢測模型——以信用卡欺詐檢測為例 [J]. 系統科學與數學,2021,41(2): 481-498. (Qu Chunhua,Chen Guanyu,Bao Fuguang. Risk detection model for consumer finance based on KNN-SMOTE-LSTM credit card fraud detection as an example [J]. Systems Science and Mathematics,2021,41(2): 481-498.)
[7]Calderon T G,Cheh J J. A roadmap for future neural networks research in auditing and risk assessment [J]. International Journal of Accounting Information Systems,2002,3(4): 203-236.
[8]Rizki A A,Surjandari I,Wayasti R A. Data mining application to detect financial fraud in Indonesia’s public companies [C]// Proc of the 3rd International Conference on Science in Information Techno-logy.Piscataway,NJ: IEEE Press,2017: 206-211.
[9]Sun Yahui,Wu Yue,Xu Yunjie.Using an ensemble LSTM model for financial statement fraud detection[C]//Proc of the 24th Pacific Asia Conference on Information Systems. 2020:144.
[10]易東義,鄧根強,董超雄,等. 基于圖卷積神經網絡的醫保欺詐檢測算法 [J]. 計算機應用,2020,40(5): 1272-1277. (Yi Dongyi,Deng Genqiang,Dong Chaoxiong,et al. A medical insurance fraud detection algorithm based on graph convolutional neural network [J]. Journal of Computer Applications,2020,40(5): 1272-1277.)
[11]曹魯慧,秦豐林,閆中敏. 基于TLSTM的醫療保險欺詐檢測 [J]. 計算機工程與應用,2020,56(21): 237-241. (Cao Luhui,Qin Fenglin,Yan Zhongmin. Fraud detection for health insurance based on TLSTM [J]. Computer Engineering and Applications,2020,56(21): 237-241.)
[12]吳文龍,周喜,王軼,等. WKAG: 一種針對不平衡醫保數據的欺詐檢測方法 [J]. 計算機工程與應用,2021,57(9): 247-254. (Wu Wenlong,Zhou Xi,Wang Yi,et al. WKAG: a fraud detection method for unbalanced medical insurance data [J]. Computer Engineering and Applications,2021,57(9): 247-254.)
[13]Wan Fang. XGBoost based supply chain fraud detection model [C]// Proc of the 2nd IEEE International Conference on Big Data,Artificial Intelligence and Internet of Things Engineering. Piscataway,NJ: IEEE Press,2021: 355-358.
[14]Beteto A,Melo V,Lin J,et al. Anomaly and cyber fraud detection in pipelines and supply chains for liquid fuels [J]. Environment Systems and Decisions,2022,44: 1-19.
[15]Rao S X,Zhang Shuai,Han Zhichao,et al. xFraud: explainable fraud transaction detection on heterogeneous graphs [J]. Proceedings of the VLDB Endowment,2021,15(3):427-436.
[16]Farrugia D,Zerafa C,Cini T,et al. A real-time prescriptive solution for explainable cyber-fraud detection within the iGaming industry [J]. SN Computer Science,2021,2(3): 1-9.
[17]Sinanc D,Demirezen U,SaIrolu瘙塁. Explainable credit card fraud detection with image conversion [J]. ADCAIJ: Advances in Distributed Computing and Artificial Intelligence Journal,2021,10(1):63-76.
[18]He Haibo,Bai Yang,Garcia E A,et al. ADASYN: adaptive synthetic sampling approach for imbalanced learning [C]// Proc of IEEE International Joint Conference on Neural Networks. Piscataway,NJ: IEEE Press,2008: 1322-1328.
[19]Li B,Friedman J,Olshen R,et al. Classification and regression trees (CART) [J]. Biometrics,1984,40(3): 358-361.
[20]Cotter S F,Rao B D,Kreutz-Delgado K,et al. Forward sequential algorithms for best basis selection [J]. IEE Proceedings-Vision: Image and Signal Processing,1999,146(5): 235-244.
[21]Ribeiro M T,Singh S,Guestrin C. “Why should I trust you?”Explaining the predictions of any classifier [C]// Proc of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2016: 1135-1144.
[22]Constante F,Silva F,Pereira A. DataCo smart supply chain for big data analysis [EB/OL]. (2019-03-13). https://data.mendeley.com/datasets/8gx2fvg2k6/5.
[23]王蘇桐. 引入可解釋性的隨機森林規則提取方法及應用 [D]. 大連:大連理工大學,2020. (Wang Sutong. Introduction of interpretable random forest rule extraction method and its application [D]. Dalian: Dalian University of Technology,2020.)