徐天培?羅永勝


摘要:旨在探討和驗證一種基于集成學習的信用卡欺詐檢測模型,以提高識別欺詐交易的準確性。分析了信用卡欺詐的背景,回顧了現有的關鍵技術和方法,在此基礎上,采用硬投票策略,將決策樹、邏輯回歸和樸素貝葉斯分類器三種不同的機器學習模型集成在一起,形成一個強大的集成模型。通過實驗驗證,該集成模型實現了高達99%的準確性,相較于單一模型至少提高了3.22%的準確性。這種顯著的準確性提升歸因于模型間的互補性和集成學習的穩健性。不僅為信用卡欺詐檢測提供了一種高效的方法,也為其他金融欺詐檢測問題提供了有價值的參考。
關鍵詞:信用卡欺詐檢測;機器學習;集成學習;硬投票
一、前言
在全球數字化的現代社會中,電子商務和在線交易已經成為日常生活和商業活動的核心組成部分。據Statista的預測,2023年全球電子商務的市場規模將達到13,190億美元。這種交易方式的普及和便利為全球消費者和企業帶來了諸多益處,但同時也伴隨著日益嚴重的安全問題,尤其是信用卡欺詐問題。信用卡欺詐的形式多種多樣,包括卡不在場的欺詐、身份盜竊、虛假交易等。根據Nilson Report的數據,2022年全球信用卡欺詐損失超過320億美元,并且這一數字預計在未來幾年中將持續上升。這些欺詐行為不僅給消費者帶來巨大的經濟損失,也給商家和金融機構帶來沉重的經濟負擔和聲譽損害。
因此,信用卡欺詐檢測成為一個亟待解決的關鍵議題。雖然傳統的欺詐檢測方法,例如基于規則的系統和閾值檢測,在一些場景下仍然有效,但它們在面對復雜和多變的欺詐模式時往往顯得無能為力。因此,研究者們開始轉向使用機器學習和數據挖掘技術來提高欺詐檢測的準確性和效率。
機器學習方法能夠通過分析大量的交易數據,識別出潛在的欺詐模式,并在新的交易中實時檢測潛在的欺詐行為。盡管機器學習在信用卡欺詐檢測中展現出了巨大的潛力,但設計和實施一個高效且可靠的信用卡欺詐檢測模型仍然面臨著許多挑戰,例如數據不平衡、特征選擇和模型解釋性等。本文旨在提出一個基于集成學習模型的信用卡欺詐檢測模型,以提高模型的檢測性能,保持良好的實用性。同時,探討集成學習模型在提高模型準確性方面的優勢,并通過實驗驗證模型的有效性。
二、相關工作
信用卡欺詐的嚴重性引發了一系列的防范技術的發展。金融機構不僅要提供財務服務便利,也應保護信用卡持有人,因此,投資并研究了包括機器學習技術在內的多種檢查方法。
決策樹(DT)是一種被廣泛使用的檢測技術,盡管實施簡單,但需逐一檢查每筆交易。Khatri等人在一個不平衡的歐洲信用卡欺詐檢測(ECCFD)數據集上分析了各種模型,結果顯示DT在召回率和精確度上表現較好,而KNN在召回率和精確度上表現更佳,但時間消耗較大[1]。LightGBM技術也得到了應用。Taha和Malebary在兩個數據集上進行實驗,發現優化Light梯度提升機(OLightGBM)在兩個數據集上均取得了最高分[2]。Vengatesan等人在不平衡的ECCFD數據集上檢查了LR和KNN的性能,發現KNN在精確度、召回率和F1分數上表現最佳[3]。Puh 和Brki?c?在歐洲持卡人數據集上研究了不同算法的性能,并使用合成少數類過采樣技術(SMOTE)解決了數據集中的不平衡類問題,他們使用LR創建了兩個模型,結果顯示靜態學習和增量學習的AUC分數分別為91.14%和91.07%[4]。 Kumar等人使用RF對ECCFD數據集進行了基礎研究,發現RF的準確度為90%[5]。人工神經網絡(ANN)也被考慮用于信用卡欺詐檢測。Asha和KR9在ECCFD數據集上使用了SVM、KNN和ANN模型,結果顯示ANN在準確度、精確度和召回率上表現最佳[6]。
綜觀前人的研究,每種方法都能提高模型性能,但從整體考慮,應兼顧機器學習模型的準確性和泛化性。因此,有必要使用集成學習方法構建一個新的集成學習模型用于信用卡欺詐檢測。
三、數據集與理論
(一)數據集
本文使用Kaggle數據競賽網站的開源數據集,該數據集包含了284,807條信用卡交易的詳細信息,每條記錄包含31個特征。這些特征可能包括交易時間、金額以及可能與交易模式、客戶行為和卡的安全性相關的其他變量。所有的交易細節都已經通過PCA轉換,進行了匿名處理,以保護個人信息和敏感特征。唯一未經PCA轉換的特征是“Class”。“Class”特征是本文的目標變量,用于標識每個交易是否為欺詐交易。在這個特征中,0表示非欺詐交易,1表示欺詐交易。
(二)理論
1.硬投票分類器
硬投票分類器(Hard Voting Classifier)是一種集成學習方法[7],它通過整合多個模型的預測結果來做出最終的預測。在硬投票中,每個模型對樣本的預測被視為一個“投票”,最終的預測結果是基于多數投票的原則得出的。細節上,對于每個樣本,模型預測的類別中獲得最多“投票”的類別被選為最終的預測類別。
2.樸素貝葉斯分類器
樸素貝葉斯分類器是基于貝葉斯定理[8],假設特征之間相互獨立。盡管這個“樸素”假設在現實應用中往往不成立,但樸素貝葉斯分類器在許多情況下仍然表現出色,特別是在文本分類和垃圾郵件過濾等領域,其簡單、快速且易于實現的特點,使其成為工業領域中一個有價值的成員。
3.邏輯回歸
邏輯回歸是一種廣泛應用于二分類問題的模型[9],它通過sigmoid函數將線性組合的結果映射到(0,1)區間,用于預測目標變量屬于某一類的概率。邏輯回歸在處理線性可分的問題上具有較強的表現,并且能輸出概率估計,便于分析。
4.決策樹
決策樹[10]通過遞歸地分割特征空間,將特征空間劃分為一系列簡單的決策區域。它是一種非參數化模型,能夠處理非線性關系,且模型的解釋性強。決策樹能夠自然地處理多種數據類型,并且對異常值和缺失值具有較強的魯棒性。
5.基于集成學習的硬投票模型
在本文中,選擇了樸素貝葉斯分類器、邏輯回歸和決策樹這三種基礎模型來構建硬投票模型,主要基于它們在不同方面的優勢和計算特性的差異性,以期望在集成中實現互補和提升。對于每一個預測實例,硬投票模型會選擇三個基模型中預測結果出現次數最多的類別作為最終的輸出。例如,如果決策樹和邏輯回歸預測一個樣本為正類,而樸素貝葉斯分類器預測為負類,硬投票分類器將選擇正類作為該樣本的預測結果,因為正類獲得了更多的“投票”。
通過整合三個模型的預測能力,硬投票模型旨在減少模型的方差,提高泛化能力。由于每個基模型的計算特性和假設不同,它們在不同的數據分布和特征空間上可能有不同的表現。因此,本文期望硬投票模型能夠在不同場景下提供更加穩健和準確的預測。硬投票模型結構如圖1所示。
6.機器學習模型評估標準
機器學習模型的評估中,準確性(Accuracy)通常用于衡量模型預測的正確性,即正確預測的樣本占總樣本的比例。然而,在不平衡數據集的情境下,準確性可能不是一個可靠的指標。此時,AUC(Area Under the Receiver Operating Characteristic Curve)成為一種流行的度量,它衡量的是模型對正例的排名能力,即模型將正例排在負例前面的概率。F1分數(F1 Score)則是精確度(Precision)和召回率(Recall)的調和平均數,它在評估正負樣本極度不平衡的數據集時特別有用,因為它同時考慮了模型的精確性和召回性。這些指標為本文提供了多個維度來全面評估模型的性能和可靠性[11]。
四、結果
(一)三種機器學習的模型性能
本文先對三種機器學習的模型性能進行了評估,結果如表1所示。其中,決策樹分類器在所有指標上表現均衡,F1 分數為 93.91%,表明模型在準確度和召回率之間達到了一個較好的平衡。邏輯回歸分類器在所有模型中表現最好,尤其在 F1 分數上達到了 98.73%,表明模型在精確度和召回率之間有著極好的平衡,且準確度也是最高的。樸素貝葉斯分類器在平衡準確度和AUC上的表現下降,這可能暗示模型在正負樣本的分類上存在一些問題,盡管其準確度和 F1 分數表現尚可。
(二)硬投票結果
本文將決策樹(準確度為94.91%)、邏輯回歸(準確度為95.78%)和樸素貝葉斯分類器(準確度為94.83%)組合起來構建硬投票模型,可在一定程度上抵消各自的缺點,從而獲得更高的準確性。通過交叉驗證,實現了99%的準確度。這表明,盡管單個模型的準確度介于94%—96%之間,但通過將它們的預測相結合,達到了相對理想的預測效果。
具體而言,與原先準確度最高的邏輯回歸模型相比,硬投票方法至少提升了3.22%的準確度。這種顯著的準確度提升可以歸因于模型間的互補性。也就是說,在某些實例上,一個模型的預測不準確時,其他模型可能能夠進行正確預測。這種互補性降低了模型預測的誤差和方差,從而增強了整體的準確度,這也凸顯了集成學習的一個核心優點:通過整合多個模型,能夠獲得比任何單一模型更為強大和穩定的預測性能。
五、結語
隨著數字化支付的普及和在線交易的增加,信用卡欺詐已成為一個全球性的問題,對個人和金融機構造成了巨大的經濟損失。在這方面,構建一個能夠精確檢測欺詐行為的模型變得至關重要。
本文在相關研究基礎上,審視了現有的一些方法和技術,分析了它們的表現和局限性,創造性地采用了一種硬投票策略,將決策樹、邏輯回歸和樸素貝葉斯分類器等不同的基模型集成在一起,實現了更高的預測準確性。實驗結果表明,這種集成方法的準確性高達99%,相較于單一模型的表現至少提高了3.22%的準確性。該方法利用模型間的互補性顯著提升準確性,實現了超越單一模型的穩定、強大的預測性能,為金融領域提供了一個有效的工具,幫助金融領域更高效地識別和防止信用卡欺詐行為,從而保護消費者和金融機構免受經濟損失。
在未來的工作中,計劃進一步探索其他的集成學習策略和不同的基模型,以進一步提高模型的預測性能和泛化能力。同時,也將探討如何將更多的特征工程和領域知識融入模型中,以便更精確地捕捉欺詐行為的各種模式和策略。
參考文獻
[1]Khatri, S.; Arora, A.; Agrawal, A.P. Supervised machine learning algorithms for credit card fraud detection: A comparison. InProceedings of the 2020 10th International Conference on Cloud Computing, Data Science & Engineering (Confluence), Noida,India, 29–31 January 2020:680–683.
[2]Taha, A.A.; Malebary, S.J. An intelligent approach to credit card fraud detection using an optimized light gradient boosting machine. IEEE Access 2020, 8:25579–25587.
[3]Vengatesan, K.; Kumar, A.; Yuvraj, S.; Kumar, V.; Sabnis, S. Credit card fraud detection using data analytic techniques. Adv. Math.Sci. J. 2020, 9:1185–1196.
[4]Puh, M.; Brki?c, L. Detecting credit card fraud using selected machine learning algorithms. In Proceedings of the 2019 42ndInternational Convention on Information and Communication Technology, Electronics and Microelectronics (MIPRO), Zagreb,Croatia, 20–24 May 2019: 1250–1255.
[5]Kumar, M.S.; Soundarya, V.; Kavitha, S.; Keerthika, E.; Aswini, E. Credit card fraud detection using random forest algorithm. InProceedings of the 2019 3rd International Conference on Computing and Communications Technologies (ICCCT), Chennai, India,21–22 February 2019: 149–153.
[6]Asha, R.; KR, S.K. Credit card fraud detection using artificial neural network. Glob. Trans. Proc. 2021, 2:35–41.
[7]黃富幸,韓文花.基于Voting機制的IMA-BP不平衡數據分類算法[J].科學技術與工程,2023(27): 11698-11705.
[8]周妹,常建華,陳思成,等.一種基于樸素貝葉斯分類器的氣溶膠類型識別模型[J].光學學報,2022,42(18):49-57.
[9]孟云偉,張熙衍,青光焱,等.基于Logistic回歸的高速公路交通事故后果的影響因素分析[J]. 武漢理工大學學報 (交通科學與工程版). 2022,46(01): 12-16.
[10]呂志鵬,鄭丁丁,郭瓊,等.決策樹算法對整家定制家居購買決策的預測研究[J].林產工業,2023,60(05):88-92.
[11]盧冰潔,李煒卓,那崇寧,等.機器學習模型在車險欺詐檢測的研究進展[J].計算機工程與應用,2022,58(05):34-49.
基金項目:博士基金研究項目“基于大數據技術的電信用戶行為序列化分析在欺詐識別中的應用研究”(項目編號:2023BSJJ16)
作者單位:徐天培,呼倫貝爾學院;羅永勝,呼倫貝爾市公安局伊敏分局
責任編輯:尚丹