999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數字信用交易反欺詐研究進展

2023-10-29 04:20:22劉華玲曹世杰許珺怡陳尚輝
計算機與生活 2023年10期
關鍵詞:特征模型

劉華玲,曹世杰,許珺怡,陳尚輝

上海對外經貿大學 統計與信息學院,上海 201620

互聯網信息時代,數字經濟成為引領全球經濟社會變革、推動我國經濟高質量發展的重要引擎,以大數據、人工智能為代表的新一代信息技術在經濟社會的不斷擴張與滲透,催生出數字金融新業態[1],其中數字信用交易作為伴隨消費模式升級與普惠金融的發展而成的新模式,迅速在全國捕獲了大量用戶,成為數字金融體系的重要組成部分,為我國數字經濟的高質量發展鋪平了道路。但另一方面,以惡意逾期、冒用他人信用賬戶為代表的數字信用交易欺詐行為同樣變得更為隱蔽,2020 年全球范圍內數字信用支付欺詐交易損失較2018年增加了35%[2],目前仍呈上升態勢。我國的情況同樣不容樂觀,信用支付逾期半年未償信貸總額在2019年略有下降后再次回升[3]。數字信用欺詐交易的存在不僅為用戶、銀行業在內的個體及金融機構帶來大量財物上的損失,更會讓消費者喪失對數字支付的信心,嚴重阻礙我國數字經濟的發展。

欺詐交易造成的嚴重損失與用戶對交易安全的硬性需求,使數字化交易安全問題受到社會各界的廣泛關注。面對數字交易信息逐步呈現出的海量多源、高維異構等新特點,傳統的專家系統與早期的機器學習分類算法難以適應現有數據環境,金融科技革命開始蓬勃發展,螞蟻金服、Paypal 等互聯網科技企業更是引領起反欺詐研究創新的變革新浪潮。

以海量數據為驅動力,融合統計學、數學、機器學習和人工智能算法的數據智能技術成為反欺詐研究中的重要工具。相關算法已在數字信用反欺詐研究領域得到廣泛關注與應用,隨之涌現出多篇基于不同視角聚焦數字信用交易反欺詐研究的綜述性文章。Bansal 和Garg 兩位學者[2]從風險來源出發進行綜述,詳細論述了當前國外數字信用欺詐交易的主要類型及犯罪手段,其文章能夠使讀者快速了解信用支付反欺詐研究的研究背景,但由于具體業務的開展方式在各國間不盡相同,文章介紹的欺詐交易方式與我國的情況可能有所差異。文獻[4-7]從算法的識別性能出發進行綜述。Popat 等學者在文獻[4]中分析并對比了8 類機器學習分類算法在數字信用欺詐檢測中的應用。文獻[5]重點分析了當前研究領域受關注最多的6 類有監督模型與4 類無監督模型的性能優劣,但上述文章模型對比均停留在Baseline階段,缺乏最新的研究進展。文獻[6]將目光聚焦于機器學習在反欺詐研究中的應用,但涉及文獻較少,涵蓋觀點不夠全面。Ryman、Krause 等學者[7]在真實體量的交易數據集上對最新的欺詐交易識別模型進行實證檢驗,文章認為與當時的基準測試(2017 年)相比,僅有8 種方法可以應用到實際業務場景中,遺憾的是由于數據集的私密性,無法將其分享出來用作后續研究的對比。文獻[8]整合并羅列了領域中常用的公開數據集與獲取地址,方便讀者進行查找與實驗,彌補了文獻[7]的不足。Al-Hashedi 等學者[9]聚焦于包含信用交易反欺詐研究在內的金融反欺詐領域,匯總了自2009 年至2019 年由ACM、IEEE、Emerald、Elsevier 出版社出版的相關文章,從模型描述、數據集匯總、算法的橫向對比等多角度進行了文獻綜述,是目前已發表的文章中涉獵時間最廣、角度最為全面的綜述性文章之一。

綜上所述,目前面向信用支付反欺詐研究的綜述性文章大多數涵蓋內容不夠全面,文獻[9]雖然涉及內容廣泛,但是文章著眼于整體金融欺詐檢測領域,就數字信用交易反欺詐研究而言,深度略顯不足,目前仍舊缺少對數字信用交易反欺詐研究進行全面、深入梳理與總結的工作。作為最早的數字化非現金交易方式之一,數字信用支付擁有目前最成熟的數據積累和理論基礎,其反欺詐算法的研究進展不僅關乎自身業務發展,對整體數字支付環境下的交易風險防范具有更為重要的啟示意義。本文在上述文章的基礎上進一步對國內外的研究成果進行綜述,意圖為讀者呈現系統、全面的分析與總結。

1 數字信用反欺詐研究簡要概述

1.1 數字信用欺詐交易定義及分類

數字信用欺詐交易是指以非法占有為目的,違反信用支付管理法規進行的詐騙行為[10]。根據欺詐者的身份可分為內部信用欺詐交易(internal credit fraud payment)和外部信用欺詐交易(external credit fraud payment)兩種模式[11]。內部信用欺詐交易的欺詐者為用戶本人,通過偽造身份信息、惡意逾期等行為違法獲利;外部信用欺詐交易的欺詐者為非銀行、用戶本人在內的第三方惡意用戶,通過獲取信用卡/賬戶的詳細信息及相應個人憑證偽裝成持卡者進行違法套利活動。

從實施欺詐交易的方式入手,數字信用欺詐交易主要可分為信用卡丟失/被盜、快捷支付漏洞、使用偽造信用卡、釣魚網站攻擊、電子賬戶泄露、惡意逾期等類別,如圖1所示。

圖1 數字信用欺詐交易的主要方式Fig.1 Main methods of digital credit fraud transactions

(1)信用卡丟失/被盜(lost/stolen card):持卡者的信用卡開通免密支付的同時出現丟失或被盜的情況,被不法分子獲取后用于非法套利或消費從而產生損失。

(2)快捷支付漏洞(card not present):不法分子獲取到持卡者的銀行卡卡號、戶名、手機號碼等信息,并使用偽造的電話卡獲取第三方支付平臺發送到用戶手機的動態口令,從而完成支付。

(3)使用偽造的信用卡(fake credit card):以制作假信用卡或對真實信用卡的信息進行涂改、偽造為代表的違法行為。

(4)釣魚網站攻擊(Phishing):向用戶發送虛假購物網站,從而獲取用戶在該網站上填寫的信用賬戶相關信息,例如客戶的賬號、登錄憑據、信用支付密碼等,通過這些信息,不法分子即可完成欺詐交易。

(5)電子賬戶泄露(account takeover):與釣魚網站攻擊造成損失的原因相似,消費者信用賬戶的賬號及支付密碼出現泄露,被不法分子獲取,從而造成損失。

(6)惡意逾期(maliciously overdue):持卡者使用信用支付消費后在還款日故意逾期,不償還貸款的行為。

1.2 欺詐交易識別問題描述及研究難點

數字信用欺詐交易識別問題的定義如下:給定一段時間內的歷史交易數據集D={d1,d2,…,dn}及每條交易數據di對應的類別標簽li∈{l1,l2},其中di代表一條數字信用交易記錄的具體信息,l1、l2分別代表正常交易與欺詐交易。數字信用交易反欺詐研究旨在通過數據挖掘算法提取數據集中欺詐行為模式,進而識別新發生交易中的潛在欺詐交易,輸出結果為新發生的交易申請屬于正常交易或欺詐交易的概率。因此欺詐交易識別任務本質是一個二分類問題。結合數字經濟下具體的應用場景及業務特點,數字信用欺詐交易識別問題當下主要有四個研究難點。

(1)數字支付背景下交易規模激增,傳統審核方式難以支撐。

根據央行發布的數據顯示,2020 年銀行共處理電子支付業務2 352.23 億筆,其中網上支付業務879.31 億筆,移動支付業務1 232.20 億筆,分別同比增長12.46%和21.48%。單日新增數字信用支付記錄存儲量從2012 年的TB 級向如今的PB 級躍遷,在如此龐大的交易數量下,人工審核或基于規則的算法在檢驗精度與效率上難以取得令人滿意的結果。

(2)公開數據集少,信息敏感度高。

回顧近年來的發展,數據挖掘技術愈加成熟,但是由于交易數據的私密性,銀行禁止在未經同意下對客戶的消費信息進行任何披露,數字信用反欺詐研究進展緩慢[12]。

(3)數據集樣本分布嚴重失衡,模型分類結果有偏。

基于信用消費記錄構成的數據集中,正常用戶的交易數據樣本數量遠多于需要著重關注的欺詐交易樣本數。現實業務中,正常用戶與欺詐用戶的比例甚至能達到1 000∶1以上[13]。數據集類別分布的嚴重失衡將導致模型對正常交易識別過度,對欺詐交易的樣本行為特征識別不足,嚴重影響模型的檢測效果[14-15]。在反欺詐研究中,欺詐交易的錯分代價遠遠高于正常樣本的錯分代價,欺詐交易才是要重點關注的對象。

(4)部分交易特征高度相似,分類難度大幅提升。

數據集類別分布失衡并非信用支付欺詐識別任務中的主要難題,事實上,只要各類分布可以被該類樣本數據完全表達,且不同類別樣本之間不存在重疊,以圖2中的二維空間為例,如圖2(a)所示,即使數據集構成比例嚴重失衡,傳統的分類方法依舊可以取得較好的識別效果。但在信用支付欺詐識別問題中,部分欺詐交易樣本表現出來的特征與正常交易的特征具有高度的相似性,將樣本映射在特征空間中如圖2(b)所示。如何優化重疊區域的分類問題,是領域內研究者解決信用支付欺詐識別問題的主要矛盾,對重疊區域進行量化表達并融入模型也是目前數字信用反欺詐研究領域的最新方向。

圖2 樣本在特征空間中的映射表示Fig.2 Mapping representation of samples in feature space

1.3 數據描述及特征工程

1.3.1 數據描述

表1羅列了實際業務場景中,新的交易申請發起時會被發卡機構或三方支付機構記錄的基本屬性,以展示信用支付欺詐交易識別特征表的主要框架。盡管交易特征表的具體結構在不同的發卡機構之間可能略有不同,但表1中涉及的特征在各機構的數據庫中應當均有收錄且被應用于欺詐交易識別模型的構建中。

表1 信用支付欺詐交易識別特征Table 1 Features of credit payment fraud transactions

1.3.2 特征工程

在欺詐識別模型搭建中,基于原始數據對交易行為信息進行總結和表示,構建有效特征變量的特征工程是流程內極為關鍵的一步,特征的質量將直接影響模型的性能,具體來講,特征越好,靈活性越強,構建的模型也將越簡單、性能越出色。

對于信用支付欺詐交易識別問題,數據庫由不同用戶在相同時間跨度內的歷史交易記錄構成,但直接使用這些由表1 中初始特征組成的歷史信息建模是困難的。如果將單筆交易記錄作為建模對象,則忽略了不同用戶之間的異質性與同一用戶不同交易之間的連續性,造成關聯賬戶歷史交易信息的丟失;如果將信用賬戶作為建模對象,使用每個賬戶的歷史交易記錄進行獨立建模,雖然解決了上述問題,但僅能用于重點客戶分析,在數字經濟海量用戶的背景下無法大規模實施。因此,除去對現有特征進行篩選與提煉,利用特征工程對用戶的歷史交易模式進行歸納與總結,作為新的特征補充到交易記錄中完善用戶畫像是保證欺詐識別模型有效性的重要基礎。

在現有的研究中,大多數學者結合RFM 框架進行特征工程,其中R(recency)代表客戶當前交易距上一次發生交易之間的時間間隔、F(fequency)代表客戶的交易頻率,M(monetary)代表客戶的消費金額,配合不同跨度的時間窗口即可捕獲用戶長、短期交易行為特征。

Zhang 等學者在研究中認為RFM 框架雖然考慮了不同用戶之間的差異,但是忽略了信用支付交易自身的內在異質性,即使是同一用戶面對不同的交易類型也具有不同的行為模式,因此在RFM 框架的基礎上提出了面向同質性行為分析(homogeneityoriented behavior analysis,HOBA)的特征工程框架[16],配合交易聚合策略從交易類型、聚合周期、交易行為、聚合統計指標四方面完成了更精細的關聯賬戶歷史行為特征提取,使用不同的分類器在中國最大的商業銀行提供的數據集上進行檢驗,結果顯示經過HOBA框架處理后的數據所構建的模型識別精度有顯著的提高。

簡單有效是RFM 框架的優勢,但數據集在結構化存儲方式下,不同用戶間的交易樣本被默認是相互獨立的,用戶之間諸如社會關系、交易位置在內的空間聯系被完全忽略,無法將此類非結構關系信息提取到行為特征中。直到近年來,以Node2Vec[17]、SDNE(structural deep network embedding)[18]為代表的圖嵌入算法的興起,將交易信息從結構化數據轉化為圖結構數據,并基于圖網絡從全局視角挖掘賬戶之間的空間聯系,生成新補充特征應用于風險決策模型成為可能。Vlasselaer 等學者基于RFM 特征框架進行改進,提出了APATE(anomaly prevention using advanced transaction exploration)[19]特征工程方法,一方面使用RFM 框架提取客戶消費歷史的內在特征,另一方面依據客戶與商家的聯系構建了消費者-商家信息網絡,基于網絡為客戶建立時間依賴的信用評分,面對新傳入的交易申請,網絡特征的加入使APATE框架在相同的分類模型上呈現出更好的分類效果。

RFM 框架和基于RFM 框架進行改進的特征工程方法很好地完成了分析用戶行為模式、完善用戶畫像的需求,但是略有不足的是上述方法需要研究者對業務具備深入理解,以手工構造的方式進行開展。隨著數字經濟的發展,不同機構業務場景下的收錄特征與欺詐交易模式不盡相同,基于專家的手動特征構建方法難以滿足與日俱增的欺詐識別需求。由此,王成等學者提出面向網絡支付的自動化特征工程方法[20],通過定制化轉換函數設計在特征集合上自動生成潛在補充特征,依托決策樹模型對當前特征重要性進行排序并對數據集進行劃分,若當前最佳劃分屬性為生成特征,則將其保留并更新對應轉換函數的權重,隨后在子節點中重復上述過程,直至達到結束條件。與隨機構造、Cognito 等多種自動化特征工程框架進行對比,效率更快、精度更高。此類自動化特征工程方法也逐漸成為反欺詐研究前期特征挖掘階段的有利工具。圖結構特征構建也同樣趨于自動化,文獻[19]率先將圖表征學習算法Graphsage[21]引入信用支付欺詐研究領域,無需繁瑣的手動特征工程即可對消費者-商家交易網絡進行特征化處理,從交易網絡與結構的視角提取用戶行為模式,相較于傳統的圖特征提取方法,提高了信用支付欺詐識別的效率和準確性,有力展示了圖歸納表示學習在信用支付欺詐交易識別問題上自動提取特征的有效性。

1.4 信用支付欺詐交易識別模型主要建模策略

通過1.2 節的分析,信用支付欺詐交易識別本質上是一個面對極度不均衡數據集的二分類問題,現有研究中,對于不平衡數據集的建模思路主要分為兩類:(1)從數據層面出發,主要思想在于通過重抽樣或者生成偽數據的方法對數據集進行平衡,隨后運用傳統的分類方法進行研究。(2)從模型層面出發,從模型的理論切入,通過改進分類算法的損失函數或學習策略,提高對少數類樣本特征的學習能力。其中代表性的算法為代價敏感分類算法,對少數類樣本施加一個較高的錯分代價因子以達到提高分類效果的目的[22-24]。在數字信用反欺詐研究業務中,嚴峻的類別不平衡性與特征空間內重疊區域樣本的存在,使得從單一層面進行改進的識別算法難以取得令人滿意的效果,因此相關研究者通常將兩個改進方向進行融合,雖然模型的復雜度有所提升,但也結合了兩者的優點,模型的性能更加穩定。

1.5 評價準則

為了準確評估欺詐識別模型的性能,評價指標的選取至關重要。面對正負類樣本分布極度失衡的數據集,以分類準確率(Accuracy)為代表的經典評價指標會側重評估多數類樣本(正常交易)的檢測結果。但反欺詐研究中,對少數類樣本(欺詐交易)的識別性能才是重點關注的對象,誤判欺詐交易所帶來的損失要遠高于正常交易的錯分代價,因此整體的分類準確率并不能迎合真實應用中的業務需求。在目前研究中,通常在精確率(Precision)、召回率(Recall)、F1分數(F1-score)、G-mean、馬修斯相關系數(Matthews correlation coefficient,MCC)以及AUROC值或AUPRC值中選取部分作為模型評價指標。

本文將數據集中的欺詐樣本定義為正類,將正常樣本定義為負類,可得到混淆矩陣如表2所示。

表2 二分類問題的混淆矩陣Table 2 Confusion matrix of binary classification problem

(1)精確率(Precision):又稱為查準率,用來表示預測為正類的樣本中被正確分類的比重,通常會受到數據集不平衡率的影響,不平衡率越高對其影響越大。

(2)召回率(Recall/Sensitive/TPR(true positive rate)):又稱查全率、靈敏度、真陽性率,是模型對正類樣本識別全面程度的一個度量。

(3)F1 分數(F1-score):在不平衡分類任務中,精確率和召回率通常是“此消彼長”的關系,F1 分數對精確率與召回率進行了綜合,是兩者的調和平均值,同時考慮了正類樣本檢測結果的準確性與全面性。在評價過程中,F1分數的值越高,認為分類器的性能越好。

(4)G-mean:G-mean 同時度量了正類樣本和負類樣本檢測結果的全面性,優點為對數據集中類別分布不敏感,評價過程中,G-mean 值越高,分類器的性能越好。

(5)馬修斯相關系數(MCC):馬修斯相關系數同時考慮到正類樣本與負類樣本的識別性能,本質上是樣本真實情況與基于分類器得到預測結果之間的相關系數,馬修斯相關系數的取值范圍為[-1,1],取值為1時,代表模型識別結果與真實情況完全相同,取值為-1時代表模型識別結果與真實情況完全不符。

(6)AUROC值與AUPRC值

ROC 曲線全稱為“受試者工作曲線”(receiver operating curve),橫坐標為假陽性率(FPR:假正例FP在全部真實負例樣本中的占比),縱坐標為真陽性率(TPR)即召回率,對每一個分類閾值,分類器都會給出對應的FPR 與TPR 值(對應坐標系中的一個點),所有坐標點連接而成的平滑曲線即為ROC 曲線。AUC 值(一般特指AUROC)則是ROC 曲線下的面積,能夠量化地反映基于ROC 曲線衡量出的模型性能,AUC值越大,模型的分類性能越好。

P-R 曲線全稱“精確率-召回率曲線”(precisionrecall curve),橫坐標為召回率,縱坐標為精確率,同F1-score 一樣是對上述兩個指標的綜合度量,P-R曲線的繪制方法與ROC 曲線相似,AUPRC 值則是P-R曲線下的面積,AUPRC值越大,模型的分類性能越好。

AUROC 值與AUPRC 值計算方式相似,均通過計算曲線下面積度量模型性能,但在實際應用中存在差異。相比P-R曲線,ROC曲線的形狀在正負樣本的分布發生變動時能夠基本保持不變,但P-R曲線會發生較強烈的變化。這個特點讓AUROC 值能夠降低不同測試集帶來的干擾,更加客觀地衡量模型的自身性能,但當研究需要測評模型在某特定數據集上的表現時,AUPRC值更加直觀。

2 數字信用反欺詐研究中的數據均衡算法

數據均衡算法的目的在于通過對數據集進行調整,抵消樣本分布占比不均衡帶來的負面影響,使處理后的數據集能夠滿足傳統分類算法的需求,而在數字信用反欺詐研究中,海量的正常交易樣本已經使得正常用戶的行為特征得到充分表達,如何通過過采樣技術對欺詐交易樣本進行補充是領域內的研究重點。本章將重點對欺詐交易識別領域運用到的數據均衡算法進行總結。

目前對數據集進行平衡的方法可分為從重抽樣角度出發和從數據分布角度出發兩個思路,如表3所示:重抽樣角度下的均衡算法提出時間早,理論簡單,應用廣泛,但過于依賴于已有樣本數據的特征表現,沒有考慮到數據集的整體分布情況;基于數據分布角度的算法彌補了這一不足,其中生成對抗網絡(generative adversarial network,GAN)是近年來深度學習技術在分類問題上的最新成果,采用內部對抗機制對網絡進行訓練,擬合數據的實際分布,在學術界和工業界均受到廣泛關注,是該類方法中最具代表性的前沿算法,缺點是理論較為復雜,時間復雜度有所增加。表4 對各類數據均衡算法的優點與局限性進行了細致的總結與歸納。

表3 數字信用反欺詐研究中的數據均衡算法Table 3 Data balance algorithms in anti-fraud research of digital credit

表4 各類數據均衡算法的優點與局限性Table 4 Advantages and limitations of various data balance algorithms

2.1 基于重抽樣角度的數據均衡算法

基于重抽樣技術對數據集進行補充的策略中,最早被提出的算法為隨機過采樣與隨機欠采樣技術。隨機過采樣技術通過對少數類樣本進行簡單隨機的重復抽取,達到平衡數據集的目的,適用于數據集不平衡度較輕的場景,在樣本構成差異過大的數據集中,隨機過采樣方法容易產生過擬合問題。隨機欠采樣技術旨在通過對多數類樣本進行隨機的刪減,縮小樣本量間的差距,但是隨機欠采樣技術很容易將一些重要的多數類樣本刪除。

為了解決隨機重采樣技術的上述缺陷,學者們將重點從樣本點本身轉向了樣本點的局部鄰域。Chawla等學者[25]提出了SMOTE(synthetic minority oversampling technique)算法,將少數類中的每個樣本點均作為一個種子,尋找其相同類別的K-近鄰(K-nearest neighbor,K-NN)樣本,按照一定的比例在近鄰樣本與種子樣本之間生成新樣本,對少數類樣本進行補充。He 等學者[26]進一步提出ADASYN(adaptive synthetic sampling approach for imbalanced learning)方法,分析了每個種子樣本K-鄰域中多數類樣本的分布情況,結合數據不平衡率合成樣本,自適應地將決策邊界轉移到難以學習的樣本。上述算法一經提出便受到了學者們的廣泛接納,但是存在以下兩方面問題:首先SMOTE 與ADASYN 算法將少數類別中的所有樣本均作為種子點生成新樣本,忽略了樣本中異常點的問題,從而導致生成的樣本中存在噪聲節點;其次,沒有考慮到種子節點與K-近鄰節點間多數類樣本的特征分布情況,盲目地生成均衡樣本會加重數據集在特征空間中的重疊區域的復雜度,使該部分樣本更加難以區分[27-28]。

針對上述不足,Batista等學者[29]提出了欠采樣與過采樣技術相結合的方法,從而減少均衡數據時需要補充的欺詐樣本數量。Han等學者[30]對樣本點局部鄰域的分布情況進行更加深入的研究,提出Borderline-SMOTE 方法,將少數類樣本分為安全樣本、危險樣本與噪音樣本,僅使用邊界上的樣本作為種子生成新樣本點,緩解了噪音節點的生成;隨后的Safe Level SMOTE[31]、LN-SMOTE(local neighbourhood extension of SMOTE)[32]兩種技術在Borderline-SMOTE算法基礎上不僅關注種子樣本局部子區域的分布,而且對其近鄰樣本的鄰域進行分析,基于鄰域分布確定樣本合成權重,噪聲樣本點的問題進一步得以遏制,但仍沒有關注均衡樣本對重疊區域造成的影響。直到Napierala 與Stefanowski 兩位學者[33]從數據集的結構特征出發,將少數類樣本劃分為安全樣本、邊界樣本、稀有樣本和異常值四種情況,通過分析各類初始樣本生成的均衡樣本對不平衡分類器的影響,為解決均衡樣本會加重重疊區域復雜度的問題提供了思路。

在最新的研究中,王芳等學者[34]在Borderline-SMOTE 的基礎上提出了鄰域自適應SMOTE 算法(neighborhood adaptive SMOTE algorithm,AdaNSMOTE),通過跟蹤少數類樣本點與其近鄰樣本構成的超矩形區域內的精度變化,自動為每個少數類樣本點確定要合成的少數類樣本數量,使過采樣后的數據集可以更逼近原始少數類樣本的分布。梅大成等學者[35]面對SMOTE算法及其改進算法均比較依賴原始數據集分布的問題,提出了邊界與密度自適應的SMOTE 算法(SMOTE algorithm for feature boundary and density adaptation,BDA-SMOTE),一方面對局部的少數類樣本進行密度調整,通過非線性映射擴大少數類樣本局部密度的差異,減少噪聲樣本的干擾,另一方面將根據特征邊界的特性將數據分為邊界與非邊界樣本,通過設定不同的安全區域擴展數據的原始分布,有效防止邊界混淆與過擬合,但性能提升的背后是模型復雜度的大幅增加,可能會成為其應用于大規模數據時的嚴重阻礙。張忠良等學者[36]將SMOTE算法與Boosting集成學習算法結合起來構建了一種基于高斯過采樣的集成學習算法(GSMOTEBoost),增加基分類器多樣性的同時,提高分類系統的魯棒性。

文獻[35-36]從種子節點的鄰域出發,有意識地關注均衡樣本對近鄰空間內數據分布的影響,生成的均衡樣本更加穩健,但上述研究并不能反映數據集均衡前后全局特征空間內重疊區域的變動情況。如何將重疊度即重疊區域的樣本量在數據集中的占比作為監督指標融入到欺詐識別模型中,做到均衡數據集的同時優化樣本在特征空間中的分布成為學者們的最新研究方向。Omar等學者[37]基于K-近鄰算法定義了用于表征數據集重疊度的新指標Aug-R,并將ADASYN算法與特征選擇技術結合起來提出了ROA算法(reduce overlapping with ADASYN)。ADASYN 算法用于對數據集進行均衡,基于彈性網算法構造損失函數對數據集進行特征選擇,模型中的超參數則以最小化Aug-R進行確定。實驗結果顯示,運用ROA算法均衡后的數據集訓練出的邏輯回歸模型與支持向量機的欺詐識別性能大幅提升,為基于重抽樣角度的信用支付欺詐交易識別模型提供了新研究方向。

2.2 基于生成對抗網絡的數據均衡算法

生成對抗網絡(GAN)[38]是生成式模型最新的、也是目前最為成功的一項技術。模型的構建受到了博弈論中零和博弈思想的啟發,由生成器(generator)與判別器(discriminator)兩個子網絡構成。生成器基于給定的隨機噪聲合成數據,目的是產生和真實樣本相似的偽樣本,來混淆判別器使其無法判別;判別器用來判別輸入的樣本是真實樣本還是偽樣本。在訓練過程中,前者試圖產生更接近真實數據的偽樣本,后者試圖更完美地分辨真實數據與來自生成器的合成數據,兩個子網絡在對抗中進化,進化后再投入到下一輪的對抗訓練中,當生成器學習到真實數據的樣本分布時,模型訓練達到最終的平衡點,生成對抗網絡的流程圖如圖3所示。

圖3 生成對抗網絡流程圖Fig.3 Flow chart of generative adversarial network

由于生成對抗網絡可以模擬真實樣本數據的分布,經過生成器生成的偽樣本可看作從真實樣本的分布中采樣得到的,有效避免了重采樣和局部采樣產生的均衡樣本會增加重疊區域復雜度的問題。

Fiore等學者[39]率先將GAN應用到欺詐交易識別領域,通過擬合欺詐交易樣本的分布模式,生成偽欺詐交易樣本完成對數據集的補充。文章選取了SMOTE 算法作為對比模型,并測試了融入不同數量偽樣本的訓練數據集對欺詐識別模型性能的影響,當生成的偽樣本數量為數據集中原有欺詐樣本數量的兩倍時,模型性能的提升效果最為顯著。

趙海霞等學者同樣將最新的重疊度理論引用到基于GAN的欺詐識別模型構建中,提出了RECGAN(re-sampling method based on CGAN)算法[40],文章運用K-NN算法度量樣本點周圍數據的分布情況,將數據集分為安全樣本、邊界樣本和噪聲樣本,利用正類樣本中邊界樣本所占的比例表示整體數據集的重疊度。隨后用條件生成對抗網絡(conditional generative adversarial network,CGAN)和欠采樣技術對重疊區間的樣本進行均衡,與多個基于重抽樣算法的欺詐識別模型相比,算法的識別性能與魯棒性均得到提升,作為最新的研究思路,該模型未來有很大的提升空間。

3 基于模型層面構建的信用支付欺詐交易識別模型

通過改變分類模型的損失函數或學習策略使模型在訓練時對少數類樣本即欺詐交易投入更多的精力,抵消數據集類別分布不均衡帶來的負面影響是基于模型層面構造欺詐交易識別模型的主要思想。在數字信用交易反欺詐研究中,欺詐交易與正常交易樣本量之間的差距過于懸殊,單從模型層面進行優化容易產生過擬合的問題,因此數據科學家普遍從數據與模型層面同時改進,首先對數據集的類別分布進行調整,隨后運用改進后的欺詐識別模型進行處理,以增強模型的泛化性。其中數據均衡算法及前沿進展已在第2章進行總結,因此本章主要匯總基于模型層面的反欺詐研究成果。

現有信用支付欺詐交易識別模型根據訓練時使用的數據集類型可以分為基于有監督學習算法、無監督異常點檢測技術和半監督學習框架的欺詐交易識別模型,如表5所示。

表5 基于模型層面構建的信用支付欺詐交易識別模型Table 5 Credit payment fraud transaction identification model based on model level

3.1 基于有監督學習算法的欺詐識別模型

基于有監督學習的數字交易欺詐識別技術依賴于已知交易結果的歷史交易數據集,通過提取歷史數據中的欺詐交易與正常交易的行為特征,對新的交易行為進行判斷。模型對標注數據集的準確性要求較高,理論基礎較為成熟。文獻[9]匯總了信用支付欺詐識別領域近10 年內的優秀研究成果,對其中涉及的數據挖掘算法按照出現的頻率進行排序,頻率越高,代表該類方法越受到學者們的關注。本文參考該關注度排序展開論述,對研究方法與研究進展進行補充。

3.1.1 支持向量機

支持向量機(support vector machine,SVM)是一類二分類學習算法,基本模型是定義在特征空間上的間隔最大線性分類器。面對非線性可分的數據集,核函數與軟間隔技術的應用可將輸入樣本從原始空間映射到更高維的特征空間,在新特征空間中構建超球面作為決策邊界完成對數據類別的劃分,使SVM成為實質上的非線性分類器適用于更多的業務場景。

面對維度不斷增加的交易特征,Xu和Liu兩位學者[41]率先將基于高斯核函數優化的SVM 模型用于識別在線信用支付中的欺詐交易,依托核技術解決了原始數據集稀疏性帶來的維度詛咒問題,并給出面對不同數據集時的優化方法。效率提升方面,Mareeswari 和Gunasekaran 兩位學者[42]將基于高斯核函數的混合支持向量機(hybrid support vector machine,HSVM)分別與社區和尖峰檢測技術(spike detection)結合起來構建了一套實時檢測系統識別欺詐行為,解決了現有欺詐識別模型在信用支付申請時的身份檢測環節泛化性能差、響應時間長等問題,但缺少對實驗數據集的詳細描述。Spark是專為大規模數據處理而設計的快速通用的計算引擎,Gyamfi 等學者[43]為緩解交易數據集規模不斷增長對服務器帶來的壓力,將Spark 技術與SVM 相結合,提出了專門處理大規模數據的欺詐識別模型,并在特征提取步驟使用了線性回歸與邏輯回歸技術作為輔助,與后向傳播神經網絡(back propagation network,BPN)相比,在保證性能的同時有效減少了模型訓練所需要的時間。

3.1.2 邏輯回歸模型

邏輯回歸模型(logistic regression,LR)是信貸風控領域中最基礎也最常用的模型,基于特征表現對交易樣本的所屬類別進行預測。公式由條件概率分布P(Y|X)表示,形式為參數化的logistic分布。

其中,x∈Rn為輸入,Y∈{0,1}為輸出,w∈Rn,b∈R 為參數,其中w為權值向量,b為偏置。

邏輯回歸作為經典的分類模型可以在線性分類問題中取得很好的效果,結果具有可解釋性,但在高維大數據集下,識別性能與其他算法相比稍顯不足,需要配合強而有效的數據預處理手段一同應用。

在Omar 等學者[37]的研究中,基于原始有偏數據集訓練得到的邏輯回歸模型無法有效提取欺詐交易的特征,直接導致對欺詐樣本識別結果的精確性嚴重不足,但在以減少重疊樣本復雜度為目標對數據集進行特征篩選與數據均衡后,新數據集下的邏輯回歸模型性能得到顯著提升,同等數據環境下與SVM模型持平。同樣在文獻[44]中,Itoo等學者基于歐洲數字信用支付交易數據集測試分別由邏輯回歸、樸素貝葉斯、K-近鄰算法搭建的三類反欺詐算法性能,文章使用隨機下采樣的方法緩解不均衡數據集對模型的影響,生成了欺詐交易樣本量占比分別為50%、34%、25%三類數據集,實驗顯示,在任一數據集下,邏輯回歸在F1-score、AUC 值等評判準則下均發揮了更好的性能。

3.1.3 神經網絡與深度學習

神經網絡(artificial neural network,ANN)是一類受人腦神經系統工作方式啟發而構造的數學模型,通過大量的人工神經元及神經元之間的聯結進行計算,能夠感知外界信息從而自適應地改變內部結構。在數字信用交易反欺詐研究中,常用來對數據間的復雜關系進行深入挖掘,其網絡結構如圖4[45]所示。

作為反欺詐研究領域的新晉模型,Randhawa 等學者[46]分別在公開數據集與私有業務數據集上對比了包含神經網絡、SVM、LR 在內的12 種Baseline 算法,并基于投票法和Adaboost 技術對分類器進行集成,進一步研究算法間的性能差異。MCC 下的評估結果顯示,在單一分類器的對比中,神經網絡以0.001的差距位于第二;但在集成算法對比中,以ANN為主體的Adaboost-NN算法與神經網絡+樸素貝葉斯的組合算法表現出了最好的識別性能。

為了解決樣本分布不均衡導致神經網絡對欺詐樣本識別精度不足,Ghobadi、Rohani 兩位學者[47]將Meta Cost 算法與ANN 結合構造了代價敏感神經網絡(cost sensitive neural network,CSNN),通過為標記正確的欺詐交易分配負類錯分代價,給予標記錯誤的正常交易與欺詐交易不同程度的正類錯分代價來重構損失函數,有效降低誤判率的同時最小化由誤判為銀行帶來的經濟損失。楊蓮等學者[48]以樣本在反向傳播網絡(backward propagation neural network,BPNN)上的識別結果與真實標簽的偏差作為參考,結合焦點損失(focal loss)函數對神經網絡中的損失函數進行調整,使模型的訓練更加偏向于難以判別的“困難樣本”,而此類“困難樣本”正對應于特征空間中的重疊區域,該思想有效地提升模型對困難樣本的識別能力,改善了欺詐樣本檢測性能。

另一方面,伴隨數據科學的發展與硬件設施的更迭,信息技術的瓶頸逐步從數據獲取與計算轉向如何面對海量多源異構數據進行信息抽取與知識轉換[49]。在此契機下,擁有強大數據抽象化表征能力與端到端學習方式的深度學習技術迅速崛起,基于深度學習的感知認知技術也在金融風險預警中獲得廣泛應用[50]。

在信用支付欺詐交易識別研究中,以循環神經網絡(recurrent neural networks,RNN)為代表的深度序列模型受到了研究者的廣泛關注。RNN被設計用于處理具有序列特征的數據,如時間序列數據、文本序列數據等。通過將當前時刻的數據與上一時刻的網絡狀態一同傳入當前時刻的網絡進行訓練,從而對數據中的時間依賴關系進行建模。但后續研究發現RNN模型在處理長期序列數據時會出現梯度爆炸或梯度消失問題,無法有效學習和利用序列的早期信息,因此進一步提出了長短期記憶模型(long shortterm memory,LSTM)[51]與門控循環單元(gated recurrent unit,GRU)[52]。LSTM 在傳統的RNN 網絡結構上添加了輸入門、遺忘門和輸出門,通過門控結構解決長期依賴問題;GRU 模型在保持相近性能的同時對LSTM進行了簡化,分別引入重置門與更新門輔助模型捕獲序列中的短期與長期依賴關系,LSTM 與GRU 模型的網絡結構分別如圖5、圖6[45]所示。與傳統ANN 和深度卷積神經網絡相比,基于LSTM 與GRU 算法的反欺詐模型誤報率低,準確率與穩健性高,成為反欺詐研究中應用最廣泛的RNN 算法[53-54]。在文獻[55]中,Benchaji 等學者進一步挖掘數據集中蘊含的序列特征,提出融合注意力(Attention)機制的交易序列欺詐識別模型,與以往的研究相比,Attention機制不僅考慮了交易序列中的順序性,也具備識別序列中相對重要交易的能力,從而以更高的準確度預測欺詐交易,在保證準確性的同時,顯著提升了欺詐交易的識別覆蓋率。

圖5 LSTM模型中數據流的圖形化演示Fig.5 Graphical demonstration of data flow in LSTM

圖6 GRU模型中數據流的圖形化演示Fig.6 Graphical demonstration of data flow in GRU

除去被應用于欺詐交易識別模型建模中,強大的抽象表征能力使深度學習在作為集成學習的融合策略時同樣受到廣泛關注。為解決信用支付交易數據集的嚴重不均衡問題,劉穎等學者構建了基于深度集成學習的欺詐檢測算法[56],將SVM與RF串聯形成基分類器,SVM 用于識別訓練集中顯著的正常交易模式與欺詐交易模式,RF則用于對SVM分類錯誤的樣本進行二次學習,緩解SVM 面對極度不均衡數據易產生的分類超平面偏移問題,最終的模型融合階段選擇深度信念網絡(deep belief network,DBN)進行集成,相較于傳統的投票機制,欺詐交易的誤判率顯著降低。Forough 等學者[57]則將LSTM 模型與GRU模型作為基學習器對數據集中的欺詐交易模式進行提取,選擇人工神經網絡作為新的投票機制對結果進行集成,實驗顯示,無論哪種深度序列模型作為基學習器,基于人工神經網絡集成后得到的識別結果均優于投票機制(voting)下得到的識別結果,且基分類器越少性能提升越明顯,對模型的最終成果具有重大貢獻。

最后,伴隨AlphaGo 及其升級版本的橫空出世,強化學習相關概念在業界引起廣泛關注,Bouchti 等學者在文獻[58]中詳細介紹了深度強化學習(deep reinforcement learning,DRL)的理論及其在數字支付環境中進行欺詐檢測與風險管理的潛在應用。文章通過討論有關DRL 的幾個有趣案例,揭示了未來研究中DRL方法的競爭力所在。雖然整篇論文偏向理論化,實證檢驗部分略顯不足,但提供了一種處理欺詐檢測任務的新視角。

3.1.4 K-近鄰算法

K-近鄰(K-NN)算法[59]是一類基于實例的分類與回歸算法,通過在數據集中尋找與待預測交易樣本相似度最高的k條樣本,選取其中類別占比最多的標簽作為待預測交易的預測結果。

Malini 與Pushpa 兩位學者[60]詳細介紹了K-近鄰算法與異常檢測技術的建模思想,從理論的角度論述了算法在欺詐檢測任務中的優勢,但是文章沒有進行實證檢驗,論據稍顯不足。Awoyemi等學者[61]認為欺詐交易識別困難的原因在于交易特征隨時間改變的動態性與數據集的嚴重有偏性,文章將欠采樣與過采樣技術結合起來對數據進行均衡,構造了兩類不同比率的數據集進行對比。隨機過采樣技術使得欺詐樣本的特征更為明顯,但也加重了邏輯回歸的過擬合問題,實驗結果與文獻[44]不同,K-近鄰算法在兩個比率的數據集中均體現出更好的性能。Dighe等學者[62]選取歐洲信用支付交易數據集對文獻[61]的結論進行了驗證,采用相似的混合采樣技術對數據集進行均衡,在多項模型判別準測評估下,K-近鄰算法的識別結果更具有穩健性。

K-近鄰算法的最大優點在于簡單易實施,但這也造成了可擴展性較差,面對特征空間中重疊區域樣本時誤判率高,作為欺詐識別算法需要提前對數據集進行處理與均衡。但是在最新的研究中,由于K-近鄰算法可以度量樣本點領域內的分布情況,被學者們廣泛應用于對數據集重疊度的測度中,是該模型在欺詐識別問題中的應用新方向。

3.1.5 遺傳算法

遺傳算法(genetic algorithm,GA)是參考達爾文生物進化論中的自然選擇學說和遺傳學機理中生物進化過程構建的計算模型,是一種通過模擬自然進化過程搜索最優解的方法。遺傳算法可以直接對結構對象進行操作,無需求導和函數連續性的限定,具有內在的隱式并行性和優秀的全局尋優能力,在確定類別懲罰系數與優化反欺詐模型初始參數方面具有突出貢獻。

?z?elik等學者[63]認為在欺詐識別檢測中應該對透支額度大的信用賬戶給予更多的權重,因為它們被錯分后會帶來更加嚴重的潛在損失,因此提出了具有可變分類錯誤成本的損失函數并運用遺傳算法對各變量對應的參數進行求解,來最小化模型錯分損失,改進后的模型增強了對重點客戶的關注,識別性能提高了超過200%。效率優化方面,Olabode[64]將遺傳算法與反向傳播神經網絡(counter propagation neural network,CPNN)相結合提出了混合CPNN-GA 算法,遺傳算法用來對神經網絡的初始參數進行優化,解決由隨機設定初始參數帶來模型收斂速度慢、精度不足的問題,神經網絡對交易進行分類,實驗結果顯示,改進后的模型訓練速度更快且面對不斷變化的欺詐策略,識別性能更好。Alotaibi等學者[65]將GA與克隆選擇算法(clonal selection algorithm,CLONLG)[66]結合起來以改進CLONLG 算法的克隆選擇機制,呈現出的識別結果錯分率更低且訓練需要的時間更短。

上述研究普遍將遺傳算法作為輔助應用于模型的參數更新與訓練優化過程,但另一方面,遺傳算法通過交叉、變異的方法生成更優子代的思想同樣適用于均衡數據的補充。Benchaji等學者[67]運用K-means算法對少數類樣本進行聚類,得到的每一個樣本簇都具有高度的類內相似性,隨后使用GA算法對每一個簇進行新數據生成,補足少數類樣本的同時加強了欺詐交易的特征表示,減少了噪聲節點的生成,為數據集均衡方法提供了新思路。

3.1.6 決策樹與基于集成算法的樹模型識別算法

分類決策樹(decision tree,DT)是一種描述對實例進行分類的樹形結構,由節點和有向邊構成。節點有內部節點和葉節點兩種類型,其中內部節點表示一個特征或屬性,葉節點表示劃分后的分類結果。決策樹的學習本質是通過訓練集歸納出一組顯式分類規則,使其能夠對實例進行正確的分類。在數字信用反欺詐研究中,其優秀的可解釋性搭配便捷的訓練方式與不俗的識別性能使其在早期數字風控領域得到廣泛應用[68]。

在后續研究中,通過結合多個基學習器以加強模型性能的集成學習思想使決策樹算法在數字反欺詐領域煥發了新的活力。根據基學習器之間的關系,可以分為基于Bagging 思想和基于Boosting 思想的樹識別算法,前者的代表性算法為隨機森林,后者的代表性算法為梯度提升樹系列算法。

隨機森林(random forest,RF)是Breiman[69]提出的一種由多棵決策樹組成的集成學習模型,廣泛應用于包含金融、醫療、電子商務在內的多種分類任務場景,運行速度快、穩健性強[70]。作為集成模型,隨機森林的整體性能取決于其基分類器的類型與訓練效果。Xuan 等[71]在欺詐樣本率為0.27%的真實交易數據集上分別測試了基于隨機樹和C4.5算法的隨機森林算法,結果顯示基于C4.5 算法的隨機森林能夠更好地學習欺詐交易的特征,取得了更好的分類效果。

梯度提升樹系列算法主要包含梯度提升決策樹(gradient boosting decision tree,GBDT)、XGBoost、LightGBM等算法。GBDT算法根據當前模型損失函數的負梯度信息來訓練新加入的弱分類器,并將新訓練完成的弱分類器以累加的形式結合到現有的模型中;XGBoost算法[72]是GBDT算法的進一步工程實現,通過顯式地添加正則項來控制模型的復雜度,有效地防止過擬合問題,并將損失函數進行二階泰勒展開,同時使用一階與二階導數信息進行優化,相較于傳統的GBDT 算法,支持更多類別的基分類器,效率更高;LightGBM 算法[73]是Microsoft 開發的GBDT框架,直方圖算法的結合、單邊梯度采樣思想的應用、帶深度限制的Leaf-wise建樹策略使LightGBM算法具有更快的訓練速度、更低的內存消耗以及更準確的識別能力。

陳榮榮等學者[74]基于歐洲信用支付公開數據集對隨機森林算法、GBDT與XGBoost算法的性能進行對比,數據集事先經過SMOTE算法處理以達到類別均衡,結果顯示,隨機森林與GBDT 對于欺詐交易的識別精度相近,XGBoost算法的性能顯著優于其余兩類集成算法,但模型結構的復雜性使其調參過程更為復雜,時間消耗更久。面對類別不均衡且歷史數據集規模較小的信用評估場景,張濤等學者[75]將XGBoost算法與最小風險貝葉斯決策相結合,提出了基于樣本依賴代價矩陣的SXG-BMR(SMOTE XGboost-Bayes minimum risk)算法,其代價矩陣不僅與交易類別有關,而且與樣本的自身屬性相關聯,代價的表征更加準確,實驗結果顯示,結合樣本依賴代價矩陣的欺詐交易識別模型檢驗效果要整體好于傳統的類別依賴代價矩陣識別模型,在同樣引入樣本代價矩陣的情況下,XGBoost 算法相較于邏輯回歸、隨機森林等分類模型更加準確、穩健。

集成算法與代價損失函數的結合為類別不均衡問題提供了有效的解決方案,但另一方面也加重了數字經濟下不斷攀升的特征維度對樹結構欺詐識別算法訓練效率的影響。陳芮等學者[76]針對上述問題將LightGBM 算法與序貫三支決策算法(sequential three-way decisions,S3WD)相結合,提出了基于GANs-LightGBM的序貫三支異常檢測模型,根據特征重要性由粗到細地搭建多層次多粒度的特征空間并訓練對應的欺詐交易識別模型,持續處理粗特征粒層難以識別的樣本,與傳統的機器學習算法相比,該方法在提高檢測性能的同時具有更低的檢測代價。

3.1.7 隱馬爾可夫模型

隱馬爾可夫模型(hidden Markov model,HMM)是一種雙嵌入隨機過程,是關于時間序列的概率模型。與經典的馬爾可夫模型相比,可以用來擬合更復雜的隨機過程。模型由兩組變量組成,第一組為狀態變量{y1,y2,…,yn},其中yi代表時刻i的系統狀態,通常假定該狀態是隱藏、不可觀測的;第二組是觀測變量{x1,x2,…,xn},表示在時刻i的觀測值。

基于HMM 構建的欺詐識別模型認為大多數用戶在一段時間內會有相對穩定的交易行為,如定期購買相同類型的商品,或與固定對象進行轉賬交易。交易序列隨時間順序排列,與HMM 模型相對應,由兩部分組成,第一部分是可直接在銀行數據庫中觀察的交易金額序列,第二部分是暗示用戶交易習慣的交易行為序列,如圖7所示。

圖7 隱馬爾可夫模型下的交易序列Fig.7 Transaction sequence under hidden Markov model

Khan 等學者[77]構建了仿真交易數據,模擬了持卡者在一定支付周期內每筆支出的消費類別及對應的具體消費金額。文章運用K-means 聚類算法將每筆交易按照消費金額分為低、中、高三類,運用HMM算法識別并提取該消費者的支付特征。OOT(out of time)測試顯示,HMM對未來短期內的欺詐交易有很好的識別效果。Bhusari 等學者[78]參考文獻[77]的思路,做了進一步研究,改進后的模型不再需要獲悉每筆支出的消費類別,并提出了K-means 方法中確定類別k的新方式,改進后的模型降低了欺詐交易的誤報率。Wang等學者[79]在將量化后每筆交易的消費金額作為觀測狀態的基礎上,融入每筆交易前后固定時間段內的交易頻率,因此觀測狀態從{高消費,中消費,低消費}變成{高消費,中消費,低消費}×{高頻交易,中頻交易,低頻交易}兩兩結合的九種觀測狀態。實驗結果表示,對于低頻交易與中頻交易,HMM 算法有較好的識別效果,但高頻交易增加了用戶交易習慣的提取難度,HMM模型的表現還有待提升。

3.1.8 基于社會關系網絡的欺詐交易識別模型

上述欺詐交易識別模型幾乎全部聚焦于交易記錄本身,利用從歷史交易數據集中學習到的特征預測一筆新傳入的交易申請為欺詐交易的可能性,完成對欺詐交易的識別與防范。但面對以利用虛假身份信息惡意申請數字支付工具為代表的內部欺詐模式,由于申請者為新用戶,缺少歷史交易數據,無法進行有效識別,需要從其他的角度進行切入,在申請階段完成對此類用戶的識別。

社會網絡(social network)是指以各種連接或相互作用的模式而存在的一組人或群體,例如人與人之間的朋友關系網絡、在線社交關系網絡、用戶間的移動通信網絡都屬于社會關系網絡。社會關系網絡不是一個關于個體的簡單集合,也不是個體間相互連接關系的總和,而是包含了個體和個體間關系的網絡[80],重點關注人們之間的互動和聯系,并且假定這種聯系會影響人們后續的社會行為。Yang等學者[81]認為用戶的移動通信記錄可以很好地代表其社交聯系,因此作者使用由1 100萬用戶和超過15億呼叫日志構成的數據集建立了移動通信網絡,在用戶已有個人信息的基礎上增加了從網絡層面提取的局部結構特征指標,運用雙任務因子圖對新用戶是正常用戶還是潛在欺詐用戶進行預測,有效提高了識別結果的精確率與全面性。

3.1.9 對比與分析

目前,基于有監督學習算法的欺詐交易識別研究最為深入,在實際應用中也比基于其他兩種算法的欺詐識別模型更為成熟。本小節對上述欺詐交易識別模型背后的有監督學習算法進行橫向對比,表6選取部分算法在歐洲數字信用支付公開數據集進行復現,對當下各類基于不同視角改進的前沿算法性能進行直觀展示。表7 進一步總結了各類算法的優缺點及訓練數據集的形式,便于研究者在面對特定任務場景中選取最適合的數據分析技術。

表6 基于歐洲數字信用交易數據集的性能對比Table 6 Performance comparison based on European digital credit transaction dataset

表7 基于有監督學習算法的欺詐交易識別模型對比Table 7 Comparison of fraud transaction identification models based on supervised learning algorithm

3.2 基于無監督異常點檢測技術的欺詐識別模型

基于無監督異常點檢測技術的欺詐識別模型不依賴于歷史交易的標簽,該類方法旨在通過表征交易的數據分布,來檢測出與正常交易行為特征不符的可疑交易。

3.2.1 基于無標簽數據集的欺詐識別模型

從理論角度來看,無監督異常點檢測技術可以劃分為基于距離(K-means 算法、近鄰算法等)、基于密度(DBSCAN(density-based spatial clustering of applications with noise)算法、LOF(local outlier factor)算法等)與基于模型的三類算法。但不斷擴大的交易量與特征數量使得前兩類算法在訓練時的計算量過于龐大,無法滿足運算開銷的要求[82],因此基于模型的無監督異常點檢測技術成為構建信用支付欺詐識別模型的主要理論支撐。

Rai等學者[83]在歐洲信用支付交易數據集上測試了包含基于神經網絡、自動編碼器、孤立森林在內的五類無監督欺詐識別模型,其中神經網絡呈現的檢測性能最好,整體數據集分類準確率達到99.7%,對欺詐交易的識別結果也呈現出較高的準確性與全面性,但上述模型僅適用于缺失值較少的數據環境,當交易特征呈現出高度的稀疏性時,包含神經網絡、自編碼器在內的上述無監督學習算法便難以有效識別交易間的差異。Zheng 等學者[84]設計了一個具有多層非線性函數的無監督深度學習模型來捕獲數據集內高維非線性的欺詐結構信息,并結合聯合嵌入技術學習雙向網絡中節點的潛在表示,有效地將不同類型的節點共同嵌入到同一潛在空間中,即使面對稀疏性較高的交易數據集依舊可識別出絕大部分潛在欺詐交易。

基于現有的研究進展,無監督欺詐識別模型已經具備挖掘部分潛在欺詐交易的能力,但作為決策模型加入到欺詐交易識別工作中還有缺陷,這是由模型背后的理論基礎導致的。對于重疊區域的大量樣本信息,高度的特征相似性大幅限制了無監督欺詐識別模型的分類能力。Pumsirirat等學者[85]曾希望利用無監督學習算法識別有監督學習算法無法處理的新型欺詐交易模式來提高檢驗性能,提出了基于自動編碼器(auto-encoder,AE)和受限玻爾茲曼機(restricted Boltzmann machine,RBM)的深度識別算法,通過重建正常交易樣本來發現數據集中異常的交易模式,但實證結果顯示,召回率增加的代價是錯判了大量正常交易,最終識別的精度不足5%;文獻[83]中除了神經網絡之外,其他模型均出現了嚴重的過擬合或欠擬合問題;文獻[5]基于公開數據集對常用的有監督與無監督學習算法進行了匯總與對比,實驗結果顯示,無監督學習算法雖然避免了分布假設問題與前期數據標注的困難,但在相同的召回率下會將更多的正常交易錯判為欺詐交易,因此通常作為數據集標注不足時的探索性分析使用。為了解決上述問題,學者們將目光聚焦到了一種特殊的無監督學習算法——單分類欺詐識別模型。

3.2.2 基于單類別標簽數據的欺詐識別模型

基于單類別標簽數據集的欺詐交易識別模型又稱為基于單分類技術(one class classification,OCC)的欺詐交易識別模型。與傳統的無監督學習算法不同,此類算法需要事先了解數據集中的標注情況;與有監督學習算法不同,算法僅通過對單一類別樣本的學習便可將該類樣本與數據集中的其他類別樣本進行區分,因此是一類特殊的無監督異常檢測算法,適用于數據集分布嚴重失衡及其他類樣本標注可信度不足的情況[86]。在欺詐交易識別任務中,單類別標簽數據加強了模型對該類樣本特征的學習能力,同時緩解了有監督欺詐識別模型傾向于將歷史數據集中未出現過的欺詐交易模式劃分為正常交易的問題[83]。

Jeragh、AlSulaimi兩位學者[87]針對交易數據集中欺詐樣本少、重疊區域樣本復雜等問題,將數據集中的欺詐樣本單獨提取出來,運用自編碼器來學習欺詐交易特征的潛在表示,并將訓練樣本通過自編碼器后得到的均方誤差作為輸入放入單分類支持向量機(one-class SVM,OSVM)中尋找分類超球面,與僅使用自編碼器、OSVM 的單一模型和將潛在表示作為輸入結合到OSVM的模型[88]相比,模型對欺詐交易識別的覆蓋率得到顯著提高。

Zheng 等學者[89]提出了改進的單類生成對抗網絡(one class GAN,OCGAN)模型,僅需要使用正常交易的樣本信息作為訓練數據。文章使用LSTMAutoencoder 提取正常用戶交易的特征表示,隨后使用互補生成對抗網絡(complementary GAN)反向學習欺詐交易的分布表示,訓練完成后的鑒別器即為最終的判別模型。反欺詐測試中,改進后OCGAN的性能超過了現有的單類別分類算法,檢驗效果與最新的有監督學習算法Multi-source LSTM相媲美。

3.3 基于半監督學習框架的欺詐識別模型

基于有監督學習的數據挖掘算法在數字欺詐交易識別任務中已經獲得了廣泛應用,但模型的訓練依賴于大量有標注的歷史數據集,對于一些新開展的在線支付業務,該需求無法滿足。同時,由于數字交易自身的業務特點,交易的發生與對應交易類型即標注的確定之間存在時間差,期間將產生大量的無標注數據。這部分數據無法被基于有監督學習算法的欺詐交易識別模型使用,造成數據浪費。無監督學習技術放寬了對訓練數據集的約束,但由于缺少確定性的交易標簽的監督,模型的識別性能無法直接應用于決策。因此有學者提出了基于半監督學習框架的欺詐識別模型。

同時使用有標注數據和無標注數據訓練模型是半監督學習算法的優勢,目前研究理論已經較為成熟。Lebichot 等學者[90]基于時間窗口模擬了一個包含三類業務狀態的數據場景,將測試算法當天的交易記錄作為待預測的測試集,測試算法日前22天—前7天的交易記錄設定為交易類型已確認的有標簽數據集,測試算法日前7天內發生的交易記錄標記為未出表現期的無標簽數據集,文章使用融合半監督框架的APATE 模型作為分類器。經過測試,相較于僅使用有標簽數據集的APATE 模型,改進后的算法在測試集上的識別精度更高。

除去可以有效利用數據信息、增加數據價值,半監督學習在訓練中標記的欺詐交易樣本也成為應對數據集類別不均衡的重要手段。Salazar 等學者[91]與大型金融公司合作,在其提供的私有數據集上進一步對比了半監督學習在不同欺詐交易樣本率的數據集上模型的表現差異。欺詐識別結果顯示,欺詐樣本數量占比越少即數據集構成不平衡度越高,基于半監督學習框架的欺詐交易識別模型提升的效果越好。Xiao等學者進一步將成本敏感學習算法、數據分組處理方法(group method of data handling,GMDH)融合進半監督學習算法框架,提出了一項基于GMDH的成本敏感半監督學習算法(GMDH-based cost-sensitive semi-supervised selective ensemble,GCSSE)[92],與同樣作為半監督學習框架的Tri-training、Semi-Bagging、CoBag 等算法相比,GCSSE 算法發揮了最好的識別性能。在最新的研究成果中,半監督學習框架也開始出現在數據均衡技術中,Charitou 等學者[93]將半監督學習框架、稀疏編碼器(sparse autoencoder)與GAN相結合提出稀疏自動半監督生成對抗網絡(semi supervised GAN,SSGAN),在相同的分類器下,補充的均衡樣本具有更好的增益。

3.4 公開數據集匯總

公開數據集的存在能夠在一定程度上緩解研究者數據收集工作的壓力,將更多的精力投入到欺詐識別研究中。表8 對近年來學者在論文研究中應用頻率較高的公開數據集進行羅列,并對數據集中的樣本量與特征情況進行描述,當前除UCSD-FICO 數據集停止官方維護,其他數據集均開源在官方網站中供研究者使用。

4 需求視角下數字交易反欺詐研究新方向

通過上述文獻的匯總,以信用支付為代表的在線交易欺詐識別模型在近年來已經取得長足的進展,但依舊還有部分難題沒有攻克。本章將在已有成果的基礎上,從業務需求的角度對目前學者們主要研究的方向進行介紹。

4.1 欺詐識別模型的泛化性

不同國家、不同人群之間欺詐行為往往存在著較高的異質性,意味著基于特定地區數據集訓練出的欺詐識別模型難以直接應用于其他環境。考慮到部分地區的數據不足以及大數據驅動下模型訓練的高昂成本,將訓練好的模型合理地遷移學習到其他環境中對在線交易的欺詐識別問題具有重要意義。在最新的研究中,Lebichot等學者[94]針對該問題展示并對比了15 種遷移學習技術,基于真實的電子商務交易數據,將為歐洲國家開發的欺詐檢測模型遷移至其他國家中,并對不同遷移方法下的實證結果進行了比較。研究發現,現有的遷移學習方法都過于依賴目標國家標注樣本的數量,文章將自監督與半監督算法的思想相結合,擺脫對海量標記訓練樣本的依賴性。

除遷移學習之外,提出生成對抗網絡的谷歌Goodfellow 團隊給出了條件更為寬松的解決方案——對抗學習技術[95]。雖然深度神經網絡擁有強大的學習能力,但面對被故意添加細微噪聲干擾所形成的對抗樣本極為脆弱,通過對噪聲進行精心設計,攻擊者可以使神經網絡模型喪失原有的功能,面對難以察覺其改動的輸入樣本給出具有高置信度的特定輸出。Elsayed、Goodfellow等學者[95]利用深度學習面對對抗性攻擊的薄弱性,通過學習融合目標域數據的通用擾動以及任務之間映射的轉換函數使得源域中的模型具備執行目標域任務的能力。由于對抗學習對深度神經網絡輸入施加的加法偏移足以將網絡重新用于新任務,訓練中無需對源域模型進行微調,理論上比遷移學習效率更高。Chen等學者率先利用對抗學習的思路提出了用于欺詐識別的預訓練對抗重編程方法(adversarially reprograms an ImageNet classification neural network for fraud detection task,AdvRFD)[96],選擇ImageNet 圖像分類數據集的高性能預訓練網絡作為源模型,將交易樣本特征鑲嵌到圖片特征變動較大的高頻區域以構建新的圖像數據,并在新的數據集上學習通用擾動項與轉換函數,實驗結果表明,相較于從頭訓練的DenseNet-161 網絡,AdvRFD-DenseNet-161 不僅訓練時間短,對欺詐交易識別的精度也優于DenseNet-161 網絡,為對抗學習技術在數字交易欺詐識別領域提供了全新方向。

4.2 欺詐識別模型的可解釋性

隨著模型復雜性的增加,以深度學習算法為代表的大部分數據挖掘模型均為黑箱模型,無法解釋每個特征如何對最終的結果產生影響。而在信用支付欺詐識別業務中,研究者不僅希望識別出異常,還需要了解決策的制定依據,以便于及時更新風險策略。因此,提高模型的可解釋性是領域內學者關注的重要研究方向。

在目前研究中,使模型具有可解釋性的通用思路是設計一個代理模型[97],在局部數據或全局數據集上對模型進行代理,獲得對應樣本上的解釋。其中局部代理較為成熟的方法是Ribeiro 等學者提出的LIME(local interpretable model-agnostic explanations)模型[98],首先對樣本輸入添加輕微擾動構建新數據集,再基于擾動后數據集訓練可解釋模型進行局部建模來獲取解釋;全局代理則是使用決策樹、規則集、教學式方法這種天然易于解釋的模型進行代理,以對決策結果進行解釋。另外一種思路則是利用深度學習模型的一些自身性質對輸出做出解釋,如注意力機制(attention)、分層相關性傳播技術[99]等。

文獻[100]中,Wu、Wang 兩位學者針對深度神經網絡作為黑箱模型無法為結果提供可解釋性建議的缺點,創新性地將基于LIME的解釋性模塊融入識別模型中,該解釋模塊由三個白盒解釋器構成,分別對應解釋模型結構中自編碼器、判別器與整個欺詐檢測模型三部分。數據均衡方面,作者基于生成對抗網絡提出了改進的單類異常檢測模型,將自編碼器作為模型中的生成器緩解生成對抗網絡在生成少數類樣本偽數據時不夠穩健的問題,解釋性模塊的加入為特定樣本每個特征如何對最終模型輸出做出影響提供了清晰視角。董路安、葉鑫兩位學者則針對傳統教學式解釋方法中準確率不足、評價指標測度不夠全面兩個問題進行改進,選擇決策樹作為代理模型提出了基于改進教學式方法的信用風險評價模型[101],僅將黑盒模型分類正確且可信度較高的樣本用作訓練可解釋模型的訓練樣本,并設計了全新的剪枝方法維護可解釋模型的準確性、可解釋性以及與黑盒模型的一致性,實驗結果顯示,改進后的教學式方法在大幅提高可解釋性能的同時能夠準確識別原黑盒模型中93%的結果。

4.3 面對新型欺詐交易模式的敏感性

有監督學習算法下的欺詐交易識別模型是以交易中的欺詐模式能夠從歷史數據中識別并提取這一假設構造的,因此,面對歷史數據未涵蓋的新型欺詐模式時,欺詐識別這項任務就變得具有挑戰性。不依賴于現有標注的無監督學習技術雖然可以幫助欺詐檢測系統發現異常,但由于缺少確定性的交易標簽的監督,該類算法對特征空間中的重疊樣本無法取得很好的識別效果。最新的研究中,有學者聚焦于這兩種模型各自的優勢,將兩種技術結合以達到同時識別歷史、新興欺詐模式的需求。Carcillo 等學者[102]受到Micenková等學者在文獻[103]提到的“bestof-both-worlds”思想的啟發,率先將該準則應用到數字欺詐交易識別中,分別從整體數據集、同一用戶歷史交易數據集兩種視角出發,計算交易樣本在不同粒度下的異常值分數,并將其作為新特征加入到有監督模型訓練中。異常分數越高,代表著該樣本的交易特征在當前環境中與其他樣本差異越大。改進后的模型在AUPRC 評判準測下的綜合性能有所提升,但是基于TopN Precision 測度的頭部風險識別能力沒有顯現顯著差異。文章展示、對比了多個方法與粒度下的異常值分數對現有模型的優化效果,對解決目前有監督學習模型無法檢測新型欺詐交易模式、無監督學習模型精度不足的難題提供了新的思路,未來還有很大的研究空間。

5 總結與展望

近年來數據挖掘技術的發展,硬件設備的更迭,數字支付方式盛行帶來的交易記錄激增為欺詐交易識別研究奠定了堅實的基礎。本文聚焦這一領域,首先介紹了信用支付欺詐交易識別問題的相關概念、研究難點及評判標準,隨后根據構建模型的理論基礎,從數據均衡算法與模型優化策略兩方面分別對欺詐交易識別模型進行了詳細闡述,重點介紹了各類欺詐交易識別模型的理論基礎、適用場景及前沿進展,并結合業務場景對同類算法進行對比與總結。最后,文章結合現有的研究成果,從需求的角度出發對眼下最新的研究方向進行論述。

從目前的研究成果來看,現有欺詐交易識別模型已經可以準確地抽取歷史數據集中的欺詐交易模式,結合用戶的個人信息、行為模式對新發生的交易申請進行準確推斷。對于部分沒有或標注數據集不足的新型業務,也有相應的無監督和半監督欺詐識別算法作為輔助應用在決策過程中,整體研究進展順利、未來可期。但在蓬勃發展的數字經濟時代,欺詐交易識別模型作為保護用戶財產的最后一道“守護卡”,尚不能駐足于此,本章基于已有的研究成果和不足,結合在線欺詐交易識別任務在新時代暴露的新需求,總結了以下未來最值得關注的問題和研究方向。

5.1 打破數據孤島,及時互聯互通

從數據分析的角度來說,信息的來源越豐富,對客戶的刻畫越細膩,分析的結果就越準確。數字支付方式的普及使得銀行、第三方支付平臺手中快速累積了巨量的交易數據,但交易信息的敏感性、用戶身份信息的私密性成為數據共享時的難題,大量的多源異構數據無法相互傳遞,造成了信息浪費。聯邦學習(federated learning)[104]是谷歌率先提出用于解決“數據孤島問題”的新方案,能夠使各終端在不泄露隱私數據的條件下實現協同訓練,目前已有研究[105]將其與決策樹算法相結合用于反欺詐中,實現了聯邦學習的初步應用,這種新型的人工智能技術有望成為未來分布式學習和企業間聯合建模的曙光。

另外,“數據孤島”現象不僅存在于企業與企業中,還存在于企業與學者中。目前的公開數據集稀少,學者們缺少將理論快速進行驗證的通道,拖慢了反欺詐研究的進程。處理好“數據孤島”問題勢在必行。

5.2 聚焦重疊樣本,關注主要矛盾

從技術角度看,映射在特征空間中的重疊區域樣本具有高度的特征相似性,難以被模型準確捕捉與識別;從業務上看,重疊樣本代表著當前數字金融環境中隱匿性最強的欺詐行為,是欺詐損失的主要來源。因此,增強算法對重疊樣本的分類精度是研究者在迭代優化模型時的主要目標,也是未來數字信用反欺詐研究的重要方向。在最新的研究成果中,文獻[34-35]從定性的角度對欺詐交易樣本的鄰域分布進行深入挖掘,避免生成噪聲節點的同時優化均衡樣本的穩健性;文獻[37,40]從特征空間出發量化數據集均衡前后重疊區域的變動情況,并將樣本重疊系數融入欺詐識別模型的損失函數中,加強對該區域樣本識別能力;文獻[48,75]為各交易樣本添加樣本粒度下的錯分代價,使模型在訓練中能夠主動關注難以識別的重疊樣本。上述文章打開了聚焦重疊樣本的新思路,但性能提升的背后是模型參數量與復雜度的大幅提升。目前針對重疊樣本的優化工作正在如火如荼地進行,同時也是未來數字信用交易反欺詐研究的重要方向。

5.3 提升模型的解釋能力,輔助智能決策

面對海量多源的高維數字信用交易數據,以Lgb、深度學習為代表的欺詐交易識別模型參數量與復雜度不斷增加,精度提升的背后是可解釋性能的大幅下降,研究者難以解釋每個特征如何對最終的決策產生影響。在數字信用反欺詐研究中,銀行或第三方支付機構需要的不僅僅是模型在測試集上的準確率,更需要了解模型從歷史交易數據集中學習到的風險點或具體的欺詐行為模式,進而有針對性地進行策略調整,加強風險防范,在根本上杜絕欺詐損失的發生。回顧現有研究成果,主要的突破是代理模型的運用[97-101],通過添加外部的可解釋器為當前欺詐識別模型的決策提供局部或全局解釋。目前仍存在以下兩方面不足:代理模型無法完全替代決策模型,兩者間存在信息損失;決策模型自身的可解釋性沒有得到優化,依舊不具備相應的可解釋性能。在未來的研究中,如何提高模型的可解釋能力并用到決策過程值得進一步研究。

5.4 善用數據資源,防范新型欺詐交易

運用數據挖掘或深度學習算法提取歷史數據集中的欺詐行為特征,進而對新發生的交易展開預測是當前數字信用交易反欺詐研究的主要思路。但實際業務場景中,從欺詐交易發生到相關案例庫形成之間存在間隔,時間上的滯后性使欺詐交易識別模型面對歷史數據未涵蓋的新型欺詐模式時,無法對其進行正確識別。目前,有關新型欺詐交易的防范還處于理論探索階段,如何利用手中海量、多源的交易信息在學習已有欺詐模式的同時加強對新型欺詐模式的敏感度是未來亟需攻克的問題。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 青青草原偷拍视频| 亚洲高清无在码在线无弹窗| www.日韩三级| 国产在线小视频| 中文字幕乱码中文乱码51精品| 国产在线啪| 久久一日本道色综合久久| 成人午夜免费观看| 国产精品女主播| 呦视频在线一区二区三区| 日韩欧美中文字幕一本| 欧美精品在线视频观看| 四虎影视永久在线精品| 免费在线观看av| 无码有码中文字幕| 亚洲乱伦视频| www中文字幕在线观看| 白浆视频在线观看| 欧美日韩在线亚洲国产人| 久久综合干| 日本在线视频免费| 欧美97色| 欧美日韩高清在线| 91精品免费高清在线| 国产在线日本| 成人福利视频网| a色毛片免费视频| 伊人久久精品无码麻豆精品| 在线国产毛片| 日韩在线成年视频人网站观看| 亚洲无线国产观看| 国产高清国内精品福利| 2048国产精品原创综合在线| 狠狠色婷婷丁香综合久久韩国| 中文字幕无线码一区| 亚洲婷婷在线视频| 99精品热视频这里只有精品7| 亚洲一区波多野结衣二区三区| 美女被操91视频| 91小视频在线播放| 国产在线视频自拍| 国产二级毛片| 免费无码AV片在线观看中文| 免费不卡在线观看av| 亚洲精品在线观看91| 亚洲成人一区在线| 国产一区三区二区中文在线| 免费无码在线观看| 久久免费精品琪琪| 在线欧美a| 国产亚洲精品在天天在线麻豆 | a在线观看免费| 国产幂在线无码精品| 欧美一区国产| 广东一级毛片| 亚洲精品卡2卡3卡4卡5卡区| 婷五月综合| 日韩二区三区无| 亚洲 欧美 中文 AⅤ在线视频| 亚洲女同一区二区| 在线观看国产黄色| 国产高清精品在线91| 制服无码网站| 婷婷中文在线| 丁香综合在线| 日本亚洲国产一区二区三区| 一区二区理伦视频| 青青青草国产| 国产亚洲欧美在线中文bt天堂| 国产亚洲成AⅤ人片在线观看| 亚洲精品无码AV电影在线播放| 中文成人无码国产亚洲| 欧美午夜网| 国产男女免费完整版视频| 国产伦片中文免费观看| 中文字幕伦视频| 亚洲欧美一区在线| 一本大道东京热无码av| 国产精品美人久久久久久AV| 欧美一区二区三区欧美日韩亚洲| 国产精品手机视频| 色综合婷婷|