崔紀鵬 丁雯雯
(1.同濟大學電子與信息工程學院,上海 201804;2.中國農業銀行商河縣支行,山東 濟南 251600)
在線支付在給用戶帶來方便的同時,也面臨著嚴峻的安全挑戰。交易欺詐是在線金融支付系統面臨的主要欺詐手段[1],它不但帶來了巨額的經濟損失,更嚴重影響了用戶的使用體驗。
為了應對交易欺詐,常用的技術手段包括欺詐預防和欺詐檢測。不同于欺詐預防,欺詐檢測通過對運行系統的實時監控,能夠隨時發現系統中正在發生的欺詐行為,及時向系統管理員報告并做出有效的止損反應。因此,欺詐檢測是金融反欺詐的主要技術手段。
本文從學習方法類型和行為類型的角度出發,回顧金融欺詐檢測的主要方法。
有監督學習模型要求數據必須有標簽,它根據數據實例的特征,將其劃分成不同的類別,在保證相同類別內數據實例的相似性的同時,最大化不同類別數據實例的區分性。在金融交易欺詐檢測中,傳統的有監督學習模型包括邏輯回歸、支持向量機和人工神經網絡等分類方法。
近年來,深度學習也越來越多地應用到欺詐檢測中。相對于傳統的分類方法,深度學習由于其強大的表征學習能力;常用的有監督深度學習模型包括自編碼器、卷積神經網絡和循環神經網絡等。
有監督學習模型不依賴于具體的個體,因此,它們屬于基于群體行為的異常檢測方法。
不同于有監督學習模型,無監督學習模型不要求數據有標簽,它的主要目的是挖掘數據背后蘊藏的模式或規律。基于無監督學習的金融交易欺詐檢測,其背后的邏輯假設是,欺詐樣本相對于合法樣本只占數據總量的很小一部分比例。
在基于無監督學習模型的欺詐檢測方法中,聚類算法是最普通的一種方法,比如K-均值算法。通過聚類,可以將合法交易和非法交易分成不同的類簇,以此來實現金融交易欺詐檢測。人工神經網絡不僅能夠作為有監督學習模型用于欺詐檢測,在基于無監督學習模型的欺詐檢測中也有應用,其中最有效的是自組織映射網絡。深度學習受益于其逐層抽象化的特征學習機制,近年來也被作為無監督學習模型應用于欺詐檢測中。
由于模型訓練所需要的樣本量較大,基于非監督學習模型的欺詐檢測方法同樣不依賴于具體的個體,因此,也屬于一種基于群體行為的異常檢測方法。
在基于個體行為建模的金融交易欺詐檢測中,現有工作都是以用戶賬號作為個體、并以其對應的交易記錄作為行為數據進行個體行為建模的,按照不同的個體對交易數據進行聚合,并利用統計方法估計交易屬性的分布。根據所選交易屬性的不同,可以定義個體的局部畫像、全局畫像和即時畫像等。常用于構建個體行為模型的屬性字段包括:交易金額、交易金額走勢、交易日期類型、交易時間、交易頻率、IP地址和前一筆交易狀態等。
為了利用賬號之間的相似性,可以首先對賬號按照相似性進行分組,并將同組內賬號的歷史交易數據作為個體行為數據構建行為模型。常用的方法包括基于K-均值聚類賬號分組和基于滑動時間窗口的交易聚合。
現有的解決方法多是直接過濾掉歷史交易記錄較少的個體,這種方式極大限制了檢測方法的實用性,會導致嚴重的冷啟動問題。與此同時,交易通常描述為多個屬性字段構成的元組,這些字段不但數據類型不同,而且量綱也不一致,很難進行統一有效地處理,這給欺詐檢測的交易量化帶來困難。另外,標簽分布的不均衡性,會導致傳統的分類模型偏向于多數樣本所在的類,甚至會將少數類的樣本視作噪聲數據而忽略掉,嚴重影響了欺詐檢測的性能。這些都屬于交易數據自身固有的特點,它們會導致欺詐檢測系統整體的不可靠性。
在實際的在線金融支付系統中,交易生成的速度是非常快的,這對交易欺詐檢測系統提出極高的性能要求。現有方法只針對模型的整體性能,無法做到對局部有效性能的調優。
模型層面的主要問題是數據標簽的可信性問題。在數據歸集過程中,由于采集處理或者記錄錯誤等原因,可能會導致交易的標簽信息不可信。如何利用不可信的標簽數據,構建可信的欺詐檢測模型,是構建金融欺詐檢測系統需要解決的重要問題。現有的方法缺乏對交易標簽的可信性度量手段,存在模型和預測結果的可信性問題。
具體方法是,基于金融交易的描述,將欺詐檢測實例映射為推薦系統實例:將交易個體映射為推薦系統中的用戶,原型交易映射為推薦系統中的物品,交易標簽映射為推薦系統中的評分。通過問題轉化,用戶對物品的評分信息就能夠反應原始交易對應的欺詐信息。在設計推薦算法時,采用還原評分排序的方式,能夠最大程度區分合法交易行為和欺詐交易行為,有效解決標簽分布不均衡問題。通過解決推薦系統問題,除了利用協同過濾思想挖掘相似個體的共性信息之外,還能夠通過交易屬性嵌入方法(Embedding),實現交易屬性值的向量化,從而間接解決交易屬性的異構問題。
傳統方法默認將用戶作為個體,這樣很容易導致新用戶出現帶來的冷啟動問題。不難看出,用戶集實質上對應著交易數據集的一個劃分,因此,可以將個體的概念由用戶集拓展為全部上下文屬性集。
交易的上下文屬性,是相對于交易的行為屬性而言的,用于描述交易發生的上下文環境的,比如交易對應的用戶、商戶和發卡地等信息。通過拓展交易個體的概念,交易可以表示為它的多上下文個體形式,τ=〈{i,m,p},ρ〉。其中,{i,m,p}表示交易對應的個體集合,并且i表示用戶個體,m表示商戶個體,p表示地點個體,ρ表示原型交易,是描述交易行為的屬性值的組合。
提升模型有效性的途徑有兩種:一是構建更具表達能力的行為個體,二是構建更有效的欺詐性打分函數。
在交易多上下文描述的基礎上,多粒度行為個體定義為多上下文個體的笛卡爾積形式,即κ=〈i,m,p〉。顯然,相對于多上下文行為個體,它具有更強的表達能力。
多粒度行為個體對應的欺詐性打分函數可以表示為fκ(ρ)。為了得到更有效的欺詐性打分函數,借鑒生成對抗網絡[2]的思想,在解決推薦系統問題的過程中,采取添加邊界分類約束的方式,實現對訓練過程的啟發式引導。這些依賴于具體上下文的邊界分類器,能夠充分利用模型當前模型參數對交易標簽的判別信息,實時判斷和指導模型訓練向著更加有效的方向進行。
一筆交易發生的實質是個體和原型交易的共現,這種共現信息包括兩個方面:一是共現的頻次信息,二是共現的標簽信息。
顯然,頻次信息在某種程度上,可以看作是標簽信息的可信性度量:在給定標簽不變的前提下,個體和原型交易共現的頻率越高,該標簽的可信度就越大。在建模標簽信息的同時,加入共現頻次的影響,有助于提升模型整體的可信性。
一個可行的實現方法是在解決推薦系統問題時,構建組合評分和排序的可信推薦算法。分別構建基于排序推薦的目標函數和基于評分推薦的目標函數,進而以指數函數的方式進行組合。其中,評分信息的還原程度作為指數部分,用作對排序信息還原程度的可信性度量。