


研究背景
數據的概念及其對反洗錢監測的意義
近年來,隨著經濟全球化的深入和信息技術的飛速發展,金融犯罪形勢呈現出日益復雜化、智能化和線上化的趨勢。這一變化對現有反洗錢監測體系提出了巨大挑戰:傳統的“面對面”金融交互模式逐步轉變為“屏對屏”的線上服務模式,使得犯罪分子利用身份盜用和數字化手段從事非法金融活動的門檻大幅降低。同時,金融交易網絡的全球化趨勢進一步增加了資金流動的隱蔽性和復雜性,對反洗錢資金監測提出了挑戰。
在此背景下,序列數據作為一種能夠反映客戶風險特征的重要信息源,正逐漸成為提升反洗錢監測能力的關鍵手段。部分金融機構已經開始探索將序列分析引入反欺詐場景,例如,通過對客戶交易頻率、操作、登錄等數據的動態分析,有效識別欺詐模式,顯著降低欺詐風險和資金損失。與此同時,很多境內金融機構的反洗錢監測分析對象仍局限在“資金交易”層面,向金融情報機構提交的報告名稱也是“可疑交易報告(Suspicious Transaction Report, STR)”,而公認反洗錢師協會ACAMS指出,在部分司法管轄區,金融機構上報內涵更廣的“可疑活動報告(Suspicious Activity Report, SAR)”,即在客戶的資金交易之外,也會將客戶交易之外的可疑活動納入反洗錢監測視線。從國內外研究和監測實踐來看,客戶非金融交易的活動往往也蘊含著洗錢風險,通過對序列數據的分析,能夠更加精準地揭示潛在的洗錢。隨著金融機構業務和渠道的創新,客戶數據采集的范圍和頻率隨之提升,客戶數據極大豐富,為金融機構開展監測創造了可能。
當前反洗錢監測工具的局限性
雖然數據的引入為反洗錢監測帶來了新的突破,但在實際應用中依然面臨諸多挑戰。首先,數據通常以非結構化的形式存在,包括客戶在不同渠道的操作日志、訪問記錄等,數據整合難度極高;其次,數據量龐大且結構復雜,給傳統模型的分析能力帶來嚴峻考驗;最后,現有的反洗錢監測模型工具在應對新型金融犯罪時往往會表現出一定的滯后性和局限性。
根據FATF反洗錢數字化轉型的專項研究及相關調研,當前境內外金融機構反洗錢模型的技術發展路線如表1所示。模型建設初期往往采用傳統的專家規則,此類模型高度依賴專家經驗和知識,通常通過人工設置特征來識別風險。然而,隨著犯罪手法的不斷變化,規則模型難以及時適應新的洗錢模式,誤報率高且缺乏靈活性。近年來,機器學習的引入為反洗錢監測提供了新的可能性,使監測過程更加智能化,但傳統機器學習模型仍存在適應性差的缺點,且無法勝任海量非結構化數據的分析任務。上述局限性導致當前的反洗錢監測工具難以勝任數據分析的任務,同時也無法全面捕捉新型洗錢模式的風險信號。為解決這些問題,深度學習深度技術憑借其強大的表征學習能力和自適應特性,正逐步成為反洗錢監測的核心技術方向。通過對客戶序列的深度建模,深度學習可以動態適應犯罪手法的變化,在傳統基于交易數據的監測模式中引入序列數據,為金融機構提供更高效、更智能的風險識別工具。
基于深度學習的客戶序列洗錢風險分析模型
深度學習是人工智能的核心技術之一,其中以RNN、GRU和Transformer為代表的序列模型,在海量非結構化數據分析及建模領域表現出了顯著的優勢。相較于傳統規則模型和傳統機器學習模型,序列模型能夠實現非結構化數據的自動建模,可更高效、更準確地識別用戶中的復雜模式。基于深度學習的客戶序列洗錢風險分析模型,將客戶交易序列、操作序列和客戶屬性信息共同作為模型訓練數據,運用深度學習技術充分挖掘多源信息間的內在聯系,識別客戶蘊含的潛在風險因素,并對客戶洗錢風險概率進行預測。具體的預測流程如圖1所示。
數據采集與預處理
對于客戶多源數據的采集與預處理是客戶序列洗錢風險分析的基礎。中國民生銀行建立了企業級客戶數據平臺和埋點平臺工具,采集整合全領域數據,覆蓋產品優化、用戶運營、風險管理等多個業務場景的分析需求,建立轉化、留存、歸因等全鏈路的數據分析能力。基于該平臺,首先,根據預設的甄別回溯周期范圍采集模型分析所需的客戶數據,包括客戶自身屬性信息、客戶交易序列、客戶操作序列。其次,對上述所獲取的三類數據進行數據清洗操作,如異常值剔除、缺失值填充等。最后,結合反洗錢監測要點,對處理后的客戶交易序列和客戶操作序列構建序列衍生特征,如平均交易間隔等。平均交易間隔是指客戶在一定時間內進行相鄰兩次交易之間的平均時間長度。平均交易間隔這一特征可以反映客戶的交易頻率和活躍度,能夠體現客戶的交易習慣和模式。在反洗錢業務中,異常的交易間隔可以輔助甄別人員準確識別高洗錢風險客戶。通過客戶交易序列和操作序列構建的衍生特征將作為補充輸入用于客戶序列洗錢風險分析模型預測。
序列表征學習
基于深度學習的客戶序列洗錢風險分析模型,運用深度學習方法自動化實現對客戶交易序列和客戶操作序列的表征提取工作。首先,對預處理后的客戶交易序列和客戶操作序列進行分桶離散化處理。其中,金額和時間類數值型特征的出現頻次通常隨著取值的增大而降低,因此采用冪次分桶的方式對上述特征進行離散化處理,如下式所示:
上式中,B(x)為第x特征取值的離散化處理結果,x為特征取值,表示向下取整函數,第m個分桶的取值范圍為[2 , 2m+1)。其余特征采用哈希分桶方式進行離散化處理,如下式所示:
H(x)=hash(x)%C
上式中,H(x)為特征x的哈希處理結果,hash()為哈希函數,x為特征取值,C為表示分桶數量,所有特征將被分配至C個桶。
其次,使用NLP中的Embedding技術對離散化后的特征進行向量嵌入。將客戶交易序列和客戶操作序列所包含的離散化特征映射至特定維度的向量空間,使用多維向量來表示原始離散化特征,相關操作如下式所示:
T,E,S,U=Embedding(SEQt,SEQe,Stat,User)
T代表交易序列的向量表示,E代表序列的向量表示,S代表衍生特征的向量表示,U代表客戶屬性特征的向量表示,SEQt代表原始交易序列,SEQe代表原始操作序列,Stat和User分別代表原始衍生特征和原始客戶屬性特征。
在此基礎上,使用雙向GRU網絡模型和滑動最大池化算子構建表征學習網絡,以提取客戶交易序列和客戶操作序列的局部表征信息。最后,使用多頭注意力機制構建客戶交易序列和客戶操作序列的全局表征信息。多頭注意力機制計算方法如下式所示:
通過上式計算得到交易特征權重和操作特征權重,使用該權重計算得到交易序列和操作序列對應的全局表征信息。上述操作有助于提升模型對于不同客戶序列中高風險因素的識別能力。
可疑客戶識別
綜合前置操作所采集和構建的客戶屬性信息、序列衍生特征和序列全局表征,計算客戶洗錢風險概率,以挖掘具有高洗錢風險的可疑客戶。首先,將數據采集與預處理環節獲取的客戶屬性信息和序列衍生特征、序列表征學習環節獲取的客戶交易序列全局表征和客戶操作序列全局表征四部分進行特征拼接,組成新的特征向量。其次,將上述特征向量傳入全連接神經網絡模型,以預測客戶洗錢風險概率。最后,根據預先設置的閾值,篩選洗錢風險概率高于閾值的客戶觸發預警,上述客戶將交由反洗錢崗位員工進行進一步分析和甄別。
實驗結果
當前模型已投產,根據實際運行結果,引入序列數據的預警準確率顯著提升,也為一線監測分析提供了新的視角。引入序列數據的深度學習模型將上報率提高了近50個百分點,客戶序列數據為一線分析員的監測分析打開了全新的角度。有如下兩個案例可供參考。
其一,客戶A案例:某客戶頻繁進行XX交易,資金在賬戶中快速流轉,交易XX高度集中,且上下游……其近30天的App操作XX埋點觸發總會話數達到XX次,顯著高于平均水平……交易與網絡賭博資金的特點高度吻合……
其二,客戶B案例:某客戶多次通過XX渠道完成入賬后迅速轉出交易,且上下游……近90天內……該客戶的XX埋點觸發次數超過XX次,顯著高于正常用戶水平……該特征與信用卡套現高度相關……
未來工作展望
本文提出將序列數據引入反洗錢監測分析,依托企業級埋點平臺全面梳理了電子渠道客戶序列數據,并利用深度學習技術針對性地構造了監測模型,填補了客戶序列在洗錢風險監測領域的研究空白,為可疑交易監測提供了新的方法論,實現對洗錢活動全方位的深刻洞察,以及對復雜洗錢手法變化的自適應。通過納入序列信息,預警出一批網絡賭博、POS套現等類型的可疑活動,實現數據驅動的精準情報監測,進一步維護人民群眾的財產安全和國家金融秩序。然而,盡管技術應用取得了一定成果,但深度學習在反洗錢監測分析應用中仍存在許多值得探索的方向。
規范監測指引,銜接技術與業務
深度學習技術在反洗錢監測中的應用雖然提升了模型的預警能力,但模型的可解釋性與業務實際應用的銜接仍有待加強。一方面,須制定基于深度學習等前沿技術的監測指引,為一線反洗錢工作人員提供明確的操作標準和案例參考。另一方面,針對金融機構長期以來習慣于資金交易監測的特點,應在監測指引中突出序列數據的分析價值,并明確與資金監測的協同方法。此外,通過構建技術與業務的雙向交流機制,推動技術研發團隊與業務實踐部門的深度合作,確保監測工具不僅具備技術前瞻性,也符合一線需求和監管要求。
統一數據標準,支持履職與監管
客戶序列數據是反洗錢監測的重要基礎,但當前數據的格式和質量在不同金融機構之間缺乏統一性,這對數據整合和監管報送工作帶來了較大挑戰。未來,應以行業協作的形式推動數據標準化建設,為金融機構間的數據共享與對比分析奠定基礎。一方面,需要制定覆蓋廣泛、結構統一的數據標準,規范金融機構內部的數據采集、存儲和應用流程;另一方面,建議監管部門進一步完善數據報送標準,明確序列數據在可疑交易報告(STR)中的具體應用方法與要求,確保監測模型的輸出結果能夠高效支持監管分析與決策。
推進協作共贏,平衡隱私與安全
隨著經濟全球化和數字化轉型的加速推進,客戶數據呈現出分散化和跨領域的特征。金融機構、支付機構以及電商平臺等各類主體積累了大量的客戶數據,但這些數據分散于不同機構中,難以形成完整的客戶畫像。未來,需要通過跨機構合作推動數據整合與共享,以全面提升監測效率與風險識別能力。在此過程中,應注重隱私保護和數據安全,采用聯邦學習、多方安全計算等技術手段,確保在數據不出機構的前提下實現聯合建模。此外,建議監管牽頭探索建立行業級或區域級的聯合監測平臺,在滿足合規要求的基礎上,實現對大規模跨機構洗錢網絡的精準識別與打擊,為國家金融安全提供有力保障。
(中國民生銀行朱笑顏、王梓桐,
龍盈智達〔北京〕科技有限公司王彥博、
楊璇對本文亦有貢獻)
【參考文獻】
[1] Xu T , Yongyan S ,CAO Zuoyi,et al.On the"Effectiveness of Anti-money Laundering System in China[J].Journal of Financial Research, 2009, 31(8):1-16.
[2] Gandhi H , Tandon K , Gite S ,et al.Navigating"the Complexity of Money Laundering: Anti–money Laundering Advancements with AI/ML Insights[J].International Journal on Smart Sensing and Intelligent Systems, 2024, 17(1):82300-82317.
[3] Shin K S , Kim H J , Kim H S .Development of"the Knowledge-based Systems for Anti-money Laundering in the Korea Financial Intelligence Unit[J].American Journal of Pathology, 2008, 14(2):179-192.
[4] Tang J , Yin J .Developing an intelligent data"discriminating system of anti-money laundering based on SVM[J].Internatioanl Conference on Machine Learning and Cybernetics, 2005(6):3453—3457.
[5] Liu X , Zhang P , Zeng D .Sequence Matching for"Suspicious Activity Detection in Anti-Money Laundering[C]//Intelligence amp; Security Informatics, IEEE Isi International Workshops: Paisi, Paccf, amp; Soco, Taipei, Taiwan, June.DBLP, 2008.
[6] Elman J L .Finding Structure in Time[J].Cognitive"Science, 1990, 14(2):179-211.
[7] Cho K , Van Merrienboer B , Gulcehre C ,et"al.Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation[J].Computer Science, 2014(6).
[8] Hochreiter S , Schmidhuber J .Long Short-Term"Memory[J].Neural Computation, 1997, 9(8):1735-1780.
[9] Vaswani A , Shazeer N , Parmar N ,et"al.Attention Is All You Need[C].Advances in Neural Information Processing Systems.2017:5998—6008.
[10] Wang C , Xiao Z .A Deep Learning Approach for"Credit Scoring Using Feature Embedded Transformer[J].Applied Sciences (2076-3417), 2022, 12(21).
[11]Force F A T. Opportunities and challenges of new"technologies for AML/CFT[EB/OL].(2021)