基于知識圖譜并考慮智能數(shù)據(jù)關聯(lián)的金融反洗錢軟件設計及應用

2023-02-18 05:36:20王海波

軟件導刊 2023年1期

王海波

（智器云南京信息科技有限公司，江蘇南京 210012）

0 引言

面對金融科技行業(yè)的快速發(fā)展和環(huán)境的急劇變化，傳統(tǒng)風險防范與合規(guī)管理手段難以滿足未來監(jiān)管和金融機構(gòu)的要求。合規(guī)科技正成為銀行在數(shù)字化轉(zhuǎn)型發(fā)展進程中不可或缺的助力器［1］，而反洗錢是銀行合規(guī)管控的一項核心工作。2020 年，央行總計開出568 筆約23 273.6 萬的反洗錢行政罰單，涉及369 家金融機構(gòu)，問責365 人。如何融合新技術謀求反洗錢應用場景創(chuàng)新，是賦能業(yè)務合規(guī)、防范新興風險、助力數(shù)字化轉(zhuǎn)型和軟件智能化升級的重要問題。

目前，已有較多金融反洗錢軟件技術研究，從系統(tǒng)級和算法級兩個層面綜述如下：

系統(tǒng)級層面，肖琨等［2］開發(fā)了一種貨幣交易的可疑行為檢測和分類系統(tǒng)，利用知識圖譜和數(shù)據(jù)融合搭建銀行風控平臺。汪昱廷［3］基于大數(shù)據(jù)與機器學習設計高效反洗錢檢測，引入知識圖庫進行檢索映射。吳剛等［4］將反洗錢數(shù)據(jù)存儲、處理及多種功能接口融合，實現(xiàn)反洗錢區(qū)域化、現(xiàn)代化、數(shù)據(jù)化。這些研究從多方面對反洗錢系統(tǒng)進行了框架設計，但從市場化軟件普適性、可推廣性角度，如何加強多場景下的數(shù)據(jù)智能化關聯(lián)和系統(tǒng)流程的易操作性，值得進一步研究。此外，用知識圖譜搭建反洗錢軟件需因地制宜，尤其針對洗錢嫌疑賬戶行為的時空特性，需輔以行業(yè)經(jīng)驗進行調(diào)參，并開放充分的接口為軟件升級和推廣做準備。

算法級層面，Wang 等［5］提出一種用于洗錢的決策樹方法，從企業(yè)客戶檔案中提取4 個屬性加以實現(xiàn)。Kingdon［6］提出基于賬戶的多維自適應概率矩陣以判斷銀行的行為模式。但由于金融領域的突發(fā)性并不等于可疑性或違法性，上述系統(tǒng)對反洗錢的檢測針對性偏弱，尤其在復雜場景下的識別準確率和有效性有待提升。陳強等［7］采用圖分析、圖挖掘等技術，提取深層關聯(lián)風險特征，構(gòu)建反欺詐策略體系。肖艷麗等［8］運用XGBoost 模型預測金融市場極端風險，并展開預測效果的顯著性檢驗。上述方法對樣本量及歷史數(shù)據(jù)的相關性特性要求較高，且方法有效性依賴于樣本的多樣性和預處理質(zhì)量，魯棒性偏弱。鐘增勝等［9］基于層次化加權的交易行為特征描述，提出結(jié)合孤立點檢測和小類簇檢測的交易行為異常檢測方法。該研究進行了評估實驗，但未涉及系統(tǒng)級整體層設計。聶濤等［10］基于決策樹和特征工程進行反洗錢大數(shù)據(jù)技術應用，流程可行性好但案例實驗的指標支撐有待豐富。文獻［11-12］基于GREAT 和人機耦合技術進行反洗錢智能識別建模，但主要針對局部識別模塊，通用性需要驗證。Foley 等［13］為合法和非法比特幣交易用戶建立社區(qū)，Han 等［14］基于自然語言處理技術減少反洗錢調(diào)查時間，但這些研究的適用范圍限定較多，有待形成市場認可推廣的軟件架構(gòu)。

鑒于上述分析，本文構(gòu)建改進的金融領域反洗錢全過程框架，研制可市場化的軟件，實現(xiàn)全流程控制和可視化分析，為本行業(yè)相關軟件推廣提供一定技術參考。

1 軟件總體設計方案

1.1 軟件架構(gòu)設計

基于知識圖譜構(gòu)建反洗錢軟件的智能數(shù)據(jù)關聯(lián)架構(gòu)，其主體設計思路為：①通過無監(jiān)督學習方法掃描CT 畫像，實現(xiàn)自動化平臺建模，支撐數(shù)據(jù)采集與預處理、統(tǒng)計特性分析、樣本訓練及預測、性能評估與監(jiān)控等流程；②基于機器學習方法對模型各模塊進行迭代優(yōu)化，抽取多個目標洗錢場景的核心特征，構(gòu)造反洗錢類罪模型，精準定位可疑主體；③基于深度學習技術，在小樣本條件下進行數(shù)據(jù)自適應擴充，提升欺詐風險自主識別能力，構(gòu)建反洗錢模型的自適應優(yōu)化模式；④采用智能數(shù)據(jù)關聯(lián)的知識圖譜作為客戶選擇和欺詐洗錢行為識別的核心技術。基于圖數(shù)據(jù)和多維數(shù)據(jù)原理進行黑樣本庫關聯(lián)探查，將不規(guī)則的多源異構(gòu)數(shù)據(jù)進行標簽化管理，作為機器學習訓練引擎的輸入，從而提升識別速度和精度。

其中，步驟②作為核心算法部分，設計思路如圖1 所示，包括4 個模塊：數(shù)據(jù)提取、特征工程、標準化、分類。分類器采用融合的機器學習算法，可根據(jù)不同場景條件進行初始參數(shù)預設。通過對黑、白樣本（包括原始交易數(shù)據(jù)、特征化數(shù)據(jù)、圖計算特征數(shù)據(jù)等）的學習，形成算法模型，實現(xiàn)對未來交易數(shù)據(jù)的分類預測，即對可疑交易數(shù)據(jù)的甄別。

Fig.1 Data process module of anti-money laundering system based on machine learning圖1 基于機器學習的反洗錢數(shù)據(jù)處理流程

對于數(shù)據(jù)集，需將原始交易數(shù)據(jù)通過數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換（衍生、降維等）獲得標準數(shù)據(jù)，再通過濾波生成圖數(shù)據(jù)存儲在數(shù)據(jù)庫中。在特征工程模塊中，圖數(shù)據(jù)通過網(wǎng)絡分析和場景檢測得到特征向量x1；標準化數(shù)據(jù)通過數(shù)據(jù)提取和轉(zhuǎn)化得到特征向量x2；原始交易數(shù)據(jù)通過時序分析模型如LSTM［15］，提取得到特征向量x3。向量合并之后經(jīng)過標準化、歸一化、數(shù)據(jù)填充，得到最終的特征向量，送入機器學習分類器。本文采用隨機森林+XGBoost 混合算法，即采用隨機森林進行特征向量的降維優(yōu)化，進而用XGBoost進行訓練和分類，選出符合設定規(guī)則且滿足相關準確率和覆蓋率的可行解。需注意的是，算法模型需對黑、白特征業(yè)務樣本數(shù)據(jù)分別訓練得到模型（本文案例取數(shù)據(jù)集共計13 000 樣本點的前80%作為訓練集），然后對測試數(shù)據(jù)進行分類預測（取數(shù)據(jù)的后20%作為測試數(shù)據(jù)）。

1.2 軟件實現(xiàn)機理與功能

所設計的基于知識圖譜的反洗錢軟件整體框架如圖2所示。

（1）金融客戶數(shù)據(jù)的知識圖譜庫構(gòu)建。通過知識圖譜庫存儲和抽取，構(gòu)建相關的基本信息和行為特征數(shù)據(jù)，如檔案信息、行為活動數(shù)據(jù)、數(shù)字指紋、賬戶間關系、閾值優(yōu)化等信息。同時，整合已知銀行客戶模式，推導出細粒度信息，改進引擎檢測效果。學習引擎根據(jù)給定特征向量自適應調(diào)整權重參數(shù)和距離函數(shù)，直至滿足指標約束。

（2）動態(tài)特征提取。將智能數(shù)據(jù)關聯(lián)技術和反洗錢業(yè)務場景結(jié)合起來，并融合行業(yè)知識以“動態(tài)”提取特征。動態(tài)特征提取保證了提取過程的在線可調(diào)整性，即當輸入數(shù)據(jù)發(fā)生增減變化時，對應在線調(diào)整特征向量維數(shù)，增強引擎模型魯棒性。

Fig.2 Overall scheme of the anti-money laundering software圖2 反洗錢軟件整體框架

（3）CT 畫像引擎。CT 畫像引擎利用規(guī)則檢測和自監(jiān)督學習檢測實現(xiàn)對客戶6 維、72 脈、360 度掃描的立體畫像。本文軟件設計根據(jù)銀行業(yè)認定的反洗錢規(guī)則結(jié)合目標場景需求構(gòu)建檢測引擎，對全量數(shù)據(jù)或可疑數(shù)據(jù)進行檢測。同時，將無監(jiān)督機器學習（團伙檢測）和規(guī)則檢測引擎檢測相融合，符合各規(guī)則檢測出的洗錢數(shù)據(jù)共同輸入有監(jiān)督學習模型，經(jīng)學習訓練后，結(jié)合行為方式已知的賬戶信息，推算并鎖定具有類似特征的可疑賬戶。

（4）無監(jiān)督學習引擎。無監(jiān)督針對的是異常行為模式及特征有效性未知的情形。一方面，無需標簽和訓練數(shù)據(jù)，主動檢測新型攻擊，提前防范嫌疑模式，甚至在嫌疑賬戶申請或注冊時將其檢測出來；另一方面，有效利用新型數(shù)字信息，匯總和計算多個數(shù)字指紋，通過信息融合輸出決策變量。

（5）檢測結(jié)果排序和分類。根據(jù)可信度將已檢出的可疑賬戶進行打分和排序，并按攻擊性質(zhì)對可疑賬戶進行分類。進而，利用可疑賬戶的規(guī)模和聚類距離對上述打分排序結(jié)果進行函數(shù)描述。規(guī)模越大、聚類距離越短的可疑賬戶，其得到的分數(shù)越高，嫌疑性越強。

（6）實時可視化分析。結(jié)果圖數(shù)據(jù)送往實時可視化分析模塊，該模塊首先基于圖分析結(jié)果的相似度，將多個可疑賬戶進一步關聯(lián)聚類，進而將不同的賬戶聚類視為不同節(jié)點，計算節(jié)點間的邊緣權重以揭示不同賬戶聚類間的潛在關聯(lián)，再通過人機交互界面完成上述結(jié)果的實時可視化輸出。

2 軟件設計關鍵技術

基于軟件架構(gòu)和功能分析，得到軟件開發(fā)核心任務目標：①智能引擎設計；②構(gòu)建知識圖譜；③人工智能建模；④可疑類罪自動判別；⑤動態(tài)一鍵報告。將該軟件開發(fā)過程中的關鍵技術和注意事項進行總結(jié)，以幫助后續(xù)開發(fā)使用者參考并改進。

（1）知識圖譜技術嵌入。反洗錢軟件的開發(fā)本質(zhì)上屬于大數(shù)據(jù)技術應用。面對多源異構(gòu)的銀行賬戶數(shù)據(jù)聚類問題，需要軟件具備數(shù)據(jù)搜索、預處理、映射、關聯(lián)等基本功能，并實現(xiàn)洗錢信息建模、賬戶關系鏈接、隱形關聯(lián)挖掘等附加功能。該反洗錢軟件平臺采用ELP（Entity：實體，Link：鏈接，Property：屬性）模型刻畫智能數(shù)據(jù)關聯(lián)關系，尤其是時間和空間關系，通過銀行賬單、存取單據(jù)、交易數(shù)據(jù)及分析人員可視化交互，快速挖掘可疑信息，定位嫌疑點，并結(jié)合行為模式和組織架構(gòu)分析，提供有效反洗錢偵探線索。

（2）高度定制化ETL 工具。通過定制化ETL 工具，支持多類數(shù)據(jù)庫模塊的讀寫，包括各主流關系型數(shù)據(jù)庫、NoSQL 數(shù)據(jù)庫和Hadoop 數(shù)據(jù)庫，實現(xiàn)多源異構(gòu)數(shù)據(jù)資源的提取、預處理和轉(zhuǎn)換，然后裝載到知識圖譜平臺中，實現(xiàn)數(shù)據(jù)的關聯(lián)集成。

（3）分布式數(shù)據(jù)庫技術。采用分布式圖數(shù)據(jù)庫結(jié)構(gòu)，保證對多源異構(gòu)數(shù)據(jù)的實時處理能力，避免樣本過敏感、過擬合問題及回歸和決策時的效率低下問題。通過優(yōu)化圖計算層和存儲層，支撐海量樣本處理，適合反洗錢應用場景。

（4）大數(shù)據(jù)建模工具。傳統(tǒng)的數(shù)據(jù)建模大多采用業(yè)務知識，但在面對金融洗錢這類數(shù)據(jù)類型異構(gòu)、賬戶來源多樣、可視化程度較低的應用場景時，需要數(shù)據(jù)挖掘、數(shù)理統(tǒng)計及人工智能等多項技術的交叉融合，以精準鎖定嫌疑賬戶。在構(gòu)建上層應用模型時，采用基于腳本語言的建模開發(fā)工具，支持多類型文件、多數(shù)據(jù)庫、多接口的信息讀取。

（5）智能中臺。智能中臺提供數(shù)據(jù)分析和用戶交易場景的信息流交互和管理決策服務，從感知、理解、統(tǒng)計、決策、展示、創(chuàng)造、挖掘、歸納八大方向出發(fā)，為上層應用提供多樣化的業(yè)務數(shù)據(jù)支撐，保證各模塊之間更精準、更智能的協(xié)同，其關系網(wǎng)和功能邏輯如圖3所示。

Fig.3 Upper business directions supported by the intelligent platform圖3 智能中臺支撐的上層業(yè)務方向

（6）信息可視化與人機智能分析?；趯︺y行業(yè)數(shù)據(jù)的理解，可視化模塊基于人機智能，將海量金融賬戶和場景數(shù)據(jù)可視化，提升信息的定量和定性可分析度。在與建設銀行的合作運營過程中獲得了良好反饋。

3 軟件應用案例分析與對比

3.1 軟件應用案例分析

所設計軟件經(jīng)調(diào)試已成功應用于市場，其功能架構(gòu)如圖4 所示，包括通信層、數(shù)據(jù)層、應用層、展現(xiàn)層和用戶層5個層次，且每個層次支撐相應的模塊功能。

Fig.4 Functional architecture of the anti-money laundering software圖4 反洗錢軟件功能架構(gòu)

軟件所采用的業(yè)務流程如圖5 所示，總體可劃分為甄別、復核、審定和報告4 個階段。系統(tǒng)先建立案件，然后進行數(shù)據(jù)采集，在案件甄別后提交入庫，后續(xù)通過提取案件信息、提取交易特征報告和提取分析結(jié)論，完成交易特征分析和報告編制。

Fig.5 Operation flow of the anti-money laundering software圖5 反洗錢軟件業(yè)務流程

可通過如圖6 所示的場景分析軟件功能，包括案件管理、報告管理、風險人員庫、戰(zhàn)法模型和分析圖表5 個模塊。

進一步，圖7—圖9 給出了圖6 中各功能的實際使用執(zhí)行效果，包括“建立案件與模型分析”模塊，“報告管理與風險庫”模塊和“戰(zhàn)法模型與分析圖表”模塊。

由此可見，該反洗錢軟件系統(tǒng)各模塊協(xié)同完成了核心功能：洗錢案件類型分析、多類型數(shù)據(jù)分析、時空關聯(lián)關系分析、社會網(wǎng)絡集合分析及動態(tài)展示等。

Fig.6 Scenario application functions and features of the anti-money laundering software圖6 反洗錢軟件的場景應用功能及特征

Fig.7 Case setup and model analysis module圖7 建立案件與模型分析模塊

Fig.8 Report management and risk library module圖8 報告管理與風險庫模塊

Fig.9 Warfare model and chart analysis module圖9 戰(zhàn)法模型與分析圖表模塊

3.2 軟件使用案例對比

將所設計軟件與賦能前的傳統(tǒng)人工方法進行對比，耗時效果如表1 所示。數(shù)據(jù)來源為近年來應用至全國幾大銀行反洗錢平臺的實際案例?？梢姡捎密浖x能獲得的優(yōu)勢包括：

（1）分析戰(zhàn)法模型優(yōu)勢。反洗錢智能監(jiān)管系統(tǒng)內(nèi)嵌大量戰(zhàn)法模型，考慮國情和行業(yè)經(jīng)驗，方便業(yè)務人員快速上手。分析模型可復用，能幫助分析人員快速解決可疑賬單的交易特征分析問題，極大提高工作效率。

（2）分析服務優(yōu)勢。軟件通過設計數(shù)據(jù)接口和友好界面，便于提供售后、培訓及分析服務，保證客戶采購產(chǎn)品以后可以充分應用于實戰(zhàn)，解決當前反洗錢業(yè)務中甄別難、分析難的實際工作問題。

（3）計算速度與應用范圍優(yōu)勢。之前使用人工或?qū)＜医?jīng)驗判別的銀行，在面對海量數(shù)據(jù)記錄時，通常難以挖掘數(shù)據(jù)關聯(lián)邏輯，計算耗時長，甚至部分案例無法求得最優(yōu)解。該軟件賦能后在計算流程、計算算法和數(shù)據(jù)處理技術方面實現(xiàn)了智能化，提升了求解效率。此外，引入改進機器學習方法解決了海量有噪聲數(shù)據(jù)的訓練和測試問題，適于復雜場景下的快速數(shù)據(jù)分析。

3.3 反洗錢行為識別率分析

表2 對比了采用不同機器學習算法的軟件有效性。首先，對銀行目標客戶的近30 天交易流水進行數(shù)據(jù)清洗；然后，對原始交易數(shù)據(jù)序列進行標準化；進而，按訓練集與測試集8∶2 比例進行模型訓練測試，推測可疑賬戶；最后，與經(jīng)過業(yè)務人員鑒別確定為真實的洗錢嫌疑賬戶進行對比，分析準確率。

表2 中的準確率與F1 值為10 次實驗所得計算結(jié)果的平均值?？梢姡疚乃O計軟件算法的準確率可達85%以上，且F1 值較高，說明模型在數(shù)據(jù)分布不平衡的情況下取得了較好效果。

Table 1 Comparative analysis of the performance with and without the designed software表1 本文研發(fā)的軟件賦能前后效果比較

Table 2 Software performance comparison using different machine learning methods表2 采用不同機器學習方法的軟件性能比較

4 軟件創(chuàng)新性分析

4.1 業(yè)務功能層面

基于知識圖譜框架并結(jié)合反洗錢領域的實戰(zhàn)經(jīng)驗，考慮智能數(shù)據(jù)關聯(lián)，將反洗錢措施流程化和智能化。提升性能包括：①實現(xiàn)反洗錢賬戶數(shù)據(jù)的智能采集和清洗；②根據(jù)業(yè)務特征實現(xiàn)智能分析和聚類；③滿足復雜多樣場景的分析需求，快速應對多變的洗錢行為；④實現(xiàn)洗錢類罪自動匹配和識別，尤其反洗錢違法犯罪的類型；⑤報告及數(shù)據(jù)庫快速生成，界面友好易操作。

4.2 技術方法層面

金融洗錢行為存在數(shù)據(jù)跨領域、手法多變的特點。對此，技術層面的創(chuàng)新包括：

（1）數(shù)據(jù)關聯(lián)架構(gòu)。從通信層、數(shù)據(jù)層、展現(xiàn)層、用戶層自下而上為反洗錢案件提供多維度分析，實現(xiàn)海量嫌疑樣本中的目標精確快速鎖定，設定嫌疑資金流向自適應跟蹤功能。

（2）全量的數(shù)據(jù)融合和關聯(lián)存儲。考慮案件和數(shù)據(jù)類型多變，按業(yè)務場景動態(tài)建模，并對多源異構(gòu)的海量賬戶數(shù)據(jù)進行融合、特征抽取及關聯(lián)存儲，滿足軟件靈活性和快速性要求。

（3）基于動態(tài)圖數(shù)據(jù)的智能化。采用改進的機器學習算法進行數(shù)據(jù)挖掘，協(xié)助辦案分析人員快捷鎖定嫌疑賬戶的時空特性。采用人機智能的圖形化技術進行3D 布局和地理信息系統(tǒng)軌跡描繪，為最終決策提供智能的圖形化證據(jù)鏈。

（4）基于業(yè)務積累的模型。以工作流的形式進行反洗錢模型可視化設計，避免復雜的手動編程，后續(xù)案件可直接調(diào)用。案件分析人員可根據(jù)經(jīng)驗編寫和共享定制的分析模型，為后續(xù)維護和擴展提供便利。

5 結(jié)語

本文介紹了基于知識圖譜并考慮智能數(shù)據(jù)關聯(lián)的金融領域反洗錢軟件設計方法，并通過案例描述了該軟件的設計流程、銀行業(yè)應用情況及創(chuàng)新思路。分析表明，在知識圖譜框架下將智能數(shù)據(jù)關聯(lián)和人工智能等技術融合，可實現(xiàn)從個體賦能到群體智能的軟件升級。該軟件在全國多家銀行和機構(gòu)運行，相關評估顯示，相比傳統(tǒng)非智能軟件及人工排查反洗錢手段，本文所述軟件可有效提升洗錢甄別率。

據(jù)中國人民銀行反洗錢中心預測，未來3 年反洗錢報告機構(gòu)預估為現(xiàn)在的兩倍左右，銀行業(yè)約3 000 家，證券期貨業(yè)約800 家，反洗錢分析市場規(guī)模將達160 億。本文所述軟件方法為該需求下的大數(shù)據(jù)挖掘和應用奠定了基礎，也為各銀行金融機構(gòu)反洗錢業(yè)務提供了助力。