王海波
(智器云南京信息科技有限公司,江蘇 南京 210012)
面對金融科技行業(yè)的快速發(fā)展和環(huán)境的急劇變化,傳統(tǒng)風險防范與合規(guī)管理手段難以滿足未來監(jiān)管和金融機構(gòu)的要求。合規(guī)科技正成為銀行在數(shù)字化轉(zhuǎn)型發(fā)展進程中不可或缺的助力器[1],而反洗錢是銀行合規(guī)管控的一項核心工作。2020 年,央行總計開出568 筆約23 273.6 萬的反洗錢行政罰單,涉及369 家金融機構(gòu),問責365 人。如何融合新技術謀求反洗錢應用場景創(chuàng)新,是賦能業(yè)務合規(guī)、防范新興風險、助力數(shù)字化轉(zhuǎn)型和軟件智能化升級的重要問題。
目前,已有較多金融反洗錢軟件技術研究,從系統(tǒng)級和算法級兩個層面綜述如下:
系統(tǒng)級層面,肖琨等[2]開發(fā)了一種貨幣交易的可疑行為檢測和分類系統(tǒng),利用知識圖譜和數(shù)據(jù)融合搭建銀行風控平臺。汪昱廷[3]基于大數(shù)據(jù)與機器學習設計高效反洗錢檢測,引入知識圖庫進行檢索映射。吳剛等[4]將反洗錢數(shù)據(jù)存儲、處理及多種功能接口融合,實現(xiàn)反洗錢區(qū)域化、現(xiàn)代化、數(shù)據(jù)化。這些研究從多方面對反洗錢系統(tǒng)進行了框架設計,但從市場化軟件普適性、可推廣性角度,如何加強多場景下的數(shù)據(jù)智能化關聯(lián)和系統(tǒng)流程的易操作性,值得進一步研究。此外,用知識圖譜搭建反洗錢軟件需因地制宜,尤其針對洗錢嫌疑賬戶行為的時空特性,需輔以行業(yè)經(jīng)驗進行調(diào)參,并開放充分的接口為軟件升級和推廣做準備。
算法級層面,Wang 等[5]提出一種用于洗錢的決策樹方法,從企業(yè)客戶檔案中提取4 個屬性加以實現(xiàn)。Kingdon[6]提出基于賬戶的多維自適應概率矩陣以判斷銀行的行為模式。但由于金融領域的突發(fā)性并不等于可疑性或違法性,上述系統(tǒng)對反洗錢的檢測針對性偏弱,尤其在復雜場景下的識別準確率和有效性有待提升。陳強等[7]采用圖分析、圖挖掘等技術,提取深層關聯(lián)風險特征,構(gòu)建反欺詐策略體系。肖艷麗等[8]運用XGBoost 模型預測金融市場極端風險,并展開預測效果的顯著性檢驗。上述方法對樣本量及歷史數(shù)據(jù)的相關性特性要求較高,且方法有效性依賴于樣本的多樣性和預處理質(zhì)量,魯棒性偏弱。鐘增勝等[9]基于層次化加權的交易行為特征描述,提出結(jié)合孤立點檢測和小類簇檢測的交易行為異常檢測方法。該研究進行了評估實驗,但未涉及系統(tǒng)級整體層設計。聶濤等[10]基于決策樹和特征工程進行反洗錢大數(shù)據(jù)技術應用,流程可行性好但案例實驗的指標支撐有待豐富。文獻[11-12]基于GREAT 和人機耦合技術進行反洗錢智能識別建模,但主要針對局部識別模塊,通用性需要驗證。Foley 等[13]為合法和非法比特幣交易用戶建立社區(qū),Han 等[14]基于自然語言處理技術減少反洗錢調(diào)查時間,但這些研究的適用范圍限定較多,有待形成市場認可推廣的軟件架構(gòu)。
鑒于上述分析,本文構(gòu)建改進的金融領域反洗錢全過程框架,研制可市場化的軟件,實現(xiàn)全流程控制和可視化分析,為本行業(yè)相關軟件推廣提供一定技術參考。
基于知識圖譜構(gòu)建反洗錢軟件的智能數(shù)據(jù)關聯(lián)架構(gòu),其主體設計思路為:①通過無監(jiān)督學習方法掃描CT 畫像,實現(xiàn)自動化平臺建模,支撐數(shù)據(jù)采集與預處理、統(tǒng)計特性分析、樣本訓練及預測、性能評估與監(jiān)控等流程;②基于機器學習方法對模型各模塊進行迭代優(yōu)化,抽取多個目標洗錢場景的核心特征,構(gòu)造反洗錢類罪模型,精準定位可疑主體;③基于深度學習技術,在小樣本條件下進行數(shù)據(jù)自適應擴充,提升欺詐風險自主識別能力,構(gòu)建反洗錢模型的自適應優(yōu)化模式;④采用智能數(shù)據(jù)關聯(lián)的知識圖譜作為客戶選擇和欺詐洗錢行為識別的核心技術。基于圖數(shù)據(jù)和多維數(shù)據(jù)原理進行黑樣本庫關聯(lián)探查,將不規(guī)則的多源異構(gòu)數(shù)據(jù)進行標簽化管理,作為機器學習訓練引擎的輸入,從而提升識別速度和精度。
其中,步驟②作為核心算法部分,設計思路如圖1 所示,包括4 個模塊:數(shù)據(jù)提取、特征工程、標準化、分類。分類器采用融合的機器學習算法,可根據(jù)不同場景條件進行初始參數(shù)預設。通過對黑、白樣本(包括原始交易數(shù)據(jù)、特征化數(shù)據(jù)、圖計算特征數(shù)據(jù)等)的學習,形成算法模型,實現(xiàn)對未來交易數(shù)據(jù)的分類預測,即對可疑交易數(shù)據(jù)的甄別。

Fig.1 Data process module of anti-money laundering system based on machine learning圖1 基于機器學習的反洗錢數(shù)據(jù)處理流程
對于數(shù)據(jù)集,需將原始交易數(shù)據(jù)通過數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換(衍生、降維等)獲得標準數(shù)據(jù),再通過濾波生成圖數(shù)據(jù)存儲在數(shù)據(jù)庫中。在特征工程模塊中,圖數(shù)據(jù)通過網(wǎng)絡分析和場景檢測得到特征向量x1;標準化數(shù)據(jù)通過數(shù)據(jù)提取和轉(zhuǎn)化得到特征向量x2;原始交易數(shù)據(jù)通過時序分析模型如LSTM[15],提取得到特征向量x3。向量合并之后經(jīng)過標準化、歸一化、數(shù)據(jù)填充,得到最終的特征向量,送入機器學習分類器。本文采用隨機森林+XGBoost 混合算法,即采用隨機森林進行特征向量的降維優(yōu)化,進而用XGBoost進行訓練和分類,選出符合設定規(guī)則且滿足相關準確率和覆蓋率的可行解。需注意的是,算法模型需對黑、白特征業(yè)務樣本數(shù)據(jù)分別訓練得到模型(本文案例取數(shù)據(jù)集共計13 000 樣本點的前80%作為訓練集),然后對測試數(shù)據(jù)進行分類預測(取數(shù)據(jù)的后20%作為測試數(shù)據(jù))。
所設計的基于知識圖譜的反洗錢軟件整體框架如圖2所示。
(1)金融客戶數(shù)據(jù)的知識圖譜庫構(gòu)建。通過知識圖譜庫存儲和抽取,構(gòu)建相關的基本信息和行為特征數(shù)據(jù),如檔案信息、行為活動數(shù)據(jù)、數(shù)字指紋、賬戶間關系、閾值優(yōu)化等信息。同時,整合已知銀行客戶模式,推導出細粒度信息,改進引擎檢測效果。學習引擎根據(jù)給定特征向量自適應調(diào)整權重參數(shù)和距離函數(shù),直至滿足指標約束。
(2)動態(tài)特征提取。將智能數(shù)據(jù)關聯(lián)技術和反洗錢業(yè)務場景結(jié)合起來,并融合行業(yè)知識以“動態(tài)”提取特征。動態(tài)特征提取保證了提取過程的在線可調(diào)整性,即當輸入數(shù)據(jù)發(fā)生增減變化時,對應在線調(diào)整特征向量維數(shù),增強引擎模型魯棒性。

Fig.2 Overall scheme of the anti-money laundering software圖2 反洗錢軟件整體框架
(3)CT 畫像引擎。CT 畫像引擎利用規(guī)則檢測和自監(jiān)督學習檢測實現(xiàn)對客戶6 維、72 脈、360 度掃描的立體畫像。本文軟件設計根據(jù)銀行業(yè)認定的反洗錢規(guī)則結(jié)合目標場景需求構(gòu)建檢測引擎,對全量數(shù)據(jù)或可疑數(shù)據(jù)進行檢測。同時,將無監(jiān)督機器學習(團伙檢測)和規(guī)則檢測引擎檢測相融合,符合各規(guī)則檢測出的洗錢數(shù)據(jù)共同輸入有監(jiān)督學習模型,經(jīng)學習訓練后,結(jié)合行為方式已知的賬戶信息,推算并鎖定具有類似特征的可疑賬戶。
(4)無監(jiān)督學習引擎。無監(jiān)督針對的是異常行為模式及特征有效性未知的情形。一方面,無需標簽和訓練數(shù)據(jù),主動檢測新型攻擊,提前防范嫌疑模式,甚至在嫌疑賬戶申請或注冊時將其檢測出來;另一方面,有效利用新型數(shù)字信息,匯總和計算多個數(shù)字指紋,通過信息融合輸出決策變量。
(5)檢測結(jié)果排序和分類。根據(jù)可信度將已檢出的可疑賬戶進行打分和排序,并按攻擊性質(zhì)對可疑賬戶進行分類。進而,利用可疑賬戶的規(guī)模和聚類距離對上述打分排序結(jié)果進行函數(shù)描述。規(guī)模越大、聚類距離越短的可疑賬戶,其得到的分數(shù)越高,嫌疑性越強。
(6)實時可視化分析。結(jié)果圖數(shù)據(jù)送往實時可視化分析模塊,該模塊首先基于圖分析結(jié)果的相似度,將多個可疑賬戶進一步關聯(lián)聚類,進而將不同的賬戶聚類視為不同節(jié)點,計算節(jié)點間的邊緣權重以揭示不同賬戶聚類間的潛在關聯(lián),再通過人機交互界面完成上述結(jié)果的實時可視化輸出。
基于軟件架構(gòu)和功能分析,得到軟件開發(fā)核心任務目標:①智能引擎設計;②構(gòu)建知識圖譜;③人工智能建模;④可疑類罪自動判別;⑤動態(tài)一鍵報告。將該軟件開發(fā)過程中的關鍵技術和注意事項進行總結(jié),以幫助后續(xù)開發(fā)使用者參考并改進。
(1)知識圖譜技術嵌入。反洗錢軟件的開發(fā)本質(zhì)上屬于大數(shù)據(jù)技術應用。面對多源異構(gòu)的銀行賬戶數(shù)據(jù)聚類問題,需要軟件具備數(shù)據(jù)搜索、預處理、映射、關聯(lián)等基本功能,并實現(xiàn)洗錢信息建模、賬戶關系鏈接、隱形關聯(lián)挖掘等附加功能。該反洗錢軟件平臺采用ELP(Entity:實體,Link:鏈接,Property:屬性)模型刻畫智能數(shù)據(jù)關聯(lián)關系,尤其是時間和空間關系,通過銀行賬單、存取單據(jù)、交易數(shù)據(jù)及分析人員可視化交互,快速挖掘可疑信息,定位嫌疑點,并結(jié)合行為模式和組織架構(gòu)分析,提供有效反洗錢偵探線索。
(2)高度定制化ETL 工具。通過定制化ETL 工具,支持多類數(shù)據(jù)庫模塊的讀寫,包括各主流關系型數(shù)據(jù)庫、NoSQL 數(shù)據(jù)庫和Hadoop 數(shù)據(jù)庫,實現(xiàn)多源異構(gòu)數(shù)據(jù)資源的提取、預處理和轉(zhuǎn)換,然后裝載到知識圖譜平臺中,實現(xiàn)數(shù)據(jù)的關聯(lián)集成。
(3)分布式數(shù)據(jù)庫技術。采用分布式圖數(shù)據(jù)庫結(jié)構(gòu),保證對多源異構(gòu)數(shù)據(jù)的實時處理能力,避免樣本過敏感、過擬合問題及回歸和決策時的效率低下問題。通過優(yōu)化圖計算層和存儲層,支撐海量樣本處理,適合反洗錢應用場景。
(4)大數(shù)據(jù)建模工具。傳統(tǒng)的數(shù)據(jù)建模大多采用業(yè)務知識,但在面對金融洗錢這類數(shù)據(jù)類型異構(gòu)、賬戶來源多樣、可視化程度較低的應用場景時,需要數(shù)據(jù)挖掘、數(shù)理統(tǒng)計及人工智能等多項技術的交叉融合,以精準鎖定嫌疑賬戶。在構(gòu)建上層應用模型時,采用基于腳本語言的建模開發(fā)工具,支持多類型文件、多數(shù)據(jù)庫、多接口的信息讀取。
(5)智能中臺。智能中臺提供數(shù)據(jù)分析和用戶交易場景的信息流交互和管理決策服務,從感知、理解、統(tǒng)計、決策、展示、創(chuàng)造、挖掘、歸納八大方向出發(fā),為上層應用提供多樣化的業(yè)務數(shù)據(jù)支撐,保證各模塊之間更精準、更智能的協(xié)同,其關系網(wǎng)和功能邏輯如圖3所示。

Fig.3 Upper business directions supported by the intelligent platform圖3 智能中臺支撐的上層業(yè)務方向
(6)信息可視化與人機智能分析?;趯︺y行業(yè)數(shù)據(jù)的理解,可視化模塊基于人機智能,將海量金融賬戶和場景數(shù)據(jù)可視化,提升信息的定量和定性可分析度。在與建設銀行的合作運營過程中獲得了良好反饋。
所設計軟件經(jīng)調(diào)試已成功應用于市場,其功能架構(gòu)如圖4 所示,包括通信層、數(shù)據(jù)層、應用層、展現(xiàn)層和用戶層5個層次,且每個層次支撐相應的模塊功能。

Fig.4 Functional architecture of the anti-money laundering software圖4 反洗錢軟件功能架構(gòu)
軟件所采用的業(yè)務流程如圖5 所示,總體可劃分為甄別、復核、審定和報告4 個階段。系統(tǒng)先建立案件,然后進行數(shù)據(jù)采集,在案件甄別后提交入庫,后續(xù)通過提取案件信息、提取交易特征報告和提取分析結(jié)論,完成交易特征分析和報告編制。

Fig.5 Operation flow of the anti-money laundering software圖5 反洗錢軟件業(yè)務流程
可通過如圖6 所示的場景分析軟件功能,包括案件管理、報告管理、風險人員庫、戰(zhàn)法模型和分析圖表5 個模塊。
進一步,圖7—圖9 給出了圖6 中各功能的實際使用執(zhí)行效果,包括“建立案件與模型分析”模塊,“報告管理與風險庫”模塊和“戰(zhàn)法模型與分析圖表”模塊。
由此可見,該反洗錢軟件系統(tǒng)各模塊協(xié)同完成了核心功能:洗錢案件類型分析、多類型數(shù)據(jù)分析、時空關聯(lián)關系分析、社會網(wǎng)絡集合分析及動態(tài)展示等。

Fig.6 Scenario application functions and features of the anti-money laundering software圖6 反洗錢軟件的場景應用功能及特征

Fig.7 Case setup and model analysis module圖7 建立案件與模型分析模塊

Fig.8 Report management and risk library module圖8 報告管理與風險庫模塊

Fig.9 Warfare model and chart analysis module圖9 戰(zhàn)法模型與分析圖表模塊
將所設計軟件與賦能前的傳統(tǒng)人工方法進行對比,耗時效果如表1 所示。數(shù)據(jù)來源為近年來應用至全國幾大銀行反洗錢平臺的實際案例??梢姡捎密浖x能獲得的優(yōu)勢包括:
(1)分析戰(zhàn)法模型優(yōu)勢。反洗錢智能監(jiān)管系統(tǒng)內(nèi)嵌大量戰(zhàn)法模型,考慮國情和行業(yè)經(jīng)驗,方便業(yè)務人員快速上手。分析模型可復用,能幫助分析人員快速解決可疑賬單的交易特征分析問題,極大提高工作效率。
(2)分析服務優(yōu)勢。軟件通過設計數(shù)據(jù)接口和友好界面,便于提供售后、培訓及分析服務,保證客戶采購產(chǎn)品以后可以充分應用于實戰(zhàn),解決當前反洗錢業(yè)務中甄別難、分析難的實際工作問題。
(3)計算速度與應用范圍優(yōu)勢。之前使用人工或?qū)<医?jīng)驗判別的銀行,在面對海量數(shù)據(jù)記錄時,通常難以挖掘數(shù)據(jù)關聯(lián)邏輯,計算耗時長,甚至部分案例無法求得最優(yōu)解。該軟件賦能后在計算流程、計算算法和數(shù)據(jù)處理技術方面實現(xiàn)了智能化,提升了求解效率。此外,引入改進機器學習方法解決了海量有噪聲數(shù)據(jù)的訓練和測試問題,適于復雜場景下的快速數(shù)據(jù)分析。
表2 對比了采用不同機器學習算法的軟件有效性。首先,對銀行目標客戶的近30 天交易流水進行數(shù)據(jù)清洗;然后,對原始交易數(shù)據(jù)序列進行標準化;進而,按訓練集與測試集8∶2 比例進行模型訓練測試,推測可疑賬戶;最后,與經(jīng)過業(yè)務人員鑒別確定為真實的洗錢嫌疑賬戶進行對比,分析準確率。
表2 中的準確率與F1 值為10 次實驗所得計算結(jié)果的平均值??梢姡疚乃O計軟件算法的準確率可達85%以上,且F1 值較高,說明模型在數(shù)據(jù)分布不平衡的情況下取得了較好效果。

Table 1 Comparative analysis of the performance with and without the designed software表1 本文研發(fā)的軟件賦能前后效果比較

Table 2 Software performance comparison using different machine learning methods表2 采用不同機器學習方法的軟件性能比較
基于知識圖譜框架并結(jié)合反洗錢領域的實戰(zhàn)經(jīng)驗,考慮智能數(shù)據(jù)關聯(lián),將反洗錢措施流程化和智能化。提升性能包括:①實現(xiàn)反洗錢賬戶數(shù)據(jù)的智能采集和清洗;②根據(jù)業(yè)務特征實現(xiàn)智能分析和聚類;③滿足復雜多樣場景的分析需求,快速應對多變的洗錢行為;④實現(xiàn)洗錢類罪自動匹配和識別,尤其反洗錢違法犯罪的類型;⑤報告及數(shù)據(jù)庫快速生成,界面友好易操作。
金融洗錢行為存在數(shù)據(jù)跨領域、手法多變的特點。對此,技術層面的創(chuàng)新包括:
(1)數(shù)據(jù)關聯(lián)架構(gòu)。從通信層、數(shù)據(jù)層、展現(xiàn)層、用戶層自下而上為反洗錢案件提供多維度分析,實現(xiàn)海量嫌疑樣本中的目標精確快速鎖定,設定嫌疑資金流向自適應跟蹤功能。
(2)全量的數(shù)據(jù)融合和關聯(lián)存儲。考慮案件和數(shù)據(jù)類型多變,按業(yè)務場景動態(tài)建模,并對多源異構(gòu)的海量賬戶數(shù)據(jù)進行融合、特征抽取及關聯(lián)存儲,滿足軟件靈活性和快速性要求。
(3)基于動態(tài)圖數(shù)據(jù)的智能化。采用改進的機器學習算法進行數(shù)據(jù)挖掘,協(xié)助辦案分析人員快捷鎖定嫌疑賬戶的時空特性。采用人機智能的圖形化技術進行3D 布局和地理信息系統(tǒng)軌跡描繪,為最終決策提供智能的圖形化證據(jù)鏈。
(4)基于業(yè)務積累的模型。以工作流的形式進行反洗錢模型可視化設計,避免復雜的手動編程,后續(xù)案件可直接調(diào)用。案件分析人員可根據(jù)經(jīng)驗編寫和共享定制的分析模型,為后續(xù)維護和擴展提供便利。
本文介紹了基于知識圖譜并考慮智能數(shù)據(jù)關聯(lián)的金融領域反洗錢軟件設計方法,并通過案例描述了該軟件的設計流程、銀行業(yè)應用情況及創(chuàng)新思路。分析表明,在知識圖譜框架下將智能數(shù)據(jù)關聯(lián)和人工智能等技術融合,可實現(xiàn)從個體賦能到群體智能的軟件升級。該軟件在全國多家銀行和機構(gòu)運行,相關評估顯示,相比傳統(tǒng)非智能軟件及人工排查反洗錢手段,本文所述軟件可有效提升洗錢甄別率。
據(jù)中國人民銀行反洗錢中心預測,未來3 年反洗錢報告機構(gòu)預估為現(xiàn)在的兩倍左右,銀行業(yè)約3 000 家,證券期貨業(yè)約800 家,反洗錢分析市場規(guī)模將達160 億。本文所述軟件方法為該需求下的大數(shù)據(jù)挖掘和應用奠定了基礎,也為各銀行金融機構(gòu)反洗錢業(yè)務提供了助力。