袁 俊,劉國柱,梁宏濤,羅清彩
1.青島科技大學 信息科學技術學院,山東 青島 266061
2.山東浪潮科學研究院有限公司,濟南 250101
近年來,新冠肺炎疫情的突發在引發全球范圍內不確定風險加劇的同時,不僅造成金融市場的恐慌和極端波動[1],也深深影響商業銀行的經營和發展。國內外經濟形勢動蕩不止,金融市場反應劇烈,銀行業在風險管理過程中的難度也不斷加大。在此背景下,傳統風控模式下的潛在風險將加速暴露。
傳統風控模式存在的局限性如下:
(1)缺乏對數據有效的整合和利用。金融領域實現信息化后,歷時數十年已經積累了龐大的數據,但在商業銀行內部,客戶信息、賬戶信息、交易信息等數據通常散落在各個獨立的業務系統之中,利用效率和分析能力不足。行內往往存在著一個個“煙囪式”信息孤島,缺乏有效的信息整合,許多有價值的非結構化數據被埋沒在高熵無序的信息汪洋之中。
(2)缺乏高效識別和監控風險的手段。對于授信客戶的風險管理,無法在風險預警、監控等管理層面提供高效科技手段,對實際觸發數據的篩查和前期風險特征識別預警的手段不多。對于客戶洞察,通常以單個客戶為分析對象,根據客戶的行為與特征分析其風險狀況,對客戶關系網絡的探索較少。
(3)缺乏與時俱進的風險管控模式。近年來商業銀行接連推陳出新,新的業務和產品層出不窮,業務模式由柜臺服務向手機APP、微銀行、網絡銀行、自助終端、智能柜臺等線上渠道及平臺全面延伸。而欺詐行為也變得隱蔽和多樣化,只依靠過去傳統的規章制度、手工臺帳報表、人工審批和事后檢查等方式來發現潛在風險、解決違規已顯得力不從心,原有的風險管控模式亟需隨著業務改變而調整。
隨著不斷地經營發展,授信企業跨業經營、股權并購、融資結構日益復雜化、隱蔽化,這對商業銀行信用監測、風險評估等工作帶來了巨大的挑戰。在金融數字化議程加速的背景下,為解決傳統風控模式的弊端,商業銀行亟需推進風險管理工作中的科技創新,加快數字化轉型建設步伐。在風控領域中,風險往往不會孤立發生。對于自然人客戶,盜卡盜刷、非法套現等欺詐行為常常是團伙作案。對于企業客戶,隨著資金鏈、供應鏈、擔保鏈以及集團化的不斷發展,容易發生火燒連營般的連鎖反應。傳統的風控體系難以應對此類關聯性風險,基于圖數據結構構建的知識圖譜(knowledge graph,KG)[2]是解決此類問題的有效途徑。知識圖譜技術可以關聯不同數據源系統的孤立數據,提供客戶風險的統一視圖,打破信息壁壘,有效解決信息不對稱問題;能夠實現針對客戶關系網絡的洞察,有效防控關聯性風險,提升風控效能;能夠實現風險數據的自動化采集、分析和預警,并深入挖掘金融實體之間的隱蔽關系。
為此,本文將對風控領域知識圖譜的構建方法進行系統性綜述。
想要理解風控領域知識圖譜的概念,首先要了解什么是知識圖譜。1989 年,Bemers-Lee[3]發明了基于網頁之間相互鏈接的萬維網(world wide web,WWW),并在之后提出了新的網絡系統,在萬維網基礎上將其轉換為基于實體鏈接的語義網絡——語義網(semantic web,SW)。語義網能夠幫助計算機理解蘊含在自然語言中的知識以及它們之間存在的關聯關系。在語義網的鋪墊下,Google 公司于2012 年首次提出了知識圖譜的概念,并將其用于理解搜索關鍵詞的語義信息,為搜索結果提供關鍵詞相關的人物、地點、事件等補充內容。隨后知識圖譜逐漸在學術界與工業界得到深入研究,并在搜索服務、智能問答、情報分析等多個領域中大放異彩。但直到如今,知識圖譜的概念一直未有統一的定義,現借鑒文獻[4]對知識圖譜做出定義:“知識圖譜是一種采集信息并將信息集成到本體中、應用推理機以獲取新知識的的系統。”具體來說,知識圖譜是將物理世界的事物建模成相互關聯的知識網絡,它將實體抽象為一個個具備屬性的節點,而將兩實體間的語義關系抽象為連接這一對節點的邊,并以三元組的形式存儲這些實體、關系以及屬性。例如三元組“擔保(客戶A,客戶B)”描述了兩客戶間的擔保關系,三元組“行業類型(客戶,金融業)”描述了客戶的行業類型屬性。
從知識的適用范圍出發,可將知識劃分為常識知識和領域知識。相應的,知識圖譜也可分為通用知識圖譜與垂直領域知識圖譜。通用知識圖譜覆蓋多領域、多場景,具備相當大的知識廣度,如DBpedia[5]、Yago[6]、Wikidata[7]、Knowledge Vault[8]等。與之相比,垂直領域知識圖譜對知識的深度與粒度要求更為嚴格,其結構更為復雜,知識的應用形式也并不限于搜索、問答、推薦,可提供更為廣泛的知識服務。由于面向的業務場景不同,二者側重也不同,其構建流程及關鍵技術存在一定的差異。在表1中,對通用知識圖譜與垂直領域知識圖譜在知識圖譜的構建技術方面作了比較與分析。目前在金融行業中,已有商業銀行將知識圖譜技術應用在金融問答、智能風控、精準營銷、智能決策等領域中。面向商業銀行的風控領域知識圖譜指的是將知識的覆蓋范圍和應用目標聚焦于風控領域,圖譜中管理著客戶信息、業務信息、風險信息等多方面的知識,能夠結合規則指標或算法模型自動執行對風險的識別和預警。

表1 通用知識圖譜與垂直領域知識圖譜構建技術的比較Table 1 Comparison of construction technology of general knowledge graph and vertical domain knowledge graph
風控領域知識圖譜的架構主要包括其邏輯結構與體系架構。
(1)邏輯架構。從邏輯上看,風控領域知識圖譜可以分為描述抽象概念的模式層與描述具體事實的實例層。模式層中的知識是經過整合和概括的,冗余較少,一般用構建本體庫的方式對這一層次的知識進行管理,并對領域術語及它們之間的關系進行形式化表達。本體的概念源于哲學領域,早在上世紀80 年代就被引入人工智能領域中,用于在語義層次上對知識進行分類和描述。而實例層中的知識可以看作是有具體指向對象的本體實例。
(2)體系架構。知識圖譜的體系架構指其使用何種構建模式,主要有兩種方式:自底向上和自頂向下。前者是指直接從底層數據中獲取資源,將置信度高的實體、關系及其屬性歸納到知識庫中,再根據知識庫中的知識逐步向上抽象形成概念,以構建頂層的本體模式。后者指的是首先為知識圖譜構建出本體和數據模式,再將抽取的對象整合到頂層概念中。一般來說,通用知識圖譜中的知識面向通用領域,本體的復雜度不高但數目龐大,可以通過自底向上的方式、以數據為驅動實現自動化創建本體庫,節省人力和時間。垂直領域知識圖譜中涉及的術語和概念在廣度上相對有限,其復雜性表現在知識的深度上,所以可以由業務專家枚舉該領域中的重要業務術語,借助本體編輯軟件手動創建本體,能夠有效保證本體庫的質量。在風控領域,基于特定的業務關注點,可以考慮將客戶的電話號碼、地址等這樣的一些屬性信息設計為獨立實體節點。本體建模不僅需要正確而完整地描述已有的業務,還需要對將來的業務場景有一定的預估,才能設計出高適用性和高穩定性的本體框架。
綜上所述,為保證知識質量和準確度的要求,面向商業銀行風控領域的知識圖譜可以采取自頂向下與自底向上相結合的構建方式刻畫客戶、賬戶、合同、押品、機構等實體及其屬性、關聯關系。如圖1所示,其構建流程可歸納為知識抽取、知識融合以及知識推理等步驟。
知識圖譜是一個橫跨多領域、多專業的龐雜學科,想要構建一個大規模的風控領域知識圖譜,需要綜合自然語言處理、機器學習、深度學習等各類技術[9]。在知識抽取階段,可從商業銀行積累的海量數據中提取出實體、關系以及屬性等信息。在知識融合階段,可以對描述同一實體或概念的多源異構知識進行融合,消除歧義和冗余,有效提升知識質量。知識推理階段則是在現有的知識圖譜基礎上,進一步挖掘其中隱式的、包含的知識,對知識圖譜進行補充。
在知識圖譜的自動化構建流程中,知識抽取是一項重要環節。知識蘊藏于數據之中,知識抽取技術的關鍵在于如何從異構數據源中自動提取出高價值信息,并將它們存入知識庫中。風控領域知識圖譜中的知識主要來自于商業銀行的內部數據,一般以結構化的形式存放在關系型數據庫中。2012年,著名的標準化組織W3C發布了兩種RDB2RDF映射語言:直接映射(direct mapping,DM)[10]與R2RML[11],可以實現將結構化數據轉化為OWL本體或RDF數據。商業銀行外部數據包括中國人民銀行征信報告、銀監會披露的風險預警數據、國家工商總局公示的企業信用信息、區域范圍內的各級法院公告的裁判文書及執行信息、各級稅務機關披露的企業欠稅及行政處罰、網絡百科及財經新聞等數據,這些也是風控領域知識圖譜的重要數據來源。其中如工商信息、裁判文書、網絡新聞等主要以半結構化或非結構化的形式存在。對于來源不同、結構不同的數據,抽取過程中所使用的關鍵技術及其難點也迥乎不同。對于網頁中的半結構化數據,通常使用已制定抽取規則的包裝器對網站進行解析。對于以文本為代表的非結構化數據,抽取難度較高,需要借助自然語言處理技術,根據抽取對象的不同可以細分為實體抽取、關系抽取、屬性抽取等子任務。
2.1.1 實體抽取
實體抽取,即命名實體識別(named entity recognition,NER)[12],旨在從目標文本中界定如賬號、組織機構名、人名、貨幣、金額等命名實體,是風控領域知識抽取過程的關鍵部分,如圖2通過舉例對NER任務進行了描述。銀行賬號通常是一連串的數字,也可能夾雜字母,需要結合銀行制定的賬號生成規則進行識別和抽取。組織機構稱呼通常多種多樣,如“阿里巴巴集團控股有限公司”別名有“阿里”“阿里巴巴”“阿里集團”等。貨幣類型也有多種形式,如“人民幣”也可以用“¥”“RMB”“CNY”“Chinese yuan”等符號或文本表示。金額可以是數字,也可能是大寫的漢字,如“1 680.50”“壹仟陸佰捌拾元伍角”等。在風控領域,命名實體形式多樣、專業術語復雜等因素給NER帶來了巨大的挑戰。

圖2 實體抽取示例Fig.2 Example of entity extraction
經過長時間的探索和研究,目前工業界針對實體抽取問題已積累了大量的經驗和方法,表2介紹了幾種具有代表性的NER方法。這些方法大致可分為基于規則的方法、基于統計模型的方法和基于深度學習的方法。研究初期主要是人工構建規則的方法[13-15],將業務專家手工編寫的規則與目標文本進行字符串層面的簡單匹配,從而識別出命名實體。但這類方法依賴于規則的準確度和詞典的覆蓋面,無法識別規則覆蓋范圍外的新實體,而且在大規模文本數據集上的效果不盡如人意。隨著機器學習算法不斷深入發展,學術界逐漸將其應用于解決實體抽取問題并取得了不錯的效果,如隱馬爾科夫模型(hidden Markov model,HMM)[16]、最大熵模型(maximum entropy,ME)[17]、條件隨機場(conditional random field,CRF)[18]等。這類基于統計模型的方法實際是將實體抽取作為序列標注問題處理,通過語料標注、特征定義、訓練模型等步驟識別出文本中的實體。2015 年,為提升商業銀行風控工作效率,Alvarado 等[19]提出了一種基于大量域外數據和少量域內數據相結合的NER 方法,使用CRF 模型從貸款協議文件中提取信用風險信息,對借款人名稱、貸款人名稱、金額、日期、地點等實體進行抽取,F1 值達到0.798。但對于機器學習模型,人工預先定義的特征在很大程度上決定了實體抽取的準確率,而深度學習方法則可以突破此限制,近年來學者們提出了多種神經網絡結構,在NER 任務的應用中獲得了較好效果。2020年,為了監控系統性金融風險,Cheng 等[20]基于知識圖譜框架對外匯市場參與者進行實時監控,通過BiLSTM-CRF提取新聞文本中的金融實體,在銀行間市場參與者相關新聞的數據集上,準確率和Recall 值分別為93.33%、97.68%。2021 年,為防范合規風險,Wang 等[21]提出將BERT 與BiLSTM-CRF 結合,通過BERT預訓練詞向量并作為BiLSTM-CRF模型的輸入,以銀行間外匯市場中的海量聊天記錄作為數據集,對債券簡稱、債券類型、發行人等債券信息實體的識別結果在微平均和宏平均指標上比基于規則的方法高出1%~2%。隨著互聯網的發展,負面輿情能夠在極大程度上影響企業的經營,近年來客戶輿情風險成為商業銀行風控落腳點之一,但輿論文本中往往存在多個實體而只有少數的關鍵實體。針對傳統NER方法無法檢測關鍵實體的問題,Zheng 等[22]提出了一個端到端的分層多任務學習框架HMFF,可增強關鍵實體識別的特征學習,在2019 CCF BDCI“金融信息負面及主體判定”數據集上,關鍵實體識別任務的F1值達到0.950。對于同一任務、同一數據集,Zhao等[23]采取了不同的方法,通過基于RoBERTa的輿情分析以及關鍵金融實體檢測的方法,在抽取所有實體后通過句子匹配任務進一步確認關鍵實體,模型的F1值達到了0.952,略優于Zheng等人[22]的方法。除輿情風險外,企業的司法風險也是商業銀行風控工作的重要關注點,文獻[24]針對司法案件文本中存在的難點,將詞語以及詞性關系的拼接向量輸入到雙向LSTM神經網絡中提取特征,通過2個多層感知器再編碼得到詞向量與詞性關系向量,將所有詞向量拼接,并將所有詞性關系向量與1個單位向量進行拼接,隨后利用中間矩陣對拼接向量進行仿射變化,得到分數矩陣對實體頭尾、類別進行判斷,有效解決嵌套實體問題與原被告角色反轉問題。

表2 知識抽取方法的比較Table 2 Comparison of knowledge extraction methods
NER 一直以來都是工業界和學術界研究的熱點問題,根據實體抽取的定義可以將其分解為實體邊界識別和實體類型識別兩個步驟[25],提高實體邊界檢測的效果能夠直接有效地提高NER的準確率與召回率。
2.1.2 關系抽取
關系抽取(relation extraction,RE)的目的是為了獲取多個目標實體之間的關聯關系,例如從“百度集團董事長李彥宏的夫人是馬東敏女士”這句話中,可以抽取出兩個實體關系三元組“董事長(百度集團,李彥宏)”、“夫妻(李彥宏,馬東敏)”。目前存在著眾多RE方法,大體上可以分為基于模板的方法、基于監督學習的方法以及基于弱監督學習的方法。
初期的RE 任務大多借助于模板匹配的方法。Wu等[26]采用基于規則和模板的方法,在2003—2016年中國上市公司財經新聞中提取出訴訟、質押、債務等6 種實體關系,以構建用于金融領域RE任務的大規模語料庫,并提出了基于詞性標注與BIES 標注的混合方法,經人工驗證在測試集上RE 任務平均準確率為88.88%。與基于規則的NER方法的優缺點類似,基于模板的RE方法雖然構建起來簡單,在小規模數據集上效果不錯,但是覆蓋范圍有限,可移植性差。與之不同,基于監督學習的方法實際上將RE任務轉換為分類問題。Yamamoto等[27]利用馬爾科夫邏輯網絡從4 661篇網絡新聞數據集中提取企業關系,在每種關系的100 個樣本上,對于合作類關系與競爭類關系的準確率分別達到67%、81%。機器學習模型雖能取得不錯的抽取效果,但嚴重依賴特征工程,于是無需人工構建特征的深度學習方法受到青睞。在風控領域,企業客戶群體之間關系不明確會導致商業銀行信用風險加大,具體如給予多頭授信以及過度授信等。為有效提升集團客戶識別、貸款集中預警等風控工作的效率及準確性,2019年,Yan等[28]提出一種基于ERE-GRU 模型的企業關系自動抽取方法,使用雙向門控循環單元BiGRU 搭建神經網絡,通過提取詞匯特征和句法特征挖掘企業實體之間的關系,在手工標注的金融領域新聞數據集上F1 值可達到0.71,但較多的特征增加了向量維數。在文獻[28]的基礎之上,Yang等[29]提出了一種SDP-BGRU 模型,采用實體間最短依賴路徑(shortest dependency path,SDP)以及句子級注意力機制消除冗余和噪聲數據,利用雙向門控循環單元BGRU獲取特征向量,并通過SVM 分類器將企業關系抽取問題轉化為分類問題,在手工標注的財經新聞數據集上的F1值為0.919,可有效識別企業客戶關系,增強風險應對策略。在銀行風控中,企業關系和自然人關系訓練語料來源大不相同且不均衡分布,一起訓練會產生較大噪聲,針對此問題,李夢霄等[30]提出分開訓練企業關系和自然人關系抽取模型,隨后利用分開訓練的BERT模型對新聞文本中的實體與關系進行管道式抽取,并與銀行內部圖譜進行融合以支持風控決策。由于關系抽取的效果依賴于實體識別的準確率,學者們發現實體關系聯合學習能夠比單任務學習取得更優的泛化結果。2022年,田鷗等[31]提出了一種風險傳導概率知識圖譜生成方法,采用BERT-LSTM-CRF模型抽取企業實體關系對三元組,并引入掩碼多頭注意力結構提升BERT層提取上下文信息的能力,首先將企業信息輸入到BERT層進行編碼得到對應文本向量,再經LSTM層得到各字詞對應的類型分布概率,由CRF層生成實體關系對,通過計算企業關系對的風險傳導概率,有效防控沿客戶關系鏈的風險傳播。針對金融領域中的復雜重疊關系,唐曉波等[32]在預訓練語言模型BERT 的基礎上結合BiGRU 以及CRF,構建端到端的實體關系聯合抽取模型,在采集的上市公司資訊信息數據上重疊關系抽取任務的F1值達0.543。2022 年,楊美芳等[33]提出基于知識圖譜與文本互注意力機制的實體關系聯合抽取模型,通過大規模的風控領域語料與較少的高質量實體關系進行訓練,經風控領域專家評估該模型在測試集上的整體誤判率為10.7%。基于監督學習的方法離不開訓練語料,對深度學習模型的優化尤其依賴大量訓練數據。在這一點上,弱監督學習方法具有突出表現,只需要少量標注數據就能進行學習,主要包括遠程監督以及Bootstraping 方法。為理清股票發行企業面臨的金融風險,劉政昊等[34]在金融知識圖譜的構建過程中,使用遠程監督方法抽取持股、投資、面臨風險、實際控制人等13類關系,通過利用種子知識圖譜獲取可用于訓練的標注數據,可有效節省標注成本,隨后使用PCNN+Attention模型進行訓練,平均F1 值為0.67。Zuo 等[35]使用弱監督策略從金融新聞語料庫中提取企業間復雜業務關系,通過少量的初始種子迭代抽取實體關系,在2007 年新聞文章隨機挑選的100個樣本上,recall值與F1值均優于PCNN模型。
目前,RE 方法經過長時間的發展已經取得了一定成果,但在風控領域的實際應用中仍存在著一些挑戰。相比較通用領域,風控領域中的實體關系類型并不復雜,如圖3所示。一般不需要從知識圖譜中拓展新的關系類型,但風控領域知識圖譜往往存在關聯關系十分隱蔽的情況,需要結合知識推理技術進行深度挖掘。

圖3 實體關系類型Fig.3 Relation types of entities
2.1.3 屬性抽取
屬性抽取(attribute extraction,AE)的目的是為了從文本中抽取出“屬性(實體,屬性值)”形式的三元組,以助于對實體充分理解。風控領域中,存在屬性值為日期、金額、企業名或人名等,如“阿里巴巴(中國)網絡技術有限公司”注冊日期屬性為“1999-09-09”,法定代表人屬性為人名“戴珊”,可使用NER 方法解決屬性抽取問題,將屬性看成實體與屬性值之間的關系。2021年,文獻[36]提出了一種基于金融知識圖譜的信貸風險識別方法,采集銀行客戶的信貸風險數據,利用BERT 將文本中的詞語轉化為詞向量的形式,輸入到LSTM-CRF神經網絡模型中,以獲取信貸風險實體及屬性信息。針對授信企業涉及的輿情風險,文獻[37]提出了一種風險事件分級方法,通過BERT-BiLSTM-CRF模型對公司名稱、注冊資本、經營范圍、注冊地址、金融產品等實體屬性進行抽取,并通過Albert模型對損失金額、處罰金額、涉訴金額、死亡人數等事件屬性進行抽取,隨后對風險事件等級進行評定,以提升商業銀行在金融交易中的決策能力。文獻[38]采取BERT-BiLSTM-CRF模型對爬取的輿情信息進行輿情主體及對應屬性的提取,將AE 問題轉化為NER任務,并利用輿情主體、屬性和預警模型確定輿情評分,通過知識圖譜實現輿情信息的預警級別判定與預警信息推送。文獻[39]提出了一種基于擴充三元組的遠程監督方法對產品文本數據進行標注,將屬性抽取轉化成序列標注問題,并通過實驗證明了預訓練語言模型對屬性抽取性能的有效幫助。
目前在面向商業銀行風控領域的知識抽取實踐中,應用較為普遍仍是基于規則和機器學習的方法。針對關系和屬性抽取的性能在很大程度上取決于實體抽取結果,為保證所獲知識的質量和可用性,目前人工干預的情況較多,總體上自動化程度還不高。隨著商業銀行數字化建設的不斷深入,風控領域積累的數據體量呈現高速增長態勢,對知識抽取精度的要求也不斷提升。如何在保證知識質量的情況下提升風控領域自動化知識抽取水平和效率,還需要繼續深入研究。
由于知識獲取的不確定性,通過知識抽取技術獲得的知識通常會存在重復、沖突、質量參差不齊等情況,因此需要對知識進行轉換、清洗、消歧等操作,提升知識質量后,方可將其用于知識推理和知識應用。知識融合技術根據融合對象的不同,可分為面向模式層的融合方法和面向實例層的融合方法。其中實例層的異構問題是風控領域知識融合面臨的主要問題,包括實體鏈接、實體對齊、沖突消解等主要任務。實例層客戶實體的融合是風控領域知識融合任務的主要目標。由于知識規模巨大而質量參差不齊,多源異構實例數據的匹配面臨時間復雜度和空間復雜度的雙重挑戰。
2.2.1 實體鏈接
實體鏈接(entity linking,EL)旨在識別和提取文本中的新實體,將其與知識庫中的對應實體鏈接起來,并加入現有的知識庫中,消除知識的不一致性。現有的相關工作可以總結為基于實體屬性、基于實體流行度、基于上下文或基于外部證據的實體鏈接方法。機器學習模型在實體鏈接任務中有著廣泛應用,2019 年,Miao等[40]在構建金融領域動態知識圖譜的過程中,利用SVM模型基于相似性特征與先驗知識進行金融實體鏈接,在測試集上的精度可達0.78。Song 等[41]在企業知識圖譜的構建過程中,使用代理學習技術訓練SVM 模型并計算給定實體與每個候選實體間的相似性分數,在高于預定義的閾值時將給定實體鏈接到具有最高相似性得分的候選實體,在企業實體和自然人實體數據集上的F1值分別為0.90、0.81。Wang等[42]在股票市場知識圖譜的知識融合環節中,利用VSM模型進行實體鏈接,生成一組候選實體后通過計算實體間的相似度來確定是否需要消歧。近年來,深度學習作為研究熱點,也被廣泛應用于實體鏈接任務。2021年,Ding等[43]提出了一種基于端到端神經網絡模型JEL的方法,該模型利用少量的上下文信息和Margin 損失來生成實體的向量表示,并通過聯合訓練Wide線性模型和深度神經網絡模型分別匹配字符和語義信息,在摩根大通內部數據以及金融新聞數據集上的實體鏈接任務中取得不錯表現。
2.2.2 實體對齊
實體對齊(entity alignment,EA)也稱為實體解析、實體匹配,指判斷相同或不同來源的兩個實體是否描述的是物理世界中的同一對象,以消除知識的異構性。目前EA 任務中的方法可分為成對實體對齊方法,以及集體實體對齊方法。
成對實體對齊方法是基于實體及其屬性的相似度進行對齊。2019年,對于同一客戶在多家商業銀行同時擁有賬戶的情況,Suzumura等[44]在對金融犯罪檢測任務的研究中,使用基于簡單規則的EA方法,針對關系圖譜中的自然人客戶通過“全名+出生日期+國籍”或“身份證件類型+身份證件號碼+國籍”的屬性組合進行對齊,針對企業客戶通過“公司全稱+注冊日期+注冊地”或“注冊類型+注冊號+注冊地”的屬性組合進行對齊,以識別不同數據來源中的同一客戶實體。 此類方法簡單而高效,但在實踐中,由于客戶信息錄入時打字錯誤、文檔質量不高、OCR過程出錯等問題,給基于規則匹配的實體對齊帶來了許多挑戰。而基于概率的方法具備一定的容錯性,早期有Fellegi-Sunter模型[45]為參與相似度計算的每個屬性評價其重要程度,對它們分配不同權重以提高相似度計算的可靠性,通過組合這些屬性就可以得到兩個實體之間的相似度概率。例如,企業客戶的實體對齊中,注冊地址、法人代表、注冊日期等屬性對于兩實體間相似度概率的影響要顯著大于經營范圍、企業性質、企業規模等屬性。集體實體對齊方法是在成對實體對齊方法的基礎上,將實體間相互關系也納入相似度計算中。2019 年,Trisedya 等[46]提出了一種融合實體結構向量和屬性字符向量的實體對齊模型,利用TransE生成實體結構向量并隱式地學習了關系傳遞信息,通過屬性三元組生成屬性的字符向量,從而計算實體之間的相似度,在真實知識圖譜的實驗中比基線模型的性能提高了50%以上。2020 年,Yang 等[47]針對之前EA 任務中對屬性信息的利用中所存在的不足,提出了一種融合實體結構和屬性信息的協同訓練模型COTSAE,模型的屬性嵌入組件基于偽孿生神經網絡對字符級屬性信息進行編碼,并提出了聯合注意方法以確保屬性的類型及屬性值能夠共享注意力權重,該模型在實驗中優于所有基線模型。
商業銀行中一般存在著多個業務系統,如核心銀行系統、信貸管理系統、客戶交易信息服務系統等,大型國有商業銀行具有多至上百個系統。在這些系統中,對于同一客戶的相關數據可能存在著一定差異,如表結構不同、字段值不一致、數據粒度不一致等。除了實體鏈接、實體對齊外,知識融合還需要解決不同來源的實例數據間的沖突。例如,來自不同數據源的同一企業的規模描述不同,可能這兩部分信息都是正確的,只是兩個數據源存在時間差,期間企業規模發生了變化,對于這種情況保留最新的信息即可。也有可能是因為知識抽取的過程中產生了錯誤,針對此類情況可采取基于投票或是基于質量評估的方法進行沖突消解,基于投票的方法是對不同知識出現的頻率進行投票和統計,出現次數較多的知識可視為可信度較高。基于質量評估的方法是通過考量數據來源、數據日期等因素對知識的置信度進行量化計算,保留置信度較高的知識。
知識推理旨在從現有知識的基礎上深入挖掘出新的知識,從而對知識圖譜進行完善和拓展,有效應用知識推理技術可以輔助決策。在風控領域知識圖譜中,推理主要用于知識圖譜補全(knowledge graph completion,KGC)、三元組分類(triple classification,TC)等任務,其中知識圖譜補全是對三元組中缺失或隱含的實體、關系進行補全,即鏈接預測任務。而三元組分類則是確定三元組所描述的事實是否正確,進行二分類。知識推理方法大致上可以歸納為以下幾類:基于規則的推理方法、基于圖結構的推理方法、基于表示學習的推理方法、基于強化學習的推理方法以及基于時序性的推理方法。
2.3.1 基于規則的推理方法
基于規則的方法在早期的知識推理任務中應用廣泛,風控領域的規則來自于商業銀行內的業務規定以及專家依據經驗從已發生的風險事件中提取的特征信息。通過預設的經過驗證的規則,根據規則與事實的匹配與否給出推理結果。如判定貸款資金是否受托支付的推理規則為:貸款發放時,收款人與借款人不一致。對于與規則匹配的某筆貸款,其支付方式可被判定為受托支付。2019 年,為預測企業破產風險,唐曉波等[48]通過CART 算法從訓練集中抽取用于破產預測的9 條規則,并將其轉化為對應的SWRL 規則,隨后利用Drools推理引擎進行可解釋的知識推理,在2008—2017 年美國破產上市公司數據上預測破產企業的準確率達到84.13%。除此之外,還可以對實體間隱含的關系進行推理。表3 中列舉了幾種隱含關系及其推理規則,可在風控領域知識圖譜中對客戶實體間的關聯關系進行深化。

表3 關系推理規則舉例Table 3 Example of reasoning rules of relations
為便于書寫規則,面向數據庫及知識庫的邏輯語言Datalog[49]得到開發,在其基礎上,牛津大學推出了Vadalog[50],以平衡知識推理的計算復雜度和表達能力。2020 年,Atzeni 等[51]提出了基于Vadalog 和多層次聚類的Vada-Link框架,將KGC任務化分為聚類與多分類這兩個子任務,并在為意大利中央銀行構建企業股權知識圖譜的實踐中取得不錯效果,在20 個集群上的召回率為99.4%,在50 個集群上的召回率為98.6%。基于規則的推理方法較為精確且具有可解釋性,但學習能力不足,人工提供規則的效率較低。為彌補此缺陷,有學者提出了自動化的規則學習方法,如AMIE[52]通過迭代地在規則中增加懸掛邊、實例邊以及閉合邊,引入剪枝策略以高效地探索搜索空間,并在規則學習的過程中評估規則的質量,可以有效應用在大規模知識圖譜上。為對知識圖譜缺失的關系進行推理,2020年,Zhang等[53]提出集成全局信息與關聯規則的概率模型FGEM,首先挖掘簡單規則并生成大量知識,以構造因子圖表示推理空間,然后通過開發EM算法,E步驟中使用置信度傳播算法計算候選邊的邊緣分布,M步驟中通過廣義迭代比例擬合框架學習軟規則的可信度,最終在關系補全任務中的表現優于AMIE、TransH。自動化的規則學習方法將挖掘到的置信度高的規則添加進規則庫中,可以節省人力,大幅度提升工作效率。
2.3.2 基于圖結構的推理方法
由于知識圖譜特有的圖屬性,基于圖結構的方法尤其適于知識圖譜的推理任務。在知識圖譜技術面世之前,Lao等[54]已提出將基于隨機游走的PRA算法用于大規模知識庫中的推理和學習,將節點間的路徑作為特征預測潛在路徑,具有較好的可解釋性,但計算量大。Gardner等[55]其PRA基礎上提出表達能力更強的子圖特征提取模型SFE,舍去路徑特征的概率計算,直接保留二值特征,以有效降低計算復雜度。2022年,Wu等[56]將SFE方法應用在金融欺詐風險分析中,構建基于SFE的知識圖推理框架,通過搜索已知詐騙公司以挖掘潛在的詐騙公司,有助于監管機構防范欺詐風險。除欺詐風險外,企業供應鏈的風險傳導也不容忽視,傳統的供應鏈風險分析方法只針對鏈中大型核心企業,授信時以其非流動資產作為擔保,而中小企業依靠核心企業的信用擔保,傳統風控模式無法捕捉其日常交易中流動資產形式的轉換。針對這一問題,Zhang 等[57]提出了基于圖挖掘的企業供應鏈推理方法,利用企業間交易合同與企業基本信息搭建知識圖譜,隨后通過基于圖的社區檢測方法發現潛在的企業供應鏈,從而對供應鏈中的企業進行風險評估,以支持商業銀行授信決策。針對股權網絡中的關聯查詢問題,Ouyang等[58]提出了基于金融領域知識圖譜的雙節點關聯查詢DAQ 算法以及多節點關聯查詢MAQ 算法,以挖掘兩頂點之間最大股權鏈的k度關系路徑,為金融風險防控提供強有力的技術支撐。2020年,黃煒等[59]基于浦發銀行全行級企業關聯關系知識圖譜,利用隨機游走以及Fraud Rank 算法模擬了以輿情數據、借貸信息為起點的風險傳播過程,并對風險值進行計算。呂華揆等[60]通過深度優先遍歷以及Tarjan算法對金融實體間持股關系、持股比例進行穿透式分析,并結合網絡中心度指標判斷實體對象風險水平,為風險識別和預測提供了新方法。
基于圖結構的推理方法可以很好地挖掘圖結構中的路徑特征,結合業務規則,可以挖掘出實體間的隱含關系及路徑等,但在大規模知識圖譜的應用中會面臨高復雜度和巨大計算量等問題。
2.3.3 基于表示學習的推理方法
隨著知識圖譜的向量表示方法不斷完善,基于表示學習的推理也取得了新的進展。基于表示學習的推理是將實體和關系映射到連續的向量空間中進行向量表示,再根據這些低維向量進行知識圖譜補全、三元組置信度評估等推理任務。其中應用較為廣泛的是基于平移距離的方法與基于語義匹配的方法。
(1)基于平移距離的方法。其中較為經典的模型如TransE[61]、TransH[62]、TransR[63]、TransD[64]等。它們的共同特點是得分函數通過計算頭、尾實體向量間的距離,以衡量此三元組的置信度。最早的翻譯模型TransE 受到詞向量中平移不變性的啟發,將關系的向量表示解釋成頭、尾實體向量之間的轉移向量,簡單而高效。TransA[65]在TransE的基礎上,將得分函數中的歐氏距離改為適用性更高的馬氏距離,并為實體與關系向量的每一維學習不同的權重以區分其重要程度。TransParse[66]將TransR模型中的稠密矩陣簡化為稀疏矩陣,可以有效解決實體與關系的異質性,減少參數數量,并通過對頭、尾實體使用不同的投影矩陣解決關系的不平衡性問題。為解決一種關系可能對應多種語義信息的問題,TransG[67]提出使用高斯混合模型及聚類算法生成實體關系的多種表示,不同的語義用不同的高斯分布描述。近年來,翻譯模型在風控領域知識推理任務中得到嘗試。2021 年,Ma等[68]提出了一種基于知識圖譜語義信息的深度學習模型,利用TransR模型將離散符號表示的知識圖譜嵌入到向量空間中,以挖掘債券實體之間的隱含關系,并使用融合知識圖譜語義信息的DeepFM 模型對債券違約進行預測,取得了不錯的效果。
(2)基于語義匹配的方法。比較經典的模型有RESCAL[69]、DistMult[70]、ComplEx[71]等,這些模型的共同特點是借助矩陣、張量或是神經網絡挖掘實體向量和關系向量之間的語義聯系,其得分函數使用相似度來衡量。在RESCAL、DistMult 的基礎上,HolE[72]將二者相結合,引入循環相關運算描述實體之間的關聯。ANALOGY[73]將RESCAL中的關系矩陣約束為正規矩陣,以進一步對實體和關系的類比屬性進行建模。為學習到更多的特征,ConvE[74]提出使用多層卷積網絡進行知識圖譜嵌入,但對于實體與關系間的交互仍不充分,于是ConvR[75]提出將關系向量作為卷積核,以獲得實體與關系之間交互最大化,而InteractE[76]使用特征置換、交叉排列的特征重塑和循環卷積操作以增加實體與關系間的交互。SACN[77]提出使用加權的圖卷積網絡解決ConvE中圖結構信息未充分利用的不足,并保留了平移特性。2022年,Alam 等[78]將貸款違約預測二分類問題轉化為知識圖譜推理中的鏈接預測和三元組分類問題,即對三元組“分類為(申請人,?)”中缺失的尾實體預測為“違約”或“不會違約”,利用ComplEx 捕獲語義信息,并作為特征輸入到LR、RF 等傳統機器學習分類器以提升其性能,增強貸款違約預測模型的準確性和可解釋性。
2.3.4 基于強化學習的推理方法
2017 年,強化學習(reinforcement learning,RL)首次被引入知識圖譜推理中,經過近幾年的探索,目前基于強化學習的推理方法已成為知識推理研究的新方向。開山之作DeepPath[79]旨在推理給定頭實體到尾實體之間的路徑,并將其建模為馬爾科夫序列決策問題,通過TransE將知識圖譜映射到連續空間中,利用基于蒙塔卡洛策略梯度的REINFORCE算法求解,在獎勵函數的設置中考慮路徑的多樣性、效率以及準確率,令智能體執行最優動作以拓展路徑,但其策略網絡需要預訓練,且搜索效率較低。緊隨其后,Minerva[80]旨在解決已知頭實體與關系情況下的查詢回答問題,并將其建模為部分可觀察的馬爾科夫決策過程。與DeepPath 相比,Minerva無需預訓練,獎勵函數較為簡單,且具備更強大的推理能力,但當缺乏高質量路徑的訓練時,模型易受虛假路徑誤導。后續工作Multihop-KG[81]改進了Minerva的獎勵函數,使用預先訓練的ConvE 模型計算軟獎勵,并在訓練過程中隨機掩蓋部分出邊,避免智能體受到歷史路徑誤導,實現對路徑的多樣化探索。于2019 年提出的AttnPath[82]通過引入基于LSTM與圖注意力機制的記憶組件以擺脫對預訓練的高度依賴,使用TransD 進行知識圖譜表示學習,并通過設定新的強化學習機制以避免智能體在某一節點持續停滯,在實驗中顯著優于DeepPath。由于基于強化學習的推理方法具有良好的可解釋性和學習能力,在量化金融、投資交易等決策問題中已得到有效應用,同時在金融風控領域也進行了初步探索。為識別與防范企業重大風險,熊盛武等[83]提出了一種基于強化學習的區域產業關聯效應趨勢推理方法,以預測如“中美貿易摩擦”“關稅”等風險事件對關聯產業的影響趨勢,首先在產業知識圖譜上通過TransE將事實映射到低維向量空間,并將趨勢預測建模為序列決策問題,利用LSTM提取的歷史路徑特征和自注意力機制提取的鄰接實體特征構建策略網絡模型,智能體最終抵達的實體即預測結果。
2.3.5 基于時序性的推理方法
目前大部分知識圖譜相關研究大多是基于靜態知識圖譜,即認為圖譜結構不隨著時間變化而改變,只能反映某一時間點的風險信息。而真實數據通常具有隨時間演化的動態性,T+1 時刻的知識圖譜結構可能與T時刻的知識圖譜結構有著不小的差異,如企業實體的股權結構發生頻繁變動。同時新知識的重要程度一般大于舊知識,風控領域中的大部分業務都帶有時間窗口的限制,如統計客戶自貸款發放日起一個月內進行的借方交易金額。
近年來,基于時序性的知識推理方法相關文獻陸續發表。對于商業銀行來說,了解客戶行為對降低信用風險以及欺詐風險非常重要。2020 年,Shumovskaia 等[84]使用鏈接預測方法來挖掘銀行客戶間的交互,通過一家歐洲的大型銀行真實客戶交易數據集得到了具有8 600萬節點和40 億條邊的時序圖譜,按時間段劃分為三個部分:前三年、第四年和第五年,分別用于訓練、驗證和測試,隨后采用2-SEAL-RNN 模型進行鏈接預測,其中RNN 用于構建注意力機制,在提取目標鏈路周圍的閉合子圖之后處理關系對應的時間序列,最后將2-SEALRNN 作為GCN 中的注意力模塊以提高信用評分的質量。針對擔保關系動態變化的擔保圈風險,Cheng 等[85]提出了一種基于時序圖譜的注意力神經網絡模型DGANN用于預測風險擔保關系(即借款人違約而其擔保人未能償還擔保金額),模型包括具有結構注意力的GCN、具有時序注意力的GRN 以及計算風險概率的預測層這三部分,并在東亞一家主要金融機構2013—2016年期間的真實貸款數據集上對DGANN模型進行評估,對風險擔保的預測精度超越了GCN、SEAL、GRNN 等基線模型。隨后,Wang 等[86]提出通過時間感知圖神經網絡TemGNN 對信用風險進行預測,該模型結合了靜態特征學習模型、帶有特殊圖卷積的短期圖編碼器以及基于LSTM的長期時序模型這三部分,能夠同時挖掘短期和長期的時間結構信息,最后在支付寶客戶借貸行為時序圖譜上進行違約預測,效果優于所有基線模型。2022 年,Yang 等[87]引入時間信息構建企業動態風險知識圖譜,在“實體-關系-實體”三元組的基礎上增加時序維度,拓展為“實體-關系-日期/時間-實體”形式的四元組,通過基于多關系循環事件的動態知識圖譜推理方法Multi-Net 預測缺失實體和關系,并利用多關系鄰近聚合器得到每個時間戳下實體鄰近信息聚合后的向量表示,隨后利用基于LSTM的時序事件編碼器捕捉風險事件在多時間、多關系上的依賴性,將鏈接預測視為多分類問題并通過改進損失平衡函數提升計算精度,最后通過金融數據集驗證該模型在鏈接預測任務中的明顯優勢。
總的來說,基于表示學習的推理方法雖然可以自動捕捉特征,但可解釋性較差,且知識表示過程會產生語義損失。風控領域中決策空間巨大、推理鏈較長,基于表示學習的推理在復雜的推理任務上存在局限性,很難取得令人滿意的效果。Shao 等[88]在新加坡星展銀行的真實客戶數據上驗證了這一點,將TransE、DistMult、ComplEx用于知識圖譜補全任務,實驗結果表明這些模型在金融數據集上的性能遠低于在公共數據集上所能達到的效果。基于強化學習的推理方法是新興的推理手段,在風控領域有待進一步探索,例如用于風控領域知識圖譜中挖掘因果鏈的風險溯因場景,以生成可解釋的風險演化路徑。基于時序的推理方法通過引入時序信息以契合真實的風控場景,主要利用RNN、LSTM 等神經網絡捕獲時序特征,在對于可解釋性要求較高的風控領域中難以受到信任。目前在風控領域中應用較多的還是基于規則的推理方法以及基于圖結構的推理方法。隨著科技的不斷發展、人力成本上升,知識推理技術勢必要朝著自動化、智能化的方向發展,在這一技術領域中仍存在著許多挑戰和機遇。
面向商業銀行風控領域的知識圖譜有如下幾個方面的特點:(1)全面性。利用知識抽取技術以獲取全面的風險信息,基于知識圖譜描繪客戶風險全景圖以洞察客戶行為,有效防控信用風險、操作風險、欺詐風險。(2)深加工。利用知識推理技術挖掘實體間的潛在關系,以及擔保圈鏈、資金轉移鏈等復雜關系鏈。(3)淺表達。通過可視化工具進行圖形化展示,金融實體間錯綜復雜的關聯關系可以一目了然。近年來知識圖譜技術在商業銀行已有實際應用,表4中列舉了幾家商業銀行在風控領域中的知識圖譜應用成果[43,89-92]。以下從反欺詐、反洗錢、關聯風險預警、可視化分析、數字普惠金融等方面介紹知識圖譜的應用。

表4 知識圖譜在商業銀行風控領域的應用成果Table 4 Application results of knowledge graph in field of risk management of commercial banks
(1)反欺詐。欺詐行為包括薅羊毛、電信詐騙、刷單、中介代辦、套現等,若未嚴加防控,可能使商業銀行造受巨額損失,所以反欺詐在商業銀行的風險管理中起著重要的作用。風控領域知識圖譜可抽取和挖掘目標客戶的設備信息、交易數據以及行為數據,拓展對欺詐風險的分析維度。在申請階段,可結合一定指標的預警規則對賬號、設備等風險因子進行分析,以支持高效、精準的反欺詐預測,對虛假申請等行為進行有效預警;在交易階段,結合特征工程和算法模型對目標客戶涉及的交易數據進行分析,對非法套現、盜刷等欺詐行為進行實時預警和監控。2019年,金磐石等[93]提出了一種基于企業畫像與關聯圖譜的貸前反欺詐模型,對小微企業客戶的欺詐風險進行量化,在測試集上的AUC 值比僅利用企業基本特征建模提升了5%,能夠有效檢測申貸階段的欺詐行為。Yang 等[94]提出一種反欺詐檢測模型FraudMemory,通過TransE在交易圖譜上生成客戶實體的向量表示以提取語義特征,在某銀行的380萬條客戶交易數據上欺詐預測效果優于SVM、GRU 等基線模型。2022 年,Mao 等[95]通過構建企業交易知識圖譜,提取交易規模、類型與頻率等特征,以增強金融欺詐行為檢測能力,并在2000—2019 年中國上市公司數據集上取得不錯的效果。
(2)反洗錢。洗錢行為是指通過混淆資金來源,使非法獲得的金錢財產轉變為合法資產的過程。反洗錢是一項全球范圍內的艱巨任務,通常涉及多地域、多機構、多部門。商業銀行面對的洗錢犯罪一般是團伙作案,利用多身份、多賬戶進行操作。隨著互聯網金融和數字貨幣的發展,洗錢作案方法越發復雜,洗錢作案手段越發隱蔽。僅依靠賬戶一度關聯交易識別洗錢賬號通常步履維艱,而利用知識圖譜建立賬號實體間的資金交易關系網,可以對監管賬號的關聯賬號進行深度追蹤挖掘,由淺到深地逐步排查可疑賬號,從而大幅度減少調查體量,提升反洗錢能效。2020 年,Bellomarini 等[96]提出基于Vadalog 和知識圖譜的反洗錢框架,對最終受益人、控股、夫妻等關系進行挖掘,然后根據綜合情況對可疑交易計算懷疑度評分。
(3)關聯風險預警。外部風險是客戶發生違約的重要原因之一,因關聯企業的風險沖擊等外部因素引起的違約案例數不勝數。目前商業銀行的客戶洞察工作中,主要以客戶自身為研究對象,對于多個客戶間的風險傳導進行評估時通常只能評估與分析對象有直接關聯的客戶風險,而無法對其間接關聯客戶進行風險評估。通過搭建客戶關聯圖譜,可以對客戶錯綜復雜的外部關聯關系逐級梳理,有效拓展風險預警范圍,加強對關聯風險客戶的重點關注。考慮到同一種關系的緊密程度也存在差異,可根據關系屬性劃分關系等級,在風險傳導概率計算中為不同等級的關系分配不同的權重,例如,資金往來關系可以可根據交易金額的數量級劃分權值,“100 RMB”對應關系權值為3,“10 000 RMB”對應關系權值為5。2020 年,Xue[97]利用知識圖譜建立企業客戶關系網絡,挖掘風險傳遞路徑并計算風險傳遞系數,以幫助商業銀行精準定位客戶的潛在風險。
(4)可視化分析。風控領域知識圖譜將冗雜的信息轉化為高度結構化的知識網絡,借助可視化技術可以將知識資源映射為圖形元素,通過提供多維洞察視角,將實體間復雜關系直觀明了地描繪出來,令圖譜使用者對客戶、關系以及風險傳導路徑等信息了解得更為透徹。Wang等[98]基于交易數據構造了端到端的風控領域知識圖譜,將知識以三元組的形式存儲在Neo4j 圖數據庫,以文本列表和圖形可視化相結合的方式展示客戶之間的業務關系。
(5)數字普惠金融。近年來,普惠金融受到高度重視,但風險一直是普惠金融發展中的核心問題之一,商業銀行在發展傳統普惠金融業務時面臨信息不對稱、貸前審批難、貸中貸后管理難等問題。而數字普惠金融實現金融科技與普惠金融的完美結合,利用知識圖譜技術打造數字化風控體系,能夠有效提升風控水平與工作效率。由于小微企業大多處于產業鏈弱勢地位,容易受到上下游風險傳導,中國農業銀行通過構建小微企業知識圖譜,劃分風險客群,對小微客戶風險進行洞察和分析,致力于建設智能中樞,實現風控立體化,為數字普惠金融開辟了新道路[99]。
目前,國內銀行對于知識圖譜在風控領域中的應用尚淺,數據質量還不完善,面臨數據治理能力和數據價值挖掘能力的挑戰。歐美對于金融知識圖譜的探索較早,構建技術較為成熟。十多年前,英國Garlik 公司就已將語義網用于在線信用監控。由EDM Council 發布的金融業業務本體(financial industry business ontology,FIBO),此標準經過包括美國道富銀行、德意志銀行在內的多家銀行的檢驗。豐富的語義本體為知識圖譜奠定基礎,能夠準確描述金融實體,顯著減少映射工作,并能夠通過ETL代碼生成和自文檔化,降低維護成本。
本文在對知識圖譜的概念、體系架構等全面闡述的基礎上,介紹了風控領域知識圖譜構建技術的研究進展,并列舉了風控領域知識圖譜的實際應用及成果。由于大型商業銀行存量客戶可達千萬量級,在風控知識圖譜的構建過程中會生成以億為量級的節點和邊,不僅對圖譜存儲帶來巨大負擔,也為知識抽取、知識融合、知識推理等構建技術帶來了新的障礙,大型知識圖譜的管理和運營也是潛在的挑戰[100]。在過去的十年中,知識圖譜技術從首次被提出到現在廣泛研究,期間雖取得了諸多實踐成果,但在風控領域的落地實踐中仍存在進一步發展的空間。
(1)進一步提升知識質量與知識抽取效果。商業銀行中,各業務條線一般有著各自的管理系統,不同系統或是同一系統的不同模塊可能出現重復錄入的情況,從而產生冗余或是數據不一致的錯誤,另外人工錄入信息時也可能輸入錯誤信息。在風控領域,對數據的準確性有著極高的要求,錯誤信息可能還會造成其關聯知識產生偏差,嚴重影響決策和判斷。在對結構化數據的抽取時可結合ETL技術提高知識質量,對于非結構化文本數據,可通過人工定義規則過濾掉一部分錯誤信息,并使用NLP 技術進行預處理。針對商業銀行風控領域的專業術語復雜度較高等特點,可以考慮結合融入專家經驗的規則庫提升深度學習模型的效果。對于罕見詞和多義詞,結合垂直領域的業務背景加以解釋,提升知識抽取效果。
(2)隱私保護下的知識共享。風控的本質是利用數據降低信息不對稱程度,所以銀行需要全面采集客戶信息。而2021年《數據安全法》和《個人信息保護法》接連頒布,昭示著風控工作的前提是保障客戶隱私安全以及數據安全。相比較網絡爬蟲盛行的前幾年,當下更為注重個人隱私安全、數據合規性。考慮到客戶隱私、商業競爭等因素,銀行業未能形成聯合風控模式,無法共享數據、算法模型。故而可能出現這種情況:同一授信客戶在不同銀行的信用評分相差較大。現有的隱私保護機器學習技術如協作學習、聯邦學習以及安全機器學習,能夠支持多方在隱私保護下的數據使用和機器學習建模。知識圖譜中的知識涉及實體間的關聯關系,更為復雜。未來可考慮將知識存儲、知識表示與同態加密、密鑰共享等加密技術相結合,以促進知識共享。
(3)增強知識推理的可解釋性。嵌入表示算法能夠獲得高效的計算效率,但模型越復雜,推理結果就越難被解釋,缺乏可解釋性的自動化推理與決策可能導致未知的風險。風控領域對算法模型的安全性能要求較高,其可解釋性事關商業銀行穩健經營和客戶權益保障。有相關工作通過稀疏注意力機制、重要性權重等方法增強知識嵌入的可解釋性[101-102]。未來可以考慮提高已具備高安全性的基于規則或圖結構的推理模型性能,以及提升從黑盒模型中提取可解釋性描述的精確性。
“十四五”規劃提出“加快數字化發展,建設數字中國”,央行也提出“力爭到2025 年實現整體水平與核心競爭力跨越式提升”的金融科技發展愿景,可以預見,商業銀行數字化建設仍將不斷加強、加深。在深度學習能力的支撐下,知識圖譜能夠有效提升商業銀行知識管理的智能化水平,為智慧金融的建設提供新動力,在銀行業的大規模應用已成必然趨勢。面向商業銀行的風控領域知識圖譜以風控業務為重心,通過建立以大數據為支撐的知識網絡,對風險進行智能化監控與及時預警。當前知識圖譜在銀行業的落地仍處于發展階段的初期,如何使業務和技術深度融合是知識圖譜落地的關鍵。待領域知識圖譜構建技術進一步發展,知識圖譜將提供更為廣泛的知識服務,對于風險識別和分析的準確率也會越來越高。