999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關聯(lián)圖譜的銀行大數(shù)據(jù)風控體系構(gòu)建研究

2021-07-16 10:07:26張素子
科學技術創(chuàng)新 2021年19期
關鍵詞:關聯(lián)模型

張素子

(興業(yè)消費金融股份公司,上海 200120)

大數(shù)據(jù)風控模型近幾年在信貸業(yè)務中被廣泛應用。傳統(tǒng)的風控模型基本是對借款人個人情況的評估,而較少去評價不同申請人之間的關聯(lián)關系。而信貸業(yè)務中的欺詐團伙經(jīng)常體現(xiàn)出較強的關聯(lián)關系,并伴隨著較強的偽裝手段,使得無法通過簡單的一度關系識別不同客戶是否來自同一群體。關聯(lián)圖譜是一種非常適合信貸業(yè)務反欺詐領域的方法,其識別欺詐客戶的效果較優(yōu),同時又具有技術上的可行性。

1 研究內(nèi)容

本文基于關聯(lián)圖譜的理論和技術,根據(jù)信貸業(yè)務的數(shù)據(jù)特征和業(yè)務要求,研究其在信貸業(yè)務大數(shù)據(jù)風控領域中的實際落地應用方案,包括關聯(lián)圖譜的實體與關系抽取、圖譜構(gòu)建、數(shù)據(jù)存儲等技術,以及基于關聯(lián)圖譜構(gòu)建大數(shù)據(jù)風控提示的具體實踐。

2 關聯(lián)圖譜的理論基礎及關鍵技術

2.1 關聯(lián)圖譜理論

關聯(lián)圖譜的本質(zhì)是語義網(wǎng)絡的一種,是一種基于圖的數(shù)據(jù)結(jié)構(gòu)。關聯(lián)圖譜一般由實體- 關系- 實體的三元組構(gòu)成,這種三元組可以將互相獨立的貸款申請之間關聯(lián)起來,形成復雜而連通的網(wǎng)絡。

圖1 即是關聯(lián)圖譜的一個示例,申請人1、申請人2、申請人4 與公司1 是工作關系,申請人1 和申請人3 是配偶關系。雖然申請人2 和申請人3 并無直接的關聯(lián)關系,但是通過關聯(lián)圖譜可以將兩人聯(lián)系起來。后續(xù)可以通過機器學習的算法識別兩人是否屬于同一群體。

圖1 關聯(lián)圖譜示例

2.2 關鍵技術

2.2.1 實體抽取技術

關聯(lián)圖譜中的實體可以被定義為任何事物。在信貸業(yè)務中,一般可以認為實體是人、設備、IP 地址、公司、地址等,而關系包括從屬關系、聯(lián)系人關系。由于信貸業(yè)務中的實體都較為明確,例如身份號、手機號均可以唯一地識別實體,故信貸業(yè)務中實體抽取較為簡單,可以采用常用的結(jié)構(gòu)化數(shù)據(jù)來提取和標識實體。在實際應用中,選擇身份證號、手機號、地址、公司名來構(gòu)建關聯(lián)圖譜。

值得注意的是在實際應用中,諸如地址、公司名這樣的實體存在數(shù)據(jù)標準化的問題。數(shù)據(jù)標準化問題主要來源于客戶填寫時的方式千奇百怪,如新疆省和新疆維吾爾族自治區(qū)實際是同一省份。數(shù)據(jù)標準化的問題主要采用基于N-gram 和基于HMM的分詞方法對原始數(shù)據(jù)進行分詞后與已有的行政地址劃分庫和公司庫進行比對,可將非標準化的地址和公司映射至標準化的地址和公司名。

對于已知的詞匯,假設隨機變量S 是一個文字序列,隨機變量W 是S 可能的切分路徑。分詞實際上就是求解使條件概率P(W|S)最大的切分路徑W*,即

由于對W 來說S 為已知序列,故P(S|W)為1,P(S)為常數(shù),因此只需要求解P(W)。P(W)使用N-gram 語言模型建模,假設一個詞出現(xiàn)的概率,只與其前n-1 個詞相關。常用的Bi-gram 取n=2,即一個詞出現(xiàn)的概率只與其前一個詞相關:

可以用全切分有向無環(huán)圖(DAG)來畫出簡單句子的所有區(qū)分,并尋找出一條概率最大的路徑。

對于未知的詞匯,使用HMM (隱馬爾克夫模型) 模型,用Viterbi 算法找出最可能出現(xiàn)的隱狀態(tài)序列。

2.2.2 關系抽取技術

信貸業(yè)務中實體之間的關系也較為明確,如聯(lián)系人之間的關系可以是配偶、朋友、親戚等,對于此類關系,可以直接進行提取。

實際應用中,對于地址、公司的關系提取存在一定的集中性問題。如較多客戶填寫同一個工作單位,就不能簡單地把其處理為同事關系,一是因為客戶之間的關系較弱,他們本身認識或者成為同一群體的概率較小;二是圖譜中如有少數(shù)實體有較多關系相連,則群體發(fā)現(xiàn)算法會在這樣的大實體上集中,而忽視小實體之間關聯(lián)關系。信貸反欺詐中實際更關注小實體之間的關聯(lián)關系。故抽取關系的時候必須對集中性關系進行處理。

針對集中性問題,可以結(jié)合實際情況采用刪除和降低權(quán)重處理。

2.2.3 圖譜構(gòu)建技術

在抽取完實體與關系后,可以將所有信息放入連通圖。此時需要使用機器學習模型去將實體切割成不同的子群體,觀察群體內(nèi)部有無明顯的欺詐行為。切分群體的方法主要包括標簽傳播算法、Louvain 算法。

標簽傳播算法為基于圖的半監(jiān)督學習算法,基本思路是從已標記的節(jié)點的標簽信息來預測未標記節(jié)點標簽的信息,經(jīng)過多次迭代使整張圖達到穩(wěn)定,建立完全圖模型。

Louvain 算法是基于模塊度來衡量一個社群的劃分是不是相對比較好的結(jié)果,最終以最大化模塊度為目標,得出最優(yōu)的群體劃分方法。

2.2.4 數(shù)據(jù)存儲技術

關聯(lián)圖譜可以使用傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)庫來存儲數(shù)據(jù),也可以選擇圖數(shù)據(jù)庫。傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)可以采用實體- 關系- 實體的結(jié)構(gòu)來存儲數(shù)據(jù),可以將其拼接后進行指標計算,最后對每一個實體進行標注。結(jié)構(gòu)化數(shù)據(jù)的優(yōu)勢是邏輯清晰,編碼簡單,劣勢是計算速度較慢。

為了實現(xiàn)社群發(fā)現(xiàn)算法,解決計算量大、計算復雜的問題,采用了Spark 技術。Spark 技術是基于內(nèi)存計算的大數(shù)據(jù)并行計算框架,其速度顯著快于需要大量I/O 和CPU 計算的Hadoop的Mapreduce。本項目采用了Spark 的GraphX 組件進行圖數(shù)據(jù)處理和圖運算;采用了Spark Mlib 庫可以加速機器學習模型的運算速度。

同時,為了在建立網(wǎng)絡后分析所發(fā)現(xiàn)群體關聯(lián)情況和欺詐情況,采用了Neo4j 圖數(shù)據(jù)庫做可視化,使用聲明式圖形查詢語言Cypher,它允許用戶不必編寫圖形結(jié)構(gòu)的遍歷代碼,就可以對圖形數(shù)據(jù)進行高效的查詢。

3 基于關聯(lián)圖譜構(gòu)建大數(shù)據(jù)風控體系

3.1 大數(shù)據(jù)風控應用體系搭建

3.1.1 風控平臺搭建

大數(shù)據(jù)風控平臺是一個應用數(shù)據(jù)挖掘、機器學習等算法實現(xiàn)信貸審批、風險管控的集成式系統(tǒng)工具,它由多系統(tǒng)模塊聯(lián)合交互構(gòu)成,核心組成包括信貸審批系統(tǒng)、決策引擎、模型平臺、實驗平臺以及監(jiān)控平臺。

信貸審批系統(tǒng):主要實現(xiàn)三大功能,業(yè)務調(diào)度、流程引擎及審批工作臺。業(yè)務調(diào)度功能實現(xiàn)前端業(yè)務的接入,執(zhí)行不同業(yè)務對應的風控流程,并且對執(zhí)行過程匯總的異常進行監(jiān)控和處理;流程引擎則可實現(xiàn)具體信貸流程的配置管理,例如全自動審批還是人工審批與機器審批相結(jié)合;審批工作臺則是提供給信貸審批人員的操作界面,提供信息展示與審批結(jié)果記錄的功能。

決策引擎:自動化審批測略的部署平臺,承載的是風控業(yè)務的專家知識,基于客戶特征和模型的輸出,對客戶進行分層、風險判斷以及風險定價等操作。

模型平臺:模型實時部署運行平臺,關聯(lián)圖譜的應用均在模型平臺中完成,它可以在實時審批中整合信貸申請信息,提取關鍵特征,完成關聯(lián)圖譜與機器學習模型的結(jié)果預測,是整個在線風控平臺的一大核心。

實驗平臺:可實現(xiàn)離線策略仿真測算、模型搭建的功能。基于Hbase 數(shù)據(jù)庫的大量離線數(shù)據(jù)及算法服務器,進行風控模型挖掘、驗證、策略測算。

監(jiān)控平臺:分為實時運營監(jiān)控及離線定時監(jiān)控兩部分。實時運營監(jiān)控可計算當日實時業(yè)務審批情況,包括進件量、審批結(jié)果、異常申請件情況等,可進行實時的異常情況預警;離線監(jiān)控可按設計,定時生成按日、按周、按月的監(jiān)控報表,監(jiān)控報表基于Tableau 的報表平臺服務框架,底層數(shù)據(jù)管理采用Hive 數(shù)據(jù)倉庫工具。

3.1.2 關聯(lián)圖譜模型挖掘

構(gòu)建關聯(lián)圖譜時,首先需要確定關系有哪些,關系的選取主要根據(jù)專家經(jīng)驗,確定哪些關系可以表現(xiàn)出申請人在行為上的趨同性,同時這些行為上的趨同性對于信貸風險有一定影響,選擇的關系主要包括公司、地址、聯(lián)系人、手機號歸屬地等。確定關系后,將申請人與申請人之間通過不同的關系相連接形成網(wǎng)絡,若采用相同特征構(gòu)建關聯(lián)網(wǎng)絡則稱為同構(gòu)網(wǎng)絡,若采用不同的關聯(lián)特征構(gòu)建網(wǎng)絡則稱為異構(gòu)網(wǎng)絡。

構(gòu)建完網(wǎng)絡后,選擇可以將其中的節(jié)點劃分為社群的算法,社群發(fā)現(xiàn)的相關算法各有優(yōu)劣,需根據(jù)建模需求、樣本情況、開發(fā)時限等因素綜合判斷后選擇。

通過社群發(fā)現(xiàn)算法可將具有關聯(lián)關系的不同申請人標記為同一個群體,隨后需從百萬級的群體中挖掘出欺詐群體。欺詐是一個較為主觀的定義,業(yè)務較為廣泛的定義包括首逾客戶、從未還款客戶、通過人工欺詐調(diào)查得出的欺詐客戶等,定義完欺詐客戶后,需借由欺詐客戶挖掘出欺詐群體,欺詐群體的定義也沒有唯一標準,一般會要求群體中欺詐客戶的樣本點不低于N 人(N>=2)且群體的欺詐率為整體均值的M 倍以上(M>=2)。至此,就完成了基于關聯(lián)圖譜的欺詐團伙發(fā)現(xiàn)模型,后續(xù)可進一步應用圖數(shù)據(jù)庫,可視化欺詐團伙,進一步進行分析及模型優(yōu)化。

3.1.3 關聯(lián)圖譜應用場景實踐

根據(jù)3.1.2 的關聯(lián)圖譜模型的挖掘方法,項目組采用異構(gòu)網(wǎng)絡構(gòu)建關聯(lián)圖譜,應用標簽傳播的社群發(fā)現(xiàn)算法進行群體識別,成功發(fā)現(xiàn)1,179 個3 人及以上的高風險欺詐團伙,欺詐率為均值的4-5 倍。

3.2 落地實施方案

3.2.1 系統(tǒng)架構(gòu)

審批系統(tǒng)作為線上實時審批的流程管控系統(tǒng),串聯(lián)起決策引擎、模型平臺及人工審批平臺;離線實驗平臺則是模型挖掘、規(guī)則分析的主要平臺,復雜的算法模型策略在實驗平臺開發(fā)、驗證,隨后部署至模型平臺或決策引擎平臺;監(jiān)控平臺擔實時業(yè)務、報表統(tǒng)計的功能。主體系統(tǒng)架構(gòu)可詳見圖2。

圖2 風控平臺架構(gòu)

3.2.2 系統(tǒng)關鍵技術特點

整體風控平臺有三大關鍵技術特點。

一是能夠應對大量數(shù)據(jù)處理,實驗平臺采用了Spark 技術,Spark 技術是基于內(nèi)存計算的大數(shù)據(jù)并行計算框架,其速度顯著快于需要大量I/O 的CPU 計算的Hadoop 的Mapreduce,同時配置GPU 算法服務器,進一步加快計算效率。關聯(lián)圖譜的運算采用了Spark 的GraphX 組件進行圖數(shù)據(jù)處理和圖運算;采用了Spark Mlib 庫可以加速機器學習模型的計算速度。

二是能夠?qū)δP筒呗赃M行靈活高效的迭代,決策引擎平臺及模型平臺可以支持策略規(guī)則的高效更新上線。決策引擎為可視化操作,支持判斷邏輯的多種組合,流程鏈路的個性化配置,可優(yōu)化策略部署速度;模型平臺可支持更復雜的模型計算,彌補決策引擎的短板。

三是離線及在線系統(tǒng)的交互,可以支持風控策略的對抗升級。信貸申請的攻擊者會不停地進行內(nèi)部規(guī)則的猜測,原本有效的在線策略會隨著這些攻擊出現(xiàn)有效性下降的問題。在線系統(tǒng)可以及時發(fā)現(xiàn)實時的異常情況,反饋業(yè)務人員排查風險;離線數(shù)據(jù)雖然有滯后性,但可以支持大批量的數(shù)據(jù)運算,挖掘出在線系統(tǒng)無法捕捉的異常攻擊,反哺在線策略。

4 研究成果的創(chuàng)新價值及影響

傳統(tǒng)的機器學習模型更關注申請人自身的信貸風險。但在信貸業(yè)務中,人和人之間并不是獨立的,往往存在一定的集中性風險。欺詐中有較大比例的模式為團伙欺詐,需要能夠?qū)⒉煌悇e的特征整合起來,提取它們之間關聯(lián)特征與團伙特征,以識別不同申請人之間的關聯(lián)風險。關聯(lián)圖譜(復雜網(wǎng)絡)是解決上述問題的一種常用且有效的方法。充分發(fā)揮其直觀化、效率化的圖技術優(yōu)勢,在反欺詐方面成效顯著。

本項目的研究成果一是彌補了個體反欺詐的局限性,解決識別個體正常但屬于欺詐團伙的反欺詐防范痛點;二是可以充分整合個體反欺詐模型較難運用的弱特征變量,如手機號歸屬地、居住地等,將多源異構(gòu)的數(shù)據(jù)整合成機器可以理解的知識,將單點信息轉(zhuǎn)化為平面的相互關聯(lián)的圖譜;三是大幅提升了欺詐調(diào)查的效率,傳統(tǒng)的關系型數(shù)據(jù)庫,需要技術人員執(zhí)行一系列的復雜連接才能將關聯(lián)信息提取出來,圖數(shù)據(jù)庫在這方面具有天然的優(yōu)勢,可將欺詐團伙的網(wǎng)絡直接展現(xiàn)。

5 總結(jié)與展望

關聯(lián)圖譜在風控領域的應用是一個復雜的問題,對數(shù)據(jù)來源、系統(tǒng)性能、應用方案有著較高的要求。本文對關聯(lián)圖譜在銀行大數(shù)據(jù)風控體系內(nèi)的應用進行初探,模型效果經(jīng)測算在歷史樣本上效果較好。基于具有可行性的落地方案,成功上線,搭建起基于關聯(lián)圖譜的大數(shù)據(jù)風控體系,完成初版關聯(lián)圖譜模型上線。并持續(xù)運行穩(wěn)健,識別欺詐團伙逾期率約為正常客戶的5倍。當然,本文在這一領域的研究還有很大的上升空間,未來將持續(xù)對算法效果、運行效率進行研究與改進。

猜你喜歡
關聯(lián)模型
一半模型
不懼于新,不困于形——一道函數(shù)“關聯(lián)”題的剖析與拓展
“苦”的關聯(lián)
當代陜西(2021年17期)2021-11-06 03:21:36
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
“一帶一路”遞進,關聯(lián)民生更緊
當代陜西(2019年15期)2019-09-02 01:52:00
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 亚洲国产欧美国产综合久久| 久久国产精品77777| 亚洲第一页在线观看| 无码专区第一页| 色综合久久88色综合天天提莫| 日韩精品一区二区三区免费在线观看| 国产一区三区二区中文在线| 国产尹人香蕉综合在线电影| 在线日韩日本国产亚洲| 欧美福利在线观看| 国产成人综合久久精品下载| 欧洲亚洲欧美国产日本高清| 综1合AV在线播放| 日韩小视频在线观看| 日本免费高清一区| 女人18毛片一级毛片在线 | 亚洲中文字幕无码爆乳| 69视频国产| 欧美成a人片在线观看| 亚洲永久色| 无码国产偷倩在线播放老年人| 欧美怡红院视频一区二区三区| 中国精品自拍| 91久久偷偷做嫩草影院免费看| 国产高清在线精品一区二区三区| 国产精品无码AV中文| 亚洲VA中文字幕| 亚洲AⅤ综合在线欧美一区| 国产爽歪歪免费视频在线观看| 免费高清毛片| 国产欧美自拍视频| 日韩在线第三页| 狠狠亚洲婷婷综合色香| 亚洲中文无码h在线观看| 欧美啪啪精品| 国产精品午夜福利麻豆| 欧美精品成人一区二区视频一| 国产精品亚洲天堂| 亚洲无码不卡网| 91蜜芽尤物福利在线观看| 最近最新中文字幕在线第一页| 亚洲AV无码乱码在线观看裸奔| 综合久久五月天| 久久成人免费| 国产一线在线| 99精品欧美一区| 久青草国产高清在线视频| 在线免费无码视频| 国产丰满大乳无码免费播放| 日本在线免费网站| 波多野结衣中文字幕一区二区| 国产成人精品一区二区秒拍1o| 99久视频| 国产精品视屏| 国产噜噜在线视频观看| 国产女人喷水视频| 久久国产精品娇妻素人| 亚洲天堂精品在线| 午夜视频在线观看免费网站 | 无码丝袜人妻| 国产综合精品日本亚洲777| 国产黄色爱视频| 精品国产一区二区三区在线观看 | 精品人妻一区无码视频| 亚洲人成在线精品| 久久精品亚洲中文字幕乱码| 欧美日本中文| 亚洲第一在线播放| 无码专区在线观看| 久久a毛片| 妇女自拍偷自拍亚洲精品| 无码人中文字幕| 51国产偷自视频区视频手机观看| 国产呦精品一区二区三区下载| 第一区免费在线观看| 亚洲国产看片基地久久1024| 国产尤物视频网址导航| 国产微拍一区| 欧美色视频在线| 女人爽到高潮免费视频大全| 亚洲成人免费看| 亚洲第一视频网|