999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于圖神經網絡的電信詐騙識別方法*

2021-07-01 04:14:26張杰俊唐穎淳季述鄖李靜林
電子技術應用 2021年6期
關鍵詞:特征用戶信息

張杰俊 ,唐穎淳 ,季述鄖 ,李靜林

(1.中國電信股份有限公司上海分公司,上海 200041;2.北京郵電大學 網絡與交換技術國家重點實驗室,北京 100876)

0 引言

隨著信息社會的發展,電信欺詐高發,但由于通信關系的復雜性和不確定性,電信欺詐檢測成為了一個十分困難的問題。

傳統電信欺詐檢測技術主要基于用戶屬性和通話記錄來獲得用戶行為樣本,再通過SVM、LGB 等機器學習方法學習行為特征[1-2]。這些方法主要使用短時間的行為統計進行分類,往往會出現時間尺度特征不足的問題。同時,由于用戶通話行為的復雜性,以固定窗口的統計特征作為詐騙電話的統計依據[3-4],容易受到長期行為變化影響,分類效果差。

由于通信是一種社交行為,通信社交網絡包含豐富的關系信息,通過社交網絡能成功捕獲用戶的相關性,如兩個人的社交網絡重疊程度與其聯系強度相關,即彼此認識的普通用戶可能會有共同好友[5-6]。而電信詐騙分子并不了解用戶社交特征,電信詐騙號碼與被騙號碼之間難以存在共享社交節點。同時不同用戶的社交關系存在不同的節點數量、節點度數、節點k-core 值、Page Rank 得分等[7-8],使得其社交網絡拓撲并不相同。基于這一思路,可以利用通信社交網絡分析方法進行詐騙檢測[9]。

本文提出了基于圖神經網絡(Graph Neural Network,GNN)的通信社交檢測方法。該方法建立了一種端到端學習GNN 模型,該模型基于游走采樣和節點融合策略動態構建計算圖,之后通過節點卷積算子和關系邊卷積算子的混合算法基于計算圖實現圖卷積(Graph Convolution Network,GCN)[10]進行信息融合,最后引入均值池化讀出機制,聚合來自不同節點范圍的信息,并最終實現分類表示。該模型將用戶行為特征和社交關系特征結合在一起,以識別欺詐行為。通過上海市真實電信數據集實驗驗證,相比于傳統方法,基于GNN 的通信社交檢測模型可以提高電信詐騙識別的檢出率。

1 基于圖神經網絡的電信詐騙識別算法設計

GNN 的核心思想是從局部圖鄰域迭代聚合特征信息[11]。局部圖中的邊表示兩個節點之間的依賴關系,并通過周圍的狀態來更新節點的狀態,從而能夠解決通信社交關系拓撲的挖掘和基于節點間相關性強弱的迭代更新問題。

1.1 圖神經網絡模型架構

基于GNN 的通信社交行為檢測模型結構如圖1 所示。模型劃分為三部分:(1)圖構建模塊;(2)圖卷積層;(3)均值池化(Mean-pooling)讀出機制。

圖1 基于圖的通信社交行為檢測模型框架

輸入有向圖G 為一對(V,E),其中V 表示具有用戶特征xv∈Rdv的有限節點集合(例如,用戶屬性、用戶呼叫數量等),E 表示用戶交互的一組邊,邊特征為evw∈Rde(例如,通話次數、通話時長、呼叫類型等),dv表示節點特征數,de表示關系邊特征數。

首先,GNN 為每個用戶構造計算圖,然后將其映射到卷積層的輸入。圖卷積層由幾個節點卷積算子和邊卷積算子組成,它們對用戶之間的交互進行建模并提取不同范圍的融合信息。然后,均值池化讀出機制會利用多范圍節點信息,并逐步進行全局的圖迭代更新(Graph Embedding)。最后,將GNN 輸出與分類器結合起來,用于最終的欺詐預測。

1.2 圖構建模塊

為了處理大規模通信社交網絡,本文提出一種基于相對關系強度的短步游走策略來對計算圖進行采樣,有效減輕了無效節點對模型訓練的影響。

計算圖的構建流程如圖2 所示。

圖2 計算圖的生成過程

該流程分為兩個步驟:

(1)針對通信社交網絡原始圖,對源節點u,通過固定長度l 游走策略生成用戶通信社交網絡子圖。方法是,從源節點u 開始以固定步長l 進行游走,并保留游走過程中的節點。為了保留相對較強的社交關系,游走根據親密關系采樣k-hops(2≤k≤l)鄰居。

(2)針對通信社交網絡子圖,合并用戶的k-hops 鄰居簇,生成用戶節點u 的最終計算子圖。為了降低計算復雜度,該策略保留了源節點及其直接鄰居,合并了k-hops 鄰居并刪除度為一的合并節點。

1.3 圖卷積模塊

圖卷積(GCN)可看作為一個圖數據特征提取器,核心思想是利用邊的信息對節點信息進行聚合并把鄰居節點加和求平均,從而生成新的節點表示。基于拉普拉斯矩陣的譜分解,GCN 采用以下圖卷積子:

其中,X 表示節點初始特征向量,X′表示節點更新后的狀態向量,表示帶自環的鄰接矩陣,并且I 表示節點度數矩陣,Θ 為卷積子學習參數。

可以找到一個函數f(x)作為節點卷積子,同時運用于當前節點和鄰居節點。其中,可以通過一個可學習的參數來調整中心節點的權值εk:

為了對通信社交網絡的節點和關系邊進行建模,需要堆疊多個卷積層以學習圖中每個節點的內部隱藏表示,完成行為內容或社會關系的信息融合。

在傳統圖卷積中,領域消息傳遞階段運行固定步長T,并根據消息函數Mt和節點更新函數Ut進行節點學習。在當前時刻t,根據當前節點狀態、領域狀態和關系信息evw,計算消息并更新節點隱藏狀態。在GNN 中,為了聚合節點特征和關系邊特征,更新了卷積函數,將其視為消息函數和更新函數的組合,以進行信息融合:

GNN 的圖卷積模塊結構如圖3 所示。GNN 的圖卷積層通過3 層堆疊而成,每一層參數共享,每個節點的鄰居都進行一次卷積操作,并用卷積的結果更新該節點,然后經過激活函數ReLU 完成節點隱藏狀態的更新。

圖3 3 層GNN 示意圖

1.4 均值池化讀出機制

局部圖中較小的鄰域范圍表示局部依賴關系,較大的范圍傾向于捕獲更高階的社交關系特征,不同范圍的信息在正常網絡和欺詐網絡中的貢獻均不相同。為了更好地利用多范圍信息,獲取最佳的圖表示,本文提出圖神經網絡的均值池化讀出機制,以對各節點隱藏狀態的集合進行操作,并且這些節點隱藏狀態排列是保持不變的。

2 實驗與分析

2.1 實驗數據集

實驗數據集采用上海市的真實呼叫記錄,包含從2019 年5 月10 日~2019 年6 月23 日的全部用戶呼叫記錄,用戶之間可能存在多個通信事件。數據集的數據樣本統計信息如表1 所示。

表1 數據樣本統計

針對這一數據集,首先進行數據預處理,主要進行Z分數歸一化。之后對數據集按時間順序進行劃分,其中70%數據用于訓練,10%數據用于驗證,20%數據用于測試。

2.2 實驗設置

針對數據集,選取8 種用于構建計算圖的用戶特征,如表2 所示。

表2 用戶特征

對于每個用戶的采樣計算圖,實驗將最大游走長度l 設置為3。同時將每個卷積模型的卷積層數設置為3,將節點隱藏狀態維數和均值池化維數都設置為16,并將均值池化函數應用于特征融合。最后的分類器采用兩層MLPs。

實驗使用Adam 優化器將模型訓練300 個epochs,以使平均絕對誤差(MAE)最小化。初始學習率設為0.001,batch 大小設為32。

實驗采用的各種算法對比模型包括:

(1)SVM:使用包含社交網絡結構信息的用戶節點呼叫統計特征作為模型的輸入信息。

(2)LGB(LightGBM):使用包含社交網絡結構信息的用戶節點呼叫統計特征作為模型的輸入信息。

(3)ANN:淺層人工神經網絡,采用兩層感知器進行分類[12]。使用包含社交網絡結構信息的用戶節點特征作為模型的輸入信息。

(4)GCN:圖卷積網絡是基于圖結構數據的半監督學習[10]。其模型中的邊權重是通過用戶之間的親密關系計算得到,再根據權重構造邊緣卷積算子完成對邊緣特征評估,之后通過加權平均的方式更新節點狀態。

(5)GIN:圖同構網絡(Graph Isomorphism Network)是一種消息傳遞網絡(Message Passing Neural Network,MPNN)[11]。GIN 通過一個可學習的參數來調整中心節點的權值,再根據權值構造節點卷積算子完成節點狀態更新[13]。

(6)GNN:本文構建的圖神經網絡。

2.3 樣本分類結果與分析

實驗采用正確率、精確率、召回率和AUC 來評估電信詐騙識別的性能。

如表3 所示,GNN 模型比其他模型具有更好的識別能力,并且GNN 的AUC 比傳統機器學習模型SVM 和LGB分別提升了8.23%和7.57%,也比其他人工神經網絡模型(ANN、GCN、GIN)分別實現了5.35%、3.98%和3.04%的AUC 提升。實驗結果表明,GNN 可以學習到通信社交網絡更多的信息,同時,均值池化(mean-pooling)讀出機制也比傳統的池化(max-pooling)具有更好的效果[14]。

表3 各模型的分類結果

圖卷積模塊中,圖卷積層數對識別性能的影響如圖4 所示。隨著迭代次數的增長,相比第1 層卷積和第2層卷積,第3 層卷積實現了2.2%和1.45%AUC 的提升。因此,圖卷積模塊中較深的卷積層有益于電信詐騙的識別。

圖4 卷積層對模型性能的影響

對于不同模型的分類效果,本文使用t-SNE(t-distributed Stochastic Neighbor Embedding)完成了高維圖表示學習結果的降維和可視化[15]。

ANN、LGB、GCN、GIN 模型的可視化結果如圖5(a)所示,GNN 模型的可視化結果如圖5(b)所示。其中,灰色表示普通用戶,黑色表示欺詐用戶;GNN-1 為1 層圖卷積操作,GNN-2 為2 層圖卷積操作,GNN-3 為3 層圖卷積操作。GNN-1、GNN-2、GNN-3 使用均值池化操作,GNN Max-pooling 采用最大值池化操作。從可視化結果中可以看到,采用均值池化操作的3 層GNN 模型,其準確性始終高于其他方法。

圖5 可視化結果

3 結論

本文提出了一種基于圖神經網絡(GNN)的電信欺詐識別方法。這一方法基于短步游走采樣和節點合并來構造計算圖以適應大規模通信社交網絡,通過融合通信社交信息的圖同構算子和邊卷積算子的混合體和過均值池化操作,有效地利用多范圍信息對通信社交網絡的特征進行學習。本文通過真實數據集對GNN 模型進行了評估,與其他欺詐檢測方法相比,圖卷積方法能夠適應大規模通信社交網絡的檢測,能滿足電信欺詐檢測的要求。未來的工作中,將進一步把圖神經網絡應用到現實系統中,以實現電信詐騙的實時攔截。

猜你喜歡
特征用戶信息
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 最新加勒比隔壁人妻| 国产h视频在线观看视频| 国产成人高清在线精品| 超薄丝袜足j国产在线视频| 国产一二三区在线| 午夜综合网| 99精品免费欧美成人小视频| 国产在线精品99一区不卡| 国产一级在线观看www色| 国产内射一区亚洲| 毛片网站免费在线观看| 伊人成人在线视频| 国产超碰在线观看| 欧美成人区| 精品福利国产| 波多野结衣久久精品| 久久久噜噜噜| 97精品国产高清久久久久蜜芽| 青草精品视频| 日韩专区欧美| 久久免费观看视频| 亚洲无码精彩视频在线观看| 亚洲AV永久无码精品古装片| 老司机精品久久| 综合色88| 成人小视频网| 亚洲欧美色中文字幕| 九九香蕉视频| 亚洲国产清纯| 黄色网在线免费观看| 久久久久88色偷偷| 在线免费观看AV| 亚洲男人的天堂在线观看| 国产人人干| 欧美国产三级| 久久77777| 国产性生交xxxxx免费| 亚洲水蜜桃久久综合网站| 综合亚洲网| 精品亚洲欧美中文字幕在线看 | 日韩天堂视频| 无码在线激情片| 亚洲伊人久久精品影院| 伊人久久综在合线亚洲2019| 欧美综合中文字幕久久| 国产在线98福利播放视频免费| 老司机精品99在线播放| 日韩在线欧美在线| 国产美女精品一区二区| 久久久精品无码一二三区| 欧美综合成人| 噜噜噜综合亚洲| 亚洲经典在线中文字幕| 久久久久人妻一区精品色奶水 | 99久久免费精品特色大片| 92精品国产自产在线观看| 日韩精品亚洲精品第一页| 精品久久久久久成人AV| 亚洲男人在线| 欧美日本在线观看| 欧美中文字幕无线码视频| 亚洲国产天堂久久综合| 亚洲动漫h| 老色鬼欧美精品| 国产精品综合色区在线观看| 欧美日韩中文国产| 久久99国产精品成人欧美| 一级香蕉人体视频| 性色一区| 亚洲日韩精品无码专区97| 久久国产精品影院| 色视频久久| 2020国产在线视精品在| 在线欧美一区| 久久77777| 亚洲精品免费网站| 成人夜夜嗨| 国产成人免费观看在线视频| 亚洲欧洲自拍拍偷午夜色| 国产人成在线视频| 国产成人无码AV在线播放动漫| 亚洲精品久综合蜜|