一種基于圖神經網絡的電信詐騙識別方法*

2021-07-01 04:14:26張杰俊唐穎淳季述鄖李靜林

電子技術應用 2021年6期

張杰俊，唐穎淳，季述鄖，李靜林

（1.中國電信股份有限公司上海分公司，上海 200041；2.北京郵電大學網絡與交換技術國家重點實驗室，北京 100876）

0 引言

隨著信息社會的發展，電信欺詐高發，但由于通信關系的復雜性和不確定性，電信欺詐檢測成為了一個十分困難的問題。

傳統電信欺詐檢測技術主要基于用戶屬性和通話記錄來獲得用戶行為樣本，再通過SVM、LGB 等機器學習方法學習行為特征[1-2]。這些方法主要使用短時間的行為統計進行分類，往往會出現時間尺度特征不足的問題。同時，由于用戶通話行為的復雜性，以固定窗口的統計特征作為詐騙電話的統計依據[3-4]，容易受到長期行為變化影響，分類效果差。

由于通信是一種社交行為，通信社交網絡包含豐富的關系信息，通過社交網絡能成功捕獲用戶的相關性，如兩個人的社交網絡重疊程度與其聯系強度相關，即彼此認識的普通用戶可能會有共同好友[5-6]。而電信詐騙分子并不了解用戶社交特征，電信詐騙號碼與被騙號碼之間難以存在共享社交節點。同時不同用戶的社交關系存在不同的節點數量、節點度數、節點k-core 值、Page Rank 得分等[7-8]，使得其社交網絡拓撲并不相同。基于這一思路，可以利用通信社交網絡分析方法進行詐騙檢測[9]。

本文提出了基于圖神經網絡（Graph Neural Network，GNN）的通信社交檢測方法。該方法建立了一種端到端學習GNN 模型，該模型基于游走采樣和節點融合策略動態構建計算圖，之后通過節點卷積算子和關系邊卷積算子的混合算法基于計算圖實現圖卷積（Graph Convolution Network，GCN）[10]進行信息融合，最后引入均值池化讀出機制，聚合來自不同節點范圍的信息，并最終實現分類表示。該模型將用戶行為特征和社交關系特征結合在一起，以識別欺詐行為。通過上海市真實電信數據集實驗驗證，相比于傳統方法，基于GNN 的通信社交檢測模型可以提高電信詐騙識別的檢出率。

1 基于圖神經網絡的電信詐騙識別算法設計

GNN 的核心思想是從局部圖鄰域迭代聚合特征信息[11]。局部圖中的邊表示兩個節點之間的依賴關系，并通過周圍的狀態來更新節點的狀態，從而能夠解決通信社交關系拓撲的挖掘和基于節點間相關性強弱的迭代更新問題。

1.1 圖神經網絡模型架構

基于GNN 的通信社交行為檢測模型結構如圖1 所示。模型劃分為三部分：（1）圖構建模塊；（2）圖卷積層；（3）均值池化（Mean-pooling）讀出機制。

圖1 基于圖的通信社交行為檢測模型框架

輸入有向圖G 為一對（V，E），其中V 表示具有用戶特征xv∈Rdv的有限節點集合（例如，用戶屬性、用戶呼叫數量等），E 表示用戶交互的一組邊，邊特征為evw∈Rde（例如，通話次數、通話時長、呼叫類型等），dv表示節點特征數，de表示關系邊特征數。

首先，GNN 為每個用戶構造計算圖，然后將其映射到卷積層的輸入。圖卷積層由幾個節點卷積算子和邊卷積算子組成，它們對用戶之間的交互進行建模并提取不同范圍的融合信息。然后，均值池化讀出機制會利用多范圍節點信息，并逐步進行全局的圖迭代更新（Graph Embedding）。最后，將GNN 輸出與分類器結合起來，用于最終的欺詐預測。

1.2 圖構建模塊

為了處理大規模通信社交網絡，本文提出一種基于相對關系強度的短步游走策略來對計算圖進行采樣，有效減輕了無效節點對模型訓練的影響。

計算圖的構建流程如圖2 所示。

圖2 計算圖的生成過程

該流程分為兩個步驟：

（1）針對通信社交網絡原始圖，對源節點u，通過固定長度l 游走策略生成用戶通信社交網絡子圖。方法是，從源節點u 開始以固定步長l 進行游走，并保留游走過程中的節點。為了保留相對較強的社交關系，游走根據親密關系采樣k-hops（2≤k≤l）鄰居。

（2）針對通信社交網絡子圖，合并用戶的k-hops 鄰居簇，生成用戶節點u 的最終計算子圖。為了降低計算復雜度，該策略保留了源節點及其直接鄰居，合并了k-hops 鄰居并刪除度為一的合并節點。

1.3 圖卷積模塊

圖卷積（GCN）可看作為一個圖數據特征提取器，核心思想是利用邊的信息對節點信息進行聚合并把鄰居節點加和求平均，從而生成新的節點表示。基于拉普拉斯矩陣的譜分解，GCN 采用以下圖卷積子：

其中，X 表示節點初始特征向量，X′表示節點更新后的狀態向量，表示帶自環的鄰接矩陣，并且I 表示節點度數矩陣，Θ 為卷積子學習參數。

可以找到一個函數f（x）作為節點卷積子，同時運用于當前節點和鄰居節點。其中，可以通過一個可學習的參數來調整中心節點的權值εk：

為了對通信社交網絡的節點和關系邊進行建模，需要堆疊多個卷積層以學習圖中每個節點的內部隱藏表示，完成行為內容或社會關系的信息融合。

在傳統圖卷積中，領域消息傳遞階段運行固定步長T，并根據消息函數Mt和節點更新函數Ut進行節點學習。在當前時刻t，根據當前節點狀態、領域狀態和關系信息evw，計算消息并更新節點隱藏狀態。在GNN 中，為了聚合節點特征和關系邊特征，更新了卷積函數，將其視為消息函數和更新函數的組合，以進行信息融合：

GNN 的圖卷積模塊結構如圖3 所示。GNN 的圖卷積層通過3 層堆疊而成，每一層參數共享，每個節點的鄰居都進行一次卷積操作，并用卷積的結果更新該節點，然后經過激活函數ReLU 完成節點隱藏狀態的更新。

圖3 3 層GNN 示意圖

1.4 均值池化讀出機制

局部圖中較小的鄰域范圍表示局部依賴關系，較大的范圍傾向于捕獲更高階的社交關系特征，不同范圍的信息在正常網絡和欺詐網絡中的貢獻均不相同。為了更好地利用多范圍信息，獲取最佳的圖表示，本文提出圖神經網絡的均值池化讀出機制，以對各節點隱藏狀態的集合進行操作，并且這些節點隱藏狀態排列是保持不變的。

2 實驗與分析

2.1 實驗數據集

實驗數據集采用上海市的真實呼叫記錄，包含從2019 年5 月10 日～2019 年6 月23 日的全部用戶呼叫記錄，用戶之間可能存在多個通信事件。數據集的數據樣本統計信息如表1 所示。

表1 數據樣本統計

針對這一數據集，首先進行數據預處理，主要進行Z分數歸一化。之后對數據集按時間順序進行劃分，其中70%數據用于訓練，10%數據用于驗證，20%數據用于測試。

2.2 實驗設置

針對數據集，選取8 種用于構建計算圖的用戶特征，如表2 所示。

表2 用戶特征

對于每個用戶的采樣計算圖，實驗將最大游走長度l 設置為3。同時將每個卷積模型的卷積層數設置為3，將節點隱藏狀態維數和均值池化維數都設置為16，并將均值池化函數應用于特征融合。最后的分類器采用兩層MLPs。

實驗使用Adam 優化器將模型訓練300 個epochs，以使平均絕對誤差（MAE）最小化。初始學習率設為0.001，batch 大小設為32。

實驗采用的各種算法對比模型包括：

（1）SVM：使用包含社交網絡結構信息的用戶節點呼叫統計特征作為模型的輸入信息。

（2）LGB（LightGBM）：使用包含社交網絡結構信息的用戶節點呼叫統計特征作為模型的輸入信息。

（3）ANN：淺層人工神經網絡，采用兩層感知器進行分類[12]。使用包含社交網絡結構信息的用戶節點特征作為模型的輸入信息。

（4）GCN：圖卷積網絡是基于圖結構數據的半監督學習[10]。其模型中的邊權重是通過用戶之間的親密關系計算得到，再根據權重構造邊緣卷積算子完成對邊緣特征評估，之后通過加權平均的方式更新節點狀態。

（5）GIN：圖同構網絡（Graph Isomorphism Network）是一種消息傳遞網絡（Message Passing Neural Network，MPNN）[11]。GIN 通過一個可學習的參數來調整中心節點的權值，再根據權值構造節點卷積算子完成節點狀態更新[13]。

（6）GNN：本文構建的圖神經網絡。

2.3 樣本分類結果與分析

實驗采用正確率、精確率、召回率和AUC 來評估電信詐騙識別的性能。

如表3 所示，GNN 模型比其他模型具有更好的識別能力，并且GNN 的AUC 比傳統機器學習模型SVM 和LGB分別提升了8.23%和7.57%，也比其他人工神經網絡模型（ANN、GCN、GIN）分別實現了5.35%、3.98%和3.04%的AUC 提升。實驗結果表明，GNN 可以學習到通信社交網絡更多的信息，同時，均值池化（mean-pooling）讀出機制也比傳統的池化（max-pooling）具有更好的效果[14]。

表3 各模型的分類結果

圖卷積模塊中，圖卷積層數對識別性能的影響如圖4 所示。隨著迭代次數的增長，相比第1 層卷積和第2層卷積，第3 層卷積實現了2.2%和1.45%AUC 的提升。因此，圖卷積模塊中較深的卷積層有益于電信詐騙的識別。

圖4 卷積層對模型性能的影響

對于不同模型的分類效果，本文使用t-SNE（t-distributed Stochastic Neighbor Embedding）完成了高維圖表示學習結果的降維和可視化[15]。

ANN、LGB、GCN、GIN 模型的可視化結果如圖5（a）所示，GNN 模型的可視化結果如圖5（b）所示。其中，灰色表示普通用戶，黑色表示欺詐用戶；GNN-1 為1 層圖卷積操作，GNN-2 為2 層圖卷積操作，GNN-3 為3 層圖卷積操作。GNN-1、GNN-2、GNN-3 使用均值池化操作，GNN Max-pooling 采用最大值池化操作。從可視化結果中可以看到，采用均值池化操作的3 層GNN 模型，其準確性始終高于其他方法。

圖5 可視化結果

3 結論

本文提出了一種基于圖神經網絡（GNN）的電信欺詐識別方法。這一方法基于短步游走采樣和節點合并來構造計算圖以適應大規模通信社交網絡，通過融合通信社交信息的圖同構算子和邊卷積算子的混合體和過均值池化操作，有效地利用多范圍信息對通信社交網絡的特征進行學習。本文通過真實數據集對GNN 模型進行了評估，與其他欺詐檢測方法相比，圖卷積方法能夠適應大規模通信社交網絡的檢測，能滿足電信欺詐檢測的要求。未來的工作中，將進一步把圖神經網絡應用到現實系統中，以實現電信詐騙的實時攔截。