基于DBSCAN聚類與Apriori關聯分析的渠道套利識別研究

2025-07-01 00:00:00黃俊豪黃邦夏喬植許琦

數字通信世界 2025年4期

中圖分類號：TP311.13 文獻標志碼：A 文章編碼：1672-7274（2025）04-0061-03

Abstract： This article proposes a recognition method based on DBSCAN clustering and Apriori correlation analysis fordetecting single channel arbitrage and channel cooperative arbitrage behaviors.Firstly，the order data is processed through stutering and regular text segmentation to form structured data.Then，the DBSCAN clustering algorithm is used to group similarusers and calculate the weights of channels in the group to identify arbitrage chanels. In addition，based on the Apriori algorithm，assciation analysis is conducted onnetwork users，a distance matrix is constructed，and the distanceat which users may handle businessin thechannel is set.The probabilityof users handling businessin the channel is calculated to determine the cooperative arbitrage channel. Compared with traditional audit methods，this methodoptimizes theaudit process，improves audit efficiencyandaccuracyand ensures the compliance and healthy development of enterprise channels.

Keywords： arbitrage identification; clustering algorithm; DBSCAN; text segmentation; correlation analysis： apriori;auditmethods

傳統審計方法采用人工抽樣調查，耗費時間和人力。而智能化審計能提高效率和及時性。本文中研究了通過DBSCAN聚類算法以及Apriori關聯分析挖掘套利渠道，為審計師提供強大工具。

是指運營商在營銷過程中支出費用大于收入費用的用戶，短期內離網表明這些用戶質量低，且離網用戶帶來的損失不可逆轉。

2.2分析維度

審計背景以及意義

渠道商利用運營商資源獲取不當利益，導致資源濫用、財務報表失真等。在審計背景下，利用DBSCAN聚類算法和Apriori關聯分析能夠幫助審計師了解渠道運營情況，及時發現潛在套利問題，確保渠道合規、健康發展。另外，利用智能化審計技術可優化審計流程，提高效率和準確性[1]。

本文基于倒掛用戶從兩大方面進行探索研究：一是套利渠道識別模型，使用DBSCAN聚類分析和渠道在聚類中的權重系數，確定套利渠道；二是合作套利識別模型，運用Apriori關聯分析，結合渠道之間的距離信息，判斷渠道是否存在套利嫌疑。

2.3分析流程

（1）數據接入與整合：整合來自不同數據源的數據形成初步整合表。

2 總體思路

2.1分析對象

本文主要分析短期內離網的倒掛用戶。倒掛用戶

（2）數據預處理：清洗數據，將非結構化信息進行結構化處理。

（3）模型構建：構建渠道利用多業務進行套利的

識別模型和渠道合作套利識別模型。

（4）模型應用：將智能模型部署到系統中，定期輸出問題數據[2]。

3 具體內容

3.1數據接入與整合

分析短期內離網的倒掛用戶，構建用戶和費用兩大特征六個特性。

（1）用戶特征：位置、通信、上網費用特征。

（2）費用特征：用戶消費、渠道費用、運營商營銷支出。

3.2數據預處理

采用結巴分詞和規則提取技術，再結合正則表達式對不規則文本進行結構化處理，形成規則化的數據表格。

3.3模型搭建

3.3.1渠道利用多業務進行套利的識別模型

使用DBSCAN算法對短期離網的倒掛用戶進行分類，將相似用戶歸為一類，并找出群組中權重大于閾值的渠道，將其視為疑似套利渠道。整體思路如下：數據接入與整合數據預處理利用DBSCAN聚類算法進行歸類計算入網渠道的權重系數→將大于閾值的渠道定義為疑似對象[3]。

3.3.1.1利用DBSCAN聚類算法對數據進行聚類

DBSCAN是一個基于密度的聚類算法，可以發現任意形狀的聚類。

（1）第一步：輸入樣本數據。

（2）第二步：標準化處理。

針對不同數據類型的變量采用不同的數據標準化處理方法。

① 文本型變量：采用啞變量處理方式，實現變量量化。

② 數值型變量：采用0-1標準化，計算公式為

式中， X 為具體的數值變量對應的每個值， x_min 為該數值變量的最小值。

（3）第三步：DBSCAN聚類。

對預處理后的數據進行DBSCAN聚類，得到了n個群組 A₁，A₂，…，A_n ，每個群體中的用戶都具有一定的相似性。

3.3.1.2計算渠道在群組中的權重系數

在一個聚類用戶群中包括了個入網渠道B₁，B₂，…，B_m ，計算群體中每個入網渠道在總對應渠道用戶數中的權重，得到渠道權重系數。

假設A聚類用戶群體共有個用戶，分別從渠道B₁，B₂，…，B_k 入網，在群組A中對應的渠道用戶數分別為x₁，x₂，…，x_k ， B₁，B₂，…，B_k 在樣本中的用戶數分別為 y₁，y₂ …_γk 。 B₁ 渠道系數為

式中， x₁ 為群組A從渠道 B₁ 入網的渠道用戶數， y₁ 為渠道 B_? 在樣本中的用戶數， γ₁₁ 為群組入網渠道對應的渠道系數。

遍歷所有群組，得到權重系數矩陣：

式中， γ₁₁，γ₁₂，…，γ_nk 為群組的渠道系數，其中 n 為所在群組， k 為所在渠道。

3.3.1.3判斷疑似套利渠道

若在一個群組內某個渠道的用戶權重較大，說明同一批次入網的低質量用戶大量具有相似性。設置閥值 ε ，當大于該閾值時，推斷該渠道為疑似套利渠道4。

3.3.2渠道合作套利識別模型

為了解決渠道合作套利問題，本文提出了一種基于Apriori關聯分析和距離矩陣的方法。首先，通過Apriori算法確定兩個渠道之間的關聯關系。其次，利用渠道與渠道、渠道與用戶常駐地的距離構建距離矩陣，并對距離矩陣進行0、1離散化處理（大于閾值 5km 則設為1，否則為0）。最后，計算兩個渠道距離為1發生的概率，并判斷用戶在兩個渠道辦理業務的概率。當概率大于 50% 時，兩個關聯渠道被視為疑似合作套利渠道。閾值的設置可以根據業務場景進行設置。

3.3.2.1構建渠道用戶距離矩陣

在對兩個渠道關聯分析的基礎上，考慮到距離可能是一個重要的決定性因素。下面通過渠道與渠道之間的距離、渠道與用戶常駐地（居住地、工作地）的距離，通過經緯度距離轉換得到一個距離矩陣。

（1）第一步：篩選支持度、置信度、提升度大于閾值的關聯渠道：