中圖分類號:TP311.13 文獻標志碼:A 文章編碼:1672-7274(2025)04-0061-03
Abstract: This article proposes a recognition method based on DBSCAN clustering and Apriori correlation analysis fordetecting single channel arbitrage and channel cooperative arbitrage behaviors.Firstly,the order data is processed through stutering and regular text segmentation to form structured data.Then,the DBSCAN clustering algorithm is used to group similarusers and calculate the weights of channels in the group to identify arbitrage chanels. In addition,based on the Apriori algorithm,assciation analysis is conducted onnetwork users,a distance matrix is constructed,and the distanceat which users may handle businessin thechannel is set.The probabilityof users handling businessin the channel is calculated to determine the cooperative arbitrage channel. Compared with traditional audit methods,this methodoptimizes theaudit process,improves audit efficiencyandaccuracyand ensures the compliance and healthy development of enterprise channels.
Keywords: arbitrage identification; clustering algorithm; DBSCAN; text segmentation; correlation analysis: apriori;auditmethods
傳統審計方法采用人工抽樣調查,耗費時間和人力。而智能化審計能提高效率和及時性。本文中研究了通過DBSCAN聚類算法以及Apriori關聯分析挖掘套利渠道,為審計師提供強大工具。
是指運營商在營銷過程中支出費用大于收入費用的用戶,短期內離網表明這些用戶質量低,且離網用戶帶來的損失不可逆轉。
2.2分析維度
審計背景以及意義
渠道商利用運營商資源獲取不當利益,導致資源濫用、財務報表失真等。在審計背景下,利用DBSCAN聚類算法和Apriori關聯分析能夠幫助審計師了解渠道運營情況,及時發現潛在套利問題,確保渠道合規、健康發展。另外,利用智能化審計技術可優化審計流程,提高效率和準確性[1]。
本文基于倒掛用戶從兩大方面進行探索研究:一是套利渠道識別模型,使用DBSCAN聚類分析和渠道在聚類中的權重系數,確定套利渠道;二是合作套利識別模型,運用Apriori關聯分析,結合渠道之間的距離信息,判斷渠道是否存在套利嫌疑。
2.3分析流程
(1)數據接入與整合:整合來自不同數據源的數據形成初步整合表。
2 總體思路
2.1分析對象
本文主要分析短期內離網的倒掛用戶。倒掛用戶
(2)數據預處理:清洗數據,將非結構化信息進行結構化處理。
(3)模型構建:構建渠道利用多業務進行套利的
識別模型和渠道合作套利識別模型。
(4)模型應用:將智能模型部署到系統中,定期輸出問題數據[2]。
3 具體內容
3.1數據接入與整合
分析短期內離網的倒掛用戶,構建用戶和費用兩大特征六個特性。
(1)用戶特征:位置、通信、上網費用特征。
(2)費用特征:用戶消費、渠道費用、運營商營銷支出。
3.2數據預處理
采用結巴分詞和規則提取技術,再結合正則表達式對不規則文本進行結構化處理,形成規則化的數據表格。
3.3模型搭建
3.3.1渠道利用多業務進行套利的識別模型
使用DBSCAN算法對短期離網的倒掛用戶進行分類,將相似用戶歸為一類,并找出群組中權重大于閾值的渠道,將其視為疑似套利渠道。整體思路如下:數據接入與整合 數據預處理 利用DBSCAN聚類算法進行歸類 計算入網渠道的權重系數→將大于閾值的渠道定義為疑似對象[3]。
3.3.1.1利用DBSCAN聚類算法對數據進行聚類
DBSCAN是一個基于密度的聚類算法,可以發現任意形狀的聚類。
(1)第一步:輸入樣本數據。
(2)第二步:標準化處理。
針對不同數據類型的變量采用不同的數據標準化處理方法。
① 文本型變量:采用啞變量處理方式,實現變量量化。
② 數值型變量:采用0-1標準化,計算公式為

式中, X 為具體的數值變量對應的每個值, xmin 為該數值變量的最小值。
(3)第三步:DBSCAN聚類。
對預處理后的數據進行DBSCAN聚類,得到了n個群組 A1,A2,…,An ,每個群體中的用戶都具有一定的相似性。
3.3.1.2計算渠道在群組中的權重系數
在一個聚類用戶群中包括了
個入網渠道B1,B2,…,Bm ,計算群體中每個入網渠道在總對應渠道用戶數中的權重,得到渠道權重系數。
假設A聚類用戶群體共有
個用戶,分別從渠道B1,B2,…,Bk 入網,在群組A中對應的渠道用戶數分別為x1,x2,…,xk , B1,B2,…,Bk 在樣本中的用戶數分別為 y1,y2 …γk 。 B1 渠道系數為

式中, x1 為群組A從渠道 B1 入網的渠道用戶數, y1 為渠道 B? 在樣本中的用戶數, γ11 為群組入網渠道對應的渠道系數。
遍歷所有群組,得到權重系數矩陣:

式中, γ11,γ12,…,γnk 為群組的渠道系數,其中 n 為所在群組, k 為所在渠道。
3.3.1.3判斷疑似套利渠道
若在一個群組內某個渠道的用戶權重較大,說明同一批次入網的低質量用戶大量具有相似性。設置閥值 ε ,當大于該閾值時,推斷該渠道為疑似套利渠道4。
3.3.2渠道合作套利識別模型
為了解決渠道合作套利問題,本文提出了一種基于Apriori關聯分析和距離矩陣的方法。首先,通過Apriori算法確定兩個渠道之間的關聯關系。其次,利用渠道與渠道、渠道與用戶常駐地的距離構建距離矩陣,并對距離矩陣進行0、1離散化處理(大于閾值 5km 則設為1,否則為0)。最后,計算兩個渠道距離為1發生的概率,并判斷用戶在兩個渠道辦理業務的概率。當概率大于 50% 時,兩個關聯渠道被視為疑似合作套利渠道。閾值的設置可以根據業務場景進行設置。
3.3.2.1構建渠道用戶距離矩陣
在對兩個渠道關聯分析的基礎上,考慮到距離可能是一個重要的決定性因素。下面通過渠道與渠道之間的距離、渠道與用戶常駐地(居住地、工作地)的距離,通過經緯度距離轉換得到一個距離矩陣。
(1)第一步:篩選支持度、置信度、提升度大于閾值的關聯渠道:

(2)第二步:計算具有關聯關系的渠道距離。
(3)第三步:計算每個關聯組合中渠道與用戶常駐地的距離,分別得到渠道與用戶居住地、工作地的距離。取兩者中的最小值作為渠道與用戶常駐地的距離系數。遍歷所有用戶,形成兩個關聯渠道的距離矩陣:
計算渠道和用戶常駐地的距離公式如下:

式中, A,B 代表2個具有關聯關系的渠道; X 為用戶。
遍歷渠道對應的用戶,得到距離矩陣:

式中,第一列表示渠道與渠道的距離系數;第二列表示渠道A與用戶常駐地的距離(取最小值)系數;第三列表示渠道 B 與用戶常駐地的距離(取最小值)系數。
3.3.2.2通過距離矩陣確定渠道距離關聯概率
基于關聯分析和距離閾值,對距離矩陣進行0、1二值化處理,得二值化距離概率矩陣。計算1的概率得出兩渠道關聯性,關聯性越大表示距離越遠,用戶在這兩渠道辦理業務的概率越低。若概率超過閾值,則兩渠道合作嫌疑大。
設置閾值為 (δ1δ2δ3) ,當距離矩陣系數大于閥值,則為1,否則為0:
得到0-1距離矩陣:

計算每一行出現1的概率,下面公式中一行代表兩個關聯渠道的一個用戶出現1的概率,得到:

設置閾值為 α ,當 p 大于 α 則為1否則為0,計算兩個關聯渠道中1出現的概率,概率越大則用戶在兩個渠道辦理業務的可能性就越低。
結果呈現
4.1入網渠道利用多業務進行套利的識別模型
利用DBSCAN聚類算法對用戶進行聚類,聚類成3類。其中,在類別1和類別3中發現,渠道 GZ*****48 和渠道 6Z****02 的用戶占比為 67% 和 75% ,該2個渠道為疑似套利渠道,輸出線索。
4.2渠道合作套利識別模型
利用渠道的用戶進行關聯分析,得到兩兩之間的關聯關系。共輸出8組置信度大于0.6,支持度大于0.01的關聯關系。
通過距離因素進行計算,下面2組的距離概率系數均大于 50% ,分別為 87% 和 65% 。則輸出兩者組合線索。

5 創新應用
5.1將非結構化數據轉化為結構化數據
在預處理階段,我們采用了結巴分詞和規則來處理文本類數據,以提高數據的可分析性,同時使結構化數據更好地與機器學習算法配合,實現自動化流程和智能決策。
5.2高效自動化用戶聚類
DBSCAN是一種強大的空間聚類算法,能發現任意形狀的簇群,且具有顯著優勢。它無須預先確定簇群數量,并能有效處理噪聲和離群點。
5.3智能挖掘用戶渠道關聯性
智能挖掘用戶渠道關聯分析的意義在于深入了解用戶行為和渠道互動,利用關聯分析方法分析用戶情況,挖掘用戶信息。
參考文獻
[1]方匡南.基于數據挖掘的分類和聚類算法研究及R語言實現[D].廣州:暨南大學,2007.
[2]湖北省審計學會課題組.大數據技術在審計全覆蓋中的應用研究—一以湖北省醫保審計實踐為例[J].審計研究,2018(1):11-15.
[3]秦榮生.大數據、云計算技術對審計的影響研究[J].審計研究,2014(6):23-28.
[4]廖芹,郝志峰,陳志宏.數據挖掘與數學建模[M].北京:國防工業出版社,2010.