姚躍



摘要:違規短信是詐騙分子的溫床,亟須嚴格管控。文章提出了基于數據挖掘的違規短信自動識別算法設計,通過決策樹分類算法技術進行違規短信判決,構建違規短信自動識別算法模型,設計模型系統的架構生成、指標屬性以及工作流程。實驗分析,利用基于數據挖掘技術的違規短信自動識別算法準確率雖存在一定的波動性,違規短信自動識別的準確率為96.42%,但能夠較好地識別疑似違規短信,實現有效識別與控制違規短信用戶,高效治理違規短信現象的終極目標。
關鍵詞:數據挖掘;決策樹;違規短信;信息自動識別
中圖分類號:TP311? 文獻標志碼:A
0 引言
短信屬性自動識別是維護信息安全的重要依據,違規信息的散布在造成垃圾信息的同時,也為違法犯罪活動提供了平臺,有必要嚴格管控。隨著違規短信隱蔽性逐漸增強,當前以黑白名單、關鍵字詞監控以及文本分類過濾等技術為主的違規短信攔截處理方法已經無法滿足短信治理工作的需要[1]。本設計基于數據挖掘的違規短信自動識別算法,動態提取短信的信號數據特征,構建違規短信自動識別計算模型,可完成短信接收端與違規短信識別平臺的對接。此外,本設計通過數據監測獲取全部短信內容,使其經短信自動識別系統確認后,可實現對違規短信的自動篩查[2]。對短信進行精細化數據管理,有助于提升違規短信的治理效率,保障通信信息安全[3]。
1 基于決策樹分類算法的違規短信判決
1.1 特征提取
用于識別違規短信信號特征的提取是實現內容判決自動識別的關鍵環節,本設計主要結合了現有樣本數據信息,對違規短信數量、違規短信類型、涉及發送違規信息的手機號碼等多個違規數據進行了特征提取[4]。結果如表1所示。
如表1所示,本文將采集到的初始信息進行預處理及屬性判定后作為決策樹的樣本數據。違規短信權重計算公式:
Xweight(wi)=pp(wi,C)P(wi,C)-P(wi,C)P(wi,C)p(wi)P(wi)P(C)P(C)(1)
其中,p=wi2(2)
式中,wi為不包含詞wi的數據樣本,P(wi,C)為不在分類C中且不包含詞wi的樣本數據信息在所有樣本中的概率。|wi|為詞wi的樣本數據長度,式(1)與式(2)表示了短信用詞詞頻、短信用詞在樣本空間中的使用情況以及短信用詞數據長度,得出:常規情況下樣本數據長度越長的短信違規短信特征屬性越顯明,被識別為違規短信的概率越高,且權重較高,定義閾值如下式(3):
η=(1-k)minXweight(wi)+kmaxXweight(wi)(3)
式中,k為特征提取系數,取值范圍為[0,1],結果表明k取0.7為最佳值,權重大于此值的特征詞將被提取。特征屬性中的長度特征用樣本數據長度說明,屬性值為離散值;違規短信類型特征以違規廣告信息宣傳、信息精神污染、詐騙信息做特征屬性說明,特征屬性值為離散值;短信源頭規范用是否滿足源頭規范做說明,特征屬性值為0/1;手機號碼歸屬地以手機號碼是否為本地做屬性說明,特征屬性值為0/1。以此得出違規分類算法屬性類別,在決策樹分類算法識別中的數據特征提取完成。
1.2 決策樹生成
本文采用提取出的信息增益作為選擇決策點依據,計算決策樹各特征屬性的信息增益,選取信息增益最大特征作為決策點,由上而下生成決策樹。設S為某短信數據源中的s個樣本數據的總和,{C1,C2,…,Cm}為其列度中的m個不同標識,且si為列度標識Ci中的樣本數量,由此得出,短信樣本集分類所需的期望信息為:
I(s1,s2,…,sm)=-∑mi=1pilog2(pi)(4)
式中,I(s1,s2,…,sm)表示短信樣本集s1,s2,…,sm分類所需的期望值,pi為任一短信樣本屬于列維度標識Ci的概率。假設一個特征a取v個不同的值{v1,v2,…,vv},利用a將集合S劃分為v個子集{S1,S2,…,Sv},其中S1包含了S集合中特征a取v1值的短信數據樣本,若特征a被選擇為劃分已有短信樣本集的決策屬性點,設Sij為子集Sj中屬于Ci列標識的樣本集,利用a劃分已有樣本集的信息決策點所需要的信息熵為:
E(a)=∑vj=1s1j+s2j+…smjsI(s1j,s2j,…,smj)=-∑vj=1∑mi=1s1j+s2j+smjspijlog(pij)(5)
式中,E(a)是已有短信樣本集所需要的信息熵,pij為子集sj中任意一個數據樣本屬于列標識Ci的概率。利用特征對分支節點劃分樣本集所獲得的信息增益即可生成違規短信判決決策樹分類[5] 。
2 違規短信自動識別模型構建
在違規短信識別模型中,假設y為決定用戶是正常用戶還是違規短信用戶的二值變量,以y=1代表違規短信用戶,以y=0代表正常用戶,以p表示以統計學的計算方式對短信接收用戶進行預測的預測值,即y=1的概率。一般情況下,p的值與短信接收用戶是違規短信用戶的可能性成正比,p的值越大,該用戶是違規短信用戶的可能性越高;p值越小,該用戶是違規短信用戶的可能性便越小。計算方式可依據Logistic的線性回歸模型,如下式(6)所示。
logp1-p=β0+β1X1+…+βnXn(6)
式中,p=p(y=1)是二值變量中y=1的概率,X1,X2,…Xn是影響y=1的n個預測變量。β0,β1,…βn是需要結合短信用戶數據等相關數據庫進行預估的模型參數。將收集到的短信樣本組以7∶3的比例劃分為訓練集與測試集,依據訓練集求出模型參數β0,β1…βn的值,將各數據的值代入表達式中求得p(y=1)的值。此時可依據得到的結果進行判斷,當p等于1時,短信為正常短信,不予處置,正常進行信息接收;當p不等于1時,短信被自動識別為違規短信。
(6)根據決策樹處理違規短信,依照違規短信識別攔截規則生成短信識別攔截方案,進而通過判斷違規短信的攔截參數是否符合預期攔截要求進行短信識別,計算攔截參數具體如下式(7):
pl=MN(7)
式中,pl為攔截參數,M為違規信息攔截概率,N為用戶接收的短信條數。違規短信自動識別即以采集的違規短信為依據獲取違規短信數據,在此基礎上隨機抽取部分非違規短信數據與之混合,形成短信自動識別建模樣本組。選定樣本數據后,總體用戶數據庫提取與該用戶相關聯的短信,結合違規短信數據形成寬表,而后運用計算方法進行相關性數據的分析與整合,完成相應的違規短信自動識別參數計算。
3 測試實驗
3.1 實驗準備
本文通過實驗驗證違規短信自動識別設計的有效性。實驗中的數據采用某信息平臺中采集到的含有多維未知屬性的結構化數據源。為保障違規短信自動識別模型數據獲取的精細化,實驗以短信接收用戶接收短信的相關特征和數據的可獲取性原則為依據,構建違規短信自動識別模型。具體實驗以某兩個月上限的短信樣本數據為例,將樣本數據導入違規短信自動識別算法模型,以3∶7的比例對樣本數據進行分區,建立Logistic的線性回歸模型,預估Logistic回歸模型的參數,β0,β1,…βn,以及y=1的概率,具體數值如表2所示。
由表2可知,當y=1時,截距、網絡在線時長、短信發送消耗費用以及每月前3天內集中時段短信發送條數的自由度一致,顯著水平穩定;違規短信自動識別算法的識別表現可從兩個方面進行評判。本文對比訓練集中獲取的違規短信用戶量以及測試集中獲取的違規短信用戶量數據,獲取數據對比的差值,判斷違規短信自動識別算法的識別結果是否可靠,獲取違規短信自動識別波動率及準確率結果。
3.2 實驗結果
3.2.1 波動率
違規短信自動識別的波動率是指通過對已知的違規短信用戶量進行對比,獲取的短信自動識別訓練集中的數據命中率與測試集中數據命中率的差值。實驗以5個短信自動識別基礎指標為例,分別對置信區間,即指標數據參數估計區間的上限及下限數據進行計算,進而通過上下限的數據比對得出違規短信自動識別的波動率,具體數值如表3所示。
短信自動識別指標的置信區間(eβ)上下限波動值分別為0.01、0.003、0.003、0.002、0.008,違規短信自動識別的波動率幅度為0.8%上下,以此判定,違規短信自動識別模型相對可靠。
3.2.2 自動識別準確率
違規短信識別準確率即以所獲取短信中屬于黑名單的用戶在嫌疑黑名單中的所占比例為標準判斷違規短信自動識別模型的穩定可靠性。隨機采集某用戶近兩個月時間段內的短信數據進行分析,共獲取違規短信28條,經對違規短信進行樣本分析后,按照違規短信類型對違規短信進行了分類,違規短信自動識別模型對全部短信進行識別判斷后,得出相關違規短信判斷數據,經數據分析與比對后得出違規短信自動識別算法的準確率,具體結果如表4所示。
據表4數據顯示,基于數據挖掘的違規短信自動識別模型過濾的準確率為96.42%。實驗結果表明,基于數據挖掘技術的違規短信自動識別模型識別的準確率雖存在一定的波動性,但能夠較好地識別疑似違規用戶中的違規短信,一定程度上能夠提升短信信息服務質量,基于數據挖掘的違規短信自動識別算法的穩定性與可靠性較強。
4 結語
以數據挖掘技術為技術保障的違規信息自動識別算法設計,降低違規短信的不良影響是提升短信信息服務質量、保障用戶信息安全的直接途徑。基于數據挖掘技術的違規短信自動計算算法下,違規短信的識別率及識別準確率較為精準,系統處理速率較快,能夠有效降低人工攔截違規短信的工作量,提升違規短信的攔截效率,實現違規短信過濾攔截的循環優化,便于信息平臺精細化管理違規短信用戶,有效保障短信數據來源的安全性及用戶短信通信權益的穩定性。
參考文獻
[1]李瓊陽,田萍.基于主成分分析的樸素貝葉斯算法在垃圾短信用戶識別中的應用[J].數學的實踐與認識,2019(1):134-138.
[2]李靖超,錢迪,董春蕾.基于小波熵理論的決策樹信號分類識別算法[J].上海電機學院學報,2019(2):100-103.
[3]邱達超,王海燕,李振華.談移動互聯網時代的手機信息安全[J].電信工程技術與標準化,2020(8):21-26.
[4]王金棟,向前蘭,李岳.基于廣義數字的智能垃圾短信攔截系統設計[J].郵電設計技術,2021(3):55-57.
[5]王金棟,任燕影,向前蘭.智能識別內容的垃圾短信系統設計[J].內江科技,2020(8):16-17.
(編輯 編輯傅金睿)
Design of automatic SMS recognition algorithm based on data mining
Yao? Yue
(Changsha Vocational & Technical College, Changsha 410217, China)
Abstract: Illegal SMS is the hotbed of fraudsters, which needs to be strictly controlled. Therefore, an automatic identification algorithm of illegal SMS based on data mining is proposed. Through the decision tree classification algorithm technology, we can judge the illegal short messages, build the automatic recognition algorithm model of illegal short messages, and design the architecture generation, index attributes and workflow of the model system. Through experimental analysis, although the accuracy rate of the automatic recognition algorithm of illegal short messages based on data mining technology has certain fluctuations, the accuracy rate of automatic recognition of illegal short messages is 96.42%, which can better identify suspected illegal short messages, realize the ultimate goal of effectively identifying and controlling illegal short message users, and effectively manage the phenomenon of illegal short messages.
Key words: data mining; decision tree; illegal SMS; automatic information identification