基于信令大數據及機器學習挖掘貓池養卡的研究

2019-11-13 08:40:13杜宇

科技創新導報 2019年17期

杜宇

摘 ? 要：本文基于信令大數據分析和建模思路，完成高頻高量呼叫的識別模型的研究，以危害網絡安全行為分析為主，整合網絡信令數據源，利用用戶行為數據進行建模，定位非法養卡用戶，實施精確打擊，達到利用現網數據合理識別與攔截的目標。綜合建模分析，獲取疑似貓池卡號及使用位置，通過BOSS系統用戶付費行為、業務使用情況、營銷活動等用戶簽約信息。

關鍵詞：大數據 ?機器學習 ?貓池養卡

中圖分類號：F713.51 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼：A ? ? ? ? ? ? ? ? ? ? ? ?文章編號：1674-098X（2019）06（b）-0133-02

挖掘“貓池養卡”行為研究通過全網信令數據、以及第三方平臺（打碼平臺、薅羊毛平臺等）等多渠道的數據，綜合建模分析，獲取疑似貓池卡號及使用位置，通過BOSS系統用戶付費行為、業務使用情況、營銷活動等用戶簽約信息，進一步精確確認疑似號碼，同時獲取終端及位置，最后對疑似貓池卡號進行人工確認后進行攔截。

貓池卡號識別與監控系統主要分為五大方面的能力，主要包括貓池養卡號碼識別、貓池養卡終端識別、設備準確定位、機器學習優化挖掘模型和系統管控能力。

總體系統設計分為5個部分，包括數據采集、數據計算、數據挖掘及存儲、用戶攔截及效果展示。

1 ?工作流程

1.1 底層數據接口

由運營系統數據、信令數據以及爬蟲獲取的第三方數據接口組成，這些數據作為底層數據供大數據存儲與分析平臺使用。

1.2 大數據存儲與分析平臺

大數據存儲平臺由Hive數據倉庫、Redis數據庫、MySql數據庫組成，Hive文件主要存儲采集預處理后的源數據，數據量比較大，Redis數據庫主要存儲數據分析中的相關維表，MySql作為向外部提供分析結果的數據庫，展現和接口提供的分析結果存在MySql中。

大數據分析平臺從底層數據接口中提取相關數據文件，然后解析文件里的每條數據，對數據進行簡單的清洗，過濾掉無效的垃圾數據，并將數據存入相應的hive數據庫中[1]。

1.3 模型層

由MapReduce以及hive定時任務組成，將分析平臺存入hive數據庫中數據做進一步分析，通過基于規則模型識別疑似貓池號碼。

1.4 結果輸出

根據結果形式以及客戶的需求，將分析結果以文件、報表、接口或者其他形式提供展現。

2 ?目標用戶特征挖掘

2.1 特征提取

特征提取涵蓋兩大類數據源：信令和BOSS數據。信令數據又進一步細分為通話行為數據、短信行為數據、開關機行為數據。BOSS數據又進一步細分為消費信息、業務量信息、套餐信息、終端信息、開戶信息。

進一步整理細分，提取信令和通信行為兩大類8大維度共50多個特征，如圖1所示。

2.2 特征分析

根據統計，使用貓池養卡的人群中約有15%～20%左右用來“薅羊毛”（即通過驗證碼套利、搶傭金等享受優惠），而約70%是用這些手機號生成的賬號來欺詐。

對上節提取的特征進行分析，正常號碼與貓池號碼在某些特征上具有顯著區別，提取全部特征點。

3 ?貓池養卡識別模型

根據典型的使用場景將貓池判定模型細分為3類，提取關鍵特征建模使用。

場景一：貓池養卡號碼用于詐騙/騷擾電話（呼死你、響一聲、高頻間隙呼叫）。

特征：在通話量、通話時長、通話頻率、釋放時長、使用流量和用戶消費等與真實用戶存在差異。

場景二：貓池養卡號碼用于詐騙/騷擾短信。

特征：在短信發收量、短信發收頻率、短信發收用戶數、使用流量等與真實用戶存在差異，增加開機時長和天數等參數，從信令角度對話單中無法顯示或無法有效分析的維度進行補充。

場景三：貓池養卡號碼用于“薅羊毛”。

特征：該類號碼主要用來接收平臺端的短信，因此其接收的短信主要以106開頭，其占比超過90%，并且其發送短信量較少。可以具體分析短信中的社交信息，結合用戶消費信息和其他相關特征進行分析。

3.1 模型優化

噪音特征的刪減是一個優化模型的手段。上訴過程中，可能引入對于分類問題無幫助的特征，無形中浪費了計算力，更糟糕的情況是，有的噪音特征不僅只是對分類問題無幫助，而是直接拉低了模型的識別能力。識別噪音特征的方法之一是基于豐富的業務知識做特征選擇和試驗，此外另一種方法則是對數據的特征做統計分析，這在缺少對業務的把握能力時具有很高的現實意義[2]。

此外結合具體的情況調節算法本身的相關參數也可起到一定的優化效果，例如在本案例中，調整近鄰參考個數，從而改進模型的識別效果。

隨著模型的深入使用，樣本數據可能會收集的越來越多，養卡樣本數據量的增加，也會反向促使模型的識別性能更加優良。

3.2 貓池卡號攔截

針對每天識別的疑似貓池養卡號碼送至騷擾電話監控系統進行二次人為確認和攔截，確保貓池號碼得到及時處理，攔截后的結果返回貓池卡號識別與監控系統，再次以周為周期自動通過決策樹和支持向量機算法模型智能優化調整，獲取最佳識別模型。打擊貓池養卡行為，打擊囤卡和套利網點，減少非法投票、廣告傳播、非法詐騙等造成的垃圾短信、騷擾電話困擾正常用戶。配合公安部門打擊非法營銷、詐騙現象。

4 ?結語

針對養卡行為難以通過具體業務指標參數進行識別的特點，采用了基于機器學習的建模方式，通過行為模式內建，規避了養卡行為難以把握的問題。養卡行為識別之所以一直是一個難點，其主要原因就在于養卡行為的行為模式本身變化多端，難以把握。不同階段，養卡訴求的不同，養卡行為的模式往往隨之變遷，傳統的建模方法在這種情況下，則可能需要完全從頭開始建立一個新的模型，因為老模型已經無法體現當前的養卡行為模式。本成果通過采用機器學習理論建模，讓養卡行為模式自動內建于模型之中，而不是人為設置具體的業務指標閥值進行控制，規避了養卡行為不好把握的特點。

參考文獻

[1] 趙慶.基于Hadoop平臺下的Canopy-Kmeans高效算法[J].電子科技，2014，27（2）：29-31.

[2] 溫瑞軍.移動代理商渠道養卡套利行為識別與治理[J].電子技術與軟件工程，2015（3）：54-55.

[3] 萬旭.基于Hadoop平臺的聚類算法研究[D].西安電子科技大學，2016.