999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于信令大數據及機器學習挖掘貓池養卡的研究

2019-11-13 08:40:13杜宇
科技創新導報 2019年17期
關鍵詞:機器學習大數據

杜宇

摘 ? 要:本文基于信令大數據分析和建模思路,完成高頻高量呼叫的識別模型的研究,以危害網絡安全行為分析為主,整合網絡信令數據源,利用用戶行為數據進行建模,定位非法養卡用戶,實施精確打擊,達到利用現網數據合理識別與攔截的目標。綜合建模分析,獲取疑似貓池卡號及使用位置,通過BOSS系統用戶付費行為、業務使用情況、營銷活動等用戶簽約信息。

關鍵詞:大數據 ?機器學習 ?貓池養卡

中圖分類號:F713.51 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A ? ? ? ? ? ? ? ? ? ? ? ?文章編號:1674-098X(2019)06(b)-0133-02

挖掘“貓池養卡”行為研究通過全網信令數據、以及第三方平臺(打碼平臺、薅羊毛平臺等)等多渠道的數據,綜合建模分析,獲取疑似貓池卡號及使用位置,通過BOSS系統用戶付費行為、業務使用情況、營銷活動等用戶簽約信息,進一步精確確認疑似號碼,同時獲取終端及位置,最后對疑似貓池卡號進行人工確認后進行攔截。

貓池卡號識別與監控系統主要分為五大方面的能力,主要包括貓池養卡號碼識別、貓池養卡終端識別、設備準確定位、機器學習優化挖掘模型和系統管控能力。

總體系統設計分為5個部分,包括數據采集、數據計算、數據挖掘及存儲、用戶攔截及效果展示。

1 ?工作流程

1.1 底層數據接口

由運營系統數據、信令數據以及爬蟲獲取的第三方數據接口組成,這些數據作為底層數據供大數據存儲與分析平臺使用。

1.2 大數據存儲與分析平臺

大數據存儲平臺由Hive數據倉庫、Redis數據庫、MySql數據庫組成,Hive文件主要存儲采集預處理后的源數據,數據量比較大,Redis數據庫主要存儲數據分析中的相關維表,MySql作為向外部提供分析結果的數據庫,展現和接口提供的分析結果存在MySql中。

大數據分析平臺從底層數據接口中提取相關數據文件,然后解析文件里的每條數據,對數據進行簡單的清洗,過濾掉無效的垃圾數據,并將數據存入相應的hive數據庫中[1]。

1.3 模型層

由MapReduce以及hive定時任務組成,將分析平臺存入hive數據庫中數據做進一步分析,通過基于規則模型識別疑似貓池號碼。

1.4 結果輸出

根據結果形式以及客戶的需求,將分析結果以文件、報表、接口或者其他形式提供展現。

2 ?目標用戶特征挖掘

2.1 特征提取

特征提取涵蓋兩大類數據源:信令和BOSS數據。信令數據又進一步細分為通話行為數據、短信行為數據、開關機行為數據。BOSS數據又進一步細分為消費信息、業務量信息、套餐信息、終端信息、開戶信息。

進一步整理細分,提取信令和通信行為兩大類8大維度共50多個特征,如圖1所示。

2.2 特征分析

根據統計,使用貓池養卡的人群中約有15%~20%左右用來“薅羊毛”(即通過驗證碼套利、搶傭金等享受優惠),而約70%是用這些手機號生成的賬號來欺詐。

對上節提取的特征進行分析,正常號碼與貓池號碼在某些特征上具有顯著區別,提取全部特征點。

3 ?貓池養卡識別模型

根據典型的使用場景將貓池判定模型細分為3類,提取關鍵特征建模使用。

場景一:貓池養卡號碼用于詐騙/騷擾電話(呼死你、響一聲、高頻間隙呼叫)。

特征:在通話量、通話時長、通話頻率、釋放時長、使用流量和用戶消費等與真實用戶存在差異。

場景二:貓池養卡號碼用于詐騙/騷擾短信。

特征:在短信發收量、短信發收頻率、短信發收用戶數、使用流量等與真實用戶存在差異,增加開機時長和天數等參數,從信令角度對話單中無法顯示或無法有效分析的維度進行補充。

場景三:貓池養卡號碼用于“薅羊毛”。

特征:該類號碼主要用來接收平臺端的短信,因此其接收的短信主要以106開頭,其占比超過90%,并且其發送短信量較少。可以具體分析短信中的社交信息,結合用戶消費信息和其他相關特征進行分析。

3.1 模型優化

噪音特征的刪減是一個優化模型的手段。上訴過程中,可能引入對于分類問題無幫助的特征,無形中浪費了計算力,更糟糕的情況是,有的噪音特征不僅只是對分類問題無幫助,而是直接拉低了模型的識別能力。識別噪音特征的方法之一是基于豐富的業務知識做特征選擇和試驗,此外另一種方法則是對數據的特征做統計分析,這在缺少對業務的把握能力時具有很高的現實意義[2]。

此外結合具體的情況調節算法本身的相關參數也可起到一定的優化效果,例如在本案例中,調整近鄰參考個數,從而改進模型的識別效果。

隨著模型的深入使用,樣本數據可能會收集的越來越多,養卡樣本數據量的增加,也會反向促使模型的識別性能更加優良。

3.2 貓池卡號攔截

針對每天識別的疑似貓池養卡號碼送至騷擾電話監控系統進行二次人為確認和攔截,確保貓池號碼得到及時處理,攔截后的結果返回貓池卡號識別與監控系統,再次以周為周期自動通過決策樹和支持向量機算法模型智能優化調整,獲取最佳識別模型。打擊貓池養卡行為,打擊囤卡和套利網點,減少非法投票、廣告傳播、非法詐騙等造成的垃圾短信、騷擾電話困擾正常用戶。配合公安部門打擊非法營銷、詐騙現象。

4 ?結語

針對養卡行為難以通過具體業務指標參數進行識別的特點,采用了基于機器學習的建模方式,通過行為模式內建,規避了養卡行為難以把握的問題。養卡行為識別之所以一直是一個難點,其主要原因就在于養卡行為的行為模式本身變化多端,難以把握。不同階段,養卡訴求的不同,養卡行為的模式往往隨之變遷,傳統的建模方法在這種情況下,則可能需要完全從頭開始建立一個新的模型,因為老模型已經無法體現當前的養卡行為模式。本成果通過采用機器學習理論建模,讓養卡行為模式自動內建于模型之中,而不是人為設置具體的業務指標閥值進行控制,規避了養卡行為不好把握的特點。

參考文獻

[1] 趙慶.基于Hadoop平臺下的Canopy-Kmeans高效算法[J].電子科技,2014,27(2):29-31.

[2] 溫瑞軍.移動代理商渠道養卡套利行為識別與治理[J].電子技術與軟件工程,2015(3):54-55.

[3] 萬旭.基于Hadoop平臺的聚類算法研究[D].西安電子科技大學,2016.

猜你喜歡
機器學習大數據
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
基于支持向量機的金融數據分析研究
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
機器學習理論在高中自主學習中的應用
主站蜘蛛池模板: 456亚洲人成高清在线| 伦精品一区二区三区视频| 国产精品开放后亚洲| 亚洲人成人伊人成综合网无码| 国产免费羞羞视频| 人妻丰满熟妇AV无码区| 国语少妇高潮| 一级毛片视频免费| 亚洲欧美极品| 在线免费无码视频| 国产99视频免费精品是看6| 午夜激情婷婷| 国产成人久久综合一区| 欧美日韩亚洲国产| 四虎永久在线| 又爽又大又黄a级毛片在线视频| 国产精品偷伦在线观看| 一级毛片免费观看久| 97精品国产高清久久久久蜜芽| 国产综合欧美| 欧美激情,国产精品| 亚洲日韩精品无码专区| 中文字幕人妻无码系列第三区| 性欧美在线| 老司机精品久久| 人妻无码中文字幕一区二区三区| 91精品啪在线观看国产| 激情综合婷婷丁香五月尤物| 成人毛片在线播放| 午夜毛片免费看| 欧美区在线播放| 国产免费a级片| 日本在线欧美在线| 四虎综合网| 欧美成人手机在线观看网址| 超碰免费91| 91成人在线免费视频| 婷婷色狠狠干| 精品国产免费观看| 亚洲—日韩aV在线| 欧美一级色视频| 国产精品网拍在线| 国产微拍精品| 久久精品亚洲热综合一区二区| 欧洲欧美人成免费全部视频| 欧洲熟妇精品视频| 亚洲欧洲自拍拍偷午夜色无码| 久久这里只精品热免费99| 色亚洲成人| 青青操视频在线| 无套av在线| 免费 国产 无码久久久| 国产精品专区第1页| 久久精品中文字幕免费| 国产亚洲欧美日韩在线一区二区三区| 国产99久久亚洲综合精品西瓜tv| 国产福利不卡视频| 亚洲第一成网站| 国产欧美亚洲精品第3页在线| 99热6这里只有精品| 国产在线视频二区| 日韩精品专区免费无码aⅴ | 丁香五月亚洲综合在线| 国产免费一级精品视频| 国产精品欧美在线观看| 无码丝袜人妻| 欧美一级专区免费大片| 中文无码精品A∨在线观看不卡 | 免费xxxxx在线观看网站| 日本爱爱精品一区二区| 精品免费在线视频| 精品自窥自偷在线看| 波多野结衣无码中文字幕在线观看一区二区 | 欧美翘臀一区二区三区| 97国产成人无码精品久久久| 欧美日韩精品综合在线一区| 青青草国产精品久久久久| 亚洲娇小与黑人巨大交| 亚洲人成影视在线观看| 国产成人成人一区二区| 国产 在线视频无码| 精品国产一二三区|