999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據挖掘分析的垃圾短信治理方案

2015-07-03 09:42:38王睿譚衛
電信工程技術與標準化 2015年2期
關鍵詞:數據挖掘分類用戶

王睿,譚衛

(中國移動通信集團四川有限公司 成都,610041)

1 垃圾短信治理面臨的調整

目前的垃圾短信過濾的方法主要有黑名單和白名單監控技術,但是短信中心對黑白名單處理數量有上限要求;基于關鍵字的過濾技術,但是這種技術不能靈活識別和更新關鍵字;基于內容的過濾技術,可分為基于規則的過濾和基于概率統計的過濾;基于數據挖掘方法的垃圾短信用戶識別,目前基本上都使用IBM SPSS Modeler平臺的決策樹和邏輯回歸經典算法識別垃圾短信用戶,由于選取的建模數據不全面以及算法本身各自存在不足使得建模效果受到影響。

為建立白名單和科學封堵模型相結合的垃圾短信治理模式,實現精細化、行為級、高效性的垃圾短信治理,本方案提出了基于客戶綜合特征分析的垃圾短信治理技術方案:基于隨機森林分類的垃圾短信用戶預測模型。通過客戶入網屬性,客戶通信行為信息、客戶賬單信息等多個維度構建模型,對垃圾短信號碼進行識別和治理。

相比傳統基于短信內容識別、發送量控制的事中控制,本系統能夠進行垃圾短信發送行為預測,配合垃圾短信攔截系統將垃圾短信在未形成大規模發送前攔截。實驗結果證明該模型能夠有效的識別垃圾短信號碼,對監控系統攔截垃圾短信起到很好的輔助作用。

2 大數據挖掘的原理與優勢

大數據是指數據量很大(一般是TB到PB數量級)的巨量資料,無法通過主流軟件工具,在合理時間內完成數據處理并獲取有價值的信息。數據大多以非結構化或者半結構化數據為主,大數據具有4V特點:Volume、Velocity、Variety、Veracity。大數據處理的一般思路是數據壓縮、數據抽樣、數據挖掘等。

數據挖掘是一種新的信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其它模型化處理,從中提取輔助商業決策的關鍵性數據。利用數據挖掘進行數據分析常用的方法主要有分類、回歸分析、聚類、關聯規則、推薦系統等,它們分別從不同的角度對數據進行挖掘。大數據挖據的數據源和處理方式對比如表1所示。

表1 大數據方法與傳統方法比較

3 數據挖據流程和模型選取

3.1 數據挖掘的主要流程

數據挖掘主要包括以下6大步驟。

(1)商業理解:確定挖掘目標以及產生一個項目計劃。

(2)數據理解:知曉有哪些數據,以及數據的特征是什么。

(3)數據準備:對數據作出轉換、清洗、選擇、合并等工作。

(4)建模:根據挖掘目標確定適合的模型,建模并對模型進行評估。

(5)模型評估:評估建模效果,對效果較差的結果我們需要分析原因。

(6)結果部署:用所建挖掘模型去解決實際問題,它還包括了監督、維持、產生最終報表、重新評估模型等過程。

3.2 垃圾短信治理指標體系設計

垃圾短信用戶識別建模數據主要從信令監測系統、經營分析系統獲取,所獲取的用戶行為數據主要包括用戶通信行為信息、用戶基礎業務屬性、用戶通信業務信息等7個維度。其中,用戶通信行為信息包括活動軌跡、終端IMEI和數據業務訪問等信息,如圖1所示。

圖1 垃圾短信用戶識別建模指標體系設計

3.3 模型的選取

對白名單用戶的識別可以利用社交網絡模型與業務規則相結合的方法。利用社交網絡進行白名單用戶識別,重點考慮用戶之間發生的通信行為、增值業務交互行為等群體行為,通過對用戶之間關系的辨識。本文建模的重點著眼于垃圾短信用戶的識別及其治理。

3.3.1 現有垃圾短信識別模型的優勢與不足

識別垃圾短信用戶是數據挖掘中的分類問題,數據挖掘中常用的分類算法主要有邏輯回歸、決策樹、貝葉斯網絡等算法。其中,神經網絡因本身算法的復雜性,造成模型結果解釋性較差,模型落地較困難而很少在實際項目中使用。目前識別垃圾短信的數據挖掘模型基本上為邏輯回歸模型和決策樹模型。

決策樹模型主要具有以下優勢:模型非常直觀,容易讓人理解和應用;決策樹搭建和應用的速度比較快;決策樹對于數據分布沒有嚴格要求;受缺失值和極端值對模型的影響很小。

但是,使用決策樹作為垃圾短信用戶識別模型主要存在以下不足。

(1)決策樹最大缺點是其原理中的貪心算法。貪心算法總是做出在當前看來最好的選擇,卻不從整體上思考最優的劃分,因此,它所做的選擇只能是某種意義上的局部最優選擇。

(2)決策樹缺乏像回歸或者聚類那樣豐富多樣的檢測指標和評價方法。

(3)容易出現過擬合。當某些自變量的類別數量比較多,或者自變量是區間型時,決策樹過擬合的危險性會增加。

(4)決策樹算法對區間型自變量進行分箱操作時,無論是否考慮了順序因素,都有可能因分箱喪失某些重要信息。尤其是當分箱前的區間變量與目標變量有明顯的線性關系時,這種分箱操作造成的信息損失更為明顯。

相比于數據挖掘建模常用的其它算法如決策樹、神經網絡、支持向量機等,邏輯回歸技術是最成熟,得到廣泛應用,邏輯回歸模型主要存在以下不足。

(1)變量之間的多重共線性會對模型造成影響。

(2)應刪除異常值,否則它會給模型帶來很大干擾。

(3)邏輯回歸模型本身不能處理缺失值,所以應用邏輯回歸算法時,要注意針對缺失值進行適當處理,或者賦值,或者替換,或者刪除。

3.3.2 垃圾短信識別預測模型選取

鑒于目前研究者對垃圾短信識別使用的決策樹和邏輯回歸模型存在較多不足之處,本文從模型算法上對其進行改進,力求得到更加科學合理的垃圾短信識別預測模型。本文使用的數據挖掘模型為隨機森林模型。

3.3.2.1 模型簡介

隨機森林(Random Forest)算法是一種專門為決策樹分類器設計的優化方法。它綜合了多棵決策樹模型的預測結果,其中的每棵樹都是基于隨機樣本的一個獨立集合的值產生的。

隨機森林和使用決策樹作為基本分類器的Bagging有些類似。以決策樹為基本模型的Bagging在每次自助法(Boostrap)放回抽樣之后,產生一棵決策樹,抽多少樣本就生成多少棵樹,在生成這些樹的時候沒有進行更多的干預。而隨機森林也是進行許多次自助法放回抽樣,所得到的樣本數目及由此建立的決策樹數量要大大多于Bagging的樣本數目。隨機森林與Bagging的關鍵區別在于,在生成每棵樹的時候,每個節點變量都僅僅在隨機選出的少數變量中產生。因此,不但樣本是隨機的,就連每個節點變量產生都有相當大的隨機性。隨機森林讓每棵樹盡可能生長,而不進行修剪。

隨機森林算法主要包括決策樹的生長和投票過程。

隨機森林中單棵樹的生長可概括為以下幾步。

(1)使用Bagging方法形成個別的訓練集:假設原始訓練集中的樣本數為N,從中有放回地隨機選取N個樣本形成一個新的訓練集,以此生成一棵分類樹。

(2)隨機選擇特征(指評估指標,以下同)對分類樹的節點進行分裂:假設共有M個特征,指定一個正整數m

(3)每棵樹任其生長,不進行剪枝。Bagging方法形成新的訓練集和隨機選擇特征進行分裂,使得隨機森林能較好地容忍噪聲,并且能降低單棵樹之間的相關性;單棵樹不剪枝能得到低偏差的分類樹,同時保證了分類樹的分類效能(Strength),分類樹的分類效能是指分類樹對新的測試數據的分類準確率。

隨機森林算法的投票過程如圖2所示。

圖2 隨機森林的投票過程

隨機森林采用Bagging方法生成多個決策樹分類器,其基本思想是給定一個弱學習算法和一個訓練集,單個弱學習算法準確率不高,該學習算法使用多次,得出預測函數系列,進行投票最好結果準確率將得到提高。隨機森林投票算法公式:

經投票后生成混淆表CM,它是一個nc×nc表(nc為類別的總個數)。表中元素cm(i,j)(i≠j),表示類型i被分類為j的次數,僅當i=j時,cm(i,j)表示類型i被分類正確的個數。

3.3.2.2 隨機森林分類預測模型的主要優勢

(1)隨機森林的預測精度高,它可以產生高準確度的分類器。

(2)可以處理相當多的輸入變量。隨機森林不懼怕很大的維數,即使有數千個變量,也不必刪除,它也會給出分類中各個變量的重要性。

(3)當在構建隨機森林模型時候,對Generlization Error估計是無偏估計。

(4)隨機森林在設計上具有很快訓練速度,訓練出結果模型不必花費大量時間。

(5)對缺失值和極端值具有很強容忍能力,即使有較多缺失數據仍可以維持準確度。

(6)當遇到分類數據不平衡時,可以較好地平衡誤差。

(7)隨機森林算法并不會導致過擬合。定義組合分類器的總體分類效能s為: s=Ex,ymg(x,y)。

若用ρ表示每棵分類樹之間相關度的均值,則隨機森林的泛化誤差PE的上界可由下式給出: PE*≤ρ(1-s2)/s2。

當隨機森林有相當多的分類樹時,隨機森林的泛化誤差幾乎處處收斂于一個有限值。因此,隨著森林中分類樹數目的增長,隨機森林算法并不會導致過擬合。

(8)隨機森林在模型訓練過程中,能夠對特征之間的相互影響行為做出檢測。

隨機森林算法具有以上優勢,在垃圾短信治理預測中具有應用的優勢,本文采用隨機森林模型作為垃圾短信用戶的分類預測。

綜上所述,隨機森林模型主要在不會出現過擬合、訓練精度高、能處理大量輸入變量并輸出變量重要性3個方面優越于決策樹模型;在容忍缺失值和極端值方面明顯優越于邏輯回歸模型。隨機森林模型在算法設計上有效彌補了決策樹和邏輯回歸模型的不足之處,在垃圾短信識別分類預測中具有較好的應用價值。

3.3.2.3 垃圾短信數據挖掘模型構建

通過前述的商業理解確定了垃圾短信識別業務需求,并進行數據理解構建了垃圾短信識別指標體系,再抽取需要的數據,并進行數據清洗、轉換、衍生變量計算等步驟,具備了建模的目標數據,接下來的任務就是通過隨機森林模型構建垃圾短信分類預測模型,對垃圾短信用戶進行識別。

3.4 用戶分類治理策略

通過隨機森林模型的識別,根據用戶是垃圾短信發送者的可能性評估,制定不同的治理策略,如圖3所示。

實際的執行過程中,需要根據清單的范圍大小,適當的調整預測概率門限,以保證策略執行的效果,同時避免過多的正常用戶的業務感知受到影響。

4 垃圾短信治理平臺的實現

4.1 系統架構

垃圾短信治理平臺的數據來源較多,需要處理的數據量也非常大,因此,數據采集和數據處理過程是相互影響的過程。垃圾短信治理平臺的系統架構圖如圖4所示。

(1)數據采集層:是垃圾短信治理平臺與多個數據庫來源的安全訪問接口,通過數據采集層實現數據挖掘和分析所需要的基礎信息:用戶屬性信息、用戶卡號信息、用戶業務記錄、用戶的位置信息和消費記錄。

圖3 垃圾短信用戶分類治理策略

(2)數據處理層:需要根據數據挖掘的需求,將采集的基礎數據轉換為業務服務層可以使用的數據,通過對基礎數據進行整形、清洗和預處理,為后續的數據挖掘做好數據準備。

(3)業務服務層:主要包括應用性服務和安全服務兩個部分,應用性服務包括數據查詢統計服務、用戶查詢服務和GIS應用服務,同時,補充報表服務和文件管理服務以方便日常的工作。通過外部接口服務,可以部署相應的權限管理、數據管理維護以及注冊服務等,降低系統的風險,保證信息的安全傳遞。

(4)功能模塊:主要是根據客戶需求,定制開發的功能單元,功能模塊的個數以實際部署的情況為準。以某省公司的定制模塊為例,主要包括指標查詢模塊、垃圾短信治理模塊、用戶綜合信息分析模塊和市場支撐應用模塊4個部分。

圖4 垃圾短信治理平臺的系統架構圖

4.2 效果展現

針對不同的部門或用戶,垃圾短信治理平臺展現不同的數據,主要包括以下的結果展現方式。

(1)治理效果掌控:通過指標查詢系統,及時掌握垃圾短信的治理效果,發現工作的成果和風險,達到及時發現問題并快速響應的目的。

(2)治理效率提升:通過垃圾短信治理模塊,快速準確識別垃圾短信源頭并定位區域,下發至地市公司快速處理,減小垃圾短信帶來的不良社會影響。

(3)實現預先管控:通過用戶綜合信息分析模塊,可以對潛在的具有垃圾短信源頭特征的風險終端進行監控、通過外呼、資費信息等情況,提前發現和治理潛在垃圾短信源。

(4)渠道規范化:市場部門通過渠道信息和卡號信息,對一些垃圾短信來源集中的渠道的發卡進行監督和嚴格控制,從源頭上減少垃圾短信的源頭。

(5)分層的權限管理、數據來源分級管理和分用戶權限管理可以有效保障數據來源的安全,不同的用戶,劃分不同的展現方式。

猜你喜歡
數據挖掘分類用戶
分類算一算
探討人工智能與數據挖掘發展趨勢
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 四虎在线高清无码| 亚洲伊人久久精品影院| 性欧美久久| 国产人成午夜免费看| 亚洲日韩高清在线亚洲专区| 亚洲一区二区日韩欧美gif| 国产乱人伦AV在线A| 久综合日韩| 国产精品尹人在线观看| 免费国产不卡午夜福在线观看| AV无码无在线观看免费| 天堂av综合网| 人妻一区二区三区无码精品一区| 99热这里只有精品5| 最新亚洲人成无码网站欣赏网| 亚洲国模精品一区| 天堂成人av| 欧美日韩高清在线| 亚洲人成网站观看在线观看| 成人福利视频网| 激情综合网激情综合| 日本在线免费网站| 日本爱爱精品一区二区| 午夜激情婷婷| 中文字幕在线播放不卡| 亚洲无码精品在线播放| 国产成人av一区二区三区| 91在线国内在线播放老师| 日本不卡在线视频| 国产成人免费高清AⅤ| 国产在线98福利播放视频免费| 国产精品久久久久久久久kt| 亚洲av无码人妻| 欧美日韩国产精品va| 日韩在线欧美在线| 欧洲亚洲一区| 99re在线免费视频| 亚洲小视频网站| 国产成人一区免费观看| 男女男免费视频网站国产| 色妞永久免费视频| 在线观看国产精美视频| 日韩 欧美 国产 精品 综合| 在线免费看黄的网站| 国产99视频在线| 亚洲国产日韩在线成人蜜芽| 黑色丝袜高跟国产在线91| 毛片在线区| 亚洲综合激情另类专区| 国产精品一区在线麻豆| 欧美日韩一区二区三| 国产九九精品视频| 亚州AV秘 一区二区三区 | a色毛片免费视频| 欧美精品在线观看视频| 18禁不卡免费网站| 国产在线观看精品| 性激烈欧美三级在线播放| 一本大道无码日韩精品影视| 国产乱子伦视频三区| 国产在线欧美| 国产丝袜无码精品| 亚洲av无码久久无遮挡| 538精品在线观看| 波多野结衣一区二区三区88| 57pao国产成视频免费播放| 91精品国产无线乱码在线| 亚洲国产精品无码久久一线| 久久黄色一级片| 国产精品国产主播在线观看| 22sihu国产精品视频影视资讯| 国产精品亚洲综合久久小说| 欧美日韩北条麻妃一区二区| igao国产精品| 天天综合网色中文字幕| 日韩性网站| 欧美国产视频| 国产99精品久久| 国产在线观看高清不卡| 国产三级韩国三级理| 麻豆精品久久久久久久99蜜桃| 一本大道香蕉久中文在线播放|