999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于通信大數據挖掘的網絡業務類型劃分方法研究

2017-03-13 16:19:47李強金雨超郭景贊
移動通信 2017年3期
關鍵詞:數據挖掘分析

李強 金雨超 郭景贊

在傳統的Gn數據解析過程中,業務類型里“未知服務”的占比通常在70%以上。為了提高解析結果的分析價值,結合數據分析和數據挖掘技術對DNS解析流量字段進行細分,該設計方案在最大化利用原始數據的同時,能從多維度細分用戶網絡業務,優化結果可以為用戶畫像、用戶標簽、用戶群體特征等分析應用提供有力支持。

數據挖掘 數據解析 網絡業務類型劃分 聚類算法

1 引言

21世紀信息和通信技術高速發展,技術的進步給人們的日常生活帶來了諸多便利。通訊是社會交往中的重要紐帶,推動著數字信息的發展。通信行業的大數據應用,能夠優化移動通信網絡,開拓更豐富的服務業務,為移動用戶提供更精準、更便捷的服務。

Gn數據是Gn口原始碼流解析得到的數據,主要反映用戶使用各類數據業務的詳細情況。在傳統的Gn數據解析過程中,流量類型里“未識別TCP流量業務”、“未識別UDP流量業務”和“DNS解析流量業務”等類型均被劃為未知服務。這樣的計算模型會導致解析結果里未知服務的占比很高。

本文針對原始Gn數據,提出了一種新的網絡業務分類方法:利用大數據并行計算模式解析DNS業務里的URL,解析結果通過挖掘算法(基于密度的聚類算法)模型處理,以確立新的網絡業務類型。

2 技術介紹

2.1 大數據處理步驟

大數據的飛速發展已經影響到了各行各業,其中信息、互聯網和通信行業受到的影響最大。大數據的到來恰逢通信行業的轉型過渡階段,給這個行業注入了新鮮的血液。

大數據處理方法通常為四步,分別是原始數據的采集、數據導入和預處理、數據的統計和分析以及數據挖掘。下面將按照這四個步驟的順序進行闡述。

(1)數據采集

數據的采集階段是指用數據庫來接收以Web、App等形式傳送的數據,在大數據的采集過程中,最主要的問題是處理高并發數,同一時間點可能會有上萬條申請操作。而采集階段通常采用的優化方式是在這些數據庫之間進行分時分片管理和負載均衡。

(2)數據導入和預處理

數據導入指的是將原始數據導入到分布式存儲集群,并且在導入過程中,對數據做去除噪聲點、篩選特定條件等清洗工作。導入和預處理過程中面臨的主要效率瓶頸是網絡帶寬和磁盤IO。

(3)數據統計和分析

大數據場景下的統計與分析主要通過分布式計算集群來對數據進行分析和分類匯總等,在這一階段,最常用的兩個計算框架是Hadoop和Spark。統計與分析遇到的主要問題是,分析時所涉及的數據量通常很大,其對系統資源會造成極大的占用。

(4)數據挖掘

數據挖掘階段是一個知識發現的過程,一般沒有預先設定好的主題。比較典型的算法有用于聚類分析的K-means算法、用于統計學習的SVM算法和用于分類的Na?ve-Bayes算法。該過程的特點主要是用于挖掘的算法一般比較復雜,考慮到系統資源的開銷,需要選擇合適的計算框架。

2.2 基于聚點密度和距離的高效聚類算法

把一個數據集分割成不同的類或簇,使得同簇內數據對象的相似性盡可能大,不同簇中數據對象的差異性也盡可能地大,通常采用聚類算法。從傳統的聚類分析方法來看,在進行聚類之前都需要先確定要聚類的類別數目,然而在現實運營數據的分析過程中,聚類的類別結果通常是未知的,一般要經過多次實驗來獲得相對合適的聚類數目。考慮到本文中要分析的數據是多維度的結構化數據,且聚類結果不需要人工干預,可以參考Alex Rodriguez和Alessandro Laio提出的新的聚類算法,下面對此聚類算法做簡要介紹。

該算法假設所確定的類簇中心點是由一些局部密度相對其較低的點所環繞,并且這些點與其他高局部密度點(其他類簇中心點)的距離都比較大。首先定義兩個值:局部密度ρi以及到其他高局部密度點的距離δi。

ρi=Σj X(dij-dc) `(1)

(2)

公式中dc是一個臨界變量值,是一個預先設定的參數。從公式(1)和(2)可以得出,ρi相當于和點i的距離差值小于dc的點的個數。由于該算法只對ρi的相對值敏感,所以面對大數據量時,為了算法的健壯性,對dc的選擇最好使得平均每個點的鄰居數為所有點數量的1%~2%。

δi=minj:ρj>ρi (dij) (3)

根據公式(3),δi用來表示點i和點j直接的距離,其中ρj>ρi。對于ρ值最大的點,設置其δi=maxj (dij)。

局部密度ρi和據其他中心點距離δi的值均很大的點被認為是類簇的中心。局部密度較小但是δi較大的點則是異常點。在確定了類簇中心之后,非中心點屬于其距離最近的類簇中心所代表的類簇。

圖1是以ρ為橫坐標、以δ為縱坐標的決策圖。可以看到,1號和10號兩個點的ρi和δi都比較大,可以作為聚類焦點。11、12、13三個點的δi比較大,但是ρi較小(周圍點密度太小),所以是異常點,在聚類過程中將被清洗掉。

3 服務類型劃分系統模型設計

傳統的Gn數據解析過程中,在流量類型字段里,將“未識別TCP流量業務”、“未識別UDP流量業務”和“DNS解析流量業務”劃為未知服務。這樣的計算模型導致Gn數據解析后,業務類型里會有很高占比的未知服務。解決大量的“未知服務”的分類結果,既可以最大化地利用原始數據,又可以在多維度的情況下,細分用戶的網絡業務。系統采用分布式集群架構,如圖2所示,分為數據獲取、數據清洗、數據解析、數據云存儲、數據模型挖掘、挖掘結果分析幾個步驟。

數據獲取階段,將Gn接口數據通過FTP的方式將數據傳送給數據清洗模塊。

數據清洗主要是完成無效字段的替換,將RNC解析流量對應URL為空的記錄刪除,并完成目標數據的選取,將Gn原始數據類型中流量類型為RNC解析流量的記錄截取出來。

數據解析,如圖3所示,所映射的URL包括查詢的域名及查詢類型。解析URL需要解析協議(如http、https)、域名或IP、端口號(如7001、8080)、Web上下文、URI,請求資源地址等。此處需要解析出域名,并將其存儲為一個新的字段。做一個URL映射表,將訪問域名進行歸類映射,例如SINA映射為新聞咨詢瀏覽,tianya映射為討論類論壇,weibo映射為社交網絡等。

數據云存儲階段,將解析后的數據以Parquet文件塊的形式存儲在HDFS上,作為數據挖掘接入口。

數據挖掘模型采用2.2節介紹的基于聚點密度和距離的高效聚類算法。將解析后的數據作為輸入端,通過挖掘模型計算,自動生成聚類結果。此處需要注意的是,由于算法中dc變量值(表示測量點臨界間距)需要事先設定好,所以為了得到合理的結果,需多次對數據進行訓練,找到一個符合業務分析需求的特定值。另外,根據用戶實際使用情況,同一種業務在不同時間段會產生不同的用戶體驗需求,以及每個人會有不同的使用習慣等,將輸入參數定為業務發生時間、RNC解析URL域名、年齡這三個字段。

4 計算結果分析

經過多次訓練,得到聚類分析結果,分別為:

(1)深夜(22:00—24:00),年齡<34,社交網絡;

(2)中午(11:00—13:00),26<年齡<32,新聞資訊瀏覽。

傳統方式的Gn數據解析后,服務類型分為流媒體業務、下載業務、即時通信、瀏覽業務和未知服務五類。結合聚類分析的結果可以初步判斷,在未知服務內會有大部分人喜歡深夜使用社交網絡服務,以及會有很多青年人會選擇在中午的時候瀏覽新聞咨詢。可以嘗試在服務類型中將第五類未知服務新分出一類:社交網絡服務,其確定的方法可以按照聚類的方式倒推,即匹配其解析后的URL。

5 結束語

本文對比傳統的Gn數據解析方式,提出了一種基于數據挖掘的網絡業務類型劃分方法。在實際應用中,該方法在處理大規模數據和高維數據時性能有待于提高。針對這種情況,有學者提出一種在高維空間挖掘映射聚類的方法PCKA,它能從多個維度中篩選出相關的維度,并根據相關維度進行聚類。另一方面,如需要對全國范圍的Gn數據業務分類,應使用更全面的數據進行模型訓練。

參考文獻:

[1] 陳宇. 京廣高鐵GPRS業務Gn接口數據監測的應用[J]. 鄭鐵科技, 2013(1): 23.

[2] 韓宇. 基于數據挖掘的聯通運營監控模塊的設計與實現[D]. 沈陽: 東北大學, 2011.

[3] 陳平,郭蘭珂,方俊湘. 微信業務的識別方法研究[J]. 移動通信, 2013,37(18): 80-83.

[4] 鄭桂鳳. 移動互聯網的用戶行為分析系統的設計與實現[D]. 北京: 北京郵電大學, 2010.

[5] 閆春榮,牟宏蕾,郝亞飛. 移動通信大數據信息在決策分析平臺中的應用方案研究[J]. 移動通信, 2016,40(10): 24-28.

[6] 李玲俐. 數據挖掘中分類算法綜述[J]. 重慶師范大學學報: 自然科學版, 2011(4): 44-47.

[7] 劉明吉,王秀峰. 數據挖掘中的數據預處理[J]. 計算機科學, 2000,27(4): 54-57.

[8] 胡志風. 大數據在職務犯罪偵查模式轉型中的應用[J]. 國家檢察官學院學報, 2016(4): 144-153.

[9] 鄭雅麗. 圖書館應用大數據的策略研究[J]. 科技視界, 2015(12): 163-164.

[10] Usama Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth. From data mining to knowledge discovery in databases[J]. AI magazine, 1996,17(3): 37.

[11] Liao Shu-Hsien, Pei-Hui Chu, Pei-Yuan Hsiao. Data mining techniques and applications–A decade review from 2000 to 2011[J]. Expert Systems with Applications, 2012,39(12): 11303-11311. ★

猜你喜歡
數據挖掘分析
探討人工智能與數據挖掘發展趨勢
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
電力系統及其自動化發展趨勢分析
一種基于Hadoop的大數據挖掘云服務及應用
中西醫結合治療抑郁癥100例分析
在線教育與MOOC的比較分析
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 日韩a在线观看免费观看| 国产亚洲精品91| 国产精品第一区在线观看| 亚洲人成在线精品| 国产成人免费视频精品一区二区 | 国产精品欧美日本韩免费一区二区三区不卡 | 久996视频精品免费观看| 国产麻豆福利av在线播放| 久久久久亚洲精品无码网站| 国产第四页| 欧美日韩激情| 国内精品91| 免费又黄又爽又猛大片午夜| 69精品在线观看| www精品久久| 欧美国产菊爆免费观看| 成人欧美在线观看| 欧美区在线播放| 99久久性生片| 天堂成人av| 色网在线视频| 一级香蕉视频在线观看| 国产又黄又硬又粗| 国产成人91精品免费网址在线| 成人免费一区二区三区| 国产在线专区| 免费网站成人亚洲| 中国国语毛片免费观看视频| 国产经典三级在线| 亚洲视频在线青青| 国产99视频精品免费观看9e| 国产精品白浆无码流出在线看| 女人一级毛片| 91丝袜在线观看| 日韩无码视频专区| 亚洲免费播放| 巨熟乳波霸若妻中文观看免费| 爆乳熟妇一区二区三区| 人妻无码中文字幕一区二区三区| 国产特级毛片| 国产原创演绎剧情有字幕的| 视频二区欧美| 成年人午夜免费视频| 国产最新无码专区在线| 亚洲第一极品精品无码| 日本高清有码人妻| 日本AⅤ精品一区二区三区日| 亚洲第七页| 国产精品免费p区| 日本欧美视频在线观看| 欧美www在线观看| 国产手机在线小视频免费观看| 亚洲精品动漫| 在线免费看片a| 亚洲欧美精品日韩欧美| 青青草欧美| 欧美日韩免费在线视频| 亚洲欧美日韩成人在线| 波多野结衣久久精品| 人妻精品全国免费视频| 国产h视频免费观看| 国产精品自在在线午夜区app| 日韩在线观看网站| 欧美自慰一级看片免费| 欧美一区国产| 亚洲综合精品第一页| 91小视频版在线观看www| 九色综合视频网| 国产美女视频黄a视频全免费网站| 亚洲成人77777| 亚洲AV无码乱码在线观看裸奔| 亚洲综合第一区| 国产在线观看人成激情视频| 2020国产在线视精品在| 色综合天天娱乐综合网| 国产成人亚洲精品无码电影| 伊人色在线视频| 自慰网址在线观看| 制服丝袜国产精品| 欧美不卡二区| 亚洲国产精品一区二区高清无码久久 | 国产免费怡红院视频|