999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

聚類算法在流量分析中的應用

2019-07-20 13:24:35龍穎何加龍胡雪
電子技術與軟件工程 2019年10期
關鍵詞:數據處理

龍穎 何加龍 胡雪

摘要:本文從網絡流量的數據來源出發,淺談了聚類算法處理網絡流量的基本流程。

[關鍵詞]聚類算法 流量分析 數據處理 FCM

隨著互聯網的發展,各種網絡應用層出不窮,人們對網絡帶寬的需求增加。對網絡運營商、網絡管理員來說,高效識別和管理網絡流量,能有效進行網絡帶寬分配和網絡調度;流量識別也能幫助某些應用對用戶行為開展研究,以提供更好的服務,如購物網站、廣告精準投放等;在網絡安全領域,通過流量分析,識別正常網絡流量和異常流量,輔助識別網絡攻擊。

1 流量分析數據來源

數據傳輸的封裝特性使管理員無法打開流量數據包查看內容,只能根據流量的特點進行大致分類。流量分析數據來源有兩種,一種是離線流量數據,一種是實時流量數據。

數據集是離線流量數據的典型代表。在實際研究中,訓練流量分析算法一般均會采用特殊處理的網絡流量數據集,如MCFP、HTTP DATASET CSIC 2010、WIDE、KDD99等。某些數據集已經標注正常網絡流量和異常網絡流量,并提供了訓練集和測試集,在監督學習中有很重要的作用。

但是隨著網絡協議的不斷演進,網絡通信雙方采取異種網絡協議的情況增多,網絡攻擊方式的多樣化,對網絡流量數據包的正確標注需要耗費大量的人力,異形數據、加密數據給數據標注帶來更多困難。在網絡流量分析模型中,絕大多數樣本都是正常的,只有極少數是異常的,在先驗概率較低的情況下,這部分異常樣本往往會被忽略,這種非均衡化特性使監督算法效率降低,而且隨著網絡帶寬的增加和網絡應用的數目劇增,對網絡實時流量的分析成為主要訴求。

個人用戶可以利用wireshark、sniffer等軟件捕獲實時流量,利用軟件自帶的協議分析、故障診斷、入侵檢測等模塊,匹配用戶自定義規則,可以便捷對網絡流量進行分析和處理。但軟件捕獲局限性較大,一"般只能捕獲通過本機網絡適配器的數據。網絡數據包從發送方到接收方需要經過數個網絡設備如交換機、路由器、網關等,在此過程中,網絡運營商可以通,過監聽網絡設備端口、設備端口復制等方式對流量進行采集。監聽網絡設備端口采集流量一般要對設備進行專門的配置,且流量采集和存儲要求較高,這種大規模的流量采集和分析可以為運營商提供網絡整體性能分析依據。

實時流量采集面臨諸多問題,首先是采集效率,采集來的流量數據包含大量無用信息,價值密度低,不能直接進行處理;其次是實時流量包含用戶隱私,采集數據使用不當會造成用戶隱私泄露。

2 流量數據預處理

數據集中的流量數據和采集來的原始數據價值密度低,噪聲數據、冗余數據、數據缺失均會影響算法的處理效率,因此,在流量分析前需要對這些數據開展預處理工作,加快數據分析的過程。

數據清洗。數據清洗的主要任務是對缺失數據進行填充,平滑噪聲數據,檢測并去除離群點,過濾不符合要求的數據。

數據變換。數據變換指將數據轉化成適合處理的形式,如將連續數據離散化、減少數據復雜度、按比例縮放數據、增加數據粒度等,經過變換的數據呈現的行為會比未變換的數據更加容易挖掘,但也可能導致一些細節丟失。

數據降維。盡管在某些情況下,數據的高維特性可以幫助數據分類,但對于網絡流量而言,某些維度存有大量與數據分析無關的信息,這些冗余信息會減慢數據分析進程。數據降維是指找出能最佳替代原始數據的最小屬性集,在保留數據矩陣的關鍵特征的前提下,對高維數據進行低維投影有利于數據挖掘和可視化。3聚類算法在流量分析中的應用

非監督的分析方式由于不需要事先標注,成為網絡流量分析的主要手段。聚類算法能在非監督的情形下把數據對象集劃分為多個組或簇,簇內對象具有極高相似性,簇間對象有極大不同。在流量分析過程中,能將自動將行為類似的網絡流量分為關系緊密的子集或簇。

K-means算法是經典的基于數據對之間距離的聚類形式,將數據劃分成多個相互排斥的簇,隨機給定樣本初始聚類中心,在樣本類別未知的情況下,計算樣本的距離(歐氏距離、閔氏距離、馬氏距離等),根據樣本離簇中心的遠近,將樣本劃入各個簇,最終,每個樣本都被確切劃分到一個簇中。這種嚴格將數據樣本劃分到具有明確界限的簇是典型的硬劃分形式。

由于有時數據界限不那么明確,樣本不能被嚴格劃分到簇中。基于模糊集的FCM算法能解決數據界限不明確的問題。在模糊聚類中,每個樣本對簇的隸屬度范圍以[0,1]表示。但是模糊聚類算法也存在一些問題,比如對初始值和噪聲敏感、矩陣計算耗時長等。為了解決大數據環境下FCM聚類時間長的問題,QingYu等提出了基于MapReduce框架的FCM算法,王桂蘭等針對FCM算法會產生大量矩陣計算的問題,提出并行環境下的FCM算法。

其他聚類算法如DBSCAN、SSN、CURE等在流量分析中均有廣泛應用。

4 結語

網絡技術的發展日益成熟,對網絡流量分析的要求也越來越高,對流量進行分析可以監測用戶行為,及時發現網絡異常,能幫助人們盡快做出應對。

參考文獻

[1]楊雅輝,網絡流量異常檢測及其分析研究[J].計算機科學,2008(05):108-112.

[2]汪立冬,錢麗萍.網絡流量分類方法與實.踐[M].北京:人民郵電出版社,2013.

[3]Qing Yu, Zhimin Ding. Improved Canopy-FCM Algorithm Based 0n Ma pReduce. International Congress on Image andSignal Processing [C]. USA: IEEE, 2016.

[4]王桂蘭,周國亮,薩初日拉,朱永利.Spark環境下的并行模糊C均值聚類算法[J].計算機應用,2016,36(02):342-347.

猜你喜歡
數據處理
驗證動量守恒定律實驗數據處理初探
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
ILWT-EEMD數據處理的ELM滾動軸承故障診斷
水泵技術(2021年3期)2021-08-14 02:09:20
ADS-B數據處理中心的設計與實現
電子測試(2018年4期)2018-05-09 07:28:12
MATLAB在化學工程與工藝實驗數據處理中的應用
基于希爾伯特- 黃變換的去噪法在外測數據處理中的應用
大數據處理中基于熱感知的能源冷卻技術
計算機工程(2015年4期)2015-07-05 08:28:04
Matlab在密立根油滴實驗數據處理中的應用
數據處理能力在求職中起關鍵作用
我國首個“突發事件基礎數據處理標準”發布
主站蜘蛛池模板: 日韩在线视频网| 国产成人精品一区二区不卡| 91精品在线视频观看| 国产福利小视频高清在线观看| 免费观看成人久久网免费观看| 亚洲成人精品久久| 亚洲色图欧美在线| 99热这里只有精品久久免费| 97视频在线观看免费视频| 91精品专区国产盗摄| 欧美亚洲一区二区三区导航| 久久综合成人| 亚洲婷婷六月| 58av国产精品| 天堂亚洲网| 免费一级全黄少妇性色生活片| 2020国产免费久久精品99| 亚洲不卡网| 97成人在线视频| 久久国产V一级毛多内射| 在线国产资源| 欧美精品H在线播放| 亚洲综合久久一本伊一区| JIZZ亚洲国产| 亚洲无码不卡网| 免费无遮挡AV| 国产国语一级毛片在线视频| 成年人国产网站| AV网站中文| 99尹人香蕉国产免费天天拍| 国产精品九九视频| 久久久久九九精品影院| 欧美一区二区啪啪| 欧美国产日韩另类| 欧美 国产 人人视频| 国产精品网拍在线| 欧美日韩综合网| 国产69精品久久| 欧美午夜视频| 国产激爽爽爽大片在线观看| 国产成人午夜福利免费无码r| 亚洲欧美综合在线观看| 国产成年无码AⅤ片在线| 欧美精品v日韩精品v国产精品| 狼友av永久网站免费观看| 久久狠狠色噜噜狠狠狠狠97视色| 老司机精品99在线播放| 青青网在线国产| 亚洲天堂视频网站| 国产裸舞福利在线视频合集| jizz亚洲高清在线观看| 露脸真实国语乱在线观看| 欧美亚洲激情| 欧美成人在线免费| 色婷婷成人| 久综合日韩| 久久精品日日躁夜夜躁欧美| 91视频首页| 精品久久久久无码| 中文字幕av一区二区三区欲色| 久久精品国产亚洲麻豆| 一区二区无码在线视频| 亚洲成人网在线播放| 成人va亚洲va欧美天堂| 色欲色欲久久综合网| 久久国产乱子伦视频无卡顿| 国产欧美专区在线观看| 国内毛片视频| 国产精品自拍露脸视频| 漂亮人妻被中出中文字幕久久| 欧美日韩在线亚洲国产人| 国产毛片不卡| 亚洲国产天堂久久综合226114| 中文字幕人成乱码熟女免费| 日本在线欧美在线| 无码人中文字幕| 欧美狠狠干| 最新国产网站| 69综合网| 在线免费亚洲无码视频| 久久精品这里只有国产中文精品 | 亚洲欧美极品|