龍穎 何加龍 胡雪
摘要:本文從網絡流量的數據來源出發,淺談了聚類算法處理網絡流量的基本流程。
[關鍵詞]聚類算法 流量分析 數據處理 FCM
隨著互聯網的發展,各種網絡應用層出不窮,人們對網絡帶寬的需求增加。對網絡運營商、網絡管理員來說,高效識別和管理網絡流量,能有效進行網絡帶寬分配和網絡調度;流量識別也能幫助某些應用對用戶行為開展研究,以提供更好的服務,如購物網站、廣告精準投放等;在網絡安全領域,通過流量分析,識別正常網絡流量和異常流量,輔助識別網絡攻擊。
1 流量分析數據來源
數據傳輸的封裝特性使管理員無法打開流量數據包查看內容,只能根據流量的特點進行大致分類。流量分析數據來源有兩種,一種是離線流量數據,一種是實時流量數據。
數據集是離線流量數據的典型代表。在實際研究中,訓練流量分析算法一般均會采用特殊處理的網絡流量數據集,如MCFP、HTTP DATASET CSIC 2010、WIDE、KDD99等。某些數據集已經標注正常網絡流量和異常網絡流量,并提供了訓練集和測試集,在監督學習中有很重要的作用。
但是隨著網絡協議的不斷演進,網絡通信雙方采取異種網絡協議的情況增多,網絡攻擊方式的多樣化,對網絡流量數據包的正確標注需要耗費大量的人力,異形數據、加密數據給數據標注帶來更多困難。在網絡流量分析模型中,絕大多數樣本都是正常的,只有極少數是異常的,在先驗概率較低的情況下,這部分異常樣本往往會被忽略,這種非均衡化特性使監督算法效率降低,而且隨著網絡帶寬的增加和網絡應用的數目劇增,對網絡實時流量的分析成為主要訴求。
個人用戶可以利用wireshark、sniffer等軟件捕獲實時流量,利用軟件自帶的協議分析、故障診斷、入侵檢測等模塊,匹配用戶自定義規則,可以便捷對網絡流量進行分析和處理。但軟件捕獲局限性較大,一"般只能捕獲通過本機網絡適配器的數據。網絡數據包從發送方到接收方需要經過數個網絡設備如交換機、路由器、網關等,在此過程中,網絡運營商可以通,過監聽網絡設備端口、設備端口復制等方式對流量進行采集。監聽網絡設備端口采集流量一般要對設備進行專門的配置,且流量采集和存儲要求較高,這種大規模的流量采集和分析可以為運營商提供網絡整體性能分析依據。
實時流量采集面臨諸多問題,首先是采集效率,采集來的流量數據包含大量無用信息,價值密度低,不能直接進行處理;其次是實時流量包含用戶隱私,采集數據使用不當會造成用戶隱私泄露。
2 流量數據預處理
數據集中的流量數據和采集來的原始數據價值密度低,噪聲數據、冗余數據、數據缺失均會影響算法的處理效率,因此,在流量分析前需要對這些數據開展預處理工作,加快數據分析的過程。
數據清洗。數據清洗的主要任務是對缺失數據進行填充,平滑噪聲數據,檢測并去除離群點,過濾不符合要求的數據。
數據變換。數據變換指將數據轉化成適合處理的形式,如將連續數據離散化、減少數據復雜度、按比例縮放數據、增加數據粒度等,經過變換的數據呈現的行為會比未變換的數據更加容易挖掘,但也可能導致一些細節丟失。
數據降維。盡管在某些情況下,數據的高維特性可以幫助數據分類,但對于網絡流量而言,某些維度存有大量與數據分析無關的信息,這些冗余信息會減慢數據分析進程。數據降維是指找出能最佳替代原始數據的最小屬性集,在保留數據矩陣的關鍵特征的前提下,對高維數據進行低維投影有利于數據挖掘和可視化。3聚類算法在流量分析中的應用
非監督的分析方式由于不需要事先標注,成為網絡流量分析的主要手段。聚類算法能在非監督的情形下把數據對象集劃分為多個組或簇,簇內對象具有極高相似性,簇間對象有極大不同。在流量分析過程中,能將自動將行為類似的網絡流量分為關系緊密的子集或簇。
K-means算法是經典的基于數據對之間距離的聚類形式,將數據劃分成多個相互排斥的簇,隨機給定樣本初始聚類中心,在樣本類別未知的情況下,計算樣本的距離(歐氏距離、閔氏距離、馬氏距離等),根據樣本離簇中心的遠近,將樣本劃入各個簇,最終,每個樣本都被確切劃分到一個簇中。這種嚴格將數據樣本劃分到具有明確界限的簇是典型的硬劃分形式。
由于有時數據界限不那么明確,樣本不能被嚴格劃分到簇中。基于模糊集的FCM算法能解決數據界限不明確的問題。在模糊聚類中,每個樣本對簇的隸屬度范圍以[0,1]表示。但是模糊聚類算法也存在一些問題,比如對初始值和噪聲敏感、矩陣計算耗時長等。為了解決大數據環境下FCM聚類時間長的問題,QingYu等提出了基于MapReduce框架的FCM算法,王桂蘭等針對FCM算法會產生大量矩陣計算的問題,提出并行環境下的FCM算法。
其他聚類算法如DBSCAN、SSN、CURE等在流量分析中均有廣泛應用。
4 結語
網絡技術的發展日益成熟,對網絡流量分析的要求也越來越高,對流量進行分析可以監測用戶行為,及時發現網絡異常,能幫助人們盡快做出應對。
參考文獻
[1]楊雅輝,網絡流量異常檢測及其分析研究[J].計算機科學,2008(05):108-112.
[2]汪立冬,錢麗萍.網絡流量分類方法與實.踐[M].北京:人民郵電出版社,2013.
[3]Qing Yu, Zhimin Ding. Improved Canopy-FCM Algorithm Based 0n Ma pReduce. International Congress on Image andSignal Processing [C]. USA: IEEE, 2016.
[4]王桂蘭,周國亮,薩初日拉,朱永利.Spark環境下的并行模糊C均值聚類算法[J].計算機應用,2016,36(02):342-347.