999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SVM的并行網絡流量分類方法

2013-09-11 03:20:52陶曉玲李平紅
計算機工程與設計 2013年8期
關鍵詞:分類

裴 楊,王 勇+,陶曉玲,李平紅

(1.桂林電子科技大學 計算機科學與工程學院,廣西 桂林541004;2.桂林電子科技大學信息與通信學院,廣西 桂林541004)

0 引 言

網絡流量分類是實現網絡可控性的基礎技術,它能夠幫助網絡管理人員分析網絡中的流量分布,有效地對網絡狀況進行監控,使因特網服務提供商 (internet service provider,ISP)為網絡業務提供良好的服務質量 (quality of service,QoS)保障。由于越來越多新型網絡應用采用動態端口、偽裝端口和應用層凈荷加密等網絡技術,導致傳統的基于端口和特征字段的網絡流量分類方法失效[1]。基于流統計特征的機器學習流量分類方法不依賴匹配協議端口或解析協議內容識別網絡應用,不受動態端口、載荷加密、網絡地址轉換等網絡技術的影響[2]。與傳統網絡流量分類方法相比,其在分類性能、靈活性以及可擴展性等方面的表現更好,基于流統計特征的機器學習方法已經成為近年來研究的關注重點[3,4]。SVM算法具有良好的泛化能力,優良的分類準確率和穩定性[5]。彭勃[6]對基于流統計特征的六種分類算法進行比較,實驗表明SVM算法具有較高的整體準確率和較好的計算性能,適合用于網絡流量分類。許孟晉,張博鋒[7]研究了SVM網絡流量分類中分類效果和特征選擇對分類效果的影響,實驗結果表明,SVM對網絡流量分類問題具有較高分類精度和穩定性,同時通過特征選擇可以節省計算開銷,在一定程度上提高分類效果。但SVM算法在處理大樣本數據集時,計算復雜度高,訓練速度慢。因此,許多研究學者針對SVM算法在大規模網絡流量分類中存在的問題,提出了各自的改進方法。

Ning Jing等人[8]提出一個基于SVM的多級網絡流量分類方法,組織多個二分類SVM形成一個淘汰賽結構進行分類,可極大地減少訓練樣本數量,同時對每個SVM進行單獨的特征選擇和參數選擇;與傳統方法相比,可減少7.65倍計算量,同時錯誤率降低2.35倍,唯一的缺點在于分類器缺乏穩定性。Xiang Li等人[9]提出一種基于半監督SVM的網絡流量分類方法,采用一致性原則 (CBF)和信息增益原則 (IG)來選取流統計特征,實驗證明半監督SVM方法與傳統方法相比具有:①高分類精度;②高泛化性能;③快速的計算性能。邱婧等人[10]用SVM決策樹進行網絡流量分類,利用SVM決策樹在多類分類方面的優勢,解決SVM流量分類存在無法識別區域和訓練時間較長的問題,實驗表明SVM決策樹比普通SVM有更短的訓練時間和更好的分類性能,準確率達到98.8%。

以上研究學者的相關工作對SVM算法的時間消耗和準確率進行優化改進,但都沒有徹底解決計算性能瓶頸問題。SVM算法的計算復雜度為O (n3),n為支持向量數量,其數量一般與樣本集大小相關[11]。隨著網絡應用不斷增加和網絡速度不斷提高,采集到網絡流量樣本規模不斷增大,而單一節點的計算資源有限,面對大樣本數據集時,其計算復雜度和時間消耗也會成倍增長,不能滿足實時分類的要求,在很大程度上限制了SVM算法的應用。因此本文采用并行化方法,利用云計算平臺多節點可擴展的強大計算能力,從根本上解決單一節點存在的計算資源不足的問題,在保證分類準確率的前提下,提高SVM算法在大樣本數據集下的訓練速度,減少網絡流量分類的時間消耗。

1 基于SVM并行網絡流量分類

SVM對訓練集進行訓練的過程實際上就是找出與最優分類函數有關的支持向量,而支持向量在整個訓練樣本集中所占的比例很小。利用這個特點,可以對訓練數據集進行分塊劃分為多個子訓練數據集,對每個子訓練數據集單獨進行訓練,再收集各個子訓練數據集得到的支持向量集,最后通過進一步的訓練得到SVM分類模型。在這個過程中,多個子訓練數據集的訓練過程是獨立且可以并行的,采用云計算平臺對該訓練過程進行并行化處理,可以有效地提高訓練速度,又不會顯著降低分類準確率。

在訓練數據集分塊劃分為多個子訓練數據集的過程中,如果進行隨機劃分,那么劃分出的子訓練數據集樣本中可能只有很少的類別或者只有一個類別,在此情況下,子訓練數據集進行訓練時就會損失一些支持向量或者得不到支持向量,這會極大地降低分類準確率。為了避免這種極端情況的出現,在數據集分塊劃分時做一個預處理,對其按照類別比例隨機抽樣,再將抽取的樣本劃分給子訓練數據集,這樣就保證每個子訓練數據集中都存在一定數量的各個類別的樣本,在訓練時盡量避免支持向量的損失,保證分類準確率不會顯著降低。

1.1 并行網絡流量分類模型

采用云計算平臺Hadoop和MapReduce模型設計了一個兩層架構的SVM并行網絡流量分類模型,如圖1所示。首先,將訓練數據集上傳至Hadoop分布式文件系統(HDFS)中進行預處理,按照前述的預處理過程抽取樣本并劃分成多個子訓練數據集,即多個數據塊,在圖1中用數據塊1到數據塊n來表示。接著,創建第一層MapReduce任務,讀取數據塊內容,將數據按行組織成鍵值 (key,value)對發給Map函數,Map函數負責將對應數據塊進行SVM訓練,得到支持向量;Reduce函數將Map函數輸出的支持向量進行合并等處理,再輸出支持向量集,第一層的MapReduce過程在圖1中用 MR′1到 MR′n來表示,MR′1到MR′n的SVM訓練過程是相互獨立且并行執行的。最后,創建第二層MapReduce任務MR′′1,Map函數將收集第一層的MapReduce過程中所有Reduce函數輸出的支持向量集,在圖1中用支持向量集1到支持向量集n來表示,對它們進行合并等處理,轉發給Reduce函數;Reduce函數將經過Map函數處理的支持向量集作為訓練樣本進行SVM訓練,生成并輸出支持向量機分類模型用于分類。

圖1 基于SVM的并行網絡流量分類模型

1.2 方法步驟

根據提出的并行網絡流量分類模型,結合MapReduce模型的編程思想,就可以設計一個基于SVM的并行網絡流量分類方法,步驟如下:

(1)訓練數據集上傳到HDFS進行數據預處理,按照類別比例隨機抽樣,劃分成n個子訓練數據集;

(2)創建n個第一層MapReduce任務。每個任務分配一個子訓練數據集,作為Map函數的輸入;

(3)Map函數對輸入子訓練數據集進行SVM訓練,Reduce函數將Map函數的輸出進行合并等處理,并輸出支持向量集;

(4)再創建一個第二層 MapReduce任務,將 (3)中全部n個Reduce函數輸出的支持向量集作為Map函數的輸入,進行匯總合并等處理;

(5)Map函數將處理好的支持向量集發給Reduce函數進行SVM訓練,輸出SVM分類模型;

(6)對得到的SVM分類模型,使用測試數據集進行分類測試,得到分類結果。

2 實驗與分析

2.1 實驗環境與數據集設置

本文中所使用的SVM算法來自于Weka機器學習庫中的SMO算法,并對其進行了擴展、配置和打包生成MapReduce作業,使其可在Hadoop云平臺上進行實驗。本實驗所用Hadoop集群共有3個節點,將Hadoop配置為全分布模式,其中一個節點配置為主節點,其它兩個配置為從節點,集群的配置情況如表1和表2所列。

表1 Hadoop集群硬件配置情況

表2 Hadoop集群軟件配置情況

為了測試網絡流量分類的性能,本文采用網絡流量數據集Moore_set,它是由劍橋大學計算機系Moore教授的流量分類實驗室提供的10個網絡流量分類數據集組成,是目前網絡流量分類最為權威的測試數據集[12]。我們從Moore_set中選取了Moore_set1來進行網絡流量分類實驗,該數據集中的樣本是從真實的TCP雙向流中提取的,每條記錄包含248項流特征屬性,并在每條記錄的最后標注了該樣本流量類型,分為12種不同應用類型。Moore_set1中樣本信息統計情況如表3所列。

表3 Moore_set1樣本信息統計

由于Interactive項樣本數量過少,不具有代表性,因此將該類型樣本刪除掉,Games項在Moore_set1中樣本數量為0,也將其去除,保留其余10項應用,共24860條流量樣本,作為實驗測試數據集Test_set。

2.2 網絡流量分類時間性能的比較

并行SVM網絡流量分類方法和傳統的單機SVM方法的性能比較要從時間和精度兩方面進行評估。首先進行時間性能的比較實驗,將Test_set采用按類別比例隨機抽樣的方式,抽取一部分樣本數據組成訓練數據集進行訓練,通過改變訓練數據集樣本的數目,對單機SVM算法和并行SVM算法的訓練時間進行比較,所得到的實驗結果如圖2所示。

圖2 單機SVM算法和并行SVM算法的訓練時間

由圖2可知,并行SVM算法訓練時間遠小于單機SVM算法,當訓練樣本數量較少時,單機SVM算法的時間消耗并不多,但隨著樣本數量增加,單機SVM算法的時間消耗顯著地增加,與此同時并行SVM算法的時間消耗卻增加不多,兩者之間的時間消耗差距逐漸增大。這是因為當訓練樣本數量較少時,得到的支持向量數量較少,計算復雜度較低,所以單機SVM算法和并行SVM算法的時間消耗差距并不大;但是當訓練樣本數量變多時,得到的支持向量數量也增加,計算復雜度大幅度提高,此時單機SVM算法由于計算性能所限,導致時間消耗顯著地增加,而并行SVM算法由多個節點并行處理計算任務,時間消耗增加就不多。

為了更精確地衡量并行SVM算法在時間性能上的提升,使用加速比r,即單機SVM算法運行時間 (TSingleSVM)與并行SVM算法運行時間 (TParallelSVM)的比值,來比較并行SVM算法相對單機SVM算法的時間效率

加速比曲線如圖3所示。

由圖3可知,隨著樣本數量的增加,加速比逐漸增大,這表明并行SVM算法相對單機SVM算法的時間消耗比例逐漸變小,在時間性能上的優勢越明顯。因此,并行SVM網絡流量分類方法適合處理大規模網絡流量樣本,可以有效地加快訓練速度,在較短的時間內對網絡流量進行分類。

圖3 加速比曲線

2.3 網絡流量分類精度的比較

接著對單機SVM算法和并行SVM算法進行分類精度上的評估,為此要用合適的分類精度評價指標來衡量網絡流量分類的效果,一次網絡流量分類能產生4種不同結果,如表4所列。

表4 網絡流量分類結果類型

基于表4所列的網絡流量分類結果類型,本文所使用的分類精度評價指標如下:

(1)準確率P:正確肯定流數量占正確肯定和錯誤肯定流數量總和比例。即正確分類該類成員占分類為該類的全部成員的比例

(2)召回率R:正確肯定流數量占正確肯定和錯誤否定流數量總和比例。即正確分類的該類成員占真正屬于該類的全部成員的比例

(3)F-Measure:在某些情況下,準確率和召回率是矛盾的,所以需要根據二者的情況給出一個綜合評價指標,即F-Measure。這里采用F1-Measure

將實驗測試數據集Test_set按類別比例隨機抽樣并分為三等份,選擇其中1/3作為訓練數據集,其余作為測試數據集。首先使用訓練數據集分別采用單機SVM算法和并行SVM算法進行訓練得到分類模型,再用該分類模型對測試數據集進行網絡流量分類,得到單機SVM算法和并行SVM算法在每種應用類型中的準確率和召回率對比分別如圖4和圖5所示。

通過準確率和召回率這兩種分類精度評價指標的對比可以看出,有的應用類型單機SVM分類算法精度高,有的應用類型并行SVM分類算法精度高,在大部分情況下二者的分類精度都是接近的。

對分類精度結果進行統計和總結,并用F1-Measure進行綜合評價,兩種網絡流量分類方法整體上的分類精度結果如表5所列。從整體上看,并行SVM算法在分類精度上略低于單機SVM算法,但并無明顯降低。

表5 兩種網絡流量分類方法的分類精度

以上實驗從時間性能和分類精度兩方面比較了單機SVM算法和并行SVM算法,由實驗結果可知,并行SVM網絡流量分類方法有效地減少了訓練時間,提高了網絡流量分類速度,適合處理大規模網絡流量樣本,雖然在分類精度上略低于單機SVM方法,但是仍然保持了較高的分類精度。

3 結束語

本文提出基于SVM的并行網絡流量分類模型,并通過云計算平臺Hadoop驗證了其進行網絡流量分類的性能,在保證了較高分類精度的前提下,有效地提高了SVM算法的訓練速度,能應用于大規模網絡流量分類。云計算的一個顯著優點就是支持異構的計算環境,能在大量具有不同處理能力普通計算機上實現高性能計算,然而當前云計算平臺Hadoop在負載調度上僅實現了先進先出和公平調度兩種算法,不能很好地滿足異構云環境下負載均衡的要求。因此,未來我們將設計一個基于異構云環境的負載調度算法,優化云計算平臺處理網絡流量分類的性能。

[1]Este A,Gringoli f,Salgarelli L.Support vector machines for TCP traffic classification [J].Computer Networks,2009,53(14):2476-2490.

[2]LIU Qiong,LIU Zhen,HUANG Min.Study on internet traffic classification using machine learning [J].Computer Science,2010,37 (12):35-40 (in Chinese).[劉瓊,劉珍,黃敏.基于機器學習的IP流量分類研究 [J].計算機科學,2010,37(12):35-40.]

[3]Kim H,Claffy K,Fomenkov M,et al.Internet traffic classification demystified:Myths,caveats,and the best practices[C]//ACM CoNEXT Conference.Madrid:ACM,2008:1-12.

[4]Yuan R,Li Z,Guan X,et al.An SVM-based machine learning method for accurate internet traffic classification [J].Information Systems Frontiers,2008,10(2):149-156.

[5]XU Peng,LIU Qiong,LIN Sen.Internet traffic classification using support vector machine [J].Journal of Computer Research and Development,2009,46 (3):407-414 (in Chinese).[徐鵬,劉瓊,林森.基于支持向量機的Internet流量分類研究 [J].計算機研究與發展,2009,46 (3):407-414.]

[6]PENG Bo.Comparison research on the algorithms of network traffic classification [J].Computer & Digital Engineering,2012,40 (5):12-14 (in Chinese). [彭勃.網絡流量分類算法比較研究 [J].計算機數字與工程,2012,40 (5):12-14.]

[7]XU Mengjin,ZHANG Bofeng.Classification of internet traffic based on machine learning [J].Journal of Computer Applications,2010,30 (1):80-82 (in Chinese).[許孟晉,張博鋒.基于機器學習的Internet流量分類 [J].計算機應用,2010,30 (1):80-82.]

[8]NING Jing,MING Yang,SHAO Yin,et al.An efficient SVM-based method for multi-class network traffic classification[C]//Performance Computing and Communications Conference,IEEE 30th International.Chengdu:IEEE,2011:1-8.

[9]XIANG Li,FENG Qi,DAN Xu,et al.An internet traffic classification method based on semi-supervised support vector machine[C]//IEEE International Conference on Communications.Kyoto:IEEE,2011:1-5.

[10]QIU Jing,XIA Jingbo,BAI Jun.Network traffic classification using SVM decision tree [J].Electronics Optics & Control,2012,19 (6):13-16 (in Chinese). [邱婧,夏靖波,柏駿.基于SVM決策樹的網絡流量分類 [J].電光與控制,2012,19 (6):13-16.]

[11]WANG Tao,CHENG Lianglun.Large-scale network traffic classification with fast support vector machine method [J].Application Research of Computers,2012,29 (6):2301-2305(in Chinese).[王濤,程良倫.基于快速SVM的大規模網絡流量分類方法 [J].計算機應用研究,2012,29(6):2301-2305.]

[12]Moore A W,Zuev D.Internet traffic classification using Bayesian analysis techniques[C]//Proc of ACM International Conference on Measurement and Modeling of Computer Systems.Banff:ACM,2005:50-60.

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準備好了嗎
學生天地(2019年32期)2019-08-25 08:55:22
分類討論求坐標
數據分析中的分類討論
按需分類
教你一招:數的分類
主站蜘蛛池模板: 国产在线欧美| 国产精品伦视频观看免费| 亚洲AⅤ综合在线欧美一区| 国产成人综合亚洲网址| 国产在线观看91精品亚瑟| 日韩无码真实干出血视频| 日韩一区精品视频一区二区| 欧美中文一区| 国产乱子伦视频在线播放| 婷婷色一二三区波多野衣| 国产精品无码久久久久久| 亚洲国产精品日韩欧美一区| 亚国产欧美在线人成| 国产毛片不卡| 亚洲天堂777| 成年A级毛片| 亚洲成aⅴ人在线观看| 欧美高清三区| 亚洲日韩精品无码专区97| 精品国产一区91在线| 日韩精品毛片人妻AV不卡| 国产微拍一区| 国产麻豆精品手机在线观看| 日本午夜影院| 欧美黑人欧美精品刺激| 黄色网在线| 久久亚洲国产视频| 日韩A∨精品日韩精品无码| 国产精品污污在线观看网站| 日韩视频免费| 国产精品99久久久久久董美香| 亚洲无码视频图片| 亚洲制服丝袜第一页| 丰满人妻中出白浆| 国模粉嫩小泬视频在线观看| 亚洲第一福利视频导航| 国产高清不卡| 国产美女一级毛片| 亚洲精品无码不卡在线播放| 亚洲日韩国产精品无码专区| 精品夜恋影院亚洲欧洲| 国产主播一区二区三区| 乱人伦中文视频在线观看免费| 亚洲视频免费播放| 久久久久88色偷偷| 伦精品一区二区三区视频| 久久91精品牛牛| 国产区在线看| 人妻丰满熟妇AV无码区| 1769国产精品免费视频| 中文成人在线视频| 婷婷成人综合| 欧美精品伊人久久| 国产精品福利一区二区久久| 亚洲人成网址| 免费高清自慰一区二区三区| 日本精品视频一区二区| 四虎亚洲国产成人久久精品| 2019国产在线| 久久久久亚洲av成人网人人软件| 国产精品久久久久久搜索| 青草视频免费在线观看| 国产黄色片在线看| 性网站在线观看| 国产高清无码第一十页在线观看| 欧美成人精品在线| 欧美色视频在线| 不卡无码网| 国产精品香蕉在线观看不卡| 国产成人亚洲毛片| 九九线精品视频在线观看| 亚洲欧美日韩精品专区| 欧美亚洲国产一区| 欧美a在线看| 免费视频在线2021入口| 久久亚洲日本不卡一区二区| 草草影院国产第一页| 红杏AV在线无码| 亚洲欧美自拍中文| 中文字幕无码制服中字| 午夜福利视频一区| 在线观看亚洲精品福利片|