龔壘+王一帆

摘 要
本文將機器學習分類方法,引入到網(wǎng)絡流量領域。結合構風險最小化原則,提出基于支持向量機的網(wǎng)絡流量分類方法,將網(wǎng)絡流量分類問題轉化為二次尋優(yōu)問題,以解決網(wǎng)絡流量過程中訓練樣本較少和屬性過濾等問題。實驗表明,支持向量機網(wǎng)絡流量分類方法,有效地保證網(wǎng)絡流量分類的精度,具有較好的推廣性。
【關鍵詞】網(wǎng)絡流量分類 機器學習 支持向量機
近年來,隨著互聯(lián)網(wǎng)規(guī)模的迅速發(fā)展,網(wǎng)絡擁堵問題日益加劇。因此,容量規(guī)劃、流量調度等網(wǎng)絡流量控制策略成為網(wǎng)絡安全與管理領域研究的熱點問題。在網(wǎng)絡流量分類研究中,分類對象通常是網(wǎng)絡報文,而在海量的網(wǎng)絡數(shù)據(jù)集合下,網(wǎng)絡報文流量分類精度會因為維數(shù)的增高而下降。傳統(tǒng)的分類算法有 近鄰、樸素貝葉斯等方法。然而上述傳統(tǒng)算法實際應用中,在已知樣本有限情況下,難以構建有效的分類規(guī)則,無法保證分類精度。
支持向量機方法是建立在統(tǒng)計學習理論基礎上,根據(jù)結構風險最小化原則,將分類問題轉化為二次尋優(yōu)問題(即尋找最優(yōu)超平面),從而避免在分類學習過程中對訓練樣本的依賴,同時具有較高的分類精度。目前,支持向量機方法在文本分類、圖像識別等多個領域,具有較好的推廣性。因此,本文將支持向量機學習方法引入到網(wǎng)絡流量分類中,以利用該算法的特點,解決實際的網(wǎng)絡流量分類問題。
1 網(wǎng)絡流量分類
目前主流的網(wǎng)絡流量分類方法是以網(wǎng)絡報文作為分類元素,按照一定的策略和學習算法進行分類,將特定端口的網(wǎng)絡流量劃分到相對應的網(wǎng)絡,以便進行網(wǎng)絡管理。但海量的網(wǎng)絡報文數(shù)據(jù)呈高維分布,且大多數(shù)特征項決策因子較低,難以滿足分類需求。因此,現(xiàn)階段的分類方法均是對網(wǎng)絡報文做降維處理,提取對分類有影響的特征項,即以報文序列相同的5元組作為取值對象(源IP、目的IP、源端口、目的端口、協(xié)議),構成網(wǎng)絡流。其中網(wǎng)絡流又分為單向流和雙向流。單向流是以5元組的單向網(wǎng)絡傳輸報文序列作為特征項。雙向流是同一網(wǎng)絡連接的雙向報文5元組序列。通過對網(wǎng)絡報文特征項的提取,建立特征集合,進而利用機器學習建立多分類問題。網(wǎng)絡流量分類問題可以概括為:已知屬性集合,報文流集合,利用分類學習算法構建模型,依據(jù)分類模型對未知網(wǎng)絡報文進行分類。
2 支持向量機網(wǎng)絡流量分類方法
支持向量機是建立在統(tǒng)計學習理論基礎上,以結構結構風險最小化為原則,尋求最優(yōu)超平面的學習方法。支持向量機的二次尋優(yōu)問題可以表示為:已知樣本x在樣本集合m中存在n個樣本,超平面為。其中,,,。
對于網(wǎng)絡流量分類問題,本文采用“一對一”方法,根據(jù)支持向量機的特點,將多元的網(wǎng)絡流量分類問題,轉換為元分類問題,將分類判別函數(shù)轉換為網(wǎng)絡流量分類模型,即:
。
支持向量機網(wǎng)絡流量分類方法可以描述為以下三點:
(1)通過將實際問題轉換到高維特征空間中,構建分類決策函數(shù),使得在原維數(shù)的非線性問題轉換為線性可分,有效地提高分類精度。
(2)支持向量機將網(wǎng)絡流量分類轉化為二次尋優(yōu),在已知樣本(訓練樣本)較少的情況下,能夠保證分類的準確性。
(3)支持向量機通過最優(yōu)超平面來優(yōu)化分類器的學習能力,該方法不需要依賴網(wǎng)絡流量樣本的先驗概率,具有較好的推廣性。
3 實驗結果與分析
本文選取Moore_Set數(shù)據(jù)集合中,提取10個數(shù)據(jù)子集(每個數(shù)據(jù)子集選取100條樣本)。其中1個數(shù)據(jù)子集作為訓練集,其他9個數(shù)據(jù)子集作為測試集。學習算法選取樸素貝葉斯算法和支持向量機方法進行比較分析,結果如表1。
從表1中可以看出,樸素貝葉斯方法分類方法,其準確率會隨著訓練集的增加而下降。特別是到900個訓練樣本時,分類準確率僅為56.95%。支持向量機分類方法相比較而言,分類精度不會隨著維數(shù)的增高而下降,比較穩(wěn)定。通過實驗表明,支持向量機分類方法以最優(yōu)超平面構建分類模型,在劃分網(wǎng)絡流量時,維數(shù)的增加,不會對分類結果產(chǎn)生較大的影響,相比較而言,支持向量機網(wǎng)絡流量分類方法具有健壯性,有較好的推廣價值。
4 小結
網(wǎng)絡流量分類是近年來網(wǎng)絡安全與管理領域的熱點研究問題。目前主流的研究均是利用機器學習方法構建分類規(guī)則,從而完成多元分類問題。本文將支持向量機方法引入到網(wǎng)絡流量分類學習中,并與傳統(tǒng)方法進行比較研究。通過實驗可以看出支持向量機方法在穩(wěn)定性、準確率等方面均有明顯優(yōu)勢,具有一定的推廣價值。今后的研究重點在于如何從海量數(shù)據(jù)集中提取對分類有影響的子集,以進一步提高分類性能。
參考文獻
[1]朱明.數(shù)據(jù)挖掘[M].合肥:中國科技大學出版社,2008:13-56.
[2]丁世飛等.支持向量機理論與算法研究綜述[J].電子科技大學學報,2011(07).
[3]林平等.基于流統(tǒng)計特性的網(wǎng)絡流量分類算法[J].北京郵電大學學報,2008(09).
[4]劉穎秋等.網(wǎng)絡流量分類與應用識別的研究[J].計算機應用研究,2008(02).
[5]佘鋒等.基于半監(jiān)督學習的網(wǎng)絡流量分類[J].計算機工程,2009(12).
[6]李平紅等.一種混合約束的半監(jiān)督網(wǎng)絡流量特征選擇方法[J].計算機仿真,2013(09).
作者簡介
龔壘(1984-),男,河南省淅川縣人。現(xiàn)為南陽醫(yī)學高等專科學校助教。研究方向為計算機應用技術。
作者單位
南陽醫(yī)學高等專科學校 河南省南陽市 473061