999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網絡流量異常檢測中的維數約簡研究

2020-02-19 11:26:26陳良臣劉寶旭陶明峰
計算機工程 2020年2期
關鍵詞:特征提取特征檢測

陳良臣,高 曙,劉寶旭,陶明峰

(1.武漢理工大學 計算機科學與技術學院,武漢 430063; 2.中國科學院信息工程研究所,北京 100049;3.中國勞動關系學院 應用技術學院,北京 100048; 4.國網山東省電力公司 淄博供電公司,山東 淄博 255000)

0 概述

隨著互聯網技術的快速發展以及世界各國對網絡信息化進程的加速推進,網絡通信已滲透到各個領域,而互聯網上的攻擊手段也更隱蔽和智能,傳統補丁式的網絡安全解決方案無法完全解決日益暴露的安全問題[1]。針對網絡流量的異常檢測與監控已成為目前安全工具研究的主要方向。

在高速網絡環境中,網絡異常檢測過程需要獲取、處理和傳輸的大量網絡流量數據,可能由大量特征來描述,通常這些特征中含有許多無關特征和冗余特征,會提高異常檢測模型的復雜度,且各特征之間的相互干擾會導致檢測性能急劇下降。因此,在對海量高維網絡流量數據進行異常檢測建模之前,需要對數據進行特征降維約簡處理。攻擊數據集的特征質量直接決定入侵檢測系統的檢測效率和穩定性,因此,分析網絡流量以確定有助于識別攻擊的維數約簡方法至關重要。

針對基于網絡流量的網絡入侵異常檢測模型,很多學者從網絡流量特征選擇和網絡流量特征提取2個方面對維數約簡問題進行研究。本文總結網絡流量異常檢測中流量數據常用特征和流量數據維數約簡研究的最新進展,對網絡流量異常檢測中的網絡流量特征選擇方法和網絡流量特征提取方法進行歸納分類,并列舉常用算法、數據集和評價指標。在此基礎上,闡述網絡流量異常檢測中維數約簡技術研究面臨的挑戰,同時對未來發展方向進行展望。

1 網絡流量異常檢測與維數約簡

網絡流量指的是單位時間內網絡上傳輸的信息量,即2個終端之間擁有相同通信五元組信息(源IP地址、源端口、目的IP地址、目的端口和傳輸層協議)的連續數據包[2]。在基于網絡流量的異常檢測過程中,需要對原始網絡流量數據進行降維,從而有效提高異常檢測算法的泛化能力[3]。

1.1 網絡流量異常檢測

入侵檢測技術可分為誤用檢測和異常檢測,其中異常檢測基于與正常活動的顯著偏差發現入侵[4]。網絡流量異常檢測就是分析從網絡中采集的各種數據,挖掘結構中復雜和潛在的關系,從而推斷出當前網絡的安全狀況,發現不可預見的攻擊[5],其中主要包括兩方面:1)提取網絡流量數據中的關鍵信息作為異常檢測的數據源;2)提取關鍵信息中的異常行為進行檢測與識別[6]。通用的異常檢測方法往往并不適用于網絡流量。基于特征或行為、基于數理統計和基于流挖掘的網絡流量異常檢測方法已成為網絡流量異常檢測的主流和趨勢。

網絡流量異常檢測過程如圖1所示,可將其分為5個步驟,即網絡流量數據獲取、流量數據抽樣、流量維數約簡、異常檢測建模以及異常檢測結果與評估。

圖1 高速網絡環境下的網絡流量異常檢測過程

1.2 網絡流量維數約簡

維數約簡又稱為特征降維,網絡流量維數約簡一般包括網絡流量特征選擇和網絡流量特征提取2種方式,兩者都是為了從原始網絡流量特征中找出最有效的特征[7],針對高維災難都可以達到降維的目的,但是兩者有所不同。網絡流量特征選擇是依據一定的規則從已有的網絡流量特征中選取出部分特征來表示原始網絡流量數據,如圖2(a)所示。網絡流量特征選擇保留了訓練樣本的原始物理意義,但是當網絡流量數據間相似性很強時,檢測冗余信息對計算要求非常高。網絡流量特征提取則是按照一定的規則將原始網絡流量特征空間變換成一個維數更小的空間,是使用數學方法對某些特征進行融合產生了新的特征,新的特征只具有數學含義,難以找到其現實意義,如圖2(b)所示。網絡流量特征提取是在網絡流量特征選擇的基礎上對網絡流量數據集做進一步簡化,去除剩余特征的冗余值[8-9]。

圖2 網絡流量特征降維的2種方式

網絡流量維數約簡可以使網絡流量數據集更容易使用,減少數據存儲并降低算法的計算開銷,同時提高網絡異常檢測性能。為生成可靠的IDS模型,維數約簡被認為是提高網絡異常檢測運算效率和發現數據模式的一項重要任務。

2 網絡流量維數約簡技術研究進展

維數約簡算法中的“降維”,指的是降低特征矩陣中特征的數量。本節主要介紹網絡流量異常檢測中用到的特征歸類研究和維數約簡技術研究進展。

2.1 網絡流量特征研究

網絡流量異常檢測中用到的網絡流量特征大致可分為3類,即基于報文頭部、基于網絡流和基于連接圖的網絡流量特征[10],如圖3所示,其中,基于報文頭部的網絡流量特征一般包含IP地址、端口地址等;基于網絡流的網絡流量特征主要是使用與網絡流量相關的統計數據作為特征,即使用網絡流的統計特征來表示網絡流量,如包長、包到達間隔等,可進一步分為單流特征和多流特征;基于連接圖的網絡流量特征是圖特征與網絡流量特征相結合的網絡流量特征。

圖3 網絡流量異常檢測特征分類

網絡流可分為單向流和雙向流,網絡流量特征也可分為單流特征和雙流特征。單流特征即單個流的特征,只使用組成該網絡流的所有報文集合的統計特征作為該網絡流量的特征,通常包括包到達時間、報文大小、報文大小的均值/方差、網絡流所包含的數據報文數量等。多流特征是針對具有某些相同特性的多條網絡流量共同形成的一些統計特征,可在單流特征基礎上表示出更多流量相關的信息。在網絡流量異常檢測過程中提取多流特征,一般先選擇一個提取對象,如將主機地址作為對象的網絡流量,或將網絡段作為提取對象的網絡流量等[10]。

2.2 網絡流量維數約簡技術研究

網絡流量異常檢測中的維數約簡技術研究分類如圖4所示。

圖4 網絡流量維數約簡技術分類

網絡流量維數約簡方法可分為網絡流量特征選擇方法和網絡流量特征提取方法。網絡流量特征提取維數約簡方法可分為監督學習(Supervised)特征提取方法和無監督學習(Unsupervised)特征提取方法。網絡流量特征選擇維數約簡方法可分為嵌入式(Embedded)特征選擇、過濾式(Filter)特征選擇和封裝式(Wrapper)特征選擇3種[11]。

3 網絡流量特征提取方法

網絡流量特征提取是通過功能映射,從原始網絡流量特征集中提取一組新特征,該方法能夠通過轉換獲取最小的新特征集[12]。

3.1 網絡流量特征提取方法分類

網絡流量特征提取方法包括有監督特征學習方法和無監督特征學習方法,其中有監督學習方法包括監督字典學習、神經網絡、多層感知機、線性判別分析等,無監督學習方法包括無監督字典學習、局部線性嵌入、等度量映射、主成分分析(Principal Component Analysis,PCA)、獨立成分分析、深度學習和各種形式的聚類算法等。

文獻[13]提出一種字典學習和稀疏特征結合的入侵檢測模型,該模型包含數據預處理、稀疏特征提取、入侵分類檢測和結果分析評估的完整數據處理流程。文獻[14]提出深度圖特征學習框架DeepGFL,在網絡安全的上下文中提取高階特征,從低階網絡流特征中導出高階網絡流特征,然后實現網絡攻擊檢測。文獻[3]提出一種嵌入二次特征選擇的主成分分析特征提取模型。文獻[15]通過PCA提取表示輸入變量變化的相互獨立潛在特征,采用基于MI特征選擇方法選擇與模型輸出最相關的潛在變量。

3.2 網絡流量主要特征提取算法

常用的無監督維數約簡技術包括主成分分析、局部線性嵌入(Locally Linear Embedding,LLE)、等度規映射(ISOMAP)等降維算法;監督維數約簡技術包括線性判別分析(Linear Discriminant Analysis,LDA)以及近年來比較受關注的度量學習。常用的網絡流量特征提取算法及其優缺點和已有研究文獻如表1所示。

表1 常用網絡流量特征提取算法

4 網絡流量特征選擇方法

4.1 網絡流量特征選擇流程

網絡流量特征選擇是從原始網絡流量特征集中選擇出重要的特征,如何選擇特征子集以及度量特征的重要性是影響特征選擇結果的2個重要問題。網絡流量特征選擇的基本流程如圖5所示,其中主要包括4個環節:生成特征子集,評估特征子集,終止條件判斷,驗證特征子集。

圖5 網絡流量特征選擇基本流程

在圖5中,原始網絡流量數據集需要按照一定的搜索策略生成一個備選網絡流量特征子集,根據某個評價準則可判斷選出子集的優劣,根據終止條件決定網絡流量特征選擇算法何時停止,保證算法的有窮性[9]。如果評估結果滿足終止條件則停止整個網絡流量特征選擇過程,否則重復生成網絡流量特征子集,循環整個過程。當整個網絡流量特征選擇過程結束后,需要對所獲得的網絡流量特征子集進行驗證,以證明該網絡流量特征選擇方法的有效性[30]。

4.2 網絡流量特征選擇方法分類

網絡流量特征選擇是指選擇最能代表原始網絡流量數據分布特性的最優特征子集,根據特征子集評價標準和特征選擇形式又可以將網絡流量特征選擇方法分為3類:過濾式(Filter)特征選擇方法,封裝式(Wrapper)特征選擇方法和嵌入式(Embedded)特征選擇方法[31]。

1)過濾式特征選擇方法。按照發散性或相關性對各網絡流量特征進行評分,設定閾值,選擇特征。先對網絡流量數據進行特征選擇,然后再訓練學習模型,特征選擇過程與后續學習模型無關。該方法優點是速度快、通用性強,而且對過擬合問題有較高的魯棒性,缺點是特征評價結果有一定的偏差,且模型的組合特征選擇能力較差。

2)封裝式特征選擇方法。從網絡流量初始特征集中反復選擇特征子集,訓練學習模型,根據學習模型的性能對選擇出的特征子集進行評價,直至選出最優特征子集。該方法優點是直接針對特定學習器進行優化,考慮到特征之間的關聯性,可得到較高的分類精度,缺點是計算復雜度高、開銷大,并且通用性不強。

3)嵌入式特征選擇方法。使用機器學習算法和模型進行訓練,得出網絡流量各數據特征的權重,根據權重大小順序選擇特征。該方法與Filter方法類似,但其通過機器學習算法和模型訓練來確定網絡流量特征的優劣,而且算法本身作為組成部分嵌入到學習算法中。最典型的嵌入式特征選擇算法是決策樹算法,包括ID3、C4.5和CART算法等。

過濾式和封裝式網絡流量特征選擇方法和分類算法可以與各種算法結合使用,網絡流量特征選擇過程與學習模型訓練過程有明顯分別,而嵌入式網絡流量特征選擇是將特征選擇與學習模型訓練過程融為一體,在學習模型訓練過程中自動地進行特征選擇。其中,封裝式方法直接將學習器性能作為特征子集的評價標準,搜尋特征子集的分類準確性一般會優于過濾式和嵌入式[32]。

搜索最優網絡流量特征子集是網絡流量特征選擇過程中最關鍵和最具挑戰性的環節。基本搜索策略可根據網絡流量特征子集的形成過程分為3類:全局最優搜索,隨機搜索,啟發式搜索。全局最優搜索策略是在所有可能空間中尋找最優子集,針對高維數據,算法的時間復雜度非常高;隨機搜索策略使用隨機重采樣,根據迭代更新特征權重選擇重要特征訓練分類器,利用模擬退火算法可以避免陷入局部最優解的特性提高搜索性能;啟發式搜索策略包括前向選擇方法、后向選擇方法、序列前向浮動搜索算法等。啟發式搜索策略在選擇速度上高于前兩種搜索策略。一個具體的網絡流量特征子集搜索算法可能會采用2種或多種基本搜索策略,例如遺傳算法是一種隨機搜索算法,同時也是一種啟發式搜索算法。對于不同的搜索策略,網絡流量特征選擇方法又可被分為窮舉法、啟發式法、基于信息理論的方法、基于演化計算方法等[32]。

4.3 網絡流量特征選擇算法

將過濾式網絡流量特征選擇方法應用于回歸問題時,可使用互信息法;應用于分類問題時,可使用卡方檢驗法、Relief方法、方差選擇法、相關系數法、互信息法等。封裝式網絡流量特征選擇方法包括LVW法、遞歸特征消除法、窮舉法、隨機法等。嵌入式網絡流量特征選擇方法包括正則化法、隨機森林、決策樹等。常用的網絡流量特征選擇算法及其優缺點和已有研究文獻如表2所示。

表2 常用網絡流量特征選擇算法

5 網絡流量維數約簡數據集與評價指標

由于隱私和知識產權等原因,用于網絡流量分析的相關數據集較少,很少有公開可用的數據集,且很少提供標記信息。

5.1 網絡流量維數約簡常用數據集

由于網絡設備、流量配置和網絡攻擊的多樣性,任何網絡流量數據集的代表性都會被質疑。因此,找到適的標簽數據集是很困難的。許多已發表的網絡流量異常檢測和網絡流量維數約簡分析的文章仍在使用DARPA 98和KDD CUP 99。常用來研究網絡流量維數約簡算法使用的網絡流量數據集,以及針對該數據集的維數約簡方法和已有研究文獻如表3所示。

表3 網絡流量主要維數約簡算法

5.2 網絡流量維數約簡性能評價指標

通常采用分類器準確率(Overall Accuracy,OA)、特征壓縮率(Feature Compression Rate,FCR)以及運行時間作為網絡流量維數約簡算法性能的評價指標。采用分類器準確率評判網絡流量維數約簡算法效果的好壞,其值為正確樣本數與全部樣本數的比值。用特征壓縮率衡量網絡流量維數約簡算法對特征提取的效率,其值為選擇的特征數與全部特征數的比值。運行時間為每種網絡流量維數約簡方法所運行的時間,使用每種算法的運行時間來考察其運行速度。

6 網絡流量維數約簡存在問題及發展趨勢

6.1 存在問題分析

當前網絡流量異常檢測中的維數約簡技術已有相關研究,并取得了一定的研究成果,但仍然存在一些尚未解決和完善的問題:傳統的維數約簡方法無法保留訓練樣本的原始意義,且對組合特征選擇能力較差;網絡流量多樣性和網絡流量數據的不平衡問題,以及復合攻擊的普及對網絡流量維數約簡提出的更高要求;網絡加密流量的快速增長需要研究如何從高速網絡流量中提取反映加密流量內在規律的特征信息對應的特征提取方法;目前缺乏維數約簡評價標準;現有網絡流量數據維數約簡方法不能正確反映移動無線網絡的性能;網絡流量的高動態性使得網絡流量數據維數約簡方法不能滿足網絡攻擊檢測的在線實時性要求。上述不足都制約了網絡流量異常檢測中維數約簡技術的進一步發展。

6.2 研究方向展望

基于現階段網絡流量異常檢測中維數約簡技術的研究現狀、網絡流量維數約簡所面臨的挑戰和未來研究方向主要概括以下方面:

1)在線實時網絡異常檢測中流量維數約簡技術研究。網絡特征建立在海量高速網絡流量數據上面,為實現實時在線網絡異常檢測,需要研究提高網絡流量在線時效性的維數約簡方法。如何將實時多變量維數約簡方法應用到大規模網絡流量數據中并對數據進行高效處理成為一大難題。

2)維數約簡后流量特征信息丟失問題研究。約簡后的網絡流量數據特征只是全部網絡流量數據特征的一小部分,一些信息會被丟失。在網絡流量異常檢測中,如何選擇維數約簡技術彌補網絡流量特征在約簡后的信息丟失,使其能有效地進行網絡流量異常檢測仍是難點。

3)移動互聯網應用異常檢測中的網絡流量特征提取技術研究。隨著移動互聯網的普及和網絡技術的高速發展,移動新應用不斷出現,攻擊者更青睞于移動互聯網應用。如何提取網絡流量特征,細分和區別這些網絡應用,對攻擊檢測非常重要。

4)網絡流量維數約簡評價標準研究。針對網絡流量進行有效降維后的特征子集難以確定,缺乏可用于網絡流量維數約簡的通用和普適的評價標準。

5)網絡加密流量的特征提取技術研究。目前缺乏可用于網絡加密流量異常檢測的公開標記數據集,越來越多的網絡流量使用加密通信偽裝或隱藏明文流量特征,如何選擇待提取的候選特征集合,需對惡意軟件加密通信具有全面的知識積累。

6)各種網絡攻擊檢測場景中網絡流量數據維數約簡技術與方法的普適性問題。目前很多網絡流量數據維數約簡方法針對某個網絡攻擊檢測場景的應用是最優的,但是針對其他網絡攻擊檢測場景的應用可能就不是最優的。隨著針對網絡流量數據特征的研究不斷深入,未來需要設計普適的網絡流量維數約簡方法。

7)多種網絡流量維數約簡方法和技術相結合的維數約簡方法。將多種網絡流量數據維數約簡方法和技術相結合,實現更高效的網絡流量數據維數約簡和獲得更準確的抽樣結果。在進行網絡流量維數約簡時,盡可能地減少對網絡的額外影響也是一個具有挑戰的研究課題。

7 結束語

網絡流量維數約簡能夠用于很多基于網絡流量的機器學習和數據挖掘場景,是網絡攻擊檢測中的重要分支。本文介紹網絡流量異常檢測和維數約簡原理,分別對2種流量維數約簡方式,即網絡流量特征選擇和網絡流量特征提取的現有算法進行歸納分類,描述算法特點并分析優缺點。在此基礎上,給出目前網絡流量維數約簡研究常用的數據集和評價指標,展望網絡流量異常檢測中維數約簡技術發展方向,為研究和發展網絡空間安全技術提供借鑒。

猜你喜歡
特征提取特征檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
小波變換在PCB缺陷檢測中的應用
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 国产91视频观看| 9久久伊人精品综合| 色噜噜综合网| 福利视频99| 亚洲视频影院| 亚洲综合色区在线播放2019| 久久国产精品国产自线拍| 99re精彩视频| 一区二区三区四区精品视频 | 不卡无码网| 国产精品手机在线播放| 欧美日韩国产精品va| 亚洲国产中文在线二区三区免| 精品亚洲国产成人AV| 国产精品久线在线观看| 国产亚洲精品资源在线26u| 日韩精品亚洲人旧成在线| 在线精品亚洲国产| 一本大道香蕉久中文在线播放| 久久公开视频| 亚洲中文久久精品无玛| 久久亚洲国产最新网站| 青青操国产视频| 久久人体视频| 国产成人精品午夜视频'| 无码精油按摩潮喷在线播放| 国产精品三级av及在线观看| 91色国产在线| 沈阳少妇高潮在线| 夜夜操天天摸| 国产Av无码精品色午夜| 亚洲a免费| 污网站免费在线观看| 久久久久亚洲精品无码网站| 久996视频精品免费观看| 国产中文一区a级毛片视频| 911亚洲精品| 免费高清毛片| 国产天天色| 最新国产午夜精品视频成人| 伊人大杳蕉中文无码| 亚洲精品国产成人7777| 亚洲成人黄色网址| 国产最爽的乱婬视频国语对白| 欧美日韩精品一区二区在线线| 999精品色在线观看| www.99在线观看| 国产精品jizz在线观看软件| 国产最新无码专区在线| 国产精品成人一区二区不卡| 欧洲欧美人成免费全部视频| 精品久久香蕉国产线看观看gif| 国产欧美精品午夜在线播放| 天堂中文在线资源| 青青操视频在线| 在线观看免费国产| 日韩色图区| swag国产精品| 亚欧美国产综合| 欧美97欧美综合色伦图| 91 九色视频丝袜| 亚洲天堂在线免费| 国产精品福利社| 中文字幕资源站| 欧美天天干| 999精品色在线观看| 日日拍夜夜操| 日韩欧美色综合| 中文成人在线视频| 91青青草视频在线观看的| 国产主播在线观看| 乱色熟女综合一区二区| 伊人久久大香线蕉影院| 国产激情在线视频| 一本一道波多野结衣一区二区| 999在线免费视频| 区国产精品搜索视频| 亚洲三级a| 91精品在线视频观看| 沈阳少妇高潮在线| 亚洲系列无码专区偷窥无码| 国产va免费精品观看|