田原
摘 要:在互聯(lián)網(wǎng)中理解網(wǎng)絡(luò)行為最高效的途徑即是對網(wǎng)絡(luò)數(shù)據(jù)流量進行安全檢測與分析,它是對已有互聯(lián)網(wǎng)的組建、規(guī)范化和改造的依據(jù),同時也是對Internet進行安全檢測的重要環(huán)節(jié)。為了解決網(wǎng)絡(luò)中的資源和高速IP流量之間的沖突問題,需要對網(wǎng)絡(luò)流進行多種方式的安全處理與算法研究。
論文首先提出了改進的數(shù)據(jù)抽樣技術(shù)并綜合論述了現(xiàn)階段基于抽樣技術(shù)的數(shù)據(jù)測量算法的研究,同時通過對重要數(shù)據(jù)參數(shù)的重新設(shè)置和分析,并結(jié)合使用多種數(shù)據(jù)取樣的方法,探討改進的數(shù)據(jù)空間映射技術(shù),與現(xiàn)階段的各種取樣方式,在測量網(wǎng)絡(luò)長流算法中的綜合應(yīng)用[1]。
關(guān)鍵詞:報文抽樣;哈希;網(wǎng)絡(luò)測量;IP流
Abstract: Way in the Internet to understand network behavior is the most efficient and the detection and analysis of network data flow. It is the basis for the formation ,standardization and transformation of the existing internet. In the meantime, it is also an important part of Internet security testing. In order to solve the problem of conflict between network resources and high speed IP flow. Study on the safe handling and algorithm to perform a variety of modes of network flow.
This paper proposes an improved sampling data base and discusses the current research sampling algorithm based on measurement data. At the same time by resetting the data on important parameters analysis and combined with the method of using a variety of data sampling ,the discussion of data space mapping technique and comprehensive application of various sampling methods at the stage in the measurement of network flows in algorithm.
Key words: packet sampling; hash; internet measurement; ip flow
1 引言
當今,互聯(lián)網(wǎng)的數(shù)據(jù)流量特征分析已經(jīng)發(fā)生了非常顯著的變化,同時互聯(lián)網(wǎng)也產(chǎn)生了多元發(fā)展的方向,通過對網(wǎng)絡(luò)流量安全的分析,試圖完整地檢測和監(jiān)控數(shù)據(jù)長流的行為,目前已經(jīng)存在很多問題。NSF的設(shè)計還存在一些弊端,缺少設(shè)定對于監(jiān)測不同流量之間的網(wǎng)絡(luò)性能問題和安全問題的考慮。與此同時,互聯(lián)網(wǎng)服務(wù)供應(yīng)商也沒有重點整理和分析網(wǎng)絡(luò)的數(shù)據(jù),所以造成了現(xiàn)在對流量的測量和分析網(wǎng)絡(luò)行為及網(wǎng)絡(luò)行為變化的測度數(shù)據(jù)[1]缺失。
2 網(wǎng)絡(luò)測量技術(shù)的發(fā)展
在互聯(lián)網(wǎng)中對于網(wǎng)絡(luò)數(shù)據(jù)長流的測量安全方法主要有兩種[2]。主動測量是將數(shù)據(jù)探測分組注入互聯(lián)網(wǎng)中檢測,然后接受產(chǎn)生的流量直接測量互聯(lián)網(wǎng)中數(shù)據(jù)的屬性。但同時主動測量也存在自身的問題,它會對被測網(wǎng)絡(luò)IP長流的產(chǎn)生一些阻礙,因此主動數(shù)據(jù)測量的研究需要認真分析對網(wǎng)絡(luò)實際傳輸流量的總體影響。被動測量指在網(wǎng)互聯(lián)網(wǎng)中的關(guān)鍵節(jié)點設(shè)置數(shù)據(jù)收集器,進行通過數(shù)據(jù)分析、收取數(shù)據(jù)流特征,并獲得關(guān)鍵性的數(shù)據(jù)。這種方式的過程取決于被測網(wǎng)絡(luò)中由已經(jīng)存在的數(shù)據(jù)樣本來決定,它的特點是數(shù)據(jù)被檢測的時,不影響被測量網(wǎng)絡(luò)的流量,但是也存在著一定的缺點,即產(chǎn)生數(shù)據(jù)存儲、數(shù)據(jù)監(jiān)測及錯誤率等問題[3,4]。
2.1 主動測量
這種測量方法比較容易實現(xiàn),數(shù)據(jù)的測量可以通過在一定的條件下而產(chǎn)生,采用主動測量方法時,它不會依賴外部測量設(shè)備去同時檢測網(wǎng)絡(luò)數(shù)據(jù)的訪問時間。而這種測量是基于RTT的數(shù)據(jù)流量測量,它不支持對單路數(shù)據(jù)流量延遲的測量。還有其他測量方法是通過使用全球定位系統(tǒng)接收器來同步主機的數(shù)據(jù)。但是這些系統(tǒng)對于獲得額外的網(wǎng)絡(luò)數(shù)據(jù)流量安全信息的分析方法非常有限,因此不被普遍使用。
2.2 被動測量
這種測量方法需要在網(wǎng)絡(luò)中的一個數(shù)據(jù)節(jié)點收集流量信息,例如使用多層交換機采集網(wǎng)絡(luò)數(shù)據(jù)被動地監(jiān)測通過被測量網(wǎng)絡(luò)鏈路的流量[5]。同時互聯(lián)網(wǎng)中的被監(jiān)測流量安全性存在不穩(wěn)定、數(shù)據(jù)突發(fā)等特點是可以完全被監(jiān)測結(jié)果抵消的,所以有些數(shù)據(jù)長流的監(jiān)測采用這種測量方法是比較困難的,會有一定的數(shù)據(jù)損失錯誤率產(chǎn)生。
3 長流測量技術(shù)
3.1 報文抽樣技術(shù)
在采用這種技術(shù)過程中,根據(jù)數(shù)據(jù)取樣使用的方式不同,在實際應(yīng)用中可以將數(shù)據(jù)取樣方法劃分為不同的類型,例如策略不同的數(shù)據(jù)抽樣和觸發(fā)方式不同的數(shù)據(jù)抽樣[6]。在基于不同方式的數(shù)據(jù)抽樣類型中,有時采用的時間觸發(fā)不如報文觸發(fā)方式,結(jié)合以上分析,本文只考慮基于策略不同的數(shù)據(jù)取樣分析,其中數(shù)據(jù)系統(tǒng)取樣方式本文闡述的是常用周期取樣。
3.2 改進的分層抽樣及參數(shù)配置
分層數(shù)據(jù)抽取技術(shù)是通過有效的數(shù)據(jù)分組與操作原理相結(jié)合,通過技術(shù)劃分出行為狀態(tài)比較相似的層,以改變參數(shù)值之間的差異量的變化。而這些相似的層則是依據(jù)事先已經(jīng)定義的數(shù)據(jù)參數(shù)特征,將樣本分成若干個互不交叉、互不重復的獨立存儲空間,所有的取樣數(shù)據(jù)由這些相似層的獨立空間樣本組成,這些數(shù)據(jù)則依據(jù)獨立的空間做出參數(shù)估計。只要避免多余的數(shù)據(jù)分配方式就會比簡單數(shù)據(jù)隨機抽樣和周期抽樣獲得更好的測量性能和安全性[7]。endprint
數(shù)據(jù)分層采樣技術(shù)通過對數(shù)據(jù)鏈路上的報文分析出一定的數(shù)據(jù)分組,借助于網(wǎng)絡(luò)中數(shù)據(jù)鏈路接口[2]處裝置一個測量數(shù)據(jù)集成系統(tǒng),將抽樣數(shù)據(jù)測量結(jié)果處理成網(wǎng)絡(luò)流量信息反饋給測量數(shù)據(jù)集成系統(tǒng)。
3.3 CBF報文過濾技術(shù)
報文過濾技術(shù)采用對鏈路上的數(shù)據(jù)進行隨機采樣,一個數(shù)據(jù)被抽取后,為其定義專屬的數(shù)據(jù)標識。同時建立這個IP數(shù)據(jù)流的數(shù)據(jù)累加器,之后無論這個數(shù)據(jù)流的報文是否被采樣,其余的每一個數(shù)據(jù)都會被處理,同時累加器隨之更新,直到測量過程結(jié)束,最后輸出大于額定值的數(shù)據(jù)流即為IP長流。本文借助其基本思想并對其哈希過程進行改進,提出使用CBF技術(shù)用于判斷是否對報文進行抽樣并對其所屬流標示即FSample—CBF方法。
首先對鏈路上的數(shù)據(jù)按照預(yù)先定義的速率進行周期采樣。當一個數(shù)據(jù)標識的采樣數(shù)據(jù)被抽取時,使用映射進行運算,將其映射到存儲空間的相應(yīng)位置,每次映射的相應(yīng)的累加器加數(shù)一次。在累加器更新過程中,我們采用更新機制,即僅更新K個累加器中最小的一個,以減少錯誤肯定率[1]。由于同一個流的所有報文都要被映射到同一存儲空間,因此如果數(shù)據(jù)流被抽取到的報文數(shù)超過閾值,那么每個相應(yīng)存儲空間的累加器也會都超過這個閾值,標識這個長流的同時,在內(nèi)存中定義這個數(shù)據(jù)流的一個選項來記錄信息。
隨后其所屬的報文被抽取到時直接對內(nèi)存的流標示項作用。在存在可容忍流長度測量誤差的條件下,這種方法可以準確地識別長流,有效地減少存儲空間和提高處理速度,同時也保證了數(shù)據(jù)的安全性。
4 結(jié)束語
綜上所述,通過對現(xiàn)代互聯(lián)網(wǎng)中網(wǎng)絡(luò)數(shù)據(jù)的深入分析發(fā)現(xiàn),網(wǎng)絡(luò)數(shù)據(jù)通信在很大程度上仍具有明顯的突發(fā)性,會產(chǎn)生一定范圍內(nèi)的差錯。采用數(shù)據(jù)取樣提取技術(shù)與映射技術(shù)結(jié)合的數(shù)據(jù)測量方式,同時根據(jù)這種流量分析技術(shù)的優(yōu)缺點,提出使用多種測量技術(shù)相結(jié)合的方法,可以實現(xiàn)數(shù)據(jù)長流的識別,實現(xiàn)對網(wǎng)絡(luò)數(shù)據(jù)流量安全的檢測,并規(guī)范互聯(lián)網(wǎng)的組建和改造,同時也擁有了對Internet進行檢測的重要依據(jù)。
參考文獻
[1] Duffield.N.G,and Grossglauser.M. Trajectory Sampling for Direct Traffic Observation[J]. IEEE/ACM Trans on Networking,June 2001;9(3):280~292.
[2] 程光,龔儉.大規(guī)模高速網(wǎng)絡(luò)流量測量研究[J].計算機工程與應(yīng)用,2002.
[3] Claffy.K,Sean Mcreary. Internet measurement and data analysis: passive and active measurement[R].1999.
[4] 劉衛(wèi)江,龔儉,丁偉.流測量算法綜述[J].計算機工程與應(yīng)用,2005.
[5] K.Dhandere,Hyang-AH Kim,Tim Jia-Yu Pan. The Application and Effect of Sampling Methods on Collecting Network Traffic Statistics[Z].2001.
[6] Duffield.N.G,and Grossglauser.M. Trajectory Sampling with Unreliable Reporting[C]. IEEE Infocom 2004, HongKong:2004.
[7] Duffield.N.G,Lund.C,Thorup.M. Estimating Flow Distributions from Sampled Flow Statistics[C]. ACM SIGCOMM 2003,Karlsruhe,Germany:Aug 2003.endprint