盧燦舉
(電子工程學(xué)院,安徽 合肥 230037)
基于網(wǎng)絡(luò)流量的特征分析
盧燦舉
(電子工程學(xué)院,安徽合肥230037)
網(wǎng)絡(luò)流量在互聯(lián)網(wǎng)發(fā)展不斷深化的背景下表現(xiàn)出了極為重要的意義,也是對網(wǎng)絡(luò)體系進(jìn)行切入理解的重要渠道,還是設(shè)計(jì)、規(guī)劃和管理網(wǎng)絡(luò)的直接憑據(jù)。在多尺度下對網(wǎng)絡(luò)流量的特征進(jìn)行了針對性探究,以期對相關(guān)工作起到一定參考作用。
網(wǎng)絡(luò)流量;多尺度;特征
網(wǎng)絡(luò)流量特征分析具有重要價(jià)值,是多項(xiàng)工作的支撐基礎(chǔ)。從不同的尺度條件下對網(wǎng)絡(luò)流量進(jìn)行分析,都能發(fā)現(xiàn)其還存在一定缺陷,對相關(guān)工作存在一定制約。因此,需要對相關(guān)的分析工作進(jìn)行革新,可以通過多階段應(yīng)用層流量在線識別、Hurst指數(shù)疊加效應(yīng)以及大尺度流量動(dòng)態(tài)特征等渠道對網(wǎng)絡(luò)流量從不同的尺度展開分析研究。只有依靠合理的手段,才能明確網(wǎng)絡(luò)流量的基本特征,進(jìn)而完善相關(guān)工作。
由于網(wǎng)絡(luò)系統(tǒng)的設(shè)計(jì)和網(wǎng)絡(luò)流量的特征具有直接關(guān)聯(lián),那么對網(wǎng)絡(luò)流量進(jìn)行研究,其實(shí)質(zhì)也是對網(wǎng)絡(luò)系統(tǒng)構(gòu)建的研究。但是,由于網(wǎng)絡(luò)系統(tǒng)存在一定區(qū)別,在不同尺度下有著不同的要求和限制,這也就要求相關(guān)的研究工作應(yīng)該在多尺度的環(huán)境中進(jìn)行,從不同的角度對網(wǎng)絡(luò)流量的特征進(jìn)行研究,具有不同的作用。
研究網(wǎng)絡(luò)流量,首先需要明確測量尺度的定義,由于流量特征研究的直接對象是數(shù)據(jù)包,那么其對應(yīng)的測量尺度應(yīng)該從數(shù)據(jù)包的層面進(jìn)行制定。通過相關(guān)研究顯示,數(shù)據(jù)包可以通過不同的表現(xiàn)形式達(dá)到序列,因此可以通過兩種形式對網(wǎng)絡(luò)特征分析的尺度進(jìn)行界定,一種是數(shù)據(jù)包的個(gè)數(shù),一般可以記為#pkt,另一種是數(shù)據(jù)包之間的時(shí)間間隔,一般記為#time。如果尺度標(biāo)準(zhǔn)是#pkt,在對連續(xù)的s個(gè)數(shù)據(jù)包進(jìn)行匯聚之后,可以得到一個(gè)全新的序列,s就是相應(yīng)的測量尺度。如果將時(shí)間間隔作為尺度標(biāo)準(zhǔn),在固定的間隔t內(nèi)可以獲取一定的匯聚數(shù)據(jù)包,進(jìn)而得到相關(guān)的新序列,這時(shí)t就是對應(yīng)的尺度標(biāo)準(zhǔn)。
在小尺度條件下,對于全新的應(yīng)用層業(yè)務(wù),網(wǎng)絡(luò)流量的特征分析時(shí)比較缺少的。尤其是相關(guān)研究證明在比較寬的時(shí)間尺度范圍內(nèi)網(wǎng)絡(luò)流量特征具有很高的相似性之后,對小尺度下的網(wǎng)絡(luò)流量特征研究就逐漸縮減了。但是,根據(jù)網(wǎng)絡(luò)流量在網(wǎng)絡(luò)設(shè)計(jì)不斷發(fā)展中所表現(xiàn)出的實(shí)際情況看,在小尺度條件下對網(wǎng)絡(luò)流量進(jìn)行研究其實(shí)更具價(jià)值。
在大尺度條件下,網(wǎng)絡(luò)流量的研究工作開展較多,但是結(jié)合網(wǎng)絡(luò)發(fā)展的速度和規(guī)模而言,大尺度條件下的網(wǎng)絡(luò)流量研究尚顯不夠,研究內(nèi)容也不全面。在網(wǎng)絡(luò)應(yīng)用不斷復(fù)雜化的情況下,大尺度條件的網(wǎng)絡(luò)流量特征研究遭遇了更多的阻礙,更加難以得出具有代表性的研究結(jié)論,無法統(tǒng)一具體的研究成果。比如,高速鏈路的研究成果在低速鏈路中不一定適合,大規(guī)模網(wǎng)絡(luò)的經(jīng)驗(yàn)理論也未必符合小規(guī)模網(wǎng)絡(luò)的實(shí)情,企業(yè)網(wǎng)的結(jié)論也不一定符合校園網(wǎng)。因此,需要在多尺度下對網(wǎng)絡(luò)流量的特征展開更加全面的研究,以促進(jìn)各方面的研究工作。
2.1多階段應(yīng)用層流量識別
各種新業(yè)務(wù)的出現(xiàn)對網(wǎng)絡(luò)的發(fā)展起到了積極的促進(jìn)作用,也對網(wǎng)絡(luò)流量的變化和構(gòu)成產(chǎn)生了不小的沖擊。在多階段應(yīng)用層進(jìn)行流量識別,其主要包括了4種技術(shù)手段,分別是靜態(tài)端口識別、數(shù)據(jù)包載荷識別、主機(jī)連接識別以及統(tǒng)計(jì)模型流量識別。
靜態(tài)端口識別主要是對發(fā)生數(shù)據(jù)傳輸通信的雙方進(jìn)行流量識別,如果發(fā)生通信的兩方是通過缺省端口進(jìn)行的,那么就可以認(rèn)為其使用了應(yīng)用連接,其對應(yīng)的流量就是該應(yīng)用的流量。
數(shù)據(jù)包載荷識別主要是對存在于數(shù)據(jù)包中的特殊字符串進(jìn)行判定,以此識別對應(yīng)的P2P(Peer to Peer)對等網(wǎng)絡(luò)流量。在特殊字符串和P2P應(yīng)用的某些特征能夠形成匹配時(shí),就可以判定該數(shù)據(jù)包是通過P2P應(yīng)用形成的,其對應(yīng)的連接也可以被認(rèn)定為P2P連接。常用的P2P協(xié)議特殊字符串主要有5種,分別是BitTorrent,Kazaa,DirectConnect,eDonkey以及Gnutella等。基于這5種常用的字符串形式,就可以對數(shù)據(jù)包載荷中的大部分特殊字符串進(jìn)行識別,從而判定其性質(zhì)。
主機(jī)連接識別主要是對流關(guān)系進(jìn)行分析,以此對主機(jī)連接所表征出的具體協(xié)議類型進(jìn)行判定。基于P2P應(yīng)用的連接特點(diǎn),主機(jī)連接識別被提出了兩種啟發(fā)方式,進(jìn)而實(shí)現(xiàn)從3個(gè)層面對網(wǎng)絡(luò)流量進(jìn)行深度識別,即從應(yīng)用層次、功能層次和社會(huì)層次這3個(gè)方面識別網(wǎng)絡(luò)流量的具體特征。
統(tǒng)計(jì)模型流量識別是在Bayes理論基礎(chǔ)上提出的,但是這種方法目前僅僅用在分類研究上,還沒有在實(shí)際網(wǎng)絡(luò)的監(jiān)測工作中進(jìn)行應(yīng)用。根據(jù)相關(guān)實(shí)踐證明,統(tǒng)計(jì)模型流量識別可以準(zhǔn)確得到流級66%,字節(jié)級84%的準(zhǔn)確度。如果對網(wǎng)絡(luò)流量的屬性進(jìn)行預(yù)先處理,對部分低區(qū)分度的屬性進(jìn)行剔除,那么可以進(jìn)一步將準(zhǔn)確度提升到93%以上。值得注意的是,運(yùn)用該方法時(shí)應(yīng)該注意兩個(gè)基本點(diǎn),一是區(qū)分度之間必須具有良好的獨(dú)立性,二是應(yīng)該具有一個(gè)較大的trace數(shù)據(jù)。
2.2小尺度下的Hurst指數(shù)疊加效應(yīng)
在小尺度下對網(wǎng)絡(luò)流量特征的研究,很長一段時(shí)間都處于空白狀態(tài),因此,需要加強(qiáng)小尺度下的網(wǎng)絡(luò)流量特征分析,以便對不同應(yīng)用層業(yè)務(wù)所產(chǎn)生的流量進(jìn)行辨識。Hurst指數(shù)疊加效應(yīng)就是在小尺度條件下研究網(wǎng)絡(luò)流量特征的一種有效手段,其相關(guān)概念提出于20世紀(jì)60年代,具體內(nèi)涵為在空間或者時(shí)間尺度上,對隨機(jī)過程進(jìn)行縮放,某些過程不會(huì)產(chǎn)生變化,其表現(xiàn)出了長相關(guān)的特點(diǎn)。從客觀角度看,并不存在嚴(yán)格意義上的自相似,但是在通信領(lǐng)域?qū)ψ韵嗨拼嬖诙喾N不同的定義,這些定義在不同場合所表征的結(jié)果是不一樣的。利用Hurst指數(shù)對網(wǎng)絡(luò)流量特征進(jìn)行分析,需要明確其基本的估計(jì)方式,嚴(yán)格說來,自相似是一種屬于主觀世界的產(chǎn)物,對客觀世界的規(guī)律和認(rèn)知不存在較大意義。所以,雖然Hurst指數(shù)具有數(shù)學(xué)上的定義和實(shí)際形式,但是想要通過它辨識網(wǎng)絡(luò)流量的特征還具有一定的困難。基于Hurst指數(shù)的網(wǎng)絡(luò)流量特征分析手段可以分為3種,一是時(shí)域分析,二是頻域分析,三是小波域分析。
而對于Hurst指數(shù)估計(jì)手段的準(zhǔn)確性和實(shí)用性,還需通過一定的手段進(jìn)行驗(yàn)證,比如隨機(jī)序列、模型自相似序列以及被破壞的自相似序列等。隨機(jī)序列的基礎(chǔ)是短相關(guān),其對應(yīng)的估計(jì)值為0.5,通過泊松分布、幾何分布、指數(shù)分布等手段進(jìn)行考察,明確估計(jì)手段的適用性。模型化自相似序列主要包括了分形高斯噪聲(Fractal Gauss Noise,F(xiàn)GN),分?jǐn)?shù)布朗運(yùn)動(dòng)(Fractional Brownian Motion,F(xiàn)BM)和自相似分模(Fractional Auto Regressive Integrated Moving,F(xiàn)ARIM)等模型,其都屬于長相關(guān),具有對應(yīng)的Hurst指數(shù)。其中FGN過程平穩(wěn),且長相關(guān)。FBM過程非平穩(wěn),屬于自相似。被破壞的自相似序列是進(jìn)行短相關(guān)加噪處理和周期化處理,這是因?yàn)榫W(wǎng)絡(luò)流量表現(xiàn)出了短相關(guān)和周期性的特點(diǎn),據(jù)此通過破壞性的自相似序列對Hurst指數(shù)的準(zhǔn)確性和實(shí)用性進(jìn)行判定。
2.3大尺度條件下的網(wǎng)絡(luò)流量特征
雖然大尺度條件下的網(wǎng)絡(luò)流量特征研究工作展開較多,但是一直存在不全面的問題,部分研究也不夠深入,因此,必須在大尺度環(huán)境下加強(qiáng)對網(wǎng)絡(luò)流量特征的分析,以便促進(jìn)相關(guān)工作。在大尺度環(huán)境下,網(wǎng)絡(luò)流量表現(xiàn)出了一些具體的特征,比如普遍存在非對稱性、出入境差異性、流量速率變化以及數(shù)據(jù)包大小等。
普遍存在非對稱性的結(jié)論是在相關(guān)研究結(jié)果的基礎(chǔ)上得出的,其具體表現(xiàn)在以下幾個(gè)方面。一是數(shù)據(jù)包和字節(jié)在出入境方向上存在變化和分布不對稱的特征,二是數(shù)據(jù)包的大小也表現(xiàn)出不對稱的特點(diǎn)。這兩個(gè)方面的不對稱性,直接導(dǎo)致網(wǎng)絡(luò)流量整體表現(xiàn)出不對稱性。但是其并非完全不對稱,也存在極少數(shù)對稱的情況,因此只能判定其不對稱性是普遍存在,而非絕對存在。
相對平穩(wěn)區(qū)拉長是網(wǎng)絡(luò)流量在大尺度環(huán)境下表現(xiàn)出的另一個(gè)特點(diǎn),其相關(guān)協(xié)議在出入境方向上可以對比特率和數(shù)據(jù)包速率的變化趨勢通過曲線表示出來,根據(jù)相關(guān)研究表明,雖然比特率和數(shù)據(jù)包速率在某種程度上表現(xiàn)出了整體相似的流量變化規(guī)律,但是出境方向卻是明顯小于入境方向的。不僅如此,在不同方向上還表現(xiàn)出了極為突出的特性趨勢,即網(wǎng)絡(luò)流量的變化情況每天基本上處于相同的情況,用戶數(shù)據(jù)報(bào)協(xié)議(User Datagram Protocol,UDP)和傳輸控制協(xié)議(Transmission Control Protocol,TCP)也存在較為明顯的天特性。
對網(wǎng)絡(luò)流量的特征進(jìn)行研究,可以在網(wǎng)絡(luò)發(fā)展中起到重要的推動(dòng)效果。但是,當(dāng)前的網(wǎng)絡(luò)流量特征研究在不少方面都存在一定缺陷。因此,需要結(jié)合實(shí)際,從多階段、小尺度和大尺度等方面對網(wǎng)絡(luò)流量的特征作出深入分析,以便促進(jìn)相關(guān)工作發(fā)展。
[1]陽愛民,周詠梅,鄧河.一種網(wǎng)絡(luò)流量分類特征的產(chǎn)生及選擇方法[J].山東大學(xué)學(xué)報(bào)(工學(xué)版),2010(5):1-7.
[2]賀偉凇,胡光岷.大尺度IP網(wǎng)絡(luò)流量異常特征的多時(shí)間序列數(shù)據(jù)挖掘方法[J].計(jì)算機(jī)應(yīng)用研究,2011(3):1130-1132,1154.
Analysis on feature of network traffic
Lu Canju
(Electronic Eengineering Institute, Hefei 230037, China)
Network traffic under the background of the Internet deepening development shows very important significance and is the important channel to understand the network system, as well as the direct credential of network design, planning and management. This paper pertinently explores the characteristic of network traffic under the multi scale in order to play a certain role in relevant work.
network traffic; multi-scale; feature
盧燦舉(1978— ),男,安徽泗縣,碩士;研究方向:計(jì)算機(jī)應(yīng)用。