摘要:P2P流量檢測技術(shù)可分為基于流量特征的識別方法(TLI)和基于深層數(shù)據(jù)包識別方法(DPI)。TLI通過對傳輸層數(shù)據(jù)包進(jìn)行分析并結(jié)合P2P系統(tǒng)所表現(xiàn)出來的流量特征,來識別某個網(wǎng)絡(luò)流是否屬于P2P。DPI采用協(xié)議分析與還原技術(shù),提取P2P應(yīng)用層數(shù)據(jù),通過分析其載荷所包含的協(xié)議特征值,來判斷網(wǎng)絡(luò)流量是否屬于P2P應(yīng)用。DPI由于具有準(zhǔn)確性高、健壯性好、具有分類功能,是P2P流量識別的主要方法。如果能夠結(jié)合TLI和DPI的優(yōu)點(diǎn),就有可能設(shè)計出一個準(zhǔn)確、高效的P2P流量實時識別算法。
關(guān)鍵詞:對等網(wǎng)絡(luò);流量識別;流量過濾;內(nèi)容監(jiān)管
Abstract: The Peer-to-Peer (P2P) network traffic identification technology includes Transport Layer Identification (TLI) and Deep Packet Inspection (DPI) methods. By analyzing packets of the transport layer and the traffic characteristic in the P2P system, TLI can identify whether or not the network data flow belongs to the P2P system. The DPI method adopts protocol analysis technology and reverting technology. It picks up data from the P2P application layer and analyzes the characteristics of the payload to judge if the network traffic belongs to P2P applications. Due to its accuracy, robustness and classifying ability, DPI is the main method used to identify P2P traffic. Adopting the advantages of TLI and DPI, a precise and efficient technology for P2P network traffic identification can be designed.
Key words: P2P network; traffic identification; traffic filtering; content monitoring
近年來,對等網(wǎng)絡(luò)(P2P)的用戶規(guī)模、應(yīng)用類型和流量均呈爆發(fā)式增長。分析結(jié)果表明,基于P2P的語音通信軟件Skype在中國同時在線用戶數(shù)高達(dá)900萬,P2P互聯(lián)網(wǎng)電視(如PPLive、PPStream等)的注冊用戶數(shù)已超過1億,在線收視者數(shù)達(dá)到100~500萬。P2P應(yīng)用類型也已經(jīng)從文件共享,擴(kuò)展到語音、視頻等應(yīng)用領(lǐng)域。同樣,中國互聯(lián)網(wǎng)實際流量模式分析報告表明,P2P流量已占整個互聯(lián)網(wǎng)流量的60%。
有鑒于此,國際網(wǎng)絡(luò)設(shè)備生產(chǎn)商和網(wǎng)絡(luò)服務(wù)提供商相繼推出了P2P流量識別與監(jiān)管產(chǎn)品。P2P流量檢測設(shè)備包括網(wǎng)絡(luò)緩存設(shè)備、應(yīng)用層流量管理設(shè)備、流統(tǒng)計狀態(tài)路由器和智能防火墻等。主要包括Cisco公司的NetFlow技術(shù)[1]、Allot公司的故障恢復(fù)流量管理方案[2]、CacheLogic公司的CacheLogic P2P管理方案[3]、 Verso Technologies公司的NetSpective系列產(chǎn)品[4]等,這些產(chǎn)品都使用了自行研發(fā)的深層數(shù)據(jù)包檢測技術(shù),除了在性能和識別精度上存在差別外,其技術(shù)的本質(zhì)是相同的。
相對來說,中國對于P2P流量識別技術(shù)的研究工作較少,不僅缺乏高質(zhì)量學(xué)術(shù)論文,也缺乏高效的P2P多媒體內(nèi)容識別與過濾產(chǎn)品。從產(chǎn)品角度來看,中國部分網(wǎng)絡(luò)設(shè)備生產(chǎn)商雖然推出了P2P流量監(jiān)控的相關(guān)產(chǎn)品,如CAPTECH的網(wǎng)絡(luò)管理軟件——網(wǎng)絡(luò)慧眼CAP[5],但是由于這些產(chǎn)品采用的都是深層數(shù)據(jù)包檢測技術(shù),因此在性能、開銷等方面存在很多問題。
開展高效、準(zhǔn)確的P2P流量(尤其是多媒體內(nèi)容)實時識別與過濾相關(guān)技術(shù)研究,不僅有利于合理利用互聯(lián)網(wǎng)基礎(chǔ)設(shè)施、合理利用P2P技術(shù)、合理部署P2P應(yīng)用,有利于制止非法內(nèi)容在P2P網(wǎng)絡(luò)中的傳播,也有助于維護(hù)中國互聯(lián)網(wǎng)的健康環(huán)境和營造一個和諧的網(wǎng)絡(luò)社會。
1 對等網(wǎng)絡(luò)流量檢測的困難性
對等網(wǎng)絡(luò)是一種分布式網(wǎng)絡(luò),其中的參與者共享他們所擁有的一部分硬件資源(處理能力、存儲能力等),這些共享資源需要由網(wǎng)絡(luò)提供服務(wù)和內(nèi)容,能被其他節(jié)點(diǎn)(peer)直接訪問而無需經(jīng)過中間實體。在此網(wǎng)絡(luò)中的參與者既是資源提供者(即服務(wù)器),又是資源獲取者(即客戶)。對等網(wǎng)絡(luò)的代表性應(yīng)用是文件共享(如Napster)。但是,P2P不僅僅是用于文件共享,它還包括建立基于P2P形式的通信網(wǎng)絡(luò)、P2P計算或其他資源的共享等很多方面。P2P最根本的思想,同時也是它與客戶/服務(wù)器模型(C/S)最顯著的區(qū)別在于網(wǎng)絡(luò)中的節(jié)點(diǎn)既可以獲取其他節(jié)點(diǎn)的資源或服務(wù)同時又是資源或服務(wù)的提供者,即兼具客戶機(jī)和服務(wù)器的雙重身份。一般P2P網(wǎng)絡(luò)中每一個節(jié)點(diǎn)所擁有的權(quán)利和義務(wù)都是對等的,包括通信、服務(wù)和資源消費(fèi)。
從分類來看,可以將P2P分為純P2P和混合P2P兩種模式。純P2P網(wǎng)絡(luò)中不存在中心實體或服務(wù)器,從網(wǎng)絡(luò)中移去任何一個單獨(dú)的、任意的終端實體,都不會給網(wǎng)絡(luò)中的服務(wù)帶來大的損失。而混合P2P網(wǎng)絡(luò)中則需要有中心實體來提供部分必要的網(wǎng)絡(luò)服務(wù),如保存元信息、提供索引或路由、提供安全檢驗等。
P2P應(yīng)用的飛速發(fā)展,雖然豐富了互聯(lián)網(wǎng)的內(nèi)容,但其流量的爆發(fā)式增長和不加限制的帶寬占用,不僅給互聯(lián)網(wǎng)基礎(chǔ)設(shè)施帶來了巨大沖擊,也給Internet服務(wù)提供商(ISP)和應(yīng)用服務(wù)提供商(ASP)高級服務(wù)的部署帶來了很多問題。此外,P2P網(wǎng)絡(luò)也迅速成為惡意代碼、黃色淫穢內(nèi)容、反動信息、盜版資源等傳播的沃土。
因此,對等網(wǎng)絡(luò)的快速識別與分類,不僅為運(yùn)營商提高服務(wù)質(zhì)量(QoS)提供技術(shù)支持,也可以為對等網(wǎng)絡(luò)上的內(nèi)容監(jiān)管(如惡意代碼識別、病毒防御)提供保障。但是,由于對等網(wǎng)絡(luò)的內(nèi)在特性,其流量識別存在以下特殊性:
(1)不確定性
由于對等網(wǎng)絡(luò)應(yīng)用的多樣性(如文件共享、語言通信、視頻通信)等,因此對等網(wǎng)絡(luò)流量不僅在流量特征上,而且在行為特征上也表現(xiàn)出不確定性。此外,對等網(wǎng)絡(luò)中節(jié)點(diǎn)的動態(tài)性也增加了對等網(wǎng)絡(luò)流量的不確定性。這種流量的不確定性,為實現(xiàn)對等網(wǎng)絡(luò)的流量識別帶來了諸多困難。
(2)海量性
對等網(wǎng)絡(luò)不僅應(yīng)用多種多樣,而且規(guī)模極大(如文件共享式P2P系統(tǒng)Bittortent總同時在線節(jié)點(diǎn)可高達(dá)100萬),因此一般來說,對等網(wǎng)絡(luò)流量均較大。對等網(wǎng)絡(luò)流量的海量性,給流量的實時檢測帶來了性能問題。

(3)加密性
由于對等網(wǎng)絡(luò)屬于應(yīng)用層,因此為了躲避內(nèi)容監(jiān)管,現(xiàn)有P2P系統(tǒng)均對其載荷進(jìn)行了加密處理。加密特性使得常規(guī)的模式識別算法很難直接應(yīng)用于對等網(wǎng)絡(luò)中。因此,必須尋求新的流量檢測技術(shù)與檢測方法才能解決P2P流量識別的準(zhǔn)確性和可靠性問題。
上述特殊性使得對對等網(wǎng)絡(luò)的流量進(jìn)行正確、高效和實時識別帶來了很多困難。從技術(shù)層面來看,現(xiàn)有P2P流量檢測技術(shù)大致可分為基于流量特征的識別方法(TLI)和基于深層數(shù)據(jù)包識別方法(DPI)。此外,網(wǎng)絡(luò)設(shè)備提供商和安全產(chǎn)品提供商也開展了P2P流量識別與監(jiān)管的研發(fā)工作。
2 基于流量特征的P2P流量識別技術(shù)
在P2P系統(tǒng)中,每個節(jié)點(diǎn)既是客戶機(jī)也是服務(wù)器,這種節(jié)點(diǎn)充當(dāng)雙重角色的特點(diǎn),也使得P2P應(yīng)用在傳輸層表現(xiàn)出與其他網(wǎng)絡(luò)應(yīng)用(如HTTP、FTP、DNS、EMAIL等)不同的流量特征。因此,基于流量特征的P2P流量檢測方法的基本思想是:通過對傳輸層數(shù)據(jù)包(包括TCP和UDP數(shù)據(jù)包)進(jìn)行分析,并結(jié)合P2P系統(tǒng)所表現(xiàn)出來的流量特征,來識別某個網(wǎng)絡(luò)流是否屬于P2P。這類方法包括:TCP/UDP端口識別技術(shù)、網(wǎng)絡(luò)直徑分析技術(shù)、節(jié)點(diǎn)角色分析技術(shù)、協(xié)議對分析技術(shù)和地址端口對分析技術(shù)等。
傳輸控制協(xié)議/數(shù)據(jù)報協(xié)議(TCP/UDP)端口識別技術(shù)利用第一代P2P系統(tǒng)多采用固定的服務(wù)端口的特點(diǎn)來識別P2P系統(tǒng)。例如,文獻(xiàn)[5]第一次提出了P2P流量識別問題,并利用端口識別技術(shù),對Fast-Track、Gnutella和Direct-Connect 3種具有代表性的P2P系統(tǒng)的流量特征進(jìn)行了分析。現(xiàn)有P2P系統(tǒng)所采用的常用服務(wù)端口如表1所示。由于許多P2P應(yīng)用為了躲避流量審計與過濾,往往采用隨機(jī)端口技術(shù),因此TCP/UDP端口識別技術(shù)存在嚴(yán)重的漏報問題。
網(wǎng)絡(luò)直徑分析技術(shù)利用了P2P系統(tǒng)所組成的邏輯網(wǎng)絡(luò)具有網(wǎng)絡(luò)直徑大這一特點(diǎn)。在P2P系統(tǒng)中,節(jié)點(diǎn)之間需要建立連接。與物理連接不同,P2P系統(tǒng)中的連接是邏輯連接,因此所形成的P2P網(wǎng)絡(luò)屬于邏輯網(wǎng)絡(luò)。文獻(xiàn)[6]通過記錄網(wǎng)絡(luò)中每個節(jié)點(diǎn)與其他節(jié)點(diǎn)建立連接的情況而得到P2P系統(tǒng)的邏輯連接拓?fù)鋱D,并計算其網(wǎng)絡(luò)直徑。文獻(xiàn)[6]的研究結(jié)果表明,與他網(wǎng)絡(luò)應(yīng)用所形成的邏輯網(wǎng)絡(luò)相比,P2P系統(tǒng)所形成的邏輯網(wǎng)絡(luò)具有更大的直徑。因此,如果網(wǎng)絡(luò)直徑超過某個門限值,則該網(wǎng)絡(luò)中的節(jié)點(diǎn)就是P2P節(jié)點(diǎn),相應(yīng)的流量就是P2P流量。由于網(wǎng)絡(luò)直徑的計算需要記錄整個網(wǎng)絡(luò)的連接狀態(tài),因此不僅存儲和計算開銷大,而且也不支持P2P流量的實時識別與過濾。
節(jié)點(diǎn)角色分析技術(shù)利用了P2P系統(tǒng)中每個節(jié)點(diǎn)具有多重角色的特點(diǎn)。P2P系統(tǒng)中的每個節(jié)點(diǎn),既是客戶機(jī),也是服務(wù)器。因此,如果可以判斷某個邏輯網(wǎng)絡(luò)中具有這種雙重角色的節(jié)點(diǎn)數(shù),就可以確定該網(wǎng)絡(luò)是否為P2P網(wǎng)絡(luò)。例如,文獻(xiàn)[6]通過記錄并計算網(wǎng)絡(luò)中同時充當(dāng)客戶機(jī)和服務(wù)器兩個角色的節(jié)點(diǎn)數(shù),發(fā)現(xiàn)如果該數(shù)超過某個門限值,則這些節(jié)點(diǎn)所形成的網(wǎng)絡(luò)就是P2P網(wǎng)絡(luò),而該網(wǎng)絡(luò)中的節(jié)點(diǎn)就是P2P節(jié)點(diǎn),相應(yīng)的流量也既是P2P流量。與網(wǎng)絡(luò)直徑分析一樣,節(jié)點(diǎn)角色分析技術(shù)也需要記錄整個網(wǎng)絡(luò)的連接狀態(tài),因此同樣面臨存儲與計算開銷大、無法供P2P流量的實時識別與過濾功能等問題。
協(xié)議對分析技術(shù)利用了P2P系統(tǒng)可能同時使用TCP和UDP協(xié)議的特點(diǎn)。實際分析結(jié)果表明,P2P系統(tǒng)一般采用UDP來發(fā)送命令等控制信息,而采用TCP協(xié)議來傳輸數(shù)據(jù)。在一般的應(yīng)用中,通常一個應(yīng)用極少出現(xiàn)同時使用UDP協(xié)議和TCP協(xié)議的情況。因此,可以利用P2P系統(tǒng)的這個特征來識別P2P流量。例如,文獻(xiàn)[7]所采用的協(xié)議對分析技術(shù)中,通過判斷在時間t 內(nèi),某個“源-目的IP地址對”之間,是否同時使用了TCP和UDP協(xié)議。如果是,則這兩個節(jié)點(diǎn)之間的流量就有可能是P2P流量;反之,則可能不是P2P流量。由于域名服務(wù)器(DNS)等應(yīng)用也會同時使用TCP協(xié)議和UDP協(xié)議,因此協(xié)議對技術(shù)存在嚴(yán)重的誤報問題。
地址端口對分析技術(shù)也是利用了P2P系統(tǒng)中節(jié)點(diǎn)角色多樣性的特點(diǎn)。地址端口對技術(shù)[7]的依據(jù)是,在P2P系統(tǒng)中,每個節(jié)點(diǎn)既是客戶機(jī),也是服務(wù)器。為了能夠接受其他節(jié)點(diǎn)建立連接的請求,每個節(jié)點(diǎn)都需要廣播自己的IP地址和提供服務(wù)的端口(記為{目的IP,目的端口},簡稱目的地址端口對)。而為了與其他節(jié)點(diǎn)建立連接,每個節(jié)點(diǎn)隨機(jī)選擇一個源端口,使用自己的IP地址(記為{源IP,源端口},簡稱源地址端口對),并利用其他節(jié)點(diǎn)所廣播的IP地址和端口對信息來建立連接。由于每個節(jié)點(diǎn)與另外一個節(jié)點(diǎn)建立連接時,不論是源節(jié)點(diǎn)還是目的節(jié)點(diǎn),都使用隨機(jī)源端口技術(shù),因此對于廣播了目的地址斷口對的節(jié)點(diǎn)A來說,與自己建立了連接的源IP地址數(shù)和源端口數(shù)應(yīng)大致相同。相反,其他應(yīng)用(如HTTP)往往需要建立多個連接來傳送數(shù)據(jù),因此來自于同一個源IP的節(jié)點(diǎn)可能采用不同的源端口,與Web服務(wù)器建立多條連接,其源IP數(shù)與源端口數(shù)往往不同。為此,在單位時間t 內(nèi),如果網(wǎng)絡(luò)流的源IP數(shù)與源端口數(shù)相同,則該流量可能就是P2P流量。地址端口對具有性能高的優(yōu)點(diǎn),但是缺乏實時識別與過濾的能力。
除了上述有關(guān)P2P流量檢測技術(shù)外,還有以下基于流量特征的P2P流量檢測技術(shù)。文獻(xiàn)[8]通過兩種方法來識別BitTorrent流量:
(1)許多節(jié)點(diǎn)向同一個節(jié)點(diǎn)發(fā)送大量數(shù)據(jù)且在目的節(jié)點(diǎn)出現(xiàn)握手?jǐn)?shù)據(jù)包。
(2)某個節(jié)點(diǎn)廣播大量UDP數(shù)據(jù)包,并隨之發(fā)送了大量握手?jǐn)?shù)據(jù)包。
文獻(xiàn)[9]利用P2P系統(tǒng)的連接錯誤率等TCP流的特征來識別P2P流量。文獻(xiàn)[10]結(jié)合Skype具有“中繼”的特性,通過考察P2P流量的如下特征參數(shù)來識別網(wǎng)絡(luò)流是否為P2P:開始時間差、結(jié)束時間差、流的速率、兩個流的時間相關(guān)系數(shù)。通過實驗分析,文獻(xiàn)[10]證明具有中繼特性的Skype流量具有如下特征:開始時間差一般小于5秒、結(jié)束時間差一般小于5秒、進(jìn)入流的比特率與出來流的比特率大小基本相等、兩個P2P流的時間相關(guān)系數(shù)不小于0.37。因此,可以利用這4個特征參數(shù),來識別具有中繼特征的Skype及其他P2P流量。
3 基于應(yīng)用層數(shù)據(jù)檢測的P2P流量識別技術(shù)
基于應(yīng)用層數(shù)據(jù)檢測的P2P流量識別技術(shù)是通過協(xié)議分析與還原技術(shù),提取P2P應(yīng)用層數(shù)據(jù)(即P2P載荷),通過分析P2P載荷所包含的協(xié)議特征值,來判斷是否屬于P2P應(yīng)用。因此,這類方法也叫做深層數(shù)據(jù)包檢測技術(shù)(DPI)。在深層數(shù)據(jù)包檢測技術(shù)中,通過對具體的P2P協(xié)議及其對應(yīng)的P2P系統(tǒng)的載荷進(jìn)行特征提取,建立特征庫。對于流經(jīng)的實時網(wǎng)絡(luò)流,采用模式匹配算法,判斷其中是否包含特征庫中的特征串。如果特征匹配成功,該網(wǎng)絡(luò)流就是P2P數(shù)據(jù)。
文獻(xiàn)[11-15]都采用了DPI的P2P流量識別技術(shù)。文獻(xiàn)[11]對Gnutella、Edonkey、DirebtConnect、BitTorrent以及Kazaa的協(xié)議特征進(jìn)行了分析,并據(jù)此對應(yīng)用層數(shù)據(jù)進(jìn)行分析來識別是否是P2P流量。文獻(xiàn)[12]利用應(yīng)用層數(shù)據(jù)分析技術(shù),對多媒體流量進(jìn)行了識別分析。
此外,也有少量文獻(xiàn)探討了結(jié)合基于流量特征方法和基于應(yīng)用層數(shù)據(jù)的檢測技術(shù)。相關(guān)文獻(xiàn)參見文獻(xiàn)[13]和文獻(xiàn)[14]。文獻(xiàn)[13]對比了3種P2P流量識別技術(shù):端口分析技術(shù)、應(yīng)用層簽名、傳輸層分析。文獻(xiàn)[14]引入誘餌節(jié)點(diǎn),并結(jié)合應(yīng)用層簽名分析技術(shù)對日本流行的P2P系統(tǒng)Winny的流量進(jìn)行了分析。
4 兩種P2P流量識別技術(shù)的優(yōu)缺點(diǎn)及比較分析
基于流量特征的檢測技術(shù)的優(yōu)點(diǎn)包括可擴(kuò)展性好、性能高和可識別加密數(shù)據(jù)流。
可擴(kuò)展性好是指該方法利用了P2P應(yīng)用所具有普適性流量特征,不僅可以發(fā)現(xiàn)已有的P2P流量,也可以識別新的、符合普適性流量特征的P2P流量。
性能高是由于不需要對協(xié)議進(jìn)行解析和還原,且也不需要對P2P應(yīng)用載荷進(jìn)行分析,因此計算開銷和存儲開銷小,識別算法性能高。可識別加密P2P流量是由于基于流量特征的檢測技術(shù)不依賴具體的P2P應(yīng)用載荷,因此,數(shù)據(jù)是否加密對檢測算法沒有影響。
但是,基于流量特征的P2P流量識別技術(shù)也具有很多不足,其主要缺點(diǎn)包括:準(zhǔn)確性差、健壯性差、缺乏流量分類功能等。有兩個因素決定了基于流量特征的P2P流量識別技術(shù)存在準(zhǔn)確性差的缺點(diǎn)。第一個因素是P2P流量特征不一定唯一:很多流量特征都不是P2P流量唯一的,其他應(yīng)用也有可能表現(xiàn)出這種流量特征來。因此,該方法存在誤判問題,即將不是P2P流量的網(wǎng)絡(luò)流,誤認(rèn)為是P2P流量。第二個因素是網(wǎng)絡(luò)環(huán)境復(fù)雜。例如,由于不對稱路由和丟包、重傳現(xiàn)象的存在,導(dǎo)致無法精確確定流量特征,從而有可能對P2P流量檢測的精確度造成影響。健壯性差是指由于不能處理數(shù)據(jù)包丟失、重組等,因此不能適應(yīng)復(fù)雜的P2P應(yīng)用。缺乏分類功能是指由于傳輸層流量特征一般不能明確指示應(yīng)用層協(xié)議類型,所以這種方法對P2P應(yīng)用分類的能力較弱,而對P2P應(yīng)用進(jìn)行細(xì)分類,對于執(zhí)行P2P流量監(jiān)管措施(如禁封、限速、提供服務(wù)質(zhì)量QoS等)非常重要。
深層數(shù)據(jù)包檢測技術(shù)易于理解、升級方便、維護(hù)簡單,是目前運(yùn)用最普遍的P2P流量識別方法。其主要優(yōu)點(diǎn)包括:準(zhǔn)確性高、健壯性好、具有分類功能等。準(zhǔn)確性高是由于該方法執(zhí)行精確特征匹配,因此極少存在誤判問題。健壯性好是由于可以處理數(shù)據(jù)包丟失、重組等,因此能適應(yīng)復(fù)雜的P2P應(yīng)用。具有分類功能是由于深層數(shù)據(jù)包檢測技術(shù)可以依據(jù)不同P2P應(yīng)用的載荷特征來準(zhǔn)確分類P2P應(yīng)用,因此可以為實施P2P流量監(jiān)管策略提供準(zhǔn)確的信息。
但是,深層數(shù)據(jù)包檢測技術(shù)的缺點(diǎn)包括可擴(kuò)展性差、缺乏加密數(shù)據(jù)分析功能、性能低等。可擴(kuò)展性差是由于該方法對新P2P應(yīng)用的流量識別具有滯后性,即在未升級特征庫前無法檢測新的P2P應(yīng)用,必須找到新應(yīng)用的載荷特征后,才能對該應(yīng)用實施有效檢測。缺乏加密數(shù)據(jù)分析功能是由于P2P載荷加密,隱藏了P2P應(yīng)用的協(xié)議和數(shù)據(jù)特征,因此深層數(shù)據(jù)包檢測技術(shù)對加密P2P應(yīng)用的檢測能力非常有限。性能低是由于需要完成協(xié)議解析還原和特征匹配等操作,因此計算和存儲開銷大,流量檢測算法性能低。載荷特征越復(fù)雜,檢測代價越高,算法性能也越差。各種P2P流量識別算法的比較如表2所示,其中,基于流量特征的P2P流量識別技術(shù)包括端口分析、網(wǎng)絡(luò)直徑分析、節(jié)點(diǎn)角色分析、協(xié)議對分析和地址端口對分析等。

5 結(jié)束語
基于流量特征和基于應(yīng)用數(shù)據(jù)分析技術(shù)是目前主要的P2P流量識別方法。從P2P流量識別的技術(shù)現(xiàn)狀來看,基于應(yīng)用數(shù)據(jù)分析技術(shù)的深層數(shù)據(jù)分析方法DPI由于具有準(zhǔn)確性高、健壯性好、具有分類功能,且過去的P2P系大都未加密,因此是P2P流量識別的主要方法。但是,基于DPI技術(shù)也面臨諸如如何提供檢測算法的性能、如何支持對加密數(shù)據(jù)的分析、如何更新P2P應(yīng)用特征庫等問題。同樣,基于流量特征的P2P流量識別方法雖然具有性能高、可擴(kuò)展性好的有點(diǎn),但由于準(zhǔn)確性差,因此在實際應(yīng)用中也面臨諸多困難。此外,現(xiàn)有方法都以離線數(shù)據(jù)分析為主,缺乏P2P流量的實時識別能力。從本質(zhì)來看,基于流量特征的檢測屬于啟發(fā)式方法,而深層數(shù)據(jù)分析屬于精確匹配方法。如果能夠結(jié)合這兩種方法的優(yōu)點(diǎn),就有可能設(shè)計出一個準(zhǔn)確、高效的P2P流量實時識別算法來。為此,研究啟發(fā)式深層數(shù)據(jù)分析實時識別算法將是進(jìn)一步研究的主要內(nèi)容。
6 參考文獻(xiàn)
[1] Cisco Systems Inc. NetFlow services solutions guide [EB/OL]. http :∥www.cisco.com/, 2007.
[2] Allot Communications Ltd [EB/OL]. http ://www.allot.com, 2007.
[3] CacheLogic [EB/OL]. http ://www.cachelogic.com, 2007.
[4] Verso Technologies [EB/OL]. http ://www.verso.com/, 2007.
[5] SEN S, WANG J. Analyzing peer-to-peer traffic across large networks [J]. IEEE/ACM Transactions on Networking, 2004,12(2):219-232.
[6] CONSTANTINOU F, MAVROMMATIS P Identifying known and unknown peer-to-peer traffic [C]//Proceedings of Fifth IEEE International Symposium on Network Computing and Applications, Jul 24-26,2006, Cambridge, MA, USA. Los Alamitos, CA,USA: IEEE Computer Society, 2006: 93-102.
[7] KARAGIANNIS T, BROIDO A, FALOUTSOS M, et al. Transport layer identification of P2P traffic [C]// Proceedings of the4th ACM SIGCOMM Conference on Internet Measurement, Oct 25-27, 2004, Taormina, Italy. New York, NY, USA: ACM, 2004:121-134.
[8] HORNG Mong-Fong, CHEN Chun-Wei, Chuang Chin-Shun, et al. Identification and analysis of P2P traffic- an example of bit torrent [C]//Proceedings of International Conference on Innovative Computing, Information and Control (ICICIC2006):Vol. 2, Aug 30 - Sep 1, 2006, Beijing, China.2006:266-269.
[9] ZHOU Lijuan, LI Zhitong, LIU Bin. P2P traffic identification by TCP flow analysis [C]// Proceedings of International Workshop on Networking, Architecture, and Storages, Sep,2006, Shenyang, China. Los Alamitos, CA, USA: IEEE Computer Society, 2006.
[10] SUH K, FIGUEIREDO D R, KUROSE J, et al. Characterizing and detecting skype-relayed traffic [C]// Proceedings of IEEE Conference on Computer Communications (INFOCOM 2006), Apr 26, 2006, Barcelona, Spain .2006:1-12.
[11] SEN S, SPATSCHECK O, WANG Dongmei. Accurate, scalable in-network identification of P2P traffic using application signatures [C]//Proceedings of the 13th International Conference on World Wide Web, May 17-20, 2004, New York, NY,USA .New York, NY,USA: ACM, 2004:512-521.
[12] WANG Rui, LIU Yang, YANG Yuexiang, et al. Solving the app-level classification problem of P2P traffic via optimized support vector machines [C]// Proceedings of Sixth International Conference on Intelligent Systems Design and Applications (ISDA '06): Vol 2, Oct 16-18, 2006, Jinan, China. Los Alamitos, CA, USA: IEEE Computer Society, 2006:534-539.
[13] MADHUKAR A, WILLIAMSON C. A longitudinal study of P2P traffic classification [C]// Proceedings of 14th IEEE International Symposium on Modeling, Analysis, and Simulation of Computer and Telecommunication Systems, Sep 11-13, 2006, Monterey, CA, USA. Los Alamitos, CA, USA: IEEE Computer Society, 2006:179-188.
[14] OHZAHATA S, HAGIWARA Y, TERADA M, et al. A traffic identification method and evaluations for a pure P2P application [C]// Proceedings of 2005 Passive and Active Measurement (PAM'05), Boston, MA,USA. Berlin,Germany: Springer-Verlag , 2005:55-68.
[15] KANG H J, KIM M S, HONG J W. Streaming media and multimedia conferencing traffic analysis using payload examination [J]. ETRI Journal, 2004,26(3):203-217.
收稿日期:2007-07-11
作者簡介:
周世杰,電子科技大學(xué)計算機(jī)科學(xué)與工程學(xué)院副教授,博士。主持和參加國家“242”信息安全專題計劃項目、國家自然科學(xué)基金項目、國家“863”計劃項目、四川省科技攻關(guān)項目等近20項。已發(fā)表論文30多篇,其中被SCI/EI檢索10余篇。主要研究領(lǐng)域為對等計算及其安全技術(shù)、網(wǎng)絡(luò)安全技術(shù)、復(fù)雜系統(tǒng)理論和射頻識別技術(shù)等。
秦志光,電子科技大學(xué)計算機(jī)科學(xué)與工程學(xué)院教授,博士生導(dǎo)師,博士,計算機(jī)科學(xué)與工程學(xué)院院長。先后主持和參加國家自然科學(xué)基金項目、國家“863”計劃項目、國家“242”信息安全專題計劃項目、教育部博士點(diǎn)基金項目、軍事預(yù)研項目等30余項。已發(fā)表論文50多篇,其中被SCI/EI檢索20余篇。主要研究領(lǐng)域為網(wǎng)絡(luò)與信息安全理論與技術(shù)、開放系統(tǒng)與中間件技術(shù)、無線通信技術(shù)等。
吳春江,電子科技大學(xué)計算機(jī)科學(xué)與工程學(xué)院碩士研究生,主要研究方向是P2P網(wǎng)絡(luò)仿真。