鄒騰寬 汪鈺穎 吳承榮



摘 要:互聯(lián)網(wǎng)流量分類是識(shí)別網(wǎng)絡(luò)應(yīng)用和分類相應(yīng)流量的過程,這被認(rèn)為是現(xiàn)代網(wǎng)絡(luò)管理和安全系統(tǒng)中最基本的功能。與應(yīng)用相關(guān)的流量分類是網(wǎng)絡(luò)安全的基礎(chǔ)技術(shù)。傳統(tǒng)的流量分類方法包括基于端口的預(yù)測方法和基于有效載荷的深度檢測方法。在目前的網(wǎng)絡(luò)環(huán)境下,傳統(tǒng)的方法存在一些實(shí)際問題,如動(dòng)態(tài)端口和加密應(yīng)用,因此采用基于流量統(tǒng)計(jì)特征的機(jī)器學(xué)習(xí)(ML)技術(shù)來進(jìn)行流量分類識(shí)別。機(jī)器學(xué)習(xí)可以利用提供的流量數(shù)據(jù)進(jìn)行集中自動(dòng)搜索,并描述有用的結(jié)構(gòu)模式,這有助于智能地進(jìn)行流量分類。起初使用樸素貝葉斯方法進(jìn)行網(wǎng)絡(luò)流量分類的識(shí)別和分類, 對(duì)特定流量進(jìn)行實(shí)驗(yàn)時(shí),表現(xiàn)較好,準(zhǔn)確度可達(dá)90%以上,但對(duì)點(diǎn)對(duì)點(diǎn)傳輸網(wǎng)絡(luò)流量(P2P)等流量識(shí)別準(zhǔn)確度僅能達(dá)到50%左右。然后有使用支持向量機(jī)(SVM)和神經(jīng)網(wǎng)絡(luò)(NN)等方法,神經(jīng)網(wǎng)絡(luò)方法使整體網(wǎng)絡(luò)流量的分類準(zhǔn)確度能達(dá)到80%以上。多項(xiàng)研究結(jié)果表明,對(duì)于多種機(jī)器學(xué)習(xí)方法的使用和后續(xù)的改進(jìn),很好地提高了流量分類的準(zhǔn)確性。將各種機(jī)器學(xué)習(xí)的分類技術(shù)應(yīng)用于流量分類是很有意義的研究。
關(guān)鍵詞:流量分類;背景流量;機(jī)器學(xué)習(xí);深度包檢測技術(shù);基于行為模式的分類
中圖分類號(hào): TP393.02
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-9081(2019)03-0802-10
Abstract: Internet traffic classification is a process of identifying network applications and classifying corresponding traffic, which is considered as the most basic function of modern network management and security system. And application-related traffic classification is the basic technology of recent network security. Traditional traffic classification methods include port-based prediction methods and payload-based depth detection methods. In current network environment, there are some practical problems in traditional methods, such as dynamic ports and encryption applications. Therefore, Machine Learning (ML) technology based on traffic statistics is used to classify and identify traffic. Machine learning can realize centralized automatic search by using provided traffic data and describe useful structural patterns, which is helpful to intelligently classify traffic. Initially, Naive Bayes method was used to identify and classify network traffic classification, performing well on specific flows with accuracy over 90%, while on traffic such as peer-to-peer transmission network traffic (P2P) with accuracy only about 50%. Then, methods such as Support Vector Machine (SVM) and Neural Network (NN) were used, and neural network method could make accuracy of overall network classification reach 80% or more. A number of studies show that the use of a variety of machine learning methods and their improvements can improve the accuracy of traffic classification.
Key words: traffic classification; background traffic; Machine Learning (ML); Deep Packet Inspection(DPI) technology; classification based on behavior patterns
0 引言
智能手機(jī),特別是無線保真(Wireless-Fidelity, Wi-Fi)、第三代移動(dòng)通信技術(shù)(3rd-Generation, 3G)、全球微博互聯(lián)接入(Worldwide interoperability for Microwave Access, WiMAX)、通用移動(dòng)通信技術(shù)的長期演進(jìn)(Long Term Evolution, LTE)等智能手機(jī),傳感器和無線技術(shù)的革命使得社交網(wǎng)絡(luò)、M2M通信(Machine to Machine Communications)、物聯(lián)網(wǎng)應(yīng)用、智能城市等先進(jìn)應(yīng)用和服務(wù)成為可能。因此,大量的數(shù)據(jù)在計(jì)算機(jī)網(wǎng)絡(luò)中產(chǎn)生并攜帶,消耗了稀少的無線電和帶寬資源,導(dǎo)致網(wǎng)絡(luò)擁塞或故障。實(shí)際上,每個(gè)流量都不必與用戶活動(dòng)直接相關(guān)。 具體而言,移動(dòng)設(shè)備上的應(yīng)用程序會(huì)自動(dòng)生成大量數(shù)據(jù)以更新其狀態(tài),由此可以引出背景(BackGround, BG)流量。
BG流量由應(yīng)用程序觸發(fā),Huang等[1]在研究屏幕工作時(shí)的流量和屏幕關(guān)閉時(shí)的流量發(fā)現(xiàn),屏幕關(guān)閉時(shí)產(chǎn)生的流量所占比例遠(yuǎn)小于屏幕工作時(shí)的流量,但其流量包含的突發(fā)數(shù)量多得多。屏幕關(guān)閉時(shí)的流量突發(fā)在下行鏈路/上行鏈路分組和數(shù)據(jù)載荷的數(shù)量方面很少。在突發(fā)的下行鏈路平均有效載荷方面,屏幕開啟流量是屏幕流量的7倍。但是屏幕關(guān)閉時(shí)的突發(fā)流量數(shù)量少持續(xù)時(shí)間短但頻率較高,這種行為很可能導(dǎo)致較長的信道占用時(shí)間,并因此導(dǎo)致顯著的電池使用。因此,網(wǎng)絡(luò)運(yùn)營商必須快速檢測和避免BG流量,以節(jié)省網(wǎng)絡(luò)資源,防止由于不必要的過載而導(dǎo)致的網(wǎng)絡(luò)故障。
在實(shí)踐中,如果BG和前臺(tái)(ForeGround, FG)流量(Foreground Traffic,F(xiàn)G流量)被有效分離,網(wǎng)絡(luò)運(yùn)營商可以制定合適的策略來控制網(wǎng)絡(luò)流量,從而提高網(wǎng)絡(luò)服務(wù)的服務(wù)質(zhì)量(Quality of Service, QoS)和體驗(yàn)質(zhì)量(Quality of Experience, QoE)。例如,可以延遲在高峰時(shí)間遞送BG流量以節(jié)省FG流量的網(wǎng)絡(luò)資源以滿足用戶的通信需求。由于前臺(tái)和背景流量分離可以幫助優(yōu)化網(wǎng)絡(luò)管理和管理,尤其是提高網(wǎng)絡(luò)質(zhì)量,因此,從網(wǎng)絡(luò)流量中分離出背景流量成為一個(gè)亟待解決的問題。
互聯(lián)網(wǎng)技術(shù)的發(fā)展,尤其是黑客技術(shù)的更新,導(dǎo)致互聯(lián)網(wǎng)中爬蟲流量等機(jī)器產(chǎn)生的流量越來越多,甚至超過人類用戶正常使用所產(chǎn)生的流量。在2012年的一項(xiàng)互聯(lián)網(wǎng)流量數(shù)據(jù)調(diào)查中就曾顯示,當(dāng)時(shí)51%的互聯(lián)網(wǎng)流量不是用戶操作計(jì)算機(jī)產(chǎn)生的,而是由一些機(jī)器人用戶產(chǎn)生的。到2014年的時(shí)候再次調(diào)查發(fā)現(xiàn),互聯(lián)網(wǎng)中機(jī)器人流量比例已經(jīng)提升到61.5%。
在這種發(fā)展下,應(yīng)用流量的種類和數(shù)量快速增長,互聯(lián)網(wǎng)的網(wǎng)絡(luò)管理和服務(wù)質(zhì)量提供面臨了嚴(yán)峻的挑戰(zhàn)。其中一個(gè)重要的問題就是,如何對(duì)海量的各種應(yīng)用流量進(jìn)行有效地檢測、識(shí)別和分類。
接下來,具體闡述了一些網(wǎng)絡(luò)流量的識(shí)別分類方法和它們的一些優(yōu)點(diǎn)和局限性,并嘗試將其具體應(yīng)用到背景流量的識(shí)別分類上,并對(duì)其實(shí)用性進(jìn)行分析。
1 傳統(tǒng)流量識(shí)別分類方法
查閱了一些相關(guān)文獻(xiàn)后,本文發(fā)現(xiàn)流量識(shí)別分類方法一般存在四種:基于端口的識(shí)別分類、基于深度包檢測的識(shí)別分類、基于行為模式的識(shí)別分類和基于機(jī)器學(xué)習(xí)的識(shí)別分類。
其中比較傳統(tǒng)的流量識(shí)別方法為前三種,這一章著重描述一下前三種方法。
Alberto Dainotti等[2]曾在論文中提及了流量識(shí)別分類研究的發(fā)展歷程。1992年時(shí),RFC(Request For Comments)規(guī)定了標(biāo)準(zhǔn)端口空間,基于端口號(hào)的流量識(shí)別分類技術(shù)開始發(fā)展,并廣泛應(yīng)用?;诙丝谔?hào)的流量識(shí)別存在一些不足,進(jìn)而在1998年,深度報(bào)文檢測(Deep Packet Inspection,DPI)技術(shù)被普遍認(rèn)識(shí)使用。隨著加密數(shù)據(jù)流的增加和端口號(hào)提供信息的有限性,前兩種方法已經(jīng)不能滿足實(shí)際的需求,2005年,Thomas Karagiannis等[3]提出了一種新的方法,將重點(diǎn)放在了傳輸層上,提出了基于傳輸層行為模式分類的方法。同年,隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)被應(yīng)用到流量識(shí)別分類領(lǐng)域。由于該方法使用流統(tǒng)計(jì)特征進(jìn)行流量分類,所以不會(huì)被隨機(jī)端口、數(shù)據(jù)包加密和網(wǎng)絡(luò)地址轉(zhuǎn)換等技術(shù)影響,其分類精度高、適用范圍廣,比前三種網(wǎng)絡(luò)流量分類方法更優(yōu)。圖1簡略表明了流量識(shí)別分類的發(fā)展。
1.1 基于端口的識(shí)別分類
基于端口號(hào)的流量識(shí)別是最早出現(xiàn)的流量識(shí)別分類方法,它的原理十分簡單,它根據(jù)數(shù)據(jù)包包頭中的端口號(hào)來區(qū)分不同的網(wǎng)絡(luò)應(yīng)用類型。在20世紀(jì)90年代初互聯(lián)網(wǎng)應(yīng)用的知名端口空間規(guī)范化后,它可以根據(jù)RFC規(guī)定的端口號(hào)和應(yīng)用協(xié)議的對(duì)應(yīng)關(guān)系進(jìn)行流量識(shí)別分類。知名端口號(hào)范圍是0到1023,例如:應(yīng)用文件傳輸協(xié)議(File Transfer Protocol, FTP)數(shù)據(jù)對(duì)應(yīng)端口為20,應(yīng)用FTP對(duì)應(yīng)端口為21,而80端口則分配給應(yīng)用超文本傳輸協(xié)議(HyperText Transfer Protocol, HTTP)等。
這種方法簡單直接,易于實(shí)現(xiàn),只需要捕獲一條數(shù)據(jù)流的一個(gè)正常數(shù)據(jù)包就可以實(shí)現(xiàn),它只需要在基礎(chǔ)網(wǎng)絡(luò)設(shè)備上采用簡單的規(guī)則即可實(shí)現(xiàn),不需要額外的軟硬件設(shè)備支持,而且在傳統(tǒng)的網(wǎng)絡(luò)環(huán)境下,其識(shí)別效率和準(zhǔn)確率非常高,因此在互聯(lián)網(wǎng)早期發(fā)展時(shí),服務(wù)的端口號(hào)變化不多時(shí),這種方法的復(fù)雜度低、實(shí)用性高。
但是,隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)中大量網(wǎng)絡(luò)應(yīng)用開始使用動(dòng)態(tài)端口技術(shù),不再使用標(biāo)準(zhǔn)端口提供網(wǎng)絡(luò)服務(wù)。例如許多主流的Web 服務(wù)器(Web Server)和FTP 服務(wù)器軟件,都允許用戶手工指定服務(wù)器端口,而不是使用固定端口。新型網(wǎng)絡(luò)應(yīng)用(如對(duì)等網(wǎng)絡(luò)(Peer to Peer,P2P))都普遍采用隨機(jī)端口(端口范圍在1024~65535)技術(shù)進(jìn)行數(shù)據(jù)傳輸,還有隨著防火墻技術(shù)的發(fā)展,大量的Internet應(yīng)用為了防止防火墻的檢測,蓄意使用動(dòng)態(tài)端口和偽裝端口技術(shù),更降低基于端口進(jìn)行流量識(shí)別分類的準(zhǔn)確度。Moore等[4]通過實(shí)驗(yàn)發(fā)現(xiàn),現(xiàn)在基于端口的流量識(shí)別分類在最佳情況下也僅有31%的準(zhǔn)確率。
可以看到,基于端口的識(shí)別分類方法主要是通過已經(jīng)規(guī)定好的端口號(hào)來識(shí)別應(yīng)用程序,而背景流量由很多應(yīng)用程序的背景流組合而成,比較復(fù)雜。單純的基于端口的識(shí)別分類很難運(yùn)用于一般復(fù)雜背景流的識(shí)別上。
但是這并不代表這種方法應(yīng)該就此被淘汰,基于端口的識(shí)別分類方法由于只需要獲取數(shù)據(jù)包的端口號(hào),時(shí)間復(fù)雜度很低,實(shí)現(xiàn)簡單且分類速度快。該方法應(yīng)用在高速網(wǎng)絡(luò)環(huán)境時(shí),能夠快速并很好地識(shí)別一些端口號(hào)對(duì)應(yīng)的應(yīng)用層協(xié)議類別,因此仍然具有一定的實(shí)際使用價(jià)值。因此現(xiàn)有技術(shù)很多將基于端口的識(shí)別和其他技術(shù)(如機(jī)器學(xué)習(xí)等)結(jié)合應(yīng)用,既能保證流量識(shí)別分類的準(zhǔn)確率,又能提高識(shí)別速率,是現(xiàn)有方法的一大趨勢。
1.2 深度包檢測的識(shí)別分類
隨著網(wǎng)絡(luò)的發(fā)展,基于端口的流量識(shí)別分類已經(jīng)不能滿足需要,基于深度包檢測的識(shí)別分類方法應(yīng)時(shí)而生。Moore等[4]在文章中設(shè)計(jì)了一種依靠完整數(shù)據(jù)包有效載荷的分類方法。文章提出的該方法可以看作是一個(gè)迭代過程,其目標(biāo)是十分準(zhǔn)確地得到特定流量的相應(yīng)應(yīng)用程序。將數(shù)據(jù)包分組為數(shù)據(jù)流可以更加高效地處理收集的信息以及獲取必要的上下文,以便對(duì)相應(yīng)流的網(wǎng)絡(luò)應(yīng)用程序進(jìn)行適當(dāng)?shù)淖R(shí)別,因此DPI運(yùn)行在流而不是數(shù)據(jù)包上。文章Moore等[4]采取的第一步是根據(jù)數(shù)據(jù)包的五元組將數(shù)據(jù)包聚合成流。當(dāng)為TCP網(wǎng)絡(luò)數(shù)據(jù)流(Transmission Control Protocol Network data stream )時(shí),額外的語義也可以用來標(biāo)識(shí)流程的開始和結(jié)束時(shí)間。文章的第二步是根據(jù)不同的標(biāo)準(zhǔn)迭代測試流動(dòng)特性,直到獲得十分確定的有關(guān)應(yīng)用程序標(biāo)識(shí)。 這個(gè)過程由9個(gè)不同的識(shí)別子方法組成。DPI技術(shù)是通過底層的抓包工具,抓取多個(gè)數(shù)據(jù)包,并進(jìn)行一定的模式匹配,找到與其特征值相匹配的應(yīng)用程序。接下來介紹一些具有代表性的深度包檢測技術(shù)。
2003年,Dewes等[5]在文章中提出將聊天流量與其他互聯(lián)網(wǎng)流量分開的方法,并展示這種方法的廣泛驗(yàn)證結(jié)果。
將Web聊天流量與其他網(wǎng)絡(luò)流量分開的方法是先大量收集滿足一些一般標(biāo)準(zhǔn)的所有網(wǎng)絡(luò)流量,然后保留所有與本文對(duì)分析得出的特征值相匹配的流,最后忽略已知的非聊天流量。
2004年,Subhabrata Sen等[6]在文章中提出了一種通過應(yīng)用程序級(jí)特征識(shí)別P2P應(yīng)用程序流的有效方法。首先通過檢查一些可用的文檔和數(shù)據(jù)包級(jí)別的痕跡來識(shí)別應(yīng)用程序級(jí)別簽名;然后,利用已識(shí)別的簽名開發(fā)在線過濾器,即使在高速網(wǎng)絡(luò)鏈路上也可以高效準(zhǔn)確地跟蹤P2P流量。
基于深度包檢測的識(shí)別準(zhǔn)確率高,且可識(shí)別一定數(shù)目的協(xié)議,而且這種方法對(duì)絕大部分網(wǎng)絡(luò)流量(特別是P2P)都很有效。但同時(shí)它也有一定的局限性,理論上,DPI技術(shù)實(shí)現(xiàn)的前提是數(shù)據(jù)包載荷部分可見且特征值已知。當(dāng)載荷部分進(jìn)行加密時(shí),DPI技術(shù)將失去作用,隨著電子商務(wù)等業(yè)務(wù)的發(fā)展,現(xiàn)在的一些主流客戶端都采取了載荷加密技術(shù),大大降低了DPI技術(shù)的準(zhǔn)確率;DPI技術(shù)無法識(shí)別未知特征值,當(dāng)網(wǎng)絡(luò)應(yīng)用的特征值發(fā)生變化時(shí),系統(tǒng)必須及時(shí)更新特征值列表,加大復(fù)雜度。另外,在使用DPI技術(shù)進(jìn)行識(shí)別時(shí),在提取流特征值時(shí),需要捕獲和拷貝數(shù)據(jù)包,要消耗大量的資源;在通過特征值找到對(duì)應(yīng)的應(yīng)用程序時(shí),要用到較復(fù)雜的匹配算法,加大DPI技術(shù)的復(fù)雜度。
對(duì)于背景流,也可以運(yùn)用DPI技術(shù)進(jìn)行特征值提取并進(jìn)行后續(xù)的識(shí)別分類。康寧[7]在進(jìn)行網(wǎng)絡(luò)協(xié)議(Hyper Text Transfer Protocol over Secure socket layer, HTTPS)網(wǎng)頁流量的指紋提取和識(shí)別技術(shù)研究時(shí),為了檢測加入背景流后的識(shí)別效果,在文章中加入了背景流的指紋識(shí)別實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,將背景流作為一個(gè)類別進(jìn)行特征值識(shí)別可行性不高,原因在于背景流變化較大,要更新特征值數(shù)據(jù)消耗過大,同時(shí)背景流的規(guī)模較大,導(dǎo)致識(shí)別分類的復(fù)雜度過大。實(shí)驗(yàn)結(jié)果表明,在背景流較為復(fù)雜的情況下,單純的基于DPI的流量識(shí)別分類技術(shù)并不適用于背景流。但隨著互聯(lián)網(wǎng)應(yīng)用流量的發(fā)展,DPI技術(shù)也逐漸朝著智能化方向發(fā)展,接下來介紹幾種基于DPI技術(shù)的一些后續(xù)技術(shù),可以克服DPI技術(shù)的缺點(diǎn),提高流量識(shí)別的準(zhǔn)確度。
一種方法是運(yùn)用深度流檢測(Deep Flow Inspection, DFI )技術(shù)主要是為了彌補(bǔ)克服DPI 技術(shù)對(duì)加密數(shù)據(jù)流量識(shí)別的不足,DFI技術(shù)即深度數(shù)據(jù)流檢測技術(shù),是一種基于流量行為的應(yīng)用識(shí)別技術(shù),即利用不同的應(yīng)用程序的流的不同狀態(tài)來進(jìn)行流量識(shí)別。它假設(shè)不同應(yīng)用會(huì)有其應(yīng)用特有的流量統(tǒng)計(jì)特性,與DPI技術(shù)相比,它處理時(shí)間較快,維護(hù)成本較低,識(shí)別方法比較籠統(tǒng),準(zhǔn)確度不如DPI,但不受載荷加密技術(shù)的影響。劉佳雄[8]設(shè)計(jì)了一種基于DPI 技術(shù)和DFI 技術(shù)相結(jié)合的網(wǎng)絡(luò)流量識(shí)別方案,并且將此方案運(yùn)用到了實(shí)踐中,克服了現(xiàn)網(wǎng)中變端口P2P 網(wǎng)絡(luò)流量和加密流量難以識(shí)別的困難。胡慶安[9]也結(jié)合了DPI技術(shù)實(shí)時(shí)性好、準(zhǔn)確率高和DFI技術(shù)可對(duì)加密協(xié)議和未知流量進(jìn)行識(shí)別的優(yōu)點(diǎn),提出一種基于雙重特征的協(xié)議識(shí)別方法。
另一種方法是在降低匹配算法的復(fù)雜度方面著手。在傳統(tǒng)深度包檢測匹配引擎中,正則表達(dá)式規(guī)則采用不確定有窮自動(dòng)機(jī)(Nondeterministic Finite Automata, NFA)模式來實(shí)現(xiàn),匹配時(shí)存在著大量的回溯現(xiàn)象,因而匹配速度較低。陳傳通[10]提出可以使用確定有窮自動(dòng)機(jī)(Deterministic Finite Automaton, DFA)方式來實(shí)現(xiàn)正則表達(dá)式規(guī)則。該方法不存在回溯現(xiàn)象且可以通過一次掃描匹配多條正則表達(dá)式規(guī)則,但會(huì)因?yàn)橐?guī)則數(shù)量增多導(dǎo)致引擎規(guī)模太大無法實(shí)現(xiàn)。因此論文中提出了對(duì)網(wǎng)絡(luò)協(xié)議加權(quán)設(shè)置優(yōu)先級(jí)的識(shí)別方法,并提出了具體的加權(quán)分組算法。該方法對(duì)于高優(yōu)先級(jí)的網(wǎng)絡(luò)協(xié)議組,采用DFA的形式,對(duì)于低優(yōu)先級(jí)的協(xié)議組采用混合有窮自動(dòng)機(jī)(Hybrid Finite Automata, Hybrid.FA)的方式來實(shí)現(xiàn)。該算法相比于傳統(tǒng)識(shí)別引擎,匹配速度可以提高29倍左右。DPI技術(shù)傳統(tǒng)的匹配算法有KMP算法(Knuth-Morris-Pratt Algorithm)、BM字符串搜索算法(BM String Searching Algorithm)、WM(Wu-Manber)算法和AC(Aho-Corasick)自動(dòng)機(jī)算法。劉瀧[11]在論文中對(duì)各種算法進(jìn)行了比對(duì)研究,提出了BMF(BM Fast)算法;然后設(shè)計(jì)了基于Hadoop平臺(tái)DPI技術(shù)的流量識(shí)別,利用Hadoop平臺(tái)處理大規(guī)模數(shù)據(jù)流量的優(yōu)勢,將DPI技術(shù)與MapReduce進(jìn)行結(jié)合,設(shè)計(jì)了MapReduceBoyer-MooreFast算法。
1.3 BLINC(BLINd Classification)
單純的基于DPI技術(shù)的流量識(shí)別分類局限性比較大,不能對(duì)加密的數(shù)據(jù)流進(jìn)行有效的識(shí)別。隨著網(wǎng)絡(luò)中加密應(yīng)用的增加,基于行為模式的流量識(shí)別技術(shù)開始發(fā)展。BLINC方法最早由Karagiannis等[3]在論文中提及。文章提出的方法不能訪問數(shù)據(jù)包有效載荷,不知道端口號(hào),以及除了當(dāng)前流量收集器提供的額外信息。與流量分類領(lǐng)域提出的其他方法相比,BLINC實(shí)現(xiàn)了一個(gè)相當(dāng)不同的理念。 主要區(qū)別如下:
1)文章主張分類方法的重點(diǎn)從流向主機(jī)轉(zhuǎn)移時(shí),可以積累足夠的信息以消除每個(gè)主機(jī)在不同流中的角色,從而識(shí)別特定應(yīng)用。
2)該方法運(yùn)行在流量記錄上,不需要關(guān)于單個(gè)數(shù)據(jù)包的時(shí)間或大小的信息。 方法的輸入可能是當(dāng)前部署的設(shè)備收集的流量記錄統(tǒng)計(jì)。
3)對(duì)擁塞或路徑變化等網(wǎng)絡(luò)動(dòng)態(tài)不敏感,這可能會(huì)影響很大程度上依賴流中數(shù)據(jù)包之間的到達(dá)間隔時(shí)間的統(tǒng)計(jì)方法。
4)每一種應(yīng)用對(duì)應(yīng)的流量都有其特定的行為模式,因此基于行為模式的識(shí)別準(zhǔn)確率較高,但這種方法只適用于特定應(yīng)用的數(shù)據(jù)流管理。背景流量雖然沒有對(duì)應(yīng)的應(yīng)用程序,但它也有其行為模式,根據(jù)其行為模式直接可以識(shí)別和分類出背景流量。例如下文中就利用已驗(yàn)證的背景流的周期性對(duì)背景流進(jìn)行識(shí)別分析。
1.3.1 PCA(Period Candidate Array)
通過Minh等[12]對(duì)網(wǎng)絡(luò)流量的觀察表明,應(yīng)用程序定期更新其與內(nèi)容服務(wù)器的狀態(tài),而在用戶活動(dòng)中很少看到嚴(yán)格的周期性。由此得出:如果一個(gè)單獨(dú)的移動(dòng)設(shè)備產(chǎn)生的針對(duì)一個(gè)服務(wù)器的特定服務(wù)或數(shù)據(jù)的所產(chǎn)生的TCP流是周期性的,那么它將是BG流量。利用這一特性,該論文提出了一個(gè)新穎的方法PCA。PCA系統(tǒng)部署在由互聯(lián)網(wǎng)服務(wù)提供商(Internet Service Provider,ISP)或網(wǎng)絡(luò)運(yùn)營商管理的網(wǎng)絡(luò)邊緣。它捕獲流量并檢測流量是否是BG流量。PCA方法通過分析流量的周期性來解決BG流量檢測問題。對(duì)實(shí)際流量(TCP流)的觀察表明,流量通常很長而且稀疏。所提出的PCA方法通過利用流稀疏性降低了計(jì)算成本。通過僅提取和處理與周期性分析相關(guān)的發(fā)生位置形成周期候選隊(duì)列來壓縮長而稀疏的流。在此基礎(chǔ)上,論文考慮了網(wǎng)絡(luò)延遲的影響,利用了改進(jìn)的自相關(guān)函數(shù)來進(jìn)行周期候選隊(duì)列的周期性檢測。
1.3.2 PDM(Periodicity Detection Map)
Minh[13]在PCA研究的基礎(chǔ)上提出了PDM方法。 PDM的方法原理與PCA相同,都是利用BG流量的周期性,所以大致的步驟也類似。首先它也是考慮到TCP連接流的周期性和基于自動(dòng)相關(guān)(AC)和投影的方法,在基于流是稀疏流這一現(xiàn)象提出了PDM的方法。
不同的是,PDM是一個(gè)將時(shí)間序列T轉(zhuǎn)換為特定數(shù)據(jù)結(jié)構(gòu)的映射,該結(jié)構(gòu)對(duì)于快速識(shí)別T中的周期性非常有用,可以有效地用于快速檢測給定序列T的最大潛在周期。同時(shí),由于不是每個(gè)BG業(yè)務(wù)流量都是周期性的,PDM可能無法檢測到非周期性BG流量。所以該論文接下來利用機(jī)器學(xué)習(xí)(Machine Learning, ML)模型分類非周期性流量,通過PDM方法(通過周期性分析)檢測到的BG流量的統(tǒng)計(jì)數(shù)據(jù)用于訓(xùn)練ML模型,然后用它來分類非周期性的流量。
1.3.3 ICA(Independent Component Analysis)
Mekky等[14]研究目的是為了進(jìn)行惡意軟件分類,但實(shí)際上,惡意軟件流量(惡意軟件信號(hào))與其他合法流量(背景信號(hào))混合在一起。 因此,分類器的有效性可能會(huì)受到阻礙,因?yàn)樗^察到的流量是混合的。因此建議應(yīng)用信號(hào)分解,以便將觀察到的流量分解為惡意軟件流量和背景流量兩個(gè)組件,然后再刪除背景流量,分類技術(shù)可有效應(yīng)用于惡意軟件流量。
ICA是一種假設(shè)將獨(dú)立性的多元信號(hào)分解為附加分量的方法,它用于將惡意軟件流量與背景流量分離。ICA算法依靠獨(dú)立性來恢復(fù)混合流量中的原始信號(hào)。文中提出了一個(gè)ICA分解器,用于從網(wǎng)絡(luò)流量中提取并移除背景流量。假設(shè)m個(gè)獨(dú)立的源信號(hào)S=[S1,S2,…,Sm]T。觀察混合物X=[X1,X2,…,Xm]T由X=A×S給出,其中A被稱為混合矩陣。ICA的目標(biāo)是找到一個(gè)非混合矩陣W(約等于A的-1次方),使得Y=W×X約等于S,這將是S的最佳近似值??梢钥吹?,兩種基于周期性分析的方法PCA、PDM,可以有效和高效地檢測BG流量。當(dāng)分析的數(shù)據(jù)稀疏時(shí),PCA將傳統(tǒng)方法中的O(n2 log n)的復(fù)雜度降低至O(n)。PCA還解決了需要大量計(jì)算時(shí)間和相關(guān)歷史數(shù)據(jù)的ML方法中的固有問題。另外,PCA在用延長周期概念分析由延遲構(gòu)成的網(wǎng)絡(luò)流量方面起到了作用。PDM方法有效地減少了計(jì)算空間,PDM還可以靈活地判斷流量是否是周期性。因此,當(dāng)分析的數(shù)據(jù)很長且稀疏時(shí),PDM同樣將傳統(tǒng)方法中的O(n2 log n)的復(fù)雜度降低至O(n)。這說明基于行為模式的識(shí)別可以靈活運(yùn)用到背景流的識(shí)別上來,但這個(gè)方法還是存在一定的局限性,背景流的周期性并不總是確定的,并不是每一個(gè)背景流都是周期性的,背景流的其他特征還需要進(jìn)一步的研究。為了對(duì)背景流進(jìn)行更加精確的分類和識(shí)別,接下來本文介紹基于機(jī)器學(xué)習(xí)的識(shí)別和分類方法。
2 基于機(jī)器學(xué)習(xí)的識(shí)別分類
隨著網(wǎng)絡(luò)的發(fā)展,產(chǎn)生的網(wǎng)絡(luò)流量的種類越來越多,數(shù)據(jù)量也越來越龐大,傳統(tǒng)方式已經(jīng)無法勝任對(duì)數(shù)據(jù)流量進(jìn)行合理的分類工作,這導(dǎo)致了數(shù)據(jù)沖突、資源耗費(fèi)、通信延遲、通信效率不斷降低等一系列問題。因此,有研究人員將機(jī)器學(xué)習(xí)機(jī)制引入到網(wǎng)絡(luò)流量分類工作中,對(duì)網(wǎng)絡(luò)流量中一些帶有特征的流量信息進(jìn)行識(shí)別分類,以提高流量分類的準(zhǔn)確性和快捷性,且從研究成果來看,這些方法的效果都很好,具體的效果在以下章節(jié)中會(huì)詳細(xì)說明。
在過去的十年中,人們對(duì)有關(guān)機(jī)器學(xué)習(xí)技術(shù)在流量分類中的應(yīng)用進(jìn)行了大量研究。這些研究工作運(yùn)用的主要方法可以分為監(jiān)督方法或無監(jiān)督方法。
2.1 數(shù)據(jù)及采集方法
在2005年,機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于網(wǎng)絡(luò)流量分類的高峰時(shí)期,Moore等[15]為了研究應(yīng)用樸素貝葉斯技術(shù)對(duì)基于流量統(tǒng)計(jì)特征的網(wǎng)絡(luò)流量進(jìn)行分類的方法,于2005年在對(duì)流量統(tǒng)計(jì)特征全面描述的基礎(chǔ)上,制作了一個(gè)公開的數(shù)據(jù)集。這個(gè)數(shù)據(jù)集的制作方法是研究人員提出了一種網(wǎng)絡(luò)監(jiān)控架構(gòu),該架構(gòu)能夠與1Gb/s全雙工網(wǎng)絡(luò)連接。執(zhí)行多協(xié)議分析; 從線路捕獲所有數(shù)據(jù)。 應(yīng)用程序、傳輸和網(wǎng)絡(luò)協(xié)議的集成分析使得它們的交互可以被分析和研究。 此外,傳輸和網(wǎng)絡(luò)狀態(tài)的關(guān)聯(lián)使得實(shí)驗(yàn)不必使用很大的數(shù)據(jù)進(jìn)行分析。
數(shù)據(jù)集分類如表1所示。
2009年,Este等[16]在研究支持向量機(jī)(Support Vector Machine, SVM)對(duì)互聯(lián)網(wǎng) TCP 流量進(jìn)行識(shí)別的實(shí)驗(yàn)中采用了3個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。
2.1.1 UNIBS數(shù)據(jù)集
此集的數(shù)據(jù)包是在Faculty網(wǎng)絡(luò)的邊界路由器上收集的。由于研究人員對(duì)此路由器具有完全監(jiān)視器訪問權(quán)限,因此捕獲了每個(gè)數(shù)據(jù)包的前400個(gè)字節(jié)??梢詰?yīng)用模式匹配機(jī)制來評(píng)估生成每個(gè)TCP流的實(shí)際應(yīng)用程序,在某些情況下添加手動(dòng)檢查。由于這一點(diǎn),研究人員認(rèn)為從UNIBS得到的訓(xùn)練和評(píng)估集相對(duì)于預(yù)分類信息是相對(duì)可靠的,即,獨(dú)立于分類器知道哪個(gè)應(yīng)用產(chǎn)生了每個(gè)流。
訓(xùn)練和評(píng)估集都由屬于不同應(yīng)用類型的協(xié)議類組成:Web瀏覽、郵件服務(wù)、P2P和交互。選擇它們是因?yàn)樗鼈冐?fù)責(zé)產(chǎn)生大部分流量,并且因?yàn)樗鼈兊亩鄻有?,它們?cè)试S驗(yàn)證基于SVM的技術(shù)的一般適用性。此外,它們可以通過模式匹配方法輕松識(shí)別,并具有令人滿意的準(zhǔn)確度和精度。
每個(gè)類只有400個(gè)向量來自訓(xùn)練集,并且在捕獲時(shí)間接近的流之間存在明顯的相關(guān)性,即它們通常由相同的源生成。由于需要對(duì)協(xié)議特征進(jìn)行完整描述,因此研究人員收集了更大的流量并為訓(xùn)練階段提取了一個(gè)小的隨機(jī)子集。在訓(xùn)練集中插入了表2中列出的前6個(gè)協(xié)議。在每個(gè)協(xié)議名稱旁邊展示了它生成的流的百分比以及它已傳輸?shù)淖止?jié)部分;在最后一列中,僅考慮與應(yīng)用層對(duì)應(yīng)的字節(jié)的百分比。
除了上面提到的6個(gè)協(xié)議之外,研究人員還在評(píng)估集的表格中包含了其他3類流程,這些類用于驗(yàn)證分類器識(shí)別與訓(xùn)練階段使用的協(xié)議不同的協(xié)議的能力。研究人員負(fù)責(zé)從兩個(gè)不同的連續(xù)時(shí)間框架中收集的痕跡中選擇訓(xùn)練和評(píng)估集。
2.1.2 LBNL數(shù)據(jù)集
LBNL流量是在勞倫斯伯克利國家實(shí)驗(yàn)室收集的,并使用工具tcpmkpub進(jìn)行匿名化。
數(shù)據(jù)包是在LBNL網(wǎng)絡(luò)的兩個(gè)中央路由器上收集的,它們包含從數(shù)千個(gè)內(nèi)部主機(jī)生成的流量。
測量系統(tǒng)允許同時(shí)存儲(chǔ)20個(gè)路由器端口中僅有兩個(gè)的流量。因此,周期性地被監(jiān)視子網(wǎng)發(fā)生變化,并且所得到的跟蹤依次來自子網(wǎng)的連續(xù)。此測量過程會(huì)影響LBNL流量的特性,因?yàn)閷?duì)于每個(gè)應(yīng)用協(xié)議,流的數(shù)量及其統(tǒng)計(jì)屬性可能取決于監(jiān)控的子網(wǎng)。
測量系統(tǒng)允許同時(shí)存儲(chǔ)20個(gè)路由器端口中的2個(gè)端口的流量。因此,被監(jiān)視的子網(wǎng)會(huì)周期性地發(fā)生變化,所以得到的跟蹤流來自不同的子網(wǎng)。此測量過程會(huì)影響LBNL流量的特性,因?yàn)閷?duì)于每個(gè)應(yīng)用協(xié)議,跟蹤流的數(shù)量及其同技術(shù)性可能取決于受監(jiān)控的子網(wǎng)。
協(xié)議的選擇與UNIBS實(shí)驗(yàn)不同,它包括表3中前6個(gè)類的訓(xùn)練階段。在評(píng)估集中,還考慮了表中顯示的其余8個(gè)類。
由于需要盡可能多的流來表征給定的協(xié)議,因此研究人員分析了這些流量以確定最常見的應(yīng)用程序,并將它們分組以形成表中報(bào)告的組合。
2.1.3 CAIDA數(shù)據(jù)集
CAIDA數(shù)據(jù)集包含2002年8月14日沿OC48鏈路在AIX(AMES Internet Exchange)上3h內(nèi)收集的流量。使用從第一個(gè)小時(shí)(對(duì)應(yīng)于16:15—17:00 UTC的時(shí)間間隔)提取的流來構(gòu)建訓(xùn)練集,第三個(gè)小時(shí)(18:00—18:10 UTC)提取的流量創(chuàng)建評(píng)估集。
使用CAIDA數(shù)據(jù)集來驗(yàn)證分類器對(duì)骨干鏈路的適用性,其中高傳輸速率比較常見,并且流量源比本地網(wǎng)絡(luò)更具有異構(gòu)性。
用于選擇協(xié)議的過程與LBNL數(shù)據(jù)集所遵循的過程相同。訓(xùn)練集中使用的流程對(duì)應(yīng)于表4中顯示的前6個(gè)類別。在評(píng)估集中包括其余5個(gè)協(xié)議。
2.2 有監(jiān)督方法
有監(jiān)督的流量分類方法具有分析監(jiān)督訓(xùn)練數(shù)據(jù),并產(chǎn)生推斷的功能,可以預(yù)測任何測試流程的輸出類別。在有監(jiān)督的流量分類中,充分的監(jiān)督訓(xùn)練數(shù)據(jù)是一個(gè)普遍的假設(shè)。
2.2.1 樸素貝葉斯方法
為了解決基于有效載荷的流量分類所帶來的問題,如加密應(yīng)用和用戶數(shù)據(jù)隱私,Moore等[15]應(yīng)用有監(jiān)督的樸素貝葉斯技術(shù)對(duì)基于流量統(tǒng)計(jì)特征的網(wǎng)絡(luò)流量進(jìn)行分類。所使用的數(shù)據(jù)集中的流量流被手動(dòng)分類(基于流量內(nèi)容),從而可以進(jìn)行準(zhǔn)確的評(píng)估。248個(gè)基于全流量的特征用于訓(xùn)練分類器,這些特征中有基本的統(tǒng)計(jì)特征,例如最大、最小、平均包大小,最大、最小、平均包到達(dá)時(shí)間間隔等,也有復(fù)雜的衍生特征和變換特征,例如對(duì)包大小序列作傅里葉變換等。將用于互聯(lián)網(wǎng)應(yīng)用的所選流量分組為不同的類別以用于分類,例如,Web 訪問流量(WWW)、郵件流量(MAIL)、大塊文件傳輸流量(BULK)、 網(wǎng)絡(luò)服務(wù)流量(SERV)、數(shù)據(jù)庫流量(DB)、P2P流量(P2P)、攻擊流量(ATT) 和互聯(lián)網(wǎng)多媒體流量(MMEDIA)等8種重要互聯(lián)網(wǎng)流量。為了評(píng)估分類器的性能,研究使用Accuracy和Trust(相當(dāng)于Recall)作為評(píng)估指標(biāo)。結(jié)果表明,使用簡單的樸素貝葉斯技術(shù),使用整個(gè)流動(dòng)特征群體,可以在分類中獲得大約65%的流動(dòng)精度。使用具有核密度估計(jì)的樸素貝葉斯(Naive Bayes using Kernel density estimation, NBK)和相關(guān)性快速過濾特征選擇(Fast Correlation Based Filter, FCBF)的方法對(duì)分類器進(jìn)行了兩次改進(jìn)。這些改進(jìn)有助于減少特征空間,并將對(duì)于流量的分類器性能提高到優(yōu)于總體精度的95%以上。憑借最優(yōu)的組合技術(shù),單個(gè)應(yīng)用類別的準(zhǔn)確率分別為:Web訪問流量98%,批量數(shù)據(jù)傳輸90%,服務(wù)流量約44%和P2P 55%。在另一實(shí)驗(yàn)中Moore等又應(yīng)用貝葉斯神經(jīng)網(wǎng)絡(luò)方法擴(kuò)展了這項(xiàng)工作。已經(jīng)證明,與樸素貝葉斯技術(shù)相比,精度進(jìn)一步提高。貝葉斯訓(xùn)練的神經(jīng)網(wǎng)絡(luò)方法能夠?qū)ν惶爝M(jìn)行訓(xùn)練和測試的數(shù)據(jù)進(jìn)行高達(dá)99%的準(zhǔn)確率分類,對(duì)相隔8個(gè)月的數(shù)據(jù)進(jìn)行訓(xùn)練和測試的準(zhǔn)確率達(dá)到95%。
Williams等[17]提供了ML流量分類的性能方面的見解。著眼于許多監(jiān)督ML算法:具有離散化的樸素貝葉斯(Naive Bayes using Discretization, NBD),具有核密度估計(jì)的樸素貝葉斯(NBK),C4.5決策樹決策樹,貝葉斯網(wǎng)絡(luò)和樸素貝葉斯樹。這些算法的計(jì)算性能根據(jù)分類速度(每秒分類數(shù)量)和構(gòu)建相關(guān)分類模型所花費(fèi)的時(shí)間進(jìn)行評(píng)估。
結(jié)果表明,大多數(shù)算法通過22個(gè)(選出的)特征實(shí)現(xiàn)了高流量精度(除了NBK算法達(dá)到的精度只有80%以上,其余算法均達(dá)到95%以上的精度)。之后使用8個(gè)基于關(guān)聯(lián)的特征選擇(Correlation-based Feature Selection, CFS)和9個(gè)基于一致性的特征選擇(CONsistency-based feature selection, CON)減少特征集合,通過交叉驗(yàn)證獲得的結(jié)果與使用全特征集合相比,總體精度僅顯示出極小的變化。使用CON方法減少特征集,NBD和NBK的準(zhǔn)確度最多降低2%~2.5%。
盡管分類準(zhǔn)確性相似,但各分類方法在計(jì)算性能方面表現(xiàn)出顯著差異。在使用任何不同的特征集時(shí),C4.5 決策樹算法都被認(rèn)為是最快的算法。按照分類速度降序排列的算法是:C4.5 決策樹、離散化的樸素貝葉斯(NBD)、貝葉斯網(wǎng)絡(luò)、樸素貝葉斯樹、核密度估計(jì)的樸素貝葉斯(NBK)。
就模型構(gòu)建時(shí)間而言,樸素貝葉斯樹需要比其余算法長得多的時(shí)間。按照模型構(gòu)建時(shí)間降序排列的算法是:樸素貝葉斯樹、C4.5 決策樹、貝葉斯網(wǎng)絡(luò)、離散化的樸素貝葉斯(NBD)、核密度估計(jì)的樸素貝葉斯(NBK)。
結(jié)果還表明,對(duì)于大多數(shù)算法來說,特征數(shù)量的減少大大提高了算法在模型構(gòu)建時(shí)間和分類速度方面的性能。
2.2.2 支持向量機(jī)(SVM)
SVM 作為一種經(jīng)典的 ML 模型,在流量識(shí)別研究中非常受歡迎,許多研究者力圖使用 SVM 構(gòu)建高效的流量識(shí)別模型。Este 等采用 SVM 對(duì)互聯(lián)網(wǎng) TCP 流量進(jìn)行識(shí)別,在這項(xiàng)研究中, 展示了一種SVM單分類方法的應(yīng)用,用于分類網(wǎng)絡(luò)流量和檢測離群值數(shù)據(jù)包。分類器集成了SVM的“一對(duì)多”方法,在需要時(shí)解決多類問題。同時(shí)引入了一個(gè)簡單的優(yōu)化程序來為使用的數(shù)據(jù)集導(dǎo)出理想的SVM參數(shù),從而導(dǎo)出一個(gè)訓(xùn)練過程。最后分析了基于SVM的分類器應(yīng)用于三條數(shù)據(jù)軌跡的結(jié)果,其中兩條來自大型局域網(wǎng),另一條來自互聯(lián)網(wǎng)主網(wǎng)。
將這一技術(shù)應(yīng)用于三種不同的數(shù)據(jù)集UNIBS、LBNL和CAIDA。在幾乎所有情況下,分類器的準(zhǔn)確性都非常好,大部分都能達(dá)到90%甚至95%以上,證明SVM 在流量識(shí)別中可以獲得相當(dāng)高的精度。有些情況下分類器的性能可能不是很好,例如來自CAIDA數(shù)據(jù)集的包含未知協(xié)議的類,使用基于SVM的分類器對(duì)CAIDA數(shù)據(jù)集進(jìn)行分類只能達(dá)到86.5%的效果。本文認(rèn)為,這些問題中的大多數(shù)歸因于(基于端口的)預(yù)分類器的不可靠性。而后2011年,文獻(xiàn)[18]中他們進(jìn)一步將 SVM 應(yīng)用到在線流量識(shí)別中。2014年,Groléat 等[19-20]針對(duì)高速網(wǎng)絡(luò)環(huán)境,結(jié)合 FPGA 技術(shù),對(duì)基于 SVM 的流量識(shí)別模型進(jìn)行硬件加速,使其適應(yīng)真實(shí)的主網(wǎng)環(huán)境。
2017年,Kong等[21]利用SVM在多分類問題中的優(yōu)秀表現(xiàn),將其應(yīng)用在流量識(shí)別系統(tǒng)中,研究出了異常流量識(shí)別系統(tǒng)(ATIS),可以對(duì)多種攻擊流量應(yīng)用進(jìn)行分類和識(shí)別。He[22]提出一種基于特征加權(quán)的支持向量機(jī)(Support Vector Machine with Feature Weighted-Degree, FWD-SVM)的網(wǎng)絡(luò)流量分類方法。通過對(duì)大規(guī)模樣本集上流量分類實(shí)驗(yàn)的分析比較,此方法可以減少樣本分布的影響,提高計(jì)算速度,提高網(wǎng)絡(luò)流量分類的準(zhǔn)確性,同時(shí)還具有很好的泛化能力。在表5中給出了,F(xiàn)WD-SVM在大規(guī)模樣本集上進(jìn)行流量分類實(shí)驗(yàn)的結(jié)果與其他四種經(jīng)典分類方法的準(zhǔn)確性比較。
2.2.3 神經(jīng)網(wǎng)絡(luò)(NN)
如上文提到的Moore 等在前期研究的基礎(chǔ)上,通過采用貝葉斯神經(jīng)網(wǎng)絡(luò)的方法對(duì)他們所收集的數(shù)據(jù)集進(jìn)行流量識(shí)別,實(shí)驗(yàn)所得出的結(jié)果比之前僅使用樸素貝葉斯分類器的方法在識(shí)別精度上面得到了很大的提高。
Raahemi 等[23-25]也較早致力于用人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)進(jìn)行 P2P 流量識(shí)別。他對(duì)Moore的方法提出了一些分析,他認(rèn)為雖然樸素貝葉斯方法很有前途,但由于涉及太多的鑒別器,所以存在一個(gè)關(guān)于該方法的可擴(kuò)展性的問題,并且準(zhǔn)備數(shù)據(jù)(具有許多屬性)和分配業(yè)務(wù)流到預(yù)定義的類別需要很多時(shí)間。因此他提出采用監(jiān)督機(jī)器學(xué)習(xí)技術(shù)中,以多層感知器神經(jīng)網(wǎng)絡(luò)作為分類器對(duì)網(wǎng)絡(luò)流量進(jìn)行分類。 對(duì)數(shù)據(jù)進(jìn)行預(yù)處理并標(biāo)記數(shù)據(jù),并在訓(xùn)練數(shù)據(jù)集中使用不同比率的P2P /非P2P的不同屬性的組合來構(gòu)建若干模型。結(jié)論為觀察到應(yīng)用的神經(jīng)網(wǎng)絡(luò)模型需要不斷更新以確保檢測到新的同伴群體。而后Raahemi等又發(fā)現(xiàn)上述工作中采用的神經(jīng)網(wǎng)絡(luò)是一個(gè)非增量分類器,并不總是可以持續(xù)更新非增量算法。所以他們又改進(jìn)為應(yīng)用增量神經(jīng)網(wǎng)絡(luò)和Fuzzy ARTMAP來對(duì)互聯(lián)網(wǎng)流量進(jìn)行分類。在校園網(wǎng)關(guān)上捕獲互聯(lián)網(wǎng)流量,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和標(biāo)記,并針對(duì)不同規(guī)模的培訓(xùn)/測試數(shù)據(jù)集建立模糊ARTMAP神經(jīng)網(wǎng)絡(luò)分類模型,分別用于增量學(xué)習(xí)和非增量學(xué)習(xí)模式。用靈敏度、特異性和準(zhǔn)確性來衡量分類器的性能。實(shí)驗(yàn)結(jié)果表明當(dāng)訓(xùn)練集的大小相對(duì)較小時(shí)(大約4000次或更少),增量學(xué)習(xí)的性能比非增量學(xué)習(xí)的性能要好。當(dāng)訓(xùn)練集的大小增加時(shí),增量學(xué)習(xí)的性能優(yōu)勢消失。
這一觀察結(jié)果突出了在線流數(shù)據(jù)挖掘任務(wù)的實(shí)際用法,例如互聯(lián)網(wǎng)中對(duì)等流量的分類。在這種類型的應(yīng)用程序中,通常對(duì)可用內(nèi)存量有限制。因此,需要具有需要小規(guī)模訓(xùn)練數(shù)據(jù)的分類算法。實(shí)驗(yàn)結(jié)果證實(shí),當(dāng)訓(xùn)練樣本很小時(shí),增量學(xué)習(xí)算法,尤其是ARTMAP神經(jīng)網(wǎng)絡(luò),表現(xiàn)比非增量學(xué)習(xí)算法好得多?;谶@種觀察,建議使用增量學(xué)習(xí)方法來分類P2P流量。該算法,例如Fuzzy ARTMAP神經(jīng)網(wǎng)絡(luò),可以在路由器中實(shí)現(xiàn)(可能在最終用戶的訪問接口上),作為后臺(tái)進(jìn)程連續(xù)運(yùn)行。
除上述方法以外,還有各種類型的人工神經(jīng)網(wǎng)絡(luò)都被應(yīng)用到網(wǎng)絡(luò)流量識(shí)別中,例如文獻(xiàn)[26-28]中提到的BP 神經(jīng)網(wǎng)絡(luò)、文獻(xiàn)[29-31]中提到的概率神經(jīng)網(wǎng)絡(luò)和文獻(xiàn)[32]中提到的RBF神經(jīng)網(wǎng)絡(luò)等。前幾年,Mathewos 等[33]提出一種并行計(jì)算的架構(gòu),用以提高神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和識(shí)別速度,使之適應(yīng)實(shí)際的流量識(shí)別問題。
2017年,Wang等[34]使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)方法,將原始流量數(shù)據(jù)作為圖像,使用CNN進(jìn)行圖像分類,最終實(shí)現(xiàn)惡意流量分類的目標(biāo)。這是首次將圖像學(xué)習(xí)方法應(yīng)用于使用原始流量數(shù)據(jù)的惡意軟件流量分類域。由于流量數(shù)據(jù)的連續(xù)性和圖像數(shù)據(jù)的離散性不同,研究了多種流量圖像類型,并通過實(shí)驗(yàn)發(fā)現(xiàn)了CNN為最佳類型。為了證明提出的方法的可擴(kuò)展性,使用三種分類器在兩種情況下進(jìn)行實(shí)驗(yàn),最終的平均準(zhǔn)確率為99.41%,符合實(shí)際應(yīng)用標(biāo)準(zhǔn)。
2.2.4 C4.5決策樹
在上文樸素貝葉斯方法中提到Williams等提供了ML流量分類的性能方面的見解。著眼于許多監(jiān)督ML算法,并分析評(píng)估各類算法的性能。
在使用任何不同的特征集時(shí),C4.5 決策樹算法都被認(rèn)為是最快的算法。文獻(xiàn)[35-36]中也表明,將C4.5算法應(yīng)用于P2P流量分類,性能比廣泛使用的貝葉斯方法更好更穩(wěn)定,并且能夠有效地避免P2P流量分布波動(dòng)的影響。
而Zhang等[37]表示研究方法在實(shí)時(shí)分類方面很差。這主要是由于流程持續(xù)時(shí)間、流量大小和數(shù)據(jù)包計(jì)數(shù)器等屬性集合造成的,只有在流程結(jié)束時(shí)才能夠精確獲取。文獻(xiàn)中的子流模型可以大大提高分類的及時(shí)性,但只有當(dāng)流量可以分為不同的階段時(shí)才能有效地進(jìn)行實(shí)時(shí)分類。與之前的方法相比,Zhang等的方法從使用C4.5和滑動(dòng)窗口的屬性集的角度實(shí)現(xiàn)了機(jī)器學(xué)習(xí)分類器的及時(shí)性。結(jié)果表明,與當(dāng)前屬性集相比,此方法可以實(shí)現(xiàn)更有效的性能,對(duì)于實(shí)時(shí)的P2P應(yīng)用分類,準(zhǔn)確率達(dá)到了96.7%,并且即使流程開始丟失,也可以保持穩(wěn)定。此方法的優(yōu)點(diǎn)在于,它可以盡早識(shí)別P2P應(yīng)用程序,其性能不依賴于流程的完整性,所以它在實(shí)際的實(shí)時(shí)網(wǎng)絡(luò)流量分類中會(huì)很有用。
2.2.5 近鄰分類(KNN)
K最近鄰(K-Nearest Neighbors, KNN)分類模型也是一種在流量識(shí)別研究中非常受歡迎的模型。如前文所述目前的對(duì)于流量識(shí)別分類的研究主要集中在使用ML技術(shù),在分析流量統(tǒng)計(jì)特性的基礎(chǔ)上對(duì)流量進(jìn)行分析。然而,文獻(xiàn)[38]中提到,不平衡數(shù)據(jù)集是現(xiàn)實(shí)應(yīng)用中常見的問題,特別是在網(wǎng)絡(luò)流量中,常常會(huì)對(duì)ML算法的分類性能造成嚴(yán)重的負(fù)面影響。這是因?yàn)橐恍┢綍r(shí)很多人使用的應(yīng)用程序產(chǎn)生大量的流量(稱為“大類”),而不受歡迎的應(yīng)用程序只產(chǎn)生少量的流量(稱為“小類”)。在這個(gè)問題中,分類器總是偏向于大類。大類的分類效果很好,而小類的分類效果非常差。大多數(shù)傳統(tǒng)的ML分類算法都會(huì)盡量減小錯(cuò)誤率,即錯(cuò)誤預(yù)測分類標(biāo)簽的百分比。這會(huì)導(dǎo)致算法忽略錯(cuò)誤類型之間的差異。特別是,他們假設(shè)所有這些錯(cuò)誤分類都是相同的。研究者們引入了許多解決方案來處理先前在數(shù)據(jù)和算法級(jí)別的ML算法的不平衡問題。其中在算法層面,研究人員提出了成本敏感的學(xué)習(xí),其重點(diǎn)在于將成本納入決策過程,這是另一種提高分類器性能的另一種方式,即從不平衡數(shù)據(jù)集中學(xué)習(xí)或在內(nèi)部操縱分類器,如文獻(xiàn)[39]中提到的KNN中的加權(quán)距離和SVM偏差算法。而后Wu等[40]提出一種新的方法,用于改善KNN方法中分類器在小類應(yīng)用中的分類性能。即引入KNN算法的決策邊界,研究開發(fā)了一個(gè)模型,可以自動(dòng)選擇最佳決策邊界,以達(dá)到小類流量分類的最佳性能,又能保持大類流量分類的性能穩(wěn)定。Du 等[41]也有提出將 BPSO 優(yōu)化算法與KNN結(jié)合,構(gòu)建出一種高效的P2P 流量識(shí)別模型。
2017年,McGaughey等[42]提出使用快速正交搜索(Fast Orthogonal Search, FOS)算法從數(shù)據(jù)導(dǎo)出的大量特征中選擇具有區(qū)分能力的特征子集,然后使用KNN分類器和FOS選擇的特征對(duì)網(wǎng)絡(luò)流量進(jìn)行分類。FOS算法從一組2839個(gè)特征中選擇了12個(gè)特征子集。研究表明使用這12個(gè)特征的KNN分類器比使用任意44個(gè)特征集的KNN少106個(gè)錯(cuò)誤,并且分類的計(jì)算時(shí)間減少了81%,大大提高了KNN對(duì)網(wǎng)絡(luò)流量進(jìn)行分類的效率。
2.3 半監(jiān)督方法
半監(jiān)督方法主要是使用ML技術(shù)中的聚類方法。使用聚類方法來進(jìn)行網(wǎng)絡(luò)流量的識(shí)別與分類。在半監(jiān)督學(xué)習(xí)的流識(shí)別研究中,Bernaille 等[43]于2006 年發(fā)表的研究成果具有重要意義,在這篇文獻(xiàn)中,嘗試使用K均值聚類方法進(jìn)行半監(jiān)督學(xué)習(xí)的流量識(shí)別,并獲得了比較理想的結(jié)果。
Erman 等[44-45]也在半監(jiān)督學(xué)習(xí)的流量識(shí)別研究中作出了重大的貢獻(xiàn), 同是2006年,使用聚類的機(jī)器學(xué)習(xí)方法對(duì)傳輸層的流量進(jìn)行統(tǒng)計(jì)分類。通過評(píng)估兩種聚類算法,即K-Means和DBSCAN聚類算法(Density-Based Spatial Clustering of Applications with Noise, DBSCAN),確認(rèn)觀察結(jié)果。另外使用已有的基于自動(dòng)聚類(AutoClass)算法(AutoClass 算法)的結(jié)果作為基線。使用的算法為半監(jiān)督學(xué)習(xí)機(jī)制,其中未標(biāo)記的訓(xùn)練數(shù)據(jù)基于相似性進(jìn)行分組。這種對(duì)未標(biāo)記訓(xùn)練數(shù)據(jù)進(jìn)行分組的能力是有利的,并且相對(duì)于需要標(biāo)記訓(xùn)練數(shù)據(jù)的學(xué)習(xí)方法這種方法有一個(gè)優(yōu)點(diǎn),即可發(fā)現(xiàn)來自產(chǎn)生于過去的未知應(yīng)用的流量。盡管所選擇的算法使用半監(jiān)督學(xué)習(xí)機(jī)制,但是這些算法中的每一個(gè)都基于不同的聚類原理。 K-Means聚類算法是一種基于分區(qū)的算法,DBSCAN算法是一種基于密度的算法,而AutoClass算法是一種基于概率模型的算法。而選擇K-Means和DBSCAN算法的一個(gè)原因是它們?cè)诰垲悢?shù)據(jù)方面比以前使用的AutoClass算法快得多。
使用兩條經(jīng)驗(yàn)痕跡評(píng)估算法:奧克蘭大學(xué)眾所周知的公開可用互聯(lián)網(wǎng)流量追蹤,以及從卡爾加里大學(xué)互聯(lián)網(wǎng)連接收集到的最新蹤跡。基于它們生成單個(gè)應(yīng)用程序具有高預(yù)測能力的群集的能力來比較算法。實(shí)驗(yàn)表明集群適用于各種不同的應(yīng)用,包括Web、P2P文件共享和文件傳輸,AutoClass和K-Means算法的精度超過85%,DBSCAN的精度達(dá)到75%。
此外,論文分析了由不同算法產(chǎn)生的每個(gè)簇中,簇的數(shù)量和對(duì)象的數(shù)量。分析是基于每種算法生成具有單一流量類別的高預(yù)測能力的群集的能力,并且每種算法是否能夠生成包含大多數(shù)連接的最少數(shù)量的群集。實(shí)驗(yàn)表明, AutoClass算法具有最好的整體精度。同時(shí),盡管DBSCAN具有較低的整體精度,但它形成的群集是最準(zhǔn)確的,因?yàn)樗鼘⒋蠖鄶?shù)連接放置在一小群集群中。這非常有用,因?yàn)檫@些群集對(duì)單個(gè)類別的流量具有很高的預(yù)測能力。K-Means算法的整體精度僅略低于AutoClass算法,但由于其建模時(shí)間快得多,因此更適合網(wǎng)絡(luò)流量分類與識(shí)別問題。后續(xù)文獻(xiàn)[46]中,他們繼續(xù)深入研究探索了半監(jiān)督學(xué)習(xí)模型在在線流量識(shí)別的應(yīng)用。
2017年,Hochst等[47]提出一種基于神經(jīng)自動(dòng)編碼器的流量和聚類統(tǒng)計(jì)特性的無監(jiān)督流量流分類的新方法。該算法已被用于將流量集中到下載、上傳、調(diào)用、瀏覽、視頻流、實(shí)時(shí)流或交互通信,獨(dú)立于用于執(zhí)行這些任務(wù)的特定網(wǎng)絡(luò)協(xié)議。基于時(shí)間間隔的新穎特征向量構(gòu)建和半自動(dòng)聚類標(biāo)記方法促進(jìn)了與已知流量類別無關(guān)的流量分類。通過在四個(gè)月內(nèi)捕獲的實(shí)際數(shù)據(jù)的實(shí)驗(yàn)評(píng)估。獲得的結(jié)果顯示,檢測到7個(gè)不同類別的移動(dòng)通信流量,平均精度為80%,獲得了不錯(cuò)的實(shí)驗(yàn)效果。
2.4 基于機(jī)器學(xué)習(xí)的識(shí)別分類方法總結(jié)
上文總結(jié)了從2004—2012年機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于網(wǎng)絡(luò)流量識(shí)別分類的高峰期,也提出了近幾年的一些改進(jìn)。下面用表6歸納上述方法。
3 結(jié)語
流量分類識(shí)別技術(shù)在近十幾年的相關(guān)研究中有所提高。在過去的研究中,研究界和網(wǎng)絡(luò)行業(yè)已經(jīng)調(diào)查,提出并開發(fā)了多種分類識(shí)別方法。雖然流量分類識(shí)別技術(shù)的準(zhǔn)確性和效率有所提高,但不斷并迅速增加的不同的網(wǎng)絡(luò)應(yīng)用行為,同時(shí)有越來越多的方法被研究用來掩飾某些應(yīng)用程序以避免被過濾或阻止,流量分類識(shí)別問題仍然是網(wǎng)絡(luò)中許多未解決的問題之一。本文回顧了近十幾年的研究成果, 主要是分類識(shí)別方法的發(fā)展進(jìn)程以及它們?cè)谶m用性、可靠性和隱私方面的權(quán)衡。從傳統(tǒng)的流量分類識(shí)別方法包括基于端口的預(yù)測方法和基于有效載荷的深度檢測方法,到目前基于流量統(tǒng)計(jì)特征的機(jī)器學(xué)習(xí)技術(shù),甚至近幾年出現(xiàn)的結(jié)合傳統(tǒng)方法與機(jī)器學(xué)習(xí)方法的流量分類技術(shù)。
就目前的研究成果來看,網(wǎng)絡(luò)流量識(shí)別分類技術(shù)通過從傳統(tǒng)的方法到應(yīng)用機(jī)器學(xué)習(xí)算法取得了較大的突破,但基于機(jī)器學(xué)習(xí)算法的方法應(yīng)有以下問題:
1)僅使用機(jī)器學(xué)習(xí)算法只能滿足特定的網(wǎng)絡(luò)環(huán)境,缺少適合多種普遍環(huán)境的方法。
2)特征選擇存在考慮不足的情況,影響網(wǎng)絡(luò)流量識(shí)別分類的準(zhǔn)確性。
為了解決以上問題,未來需要嘗試使用更多結(jié)合的方法,來對(duì)網(wǎng)絡(luò)流量進(jìn)行識(shí)別分類。同時(shí)為了適應(yīng)目前互聯(lián)網(wǎng)應(yīng)用的需求和模式的發(fā)展,流量識(shí)別技術(shù)需要考慮以下方向的發(fā)展:
1)增強(qiáng)移動(dòng)互聯(lián)網(wǎng)端的流量識(shí)別。隨著手機(jī)行業(yè)的發(fā)展,移動(dòng)端的應(yīng)用類別日益增多。隨之產(chǎn)生的流量模式和數(shù)量也急速增長,因此,移動(dòng)互聯(lián)網(wǎng)的流量識(shí)別必然成為互聯(lián)網(wǎng)流量識(shí)別的一個(gè)重要部分。
2)高速網(wǎng)絡(luò)下的流量識(shí)別。目前從工業(yè)界到民用帶寬都在進(jìn)行升級(jí),隨著網(wǎng)絡(luò)帶寬的增加,如何在高速網(wǎng)絡(luò)環(huán)境下識(shí)別快速產(chǎn)生的海量流量,也將是互聯(lián)網(wǎng)流量識(shí)別的一個(gè)重要研究方向。
參考文獻(xiàn) (References)
[1] HUANG J, QIAN F, MAO Z M, et al. Screen-off traffic characterization and optimization in 3G/4G networks [C]// IMC '12: Proceedings of the 2012 International Conference on Internet Measurement Conference. New York: ACM, 2012: 357-364.
[2] DAINOTTI A, PESCAPE A, CLAFFY K C. Issues and future directions in traffic classification [J]. IEEE Network, 2012, 26(1): 35-40.
[3] KARAGIANNIS T, PAPAGIANNAKI K, FALOUTSOS M. BLINC: multilevel traffic classification in the dark [J]. ACM SIGCOMM Computer Communication Review, 2005, 35(4): 229-240.
[4] MOORE A W, PAPAGIANNAKI K. Toward the accurate identification of network applications [C]// PAM 2005: Proceedings of the 2005 International Workshop on Passive and Active Network Measurement, LNCS 3431. Berlin: Springer, 2005: 41-54.
[5] DEWES C, WICHMANN A, FELDMANN A. An analysis of Internet chat systems [C]// Proceedings of the 2003 SIGCOMM Conference on Internet Measurement. New York: ACM, 2003: 51-64.
[6] SEN S, SPATSCHECK O, WANG D. Accurate, scalable in-network identification of P2P traffic using application signatures[C]// Proceedings of the 2004 International Conference on World Wide Web. New York: ACM, 2004: 512-521.
[7] 康寧.HTTPS網(wǎng)頁流量的指紋提取和識(shí)別技術(shù)研究[D]. 哈爾濱:哈爾濱工業(yè)大學(xué),2017:37-39.(KANG N. Research on fingerprint extraction and recognition technology of HTTPS Web traffic[D]. Harbin: Harbin Institute of Technology, 2017:37-39.)
[8] 劉佳雄.基于DPI和DFI技術(shù)的對(duì)等流量識(shí)別系統(tǒng)的設(shè)計(jì)[D].秦皇島:燕山大學(xué),2010:20-30.(LIU J X. Design of peer-to-peer traffic identification system based on DPI and DFI technology [D]. Qinhuangdao: Yanshan University, 2010:20-30.)
[9] 胡慶安.基于雙重特征的協(xié)議識(shí)別方法研究[D].成都:西南交通大學(xué),2010:23-40.(HU Q A. Research on protocol identification method based on dual features [D]. Chengdu: Southwest Jiaotong University, 2010:23-40.)
[10] 陳傳通.基于正則表達(dá)式匹配的網(wǎng)絡(luò)流量識(shí)別系統(tǒng)的研究與實(shí)現(xiàn)[D]. 濟(jì)南:山東大學(xué),2013:17-22.(CHEN C T. Research and implementation of network traffic identification system based on regular expression matching [D]. Jinan: Shandong University, 2013:17-22.)
[11] 劉瀧.基于DPI的網(wǎng)絡(luò)業(yè)務(wù)流量識(shí)別技術(shù)研究[D].濟(jì)寧:曲阜師范大學(xué),2017:15-31.(LIU L. Research on network service traffic identification technology based on DPI [D]. Jining: Qufu Normal University, 2017:15-31.)
[12] MINH Q T, KOTO H, KITAHARA T, et al. Separation of background and foreground traffic based on periodicity analysis [C]// Proceedings of the 2015 IEEE Global Communications Conference. Piscataway, NJ: IEEE, 2015:1-7.
[13] MINH Q T. An effective approach to background traffic detection [C]// FDSE 2015: Proceedings of the 2015 International Conference on Future Data and Security Engineering, LNCS 9446. Berlin: Springer, 2015: 135-146.
[14] MEKKY H, MOHAISEN A, ZHANG Z L. Blind separation of benign and malicious events to enable accurate malware family classification [C]// Proceedings of the 2014 SIGSAC Conference on Computer and Communications Security. New York: ACM, 2014: 1478-1480.
[15] MOORE A W, ZUEV D. Internet traffic classification using Bayesian analysis techniques [J]. ACM SIGMETRICS Performance Evaluation Review, 2005, 33(1): 50-60.
[16] ESTE A, GRINGOLI F, SALGARELLI L. Support vector machines for TCP traffic classification [J]. Computer Networks, 2009, 53(14): 2476-2490.
[17] WILLIAMS N, ZANDER S, ARMITAGE G. A preliminary performance comparison of five machine learning algorithms for practical IP traffic flow classification [J]. ACM SIGCOMM Computer Communication Review, 2006, 36(5): 5-16.
[18] ESTE A, GRINGOLI F, SALGARELLI L. On-line SVM traffic classification [C]// Proceedings of the 2011 7th International Wireless Communications and Mobile Computing Conference. Piscataway, NJ: IEEE, 2011: 1778-1783.
[19] GROLAT T, ARZEL M, VATON S. Hardware acceleration of SVM-based traffic classification on FPGA [C]// Proceedings of the 2012 8th International Wireless Communications and Mobile Computing Conference. Piscataway, NJ: IEEE, 2012: 443-449.
[20] GROLAT T, ARZEL M, VATON S. Stretching the edges of SVM traffic classification with FPGA acceleration [J]. IEEE Transactions on Network and Service Management, 2014, 11(3): 278-291.
[21] KONG L, HUANG G, WU K. Identification of abnormal network traffic using support vector machine [C]// Proceedings of the 2017 18th International Conference on Parallel and Distributed Computing, Applications and Technologies. Piscataway, NJ: IEEE, 2017: 288-292.
[22] HE H. A network traffic classification method using support vector machine with feature weighted-degree [J]. Journal of Digital Information Management, 2017, 15(2): 76-83.
[23] RAAHEMI B, HAYAJNEH A, RABINOVITCH P. Classification of peer-to-peer traffic using neural networks[C]// Proceedings of the 2007 International Conference on Artificial Intelligence and Pattern Recognition. Piscataway, NJ: IEEE, 2007: 411-417.
RAAHEMI B, KOUZNETSOV A, HAYAJNEH A, et al. Classification of peer-to-peer traffic using incremental neural networks [C]// Proceedings of the 2008 Canadian Conference on Electrical and Computer Engineering. Piscataway, NJ: IEEE, 2008: 411-417.
[24] RAAHEMI B, HAYAJNEH A, RABINOVITCH P. Peer-to-peer IP traffic classification using decision tree and IP layer attributes [J]. International Journal of Business Data Communications and Networking, 2007, 3(4): 60.
[25] RAAHEMI B, KOUZNETSOV A, HAYAJNEH A, et al. Classification of peer-to-peer traffic using incremental neural networks (fuzzy ARTMAP) [C]// CCECE 2008: Proceedings of the 2008 International Conference on Electrical and Computer EngineeringProceedings of the 2008 Canadian Conference on Electrical and Computer Engineering. Piscataway, NJ: IEEE, 2008: 719-724.
[26] SHEN F, PAN C, REN X. Research of P2P traffic identification based on BP neural network [C]// IIH-MSP 2007: Proceedings of the 2007 International Conference on Intelligent Information Hiding and Multimedia Signal Processing. Washington, DC: IEEE Computer Society, 2007, 2: 75-78.
[27] GU C, ZHUANG S. A novel P2P traffic classification approach using back propagation neural network [C]// Proceedings of the 2010 IEEE 12th International Conference on Communication Technology. Piscataway, NJ: IEEE, 2010: 52-55.
[28] CHEN H, HU Z, YE Z, et al. Research of P2P traffic identification based on neural network [C]// CNMT 2009: Proceedings of the 2009 International Symposium on Computer Network and Multimedia Technology. Piscataway, NJ: IEEE, 2009: 1-4.
[29] SUN R, YANG B, PENG L, et al. Traffic classification using probabilistic neural networks [C]// Proceedings of the 2010 6th International Conference on Natural Computation. Piscataway, NJ: IEEE, 2010, 4: 1914-1919.
[30] 賀靜,趙巒.基于PCA-概率神經(jīng)網(wǎng)絡(luò)的P2P流量分類方法研究[J].電腦開發(fā)與應(yīng)用,2011,24(7):18-20.(HE J, ZHAO L. Research on P2P traffic classification based on PCA-probabilistic neural network[J]. Computer Development and Applications, 2011, 24(7): 18-20.)
[31] AKILANDESWARI V, SHALINIE S M. Probabilistic neural network based attack traffic classification[C]// Proceedings of the 2012 4th International Conference on Advanced Computing. ?Piscataway, NJ: IEEE, 2012: 1-8.
[32] SINGH K, AGRAWAL S. Internet traffic classification using RBF neural network [C]// Proceedings of the 2011 International Conference on Communication and Computing technologies (ICCCT-2011). Jalandhar, India: [s.n.], 2011: 39-43.
[33] MATHEWOS B, CARVALHO M, HAM F. Network traffic classification using a parallel neural network classifier architecture [C]// CSIIRW '11: Proceedings of the 7th Annual Workshop on Cyber Security and Information Intelligence Research. New York: ACM, 2011: Article No. 33.
[34] WANG W, ZHU M, ZENG X, et al. Malware traffic classification using convolutional neural network for representation learning [C]// Proceedings of the 2017 International Conference on Information Networking. Piscataway, NJ: IEEE, 2017: 712-717.
[35] 徐鵬,林森.基于C4.5決策樹的流量分類方法[J].軟件學(xué)報(bào),2009,20(10):2692-2704.(XU P, LIN S. Internet traffic classification using C4. 5 decision tree [J]. Journal of Software, 2009,20(10): 2692-2704.)
[36] 陳云菁,張赟,陳經(jīng)濤.基于決策樹模型的P2P流量分類方法[J].計(jì)算機(jī)應(yīng)用研究,2009,26(12):4690-4693.(CHEN Y J, ZHANG Y, CHEN J T. Method for P2P traffic classification based on decision-tree model [J]. Application Research of Computers, 2009, 26(12): 4690-4693.).
[37] ZHANG Y, WANG H, CHENG S. A method for real-time peer-to-peer traffic classification based on C4.5 [C]// Proceedings of the 2010 IEEE 12th International Conference on Communication Technology. Piscataway, NJ: IEEE, 2010: 1192-1195.