999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關系型數據庫的網絡流數據預處理方法

2021-05-14 03:57:42朱金奇花季偉喬增順
計算機應用與軟件 2021年5期
關鍵詞:特征提取分類特征

王 盛 朱金奇 花季偉 喬增順

(天津師范大學計算機與信息工程學院 天津 300387)

0 引 言

據報道,到2020年將有超過200億的IoT設備連入互聯網[1],這些設備將在網絡中產生海量數據流,面對如此巨大的網絡流量,如何管理和識別流量數據,并從中準確提取不同設備的分類特征,成為研究挑戰,同時也是有效管理IoT設備的關鍵。準確的流量劃分是設備正確分類的前提,設備的正確分類則是網絡管理和網絡安全的基礎保障。

近年來,研究者提出了不同的設備分類預處理方法。文獻[2]組合使用tcptrace[3]、C語言和Perl腳本來提取網絡流量特征。文獻[4]提出了一種IoT設備流量分類與識別工具的構造原型。文獻[5]提出在路由器或網關中部署網絡包采集器(如wireshark[6]﹑tcpdump[7]),其可以發現網絡中所有設備所產生的流量并生成相應的記錄輸出給上層的預處理程序,同時提供了一種pcap文件流提取工具。文獻[8]闡述了一種將全部pcap文件數據轉換為ARFF(Attribute-Relation File Format)文件格式的流程方法。然而,文獻[2,4-5]僅提出了一種處理方法架構,卻沒有提供詳盡的實現過程。此外,文獻[5]的采集方案中沒有充分考慮路由器等嵌入式設備的存儲容量問題以及運算資源占用過高等限制性因素。文獻[8]所生成的ARFF格式文件并不適用于主流機器學習框架Tensorflow[9]等,僅是數據格式的轉換,沒有網絡流統計特征的提取過程。

不同的流量分類需求,會有相應不同的流量統計特征。如設備分類場景的流量特征有固定時段內數據包峰值﹑數據包長度平均值﹑傳輸協議種類數量等;在網絡安全分類場景的流量特征一般會有服務類型﹑一段范圍內的連接請求數﹑連接持續時間及登錄嘗試失敗數等。在UCI[10]網站上,公開了許多預處理后的標準數據集,其中包括經典的KDD Cup99流量分類數據集,一個經典的數據集需要對原始pcap流量數據進行相當多的預處理工作,包括從海量數據中去除無效記錄(噪聲)﹑填補空值﹑計算統計值等,良好的預處理效果是能夠準確分類的前提。雖然KDD Cup99是一種可供公開下載的數據集,但并沒有公開任何文檔或資料來闡述該數據集的構造實現過程。這就造成如果要使用自采集的pcap流量文件訓練機器學習模型,必須首先自己實現一套流量特征提取方法,但該方法也只對應于該自采集流量文件的分類場景,從而造成不同分類場景下的自采集流量文件預處理過程的重復性開發,缺少一種可復用的公開實現方法。

針對上述問題,本文主要工作如下:1) 實現了一種通用性的網絡流量數據集構造方法,對于常用流量統計特征進行了模塊化抽象,對于不同的流量分類場景可以模塊化拼裝統計特征,從而快速完成特征提取任務,極大提升了流量預處理工作的提取效率,填補了原始pcap采集文件至Tensorflow模型訓練輸入文件(CSV)之間的銜接處理過程;2) 提出了一種特征提取庫的模塊化思想方法,通過構建特征提取庫可以不斷完善和積累不同分類場景下的流量統計特征,這一構建思想可以不斷提升本文方法的通用性和健壯性。通過在公開的pcap原始數據集上的實驗,實現了針對該數據集統計特征提取的預處理需求。實驗結果表明,本文處理流程和方法能夠有效解決pcap網絡流統計特征的提取,進而完成設備流量數據集的預處理工作。與現有方法相比,本文完整闡述了整個預處理流程并公布了核心代碼。

1 相關工作

目前主流網絡流量分類方法有三種,分別是基于應用端口號的分類方法、基于包載荷的深層包檢測(DPI)技術[11]分類方法、基于流統計的分類方法[12-13]。

基于端口的分類方法是根據IANA[14]上所列出的全部公開使用的端口號與流量包頭中的端口號進行比對,從而判斷流量所屬的應用類型。例如,HTTP協議的Web應用使用固定的80端口,DNS域名解析服務使用53端口等。文獻[15]提出了一種基于端口連接模式與并發連接數量的流量分類方法。文獻[16]提出了一種使用端口號對UDP流量進行分類的方法。隨著網絡應用的不斷增多,這種通過簡單比對固定端口號的方式,已經很難滿足流量分類需要,尤其是P2P應用普遍采用動態端口的方式以及端口偽裝技術[17]的出現,造成基于端口識別的方法的準確性不高。

基于深層包檢測(DPI)技術的分類方法是使用數據包中的全部載荷內容(payload)來對流量進行識別和分類,通過檢查包中所含有的一些特定字符或模式,來判定其所屬的流量類別。該方法僅需對組成網絡流的前面若干個數據包進行檢測就可以完成識別任務,因此可以在流量產生早期就完成分類。文獻[18]使用一種隨機森林算法與內容包檢測技術相結合的分類方法,并且使用了文獻[4]中所提出的一種支持物聯網流量分類的監控體系結構作為統計特征提取工具。文獻[19]簡要介紹了DPI中的挑戰和一些設計目標,綜述了DPI技術的算法實現及相關應用。文獻[20-21]提出了一種基于DPI技術的網絡管理和分類系統。深度包檢測方法由于要對包中數據信息逐一進行比對,當數據量較大時需要花費較長時間,伴隨網絡通信加密技術的普及,對于包載荷內容的獲取也變得越發困難。

基于統計的分類方法是利用不同應用流量之間的特性不同而加以區分,一般使用機器學習算法或神經網絡模型對流量特征數據進行訓練,經過訓練的模型可以捕獲到不同應用流量的特征區別從而完成分類。文獻[12]對于機器學習在流分類領域的應用進行了詳細匯總,討論了在IP流分類中應用機器學習分類器的關鍵需求。文獻[13]提出了一種統計流量分類的新模式,通過監督和非監督相結合的機器學習技術來發現之前未知的流量應用。文獻[22]介紹了一種基于卷積和循環神經網絡模型的網絡流量分類器。由于基于統計的分類方法僅依賴于網絡數據包頭信息,如傳輸字節數﹑網絡協議﹑TCP窗口尺寸等,無論從數據可靠性還是獲取便利性上,基于統計的流分類方法都是更好的選擇。實際上,為獲得快速準確的分類效果,不僅取決于深度學習模型及其參數配置,所選取進行訓練的流量統計特征也具有重要作用。由于使用的是特征數據,如何在眾多的流量特征中根據具體的流分類應用場景(如:IoT設備類型分類﹑惡意流檢測[23]分類等)來細粒度地選擇和提取出最有效﹑區分度最高的特征集合,往往需要進行大量排列組合的特征工程[24]提取實驗,即從原始流量文件(pcap格式)中提取出模型訓練所需要使用的統計特征數據(CSV格式),這也是本文預處理過程須解決的問題。

2 方法設計

2.1 流程描述

基于統計的流分類方法較其他兩種分類方法有可靠性高﹑不依賴載荷內容的優點,下面介紹了預處理方法針對流分類領域研究較多的包和流這兩個不同流量粒度進行統計特征的提取。

流量數據特征一般可分為包特征和流特征。網絡流量數據按照劃分粒度不同,可以分為包(網絡消息傳輸劃分的最小數據塊)數據﹑流(具有相同五元組:源IP、源端口、目的IP、目的端口、傳輸協議的所有包)數據以及會話(包含雙向流的所有包)數據,劃分粒度依次遞增。在流量特征選擇和提取過程中會根據具體的流分類應用場景單一使用某種流量數據或組合使用不同粒度的流量數據。

1) 包(Packet)表示為:

P={P1,P2,…,Pi,…}

Pi=(xi1,xi2,…,xij,…)

(1)

式中:P表示流量數據中所有包集合;Pi表示第i個包記錄;xij表示第i個包中的第j個屬性值(如包長度﹑收發時間﹑傳輸協議等)。

2) 流(Flow)表示為:

F={F1|t1,F2|t2,…,Fk|tk,…}

Fk={P1|P1∈Fk,P2|P2∈Fk,…,Pn|Pn∈Fk,…}

Pn=(xn1,xn2,…,xnj,…)

P1.xg=P2.xg=…=Pn.xg=…

(2)

式中:F表示流量數據中劃分出的所有流集合;Fk表示組成一個流的所有包的集合;tk表示第k個流中首個包的開始時間(t1

3) 會話(Session)表示和流表示類似,一個會話是由一個流的兩個傳輸方向(五元組中的源和目的互換)所構成,發送流和接收流形成的完整閉環稱為會話。若發送流的五元組值為xg={xsrcIP,xsrcPort,xdstIP,xdstPort,xprotocol},則接收流的五元組值即為xg-={xdstIP,xdstPort,xsrcIP,xsrcPort,xprotocol}。

本文預處理過程主要由五個處理環節構成,分別是原始數據流量采集﹑數據包提取﹑記錄轉儲﹑統計特征提取﹑處理結果導出。其總體思想是對統計特征進行規則抽象并與SQL語言進行細粒度綁定,綁定后即形成統計特征提取庫,該提取庫會隨著新的流量分類需求而不斷擴充,在實際使用中可以模塊化地選取并組合使用特征提取庫中的方法。圖1描述了特征提取庫的構建過程及使用方式,通過不斷實現流分類領域的統計特征,每實現一種新的統計特征,就會把該實現方式添加到預處理特征提取庫。當進行自采集的pcap流量特征提取時,就可以從預處理特征庫中選取已實現的提取方法直接拼裝使用,從而高效提取出所需特征。常用的基于流的統計特征有流中所含包個數﹑流持續的時間﹑流的總字節大小﹑流中各個包大小的最大值最小值均值等。在實際統計特征提取時需根據五元組屬性值匯總出不同的流,根據不同的分類場景需求,可以進一步對不同的流進行切分并分段統計從而生成流量統計特征,如按固定包數統計則僅提取每個流的前N個數據包,按固定時間段統計則將流中所含數據包按時間戳順序進行時間范圍歸并。表1所示的部分示例展示了統計特征規則抽象與特征提取庫實現方式之間的對應關系。

圖1 特征提取庫模塊化復用過程

表1 統計特征規則抽象與特征提取庫對應關系(部分)

首先在網絡拓撲結構中部署流量采集軟件,使得采集軟件可以發現整個拓撲中所有網絡設備的通信數據包,將采集到的原始流量數據(二進制文件)保存至硬盤空間,使用流量分析工具從此二進制文件中提取出所需要的文本數據并存儲為CSV文本文件格式,接下來通過數據庫管理工具將此CSV文件數據導入至數據庫表中,最后由數據庫語言(SQL)統計出流量特征數據并導出結果文件。各個環節對原始流量數據依次進行處理,并生成相應的中間狀態結果數據,將前一環節的處理結果作為后一環節的數據輸入,經過多種數據形態的轉換,最終生成所需數據集。各環節數據形式轉化過程如表2所示。

表2 各環節處理前后數據形式變化情況

2.2 數據交互與實現方法

本文提出的網絡流統計特征預處理流程及架構如圖2所示。本節闡述了從pcap文件采集至最終生成CSV訓練數據集的全部處理環節,各詳細實現步驟如下。

圖2 網絡流統計特征預處理流程及架構

步驟一在欲采集的網絡中,使用端口鏡像技術[25]將頂層交換機上所有網絡端口的收發數據轉發至其上一個獨立的匯聚端口,該匯聚端口連接至數據采集主機,采集主機上安裝并運行Wireshark流量采集軟件。Wireshark中選取連接匯聚端口的網卡進行數據監聽和采集,并設置pcap文件的存儲路徑及存儲規則,如可設置每天或每文件大小達到1 GB等規則進行pcap文件的拆分存儲,默認情況下Wireshark會實時采集數據至內存中,如果一次性采集周期較長或網絡流信息較大則會造成內存溢出的異常。

步驟二將采集得到的pcap文件,通過tshark命令行工具,自定義提取出所需要的屬性(field)值,如五元組值﹑包長度﹑包產生時間等,并存儲為CSV格式文件。根據所屬協議的不同,Wireshark目前有超過幾十萬的屬性字段(field)可供使用[26],這就要根據不同分類場景的領域知識,靈活甄別選用。

步驟三使用Navicat Premium(或SQLyog)工具,將步驟二生成的CSV文件通過圖形化界面操作(新建連接→選擇已有或新建數據庫→選擇表導入向導→導入類型選擇CSV文件)導入至MySQL數據庫中,成功導入后每個CSV文件對應生成一張同名數據庫表。

步驟四打開數據庫的查詢分析器工具,使用SQL(Structured Query Language)編程語言[27]從數據表中查詢匯總出所需的流統計特征值記錄,并根據應用或設備的類別(如按MAC地址或協議等屬性進行區分)增加相對應的訓練標簽(label)列。綜合運用SQL語言提供的COUNT、AVG、MAX、GROUP BY等函數語句可以方便地進行統計信息值的計算,對于多張數據庫表的統計匯總可以使用UNION語句來處理。

步驟五在步驟四的查詢結果顯示窗口中,通過Navicat Premium工具的導出功能,將預處理后的記錄以CSV格式進行導出并作為神經網絡模型的訓練數據集。

至此整個預處理流程執行完畢。如果使用最終生成的CSV文件來訓練神經網絡模型沒有達到預期結果,可再次返回步驟四嘗試其他的統計特征組合,選取效果最優的組合方案。如果步驟三中生成的數據庫表字段不足,可以再次重復步驟二,提取出更多種類的數據包屬性字段,并繼續執行后續步驟即可。在處理步驟二時可以將有價值或較常用的數據包屬性值一次性提取出來,在后續步驟中可以選擇性使用,從而降低每次實驗嘗試的復雜度和時間成本。

3 實 驗

3.1 網絡數據流采集

實驗環境在天津師范大學數據中心中進行,該數據中心負責維護校園網網絡,擁有校園卡維護系統﹑學生及教職工管理系統、弱電間和教學樓監控安防系統等,各個系統后臺服務器通過不同的網絡隔離機柜獨立部署和運行。

選取監控安防系統作為數據流的采集網絡,該網絡通過集中器將各樓宇分散的安防設備與數據中心建立連接,每個集中器對應采集溫濕度﹑煙霧﹑火焰﹑水浸﹑人體及電能監測共六種傳感器設備,集中器的采集端使用485接口連接設備,對上層使用RJ45網口傳輸數據。每臺監控設備自身含有RJ45網口,可以獨立上傳通信數據。整個網絡將監控攝像頭和集中器分為兩個子網絡,子網間由路由器連接并分屬于不同的網段,后臺服務器通過固定的時間間隔下發數據采集命令,產生通信數據流。整個校園部署集中器和攝像裝置較多,表3列出了部分設備及網絡配置,圖3顯示了其中一個監控區域的狀態數據。

表3 校園監控及安防系統網絡組成設備(部分數據)

圖3 設備間房間狀態監控

由于該系統為巡檢類系統,所有流量設備會根據收到的采集命令定期向服務器上報狀態數據,故直接在后臺服務器上部署Wireshark軟件進行流量采集。服務器操作系統為Windows Server 2008,Wireshark版本為win64-1.10.4,設置pcap文件存儲路徑為D:wiresharkpackageCapture,當文件大小達到50 MB時進行拆分并使用格式“rawdatas_{序號}_{年月日時分秒(采集開始時間)}”自動命名。部分采集的pcap文件如圖4所示。

圖4 采集的pcap文件(部分數據)

3.2 統計特征提取

為了更好地說明本文方法的適用性及便于對比,統計特征提取過程將在公開的pcap文件集上進行實驗,該數據集是文獻[28]于2018年在網站https://iotanalytics.unsw.edu.au/iottraces上公布的原始流量數據集,數據在物聯網環境中進行收集,經過3周多時間共采集了屬于7個類別的21種設備的流量數據。文獻[5]在該數據集上找到了一組能夠明顯區分不同設備類別的統計特征屬性集合(用戶包數量﹑用戶包長度平均值﹑用戶包長度峰值﹑控制包數量﹑控制包平均值﹑控制包峰值)。下面通過實驗完整實現文獻[5]中的特征提取需求,以此說明本文方法的有效性和適用性。

首先下載全部2016-09-23至2016-10-12共20天的pcap文件,每天對應一個文件并以對應日期命名。通過tshark工具逐一對20個pcap文件進行屬性(field)值提取,并對應生成20個CSV文件,tshark默認與Wireshark軟件共同安裝在同級目錄下,實驗所用主機操作系統為Windows 7安裝路徑在C:Program FilesWireshark下。其中一個pcap文件的完整提取過程代碼如圖5所示。

圖5 tshark提取pcap文件至CSV

將提取出的CSV文件通過SQLyog工具逐個導入MySQL8.0.16數據庫,導入過程如圖6所示。

圖6 CSV轉儲至數據庫

根據需求,需要將數據包按照所屬類別進行排序,每個類別中的數據包按所屬設備進行排序,排序后每個設備中的數據包再以5分鐘的間隔時間進行匯總,統計出每個間隔時間段內的包數量﹑包長度平均值和包長度峰值,并根據每個包傳輸協議的不同,將上述三個匯總值分別拆分為用戶數據和控制數據,最后根據不同類別打上相應的訓練標簽(label)值。通過SQL語言實現該需求的代碼如下:

SELECT CONCAT(DATE_FORMAT(′_ws#col#AbsTime′,

′%Y-%m-%d %H:′),IF(FLOOR(DATE_FORMAT(′_ws#col#AbsTime′,

′%i′)/5)<10,CONCAT(0,FLOOR(DATE_FORMAT(′_ws#col#AbsTime′,

′%i′)/5)),FLOOR(DATE_FORMAT(′_ws#col#AbsTime′, ′%i′)/5)))

AS5MinInterval,

COUNT(CASE WHEN ′_ws#col#Protocol′ NOT IN

(′ICMP′,′ARP′,′DNS′,′NTP′) THEN 1 ELSE NULL END) AS

userPacketNumber,

AVG(CASE WHEN ′_ws#col#Protocol′ NOT IN

(′ICMP′,′ARP′,′DNS′,′NTP′) THEN CONVERT(′frame#len′,

DECIMAL) ELSE NULL END) ASuserPacketLengthAvg,

MAX(CASE WHEN ′_ws#col#Protocol′ NOT IN (′ICMP′,′ARP′,

′DNS′,′NTP′) THEN CONVERT(′frame#len′,DECIMAL)

ELSE NULL END) ASuserpacketLengthPeak,

COUNT(CASE WHEN ′_ws#col#Protocol′ IN (′ICMP′,′ARP′,

′DNS′,′NTP′) THEN 1 ELSE NULL END) AS

controlPacketNumber,

AVG(CASE WHEN ′_ws#col#Protocol′ IN (′ICMP′,′ARP′,

′DNS′,′NTP′) THEN CONVERT(′frame#len′,DECIMAL)

ELSE NULL END) AScontrolPacketLengthAvg,

MAX(CASE WHEN ′_ws#col#Protocol′ IN (′ICMP′,′ARP′,

′DNS′,′NTP′) THEN CONVERT(′frame#len′,DECIMAL) ELSE NULL END) AScontrolpacketLengthPeak,

CASEWHEN (IFNULL(′eth#src′,″)=′44:65:0d:56:cc:d3′ OR

IFNULL(′eth#dst′,″)=′44:65:0d:56:cc:d3′) THEN 1

WHEN (IFNULL(′eth#src′,″)=′e0:76:d0:33:bb:85′ OR

IFNULL(′eth#dst′,″)=′e0:76:d0:33:bb:85′) THEN 2

WHEN (IFNULL(′eth#src′,″) IN

(′00:24:e4:11:18:a8′,′70:ee:50:18:34:43′,′00:16:6c:ab:6b:88′) OR

IFNULL(′eth#dst′,″) IN

(′00:24:e4:11:18:a8′,′70:ee:50:18:34:43′,′00:16:6c:ab:6b:88′)) THEN 3

WHEN (IFNULL(′eth#src′,″) IN (′ec:1a:59:79:f4:89′,′50:c7:bf:00:56:39′) OR

IFNULL(′eth#dst′,″) IN (′ec:1a:59:79:f4:89′,′50:c7:bf:00:56:39′)) THEN 4

ELSE -1 END ASlabel,

case WHEN (IFNULL(′eth#src′,″)=′44:65:0d:56:cc:d3′ OR

IFNULL(′eth#dst′,″)=′44:65:0d:56:cc:d3′) THEN ′Hubs_Amazon Echo_44:65:0d:56:cc:d3′

WHEN (IFNULL(′eth#src′,″)=′e0:76:d0:33:bb:85′ OR

IFNULL(′eth#dst′,″)=′e0:76:d0:33:bb:85′) THEN ′Electronics_Pix photo frame_e0:76:d0:33:bb:85′

WHEN (IFNULL(′eth#src′,″)=′00:24:e4:11:18:a8′ OR

IFNULL(′eth#dst′,″)=′00:24:e4:11:18:a8′) THEN ′Cameras_Withing Smart Baby Monitor_00:24:e4:11:18:a8′

WHEN (IFNULL(′eth#src′,″)=′70:ee:50:18:34:43′ OR

IFNULL(′eth#dst′,″)=′70:ee:50:18:34:43′) THEN ′Cameras_Netatmo Welcome_70:ee:50:18:34:43′

WHEN (IFNULL(′eth#src′,″)=′00:16:6c:ab:6b:88′ OR

IFNULL(′eth#dst′,″)=′00:16:6c:ab:6b:88′) THEN ′Cameras_Samsung Smart Camera_00:16:6c:ab:6b:88′

WHEN (IFNULL(′eth#src′,″)=′ec:1a:59:79:f4:89′ OR

IFNULL(′eth#dst′,″)=′ec:1a:59:79:f4:89′) THEN

′Switches&Triggers_Belkin Wemo Switch_ec:1a:59:79:f4:89′

WHEN (IFNULL(′eth#src′,″)=′50:c7:bf:00:56:39′ OR

IFNULL(′eth#dst′,″)=′50:c7:bf:00:56:39′) THEN

′Switches&Triggers_TP-Link Smart Plug_50:c7:bf:00:56:39′

END ASdevice

FROM world.′16-09-23_export_csv′GROUP BY label,

device,5MinInterval

HAVING label !=-1 /*hereunion other tables*/

ORDER BY label,device,5MinInterval

上述代碼實現了2016年9月23日的流量統計特征值提取,其他日期的特征提取,僅需在此代碼基礎上更換表名后使用UNION語句連接即可。將SQL查詢結果導出為CSV文件作為神經網絡模型的訓練數據集,如圖7所示,得到的屬性列可分為流量特征和業務特征兩類,其中用戶包數量(userPacketNumber)﹑用戶包長度平均值(userPacketLengthAvg)﹑用戶包長度峰值(userPacketLengthPeak)﹑控制包數量(controlPacketNumber)﹑控制包長度平均值(controlPacketLengthAvg)﹑控制包長度峰值(controlPacketLengthPeak)為六個統計特征列,5分鐘時間段(5MinInterval)﹑標簽類別(lable)﹑標簽對應的設備(device)為三個業務特征列,通過六個統計特征列和一個訓練標簽列即構成了深度學習領域的訓練數據集,另外兩個業務特征列僅便于人工校驗。得到的這六個統計特征列即完整實現了文獻[5]所提出的對于設備分類場景區分度最高的一組特征向量。類似地可生成測試數據集,至此完成整個預處理實驗流程。

圖7 預處理后生成的流量統計特征數據集(前20條)

3.3 方法對比

為了進一步說明本文方法的有效性,將本文方法﹑流量提取工具SDN-pcap-Simulator以及傳統Excel統計方式三者進行實現對比。SDN-pcap-Simulator是文獻[28]中公開數據集所配套的預處理工具(C語言編寫),根據說明其調用方式為bin/sim[pcap-filename][mode]。參數mode有三種模式,分別為0-獲取所有IP流﹑1-獲取所有NTP流﹑2-獲取所有DNS流,通過一條命令可以提取到所有IP包。雖然是與數據集所配套的工具,但其所提供的功能有很大局限性,僅是把解析到的網絡流寫到一個日志文件里,沒有進一步處理且不計算統計特征。作為Office辦公軟件之一的Excel工具,具有十分強大的數據處理功能,可以操縱和匯總CSV文件格式數據,通過其所提供的數據透視表功能可以手動實現分類匯總的統計功能,但由于Excel同一工作表的記錄行有數量限制,在實際操作中提示超出1 048 576行的處理上限,且文件十分龐大操作響應緩慢,這對于動輒數千萬記錄的pcap包文件,顯然已經超出了其處理能力,這就導致傳統Excel的預處理方式效率低﹑易出錯﹑不易維護。本文方法創新性地提出統計特征規則抽象與特征提取庫對應的思想方法,較現有流量提取工具極大地提升了流量特征提取工作的需求通用性,在處理能力和處理效率方面較Excel手動拖曳數據方式有了顯著提升,由于結合了關系型數據庫及SQL語言的處理優勢,后期數據調整的靈活性﹑海量數據的批處理能力和代碼的可擴展可復用性均可以得到有效保證。表4為三種預處理方式的效果對比。

表4 三種預處理方式的效果對比

由于SDN-pcap-Simulator在通用性上無法實現定制需求,下面只對Excel和本文方法進行數據處理效率的定量比較。對比的統計特征需求為匯總并提取出不同數據流的包數量和包長度平均值,使用的處理機器配置為Intel i5- 4210M 2.6 GHz處理器﹑4 GB內存﹑64位操作系統,對比數據源選取16-09-23.pcap流量文件,該流量文件中共有947 072條數據包記錄。本文方法通過表1中第一項﹑第三項﹑第四項組合實現;Excel方法通過數據透視表設置五元組為行標簽,數量和平均值為數值標簽來實現。表5顯示了兩種方法對于上述統計特征需求的處理效率對比,其中統計執行階段本文方法用時高于Excel方法是由于Excel在數據加載(文件打開)時將數據讀取到了內存并寫到界面上,等到統計執行時Excel就只在界面上和內存中操作,不用再讀取物理文件,因為Excel在數據加載階段消耗了較長時間,導致了單純的執行速度Excel會比較快。不難發現由于本文方法采用的數據載體是數據庫表,在數據加載和全部處理過程用時上有明顯優勢,且若對數據字段較為熟悉,可省略數據加載過程用時,直接運行SQL語句統計執行即可,而Excel方法必須經過較長的數據加載過程。

表5 數據處理效率(平均用時)對比 s

4 結 語

本文提出利用關系型數據庫提取網絡流統計特征的方法,綜合運用了網絡領域知識和數據庫領域知識,并結合了深度學習領域數據集的構建格式[10],完成了從原始pcap流量文件至神經網絡模型訓練文件之間的預處理轉換,實驗結果顯示了該方法具有很好的實用性和普適性。未來可以進一步改進為動態SQL結合SP(存儲過程)的方式,從而提升大批量pcap文件的處理效率和自動化程度。

猜你喜歡
特征提取分類特征
分類算一算
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 国产中文在线亚洲精品官网| 久久精品国产999大香线焦| 国产真实二区一区在线亚洲| 亚洲成人网在线播放| 亚洲九九视频| 久久semm亚洲国产| 久久一本日韩精品中文字幕屁孩| 在线看片中文字幕| 在线精品亚洲国产| 国产熟睡乱子伦视频网站| 欧美丝袜高跟鞋一区二区| 久久免费视频6| 亚洲国产欧美目韩成人综合| 久操线在视频在线观看| 国产欧美日韩va另类在线播放| 亚洲国产第一区二区香蕉| 亚洲一区二区三区在线视频| 国产精品19p| 日韩天堂在线观看| 欧美区一区二区三| 亚洲AV无码一区二区三区牲色| 欧美啪啪一区| 亚洲视频在线青青| 国模极品一区二区三区| 国产丝袜无码精品| 扒开粉嫩的小缝隙喷白浆视频| 亚洲香蕉久久| 中文字幕 91| 狠狠亚洲五月天| 91精品日韩人妻无码久久| 91国语视频| 最新国产精品鲁鲁免费视频| 国产 在线视频无码| 国产成人综合亚洲网址| 深爱婷婷激情网| 88国产经典欧美一区二区三区| 99久久精品美女高潮喷水| 欧美啪啪精品| 无码高潮喷水在线观看| 国产视频资源在线观看| 久久无码av三级| 热久久国产| 亚洲一区毛片| 巨熟乳波霸若妻中文观看免费| 美女免费精品高清毛片在线视| 免费观看无遮挡www的小视频| 亚洲精品制服丝袜二区| JIZZ亚洲国产| 亚洲国产清纯| 国产呦精品一区二区三区网站| 青草娱乐极品免费视频| 久久动漫精品| 精品福利视频导航| www.99在线观看| 国产成人精品午夜视频'| 麻豆精品国产自产在线| 久久精品人妻中文系列| 久久久精品无码一区二区三区| 五月激情综合网| 亚洲男人天堂2020| jizz在线免费播放| 园内精品自拍视频在线播放| 日韩一级毛一欧美一国产| 在线a视频免费观看| 日韩精品高清自在线| 一级毛片免费观看不卡视频| 一本色道久久88| 国产高颜值露脸在线观看| 国产一级毛片在线| 国内99精品激情视频精品| 制服丝袜在线视频香蕉| 在线观看国产网址你懂的| 国产日本欧美亚洲精品视| 欧美一区二区福利视频| 大学生久久香蕉国产线观看| 十八禁美女裸体网站| 波多野结衣在线一区二区| 国产95在线 | 欧美日韩第二页| 国产一区二区三区在线观看免费| 国产精品林美惠子在线播放| 久久精品娱乐亚洲领先|