999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于關系型數據庫的網絡流數據預處理方法

2022-06-28 03:12:00年愛華
蘭州職業技術學院學報 2022年3期
關鍵詞:特征提取分類數據庫

年愛華

(蘭州現代職業學院 信息工程學院, 甘肅 蘭州 730300)

為規范網絡管理工作,保障網絡安全,技術人員需對網絡設備進行分類處理,而網絡流數據預處理效果,直接關系網絡設備分類成果。常規網絡流數據預處理方法以編程語言為基礎,編寫開發工具類軟件,局限性較大,不能推廣普及。就此,關于新型網絡流數據預處理方法的研究具有鮮明現實意義。

一、現有網絡流數據預處理方法

現有網絡流數據預處理方法包括以下三種,處理原理不同,處理效果不同。

(一)基于端口的預處理方法

該方法原理如下:對比分析互聯網數字分配機構公布的端口號和流量包頭端口號,分析流量數據的應用類型歸屬狀況。例如,DNS域名解析服務的流量數據端口號為53;部署HTTP協議的網絡應用流量數據端口號為80。同時,有研究學者結合端口的固定性特征,提出不同預處理方法。如根據端口號處理UDP流量,準確分類應用類型;根據端口連接形式和并發連接數量,進行應用流量分類。在新時期背景下,網絡應用數量逐漸增多,僅根據端口號難以準確分類,特別是P2P應用大都將固定端口更換為動態端口,甚至引進端口偽裝技術,降低基于端口的預處理方法應用效果[1]。

(二)基于深層包檢測的預處理方法

該方法原理如下:根據數據包的所有載荷內容,如特定字符或特定模式等,識別分類流量。在實際應用中,只需處理網絡流的數據包即可實施識別分類,并將識別分類提前至流量產生環節。有研究學者以深層包檢測為基礎,應用隨機森林算法,實施網絡流數據預處理;有研究學者以深層包檢測為基礎,研發網絡管理、分類系統。但在實踐中,由于深層包檢測需逐一分析載荷內容,工作量較大,如數據包的載荷內容多,識別分類時間較長,預處理效率較低。同時,目前大眾網絡安全意識增強,加密技術得到普遍應用,深層包檢測的實施面臨較大阻礙[2]。

(三)基于統計的預處理方法

該方法原理如下:根據不同網絡流數據的特征差異,進行識別與分類,以機器學習或神經網絡等技術為主,選擇合適的算法與模型,學習海量網絡流數據的特征,進而網絡流數據預處理目標。技術人員可根據不同網絡流數據預處理要求,開發不同功能的機器學習分類器,實現流分類處理;也可開發卷積和循環神經網絡模型,從統計角度進行網絡流數據處理。在基于統計的預處理方法中,需以網絡數據包頭信息為基礎,包括網絡協議等內容,具有獲取便利、處理效率高、分類準確等優勢。但其優勢發揮受機器學習、神經網絡模型及相關參數影響,模型訓練所用的流量統計特征也會影響分類效果[3]。就此,在基于統計的網絡流數據預處理方法應用中,技術人員應根據網絡流數據預處理的具體應用場景,如惡意流數據預處理等,遵循細粒度原則進行流量特征提取,選擇最具區分度的特征。

二、基于關系型數據庫的網絡流數據預處理

通過上述網絡流數據預處理方法分析可知,基于統計的預處理方法優勢更為顯著。本文提出基于關系型數據庫的網絡流數據預處理方法,利用關系型數據庫的SQL在統計方面的優勢,有效提取流量統計特征,進一步優化基于統計的網絡流數據預處理方法,推廣普及。

(一)關系型數據庫的相關概念

在關系型數據庫應用中,涉及如下概念:

包,即網絡消息中最小單位的數據塊,用如下公式表示:

P={P1,P2,…Pi,…}

Pi={xi1,xi2,…xij,…}

在式中,P是指網絡流數據中全部包的集合;Pi是指第i個包記錄;xij是指第i個包記錄的第j個屬性。這里的屬性包括包的長度、數據包的收發時間、數據包傳輸應用的傳輸協議等。

流,即相同五元組的組的所有包,用如下公式表示:

F={F1|t1,F2|t2,…Fk|tk,…}

Fk={P1|∈Fk,P2|∈Fk,…Pn|∈Fk,…}

Pn=(xn1,xn2,…,xij,…);P1.xg=P2.xg=…=Pn.xg=…

式中,F是指網絡流數據中心的全部流的集合;Fk是指一個流的全部包的集合;tk是指第k個流中第一個包的開始時間;Pn是指Fk內的包;Pn.xg是指Pn的五元組。

會話,即雙向流的所有包,發送和接收的兩個流視為一個會話[4]。

(二)網絡流數據預處理流程

在基于關系型數據庫的網絡流數據預處理中,具體流程如下:一是原始網絡流數據的采集,要求數據為二進制文件,存儲于硬盤空間內;二是數據包提取,選擇流量分析工具實施提取操作;三是記錄轉儲,將提取的文本內容以CSV文件格式存儲,導入至數據庫表;四是應用SQL進行網絡流數據統計特征提取與統計工作,導出網絡流數據預處理結果。

上述預處理過程的思路在于通過規則抽象處理統計特征,并將其和SQL語言實施細粒度綁定,構建統計特征提取庫,在網絡流量分類需求多樣化發展趨勢下,統計特征提取庫內容不斷增多,技術人員可選擇相應模塊的方法,進行流量特征提取,為基于統計的網絡流數據預處理提供保障。由此可見,在網絡流數據預處理過程中,特征提取庫的構建與應用為關鍵要點,應遵循圖1的流程。

圖1 特征提取庫的構建與應用流程要點

結合上圖,在統計特征提取時,應結合網絡流量的五元組屬性,整合為不同類型的流,根據網絡流數據的分類場景要求,進一步細分不同類型的流,實施分段統計,完成流量統計特征的獲取。例如,在以固定包數為統計特征的預處理中,只需提取每個類型的流的前N個數據包,根據固定時間段,將每個類型的流中的數據包按照時間戳順序實施歸并處理。在此基礎上,不同統計特征規則抽象,在特征提取庫中對應的SQL代碼塊不同。例如,在匯總五元組的規格抽象處理中,需應用Group by srcIP,srcPort,dstIP,dstPort及protocal代碼塊。

(三)網絡流數據預處理步驟

基于上述流程思路,技術人員應按照規范步驟進行網絡流數據預處理,保障各個環節的文件格式與內容符合處理要求,提高網絡流數據預處理可靠性。細化來說,網絡流數據預處理步驟如下:

將目標網絡的頂層交換機全部網絡接口實施端口鏡像處理,使接口數據轉移至獨立匯聚端口處,可由該端口將網絡流數據傳輸至數據采集主機中。為保障數據采集穩定性,在主機中配置Wireshark軟件,負責流量采集工作。在軟件中設置pcap文件的存儲方式和路徑,與匯聚端口網卡連接,完成網絡流數據的監聽與采集。

利用tshark命令控制工具處理pcap文件,采集網絡流數據中所需的屬性值,如五元組、數據包的長度等,并將采集的屬性值以CSV格式存儲。按照相應的所屬協議,Wireshark軟件支持超過幾十萬的屬性字段,可根據不同網絡流分類場景需求,進行識別分類。

選擇SQLyog或Navicat Premium兩種工具,對CSV文件實施圖形化界面操作,將其導入到MySQL數據中,完成后每個文件可構建一個數據庫表。

利用MySQL數據庫的查詢分析器工具和SQL語言,在構建的數據庫表中,查詢統計所需的流統計特征值記錄,結合網絡設備或網絡應用的類型,在特征值記錄中添加訓練標簽列。通過SQL語言的各類函數,如count、max等,高效處理統計信息值。如果數據庫表的統計量較大,可選擇UNION語句。

應用Navicat Premium的導出功能,將查詢分析結果以CSV格式導出,作為神經網絡模型的訓練數據庫,完成網絡流數據的預處理。

在上述過程中,如構建的數據庫表字段較少,可重新進行第二步,增加網絡流數據屬性值的提取數量,必要時可全部提取常用的屬性值或有價值的屬性值,在后續分析中選擇性應用,避免返工,提高效率,降低成本。如獲得的最終結果不滿足神經網絡模型的訓練要求,可重新進行第四步,選擇不同的統計特征組合,提取新的統計特征[5]。

三、基于關系型數據庫的網絡流數據預處理效果

在明確基于關系型數據庫的網絡流數據預處理方法后,開展實踐探究,驗證該方法的可行性與使用效果。以某高校的數據中心為研究對象,采集其監控安防系統的網絡流數據,實施預處理實驗。

(一)數據樣本

在該高校的監控安防系統中,與各個區域的集中器進行數據通信,集中器負責采集區域的溫濕度、火焰及煙霧等傳感器設備信心,與傳感器間的連接使用485接口,與監控安防系統主機的連接使用RJ45接口。在實際運行中,監控安防系統的流量設備會遵循采集命令,在規定的時間點向服務器傳輸狀態數據。就此,在實驗中,于監控安全系統的后臺服務器部署Wireshark軟件,實施網絡流數據的采集。結合該高校計算機系統特點,選用win64-1.10.4版本的軟件,將采集的pcap文件存儲于D盤,存儲路徑如下:D:wiresharkpackageCapture。如pcap文件存儲空間超過50MB,需對文件實施拆分處理,并設置自動命名規則,具體如下:“rawdatas_{序號}_{年月日時分秒(采集開始時間)}”。

(二)特征提取

在統計特征提取中,選擇網絡上公開的pcap文件集,構建統計特征提取庫,包括7個類別的21類設備的流量數據。下載2019-11-21到2019-12-11共20天的pcap文件,根據下載日期命名文件。應用tahrk工具逐一提取20個文件的屬性值,以CSV格式存儲屬性值文件;應用SQLyog工具將CSV文件導入MySQL8.0.16數據庫中。根據網絡流數據分類需求,根據所屬類別對數據包實施排序,每個類別的數據包排序由所屬設備決定。在完成排序后,按照5min的時間間隔,匯總每個設備的數據包,計算每個時間間隔內數據包的數量、數據包的長度平均值、數據包長度的峰值;最后,按照數據包的傳輸協議,將每個匯總屬性值拆分為用戶數據和控制數據,根據數據類型設置相應的訓練標簽值。使用UNION語句進行統計特征提取,實施SQL查詢,最終將結果導出為CSV格式的文件,開展神經網絡模型訓練。在預處理完成后,可獲得流量特征和業務特征兩種屬性的網絡流數據。

(三)對比分析

為驗證基于關系型數據庫的網絡流數據預處理方法,本文將其與常規流量統計工具和常規統計工具進行對比分析。其中,常規流量統計工具選用SDN-pcap-Simulator,常規統計工具選用Excel。在預處理中,對比三種方法的需求通用性、處理效率、智能化水平及可拓展性,對比結果顯示,基于關系型數據庫的網絡流數據預處理方法在四方面均顯著優于另兩種方法。同時,應用Excel和SQL語句兩種工具對下載的2019-11-21到2019-12-11共20天pcap文件實施數據統計分析,該文件共包括956 151條數據包。處理結果顯示,Excel的數據加載用時62s,統計執行用時1.5s,總用時63.5s;SQL語句數據加載用時7s,統計執行用時5s,總用時12s,顯著快于Excel。可見,基于關系型數據庫的網絡流數據預處理方法優勢顯著,可推廣普及。

四、結語

綜上所述,技術人員可應用基于統計的網絡流數據預處理方法,引入關系型數據庫,按照網絡流數據采集、網絡流數據屬性提取、數據庫表構建、流統計特征提取與分析,完成網絡流數據預處理。該方法具有需求通用性高、處理效率高、智能化與可拓展等優勢,可在網絡流數據預處理中推廣應用。

猜你喜歡
特征提取分類數據庫
分類算一算
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
數據庫
財經(2017年2期)2017-03-10 14:35:35
一種基于LBP 特征提取和稀疏表示的肝病識別算法
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
主站蜘蛛池模板: 国产日韩欧美精品区性色| 三级毛片在线播放| 少妇精品网站| 欧美一区福利| 免费Aⅴ片在线观看蜜芽Tⅴ| 久久国产免费观看| 欧美综合中文字幕久久| 最新国产成人剧情在线播放| 五月丁香伊人啪啪手机免费观看| 欧美色视频在线| 欧美在线中文字幕| 极品国产在线| 国产精品林美惠子在线观看| 久久精品中文字幕免费| 日韩精品一区二区三区大桥未久| 露脸真实国语乱在线观看| 亚洲精品福利网站| 国产一区二区网站| 亚洲国产综合精品一区| 91破解版在线亚洲| 在线观看国产网址你懂的| 无码免费视频| 国产美女91视频| 欧美精品成人| 特级欧美视频aaaaaa| www中文字幕在线观看| 国产精品亚洲综合久久小说| 亚洲一区二区成人| 波多野结衣视频一区二区| 综合亚洲色图| 亚洲手机在线| 亚洲欧美国产高清va在线播放| 国产免费a级片| 99尹人香蕉国产免费天天拍| 成人毛片免费在线观看| 中文字幕久久亚洲一区| 青青久在线视频免费观看| 国产成人综合亚洲欧美在| 国产www网站| 激情爆乳一区二区| av尤物免费在线观看| 国产视频欧美| 天天躁日日躁狠狠躁中文字幕| a亚洲天堂| 亚洲第一精品福利| 欧美亚洲一区二区三区在线| 国产在线观看精品| 极品av一区二区| 国产超碰在线观看| 国产色婷婷视频在线观看| 中文字幕亚洲精品2页| 亚洲国产高清精品线久久| 欧美亚洲日韩不卡在线在线观看| 五月婷婷丁香色| 亚洲精品视频网| 国产污视频在线观看| 亚欧成人无码AV在线播放| 色呦呦手机在线精品| 天堂岛国av无码免费无禁网站| 久久精品日日躁夜夜躁欧美| 久久久精品国产亚洲AV日韩| 亚洲国产av无码综合原创国产| 国产精品自在在线午夜区app| 欧美性猛交xxxx乱大交极品| 亚洲一道AV无码午夜福利| AV熟女乱| 熟妇人妻无乱码中文字幕真矢织江| 成人福利在线观看| 日本妇乱子伦视频| 在线精品欧美日韩| 亚洲中文字幕无码mv| 成人午夜亚洲影视在线观看| 欧美综合激情| 性视频久久| 亚洲天堂2014| 国产三区二区| 污网站在线观看视频| 国产在线精彩视频二区| 青青国产视频| 国内精品九九久久久精品| 国产精品污视频| 国产成人av大片在线播放|