999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于在線學習的分布式流量實時分析系統設計

2022-03-24 08:29:26陳紀龍張鴻宇張聰益宋子康
技術與市場 2022年3期
關鍵詞:單詞特征文本

陳紀龍,張鴻宇,張聰益,宋子康,涂 然

(西南石油大學計算機科學學院,四川 成都 610500)

0 引言

已知的主要流量類型為正常業務流量、網絡攻擊流量與病毒流量。這些流量分為加密流量與未加密流量。已有的研究重點關注流量的某些局部特征,然而忽視了特征之間的交叉和時序關系,并且對加密流量是不適用的。魯剛等利用手工特征工程對流量進行特征提取,描述特征之間的關系[1]。張偉等設計了一個惡意流量實時識別引擎,然而其識別范圍僅限于傳輸層,具有較大的限制,且依賴于部分種類流量的專有特征,不利于推廣使用[2]。 駱子銘等對加密流量和非加密流量進行了識別,但忽視了流量特征域之間的交叉和時序關系,且不利于處理高維稀疏特征[3]。

針對以上研究現狀和啟發,提出在系統中使用 CNN+LSTM 時空神經網絡,結合在線學習技術和虛擬化,保證模型的實時推斷性能和隔離容錯性。這樣的模型能夠在準確地對流量進行分類和識別的同時,根據線上流量特性自行進行動態調整,確保模型的及時更新。

1 系統分析

1.1 數據采集與特征選取

數據集通過CyberFlood工具生成 TLS 加密與非加密的正常業務流量與網絡攻擊行為流量,再使用 Python 對指定的網絡端口抓取流量。對于非加密流量為了使用模型精度達到最大化,直接匹配其 URL 字段用于模型訓練。對于 TLS 加密流量,本系統考慮在不解密加密流量的情況下,通過獲取數據流中的元數據特征,并將其導入至機器學習模型中進行識別。

1.2 數據預處理

對于加密流量,利用Python的Pandas庫進一步進行處理,如對離散型特征進行one-hot編碼來對每一個特征的多個可能值進行處理轉變為多個二元特征,并對特征進行歸一化、數值化等。

對于非加密流量,由于流量特征為URL文本格式,讀取后得到的是一個文本數據,設使用正則表達式解析預處理和分詞之后的流量數據為單詞-文本矩陣,m條流量的URL數據對應m條文本,每條文本的向量空間為單詞向量空間(word vector space),即對每一條流量 URL 文本,用一個向量表示該文本的“語義”,向量的每一維對一個單詞,其數值為該單詞在該文本中出現的權值[4]。數據預處理流程如圖1所示。

圖1 數據預處理流程

1.3 模型訓練

將流量信息建模為行向量作為特征取值,列向量為不同流量的矩陣。使用CNN+LSTM時空神經網絡模型[5]。CNN神經網絡學習流量的空間信息,LSTM神經網絡學習流量在時間方向的信息。

在將文本用TF-IDF表示后可以獲得m×n矩陣,(m為流量條數,n為當前單詞表示所在的向量空間維度)。對每一個n維流量向量,都定義一個從Rn到Rp的線性映射:x→Tx,完成了詞嵌入。

完成詞嵌入后,定義k為卷積核的大小,向量M∈Rk×p是卷積操作的卷積核,然后使M卷積核對窗口張量W(k-grams)的每一個位置j進行卷積,產生多張特征圖cj∈Rm-k+1。對每一個Wj,可以將其重新以不同特征表示,即Wj=[c1c2…cq],q為卷積核個數。接著每一個Wj會被輸入LSTM模型,如圖2所示。

圖2 CNN特征取示意圖

這里采用標準LSTM架構。在每一步中,模塊的輸出由一系列做為舊的隱藏層的ht-1和當前時間輸入xt的共同控制。模型還包括遺忘門ft,輸入門it,輸出門ot。這些門共同決定如何更新當前的記憶單元ct以及當前的隱藏狀態ht。本文選擇在CNN之上增加LSTM學習更高特征序列中的時序依賴。

將LSTM最后一步的最后一個隱藏狀態輸出視為流量的新的表示,添加一個softmax層,最終獲得不同分類標簽的預測概率值。以最小化交叉熵損失的形式訓練整個模型,并使用隨機梯度下降法(SGD)來學習模型參數。

采用2種手段dropout和L2權重正則化來防止模型過擬合。在模型中,將流量序列輸入卷積層之前以及在將LSTM的輸出傳入softmax層之前,對流量向量使用dropout。L2正則化作用于softmax層的權值。

2 實驗結果

2.1 評價指標

因為在實際線上環境中正常流量要遠遠多于惡意流量,故這是一個類別不平衡問題,評價分類器的標準包括AUC、查準率(P)、查全率(R)和綜合評價(F1)。其中,查準率、查全率和綜合評價代表分類器對每種類別的識別能力,AUC能反應模型對樣本的排序的能力。

2.2 評測結果

從表1可以看出,模型在線下同時包括加密和非加密的流量驗證集上的AUC為93.4%,查準率為91.55%,查全率為92.25%,綜合評價得分為91.70%。

表1 模型在不同數據集上的效果 單位:%

3 結語

本文運用數據并行處理技術,采用Hive分布式數據庫對原始流量數據進行存儲。同時使用Spark批處理機制與Flink流式處理機制對流量數據進行并行處理。在模型上,使用CNN+LSTM時空神經網,其中采用CNN對流量空間特征進行提取,LSTM對流量時序特征進行提取,能完成不同種類流量的準確分類。最后在工程上結合在線學習與虛擬化技術,既能滿足高實時性,同時具有高隔離性與容錯性,在工業界有較高的應用價值。

猜你喜歡
單詞特征文本
單詞連一連
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
看圖填單詞
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 一区二区日韩国产精久久| 中文字幕久久亚洲一区| 日韩毛片基地| 国产女人综合久久精品视| 99久久婷婷国产综合精| 国产福利免费视频| a亚洲视频| 成人在线观看不卡| 欧美成人精品一区二区| 欧美在线综合视频| 国产精品19p| 一本久道久综合久久鬼色| 免费可以看的无遮挡av无码 | 国产呦视频免费视频在线观看| 亚洲人在线| 无码一区18禁| 亚洲浓毛av| 国产一区免费在线观看| 亚洲狠狠婷婷综合久久久久| 免费无码AV片在线观看中文| 3344在线观看无码| 伊人91视频| 国产高颜值露脸在线观看| 亚洲国产欧洲精品路线久久| 国产福利不卡视频| 中文字幕在线永久在线视频2020| 91无码人妻精品一区二区蜜桃| 中文字幕乱码二三区免费| 欧美精品xx| 91无码人妻精品一区二区蜜桃 | 在线观看免费人成视频色快速| 高清久久精品亚洲日韩Av| 国产精品福利导航| 一级毛片免费高清视频| 中文成人在线| 韩国v欧美v亚洲v日本v| 欧美成人综合在线| 欧美日韩一区二区三区四区在线观看| 福利在线一区| 亚洲一区二区在线无码| 亚洲人精品亚洲人成在线| 亚洲AV无码久久精品色欲| 另类欧美日韩| 亚洲国产综合自在线另类| 麻豆精品视频在线原创| 2020精品极品国产色在线观看| 国产杨幂丝袜av在线播放| 国产亚洲视频中文字幕视频| 国产亚洲精品在天天在线麻豆 | 精品久久久久无码| 欧美日本视频在线观看| 午夜视频www| 99精品一区二区免费视频| 伦精品一区二区三区视频| 啪啪国产视频| 欧美黄色网站在线看| 五月综合色婷婷| 全部免费毛片免费播放| 中文精品久久久久国产网址 | 亚洲欧美在线精品一区二区| 一级一级一片免费| 色香蕉网站| 亚洲二区视频| 国产激情无码一区二区APP| 伊人久久精品无码麻豆精品 | 欧美区一区| 青青草欧美| 免费无码又爽又黄又刺激网站 | 思思热在线视频精品| 欧美在线伊人| 九九九精品成人免费视频7| 国产情精品嫩草影院88av| 亚洲青涩在线| 无码免费视频| 欧美成人在线免费| 2020国产免费久久精品99| 亚洲αv毛片| 中文字幕中文字字幕码一二区| 一区二区三区在线不卡免费| 一级做a爰片久久免费| 动漫精品啪啪一区二区三区| 国产精品视频第一专区|