999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于在線學習的分布式流量實時分析系統設計

2022-03-24 08:29:26陳紀龍張鴻宇張聰益宋子康
技術與市場 2022年3期
關鍵詞:單詞特征文本

陳紀龍,張鴻宇,張聰益,宋子康,涂 然

(西南石油大學計算機科學學院,四川 成都 610500)

0 引言

已知的主要流量類型為正常業務流量、網絡攻擊流量與病毒流量。這些流量分為加密流量與未加密流量。已有的研究重點關注流量的某些局部特征,然而忽視了特征之間的交叉和時序關系,并且對加密流量是不適用的。魯剛等利用手工特征工程對流量進行特征提取,描述特征之間的關系[1]。張偉等設計了一個惡意流量實時識別引擎,然而其識別范圍僅限于傳輸層,具有較大的限制,且依賴于部分種類流量的專有特征,不利于推廣使用[2]。 駱子銘等對加密流量和非加密流量進行了識別,但忽視了流量特征域之間的交叉和時序關系,且不利于處理高維稀疏特征[3]。

針對以上研究現狀和啟發,提出在系統中使用 CNN+LSTM 時空神經網絡,結合在線學習技術和虛擬化,保證模型的實時推斷性能和隔離容錯性。這樣的模型能夠在準確地對流量進行分類和識別的同時,根據線上流量特性自行進行動態調整,確保模型的及時更新。

1 系統分析

1.1 數據采集與特征選取

數據集通過CyberFlood工具生成 TLS 加密與非加密的正常業務流量與網絡攻擊行為流量,再使用 Python 對指定的網絡端口抓取流量。對于非加密流量為了使用模型精度達到最大化,直接匹配其 URL 字段用于模型訓練。對于 TLS 加密流量,本系統考慮在不解密加密流量的情況下,通過獲取數據流中的元數據特征,并將其導入至機器學習模型中進行識別。

1.2 數據預處理

對于加密流量,利用Python的Pandas庫進一步進行處理,如對離散型特征進行one-hot編碼來對每一個特征的多個可能值進行處理轉變為多個二元特征,并對特征進行歸一化、數值化等。

對于非加密流量,由于流量特征為URL文本格式,讀取后得到的是一個文本數據,設使用正則表達式解析預處理和分詞之后的流量數據為單詞-文本矩陣,m條流量的URL數據對應m條文本,每條文本的向量空間為單詞向量空間(word vector space),即對每一條流量 URL 文本,用一個向量表示該文本的“語義”,向量的每一維對一個單詞,其數值為該單詞在該文本中出現的權值[4]。數據預處理流程如圖1所示。

圖1 數據預處理流程

1.3 模型訓練

將流量信息建模為行向量作為特征取值,列向量為不同流量的矩陣。使用CNN+LSTM時空神經網絡模型[5]。CNN神經網絡學習流量的空間信息,LSTM神經網絡學習流量在時間方向的信息。

在將文本用TF-IDF表示后可以獲得m×n矩陣,(m為流量條數,n為當前單詞表示所在的向量空間維度)。對每一個n維流量向量,都定義一個從Rn到Rp的線性映射:x→Tx,完成了詞嵌入。

完成詞嵌入后,定義k為卷積核的大小,向量M∈Rk×p是卷積操作的卷積核,然后使M卷積核對窗口張量W(k-grams)的每一個位置j進行卷積,產生多張特征圖cj∈Rm-k+1。對每一個Wj,可以將其重新以不同特征表示,即Wj=[c1c2…cq],q為卷積核個數。接著每一個Wj會被輸入LSTM模型,如圖2所示。

圖2 CNN特征取示意圖

這里采用標準LSTM架構。在每一步中,模塊的輸出由一系列做為舊的隱藏層的ht-1和當前時間輸入xt的共同控制。模型還包括遺忘門ft,輸入門it,輸出門ot。這些門共同決定如何更新當前的記憶單元ct以及當前的隱藏狀態ht。本文選擇在CNN之上增加LSTM學習更高特征序列中的時序依賴。

將LSTM最后一步的最后一個隱藏狀態輸出視為流量的新的表示,添加一個softmax層,最終獲得不同分類標簽的預測概率值。以最小化交叉熵損失的形式訓練整個模型,并使用隨機梯度下降法(SGD)來學習模型參數。

采用2種手段dropout和L2權重正則化來防止模型過擬合。在模型中,將流量序列輸入卷積層之前以及在將LSTM的輸出傳入softmax層之前,對流量向量使用dropout。L2正則化作用于softmax層的權值。

2 實驗結果

2.1 評價指標

因為在實際線上環境中正常流量要遠遠多于惡意流量,故這是一個類別不平衡問題,評價分類器的標準包括AUC、查準率(P)、查全率(R)和綜合評價(F1)。其中,查準率、查全率和綜合評價代表分類器對每種類別的識別能力,AUC能反應模型對樣本的排序的能力。

2.2 評測結果

從表1可以看出,模型在線下同時包括加密和非加密的流量驗證集上的AUC為93.4%,查準率為91.55%,查全率為92.25%,綜合評價得分為91.70%。

表1 模型在不同數據集上的效果 單位:%

3 結語

本文運用數據并行處理技術,采用Hive分布式數據庫對原始流量數據進行存儲。同時使用Spark批處理機制與Flink流式處理機制對流量數據進行并行處理。在模型上,使用CNN+LSTM時空神經網,其中采用CNN對流量空間特征進行提取,LSTM對流量時序特征進行提取,能完成不同種類流量的準確分類。最后在工程上結合在線學習與虛擬化技術,既能滿足高實時性,同時具有高隔離性與容錯性,在工業界有較高的應用價值。

猜你喜歡
單詞特征文本
單詞連一連
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
看圖填單詞
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 欧美精品aⅴ在线视频| 国产最爽的乱婬视频国语对白| 91免费精品国偷自产在线在线| 久久久久夜色精品波多野结衣| 少妇高潮惨叫久久久久久| 特级aaaaaaaaa毛片免费视频| 综合亚洲色图| 日韩精品欧美国产在线| 精品国产自| 午夜综合网| 成人福利在线免费观看| 91精品视频网站| 亚洲成aⅴ人在线观看| AV不卡在线永久免费观看| 亚洲色欲色欲www在线观看| 日本成人不卡视频| 国产精品19p| 国产粉嫩粉嫩的18在线播放91| 亚洲精品动漫| 成人午夜精品一级毛片| 视频一本大道香蕉久在线播放| 久久青草免费91观看| 特级毛片8级毛片免费观看| 亚洲综合色吧| 五月婷婷中文字幕| 亚洲欧洲一区二区三区| 亚洲欧美不卡中文字幕| 免费人成网站在线高清| 不卡无码网| 最新亚洲av女人的天堂| 97se综合| 成人韩免费网站| 色综合中文| 国产亚洲视频中文字幕视频| 美女一级免费毛片| 色欲色欲久久综合网| 精品超清无码视频在线观看| 国产精品爽爽va在线无码观看| 欧美日韩北条麻妃一区二区| 五月婷婷亚洲综合| 一本大道香蕉久中文在线播放| 亚洲爱婷婷色69堂| 国产美女91呻吟求| 高潮毛片免费观看| 国内精品视频在线| 国产白浆在线观看| 亚洲乱强伦| 亚洲乱码精品久久久久..| 国产91丝袜在线播放动漫 | 亚洲男人的天堂在线观看| 中文纯内无码H| 久久精品女人天堂aaa| 国产毛片基地| 婷婷综合在线观看丁香| 国产门事件在线| 国产成年女人特黄特色毛片免| 欧美不卡二区| 91在线国内在线播放老师| 99久久精品国产精品亚洲| 久久久久亚洲av成人网人人软件| 亚洲精品国产精品乱码不卞 | 国产日本视频91| 亚洲国产成人自拍| a毛片基地免费大全| 在线观看视频99| 国产第一页亚洲| 高清无码手机在线观看| 国产欧美日韩另类精彩视频| 亚洲精品视频网| 亚洲成a人片77777在线播放| 国产成人1024精品下载| 国内精自视频品线一二区| 巨熟乳波霸若妻中文观看免费| 91精品久久久无码中文字幕vr| 国产制服丝袜无码视频| 亚洲九九视频| 国产亚洲精品资源在线26u| 欧美成人免费一区在线播放| 国产十八禁在线观看免费| 日本免费精品| 91小视频在线观看免费版高清| 国产91小视频|