999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

物聯網異常流量檢測算法研究

2019-03-08 10:26:12鄧海勤
網絡安全與數據管理 2019年2期
關鍵詞:監督檢測方法

鮑 捷,牛 頡,張 勇,鄧海勤

(1.北京郵電大學 電子工程學院,北京 100876;2.愛動超越人工智能科技(北京)有限責任公司,北京 100007)

0 引言

隨著當前物聯網在全球各領域的廣泛應用與快速發展,作為一種信息承載工具,物聯網已經成為人們生活中不可缺少的一部分。物聯網網絡安全問題越來越成為廣受關注的焦點。出于不良目的所產生的異常流量影響著物聯網的正常運轉,用戶主機面臨新的安全隱患,進一步影響了廣大人民群眾的日常工作與生活。

傳統的通過靜態規則匹配的網絡異常檢測方法在動態、復雜的網絡環境中難以檢測出未知異常和攻擊類型,不能滿足網絡安全檢測的要求。機器學習具有自學習、自演化的特性,可以適應復雜多變的網絡環境,能夠檢測出未知異常,滿足實時準確檢測的需求。因此,使用機器學習的方法檢測網絡中海量的流量,對于物聯網領域的發展具有重要的意義。本文借鑒傳統網絡中異常流量檢測技術加以改進,從而識別物聯網中異常流量。因為在實時網絡流量異常檢測中無法得到大量帶標記的樣本記錄,所以從機器學習的無監督學習算法中選取One-class SVM、Isolation Forest、K-means等方法進行網絡異常流量檢測,對相關技術進行分析和比較。

1 網絡異常流量檢測技術

傳統的預防網絡安全的技術主要有防火墻、病毒的查殺軟件等,這些措施只能夠發現一些簡單的網絡入侵,對于一些設計較為嚴密的入侵則較難判斷。新形勢下的互聯網異常流量已經變得比以往更加復雜多變,因此傳統的預防網絡安全的技術只是在特定的范圍中或是一定的程度上起到作用。文獻[1]主要是從分類、聚類、統計、信息理論四個角度來總結異常流量檢測技術。文獻[2]介紹利用數據挖掘的異常流量檢測技術,主要從分類和結合數據挖掘、聚類、關聯分析的多種算法來歸納。張楠等在文獻[3]總結了當前有哪些主流的異常流量檢測技術和檢測過程中的技術和關鍵問題。文獻[4]從入侵檢測方法中的三個方面入手,介紹了異常檢測的方法和技術類型等。文獻[5]從動態網絡的異常檢測出發,歸納了動態網絡中的四種異常類型。雖然有很多機器學習的算法被應用到異常流量檢測中,但是都沒有從機器學習的角度全面地介紹網絡異常流量檢測。

基于監督機器學習的方法是利用標記的數據集將分類器輸出的結果與實際結果進行連續比較,然后調整參數直至訓練出最優模型。早在2005年,樸素貝葉斯被摩爾等人引入并進行流量的識別與分類,之后貝葉斯網絡再一次被奧爾德等人應用,并在性能上加以提高,使用效率優于從前。另一種較為常見的監督算法是C4.5決策樹,應用于K-Nearest Neighbor(KNN)以及流量的識別。但是,這些方法整體傾向于局部優化。支持向量機是有監督的算法,可以避免局部優化,在識別流量方面顯示出高度的準確性,并檢測異常流量。文獻[6]使用KNN算法來實現異常行為的檢測,文獻[7]把KNN和K-means融合在一起形成一個新的方法,文獻[8]針對冗余特征和樣本數據高維度等問題,使用KNN和改進的人工魚群算法來選擇特征向量,提高異常檢測的效率和正確率。文獻[9]是采用的決策樹來實現網絡異常流量檢測。

無監督的算法旨在聚類,即根據統計特征來聚合相似的流量,分離不相似的流量并建立群集和網絡應用之間的映射。在2004年,期望最大化(Expectancy Maximum,EM)被McGregor應用于流量分類。但是,它只能識別未知流量,不能識別出流量的具體應用。然后,Zander st.通過利用EM構建無監督貝葉斯分類器提出了AutoClass。盡管AutoClass可以識別某種類型的流量,但仍然很難識別其他類型的流量。通常,非監督方法比識別特定類型更適合在動態環境中查找新的應用程序類型。文獻[10]提出了一種改進的K-means的方法,將多次劃分的數據集相交直至結果收斂,減少迭代次數、加快了算法的速度。

2 無監督機器學習算法

無監督學習相比較于監督學習是在數據不知道任何標簽的情況下,按照偏好所訓練出的算法,這種方法將所有的數據與不同的標簽映射。

2.1 One-class SVM算法

One-class SVM指的是訓練數據只有一類的數據,學習到這類數據的邊界,然后導入測試集,在此范圍內的數據標簽為1,之外的標簽為-1。例如:假如對工廠的產品進行檢查,往往知道的大多數數據都是合格產品的參數,這個時候可以通過合格產品的參數訓練一個一類分類器,超出這個邊界的便可標記為不合格產品。

它的求解模型如下:

(1)

subject to (w·Φ(xi))≥ρ-ξi,ξi≥0

(2)

2.2 K-means算法

K-means是一種聚類算法,聚類是針對大量未知標簽的數據集,按照數據內部存在的數據特征劃分為不同的類別,使類別內的數據比較相似,類別之間的數據相似度比較大,屬于無監督學習算法。輸入的是樣本集,聚類的簇數是l,最大迭代次數N的輸出是簇劃分。

算法流程:

1.選擇K個點作為初始質心;2.將每個點對應到最近的質心,形成K個簇;3.重新計算每個簇的質心;4.重復上述步驟;5.直到達到最大迭代次數或者是簇不發生變化。

尋找使誤差準則函數最小的簇是K-means算法的目的。簇與簇之間的區別在潛在的簇形狀為凸面的時候比較明顯,而且當簇的大小差不多時,通常情況下會產生比較理想的聚類結果。時間復雜度為O(tKmn)的該算法是與樣本數量呈線性相關的,所以在處理大數據集合的時候效率非常高,并且在處理時也具有很好的伸縮性。除了對初始聚類中心較為敏感以及需要事先確定簇數K之外,算法的結束通常是采取局部最優的方法,并且對孤立點和“噪聲”比較敏感,該方法實際上不適于尋找凸面形狀的簇或者大小差別很小的簇。

2.3 Isolation Forest算法

Isolation Forest是隨機采樣一部分數據構造每一顆iTree,保證不同樹之間的差異性,iTree的構造需要首先隨機選擇一個屬性,然后隨機選擇這個屬性的一個值,把小于這個值的作為左孩子,大于等于的作為右孩子,一般直到傳入的數據集的樹的高度達到了限定高度,iForest具有線性時間復雜度,對全局稀疏點敏感。

算法流程:

1.選擇一個屬性Attr;2.選擇該屬性的一個值Value;3.Attr對每條記錄進行分類,把Attr小于Value的記錄歸為左孩子,把大于等于Value的記錄歸為右孩子;4.遞歸的構造左孩子和右孩子,直至滿足以下的兩個條件之一:(1)傳入的數據集只有一條記錄或者有多條一樣的記錄;(2)樹的高度達到了限定高度。

把iTree構建好之后就可以預測數據了,預測的過程如下:先在iTree上運行一下訓練數據集,看通過測試之后得到的記錄落在哪個葉子節點。iTree能有效檢測異常的假設是:網絡流量異常點一般來說都是十分稀少的,所以在iTree中會很快找到這樣的葉子節點,葉子節點到根節點的路徑用h(x)來表示,可以用這個參數的長度判斷一條記錄x是否是異常點。對于一個包含n條記錄的數據集,其構造的樹的高度最小值為log(n),最大值為n-1,歸一化公式如下:

(3)

c(n)=2H(n-1)-(2(n-1)/n)

(4)

其中H(k)=ln(k)+ξ,ξ=0.577 215 664 9 為歐拉常數。

s(x,n)是記錄x在由n個樣本的訓練數據構成的iTree的異常指數,s(x,n)取值范圍為[0,1]異常情況的判斷分以下幾種情況:

(1)越接近1表示是異常點的可能性高;

(2)越接近0表示是正常點的可能性比較高;

(3)如果大部分的訓練樣本的s(x,n)都接近于0.5, 說明整個數據集都沒有明顯的異常值。

iForest和Random Forest的方法有些類似,都是隨機采樣一部分數據集去構造每一棵樹,保證不同樹之間的差異性,不過iForest與RF不同,采樣的數據量Psi不需要等于n,可以遠遠小于n。

算法流程如下:

輸入:輸入數據X,iTree的數量,樣本大小ψ 輸出:iForest1.初始化Forest;2.設置限制高度;3.對于每個分支構造iTree并賦給Forest;4.返回iForest。

Isolation Forest算法主要有兩個參數:一個是二叉樹的個數;另一個是訓練單棵iTree時候抽取樣本的數目。實驗表明,當設定為100棵樹,抽樣樣本數為256條時,IF在大多數情況下已經可以取得不錯的效果,體現了算法的簡單、高效。

Isolation Forest是無監督的異常檢測算法,在實際應用時,并不需要黑白標簽。需要注意的是:(1)如果訓練樣本中異常樣本的比例比較高,違背了先前提到的異常檢測的基本假設,可能最終的效果會受影響;(2)異常檢測與具體的應用場景緊密相關,算法檢測出的“異常”不一定符合場景實際。比如,在識別虛假交易時,異常的交易未必就是虛假的交易。所以,在特征選擇時,可能需要過濾不相關的特征,以免識別出一些不相關的“異常”。

3 實驗與分析

本文中pcap流量包使用開源數據集CICIDS2017[11],CICIDS2017數據集包含良性和最新的常見攻擊,類似于真實的真實數據(PCAP)。還包括使用CICFlowMeter進行網絡流量分析的結果,該流量分析具有基于時間戳、源和目標IP、源和目標端口、協議和攻擊(CSV文件)的標記流。使用wireshark對pcap流量包進行解析、預處理操作,最后得到41維的.csv文件作為本文使用的數據集。對三種結果數據整理、計算,可得到正確率、誤報率、漏報率、效率,如表1所示。

表1 實驗結果分析

從表中可以看出,K-means在正確率、誤報率、漏報率、效率方面要優于Isolation Forest和One-class SVM。綜合來看,K-means表現要優于其他兩種無監督機器學習算法。

4 結論

使用三種不同的無監督機器學習算法對物聯網異常流量進行檢測,通過結果對比可以得到K-means算法要優于其他兩種算法,Isolation Forest算法表現最差。希望為無監督機器學習算法檢測物聯網流量研究提供借鑒。

猜你喜歡
監督檢測方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 亚洲欧美日韩成人在线| 欧美精品v| 亚洲精品在线观看91| 亚洲色成人www在线观看| 九九线精品视频在线观看| 欧美日韩资源| 精品在线免费播放| 日本欧美精品| 国产精品亚洲五月天高清| 国产视频a| 亚洲动漫h| 亚洲国内精品自在自线官| 99久久99视频| 香蕉国产精品视频| 国产精品人莉莉成在线播放| 日韩二区三区| 亚洲天堂视频在线播放| 成人福利在线免费观看| 成年人国产视频| 中文字幕无码中文字幕有码在线| 亚洲妓女综合网995久久| 新SSS无码手机在线观看| 在线无码私拍| 亚洲欧美日韩另类| 2048国产精品原创综合在线| 精品视频在线观看你懂的一区| 日韩成人午夜| 国产91无毒不卡在线观看| 人妻无码中文字幕第一区| 欧美成人国产| 久久久四虎成人永久免费网站| 国产精品久久国产精麻豆99网站| 欧洲精品视频在线观看| 日本午夜三级| 波多野结衣第一页| 久久久久无码国产精品不卡| 国产精品视频系列专区| 日本一区二区不卡视频| 婷婷六月激情综合一区| 5555国产在线观看| 天天躁夜夜躁狠狠躁图片| 99视频精品全国免费品| 国产精品思思热在线| 五月婷婷亚洲综合| 精品无码国产一区二区三区AV| 色综合五月| 亚洲第一成年网| 国产精品亚洲五月天高清| 成人午夜福利视频| 福利在线不卡| 欧美激情第一欧美在线| 老司国产精品视频| 成人福利一区二区视频在线| 亚洲成a人片| 国产靠逼视频| 亚洲无线观看| 亚洲第一极品精品无码| 奇米精品一区二区三区在线观看| 国产农村1级毛片| 亚洲精品国产乱码不卡| 伊人久久婷婷| 最新亚洲人成网站在线观看| 亚洲国产精品日韩av专区| 亚卅精品无码久久毛片乌克兰| 夜精品a一区二区三区| 欧美性色综合网| a天堂视频| 国产69囗曝护士吞精在线视频| 91啦中文字幕| 亚洲有无码中文网| 国产成人永久免费视频| 欧美第一页在线| 日韩福利视频导航| 91免费在线看| 日韩黄色在线| 国产午夜一级淫片| 波多野结衣中文字幕一区二区| 欧美一级在线| 亚洲天堂精品视频| 性色在线视频精品| 国内精品视频| 不卡色老大久久综合网|