999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

半監(jiān)督異常流量檢測研究綜述

2020-12-10 10:05:36李杰鈴
小型微型計算機系統(tǒng) 2020年11期
關鍵詞:監(jiān)督檢測

李杰鈴,張 浩

(福州大學 數(shù)學與計算機科學學院,福州 350116)(福建省網絡計算與智能信息處理重點實驗室,福州 350116)

1 引 言

隨著下一代蜂窩網絡(5G及更高版本)的不斷發(fā)展,至關重要的是檢測并及時處理潛在的網絡流量異常情況,以避免涉及網絡性能和公共安全的關鍵問題.網絡異常流量檢測通過對流量的檢測分析判斷,可以盡早地發(fā)現(xiàn)網絡中是否有入侵行為,為網絡安全管理提供依據(jù),因此,異常流量檢測逐漸成為網絡安全領域的研究重點.

現(xiàn)有基于機器學習的異常流量檢測方法大多需要利用大量的已標記數(shù)據(jù)進行訓練,如OCSVM(One-Class Support Vector Machine)[1].然而,在實際網絡入侵場景中,每條標記數(shù)據(jù)都需要利用專家知識人工標注,數(shù)據(jù)標簽非常昂貴,從而導致訓練的流量數(shù)據(jù)集規(guī)模非常有限,即已標注的數(shù)據(jù)量較小.有限規(guī)模的訓練數(shù)據(jù)集進一步地降低了模型的準確度.同時,由于網絡流量數(shù)據(jù)的分布會隨著時間的變化而變化,因此往往會有更多未知攻擊類型的數(shù)據(jù),并且標記數(shù)據(jù)所代表的類型是已知的,如果僅僅根據(jù)標記數(shù)據(jù)進行訓練,則在檢測未知的異常類型時,會導致檢測精度不理想.而如果采用無監(jiān)督方法,則會因為缺乏標簽數(shù)據(jù)的引導造成模型性能差等問題.

在異常流量檢測中,獲取大量未標記樣本相對容易,可以利用大數(shù)據(jù)技術對每個節(jié)點的傳感器進行采集.而獲取少量標記數(shù)據(jù)是符合實際的,所以使用少量的標記數(shù)據(jù)進行指導,以此來充分利用大量未標記數(shù)據(jù)的半監(jiān)督學習技術正在獲得廣泛關注[2].通過Web Of Science平臺(www.webofknowledge.com),分別以關鍵詞′Semi-supervised Learning′,′Anomaly Traffic Detection or Network intrusion detection′和′Semi-supervised Learning and(Anomaly Traffic Detection or Network intrusion detection)′為主題進行文獻檢索,檢索時間為2020年06月15日.統(tǒng)計結果發(fā)現(xiàn),無論是半監(jiān)督學習(圖1(a))還是異常流量檢測(圖1(b)),文獻發(fā)表數(shù)量都逐年遞增,而半監(jiān)督異常流量檢測(圖1(c))研究體量較少,但是半監(jiān)督異常流量檢測也日益引起學者關注,相關的文獻出版量也在逐年提升.

圖1 2010年-2020年文獻出版數(shù)Fig.1 Number of publications from 2010 to 2020

國內外學術界已有半監(jiān)督技術的相關綜述,尚未有對半監(jiān)督技術在異常流量檢測方法上進行總結的文獻,本文將對半監(jiān)督異常流量檢測技術的研究現(xiàn)狀進行全面綜述.接下來第2節(jié)論述異常流量檢測的特性與關聯(lián)性;第3節(jié)介紹半監(jiān)督學習方法;第4節(jié)介紹半監(jiān)督學習在異常流量檢測中的應用;第5節(jié)討論此研究領域存在的問題,并對研究前景進行展望;第6節(jié)總結全文.

2 異常流量檢測的特性與關聯(lián)性

異常流量是指在網絡環(huán)境中偏離正常流量的情形,一般來說,在不同的網絡配置中正常流量和異常流量的定義是不同的[3].異常流量檢測是在網絡中發(fā)現(xiàn)可能存在的異常操作、攻擊行為以及尋找非正常預期行為的過程.現(xiàn)階段的一些研究,如流數(shù)據(jù)、離群點、數(shù)據(jù)不平衡、相關的自然語言技術都可應用于具體的網絡安全領域中.

2.1 流數(shù)據(jù)

我們日常生活中的許多現(xiàn)實應用程序都以前所未有的速度生成大量的流數(shù)據(jù),如Web單擊數(shù)據(jù)流[4].與傳統(tǒng)數(shù)據(jù)相比,流數(shù)據(jù)具有以下特點:海量、高維度、動態(tài)性、無限增長、高速到達、實時性要求高.流數(shù)據(jù)可分為動態(tài)流和穩(wěn)定流,穩(wěn)定的數(shù)據(jù)流是獨立的、同分布的,而動態(tài)數(shù)據(jù)流不是獨立的、同分布的,這會導致概念漂移現(xiàn)象.概念漂移意味著目標變量隨時間而變化[5].由于網絡流量符合以上流數(shù)據(jù)特性,所以采用流數(shù)據(jù)模型來描述實際的網絡流量,解決現(xiàn)有的異常流量檢測模型存在的不足是合適的.現(xiàn)有文獻大多利用滑動窗口使異常分數(shù)的分配可以隨著流數(shù)據(jù)的變化而變化,以突出顯示最近生成的數(shù)據(jù).而對于概念漂移問題,有各種解決辦法,如分層時間存儲(Hierarchical Temporal Memory,HTM)[6],長短期記憶網絡(Long Short-Term Memory,LSTM)[7]等.流數(shù)據(jù)還面臨著內存有限和反應及時的挑戰(zhàn),大數(shù)據(jù)處理系統(tǒng)正在逐漸面向流,已有研究者為不同用例選擇正確的流處理框架和多級流分析架構提供指南[8].

2.2 離群點

離群點是顯著不同于其他數(shù)據(jù)分布的數(shù)據(jù)對象,如異常點、孤立點等.網絡流量符合流數(shù)據(jù)的特性,而離群點中的檢測異常點即檢測流量中的惡意請求,所以我們可以多關注流數(shù)據(jù)的離群點檢測算法.Ahmad等人[9]將HTM擴展開來,用于流數(shù)據(jù)的離群點檢測.專注于離群點檢測的深度學習技術(Deep Anomaly Detection,DAD)也取得了很大進步,DAD模型可分為監(jiān)督深度異常檢測;半監(jiān)督深度異常檢測;無監(jiān)督深度異常檢測.由于離群點大多缺乏大量的標記數(shù)據(jù)集,因此有監(jiān)督的深度異常檢測應用并不廣泛.無監(jiān)督的深度異常檢測通過捕捉數(shù)據(jù)的內在屬性來檢測離群點,然而,流量屬于復雜的高維數(shù)據(jù),這類方法很難捕獲數(shù)據(jù)的內在屬性,嚴重影響檢測結果.半監(jiān)督的深度異常檢測,如使用深度自動編碼器[10],通過半監(jiān)督技術訓練正常數(shù)據(jù)集,當數(shù)據(jù)集足夠大時,深度自動編碼器可以在正常數(shù)據(jù)中獲得較的高準確率,反之能檢測出異常值.未來可以將傳統(tǒng)技術與深度學習相結合,提升算法的性能和檢測能力.

2.3 數(shù)據(jù)不平衡

在實際的網絡應用中存在著大量不平衡數(shù)據(jù),在幾萬條流量數(shù)據(jù)里可能僅有一個請求是異常的,數(shù)據(jù)不平衡程度很容易超過10000∶1.在高度不平衡的數(shù)據(jù)中進行學習,分類器很容易偏向多數(shù)類而忽略少數(shù)類[11].不平衡數(shù)據(jù)集分類可基于數(shù)據(jù)層面和基于數(shù)據(jù)挖掘層面.在數(shù)據(jù)層面將不平衡數(shù)據(jù)集轉換成平衡數(shù)據(jù)集是人們處理不平衡數(shù)據(jù)所采用的常用方法,如使用SMOTE結合Tomek Links對數(shù)據(jù)過采樣[12].雖然這些技術直接改變了每個樣本的數(shù)量,但并不總是有助于生成一個平衡的語料庫,因為選定的樣本可能包含太多獨特的詞或很少的詞.Kamarudin等人[13]使用混合特征選擇,選取具有更大區(qū)分能力的特征來強化少數(shù)類所起到的作用.Mimura[14]從惡意和良性單詞中計算單詞重要性分數(shù)(Term Frequency,TF),并提取前N個重要單詞,通過這種方式,從代理日志中提取重要的單詞來總結語料庫有效地緩解了類不平衡問題.該方法不需要設計特征向量,并且不改變每個樣本的數(shù)量.依賴于分類器的數(shù)據(jù)挖掘算法在解決不平衡問題上也有廣泛的應用,如基于半監(jiān)督學習機制的聚類算法,其簡單且可解釋性強,但是聚類速度慢,對噪聲較為敏感,不適用于大數(shù)據(jù)樣本.基于Boosting的挖掘算法[15],通過加大分類錯誤樣本權重,進而強化權重較大樣本的學習,但是可能會出現(xiàn)過擬合的現(xiàn)象,且適用的數(shù)據(jù)集的不平衡程度不易過大.

2.4 自然語言技術

流量的異常檢測歸根結底還是基于日志文本的分析,因而可以借鑒自然語言技術中的一些方法思路,進行文本分析建模.一般先使用自然語言處理方法解決流量數(shù)據(jù)高維復雜性問題或者提取重要信息,然后再通過機器學習或者神經網絡學習建立模型和微調模型.異常檢測中借鑒自然語言技術比較成功的是基于隱馬爾科夫模型[16]的參數(shù)值異常檢測.此外,隨著自然語言技術的發(fā)展,越來越多的模型被應用于惡意行為的分類.例如Nagano和Uda[17]提出了一種用段落向量檢測未見惡意軟件可執(zhí)行文件的方法,該方法從可執(zhí)行文件中提取信息頭、程序集代碼或字節(jié)等內容并將它們轉換為具有段落向量的特征向量.Miura等人提出了一種檢測未見惡意VBA宏[18-20]的方法,該方法使用段落向量和TFIDF(Term Frequency Inverse Document Frequency)模型表示VBA宏的源代碼.Mimura[14]從未知代理日志派生段落,用訓練好的Doc2vec模型將段落轉換為特征向量,Doc2vec可以計算兩個文檔之間的語義相似性,并從語義上推斷出相似的文檔.Mimura早期也使用Doc2vec來表示未見的流量[21],并且將其擴展到支持任何協(xié)議的通用檢測方法[22].

3 半監(jiān)督學習

半監(jiān)督學習是同時采用標簽和無標簽樣本數(shù)據(jù)的機器學習方法,是機器學習領域中比較新興的方法.其常采用有標簽數(shù)據(jù)改進、變更樣本的重要性來探索無標簽樣本,如圖2所示.主動學習和直推學習也是利用未標注數(shù)據(jù)學習的主流技術[23],他們的目標都是在提高泛化誤差的同時盡可能地減少標記數(shù)據(jù)的花費.其中主動學習依賴于人工干預,而直推學習關注在未標注數(shù)據(jù)上的預測性能.

圖2 半監(jiān)督學習Fig.2 Semi-supervised learning

Miller等人首先根據(jù)數(shù)據(jù)分布的估計闡述了未標注數(shù)據(jù)的加入確實可以對分類模型的性能起到正面的促進作用[24].假設樣本數(shù)據(jù)的真實類別標記為y∈Y,Y={1,2,…,C}為所有類別,且樣本數(shù)據(jù)項由C個高斯混合分布構成,每一類對應一個高斯混合成分,如式(1)所示:

(1)

其中,αi≥0;ui和∑i為高斯混合成分參數(shù),p(x|ui,∑i)為樣本x屬于第i個高斯混合成分的概率.令f(x)∈y表示模型f對樣本x的預測結果,Θ∈{1,2,…,C}表示樣本x所屬的高斯混合分量.由最大化后驗概率可得式(2):

(2)

在f(x)中,p(y=j|Θ=i,x)表示樣本x由第i階高斯混合分量產生且類別為j的概率,p(Θ=i,x)表示樣本x由第i個高斯混合成分生成的后驗概率.可以發(fā)現(xiàn),式(2)中,估計p(y=j|Θ=i,x)需要知道樣本的標記,而p(Θ=i,x)不需要知道樣本標記.因此,無標記數(shù)據(jù)和有標記數(shù)據(jù)都可以利用,當引入更多大量的無標記數(shù)據(jù)時,對于這一項的估計能夠更加準確,所以未標記數(shù)據(jù)可以輔助提高分類模型的性能.

半監(jiān)督學習的成立依賴于模型假設,當模型假設正確時,無類標簽的樣本能夠幫助改進學習性能.半監(jiān)督學習中常用的三個基本假設是光滑假設、聚類假設和流形假設.其中光滑假設是指稠密區(qū)域中兩個位置相近的樣本,其類標簽相似.聚類假設是當兩個樣本在同一個聚類中,它們具有相同的類別.流形假設意味著當兩個樣品都位于一個低維流形的一個小鄰域時,它們的標簽應該是相似的.

半監(jiān)督學習算法主要包含半監(jiān)督聚類、半監(jiān)督分類和半監(jiān)督回歸.半監(jiān)督聚類可以比單獨使用無標記樣本得到更好的聚類,提高了聚類方法的準確性[25].半監(jiān)督分類是利用未標記樣本訓練有標記樣本,以獲得比僅使用未標記樣本訓練的分類器性能更好的分類器,從而彌補標記樣本不足的缺點.半監(jiān)督回歸主要考慮模型的局部特性,其對應的是流形假設,現(xiàn)階段半監(jiān)督回歸的研究十分缺乏.其中半監(jiān)督分類的關注度最高,一方面由于很多實際問題屬于分類范疇,另一方面是因為機器學習算法中分類算法研究成果逐漸豐富[26].半監(jiān)督分類包括生成模型、半監(jiān)督圖算法、支持向量機、自訓練和協(xié)同訓練.

生成模型假設所有數(shù)據(jù)都是由同一個潛在模型生成的,可直接基于極大似然估計來對參數(shù)求解,易于實現(xiàn),但是如果模型假設不正確會降低泛化性能.半監(jiān)督圖算法將分類學習的問題轉化為圖的形式,一個樣本對應圖中的一個結點,若兩個樣本之間具有較高的相似性,則對應結點之間存在一條邊,相似度就轉化為邊的強度,即將半監(jiān)督學習問題轉化為基于圖的標簽傳播,從而實現(xiàn)了對無標簽數(shù)據(jù)的利用.然而當數(shù)據(jù)規(guī)模變大的時候,圖的規(guī)模也隨之變大,則分類效率會降低.直推式支持向量機算法是半監(jiān)督支持向量機中的代表算法,該算法采用局部搜索來迭代尋找最優(yōu)解,在小樣本分類問題中表現(xiàn)出了良好的性能,但是模型求解效率低.

自訓練和協(xié)同訓練屬于啟發(fā)式的半監(jiān)督學習算法,其研究過程不斷改進.自訓練模型是在學習過程中利用模型自身的預測結果來不斷訓練更新自己,但一旦模型給出的預測結果有誤,就會在后續(xù)訓練過程中形成誤差累積.Co-training協(xié)同訓練法[27]分別在每個視圖上利用有標記樣本訓練一個分類器,然后,每個分類器從未標記樣本中挑選若干標記置信度加入另一個分類器的訓練集中,以便對方利用這些新增的有標記樣本進行更新,然而協(xié)同訓練法要求數(shù)據(jù)具有兩個充分冗余且滿足條件獨立性的視圖.Tri-training[28]是一種新的 Co-training 模式,使用三個分類器進行訓練,對于相同的未標記的實例,兩個分類器具有相同的預測,認為該實例具有較高的標記置信度,在標記后,將其添加到第三個分類器的標記訓練集中進行模型重構.即使Tri-training已有較大改進,但是仍然有缺陷,如在模型更新的時候,其采用隨機抽樣可能導致分類性能惡化,特別是處理不平衡樣本時,已標記樣本可能具有大量相似的樣本或相同的分布,對這類樣本集進行隨機抽樣,會造成樣本差異性小,從而降低了分類準確率.

4 半監(jiān)督學習在異常流量檢測中的應用

半監(jiān)督學習是有監(jiān)督和無監(jiān)督技術的結合,其核心問題是如何有效利用無標注數(shù)據(jù)輔助學習.為緩解實際異常流量檢測任務中難以獲得大量模塊標注這一難題,半監(jiān)督學習被引入異常流量檢測,以利用大量未標注流量樣本,提升在少量標記樣本的模塊上學習建模的性能.半監(jiān)督異常流量檢測的基本流程如圖3所示.首先選擇部分模塊送交網絡安全專家,獲得每個模塊的異常情況標注,然后基于所形成的有標注的流量模塊和無標注流量模塊進行半監(jiān)督學習,用于預測新模塊的異常情況.

圖3 半監(jiān)督異常流量檢測流程Fig.3 Semi-supervised anomaly traffic detection process

第三節(jié)介紹了半監(jiān)督學習主要包含的幾種范型,但是根據(jù)學習場景的不同,可具體再將半監(jiān)督類型進行劃分.本文從半監(jiān)督聚類、半監(jiān)督分類、半監(jiān)督降維、半監(jiān)督集成和增量半監(jiān)督這五個方面對異常流量檢測這一特定的學習場景展開評述.其中后三類分別對應流量的數(shù)據(jù)不平衡性、高維復雜性、實時新增這三個特性,圖4展示了相應的研究進展.

圖4 半監(jiān)督異常流量檢測研究進展Fig.4 Research progress of semi-supervised anomalytraffic detection

4.1 基于半監(jiān)督聚類的異常流量檢測

半監(jiān)督聚類綜合了有監(jiān)督學習和無監(jiān)督學習的優(yōu)勢,提高了聚類的質量,是近幾年來機器學習和異常檢測領域的重要研究方向之一[29].半監(jiān)督學習和無監(jiān)督學習的差異體現(xiàn)在監(jiān)督信息的使用,其中監(jiān)督信息主要包括樣本的類別標簽和成對約束關系[26].K-means是使用最多的半監(jiān)督聚類方法,其主要思想是將少量標記樣本和大量無標記樣本混合的訓練集聚類成若干不相交的簇,然后通過標記的樣本完成簇與類別之間的映射.然而,K-means算法的迭代過程一直沿減小目標函數(shù)的方向進行,容易陷入局部最優(yōu).Gu等人[30]提出了一種改進的基于密度的初始聚類中心選擇方法,以解決k均值聚類的離群值和局部最優(yōu)問題.

雖然K-means的能夠降低標記樣本的復雜度,但是其分類準確率低,主要的原因是沒有找到最有效的流量特征集.近幾年,很多文獻在進行半監(jiān)督聚類之前先進行特征提取或者特征選擇.Xu等人[31]引入信息增益率自適應地選取流量特征并進行定量分析,然后利用改進的K-means來標記相似的流量特征.Gu等人[30]提出了一種使用混合特征選擇算法(semi-supervised weighted k-means method using hybrid feature selection algorithm,SKM-HFS)的半監(jiān)督加權k均值方法,以實現(xiàn)更好的檢測性能.但是,還有兩個值得注意的因素影響模型的魯棒性,一個是不同類別中網絡流量的嚴重失衡,另一個是特征空間中訓練集和測試集之間的不相同分布.Yao等人[32]提出了一種分層半監(jiān)督k均值算法的多層入侵檢測模型框架,旨在找出所有純集群,以解決這些問題.表1總結了上述幾種典型方法的優(yōu)缺點.

表1 基于半監(jiān)督聚類的異常流量檢測Table 1 Anomaly traffic detection based on semi-supervised clustering

除此之外還有很多半監(jiān)督聚類算法在流量異常檢測領域中引起關注.Ashfaq等人[33]使用模糊量對未標記樣本進行分類,將每個類別分別合并到原始訓練集后再對分類器進行訓練.Usha等人[34]先使用獨立的度量標準歸一化增益對特征進行排名,然后采用基于粒子群優(yōu)化的半監(jiān)督聚類方法進行入侵檢測.Shailendra等人[35]使用半監(jiān)督模糊c均值(Fuzzy C-Means,F(xiàn)CM)處理標記數(shù)據(jù)問題,并使用極限學習機(Extreme Learning Machine,ELM)算法提供良好的泛化性能.

4.2 基于半監(jiān)督分類的異常流量檢測

已有的半監(jiān)督分類算法可以分為5類,包括自訓練、基于分歧的半監(jiān)督學習、半監(jiān)督支持向量機、生成式的半監(jiān)督學習和基于圖的半監(jiān)督學習[26].其中前3種類型比較適用于網絡流量特點,而后兩種不加優(yōu)化的話往往會影響流量檢測的效率和準確度.

自訓練半監(jiān)督是早期利用無標記樣本的原始框架,其訓練效果較好,且實現(xiàn)簡單.Wagh等人[36]提出半監(jiān)督自學習模型,他們的結果證實使用原始標簽數(shù)據(jù)的準確性進一步決定是否將新的未標簽數(shù)據(jù)輸入到下一個迭代中,是提高半監(jiān)督學習性能的有效方法.基于分歧的半監(jiān)督學習方法也稱為協(xié)同訓練,其使用具有不同學習算法的多個基本分類器來給未標記數(shù)據(jù)提供標注,然后選擇未標記數(shù)據(jù)中置信度高的樣本進行利用.Li等人[37]采用基于分歧的整體協(xié)同訓練算法開發(fā)了一種實用的基于多視圖的誤報減少系統(tǒng),通過共同訓練,一個視圖生成的分類器可以“教”從其他視圖構建的其他分類器學習,反之亦然;并且通過共識訓練,從多個角度進行的預測可以為未標記的數(shù)據(jù)提供更高的置信度.半監(jiān)督支持向量機具有良好的泛化能力和穩(wěn)定性,且適用于非線性數(shù)據(jù)集的建模.Mousavi等人[38]提出了一種新穎的拉普拉斯孿生支持向量機分類器在線版本,它可以利用嵌入在未標記數(shù)據(jù)中的邊際分布的幾何信息,在網絡入侵檢測中取得了理想效果.半監(jiān)督分類關注度最高,相應的研究也非常多,更多基于半監(jiān)督分類的異常流量檢測方法如表2所示.

表2 基于半監(jiān)督分類的異常流量檢測Table 2 Anomaly traffic detection based on semi-supervised classification

生成式的半監(jiān)督學習,其適用于特征相對簡單以及維度不高的場景,不符合網絡流量特征復雜和高維度的特性,目前還很少有將其應用到異常流量檢測領域中的相關文獻.基于圖的半監(jiān)督方法定義了一個圖,在該圖上,節(jié)點表示帶標簽的示例和未帶標簽的示例,并且邊反映了示例之間的相似性.但是基于圖的算法需要很高的空間復雜度,對網絡流量異常檢測系統(tǒng)而言效率不高.

4.3 基于半監(jiān)督降維的異常流量檢測

實際網絡流量維數(shù)較高,高維向量使得異常流量檢測的計算量顯著增加,無法應用于具有較高實時性和準確性的異常流量檢測模型,且學習算法通常無法很好地處理此類數(shù)據(jù),因此提出了降低數(shù)據(jù)維數(shù)的挑戰(zhàn).半監(jiān)督降維技術兼具無監(jiān)督降維和有監(jiān)督降維的優(yōu)點,節(jié)省了大量的樣本標注工作量,具有與降維前相當?shù)奶摼屎蜏蚀_率.賈偉峰等人[39]提出了一種基于半監(jiān)督降維技術和BP神經網絡的入侵檢測方法,構造一個變換矩陣,將高維向量投射到低維空間,使其滿足主成分最大化、類間距最大化和類內間距最小化.該方法在降低維數(shù)的前提下,可以保持檢測性能和提升運算速度.冶曉隆等人[40]使用主成分分析和禁忌搜索來減少高維特征空間冗余以及選擇最優(yōu)特征,然后結合最短距離劃分決策樹(Min-Distance Decision Tree,MDDT)進行半監(jiān)督學習,實現(xiàn)了異常檢測的實時性和高準確率,但是該算法沒有將無標記數(shù)據(jù)和有標記數(shù)據(jù)結合使用.現(xiàn)有半監(jiān)督降維技術所使用的監(jiān)督信息大多為標簽信息或者成對約束信息,只適用與離散變量,不適用于連續(xù)變量.且當網絡流量數(shù)據(jù)為高維稀疏樣本時,容易受微小擾動的影響.

半監(jiān)督學習過程本身會增加模型訓練時間,需要一種有效而合理的降維方法來減輕計算機的計算負擔,除此之外,降維還為有效和清晰的數(shù)據(jù)可視化提供了有用的基礎.現(xiàn)階段在異常流量檢測這一特定領域的半監(jiān)督降維研究還相對較少,但是大范圍內針對半監(jiān)督降維方法的研究成果還是比較豐富.傳統(tǒng)的監(jiān)督降維方法通常可以在大量樣本的前提下通過特征選擇或者特征提取建立更好的模型.但是,在缺乏標簽數(shù)據(jù)的現(xiàn)實世界中,由于過度擬合,傳統(tǒng)方法的性能往往較差.在這種情況下,未標記的樣本可能有助于改善性能,同時利用這些有標記的數(shù)據(jù)和無標記的數(shù)據(jù)可以有效地對多維數(shù)據(jù)進行降維.表3列舉了半監(jiān)督降維學習的相關模型,其中前三個模型為當前最新的有價值意義的半監(jiān)督降維算法,后兩個模型為半監(jiān)督降維與其它算法的優(yōu)勢結合,希望此分析能為后續(xù)研究者將相關半監(jiān)督降維方法應用于異常流量檢測提供幫助.

表3 半監(jiān)督降維方法的對比分析Table 3 Comparative analysis of semi-supervised dimensionality reduction methods

4.4 基于半監(jiān)督集成的異常流量檢測

基基于分歧的半監(jiān)督學習是半監(jiān)督集成學習的起源,使半監(jiān)督學習和集成學習的交叉研究日益豐富[51].網絡流量數(shù)據(jù)種類繁多,只訓練了足夠多的未標記樣本,但沒有多個學習器,學習器不能做得足夠好,而只有多個學習器集成學習但無額外無標記樣本也不能取得理想的檢測效果.半監(jiān)督學習可以解決集成學習標記樣本量不足的問題,也可以增加學習器在集成學習中的多樣性,而集成學習可以降低半監(jiān)督學習的泛化誤差,加快其收斂速度,最重要的是可以減少類不平衡對預測產生的偏倚.所以半監(jiān)督和集成學習可以有機結合,互相幫助.

根據(jù)不同的組合方法,半監(jiān)督集成可分為基于半監(jiān)督的集成學習和基于集成的半監(jiān)督學習,若最終用來預測標簽的學習器是單一學習器,則為基于集成的半監(jiān)督學習,否則為基于半監(jiān)督的集成學習[51].兩種類型的訓練過程如圖5所示.

圖5 半監(jiān)督集成訓練過程Fig.5 Semi-supervised integrated training process

Omar等人[25]提出了一種用于網絡入侵檢測和預防任務的半監(jiān)督多層群集模型(Semi-supervised Multi-Layered Clustering Model,SMLC),他們建立三個不同的分類器,然后使用部分標記的集群中的未標記實例來細化這三個分類器,最終的結果是通過三個基分類器的所有個體決策中的多數(shù)表決產生的.Khonde等人[52]使用五個分類器:隨機森林,支持向量機,人工神經網絡,決策樹和K最近鄰進行半監(jiān)督學習.所有分類器根據(jù)獲得的平均分數(shù)縮小特征,然后比較五個分類器生成的結果,并使用加權多數(shù)投票算法確定流量數(shù)據(jù)包的類別.Gao等人[53]提出了一種基于整體學習的基于模糊性的半監(jiān)督學習方法(fuzziness-based semi-supervised learning approach via ensemble learning,FSSL-EL),首先構建了一個由標記數(shù)據(jù)訓練的集成系統(tǒng),然后采用基于模糊性的方法進行數(shù)據(jù)分析以更好地利用未標記的數(shù)據(jù).表4列出了半監(jiān)督集成不同類型方法的對比分析,其中Tri-training可以采用3個學習器綜合預測,或者采用其中一個學習器進行預測,但是從該方法的訓練過程和最初的設計想法,可以認為它是基于集成的半監(jiān)督學習.

表4 基于半監(jiān)督集成的異常流量檢測Table 4 Anomaly traffic detection based on semi-supervised integration

4.5 基于增量半監(jiān)督的異常流量檢測

對于當前的計算智能技術,主要挑戰(zhàn)是如何在不斷變化的環(huán)境中學習新概念.面對持續(xù)增加的網絡流量數(shù)據(jù),在初期獲得一個完備的流量樣本訓練集難以實現(xiàn),這就要求半監(jiān)督分類器可以隨著新流量樣本的積累不斷提高學習精度,所以增量學習能力不可或缺.增量學習是指能夠從新的樣本中不斷地學習新的知識,并且能夠保存大部分已經學習過的知識.增量學習算法還具備以下特點:

1)能夠從新的數(shù)據(jù)中學習新的知識;

2)以前處理過的數(shù)據(jù)不需要重復處理;

3)每次只能學習一個訓練觀察樣本;

4)新的知識可以在學習大部分以前學過的知識的同時保存下來;

5)學習完成后,丟棄訓練觀察樣本;

6)學習系統(tǒng)沒有關于整個訓練數(shù)據(jù)集的先驗知識.

增量半監(jiān)督有效地解決了因出現(xiàn)新樣本而造成原分類器精度降低、分類時間延長的問題.Xiang等人[54]提出了一種結合了自組織增量神經網絡,非線性建模和半監(jiān)督學習的算法,它能夠在新數(shù)據(jù)上更新學習的模型且該算法的空間復雜性降低到類似于監(jiān)督學習的程度.Fakhroddin等人[55]使用增量聚類提出一種新的半監(jiān)督流分類算法,可以直接支持混合數(shù)據(jù),但是其聚類結果依賴于樣本計算的順序.Zhang等人[56]提出了一種適用于訓練解碼器和更新分類器參數(shù)的半監(jiān)督增量更新算法.該算法可提供與常規(guī)監(jiān)督訓練方法相同的檢測性能,但是深度架構的復雜度較高,需要使用基于GPU的計算設備,以在網絡流量或模型復雜度增加時加快并行計算速度.

5 半監(jiān)督異常流量檢測趨勢與展望

5.1 半監(jiān)督異常流量檢測存在的問題

到目前為止,基于半監(jiān)督學習的異常流量檢測技術取得了很大的進步,已能初步解決標注樣本少、數(shù)據(jù)種類繁多等特點的流量檢測問題和應用,但是依然存在以下問題:

1)半監(jiān)督學習過程會增加模型訓練時間,在實時的異常流量檢測中不可行;

2)復雜的流量數(shù)據(jù)中半監(jiān)督模型的參數(shù)較多,結果不穩(wěn)定;

3)雖然已有不平衡數(shù)據(jù)下的半監(jiān)督方法,但是鮮有應用于網絡安全領域的異常檢測,且現(xiàn)有的成果多為解決二分類的不平衡數(shù)據(jù)集,沒有針對多分類不平衡問題的研究;

4)混合的半監(jiān)督學習方法存在一定的缺陷,只能滿足特定的網絡環(huán)境,缺乏適合多環(huán)境的半監(jiān)督異常檢測技術;

5)使用半監(jiān)督方法進行異常檢測的文獻即使使用同一個基準數(shù)據(jù)集,也大多沒有說明標記數(shù)據(jù)量大小或者標記比例,甚至連訓練和測試集大小以及評價指標也都不一樣,不同的度量組合,使得研究結果無法相互比較;

6)現(xiàn)有的半監(jiān)督降維算法不適用于連續(xù)變量和高維稀疏樣本.這些都制約了網絡流量異常檢測中半監(jiān)督技術的進一步發(fā)展.

5.2 半監(jiān)督異常流量檢測研究方向

基于現(xiàn)階段網絡流量異常檢測中半監(jiān)督技術的研究現(xiàn)狀和上述問題,半監(jiān)督流量檢測所面臨的挑戰(zhàn)和未來研究方向主要概括為如下幾個方面:

1)流量數(shù)據(jù)往往特征維度高,采樣方法中的歐式距離不能很好地衡量樣本的空間分布.監(jiān)督學習和半監(jiān)督學習的數(shù)據(jù)分布環(huán)境不同,在不平衡數(shù)據(jù)下,現(xiàn)有的半監(jiān)督方法大多是將傳統(tǒng)的解決不平衡的方法應用于半監(jiān)督學習當中,因此,解決不平衡問題的傳統(tǒng)方法不一定適用于半監(jiān)督學習,需要進一步研究.雖然數(shù)據(jù)不平衡的研究在網絡安全領域取得了很好的效果,然而半監(jiān)督學習中的不平衡問題相關研究非常少,應用于異常流量檢測領域中的半監(jiān)督方法大多采用集成學習解決類別不平衡,未來可以在半監(jiān)督下結合數(shù)據(jù)不平衡領域的最新成果來解決異常流量檢測.

2)目前很多網絡流量的特征選擇和提取局限于一維特征或者多維特征的簡單組合,而流量異常通常表現(xiàn)在多維特征中.如何有效地將多維特征進行融合,多角度共同學習數(shù)據(jù)流特征,并利用少量標記數(shù)據(jù)進行半監(jiān)督集成算法綜合結果來減少信息損失是一個有挑戰(zhàn)的研究課題.

3)綜合利用大量無標記數(shù)據(jù)和少量標記數(shù)據(jù)的半監(jiān)督降維方法是異常流量檢測領域中可行的降維手段,如何找出更有效的方式來應對高維稀疏樣本和連續(xù)變量,進一步提升檢測模型的實時性,具有十分重大的意義.

4)主動學習與半監(jiān)督學習策略相結合的學習效果優(yōu)于單一方法的學習效果,將半監(jiān)督學習與主動學習結合,可以主動發(fā)現(xiàn)有效的監(jiān)督信息.通過有效的監(jiān)督信息可以更好地使用未標注的樣本數(shù)據(jù),從而提高模型精度和求解速度.然而半監(jiān)督學習和主動學習相結合的研究工作還不多見,具有較大的提升空間.

5)增量半監(jiān)督更符合實際的異常流量檢測,它在訓練過程中充分利用了之前處理過的數(shù)據(jù)結果,應該在網絡安全領域有更多深入的研究,未來可以考慮將自然語言技術的相關增量算法引用到具體的異常檢測中.

6)半監(jiān)督聚類算法由傳統(tǒng)聚類算法引入監(jiān)督信息來完成半監(jiān)督學習,所以還可以對密度聚類、譜聚類等聚類算法進行半監(jiān)督的擴展.此外,有些流量數(shù)據(jù)是高維稀疏類型的,然而現(xiàn)有大多數(shù)聚類算法不適合處理高維稀疏數(shù)據(jù),以后的研究中,有必要做進一步討論.

7)一般來說,通過使用未標記數(shù)據(jù),半監(jiān)督學習可以幫助提高性能,特別是當標記數(shù)據(jù)的數(shù)量有限時.然而在某些情況下,選取了不可靠的未標記數(shù)據(jù),則可能會錯誤地指導分類邊界的形成,最終導致半監(jiān)督學習性能退化.因此,如何安全地利用未標記數(shù)據(jù),是未來的一個研究重點.

8)可以將多種半監(jiān)督異常流量檢測方法和技術相結合,從而實現(xiàn)更高效的網絡流量數(shù)據(jù)檢測和獲得更準確的預測結果.另外,在進行半監(jiān)督異常流量檢測時,盡可能地減少對網絡的額外影響也是一個有挑戰(zhàn)的研究課題.

6 結束語

機器學習在異常流量檢測領域面臨諸多挑戰(zhàn),最大的困難是缺乏標簽數(shù)據(jù).在實際中,只有有限數(shù)量的標記數(shù)據(jù)可用,而大多數(shù)數(shù)據(jù)是未標記的.除此之外,盡管有大量的正常訪問數(shù)據(jù),但異常流量樣本稀少,且攻擊形式變化多樣,對模型的學習和訓練造成困難.半監(jiān)督學習是一種有效的解決方案,既能利用無標記數(shù)據(jù),又能利用有標記數(shù)據(jù),可以緩解此問題.本文總結了半監(jiān)督異常流量檢測方法近年來的研究進展,重點討論了與半監(jiān)督結合的一些實際應用需求、數(shù)據(jù)特點和最新成果,并對將來的一些研究工作進行了討論.進一步探究面向網絡流量的半監(jiān)督學習技術,對于研究和發(fā)展異常流量檢測和網絡空間安全具有重要意義.

猜你喜歡
監(jiān)督檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
突出“四個注重” 預算監(jiān)督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
監(jiān)督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監(jiān)督之基
人大建設(2017年9期)2017-02-03 02:53:31
小波變換在PCB缺陷檢測中的應用
績效監(jiān)督:從“管住”到“管好”
浙江人大(2014年5期)2014-03-20 16:20:28
主站蜘蛛池模板: A级毛片高清免费视频就| 国内自拍久第一页| 天天躁夜夜躁狠狠躁图片| 国产综合精品日本亚洲777| 亚洲精品无码专区在线观看| 国产网站在线看| 国产乱子伦无码精品小说| 欧美色香蕉| 四虎永久在线视频| 91口爆吞精国产对白第三集| 999国产精品| 国产青榴视频在线观看网站| 色欲不卡无码一区二区| 国产农村1级毛片| 日本成人不卡视频| 国产va欧美va在线观看| 午夜精品久久久久久久2023| 91黄色在线观看| 亚洲婷婷在线视频| 国产白丝av| 青草视频免费在线观看| 国产va在线| 97无码免费人妻超级碰碰碰| 国产色图在线观看| 国产精品专区第1页| 玩两个丰满老熟女久久网| 国产v欧美v日韩v综合精品| …亚洲 欧洲 另类 春色| 99re视频在线| 波多野结衣爽到高潮漏水大喷| 国产精品女主播| 亚洲综合香蕉| 亚洲国产中文在线二区三区免| 亚洲国产成人久久精品软件 | 在线观看精品国产入口| 亚洲区一区| 国产成人免费视频精品一区二区| 国产成人8x视频一区二区| 国产精品人莉莉成在线播放| 成人免费网站久久久| 欧美成人一级| 亚洲 欧美 中文 AⅤ在线视频| 毛片久久网站小视频| 国产啪在线91| 久久综合色天堂av| 国产九九精品视频| 精品视频第一页| 嫩草在线视频| 伊人国产无码高清视频| 国产成人高清精品免费| 国产18在线| 激情在线网| 国产精品免费露脸视频| 丰满人妻一区二区三区视频| 99久久国产综合精品2020| 极品国产在线| 国产精品专区第1页| 国产精品网址在线观看你懂的| 国产一区二区网站| 亚亚洲乱码一二三四区| 国产精品思思热在线| 大香伊人久久| 无码啪啪精品天堂浪潮av| 国产情侣一区二区三区| 久久黄色影院| 国产99热| 美女毛片在线| 国产高清在线丝袜精品一区| 精品一区二区三区自慰喷水| 宅男噜噜噜66国产在线观看| 亚洲成人一区二区| 欧美午夜久久| 久久精品国产一区二区小说| 国产手机在线ΑⅤ片无码观看| 国产视频自拍一区| 欧美在线三级| 97av视频在线观看| 亚洲品质国产精品无码| yjizz国产在线视频网| 中文字幕天无码久久精品视频免费 | 免费Aⅴ片在线观看蜜芽Tⅴ | 国产a v无码专区亚洲av|