999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

流量的集成學習與重采樣均衡分類方法

2020-03-19 10:45:58顧兆軍趙春迪周景賢
計算機工程與應用 2020年6期
關鍵詞:分類特征效果

顧兆軍,吳 優,2,趙春迪,3,周景賢

1.中國民航大學 信息安全測評中心,天津300300

2.中國民航大學 中歐航空工程師學院,天津300300

3.中國民航大學 計算機科學與技術學院,天津300300

1 引言

網絡流量分類是網絡監管的基礎工作,隨著網絡環境的不斷擴張發展,網絡信息監管、服務質量控制以及異常檢測等工作都需要基于流量分類來提高效率、降低成本。傳統的流量分類方法基于深度包檢測(Deep Packet Inspection,DPI),通過人工提取數據包中的特征序列并形成特征庫,而隨著流量種類和數量的增加,特征庫的維護成本不斷提高,同時這種方法無法應對未知和加密流量[1],因此,基于機器學習的流量分類方法開始受到關注。機器學習是一類分類回歸算法的總稱,其核心思想是通過現有數據形成一個模型,從而實現后續數據識別。機器學習算法已經在多個領域得到了應用,并取得了卓越的成果[2]。

圖1 RES-LGBM流量分類過程

基于機器學習的網絡流量分類研究起步于2005年,Moore 等人[3]完成了網絡流量的收集處理,從流量數據包中提取出了248 種用于訓練的數據特征,并使用改進核函數的樸素貝葉斯算法(NBKE)對流量進行了分類,這一系列工作為此后的很多流量分類研究提供了參考。之后的研究中更多著眼于解決流量分類中特定的的問題,如算法提速[4]、新型協議的識別[5],以及分類機制的改進[6]等,還包含了流量數據的不平衡問題。

數據不平衡即樣本中不同類別的數量差距較大,該問題于各類應用場景中普遍存在,是機器學習領域的十大問題之一[7]。由于某類樣本占比較大,在訓練過程中算法會更偏重該類的分類效果,進而導致模型產生偏向性,即對多數類的分類效果較好,但對少數類效果較差。在網絡流量數據中,正常樣本較多,異常和惡意樣本較少,數據不平衡的問題十分突出,故需針對該問題進行優化,以提高少數類樣本識別率。

目前在機器學習領域中主要使用特征選擇的方法,基于代價敏感的方法以及重抽樣的方法來處理樣本不均衡問題[8]。Zhong 等人[9]于2009 年將重采樣同決策樹和神經網絡結合,對P2P流量進行了分類,研究結果證明了重采樣方法在網絡流量分類問題中的有效性。Liu等人[10]則于2012 年利用BFS 特征選擇方法結合各種機器學習算法進行了流量分類,其中決策樹算法和BFS結合(BFS+DT)可以取得良好的分類效果,之后還于2014年[11]對三種數據不平衡的修正方法進行了對比,并以此說明了重采樣相對于另外兩種方法的優勢。Dong 等人[12]于2016 年研究了基于多層概率神經網絡(MPNN)的流量分類,取得了較好的效果。孫興斌等人[13]于2017年使用基于不確定性的混合型特征選擇(FSMID)方法,在一定程度上消除了數據不均衡帶來的影響。王勇等人[14]在2018年基于卷積神經網絡算法(MMN-CNN),提出了一種無需進行特征提取的流量分類方法。上述研究由于機器學習算法本身存在一定缺陷,無法取得理想的分類效果,特別是對于少數類的分類效果較差。針對該問題,本文提出結合重采樣的梯度增強樹算法RESLGBM(Resampling in Light Gradient Boosting Ma‐chine),利用二者的優勢互補,實現了更加精確的流量分類。

2 基于集成機器學習的流量分類方法

集成學習算法的原理是將多個弱分類器進行結合,即使每個分類器的準確率不高,也能形成一個效果較強的分類器。集成學習算法的決策結果由多個分類器共同形成,因此能夠有效避免傳統算法存在的過擬合問題,該決策機制也有效地削弱了噪聲的影響[15]。

采用RES-LGBM 對網絡流量進行分類的核心是對數據進行預處理,并采用重采樣算法修正數據的不平衡性,再利用LightGBM 算法對處理后的數據進行訓練,實現更準確的流量分類,其過程如圖1 所示。為進行本次實驗研究,需要使用從真實網絡環境中采集,并且已標注類別的不均衡流量樣本。

2.1 機器學習在流量分類中的應用

機器學習方法通常使用樣本的特征向量作為輸入,并以樣本類別作為輸出,而在流量分類中,可用數據均為流量數據包,該數據無法直接作為算法的輸入,因此需對其進行一定的加工處理。流量分類問題中最有價值的信息為幾乎包含于IP數據包的報頭中,其格式如圖2所示。根據傳輸協議的工作方式,可以確定源IP 地址、目的IP 地址、源端口號、目的端口號以及傳輸層協議均相同的數據包屬于同一個流,通過將同一個流中的數據包頭信息進行提取、整合和計算,便能得到一系列數據特征,作為機器學習算法的輸入。使用這類特征的優點在于,在數據處理過程中只涉及數據包頭,沒有利用數據包本身的內容,從而避免了侵犯用戶隱私。

圖2 IP報頭格式

本文使用的數據格式如圖3,每條數據代表一個網絡流,共有248種特征。

2.2 LightGBM算法

圖3 處理后數據格式

LightGBM(LGBM)屬于梯度增強樹算法[16],是集成學習算法的一種,該算法主要優化了運行速度,同時幾乎沒有降低算法準確率。梯度增強樹算法集成了多個回歸樹,回歸樹由決策樹算法衍生而來,其節點的分裂方式和決策樹相同,但對每個葉子節點賦予了分值。LightGBM 的決策機制如圖4 所示,每棵樹的生成過程中都隨機使用部分樣本和部分數據特征進行訓練以確保樹的多樣性。通過將集合中多個回歸樹的分值相加,即可得到最終的分類結果[17]。由于需要對多個子樹進行訓練,梯度增強樹算法的運行速度低于傳統的決策樹,而LGBM 則通過一系列優化手段,使其運行速度到了很大提升,但當數據樣本出現類間不平衡時,仍會導致其產生分類偏差,需要針對該問題進行優化。

圖4 LightGBM分類原理

2.3 重抽樣算法

重抽樣就是利用數據之間的相關性,通過生成或刪除樣本的方式來改變樣本比例,可分為過采樣、欠采樣以及將二者相結合的方法。欠采樣方法是根據某種規則,剔除部分多數類樣本,該方法的優點是可以在修正數據分布比例的同時降低運算量。缺陷在于使用欠采樣可能丟失部分重要信息。與其相對的過采樣方法是指根據原有樣本生成數據來增加少數類樣本的比例。使用重采樣的方法能夠使得少數類的比例增加,從而保證該類樣本在多數子樹的生成過程中得到足夠的訓練。雖然一些研究者認為這種方法會改變樣本的分布,但樹算法的理論基礎是直接對分類可能性進行建模,而無需對樣本分布進行假設,故樣本分布的改變并不影響LG‐BM的分類效果。本實驗中使用的重采樣算法有ROS(隨機過采樣)、RUS(隨機欠采樣)以及SMOTE-Tomek 算法。

(1)SMOTE算法

SMOTE 算法[18]利用了樣本空間中同類樣本距離相近的特點,以現有數據為參考,使用插值的方式生成數據。

假設需要將某類樣本的數量提升為原來的N 倍,對其中的每個樣本,假設其向量為x,SMOTE 算法尋找與x 距離最近n 個的同類樣本并隨機選擇一個樣本xk,k ∈{1,2,…,n},并生成一個隨機數ξ,合成新樣本:

x′=x+ξ·(xn-x)

重復N-1次,即可使樣本量達到目標數量。SMOTE算法多用于解決樣本量不足的問題,當生成的數據能夠擬合真實分布時,將取得良好的效果。

(2)Tomek-Link

Tomek-Link 描述了一種樣本間關系[19],其定義如下。

定義1假設樣本空間為X,樣本間距離為d,對于任意的xi,xj∈X,若不屬于同一類別,且對于任意的xk∈X,都有d(xi,xk)>d(xi,xj)且d(xj,xk)>d(xi,xj),則稱(xi,xj)為一個Tomek-link對。

可以認為一個Tomek-link 對中的兩個樣本中存在噪聲,會對模型的訓練過程產生干擾,可以選擇剔除其中的多數類樣本。相對于單獨使用Tomek-link 欠采樣,將SMOTE 與Tomek-link 結合,可以在刪除更少樣本的條件下達成樣本量平衡,降低信息損失。

LGBM 在與重抽樣結合時分類效果能夠得到顯著的提升。如圖5 所示,LGBM 算法中為了保證子樹的多樣性,在每個子樹的訓練過程中會隨機抽取樣本。當數據存在類間不平衡時,直接進行訓練時,由于少數類樣本在每次的訓練中被抽取的概率較低,會使得大部分子樹無法對少數類樣本進行有效學習,使得子樹的結構單一,缺乏對少數類的準確分類能力。而使用重抽樣算法后,不同類樣本會以相當的概率被抽取到,子樹可以生成更多分支,有效提高分類效果。

圖5 重抽樣對LGBM的改進作用

3 實驗結果分析

本文中實驗利用Python編程實現,實驗程序運行平臺為DELL臺式機,系統為Ubuntu 64 bit,CPU為2.9 GHz Intel Core i5,內存為8 Gb 1 867 MHz DDR3。實驗比較了LGBM與其他算法各自的特點,后確定了模型參數和最優特征集合,將最終分類結果與現有流量分類方法進行對比討論。

3.1 網絡流量數據集

本文使用的是于2005 年由劍橋大學的Moore 等人采集的流量數據[19],該數據分為兩部分。第一部分為1 000 個用戶在24 小時內的流量數據,對每條TCP 雙向流進行特征提取,最終得到377 526個數據樣本,該部分樣本的分布信息如表1 所示。第二部分是一年后以同樣方法再次采集的少量數據,可用于檢驗算法的健壯性。樣本共分為12 類,每個樣本擁有249 個屬性[20],最后一項屬性為樣本的類別。該數據為多項研究工作提供了支持,并且由真實環境采集,數據樣本間存在較大數量差,符合本實驗要求。

表1 Moore數據集樣本比例

為了得到更可靠的分類效果,在訓練模型時將數據集分為訓練集、測試集和驗證集三部分,訓練集用于訓練模型,而驗證集則用于優化算法的參數和尋找最優特征集合,測試集則用于最終測試算法的分類效果。之后根據此前的研究成果,確定了30 個候選特征用于初期實驗。

3.2 評價指標

對于分類效果的評價需要統一的標準,機器學習中常用的評價指標有準確率、召回率以及精度。通過混淆矩陣,可以計算這些指標,混淆矩陣的形式如圖6 所示,四個灰色部分表示了樣本數量。

圖6 混淆矩陣

(1)準確率

準確率即被正確分類的樣本比例,是一種較為直觀的評價指標,但在數據不均衡的場景中不能僅依賴準確率進行評價。準確率的計算公式如下:

(2)召回率

對某類樣本來說,召回率就是其中被分類器識別出的樣本比例,反映了算法對該類數據的敏感程度,其計算公式如下:

(3)精度

精度又可以成為可信度,表示分類結果為某一類的樣本中,被正確分類的樣本比例,精度越高表示被誤分為此類的樣本越少,其計算方式如下:

對于召回率和精度,可以通過計算幾何平均數來評價算法在數據集整體上的分類效果。

3.3 與傳統算法對比

本文進行了不同類算法的初步對比,首先利用第一部分數據進行模型訓練和測試,對第二部分數據則不進行訓練,直接應用得到的模型進行測試以檢測算法對于樣本變動的健壯性。為了確保對比結果的客觀性,沒有進行過多的算法參數調整,各算法中數據特征也全部使用預選出的30 個特征,對比的指標為算法的分類準確率,對比結果如圖7所示,另外本文對樣本量為20萬、30萬和50萬的情況下算法訓練時間進行了對比,如圖8所示,因各算法運行時間差距較大,圖中縱坐標為對數時間。

圖7 各類算法準確率對比

圖8 各類算法運行時間對比

可以看出,LGBM 在各類算法中擁有較高的準確率,即使數據發生變化,仍能保持較好的分類效果,擁有良好的健壯性。同時,其運行時間關于樣本量的變化較小,當數據量較大時速度將領先其他算法。以上對比結果表明,在網絡流量的分類中,LGBM 算法能發揮更好的效果。

生命起源于海洋,海洋生物中的一些即使是微量的物質,也可能是陸生動物生長、發育和繁殖所必須的營養物質或生理活性物質。無論我們是否了解或定量分析出這些物質的種類、化學結構和含量,它們都是客觀存在的。這或許就是魚粉相比于陸生動物蛋白質原料和植物性蛋白質原料,可以成為飼料中重要的動物蛋白質原料所具備的優勢,魚粉的替代物質研究和魚粉的不可替代性機理研究一直就是動物營養與飼料領域研究的熱點[1]。

在實驗的過程中,由于數據的類間不平衡,導致算法對少數類的分類效果較差,針對這一點,本文進行了特征集合的優化、算法參數的調整以及數據不平衡性的修正,以達到最佳分類效果。

3.4 重采樣算法的對比

本文針對梯度增強樹算法進行了特征集合的優化,由于LGBM中的子分類器為回歸樹算法,其節點分裂方式與決策樹相近,故本文在特征優化中使用決策樹代替LGBM 以加快優化過程。使用的特征優化算法為加N去R 算法,該算法是一種帶回溯性質的搜索算法,其過程如下。

選擇一個特征構成初始的特征集合,其余特征構成備選集合,在每次迭代中都會向特征集合中隨機加入N個特征,再選擇R個特征移出,直至分類效果達到最優,最終得到的特征集合如表2所示。

表2 數據特征集合

參數優化過程中,在大范圍對每個參數進行搜索,再根據搜索結果,在最佳參數附近進行網格搜索,并進行交叉驗證,最終取得一組最優參數,本實驗中參數對算法各項指標的影響在0.1%以內。

確定算法和數據特征后,本文使用不同的算法對數據進行重采樣,并對比了各類別數據的分類精度、召回率,以及其集合平均值。本實驗使用的算法包含RUS(Random Under Sampling)、ROS(Random Over Sam‐pling)以及結合過采樣與欠采樣的SMOTE-Tomek 算法,對比結果如表3、表4所示。

根據以上結果可以看出,三種重采樣方法對于對分類效果均有所提升。雖然對WWW 類樣本的分類效果提升較小,但ROS和SMOTE-Tomek算法使LGBM 算法對于少數類的分類效果均得到了明顯改善,特別是P2P、ATTACK、MULTIMEDIA 以及INTERACTIVE 類,召回率和精度均提升了10%以上,整體準確率也因此從95%提高到了99.8%。這兩種算法都提高了少數類樣本的比例,使其得到了充分學習,故將過采樣與LGBM結合可以取得良好的效果。而相對地,應用RUS 則無法帶來較明顯的提升,因為欠采樣算法僅降低了多數類樣本的比例,無法解決少數類數據不充足的問題。

表3 重采樣后精度對比

表4 重采樣后召回率對比

最后,本文對比了RES-LGBM 與其他算法的分類效果。根據圖9 的結果顯示,其他算法雖然都有較高的整體準確率,但精度和召回率較低,大多低于90%,相對地,RES-LGBM 則達到了90%以上,也因此使得整體準確率更高。并且RES-LGBM 算法的計算時間也處于合理范圍內,綜合這兩方面,RES-LGBM 在流量分類中可以取得更好的效果。

圖9 各改進算法與RES-LGBM分類效果對比

4 結束語

本文介紹了各類網絡流量分類方法以及數據不均衡問題的解決方法,并針對流量數據不平衡的問題,在相關研究基礎上提出了RES-LGBM 的方法,之后對流量數據特征進行優化,并實現了流量分類。通過對各類機器學習算法進行對比,驗證了在網絡流量分類中,集成機器學習算法相較于傳統算法的優勢,提出利用LGBM算法和重采樣算法互補的特點,避免過擬合并降低數據不均衡的影響,提高了流量分類效果。但該方法仍存在一定不足,之后將從以下三個方面進行進一步研究:(1)進行多個機器學習算法相結合的流量分類,研究不同算法之間的互補性;(2)將機器學習進一步用于網絡安全領域,通過流量分類來進行惡意行為的檢測研究;(3)應用分布式計算平臺,提高算法的運行速度,提升分類效率。

猜你喜歡
分類特征效果
按摩效果確有理論依據
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
迅速制造慢門虛化效果
數據分析中的分類討論
抓住“瞬間性”效果
中華詩詞(2018年11期)2018-03-26 06:41:34
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 国产欧美专区在线观看| 亚洲精品无码久久久久苍井空| 国产成人艳妇AA视频在线| 亚洲欧美在线综合一区二区三区| 日韩欧美国产区| 香蕉久人久人青草青草| 欧美精品三级在线| 伊人色在线视频| 成·人免费午夜无码视频在线观看| 无码中文字幕精品推荐| 国产精品19p| 国产又大又粗又猛又爽的视频| 国产国模一区二区三区四区| 成人在线欧美| 丁香五月激情图片| 青青网在线国产| 久久国产精品娇妻素人| 国产嫖妓91东北老熟女久久一| 亚洲中文字幕久久精品无码一区| 日韩精品一区二区深田咏美| 日本在线亚洲| 天天躁夜夜躁狠狠躁图片| 国产超碰一区二区三区| 四虎精品黑人视频| 91视频首页| 亚洲va在线∨a天堂va欧美va| 日韩在线中文| 美女毛片在线| 99ri精品视频在线观看播放| 国产极品美女在线| 久久中文无码精品| 久操中文在线| 成人无码一区二区三区视频在线观看| 激情综合五月网| 98精品全国免费观看视频| 久久一色本道亚洲| 国产va欧美va在线观看| 国产精品永久免费嫩草研究院| 欧美精品1区| 欧美啪啪网| 久久情精品国产品免费| 亚洲天堂啪啪| 国产永久在线观看| 欧美激情网址| 亚洲精品免费网站| 亚洲人成人无码www| 亚洲最新网址| 欧美全免费aaaaaa特黄在线| 国产在线视频自拍| 日韩区欧美区| 国产日本视频91| 免费中文字幕一级毛片| 国产亚洲精品97在线观看| 97在线碰| 成人福利在线视频| 无套av在线| 精品国产91爱| 一级成人欧美一区在线观看| 香蕉网久久| 人妻中文久热无码丝袜| 午夜在线不卡| 波多野结衣久久精品| 欧美日韩激情在线| 中日无码在线观看| 欧美视频在线播放观看免费福利资源 | 亚洲欧美日本国产综合在线| 日韩乱码免费一区二区三区| 亚洲成A人V欧美综合天堂| 欧美成人影院亚洲综合图| 欧美a级完整在线观看| 亚洲黄色视频在线观看一区| 亚洲精品少妇熟女| 久久综合丝袜日本网| 亚洲乱码精品久久久久..| 日韩第九页| 亚洲最大福利网站| 欧美不卡视频一区发布| 精品一区国产精品| 亚洲品质国产精品无码| 亚洲综合欧美在线一区在线播放| 九色最新网址| 国产成人免费高清AⅤ|