999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向多類不均衡網(wǎng)絡(luò)流量的特征選擇方法

2022-03-17 03:01:30
科教導(dǎo)刊·電子版 2022年12期
關(guān)鍵詞:分類特征實驗

楊 宏

(武漢鐵路職業(yè)技術(shù)學(xué)院 湖北·武漢 430205)

0 引言

網(wǎng)絡(luò)用戶使用不同網(wǎng)絡(luò)的頻率不同,產(chǎn)生的流量也就具有了多類不平衡的特征。而根據(jù)網(wǎng)絡(luò)流量使用率對流量進(jìn)行分類處理,能夠有效保障網(wǎng)絡(luò)QoS值,維護(hù)網(wǎng)絡(luò)的健康安全。由于當(dāng)前端口號分類計數(shù)在對使用不固定端口的流量進(jìn)行特征分類時,存在準(zhǔn)確率偏低的現(xiàn)狀,如何通過機(jī)器學(xué)習(xí)的特征分類技術(shù)提高此項數(shù)據(jù)的準(zhǔn)確率成為計算機(jī)領(lǐng)域的研究熱點。本文將對比不同的特征選擇方法,通過實驗數(shù)據(jù),找出平均整體準(zhǔn)確率最高的特征選擇方法。

1 面向多類不均衡網(wǎng)絡(luò)流量的特征選擇方法

由于互聯(lián)網(wǎng)應(yīng)用中對不同的應(yīng)用程序有不同的使用率,從而所得到的服務(wù)中存在著多種類別的不均勻特性。多類型均衡特征是指在數(shù)據(jù)集,某個類型(大類別)的比例大于其他類別(小類別),大規(guī)模收集率高,小類別收集率低。例如,大類別(WWW類別)對應(yīng)于劍橋大學(xué)IP數(shù)據(jù)集所有樣本的百分之八十五以上,而小類別(ATAA類別FTP-P類別等)則相對于不足百分之一。

在對數(shù)據(jù)集的直接分類中,WWW類型平均召回事件發(fā)生率接近為百分之一百,而atta類型的召回率則大致為百分之五十。而小類的比例則非常低,但對正確鑒別它們卻十分關(guān)鍵。也因此,正確鑒別付費(fèi)電話對檢測互聯(lián)網(wǎng)攻擊和保障安全都十分關(guān)鍵。所以,很有必要增加小分類模型的可見性。為降低分類平衡的不利因素和增加小類的收集量,數(shù)據(jù)收集通常確保了特征的總體準(zhǔn)確性。而因為重抽樣往往破壞了樣本的初始分布,所以選擇特征的技術(shù)也被普遍采用。

選取正確的小類特征不但能夠降低分析的時間和空間損耗,同時也能夠增加分析的整體精確度。所以,我們提出了一種基于相對不確定性和對稱不確定性的混合特征選擇方法。首先,由于各種類型的相對不確定性,選擇相關(guān)性強(qiáng)的特征形成候選集。然后,基于對稱性的不確定性,對每個候選特征進(jìn)行過濾,以保持強(qiáng)分辨率的特征,并去除其他特征。最后,從每個候選特征集中選擇特征以形成新的特征集。作為分類器,使用C4.5確定樹來評估其效果,并選擇最佳的特征排序集。為了過濾特征,F(xiàn)SMID方法為每個類指定候選項選擇最佳特征子組后,從這些特征集中選擇特征以形成一組新的功能并對其進(jìn)行評估。因此,F(xiàn)SMID可以確認(rèn)所選特征集包含與各種類型具有強(qiáng)相關(guān)性的功能。將FSMID方法與以前的方法進(jìn)行比較表明,該方法可以減少多重不平衡對網(wǎng)絡(luò)流量分類的負(fù)面影響。

2 FSMID方法

FSMID方法進(jìn)行特征選擇通常需要兩個步驟。首先將關(guān)聯(lián)性較強(qiáng)且具有明顯特征的候選特征選擇為一個類的集合。然后再將每個候選特征集合中選擇一個新的特征,以新的特征為區(qū)分,構(gòu)成一個新的集合。并利用C4.5決策樹對數(shù)據(jù)集進(jìn)行分類,將分類的結(jié)果和數(shù)據(jù)記錄下來,從中選取和確定出最優(yōu)特征子集。

確定候選特征集合偽代碼的算法主要包括三個部分。第1部分是采用FSMID相對不確定性選出RU(fi,cj),利用對稱不確定性選出SU(fi,c)子集集合,第2個部分是根據(jù)RU(fi,cj)選取出來的子集,為每個類選擇與其相關(guān)性較強(qiáng)的特征,從而得到多個特征結(jié)合。第3部分是根據(jù)su值,對特征集合進(jìn)行挑選過濾,保留其中區(qū)分能力較強(qiáng)的特征,同時保證特征集合之間不會存在交集。

搜索最優(yōu)特征子集過程偽代碼主要包括兩個部分。第一部分是從Fj的每個集合中找到一個特征來構(gòu)成新的特征集合,同時通過數(shù)據(jù)處理清楚的其他特征。第2個步驟是利用分類器對處理后的數(shù)據(jù)進(jìn)行整理分類,并將結(jié)果記錄下來。通過不斷重復(fù)1、2兩個步驟,保證整個特征空間被完全搜索,然后在其中選擇一個分類效果最好的特征合集作為最優(yōu)特征子集。

3 實驗分析

3.1 實驗數(shù)據(jù)來源

劍橋大學(xué)曾經(jīng)提供過一份公開數(shù)據(jù)(Moore數(shù)據(jù)集),在網(wǎng)絡(luò)流量特征選擇中得到較為廣泛的應(yīng)用。這項數(shù)據(jù)是由1000人左右的研究人員,通過捕捉網(wǎng)絡(luò)出口處的三次握手 TCP數(shù)據(jù)得到的10個原始數(shù)據(jù)集。然后采取特征提取的方法,整理出248個不同特征的數(shù)據(jù)集。在對這些數(shù)據(jù)集進(jìn)行分類標(biāo)記時,劍橋大學(xué)采用了以內(nèi)容檢測為基本方法的人工標(biāo)記手段。

在劍橋大學(xué)的這份數(shù)據(jù)中,一共包含12個類別,為了方便實驗對比,這些數(shù)據(jù)集進(jìn)行了預(yù)先處理。去除掉games等四個類樣本個數(shù)為0的所有樣本,每個子數(shù)據(jù)集仍然包括8個類別,且每個子數(shù)據(jù)集包含的樣板類別數(shù)量和占比各不相同。在這項數(shù)據(jù)集中共有332,554個樣本數(shù)量。其中,www類型樣本占到87.88%,而ftp-p.atta等類別所占比例不足1%。

3.2 實驗方案

實驗釆用劍橋大學(xué)Moore數(shù)據(jù)集。在子集10數(shù)據(jù)集(dataset1、dataset2、…、dataset10)中,dataset1加速函數(shù)用作訓(xùn)練集,其他子集9數(shù)據(jù)集用作測試集。在資源選擇過程中,將FSMID與非資源選擇數(shù)據(jù)集(完整集)、BFS方法和對稱不確定性過濾方法(su-f)進(jìn)行比較。決策樹C4.5對網(wǎng)絡(luò)流量分類有影響,因此被選為分類器。

實驗利用4種方法將得到的特征進(jìn)行分類,數(shù)據(jù)表明,各個子數(shù)據(jù)集上的準(zhǔn)確率都能夠達(dá)到98%以上。使用Fu-Dset進(jìn)行分類時,平均整體正確率還要提高,達(dá)到99.1%。當(dāng)使用BFS和SU-F進(jìn)行特征選擇時,會將其中大量不相關(guān)的特征剔除,導(dǎo)致平均整體正確率相對于FuHset提高了0.3%;其中,F(xiàn)SMID方法在絕大多數(shù)子數(shù)據(jù)集上是平均準(zhǔn)確率最高的方法,其準(zhǔn)確率高達(dá)99.6%,探究其原因主要是因為FSMID方法所選擇的特征是與每個類具有相關(guān)性的特征。

在上一章中,atta類和ftp-p類的入住率分別為0.44%和0.79%。通過比較四個方法作為子類的準(zhǔn)確性發(fā)現(xiàn),在atta類中,兩個個數(shù)據(jù)集的召回率都非常不穩(wěn)定。由于Atta類是網(wǎng)絡(luò)攻擊服務(wù)的流量,它通常偽裝成其他類型的服務(wù),以規(guī)避入侵檢測系統(tǒng)的檢測。此外,WWW類的網(wǎng)絡(luò)服務(wù)比例較大,在構(gòu)建決策樹C4.5時形成的節(jié)點往往對WWW類有利,對其他類不利,導(dǎo)致其他類標(biāo)準(zhǔn)分類錯誤。根據(jù)FSMID方法,由于與子類在選擇相關(guān)上的強(qiáng)大功能,錯誤分類為WWW類的子類數(shù)量減少,WWW類的誤報率降低。在atta類中,平均召回率提高了.5%。在ftp-p水平,與fulset相比,平均召回率增加了25.7%。

3.3 實驗結(jié)果分析

實驗結(jié)果顯示,特征1/95/96幾乎能夠被 SU-F BFS FSMID3種方式進(jìn)行良好的區(qū)分和選取,且按照這三種方法所選的特征基本上都和數(shù)據(jù)流的空間特征有關(guān),核數(shù)據(jù)流的時間特征關(guān)聯(lián)性相對較小。

將利用4種方法實驗得出的特征進(jìn)行分類發(fā)現(xiàn)整體準(zhǔn)確率都在95%以上,且平均整體準(zhǔn)確率高達(dá)98%。使用Fullset來分類的話,平均整體準(zhǔn)確率高達(dá)99%以上。而使用其他兩種方式進(jìn)行特征選擇時,由于去除了過多不相關(guān)的特征,導(dǎo)致其相較于Fullset高出0.3個百分點。FSMID方法在大多數(shù)子數(shù)據(jù)的采集和分類中準(zhǔn)確率最高,平均整體準(zhǔn)確率高達(dá)99.6%。這正是因為FSMID在選擇特征時會包含每個類相關(guān)的特征。

除此之外,F(xiàn)SMID方法在小內(nèi)選擇上傾向于選擇與其相關(guān)性較強(qiáng)的特征,這在很大程度上減少了錯誤分類為WWW類的子類數(shù)量減少,WWW類的假正率降低,小類召回率也就隨之提升。與Fullset相比,F(xiàn)SMID對于atta類的平均召回率提高了1.5個百分點。同時,F(xiàn)SMID方法的平均g-mean值最高,與Fullset相比,提高了4.9個百分點。

4 結(jié)語

網(wǎng)絡(luò)用戶使用不同網(wǎng)絡(luò)的頻率不同,產(chǎn)生的流量也就具有了多類不平衡的特征。而根據(jù)網(wǎng)絡(luò)流量使用率對流量進(jìn)行分類處理,能夠有效保障網(wǎng)絡(luò)QoS值,維護(hù)網(wǎng)絡(luò)的健康安全。首先,通過利用相對的不確定性在每個類中選擇候選集。接著,在各種聯(lián)合候選資源中,保留了高度對稱的不確定特性,而去掉了其他特性。最后,采用了基于決策樹C四點五的包裝功能選擇方式,來判斷功能良序子集的最理想數(shù)量。實驗表明該方法具有更高的總體準(zhǔn)確率、小類召回率和g-mean值,可以減少多分類不平衡的負(fù)面影響,是未來的研究方向。

猜你喜歡
分類特征實驗
記一次有趣的實驗
分類算一算
如何表達(dá)“特征”
做個怪怪長實驗
不忠誠的四個特征
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
NO與NO2相互轉(zhuǎn)化實驗的改進(jìn)
主站蜘蛛池模板: 亚洲欧美日韩动漫| 高潮爽到爆的喷水女主播视频| 久久精品中文无码资源站| 国产精品精品视频| 亚洲午夜久久久精品电影院| 亚洲二区视频| 亚洲性影院| 黄片在线永久| 欧美在线中文字幕| 国产精品三区四区| 欧美一级高清视频在线播放| 亚洲制服丝袜第一页| 91欧美亚洲国产五月天| 国产屁屁影院| 国产成人三级在线观看视频| 亚洲成肉网| 原味小视频在线www国产| 巨熟乳波霸若妻中文观看免费| 美女视频黄又黄又免费高清| 九色在线视频导航91| 精品国产成人高清在线| 国产精品一区在线麻豆| 欧美亚洲国产日韩电影在线| 国产精品一区二区不卡的视频| 久久情精品国产品免费| 国产精品福利导航| 国产精品久久自在自线观看| a天堂视频| 国产内射一区亚洲| 在线免费亚洲无码视频| 97国内精品久久久久不卡| 57pao国产成视频免费播放| 手机精品视频在线观看免费| 色屁屁一区二区三区视频国产| 美女啪啪无遮挡| 日本午夜视频在线观看| 91亚洲国产视频| 午夜视频www| 日本一本在线视频| 国产原创演绎剧情有字幕的| 亚洲最大综合网| 九九香蕉视频| 91色在线视频| 国产一级毛片高清完整视频版| 全午夜免费一级毛片| 99免费视频观看| 99资源在线| 国产激情无码一区二区免费| 啊嗯不日本网站| 囯产av无码片毛片一级| 亚洲品质国产精品无码| 小13箩利洗澡无码视频免费网站| 国产97视频在线观看| 亚卅精品无码久久毛片乌克兰 | 亚洲欧美另类中文字幕| 国产午夜福利在线小视频| 国产成人成人一区二区| 免费观看成人久久网免费观看| 亚洲精品欧美重口| 亚洲色图欧美在线| 国产极品美女在线播放| 亚洲无线一二三四区男男| 欧美精品一区二区三区中文字幕| 就去色综合| 91久久国产热精品免费| 午夜毛片福利| 色悠久久久| 国产激情国语对白普通话| 黄色片中文字幕| 日韩精品亚洲精品第一页| 色天堂无毒不卡| 老司机久久99久久精品播放| 久久人人妻人人爽人人卡片av| 亚洲精品另类| 免费啪啪网址| 日本五区在线不卡精品| 亚洲男人天堂网址| 蜜芽国产尤物av尤物在线看| 欧美人与性动交a欧美精品| 亚洲人成日本在线观看| 国产91在线|中文| 99在线视频免费观看|