999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于MI特征選擇與KNN分類器相結合的入侵檢測方法

2022-10-01 14:56:04朱林杰趙廣鵬康亮河
甘肅科技 2022年15期
關鍵詞:特征檢測信息

朱林杰,趙廣鵬,康亮河

(1.河南理工大學信息化建設與管理中心,河南 焦作 454000;2.甘肅農業大學信息科學技術學院,甘肅 蘭州 730070)

1 引言

隨著計算機通信技術的高速發展,信息儼然成為當今社會的重要資源之一,尤其是在大數據、物聯網技術快速發展導致大量數據激增的情況下,人們越來越認識到信息保護的重要性。目前生物識別技術迅速發展,信息所受到的攻擊情況越來越復雜,但是相關領域技術研究方法仍較少,需處理的問題和提取的信息中帶有冗余信息需要對其進行更精確的處理等。高維數據對于入侵攻擊檢測是一個挑戰,如何從高維數據中找到有用的信息,一直是研究者們關注的熱點問題。特征選擇是機器學習預處理的一個重要過程,主要用來找到最優的特征子集來增強系統的性能,其在統計、大數據分析、生物技術方面已經得到成功的應用。在改善系統的精確性方面出現了許多特征選擇方法,這些方法各有其優缺點,找到一種有效的特征選擇方法是比較重要的。特征選擇有Wraps和Filters兩種方法,本研究中所提到的相互信息特征選擇方法屬于過濾方法的一種。該方法通過找到一個最優的特征子集來預測入侵數據的異常情況,數據基于4個文件,文件記錄入侵數據的所有信息,包含訓練集和測試集。在提出方法的過程中,簡化了原有的模型,減少變量使用MI(Mutual Information)標準建立的模型,數據和標簽都采用Pandas讀取,再將其變成數組形式,鋪平成一維的向量,并選擇k個最優的特征,通過擬合找到所有關聯的特征,然后根據值的大小進行排序,排序后調用變換來過濾選擇的特征,把過濾后的特征傳到分類模型中。在該方法中,每一步需刪除無關的特征,保留剩下的特征,當達到最小子集特征時,停止迭代。最后,通過比較其他研究,討論研究的結果和一些挑戰。

2 相關工作

近年來,許多學者致力于互信息的研究并取得了好的成果,收集的數據有不同的潛在特征,通過特征選擇來找到特征之間存在的差異性。研究者提出的方法有較好的改進效果,有利于改進特征選擇的穩定性,然而,比較早的研究大部分未能提到數據之間的差異性。但是后來逐漸研究的成果豐富起來,如Ioannis M.Stephanakis等提出基于互信息算法優化的特征選擇,該方法用相互的信息熵處理維數問題,通過采用并行處理方式,加速預處理的速度;Rahul Kottath等提出相互信息特征選擇在計算機視覺方面的影響變化,分析了刪除冗余特征對其方法的影響,實驗結果提高了效率和精度;Phillip M.La-Casse等廣泛評論了特征子集的約簡方法在制造業智能化過程中做出的貢獻。相互信息通常用MI表示,相互信息聚類算法常被用于搜索引擎中解析自然語言,發現語義聚類,同時使得搜索方法得到進一步的提升。相互信息決定2個不同標簽數據集的相似程度,有利于類別之間的信息判別。Josu等[1]在多變量時間序列數據,提出基于特征子集選擇的相互信息分類,通過測量相關的子集,使用K近鄰的非參數相互信息估計,實驗結果表明,增加了分類的精確性。Hyunki和Kim[2]考慮到特征和標簽的依賴性,初始化種群,有了較好的應用。Selvakumar 和Munees waran[3]提出特征選擇在入侵檢測中的應用,改進了精確性。Saúl和José[4]提出了譜特征選擇和信息理論約簡分析。Francisco等[5]對于特征選擇方法進行了研究。Jorge等[6]研究歐幾里得范數最大化,與幾何平均最大化,使用此方法選擇了屬性特征。Laura等[7]對于特征選擇進一步做了研究和應用。Kahan和Sriparna[8]提出多目標的優化,無論是從算法還是從其他方法,特征選擇有了一定的改進。在伴數據挖掘領域,不論是特征是必不#少的,而且分類在數據處理也是一項更大的挑戰[9-11]。

3 方法與步驟

相互信息是一種重要的過濾方法。為了減少特征帶有冗余信息,在所有的方法中,相互信息的特征選擇有其顯著的優點,利用相互信息選擇特征,能夠方便地產生子集,便于相關變量的劃分。特征子集選擇是預處理的一個重要過程,主要功能是消除不相關變量和減少雜亂數據的處理次數,保持相關特征的變化。目前針對這方面的研究出現了很多方法,基于相互信息的特征選擇能打破傳統關聯特征選擇方法的限制,本研究延伸了相互信息的思想,將與距離的方法改進互信息的特征選擇,首先預處理數據,通過距離計算,然后引入特征選擇方法,再計算相互信息的值,最后采用KNN判別。為了保持類別與屬性之間的平衡,我們需得到它們之間的關聯,將向量X=(x1,x2,…,xn)定義為屬性,將向量Y=(y1,y2,…,yn)定義為類。采用相互信息特征選擇方法計算(xi,yj)之間的相互信息,并找到相互信息比較小的子集,子集能夠加快模型的速度,如果2個隨機變量相互信息為0,表明它們之間沒有關聯。相互信息用來測量特征的好壞,通常用F={f1,f2,…fi…fn}特征集合,看哪個子集相互信息最小,經過特征子集比較,得到最大的信息量的子集。本研究應用特征選擇減少特征的維數以此來降低數據之間的關聯,降低維數,計算互信息的值,fi代表特征子集。使用相互信息有一個決定變量獨立性的理論方法,其有效地分析了變量之間的關系并使得獲得的結果更清晰。將得到的特征子集排序,如果2個特征向量沒有什么關聯,那么他們互信息最小[12-16]。建立的模型如圖1所示。

圖1 提出的方法模型

給定數據集X=(x1,x2,…,xn),標簽Y=(y1,y2,…,yn)。

步驟1 輸入數據矩陣D,標簽Y,K值參數。

步驟2 對數據進行預處理,選取子集(s1,s2,…sn)。

步驟3 用距離方法計算特征之間的互信息,特征F={f1,f2,…fi…fn}如果fi>fj,保留較小的特征。

F={f1,f2,…fi…fn+1}

步驟4 驗證子集的有效性。

步驟5 選擇一個相關的特征fi,每次把比較小的賦值給{C}計算Z中相互信息賦給{C},Z逐漸減少。

步驟6 重復步驟2、3,4、5對于計算后的子集進行排序r1>r2>,…ri,…,>rn。

步驟7 選擇最小的特征子集C={c1,c2,…,cn}。

步驟8 用F′表示最特征子集F′={f1,f2,…fi…fn}。

步驟9 輸出已選擇的特征子集F′。

步驟10 采用KNN算法分類,顯示分類結果。

在數據處理的過程中,不同的分布對應不同的互信息,互信息特征選擇帶來的信息值變化不同,互信息選擇是一種簡單計算特征方法。

4 實驗結果與分析

為了驗證互信息距離算法結合的有效性,分類性能被檢測使用以下方式,這里K值取3。

4.1 平臺

實驗平臺Python3.7,Intel(R)core(TM),I5-9400F,2.90 GHz,8G內存,Windows10操作系統。

4.2 數據集

數據集來自網絡安全攻擊數據集,其中KDDtrain包含42個屬性,125 973條數據,分為正常數據和異常數據;KDDtest包含42個屬性,22 544條鏈接記錄,分為正常http連接記錄和異常http連接記錄,采用檢測精度、f-scores度量、召回率、誤報率(圖2-圖5)。

圖2 檢測精度

類1表示正常的類別,類2表示異常的類別。

在選擇了特征后,通過比較了2種不同的方法來改善入侵檢測的精確性,通過應用標準數據集在提出的方法上進行比較,結果如圖2顯示,同隨機梯度優化和貝葉斯方法相比,本研究提出的方法在類1中精度分別提高了0.069與0.124;在類2中分別提高了0.048與0.061。檢測精度取得了比較好的結果,2類分別是0.998與0.996,高于隨機梯度優化方法0.069與0.048,同時優于貝葉斯分類估計0.874與0.935,誤報率與召回率明顯改善,在類1與類2,誤報率從貝葉斯方法的0.157與0.051降到了0.003。隨機梯度優化誤報率也相對較小。實驗充分證明,提出的互信息特征選擇方法優于其他經典方法。如圖2所示,入侵檢測的效果明顯得到改善。提出的特征選擇方法優于貝葉斯與隨機梯度分類方法。

如圖3所示,f-scores也明顯改善。提出的方法相較于其他2種方法在入侵檢測方面具有顯著優勢,雖然某些個別值會出現不太穩定的情況,但應當注意到,提出的基于相互信息的特征選擇方法對于入侵檢測有積極的影響。此外,這種方法同隨機梯度優化和貝葉斯方法相比能夠有效地處理高維數據集。

圖3 f-scores

如圖4、圖5所示,實驗中出現的誤報率比較小。另外,在經過相互信息特征選擇后,獲得了最大的特征打分。在實驗中,部分算法能容易地達到所需要的標準,通過距離改變,確定K值能夠選擇更優的標準。從圖中#以看出利用3種方法所得的打分情況對比明顯,相對于其他2種傳統算法,本研究所提方法分析檢測精度有所提高,召回率得到改進,誤報率分別降低了0.04與0.086。

圖4 召回率

圖5 誤報率

為了選擇更有效的特征,添加了排序算法,在經過子集選擇過后,經過了排序打分與篩選,根據不同的排序,產生一個結果,與另外一個排序結果互相比較,把每一個特征合適值加入到集合的中,這樣依次循環,產生最優的子集集合,使用這個集合去進行實驗驗證。從上圖中#以看出與互信息結合選擇特征的能力有較大提高。

5 結論

在高速發展的信息時代,互信息特征選擇作為一種有效的處理信息方式,在入侵檢測實驗中已經被證明,選擇的特征直接影響到攻擊檢測的各種性能。在廣泛分析了對于入侵檢測近年來的研究后,了解到入侵檢測需要更高的檢測精度,以便于檢測更多的異常特征信息。在考慮特征的相互依賴的影響下,提出了基于變化距離估計的相互信息用于入侵檢測的方法,為了避免類不平衡,冗余數據稀疏等其他因素的影響,本研究首先分析了各種因素的特點,刪除冗余特征的不利影響,討論了數據點在二維層面上的分布;然后,結合距離變化來確定距離的值從而對相互信息進行打分;最后,使用這個值優化KNN算法,并利用KNN進行分類。在實驗中,將本研究所提出的方法與其他2種傳統的方法在入侵檢測數據上面進行比較,得出結論:通過互信息的特征選擇方法選擇特征子集,對于入侵檢測數據特征選擇比較有效,能夠有效減少重復數據和冗余數據,獲得更好的過濾效果。在將來,此方法仍需深入研究,使之應用在更多的領域。

猜你喜歡
特征檢測信息
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
小波變換在PCB缺陷檢測中的應用
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 97se亚洲综合在线天天| 国产第八页| 黑人巨大精品欧美一区二区区| 亚洲人成网站色7799在线播放 | 国产又粗又爽视频| 丁香婷婷激情网| 亚洲成人网在线播放| 91在线精品免费免费播放| AV网站中文| 色婷婷电影网| 一本大道香蕉久中文在线播放| 狠狠色狠狠色综合久久第一次| 久久国产精品夜色| 亚洲欧美另类色图| 欧美啪啪一区| 制服丝袜一区二区三区在线| 亚洲另类色| 999福利激情视频| 国产微拍精品| 国产一区二区丝袜高跟鞋| 国产一区成人| 久久久久免费精品国产| 五月激情综合网| 中文字幕在线看| 99热这里只有成人精品国产| 日韩免费毛片| 91香蕉视频下载网站| 麻豆精品在线| 成人欧美日韩| 久久精品视频亚洲| 亚洲无码视频喷水| 91国语视频| 欧美精品v| 国产精品理论片| 丁香婷婷久久| 无码中字出轨中文人妻中文中| 18黑白丝水手服自慰喷水网站| 少妇被粗大的猛烈进出免费视频| 91精品国产综合久久香蕉922 | 国产95在线 | 香蕉色综合| 香蕉蕉亚亚洲aav综合| 国产视频 第一页| 亚洲乱伦视频| 免费国产好深啊好涨好硬视频| 狠狠躁天天躁夜夜躁婷婷| 欧美一区精品| 狠狠综合久久久久综| 国产性猛交XXXX免费看| 亚洲天堂网2014| 在线播放91| 国产精品熟女亚洲AV麻豆| 成人一级免费视频| 熟妇丰满人妻| 欧美劲爆第一页| 国产视频自拍一区| 亚洲成人精品| 亚洲无卡视频| 妇女自拍偷自拍亚洲精品| 一区二区三区精品视频在线观看| 天堂在线www网亚洲| 国产丰满大乳无码免费播放| 国产欧美日韩综合一区在线播放| 欧美日韩精品综合在线一区| 一本久道久久综合多人| 色综合a怡红院怡红院首页| 亚洲精品777| 亚洲精品视频免费看| 国产人前露出系列视频| 波多野结衣AV无码久久一区| 米奇精品一区二区三区| 亚洲欧美不卡中文字幕| 青青极品在线| 中文字幕不卡免费高清视频| 日韩精品一区二区三区中文无码 | 亚洲男人天堂2018| 东京热av无码电影一区二区| 狠狠色成人综合首页| 国产乱视频网站| 免费无遮挡AV| 狠狠色成人综合首页| 国产乱子伦视频在线播放|