田 野, 唐 菀, 楊喜敏, 張 艷
(中南民族大學計算機科學學院,武漢 430074)
5G和物聯網(Internet of Things,IoT)的發展使得互聯網規模呈現大幅增長,隨之而來的網絡安全問題也愈發突出. 零日漏洞、挖礦木馬等攻擊活動愈發活躍[1-2],僅在2017年每月對于物聯網設備的攻擊數就高達5200次,這給人們網絡工作與生活帶來了極大威脅. 入侵檢測系統(Intrusion Detection System,IDS)作為一種積極主動的網絡安全防護技術,一直以來都是保衛網絡安全的重要手段[3]. 但是,隨著黑客攻擊手段的不斷升級以及網絡飛速發展帶來的海量網絡數據流量,傳統的IDS已遠遠不能滿足當前網絡安全需求[4-5].
近年來,機器學習的快速發展給網絡入侵檢測帶來了新的發展契機,基于機器學習的網絡入侵檢測系統擁有傳統IDS難以企及的檢測速度以及檢測精度,并且對于未知攻擊的檢測能力得到大幅度的提高. 但是由于網絡流量的快速增長,如果不對檢測流量的特征規模進行縮減,那么即使是基于機器學習的檢測系統也將難以保證檢測的速度. 因此,采用適當的特征選擇算法來縮減流量特征規模對于提高網絡入侵檢測系統性能來說具有重要意義[6-7].
特征選擇作為一項數據預處理手段早已發展多年,它對提高機器學習模型的性能起到了重要作用. 然而,面對眾多的特征選擇算法,如mRMR[8]、馬爾科夫毯[9]、卡方檢驗、互信息、梯度下降樹[10]、隨機森林[11]、CART決策樹[12]、最小二乘法[13]等,如何選擇適合于應用場景下的算法以及所選特征選擇算……