張佳佳
(湖南信息職業(yè)技術(shù)學(xué)院,湖南 長(zhǎng)沙 410200)
隨著信息技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為人們?nèi)粘I睢⑸虡I(yè)活動(dòng)和政府機(jī)構(gòu)運(yùn)作的重要基礎(chǔ)[1]。然而隨著網(wǎng)絡(luò)的普及和廣泛應(yīng)用,網(wǎng)絡(luò)入侵事件日益嚴(yán)重,網(wǎng)絡(luò)安全面臨更嚴(yán)峻的挑戰(zhàn)。網(wǎng)絡(luò)入侵不僅會(huì)導(dǎo)致敏感信息泄露,而且可能對(duì)關(guān)鍵基礎(chǔ)設(shè)施和服務(wù)造成嚴(yán)重威脅,因此網(wǎng)絡(luò)入侵檢測(cè)是當(dāng)前網(wǎng)絡(luò)安全領(lǐng)域的一個(gè)關(guān)鍵問(wèn)題[2]。
為提高網(wǎng)絡(luò)入侵識(shí)別的及時(shí)性和準(zhǔn)確性,人工智能技術(shù)在網(wǎng)絡(luò)安全領(lǐng)域受到廣泛關(guān)注。文章旨在探討基于人工智能的網(wǎng)絡(luò)入侵檢測(cè)方法,通過(guò)構(gòu)建一個(gè)綜合性的網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)架構(gòu),實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)流量中潛在入侵行為的有效監(jiān)測(cè)和識(shí)別[3]。首先,介紹網(wǎng)絡(luò)入侵檢測(cè)的背景和相關(guān)工作;其次,提出一個(gè)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)與K-means 聚類(lèi)的網(wǎng)絡(luò)入侵檢測(cè)方法,并結(jié)合深度學(xué)習(xí)和聚類(lèi)分析的優(yōu)勢(shì)來(lái)提高檢測(cè)系統(tǒng)對(duì)入侵行為的敏感性和準(zhǔn)確性;最后,通過(guò)對(duì)1998 DARPA數(shù)據(jù)集的實(shí)驗(yàn)測(cè)試,驗(yàn)證所提方法在實(shí)際網(wǎng)絡(luò)環(huán)境中的有效性與可行性,為網(wǎng)絡(luò)入侵檢測(cè)領(lǐng)域的進(jìn)一步探索和應(yīng)用提供有益的參考[4]。
文章設(shè)計(jì)的網(wǎng)絡(luò)入侵檢測(cè)方法采用CNN 提取特征向量,再結(jié)合K-means 聚類(lèi)進(jìn)行入侵檢測(cè),系統(tǒng)架構(gòu)如圖1 所示。

圖1 系統(tǒng)架構(gòu)
數(shù)據(jù)輸入層負(fù)責(zé)接收網(wǎng)絡(luò)流量數(shù)據(jù)。CNN 層通過(guò)卷積、池化等操作,提取網(wǎng)絡(luò)流量數(shù)據(jù)的特征[5]。CNN 能夠捕捉數(shù)據(jù)中的空間關(guān)系,有效提取網(wǎng)絡(luò)流量中的有用特征來(lái)構(gòu)成特征向量。K-means 聚類(lèi)層利用K-means 聚類(lèi)算法對(duì)特征向量進(jìn)行處理,實(shí)現(xiàn)數(shù)據(jù)聚類(lèi)操作。K-means 算法通過(guò)迭代優(yōu)化,將相似的特征向量聚集到同一類(lèi)別,從而實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)入侵和正常流量的有效區(qū)分。輸出層將最終的入侵檢測(cè)結(jié)果反饋給系統(tǒng)用戶(hù)或其他安全管理系統(tǒng),實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)安全狀態(tài)的實(shí)時(shí)監(jiān)測(cè)與響應(yīng)。
該系統(tǒng)架構(gòu)結(jié)合深度學(xué)習(xí)和聚類(lèi)分析的優(yōu)勢(shì),實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)流量中入侵行為的高效檢測(cè)。CNN 用于提取復(fù)雜的特征,而K-means 聚類(lèi)能夠有效集成這些特征,為入侵檢測(cè)提供更精準(zhǔn)的判定依據(jù)[6]。
文章提出的入侵檢測(cè)方法采用CNN 和K-means聚類(lèi)相結(jié)合的方式。
首先,通過(guò)CNN 卷積和池化網(wǎng)絡(luò)流量數(shù)據(jù),提取關(guān)鍵特征來(lái)構(gòu)成特征向量[7]。設(shè)輸入數(shù)據(jù)X的維度為N×M×C,其中N為數(shù)據(jù)樣本數(shù)量,M為每個(gè)樣本的空間尺寸,C為通道數(shù)。假設(shè)CNN 的卷積層參數(shù)為W和偏置項(xiàng)b,卷積操作可表示為
式中:Y為卷積層輸出;Wi為第i個(gè)通道的卷積核;bi為第i個(gè)通道的偏置項(xiàng);*為卷積操作符號(hào),f為激活函數(shù)。
其次,采用池化操作采樣卷積層輸出,具體可表示為
式中:Z為池化層輸出。
最后,通過(guò)全連接層將池化層輸出轉(zhuǎn)換為特征向量V。全連接操作可表示為
式中:Wfc為全連接層的權(quán)重;bfc為全連接層的偏置項(xiàng);softmax(·)為激活函數(shù)。通過(guò)卷積、池化和全連接操作,從原始網(wǎng)絡(luò)數(shù)據(jù)X中提取出具有抽象表示的特征向量V。利用K-means 聚類(lèi)算法對(duì)這些特征向量進(jìn)行分組,將相似的特征劃分到同一類(lèi)別。K-means聚類(lèi)算法可表示為
式中:N為樣本數(shù)量;K為聚類(lèi)中心數(shù)量;vi為第i個(gè)樣本的特征向量;cij為樣本vi是否被分配到聚類(lèi)中心j的指示變量;μj為聚類(lèi)中心。K-means 的優(yōu)化目標(biāo)是最小化樣本到其所屬聚類(lèi)中心的歐氏距離的平方和,通過(guò)迭代優(yōu)化C和μ,實(shí)現(xiàn)對(duì)樣本的劃分和聚類(lèi)中心的更新。K-means 的迭代步驟可以表示為
式中:arg mink為取使后面表達(dá)式最小的k值。通過(guò)多次迭代,K-means 將特征向量V劃分為K個(gè)簇,每個(gè)簇代表一種模式或類(lèi)別。通過(guò)設(shè)定適當(dāng)?shù)腒值和判定閾值,系統(tǒng)可將入侵行為對(duì)應(yīng)的特征向量判定為異常類(lèi)別,有效檢測(cè)網(wǎng)絡(luò)入侵。
通過(guò)CNN 和K-means 聚類(lèi)相結(jié)合,充分發(fā)揮深度學(xué)習(xí)和聚類(lèi)分析的優(yōu)勢(shì),提高網(wǎng)絡(luò)入侵檢測(cè)的準(zhǔn)確性和敏感性[8]。在具體實(shí)現(xiàn)中,包括以下4 步。
第一,數(shù)據(jù)準(zhǔn)備。收集并準(zhǔn)備網(wǎng)絡(luò)流量數(shù)據(jù)集X,確保數(shù)據(jù)包含有關(guān)正常和入侵行為的信息。每個(gè)數(shù)據(jù)樣本Xi應(yīng)包括時(shí)間序列、源地址、目標(biāo)地址等網(wǎng)絡(luò)信息。第二,CNN 特征提取。對(duì)每個(gè)數(shù)據(jù)樣本Xi進(jìn)行CNN特征提取。通過(guò)卷積、池化等操作,將原始的網(wǎng)絡(luò)數(shù)據(jù)轉(zhuǎn)化為抽象的特征向量Vi。該步驟利用深度學(xué)習(xí)的優(yōu)勢(shì),提取數(shù)據(jù)中的關(guān)鍵特征,使其更具有判別性[9]。第三,K-means 聚類(lèi)。將得到的特征向量集合輸入K-means 聚類(lèi)算法。通過(guò)迭代優(yōu)化,將特征向量分為K 個(gè)簇,其中K 可根據(jù)具體需求設(shè)置。每個(gè)簇代表一類(lèi)相似的特征向量。第四,簇分析與異常檢測(cè)。分析K-means 聚類(lèi)的結(jié)果,識(shí)別出具有異常特征的簇。這些異常簇可能包含網(wǎng)絡(luò)入侵的特征向量。可以通過(guò)設(shè)定適當(dāng)?shù)拈撝岛鸵?guī)則,自動(dòng)判定哪些簇屬于異常類(lèi)別,從而實(shí)現(xiàn)入侵檢測(cè)。
文章采用1998 DARPA 數(shù)據(jù)集進(jìn)行所提方法的網(wǎng)絡(luò)入侵檢測(cè)實(shí)驗(yàn)。1998 DARPA 數(shù)據(jù)集是由美國(guó)國(guó)防高級(jí)研究計(jì)劃局(Defense Advanced Research Projects Agency,DARPA)贊助,用于評(píng)估網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)性能的公開(kāi)數(shù)據(jù)集。該數(shù)據(jù)集包含模擬真實(shí)網(wǎng)絡(luò)環(huán)境中的大量網(wǎng)絡(luò)流量數(shù)據(jù),涵蓋多種正常和異常網(wǎng)絡(luò)活動(dòng)[10]。
實(shí)驗(yàn)步驟如下文所述。第一,數(shù)據(jù)預(yù)處理。從1998 DARPA 數(shù)據(jù)集中選擇合適的子集,確保包含有關(guān)網(wǎng)絡(luò)入侵的充分信息。對(duì)數(shù)據(jù)進(jìn)行清洗、去噪和標(biāo)準(zhǔn)化等預(yù)處理步驟,確保實(shí)驗(yàn)的準(zhǔn)確性和可重復(fù)性。第二,訓(xùn)練集與測(cè)試集劃分。將預(yù)處理后數(shù)據(jù)集的70%和30%劃分為訓(xùn)練集和測(cè)試集。第三,CNN 特征提取。利用訓(xùn)練集訓(xùn)練CNN,通過(guò)卷積、池化等操作提取網(wǎng)絡(luò)流量數(shù)據(jù)的特征向量。第四,K-means聚類(lèi)。利用CNN提取的特征向量K-means聚類(lèi)訓(xùn)練集。通過(guò)迭代優(yōu)化,將特征向量分為預(yù)設(shè)的聚類(lèi)中心數(shù)量,形成簇集合。第五,異常檢測(cè)與參數(shù)調(diào)優(yōu)。通過(guò)分析K-means 聚類(lèi)的結(jié)果,識(shí)別出異常簇。根據(jù)實(shí)驗(yàn)需求,調(diào)優(yōu)K-means 的聚類(lèi)中心數(shù)量等參數(shù),提高系統(tǒng)的性能[11]。
在利用測(cè)試集測(cè)試訓(xùn)練好的模型后,評(píng)估網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)的性能。在指標(biāo)方面,選擇準(zhǔn)確率、召回率、精確率等指標(biāo)進(jìn)行量化,結(jié)果如表1 所示。

表1 實(shí)驗(yàn)結(jié)果
準(zhǔn)確率反映系統(tǒng)正確預(yù)測(cè)的樣本占總樣本的比例,其值越高表明系統(tǒng)整體性能越可靠。召回率衡量系統(tǒng)對(duì)正樣本的識(shí)別能力,0.88 的召回率意味著系統(tǒng)能夠較好地捕捉實(shí)際入侵行為。精確率表示系統(tǒng)在識(shí)別為正樣本的情況下的準(zhǔn)確性,0.94 的精確率說(shuō)明系統(tǒng)在入侵檢測(cè)方面的判斷相對(duì)精準(zhǔn)。綜上所述,基于CNN 和K-means 聚類(lèi)的網(wǎng)絡(luò)入侵檢測(cè)方法在綜合性能上表現(xiàn)出色,為實(shí)際應(yīng)用提供有力支持。
通過(guò)研究網(wǎng)絡(luò)入侵檢測(cè)的前沿技術(shù),提出一種基于CNN 和K-means 聚類(lèi)的網(wǎng)絡(luò)入侵檢測(cè)方法。實(shí)驗(yàn)表明,該方法在1998 DARPA 數(shù)據(jù)集上性能較好。憑借CNN 的特征提取和K-means 聚類(lèi)的數(shù)據(jù)分類(lèi),實(shí)現(xiàn)對(duì)入侵行為的高效識(shí)別。在實(shí)驗(yàn)中,該方法表現(xiàn)出較高的準(zhǔn)確性、召回率和精確率,證明了其可行性和有效性。未來(lái)的研究方向包括進(jìn)一步優(yōu)化模型、拓展適用性等,以更好地滿足不斷演化的網(wǎng)絡(luò)安全需求。