999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

共形預測框架下的高可靠入侵檢測算法

2022-07-14 13:11:10金海波趙欣越
計算機工程 2022年7期
關鍵詞:分類特征

金海波,趙欣越

(遼寧工程技術大學軟件學院,遼寧 葫蘆島 125105)

0 概述

隨著網絡技術的飛速發展,網絡攻擊行為的識別問題在網絡安全領域中備受關注。入侵檢測系統(Intrusion Detection System,IDS)已成為一種廣泛使用的信息安全保障技術[1]。IDS 的主要作用是監控和收集實時的數據節點,通過分析網絡流量以發現惡意活動的跡象,建立相應的分類模型和評估機制,從而判斷是否為安全數據并采取相應的措施。網絡信息安全的發展同時也伴隨著入侵病毒類型的增加。入侵病毒逐漸呈現大規模、多步協同、分布式處理等特點,普通的單一檢測無法應對不同類型病毒的攻擊[2]。在一些要求高可靠低容錯的網絡系統領域(如遠程醫療、工業控制)中,保證入侵數據預測的高可靠性具有重要意義。

研究人員提出一系列基于機器學習的IDS 相關算法,如支持向量機(Support Vector Machine,SVM)[3-4]、決策樹(Decision Tree,DT)[5-6]、隨機森林(Random Forest,SF)[7-9]、貝葉斯網絡(Bayesian network)[10]、人工神經網絡(Artificial Neural Network,ANN)[11-13]、K 近鄰(K-Nearest Neighbor,K-NN)[14-15]算法等,并有效地應用在IDS 中。文獻[6]構建一種基于粗糙集理論的增量DT 算法并應用到IDS 中。該算法在處理一條新數據時,只需更改活動決策樹中的某個已知子節點或添加一個新子節點,無須重建整個決策樹,從而提高增量決策樹的計算效率。文獻[10]提出針對無線傳感網絡的局部時間序列異常檢測算法,該算法利用貝葉斯網絡對每個傳感器節點采集的數據進行異常檢測與預測。文獻[16]提出一種應用于智能電網的分布式IDS 框架,利用SVM 和人工免疫系統分類算法確定入侵時間、入侵類型和入侵發起者,從而解決智能電網來自物理層和網絡層的入侵攻擊。文獻[17]提出將Elman神經網絡(Elman Neural Network,ENN)和魯棒SVM相結合的入侵檢測方法。該方法結合ENN 的包絡優勢進行網絡數據包文本聚類,利用魯棒SVM 對含有噪聲的數據去噪,有效地改善了網絡數據包文本信息丟失的缺陷,從而提高整體方案的檢測精度。

上述研究大多基于單一的傳統機器學習方法,雖然在樣本識別能力上都有提升,但是對復雜函數的表達能力有限,泛化能力較弱,不能很好地處理復雜分類問題。這些分類算法只輸出預測結果標簽,“非黑即白”式的判斷樣本數據的標簽,缺少對預測結果置信度的評價機制,因此無法保證預測結果的可靠性。文獻[18]提出共形預測(Conformal Prediction,CP)算法。該算法利用有效的置信度來衡量預測結果的可靠性,基于一致性原理且定義明確的數學框架,用于衡量校準集與測試實例的符合程度,使用數據實例的奇異度(不一致性)確定新實例預測的置信值,同時生成在某一范圍內具有限定錯誤率的預測類標簽(假設訓練集樣本和被預測實例需獨立分布)。

近年來,共形預測被逐漸應用于各個領域。文獻[19]提出一種基于主動學習的CP 算法,結合預測數據的不確定性、多樣性和典型性,通過求解帶約束條件的線性回歸問題以確定預測數據之間的關聯性,基于CP 計算預測結果的可信度和置信值,將該算法應用在人臉識別上并取得較優的效果。文獻[20]使用回歸樹進行預測,多個測試實例會劃分到一個葉子節點中,但是出現不同預測區間的現象,驗證了使用CP 解釋這種現象發生的合理性。文獻[21]構建ICP-CNN 模型,將CP 算法融入到卷積神經網絡中,不僅在一定程度上增加了對新對象預測的可靠性,還提高了CNN 的分類性能。文獻[22]將CP 算法與矩陣分解技術相結合運用在推薦系統中,提出并分析基于矩陣分解的不一致度量。CP 模型在不斷變化的條件下具有較強的通用性。文獻[23]將CP 算法與隨機森林的基礎算法相結合用于解決無聲語音識別可靠性問題,利用CP 算法對無標簽數據進行預測,不僅降低了識別的錯誤率,還可獲得單個數據預測的置信區間。文獻[24]基于CP算法提出一種分布回歸的區間預測算法,通過內核平均嵌入將輸入分布嵌入到復制內核希爾伯特空間中,構建可靠的預測系統,并將此方法首次應用于溫度和降水氣候綜合預測領域中。因此,CP 算法及相關框架正逐漸走向成熟并在預測結果可靠性計算上起到了積極的作用。

本文提出一種共形預測框架下的入侵檢測算法。采用傳統機器學習分類算法對數據進行首次預測,利用共形預測算法計算預測結果的p-value,采用支持向量機對可靠度低的預測結果進行二次精細預測,并將可靠度高的預測結果作為最終結果。根據傳統機器學習算法的各自特點,構造共形框架下與之對應的不一致性計算公式,通過引入平滑因子改進p-value 的計算公式,使其能夠以更平滑的方式度量預測實例與校準集的不一致程度。

1 相關理論

1.1 機器學習分類算法

共形預測是在機器學習算法基礎上對預測結果進行置信度計算,因此許多分類算法(如DT、SVM、KNN、ANN、貝葉斯網絡等)在CP 框架下被稱為底層算法。本文底層算法采用DT 和SVM。

1.1.1 決策樹

決策樹是一種樹形結構預測算法,其中每個內部節點表示一個特征的分類預測,每個分支代表一個測試輸出,每個葉子節點代表一種預測結果。決策樹學習算法的實質是特征選擇過程,在確定每一層劃分樣本的特征時,按照一定的標準計算每個特征,每次都選擇最重要的特征作為樣本劃分特征。

文獻[25]提出的決策樹算法(CART)是在ID3算法基礎上進行優化的決策樹。在CART 構造決策樹時根據每個特征的所有可能取值計算樣本集的基尼指數,將基尼指數最小的特征和取值作為當前節點和最優切分點,并生成兩個子節點,根據最優切分點將數據分成兩個子集并分別分配到兩個子節點中。從根節點開始,按照上述過程遞歸計算每個節點的基尼指數,并確定特征和生成兩個子節點,直至樣本的基尼指數小于閾值或樣本的節點數小于閾值后,停止計算。

CART 算法分類準確率高、魯棒性強,但容易受樣本的影響使得子樹在決策樹中可能重復多次,導致過擬合現象的發生。針對過擬合現象,本文采用基于預測誤差增益和交叉驗證的方式進行剪枝,從而提高泛化能力。

1.1.2 多分類支持向量機

SVM 是機器學習常用的一種分類算法。傳統的SVM 是一種二分類模型,通過構造分類超平面尋找最優的超平面,即對樣本數據進行最大間隔的分割。在實際中,網絡入侵數據往往呈現非線性的特點,因此,本文利用樣本數據構造非線性多分類SVM 模型。

設一組帶有標簽的樣本(xi,yi),i=1,2,…,n,其中,yi為樣本標簽,分類超平面如式(1)所示:

引入拉格朗日乘子,將式(2)轉化為對偶形式,求解該二次規劃問題。

針對高維或無窮維問題,本文采用徑向基核函數(Radial Basis kernel Function,RBF)進行計算,求解后得到分類函數如式(3)所示:

二分類非線性SVM 模型構造完成。

由于網絡入侵數據的多樣性,即數據標簽具有多種類別,因此在二分類SVM 基礎上,構造相應的多分類SVM 模型。本文采用一對多構造方法,即根據樣本數據構造k個SVM 模型,其中k表示樣本數據標簽的數量,每個模型負責區分該類數據和其他類別數據,最后得到k個超平面距離最大的預測標簽作為最終預測結果。

1.2 共形預測

共形預測是不使用復雜概率模型進行可靠預測的框架。對于任意的顯著性水平ε?[0,1],CP 將生成一個預測結果的集合。在該集合中預測正確結果的概率不低于1-ε。CP 的原理是設集合Z包含n個元素,即Z={z1,z2,…,zn},其中zn={xn,yn},xn是第n個數據樣本,yn是xn的標簽。度量不一致性定義的函數A(Z,z)。該函數計算實例z與集合Z的不一致程度,得到衡量該程度的得分,即α=A(Z,z)。通過函數A(Z,z)計算Z中任何一個元素zi(i=1,2,…,n)的不一致得分αi,即αi=A((Z-zi),zi),其中Z-zi表示兩 個集合的差集。之后對新的數據實例xn+j(j=1,2,…,n),利用底層算法得到預測標簽yn+j,此時得到zn+j=(xn+j,yn+j)。根據底層算法輸出,計算zn+j的不一致得分αn+j,再計算zn+j的p-value,其計算如式(4)所示:

2 本文算法

2.1 數據降維

網絡入侵數據具有海量、高維的特點,在對原始高維數據進行處理時存在計算耗時長、檢測精度低的問題。因此,通過對原始高維數據進行降維是提高入侵檢測算法計算效率的必要前提。本文采用主成分分析(Principal Component Analysis,PCA)法進行數據降維。

入侵檢測數據高維樣本的矩陣如式(5)所示:

其中:n為樣本數量;m為樣本維度。入侵檢測算法確定輸入的樣本數據X后,通過對樣本的特征進行均值運算,如式(6)所示:

其中:xi為樣本X的第i行向量。X的協方差矩陣C如式(7)所示:

其中:LLT是m階方陣。矩陣X的特征值和特征向量的求解是將特征向量按照對應特征值由大到小的順序排列成矩陣,根據貢獻率取該矩陣的前ξ行(ξ

貢獻率μ是度量每個特征攜帶有效信息的量,如式(9)所示:

其中:πi是矩陣LLT的第i個特征值。為保證用較少的特征攜帶較多的有效信息,通過PCA 對數據進行降維后,本文將貢獻率占總貢獻95%的前l個特征作為最終的降維結果。

2.2 CP 框架下的底層算法

本文將DT 算法和多分類SVM 算法與CP 框架相結合,以CP 框架下的p-value 作為橋梁將兩者有效地結合。本文構造決策樹算法的的過程如算法1所示。算法1 的停止條件為節點中的樣本個數小于指定閾值或樣本集的基尼指數小于指定閾值。

算法1決策樹構造(DS,Ai)

DT 分類算法已訓練完畢。當采用DT 算法預測入侵數據時,算法只輸出預測結果,無法確保預測結果的可靠性,而CP 算法基于預測結果計算p-value,通過p-value 與顯著性水平ε的比較,可得預測結果的可靠性。當時,當前入侵數據xn+1的預測標簽yq置信值較低。本文使用多分類SVM 模型對xn+1重新預測,從而提高預測的整體精度。

算法2多分類SVM 模型構建(D)

2.3 CP 算法

CP 算法的核心過程包含2 個部分:1)根據底層算法輸出結果確定屬于每個預測標簽的不一致得分;2)根據這些得分,計算每個預測標簽的p-value。

2.3.1 不一致得分確定

在CP 框架下采用底層算法進行預測分為2 個部分:1)采用DT 算法對網絡入侵數據進行初步預測;2)采用SVM 進行精細預測。由于DT 算法和SVM 算法在分類原理上有很大區別,因此本文根據這2 個算法的各自特點分別確定預測結果不一致得分的方法。

DT 算法在輸出預測結果的同時輸出該條數據屬于每個標簽的概率,將概率值最大的標簽作為預測結果。設o1,o2,…,oM(M是分類標簽類型的數量)是DT 算法輸出數據實例x屬于每個標簽的概率,滿足x不一致得分的計算如式(11)所示:

SVM 算法按照分類標簽種類輸出相應得分,該得分反映一個點與最優超平面的距離,最大得分表明點到超平面的間隔最大,即表明該條數據屬于哪類標簽。為清晰反映每類標簽與對應得分之間的占比關系,本文以預測數據得分的最小值作為基準,計算其他標簽得分與基準的相對距離,如式(12)所示:

由式(11)和式(13)可知,α均隨著oq和的增大而減小。因此,本文構造關于DT 和SVM 算法預測結果的不一致得分與CP 理論相一致。

2.3.2p-value 計算

p-value 是CP 算法中另一個重要組成部分。p-value 反映新的數據實例xn+j與校準集C={(x1,y1),(x2,y2),…,(xn,yn)}的差異程度。隨著校準集規模逐漸增大,通過式(4)計算p-value 會出現隨機抖動現象。為避免該現象的發生,本文對式(4)進行改進,采用更平滑的方式計算p-value,改進的p-value 計算如式(14)所示:

其中:τ?[0,1]。由式(14)可知越大,預測數據xn+j與校準集越一致。

2.3.3 可信度與置信值

CP 框架提供預測結果的可信度和置信值這2 個關鍵性能指標。

置信值定義如式(16)所示:

可信度反映預測標簽與真實標簽之間的符合程度,而置信值反映預測標簽等于真實標簽的可信程度。

2.4 入侵檢測算法架構

設數據集為Z={z1,z2,…,zn},n?R,其中zi=(xi,yi),xi表示一個多維數據實例,yi是這個數據實例對應的標簽。在集合Z中某些元素可能彼此相同。入侵檢測算法主要分為以下6 個步驟:

1)將含有n條數據的數據集Z分成訓練集TS 和校準集CS,并將TS 分成2 個子集TS1和TS2,CS分成2個子集CS1和CS2。TS1用于訓練DT算法,TS2用于訓練SVM模型。CS1用作DT 算法的校準集,CS2用作SVM 模型的校準集。其中,|TS1|=n1,|TS2|=n2,|CS1|=n3,|CS2|=n4,滿足=n,n1>>n2,n1+n2>>n3+n4。

2)分別用TS1和TS2進行訓練,得到DT 算法和SVM 算法。

3)利用DT 算法對CS1中所有數據實例進行分類,通過式(11)計算所有分類結果的不一致得分,構成不一致得分集αDT={α1,α2,…,αn3}。同理,采用SVM算法對CS2中所有數據實例進行分類,利用式(12)和式(13)計算所有分類結果的不一致得分,構成集合αSVM={α1,α2,…,αn4}。

4)利用DT 算法對新的數據實例xn+j(j=1,2,…,n)進行預測,輸出預測結果yn+j。采用式(14)計算yn+j的p-value,當p-value>ε時,計算yn+j的可信度和置信值,并擴充預測結果集Re=Re+{(xn+j,yn+j)}。

5)當步驟4 中的p-value<ε時,用SVM 模型對該數據實例進行重新預測,輸出預測結果yn+j。采用式(14)計算yn+j的p-value。當p-value>ε時,計算yn+j的可信度和置信值,并擴充預測結果集Re=Re+{(xn+j,yn+j)},返回步驟4,直至測試集中的所有數據預測完畢。

6)當步驟5中p-value<ε時,判定該數據為異常數據,丟棄該數據,返回步驟4,直至測試集中的所有數據處理完畢。

入侵檢測算法流程如圖1 所示。

圖1 入侵檢測算法流程Fig.1 Procedure of intrusion detection algorithm

3 仿真實驗與結果分析

實驗平臺為蘋果操作系統,CPU 2.4 GHz,內存8.0 GB 的PC 機,編程軟件為MATLABR2018a,分別對KDD CUP 99 數據集和AWID 數據集進行實驗。

3.1 KDD CUP99 數據集的實驗結果與分析

在KDD CUP99 數據集中每條樣本數據由41 個特征屬性和1 個類別標簽組成。特征屬性包括protocol_type、service、flag等,其中3個symbolic類型,38個numeric類型。KDDCUP99數據集的特征屬性如表1所示。

表1 KDD CUP99 數據集的特征屬性Table 1 Characteristics attribute of KDD CUP99 dataset

標簽類別包括1 種正常類型(Normal)和4 種攻擊類型。攻擊類型分別為DoS、R2L、U2R、Probe,又可劃分為39 類攻擊。KDD CUP99 數據集的數據標簽類別如表2 所示。

表2 KDD CUP99 數據集的數據標簽類型Table 2 Data label categories of KDD CUP99 dataset

3.1.1 數據選擇與劃分

本文采用KDD CUP99 原始數據集中前10%的部分數據進行實驗,根據KDD CUP99 原始數據集前10%的數據分布情況可知,數據集中的標簽具有高度不平衡的特點。本文將數據集按適當比例劃分為訓練數據集和測試數據集。實驗數據劃分情況如表3 所示。

表3 在KDD CUP99 數據集中實驗數據標簽的劃分情況Table 3 Division of experimental data labels on KDD CUP99 dataset

3.1.2 在KDD CUP99 數據集上的數據預處理

數據預處理包括對離散特征數值化、歸一化和降維處理。

1)離散特征數值化。為滿足底層分類算法輸入輸出數據類型均為numeric 類型的要求,本文將數據集中所有symbolic 類型數據轉換成numeric 類型數據。本文將特征protocol_type 中數據取值TCP、UDP 和ICMP 分別轉換為數字1、2、3;特征service 的數據取值共有70 種,包括http、ftp、smtp 等,依次轉換為數字1~70;特征flag 的取值共有11 種,包括OTH、REJ、RSTO 等,依次轉換為數字1~11;數據標簽共有Normal、Probe、DoS、U2R、R2L 這5 種,依次轉換為數字1~5。

2)數據歸一化處理。由于在數據集中各個特征取值的數量級和量綱均不相同,因此需將原始數據進行歸一化處理,從而增強實驗結果的可靠性。本文使用z-score 法進行歸一化,該方法是基于特征數據的均值和標準差進行計算,如式(17)所示:

其中:xi為觀測值;E(x)為特征數據的均值;D(x)為特征數據的方差。標準化后的數據均值為0,標準差為1。

3)數據降維處理。為降低數據特征間的冗余并加快數據的處理速度,本文采用PCA 算法對數據進行降維,保留主成分累計貢獻率達95%的特征,即前20 個特征作為降維后的特征。

3.1.3 在KDD CUP99 數據集上的參數設置

入侵檢測算法的參數設置如表4 所示。

表4 入侵檢測算法的參數Table 4 Parameters of intrusion detection algorithm

3.1.4 在KDD CUP99 數據集上的實驗結果

為驗證本文算法的高效性,本文算法與DT 算法、SVM 算法、DT-SVM 算法在相同訓練集與測試集上從混淆矩陣準確率、查準率和誤報率三個方面進行對比實驗。準確率如式(18)所示:

查準率如式(19)所示:

召回率如式(20)所示:

誤報率如式(21)所示:

其中:TTP表示真實值是positive,模型認為是positive的數量;FFN為真實值是positive,模型認為是negative的數量;FFP表示真實值是negative,模型認為是positive 的數量;TTN表示真實值是negative,模型認為是negative 的數量。

在KDD CUP99 數據集中DT、SVM、DT-SVM 和本文算法的混淆矩陣如圖2 所示。從圖2 可以看出,混淆矩陣分別為5 行5 列。底側數字1~5 表示數據真實標簽,左側數字1~5 表示預測分類出的標簽。最后一行格子(右下角格子除外)上面和下面的百分比分別表示預測各標簽成功和失敗的召回率。最后一列格子(右下角格子除外)上面和下面的百分比分別表示預測各標簽成功和失敗的查準率。右下角格子上面的百分比表示預測準確率,下面的百分比為預測失敗率。其他格子下面百分比則表示該分類樣本數占全部測試集樣本數的比例。。

圖2 不同算法的混淆矩陣Fig.2 Confusion matrices of different algorithms

在KDD CUP99 數據集中,DT、SVM、DT-SVM和本文算法的準確率對比如圖3 所示。本文算法的準確率總體優于SVM 算法、DT 算法和DT-SVM 算法,分別提高11.1、4.6 和3.7 個百分點。KDD CUP99數據集標簽類型具有不平衡性,其中Normal 與DoS標簽類型的數據在訓練集中的占比較大,Probe、U2R、R2L 類型數據占比較少,因此在測試結果中數據各項性能的評估率有較明顯的波動。

圖3 不同算法的準確率對比Fig.3 Accuracy comparison among different algorithms

在KDD CUP99 數據集中,DT、SVM、DT-SVM和本文算法的查準率對比如圖4 所示。

圖4 不同算法的查準率對比Fig.4 Precision comparison among different algorithms

從圖4可以看出,本文算法在Normal、Probe、U2R和R2L標簽類型上的查準率較SVM 算法分別提高14.4、14.8、95.3 和29.4 個百分點,在DoS 標簽類型上降低5.8 個百分點。因此,本文算法的查準性能優于SVM 算法。本文算法在Normal、Probe、U2R 和R2L 標簽類型上的查準率較DT 算法分別提高5.3、8.7、79.6和53.4個百分點,在DoS標簽類型上降低5.9個百分點。因此,本文算法的查準率性能優于DT 算法。本文算法在Probe、DoS、U2R 和R2L 標簽類型上的查準率較DT-SVM 算法分別提高7.2、7.4、42.9和27.9個百分點,在Normal標簽類型上降低4.2個百分點。因此,本文算法的查準率性能優于DT-SVM算法。

在KDD CUP99 數據集上不同算法的評價指標對比如表5 所示。從表5 可以看出,本文算法的各數據標簽類型誤報率與其他算法相比有所降低。本文算法在Normal、Probe、U2R和R2L標簽類型上的誤報率較SVM算法分別降低了11.85、3.97、3.08 和0.81 個百分點;在DoS 標簽類型上增加了4.38 個百分點。因此,本文算法的誤報性能優于SVM 算法。本文算法在Normal、Probe、U2R 和R2L 標簽類型上的誤報率較DT 算法分別減少了3.59、2.43、1.01 和2.89 個百分點,在DoS 標簽類型上增加了4.28 個百分點。因此,本文算法的誤報性能優于DT算法。本文算法在Probe、DoS、U2R和R2L標簽類型上的誤報率較DT-SVM 算法分別降低1.75、6.16、0.02 和0.71 個百分點,在Normal標簽類型上增加了2.97 個百分點。因此,本文算法的誤報性能優于DT-SVM 算法。

表5 在KDD CUP99 數據集上不同算法的評價指標對比Table 5 Evaluation indexs comparison among different algorithms on KDD CUP99 dataset %

3.2 AWID 數據集的實驗結果與分析

在AWID 數據集上的每條數據都由154 個特征和1 個標簽組成。AWID 數據集根據數據標簽種類的數量,又分為AWID-ATK 和AWID-CLS 數據集。本文在AWID-CLS-R-Trn 數據集上進行實驗。該數據集共有1 795 575 個數據,數據標簽由3 種攻擊類型標簽Injection、Flooding、Impersonation 和1 種正常類型標簽Normal 組成。在AWID 數據集中每種數據標簽的分布情況如表6 所示。

表6 在AWID 數據集中每種數據標簽的分布情況Table 6 Distribution of each data label on AWID dataset

3.2.1 數據集選擇

由于在AWID-CLS-R-Trn 數據集中各個類型的數據不均衡,因此本文隨機選擇部分數據作為實驗數據集,使得該數據集中4種數據類型的數量相當。在AWID數據集中實驗數據的劃分情況如表7 所示。

表7 在AWID 數據集中實驗數據標簽的劃分情況Table 7 Division of experimental data labels on AWID dataset

3.2.2 在AWID 數據集上的數據預處理

數據預處理包括離散特征數值化、數據歸一化處理和數據降維處理。

1)離散特征數值化。本文將原始訓練集中所有數據進行“清洗”,并將清洗后的數據都轉換成numeric 類型。將特征數據中存在的空值,即“?”轉換為數字0;將特征數據中的十六進制數轉換為十進制數字;丟棄即不考慮表示MAC地址的特征數據;將4種數據標簽類型Normal、Flooding、Injection、Impersonation 依次轉換為數字1~4。

2)數據歸一化處理,同式(17)。

3)數據降維處理。采用PCA 算法對數據進行降維,保留主成分累計貢獻率達95% 的特征,即前46 個特征作為降維后的特征。

3.2.3 在AWID 數據集上的參數設置

算法中參數γ、σ和τ的設置與表4 相同。其他參數設置如表8 所示。

表8 在AWID 數據集上入侵檢測算法的參數Table 8 Parameters of intrusion detection algorithm on AWID dataset

3.2.4 在AWID 數據集上的實驗結果

在AWID數據集上SVM算法、DT算法、DT-SVM 算法和本文算法的混淆矩陣如圖5 所示。從圖5 可以看出,混淆矩陣分別為4 行4 列。底側數字1~4 表示數據真實標簽,左側數字1~4 表示預測分類出的標簽。最后一行格子(右下角格子除外)上面和下面的百分比分別表示預測各標簽成功和失敗的召回率。最后一列格子(右下角格子除外)上面和下面的百分比分別表示預測各標簽成功和失敗的查準率。右下角格子上面的百分比表示預測準確率,下面的百分比為預測失敗率。其他格子下面百分比則表示該分類樣本數占全部測試集樣本數的比例。

圖5 在AWID 數據集上不同算法的混淆矩陣Fig.5 Confusion matrices of different algorithms on AWID dataset

在AWID 數據集上不同算法的準確率對比如圖6 所示。從圖6 可以看出,本文算法的準確率總體上優于SVM 算法、DT 算法和DT-SVM 算法,分別提高4、2.5 和1.3 個百分點。由于AWID 數據集的標簽類型具有較優的平衡性,因此在測試結果中數據各項性能的評估率不存在較為明顯的波動。

圖6 在AWID 數據集上不同算法的準確率對比Fig.6 Accuracy comparison among different algorithms on AWID dataset

在AWID 數據集上不同算法的查準率對比如圖7 所示。從圖7 可以看出,本文算法在Normal、Flooding 和Impersonation 標簽類型上的查準率較SVM算法分別提高4.5、2.5和11.2個百分點;在Injection 標簽類型上近乎相同。因此,本文算法的查準性能優于SVM 算法。本文算法在Normal 和Impersonation 標簽類型上的查準率較DT 算法分別提高5.1和2.9個百分點,在Flooding、Injection標簽類型上近乎相同。因此,本文算法的查準率性能優于DT算法。本文算法在Normal、Flooding 和Impersonation 標簽類型上的查準率較DT-SVM 算法分別提高2.5、1.4 和2.3 個百分點,在Injection 標簽類型上近乎相同。因此,本文算法的查準率性能優于DT-SVM 算法。

圖7 在AWID 數據集上不同算法的查準率對比Fig.7 Precision comparison among different algorithms on AWID dataset

在AWID 數據集上不同算法的評價指標對比如表9 所示。本文算法在Normal 和Flooding 標簽類型上的誤報率較SVM 算法分別降低了1.15 和0.7 個百分點。因此,本文算法的誤報性能優于SVM算法。本文算法在Normal、Flooding 和Impersonation標簽類型上的誤報率較DT 算法分別減少了1.86、0.72 和0.81 個百分點,在Injection 標簽類型上增加了0.05 個百分點。因此,本文算法的誤報性能優于DT 算法。本文算法在Normal、Flooding 和Impersonation標簽類型上的誤報率較DT-SVM 算法分別降低了0.58、0.42 和0.76 個百分點。因此,本文算法的誤報性能優于DT-SVM 算法。

表9 在AWID 數據集上不同算法的評價指標對比Table 9 Evaluation indexs comparison among different algorithms on AWID dataset %

4 結束語

本文提出共形預測框架下的入侵檢測算法。結合共形預測算法能夠給出置信值的優點,通過構造適應機器學習分類算法的不一致得分函數,得到預測結果的改進p-value,同時采用支持向量機對置信值低于閾值的預測結果進行二次精細預測,提高各類數據標簽的預測精度。實驗結果表明,與DT、SVM 和DT-SVM 算法相比,本文算法在保證檢測結果可靠性的情況下具有較優的檢測性能。下一步將把概率圖理論與共形預測算法相融合,使得共形預測算法中的數據無需滿足獨立同分布的要求,進一步提高檢測結果的可靠度。

猜你喜歡
分類特征
抓住特征巧觀察
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 真人免费一级毛片一区二区| 黑色丝袜高跟国产在线91| 成人国产精品2021| 最新国产你懂的在线网址| 毛片手机在线看| 亚洲人成网址| 一级一级一片免费| 欧美日韩国产在线观看一区二区三区| 国产导航在线| 亚洲国产欧美国产综合久久| 欧美黑人欧美精品刺激| 午夜高清国产拍精品| 真实国产乱子伦高清| 精品国产99久久| 亚洲swag精品自拍一区| A级毛片无码久久精品免费| 色婷婷在线影院| 亚洲无码37.| 71pao成人国产永久免费视频| 无码粉嫩虎白一线天在线观看| 2021亚洲精品不卡a| 91亚洲精选| 亚洲美女久久| 亚洲综合九九| 免费毛片在线| 国产欧美在线| 日韩av无码精品专区| 国产性猛交XXXX免费看| 国产成熟女人性满足视频| 热思思久久免费视频| 国产第三区| 99无码中文字幕视频| 999福利激情视频| 51国产偷自视频区视频手机观看| 91午夜福利在线观看| 色哟哟国产精品| 亚洲综合专区| 精品国产美女福到在线不卡f| av手机版在线播放| 四虎亚洲精品| 91无码人妻精品一区| 97在线观看视频免费| 人妻中文字幕无码久久一区| 欧美国产日韩在线观看| 69精品在线观看| 日韩一级二级三级| 真人高潮娇喘嗯啊在线观看| 国产h视频免费观看| 亚洲国产中文在线二区三区免| 5388国产亚洲欧美在线观看| 18禁色诱爆乳网站| 亚国产欧美在线人成| 亚洲欧美在线综合图区| 国产欧美日韩专区发布| 一级成人a毛片免费播放| 亚洲男人天堂网址| 在线看国产精品| 欧美一区二区三区国产精品| 国产超薄肉色丝袜网站| 亚洲国产第一区二区香蕉| 亚洲婷婷在线视频| 2021最新国产精品网站| 国产精品久久自在自2021| 欧美色亚洲| 国内精品一区二区在线观看| 91精品国产无线乱码在线| 四虎国产成人免费观看| 亚洲浓毛av| 亚洲男人的天堂久久精品| 在线综合亚洲欧美网站| 老司机久久99久久精品播放| 国产精品v欧美| 中文字幕啪啪| 国模视频一区二区| 久久这里只有精品23| 国产精品无码久久久久久| 98精品全国免费观看视频| 久久永久精品免费视频| 欧美a级完整在线观看| 精品国产亚洲人成在线| 国产无码精品在线| 亚洲欧美日韩综合二区三区|