999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征增強和優化SVM的工控入侵檢測

2021-12-23 07:57:08黃一鳴趙國新魏戰紅
計算機工程與設計 2021年12期
關鍵詞:分類檢測模型

黃一鳴,趙國新,魏戰紅,劉 昱

(北京石油化工學院 信息工程學院,北京 102617)

0 引 言

隨著ICS網絡的開放、工控協議的通用化以及“震網”等病毒的活躍,工控系統面臨著嚴重的安全威脅,亟需有效解決方案[1]。作為重要的信息安全防護手段,入侵檢測的研究成為工控信息安全領域的一個熱點[2]。

入侵檢測本質是對異常數據和正常數據進行分類[3]。SVM作為一種高效的學習方法,在構建入侵檢測系統時表現優秀[4]。SVM的分類性能受懲罰參數c和核函數參數g的選取影響極大[5]。粒子群優化算法(particle swarm optimization,PSO)參數少、易于實現,被廣泛應用到SVM參數尋優中[6]。王華忠等[7]將PSO-SVM與PCA相結合應用于工控入侵檢測中,不僅提高檢測精度也大幅縮短訓練時間。陳東青等[8]改進了KPSO算法,提出了基于MIKPSO-SVM的入侵檢測框架,并使用標準工控入侵檢測數據集驗證,取得了良好的效果。

輸入數據質量同樣影響入侵檢測性能[9]。對輸入數據進行轉換或重構對于入侵檢測[10]具有重要意義。常用的轉換方法如主成分分析(PCA)和線性判別分析(LDA)忽略了部分特征所包含的分類信息,具有一定有局限性的。Fan等[11]提出了對數邊際密度比變換(logarithm marginal density ratios transformation,LMDRT),充分利用特征所包含的信息,提高了數據質量。

本文通過LMDRT增強了輸入工控數據質量,并針對粒子群算法易陷入局部最優等問題,使用種群聚集程度指導權重自適應變化優化粒子搜索能力,結合粒子重構策略提高種群跳出局部最優能力,改進了粒子群算法,并用于SVM工控入侵檢測模型的優化與構建。用密西西比大學(MSU)標準工控入侵檢測數據集進行模型檢測,驗證了該方法在提高檢測精度與效率的優越性。

1 對數邊際密度比變換

對數邊際密度比變換是Fan等[11]提出的一種非參數數據轉換方法。由于邊際密度比被認為是最強大的單變量分類特征,LMDRT充分利用各個特征所包含的分類信息,變換后的數據具有更高的數據質量和更優的分類性能。其原理如下:

假設(A,B)是一組已標記樣本,其中A=(a1,a2…,aT)∈RT表示特征量,B∈{0,1}表示類別標簽。分類器h 表示樣本從特征空間到類別標簽的數據依賴映射。其構造目的通常是為了最小化風險P (h (A)≠B)。設類別0與類別1的條件概率密度分別為g(A)和f(A),即(A|B=0)~g 和(A|B=1)~f。根據貝葉斯決策規則有I(r (a)≥1/2),則

(1)

為簡化式(1),可設P (Y=1)=0.5,則分類的決策邊界為

{a:f(A)/g(B)=1}={a:log f(A)-log g(B)=0}

(2)

設gj(aj)和fj(aj)分別為g(A)和f(A)第j個特征的邊際值,即特征空間A各個特征的邊際密度。根據樸素貝葉斯模型的假設理論,給定類別的各個特性的條件分布相互獨立,則有

(3)

由于邊際密度比被認為是最強大的單變量分類器,因此新變換的數據充分利用了原始數據中包含的分類信息,且充分考慮了每個特征所表現出的類別差異。因此,可以認為LMDRT是對原始特征最強大的轉換,這將顯著提高原始數據的質量。同時,線性分類問題的決策邊界不再是原始特征的線性組合;而是如下式所示的非線性形式

(4)

由于各個特征的邊際密度gj和fj未知,需要其進行估計,這里采用非參數核密度估計法對其進行計算。LMDRT的詳細過程如下。

假設有N個已被標記類別的樣本,S={(Ai,Bi),i=1,2,…,N},其中Ai∈RT表示特征量,Bi表示數據類別標簽。

(1)數據拆分

將S隨機拆分為互斥的兩部分S1和S2。記S1=(A(1),B(1)),S2=(A(2),B(2)),N1和N2分別記為S1和S2樣本的數量。

(2)類條件概率密度的核估計

(5)

(6)

(3)數據轉換

(7)

LMDRT具體流程如圖1所示。

圖1 對數邊際密度比變換流程

2 改進粒子群算法

2.1 粒子群算法

粒子群優化算法(particle swarm optimization,PSO)的相關定義請參見文獻[12],其簡要原理如下:

對于n維空間中包含m個粒子的粒子群,其每個粒子位置Di=(αi1,αi2,…,αin)與速度Vi=(βi1,βi2,…,βin)依據迭代中每個粒子歷史最佳適應度位置Li=(li1,li2,…,lin)和全體粒子歷史最佳適應度位置Lgbest=(lg1,lg2,…,lgn)。對每個粒子速度和位置進行更新,公式如下

(8)

(9)

雖然粒子群算法易于實現且可操作性強但其依舊存在尋優穩定性差、算法收斂精度低且易陷入局部最優等問題,本文針對其存在的問題做出如下改進。

2.2 改進的PSO算法

2.2.1 粒子初始位置改進

為保證種群均勻分布,本文使用佳點集法確定粒子初始位置以避免初始種群聚集度過高[13]。其原理如下:GS是S維歐式空間的單位立方體,GS中的點r=(r1,r2,…,rS),滿足

Pn(k)={({r1k},{r2k},…,{rSk}),1≤k≤n}

(10)

其偏差為φ(n) = C(r,ε)n-1 + ε, C(r,ε)為一常數且只與r和ε有關,則稱r為佳點,Pn(k)為佳點集。為滿足上述條件通常取

r={2cos(2πk/p),1≤k≤n}

(11)

式中:p為滿足(p-3)/2≥S的最小素數。

在種群規模一定情況下,佳點集的取點比隨機取點更均勻,更具多樣性且更穩定,其在搜索空間中的映射作為初始種群更具遍歷性,更有助于全局最優點的尋找,且具有更好的尋優穩定性。

2.2.2 慣性權重的改進

對于粒子群算法而言,慣性權重w用以平衡種群的全局搜索和局部搜索能力,w越大種群全局搜索能力越強,w越小種群局部搜索能力越強。w通常的調整策略是隨著迭代次數遞減,以獲得較好的收斂性能。但該方法忽略了個體在更新進化過程對權重的調整需求。事實上,個體間的聚集程度可以作為w調整的依據。在粒子群進化過程中,前期多數個體與最優個體聚集程度低,則需要較高的權重,以提高種群的全局搜索能力,后期個體與最優個體的聚集程度高,則需要較低的權重,以獲得較好的局部搜索能力。

本文引入曼哈坦距離[14](Manhattan distance)來評估個體間的聚集程度,從而指導w的調整,距離計算公式如下

(12)

式(12)表示粒子i到粒子j的距離,其中,粒子i在n維空間表示為Xi=(xi1,xi2,…,xin),f 表示粒子適應度值。記種群有N個粒子,則粒子間平均距離有

(13)

則粒子自適應慣性權重調整方法如下

(14)

式(14)表示粒子i的慣性權重,pgbest表示當前迭代的全局最優位置,wmax和wmin為慣性權重的上下限,根據文獻[15]分別為0.9和0.4。

2.2.3 粒子位置更新的改進

由于粒子群算法后期種群的聚集度增高,多樣性降低,使種群難以跳出局部最優點。為解決這一問題,本文采用粒子重構的方法,讓適應度較差的粒子向適應度較好的粒子學習進而生成新的粒子來替代適應度較差的粒子。其過程如下。

首先對種群中粒子的按適應度值進行排序,適應度差的前Np個粒子記為重構對象,剩余粒子記為學習對象。Np值由下式確定

Np=round(0.8Nt/T)

(15)

式中:N表示種群總粒子數;t表示當前迭代數;T表示總迭代數。由于粒子多樣性隨迭代次數呈下降趨勢,因此重構個體隨迭代逐漸增加。根據文獻[16],重構對象最多為種群的80%。

對重構對象Xp=(xp1,xp2,…,xpn)的每一維度,隨機選取一個學習對象Xg=(xg1,xg2,…,xgn),同時生成一個決策參數Ppj,(j=1,2,…,n),Ppj為分布在區間[0,1]上的隨機數。粒子重構方法如下

(16)

式中:x′pj為重構后第j維的值,Pc是學習概率,設置為0.8。

下面是結合自適應權重和粒子重構策略的粒子群優化算法的執行步驟:

步驟1設置種群規模、個體維數以及最大迭代次數。根據佳點集(式(10)、式(11))在搜索空間中的映射初始化粒子群;

步驟2計算粒子適應度,進行種群每個粒子間適應度對比記錄全局最優適應度位置,進行粒子舊位置與新位置對比記錄個體最優適應度位置;

步驟3使用式(12)、式(13)分別計算種群中每個粒子與全局最優位置的距離和種群平均距離,使用式(14)確定每個粒子的慣性權重;

步驟4 將慣性權重帶入式(8)、式(9)來更新粒子的速度與位置;

步驟5 按適應度排序粒子,低適應度粒子按式(15)、式(16)進行重構;

步驟6 若未滿足設定的結束則重復執行步驟2~步驟5直至達到設定最大迭代數。

3 基于特征增強數據和優化SVM的工控入侵檢測算法模型

3.1 SVM算法

支持向量機的定義請參見文獻[17],其基本原理如下。

SVM求解問題可視為在原空間上求解一個二次規劃問題

(17)

式中:c為懲罰參數,表示對錯誤分類的懲罰程度。εi為松弛變量。利用拉格朗日乘子法,式(15)可改寫為

(18)

式中:αi拉格朗日乘子,k(,)為核函數。本文中使用高斯核函數,即

(19)

本文使用LMDRT對原始數據進行數據質量的提升,并通過改進的粒子群算法對SVM的c和g的尋優。此外,由于LMDRT和傳統SVM都是針對二分類問題,因此采用一對一的方式(one-oversus-one)構建k(k-1)/2個分類器,采用投票法實現工控網絡入侵攻擊的多分類。

3.2 構建相關入侵檢測模型

基于LMDRT增強后數據和AWPRPSO-SVM的工業控制系統入侵檢測模型構建流程如圖2所示。

圖2 入侵檢測模型構建流程

入侵檢測模型構建過程分為3個階段:

(1)預處理:將數據集劃分為輔助變換數據S1和被變換數據S2進行LMDRT變換;將變換后數據Z劃分為訓練集和測試集并進行歸一化處理。

(2)SVM參數尋優:將SVM的參數c和g作為優化的對象,使用訓練集對SVM模型進行訓練。選取5折交叉驗證下的分類準確率的相反數作為適應度,利用AWPRPSO算法迭代尋找到最優的SVM參數。

(3)模型測試:將優化后參數c和g帶入并構建對應的SVM分類模型,使用LMDRT變換后的數據對模型進行驗證。

4 實驗結果與分析

4.1 數據集

本文使用的標準工業控制系統入侵檢測公開數據集由美國密西西比州立大學提供,研究人員通過采集天然氣管道控制系統網絡層數據,記錄并整理了8種攻擊數據(包括正常數據),每條數據包含26個屬性特征和一個攻擊類別標簽,每種攻擊形式、說明及對應類別標簽見表1。

表1 攻擊形式說明及對應標簽

4.2 預處理

LMDRT:從原始數據集中隨機且均勻地選取16 000組數據用于數據讀數邊際密度比變換,均勻地選取其中10 000組作為輔助變換數據,余下6000組變換后用于后續仿真。

4.3 仿真參數的設定

本文所有的算法與模型均進行了相應仿真測試實驗,仿真實驗平臺如下:Inter Core i7-8565U 1.80 GHz,8 GB內存,Windows 10,MATLAB R2016b。隨機且不放回抽取數據集中數據,按標簽比例劃為輔助變換數據10 000條、訓練數據4000條和測試數據2000條。AWPRPSO算法相關參數設定如下:種群規模為20,最大迭代次數50,搜索維數為2,加速因子c1和c2分別為1.6和1.5,慣性權重上下限分別為0.9和0.4,粒子重構中學習概率為0.8。本文中其它算法的最大迭代次數、群體規模、搜索維數和加速因子都和AWPRPSO算法相同,慣性權重固定為0.8。使用優化算法對SVM的參數c和g進行迭代尋優,搜索范圍都為[0.001,1000]。

4.4 仿真結果與分析

4.4.1 訓練結果分析

為了驗證算法的優化效果,本文將AWPRPSO與PSO、GA算法對SVM參數進行尋優的結果進行比較。分別使用LMDRT特性增強前后的訓練集訓練入侵檢測模型,在訓練的過程中,算法的運行時間和訓練精度見表2。

從表2可以看出,在LMDRT變換后,每種算法的準 確精度和訓練時間均有了一定程度的改善,且變換后數據的訓練精度均高于變換前,說明LMDRT增強了數據的特征,通過了數據質量。且變換后的數據訓練時間在同一算法下有了一定的改善,也驗證了變換后數據提高數據分類的效率。

表2 訓練時間和訓練精度

LMDRT變換后的數據訓練集在各算法優化SVM的5折訓練精度與迭代次數關系曲線如圖3所示。

圖3 不同算法優化SVM的訓練準確率曲線

從表2和圖3可以得到,AWPRPSO算法對SVM的尋優精度最高,達到了98.88%,GA算法的精度最低,只有98.65%。算法的收斂速度方面,AWPRPSO的收斂速度最快,第10代左右就收斂到最優;PSO次之,在第26代左右收斂到最優;而GA收斂最慢。綜合來說,AWPRPSO在收斂速度與尋優結果上都有著一定優勢。

4.4.2 測試結果分析

(1)總體的檢測效果分析。根據入侵檢測的評價標準。記錄變換前后各個算法下使仿真結果用準確率、誤報率和漏報率指標來評估模型的分類性能。記錄實驗的總體結果見表3。

表3 各個入侵檢測模型的檢測結果

根據表3,LMDRT變換后數據在每種算法下的結果準確率、誤報率、漏報率整體優于變換前數據,其中,AWPRPSO-SVM的準確率最高,為99.05%,誤報率最低為僅為1.93%,漏報率與PSO-SVM同為最低只有0.4%,整體檢測效果相比其它方法有了一定程度的改善。綜合可得,基于AWPRPSO-SVM在構建的入侵檢測模型具有良好的檢測效果,而且對數邊際密度比變換后數據可以有效提高入侵檢測模型的性能。

(2)各攻擊類型數據檢測效果分析。MSU工控入侵檢測標準數據集包含8種攻擊形式(包括正常數據),圖4為變換后數據在各個算法下8種攻擊形式的檢測準確率曲線。

圖4 8種攻擊形式的檢測準確率曲線

從圖4可以看出,在檢測NMRI、CMRI、MSCI和RECO攻擊時各個算法檢測效果基本一致;在檢測MPCI、MFCI以及Dos攻擊時,AWPRPSO和PSO監測效果高于GA,檢測MPCI和Dos攻擊時AWPRPSO表現明顯優于其它算法。

圖5是LMDRT-AWPRPSO-SVM模型對測試集進行預測分類的結果和理論分類的結果對比。

圖5 LMDRT-AWPRPSO-SVM入侵檢測分類結果

從圖5中可觀察LMDRT-AWPRPSO-SVM分類器測試集數據的整體分布以及誤分點的情況。由圖可知,該方法在檢測NMRI、CMRI、MSCI、MPCI和RECO攻擊時效果優異,幾乎沒有誤分的情況;但MFCI和Dos攻擊時,由于攻擊數據整體偏少,誤分的情況較嚴重。

5 結束語

針對傳統工控入侵檢測數據轉換方法下分類信息利用不充分而導致檢測效果不佳,本文采用對數邊際密度變換對數據特性進行增強,取得了良好的效果。另外為提高SVM入侵檢測模型的準確率,本文將結合自適應權重和粒子重構策略的粒子群優化算法進行SVM的參數c和g進行尋優,使用尋優得到的SVM分類器構建入侵檢測模型,并對模型進行實驗驗證。對比增強前后的數據的實驗結果,總結得出:增強后的數據提高SVM入侵檢測模型的性能,且AWPRQPSO優化之后的SVM入侵檢測模型的總體上性能也優于其它算法優化的SVM模型。LMDRT-AWPRQPSO-SVM在工控入侵檢測方面有著良好的表現,對未來相關研究具有一定參考價值。

猜你喜歡
分類檢測模型
一半模型
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
主站蜘蛛池模板: 国产白浆一区二区三区视频在线| 欧美另类视频一区二区三区| 一本大道香蕉高清久久| 成年女人a毛片免费视频| 精品国产香蕉在线播出| 国产精品美女免费视频大全| 欧美翘臀一区二区三区| 欧美成人精品在线| 亚洲国产成人久久77| 亚洲娇小与黑人巨大交| 好紧好深好大乳无码中文字幕| 国产xx在线观看| 制服丝袜无码每日更新| 亚洲视频欧美不卡| 日日碰狠狠添天天爽| 色视频国产| 色悠久久久久久久综合网伊人| 91美女视频在线观看| 欧美激情视频一区| 国产色婷婷| 国产丝袜一区二区三区视频免下载| 欧美人与性动交a欧美精品| 久草国产在线观看| 中文字幕永久视频| 国产美女无遮挡免费视频| 最新亚洲人成网站在线观看| 色播五月婷婷| 国产激爽大片在线播放| 中文一级毛片| 97影院午夜在线观看视频| 无码人中文字幕| 日韩精品免费一线在线观看| 国产国语一级毛片| 麻豆精品在线| 国产欧美日韩视频一区二区三区| 免费一级毛片不卡在线播放| 国产青青草视频| 67194在线午夜亚洲| 亚洲精品无码成人片在线观看 | 亚洲国产综合精品一区| 人妖无码第一页| 免费毛片网站在线观看| 国产精品主播| 日本91视频| 亚洲手机在线| 日韩成人在线网站| 中日韩一区二区三区中文免费视频| 亚洲国产欧美目韩成人综合| 国产毛片一区| 国产精品片在线观看手机版| 成人免费午间影院在线观看| 欧美狠狠干| 人人爱天天做夜夜爽| 国产精品精品视频| 国产欧美日韩综合一区在线播放| 制服丝袜国产精品| 午夜福利免费视频| 国产人人射| 国产一级视频久久| 国产成人精品免费视频大全五级 | 亚洲久悠悠色悠在线播放| 操国产美女| 久久精品视频亚洲| 97久久精品人人| 免费看a毛片| 免费看av在线网站网址| 日韩欧美一区在线观看| 欧美自慰一级看片免费| 国产美女一级毛片| 欧美在线黄| 色婷婷丁香| 真人高潮娇喘嗯啊在线观看 | 亚洲三级成人| 午夜丁香婷婷| 亚洲国产天堂久久综合226114| 国产精品9| 中文成人在线视频| 国产免费a级片| 在线国产你懂的| 小13箩利洗澡无码视频免费网站| 国产精品自在自线免费观看| 欧美全免费aaaaaa特黄在线|