999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的信息系統異常檢測與預測模型

2024-12-31 00:00:00曹玲玲
信息系統工程 2024年11期
關鍵詞:深度學習

摘要:深入研究了基于深度學習的信息系統異常檢測與預測技術,介紹了異常檢測的基礎知識和分類,重點分析了三種深度學習異常檢測方法,提出未來可能的研究方向。研究選擇了KDDCup-99、NSL-KDD和CICIDS2017三個數據集進行實驗,對數據進行了處理。評估結果顯示,這些基于深度學習的模型在準確率、召回率、F1值和AUC等指標上均優于傳統方法,證明了其在異常檢測領域的優越性能。

關鍵詞:深度學習;異常檢測;信息系統;生成模型

一、前言

在信息化時代,信息系統是現代社會運行的基石,其穩定性和安全性至關重要[1]。然而,隨著大數據時代的到來,傳統異常檢測方法在處理大規模、高維度數據時面臨挑戰,準確率可能下降超過20%。與此同時,發展中的問題必須在發展中才能解決,深度學習技術的突破為這一領域帶來了新機遇。通過深層神經網絡,深度學習能夠自動提取數據的復雜特征,顯著提升異常檢測的準確率和效率[2]。例如,基于深度學習的模型在處理大規模數據集時,準確率比傳統方法提高了15%以上。特別是在處理非線性、非平穩的時間序列數據時,如利用LSTM網絡,能夠更有效地捕捉時序特征,增強檢測的準確率和實時性[3]。

二、異常檢測的基本概念

異常檢測(Anomaly Detection)是一種數據分析技術,旨在識別數據集中與大多數數據模式不一致的異常數據點或行為[4]。這些異常可能是數據錯誤、欺詐行為、系統故障或其他罕見事件的表現。

(一)異常的類型與定義

點異常是指單個數據點在特征空間中與其他點顯著不同,可能由測量誤差或真實異常事件引起,檢測方法包括密度估計和距離度量[5]。條件異常則是在特定上下文中出現的異常,需要考慮時間、環境等因素[6]。群體異常涉及一組數據點共同表現異常,即使單個點看似正常,檢測時需關注數據點間的關聯。這三種異常類型分別對應不同的檢測策略和技術。

(二)異常檢測的關鍵技術挑戰

維度災難是指在處理高維數據時,數據點間的距離難以有效衡量,導致傳統異常檢測失效。應對策略包括特征選擇、降維(如PCA)及高維專用算法。同時,實際數據集中的噪聲和缺失值需通過數據清洗、插補和去噪等技術進行預處理,以確保檢測準確性[7]。此外,面對大數據量,算法的可擴展性至關重要,分布式計算和流式數據處理成為關鍵技術。

三、基于深度學習的異常檢測模型

基于深度學習的異常檢測模型可以分為三類:生成模型、重構模型和單分類模型。

(一)生成模型

生成模型通過學習數據的分布來識別異常。常見的生成模型包括生成對抗網絡(GAN)和變分自編碼器(VAE)。

1.生成對抗網絡(GAN)

生成對抗網絡(GAN)由生成器(Generator)和判別器(Discriminator)組成,通過對抗訓練的方式生成與真實數據分布相似的樣本,從而識別異常。生成器試圖生成逼真的數據樣本,而判別器則試圖區分生成的數據和真實數據。訓練過程中,生成器和判別器相互博弈,最終生成器能夠生成足以欺騙判別器的樣本。GAN的目標函數可以表示為:

(1)

G是生成器;D是判別器;V(D,G)是GAN的目標函數,表示生成器和判別器之間的優化目標;x是真實數據樣本;pdata (x)是真實數據的分布;z是噪聲向量;pz (z)是噪聲z的分布,G(z)是生成器輸出的偽樣本;D(x)是判別器對真實樣本x的輸出;D(G(z))表示判別器對生成樣本G(z)的輸出;Ex~pdata (x)表示對從真實數據分布x~pdata (x)中采樣的x的期望值;Ez~pz (z)表示對從噪聲分布z~pz (z)中采樣的z的期望值。GAN在異常檢測中的應用主要體現在以下幾個方面:

生成樣本檢測:通過生成與真實數據分布相似的樣本,檢測生成樣本與真實樣本的差異。

重構誤差檢測:利用生成器重構輸入數據,計算重構誤差,異常數據的重構誤差通常較大。

2.變分自編碼器(VAE)

變分自編碼器(VAE)通過最大化數據的似然函數,學習數據的潛在分布,用于異常檢測。VAE由編碼器(Encoder)和解碼器(Decoder)組成,編碼器將輸入數據映射到潛在空間,解碼器則從潛在空間重構輸入數據。VAE的目標函數由重構誤差和KL散度組成:

(2)

L表示VAE的損失函數值,定義了數據的重構誤差和分布匹配誤差;Eq(z∣x)是期望值,表示對條件概率分布q(z∣x)下的樣本z取期望;q(z∣x)是編碼器生成的條件概率分布,表示給定輸入數據x后的潛在變量z的分布;p(x∣z)是解碼器的輸出概率分布,表示給定潛在變量z后,重構數據x的概率分布;logp (x∣z)是重構對數似然,表示在給定潛在變量z的條件下,生成數據x的概率;DKL (q (z∣x)∥p (z))表示KL散度,用于衡量編碼器輸出的潛在分布q (z∣x)與先驗分布p(z)的相似性;p(z)是先驗分布,表示潛在變量z的預設分布。

VAE在異常檢測中的應用主要體現在以下幾個方面:

重構誤差檢測:通過計算輸入數據與重構數據之間的誤差,識別異常數據;

潛在空間檢測:通過分析潛在空間中的數據分布,識別異常數據。

(二)重構模型

重構模型通過重構輸入數據來檢測異常。常見的重構模型包括自編碼器(AE)及其變種,如稀疏自編碼器、去噪自編碼器。自編碼器通過壓縮和解壓縮數據,學習數據的低維表示,異常數據由于無法有效重構,會表現出較大的重構誤差。

1.自編碼器(AE)

自編碼器是一種無監督學習模型,通過將輸入數據編碼為低維表示,再從低維表示解碼重構輸入數據。自編碼器的目標是最小化重構誤差,即輸入數據與重構數據之間的差異。自編碼器的損失函數通常為:

(3)

LAE 表示自編碼器的損失函數值,x是輸入數據,x ?是重構數據,∥?∥2表示歐氏距離。

2.稀疏自編碼器(Sparse AE)

稀疏自編碼器在自編碼器的基礎上引入了稀疏性約束,使得編碼器輸出的低維表示具有稀疏性。稀疏性約束通常通過KL散度實現,其損失函數為:

(4)

LSAE是稀疏自編碼器的損失函數,包含重構誤差和稀疏性約束兩部分;β是稀疏性權重系數,用于調整重構誤差和稀疏性約束之間的權衡;h是隱藏層中單元的總數。KL(ρ∥ "?ρj)表示KL散度,用于度量編碼器中第j個隱藏單元的稀疏性偏差。ρ是稀疏性目標,表示隱藏單元的期望平均激活值; ?ρj是第j個隱藏單元的實際平均激活值(由模型訓練得出),即在所有樣本上第j個單元的平均激活概率。

3.去噪自編碼器(Denoising AE)

去噪自編碼器通過在輸入數據上添加噪聲,訓練模型在去噪的同時重構原始數據。其損失函數為:

(5)

L_DAE表示去噪自編碼器的損失函數值。

4.重構誤差檢測

重構模型通過計算輸入數據與重構數據之間的誤差來檢測異常。異常數據由于無法有效重構,會表現出較大的重構誤差。重構誤差可以通過以下公式計算:

(6)

ER是重構誤差。

(三)單分類模型

單分類模型通過學習正常數據的邊界來識別異常。常見的單分類模型包括單分類支持向量機(OC-SVM)和深度支持向量數據描述(Deep SVDD)。

1.單分類支持向量機(OC-SVM)

單分類支持向量機(OC-SVM)是一種無監督學習方法,通過構建一個超平面,將正常數據與異常數據分開。OC-SVM的目標是找到一個最大化邊界的超平面,使得正常數據點盡可能地靠近超平面,而異常數據點則遠離超平面。其優化目標可以表示為:

(7)

min (w,ρ)表示最小化的目標是對w和ρ進行優化,以得到最佳的分類邊界;w是超平面的法向量,用于決定分類邊界的方向和位置;ν是超參數,用于控制目標函數中的錯誤容忍度,通常在 (0,1) 之間設置,決定支持向量的數量及異常樣本的容忍度;n表示樣本點總數;xi表示第i個數據樣本點; ? (xi)是特征映射函數,將輸入樣本點xi映射到高維空間,使得在該空間中正常樣本和異常樣本更容易被分離;ρ是偏置項,用于確定超平面的位置;wT ?(xi)表示樣本點xi到超平面的投影值;ρ-wT ?(xi)表示樣本點xi離邊界的距離,若為負數,意味著樣本落在邊界以內;max(0,ρ-wT ?(xi))表示取零和該距離的較大值,使得只有在樣本xi點落在邊界內時才計算誤差,否則誤差為零。

2.深度支持向量數據描述(Deep SVDD)

深度支持向量數據描述(Deep SVDD)通過神經網絡學習數據的特征表示,并在特征空間中構建一個超球體,將正常數據包含在內。Deep SVDD的目標是最小化數據點到超球體中心的距離,其優化目標可以表示為:

(8)

W是神經網絡的參數,?(xi;W)是輸入數據樣本點xi的特征表示,c是超球體的中心。

四、模型評估與實驗結果

為了全面評估所提出模型的性能,進行了詳盡的實驗研究,并采用了以下步驟和方法:

(一)數據集與預處理

為確保研究的有效性和普適性,選取了信息安全領域廣泛認可的KDDCup-99、NSL-KDD和CICIDS2017三個公開數據集進行實驗。這些數據集分別適用于評估異常檢測算法在復雜網絡環境、高質量訓練樣本和現實世界網絡攻擊場景下的性能。實驗前,對數據進行了預處理,包括缺失值處理、數據歸一化和特征工程。處理方法包括數值型特征用均值或中位數填充,類別型特征用眾數填充,采用最?。畲髽藴驶蚙-score標準化消除量綱影響,并通過RFE、PCA等技術篩選和降維特征,構造新的統計和模式特征以提升模型識別異常行為的能力。

(二)實驗設置

為了全面評估不同深度學習模型在信息系統異常檢測與預測任務中的性能,采用了五種先進的深度學習模型進行實驗:

1.生成對抗網絡(GAN)

GAN由生成器和判別器組成,通過對抗性訓練學習數據分布。在異常檢測中,GAN能夠生成接近真實數據分布的樣本,并通過比較真實數據與生成數據的差異來識別異常。采用了條件GAN(cGAN)來提高模型對特定條件數據的學習能力。

2.變分自編碼器(VAE)

VAE通過最大化數據的邊際似然估計來學習潛在空間中的數據分布。使用了深度卷積VAE(CVAE)來處理具有空間相關性的數據,通過潛在空間的重構誤差來檢測異常。

3自編碼器(AE)

AE通過編碼器和解碼器結構來學習數據的低維表示,并通過重構誤差來識別異常。采用了去噪自編碼器(DAE),在輸入數據中添加隨機噪聲,以增強模型對異常的魯棒性。

4.單分類支持向量機(OC-SVM)

OC-SVM是一種無監督學習算法,通過構建一個最大間隔超平面來劃分正常數據。使用了核化OC-SVM來處理非線性數據,并通過核函數的選擇來優化模型性能。

5.深度支持向量數據描述(Deep SVDD)

Deep SVDD通過深度神經網絡學習數據的特征表示,并在特征空間中尋找最小包含所有正常數據點的超球體。采用了具有多個隱藏層的Deep SVDD來捕捉數據的高層次特征。

(三)評估指標

為了全面且準確地衡量所提出模型在信息系統異常檢測與預測任務中的性能,采用了以下評估指標,這些指標在機器學習特別是異常檢測領域被廣泛認可。

準確率(Accuracy):衡量模型分類正確性的基本指標,但在類別不平衡的數據集上可能存在誤導。

召回率(Recall):也稱為靈敏度或真正例率(TPR),衡量模型正確識別異常樣本的能力,在異常檢測中尤為重要。

F1值(F1 Score):精確率和召回率的調和平均數,用于綜合評價模型的精確性和召回率。

AUC(接收者操作特征曲線下面積):評估模型區分正常樣本和異常樣本能力的重要指標,AUC值越高,模型性能越好。

(四)實驗結果

表1是實驗結果的匯總表,實驗結果表明,GAN和Deep SVDD模型在三個數據集上的表現優于其他模型,尤其在AUC指標上表現出較高的區分能力,顯示了生成模型和單分類模型在異常檢測任務中的競爭力。數據集特性對模型性能有影響。例如,CICIDS2017數據集因網絡攻擊種類多、數據分布復雜,模型性能較低。通過交叉驗證和超參數調整,模型穩定性得以保證,顯示出良好的泛化能力。VAE和AE模型訓練速度快,適合實時檢測。GAN和Deep SVDD模型訓練時間長,但檢測精度高,適用于高精度要求場景。通過可視化技術,如特征圖和潛在空間分析,對模型進行了部分解釋,揭示了模型對正常與異常數據的理解。

五、結語

本研究開發了一種創新的基于深度學習的信息系統異常檢測與預測模型,結合生成模型、重構模型和單分類模型的優勢,形成多角度、多層次的異常識別框架。通過深入挖掘數據特征,該模型有效識別和預測信息系統的異常行為,彌補了傳統方法在處理大規模、高維、非線性數據時的不足。實驗驗證表明,該模型在準確率、召回率、F1值和AUC等關鍵性能指標上顯著優于傳統方法,展現了高效性和可靠性。生成模型通過對抗性訓練和潛在分布學習生成與正常數據相似的數據樣本。重構模型通過學習數據表示在重構過程中暴露異常。單分類模型通過界定正常數據邊界排除異常。未來研究可在半監督學習、模型輕量化、多模態數據融合、可解釋性與透明度、實時性與自適應學習等方向進一步深入,提升模型性能和應用效果。

參考文獻

[1]李鎮江,戴英俠,陳越.IDS入侵檢測系統研究[J].計算機工程,2001,27(04):7-9.

[2]黃林,常健,楊帆,等.基于改進k-means的電力信息系統異常檢測方法[J].深圳大學學報(理工版),2020,37(02):214-220.

[3]張穎君,劉尚奇,楊牧,等.基于日志的異常檢測技術綜述[J].網絡與信息安全學報,2020,6(06):1-12.

[4]梁杰,陳嘉豪,張雪芹,等.基于獨熱編碼和卷積神經網絡的異常檢測[J].清華大學學報(自然科學版),2019,59(07):523-529.

[5]肖衡,龍草芳.基于機器學習的無線傳感網絡通信異常入侵檢測技術[J].傳感技術學報,2022,35(05):692-697.

[6]劉明群,何鑫,覃日升,等.基于改進K-means聚類k值選擇算法的配網電壓數據異常檢測[J].電力科學與技術學報,2022,37(06): 91-99.

[7]段雪源,付鈺,王坤,等.基于多尺度特征的網絡流量異常檢測方法[J].通信學報,2022,43(10):65-76.

作者單位:山西晉中理工學院信創與大數據學院

責任編輯:王穎振、鄭凱津

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: 性色一区| 国产午夜福利在线小视频| 亚洲aⅴ天堂| 亚洲最新在线| 亚洲国产理论片在线播放| 久草视频精品| 久久99精品国产麻豆宅宅| 日韩欧美中文| 首页亚洲国产丝袜长腿综合| 成人福利在线视频| 亚洲成a人片77777在线播放| 国产精品自在在线午夜 | 怡红院美国分院一区二区| 日韩在线中文| 欧美va亚洲va香蕉在线| 69精品在线观看| 露脸一二三区国语对白| 欧美激情视频二区三区| 成人在线综合| 亚洲日本精品一区二区| 国产精品欧美在线观看| 久久婷婷五月综合色一区二区| 91美女在线| 亚洲中文字幕无码mv| 精品久久久久久久久久久| 强奷白丝美女在线观看| 国产国语一级毛片在线视频| 女人天堂av免费| 亚洲人成网站观看在线观看| 成人国产精品视频频| 人妻无码中文字幕第一区| 亚洲成aⅴ人在线观看| 亚洲精品国产日韩无码AV永久免费网| 久久香蕉国产线| 成人福利在线视频免费观看| 99视频在线看| 欧美日韩一区二区三区四区在线观看 | 无码网站免费观看| 99久久国产自偷自偷免费一区| 日韩精品免费一线在线观看| 国产国产人免费视频成18| 国产精品第5页| 国产簧片免费在线播放| 国产网站免费| 欧美成人在线免费| 精久久久久无码区中文字幕| 九九久久精品国产av片囯产区 | 国产污视频在线观看| 97青青青国产在线播放| 午夜福利网址| 国产又色又爽又黄| 中文字幕一区二区人妻电影| 亚洲精品无码高潮喷水A| 乱人伦视频中文字幕在线| 亚洲免费毛片| 亚洲欧美一区二区三区图片| 国产尤物视频在线| 五月婷婷伊人网| 日韩精品亚洲人旧成在线| 九九九精品视频| 国产成人狂喷潮在线观看2345| 一级香蕉人体视频| 精品福利视频导航| 欧美亚洲第一页| 亚洲无线观看| 国产福利拍拍拍| 亚洲日韩精品无码专区97| 亚洲中文字幕在线观看| 亚洲国产日韩欧美在线| 成人国产精品一级毛片天堂| 国产视频你懂得| 韩国v欧美v亚洲v日本v| 亚洲欧美另类视频| 亚洲成a人片7777| av免费在线观看美女叉开腿| 在线国产综合一区二区三区| 91视频99| 精品国产美女福到在线不卡f| 中文字幕 91| 亚洲精品777| 无码一区18禁| 国产一国产一有一级毛片视频|