999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于堆疊自編碼器的惡意域名檢測

2019-06-04 06:01:12甘肅省公安廳網絡安全保衛總隊張生順
網絡安全和信息化 2019年5期
關鍵詞:分類特征檢測

■ 甘肅省公安廳網絡安全保衛總隊 張生順

編者按: 本文提出了一種基于堆疊自編碼器的惡意域名檢測模型,通過域名生成算法(DGA)生成C&C域名作為惡意域名集合,最后再將堆疊自編碼器和識別分類的功能結合起來進行測試,檢測精度達到97.3%。

惡意域名網站給網絡用戶和企業帶來巨大的財產損失和安全威脅,而且由于速變域名和域名生成算法(DGA)技術的不斷發展,惡意域名更加難以被檢測識別。最初檢測方法是利用域名黑名單匹配域名字符串,并使用高匹配來阻止域名,但黑名單需要不斷更新,更新速度可能較慢,提高檢測精度已經成為現下維護網絡安全的主要任務。

目前國內外主要基于統計和機器學習兩個方面來對惡意域名進行檢測。例如,2007年 Honeynet實 驗組提出了速變域名的概念。Passerini等人提取了域名的TTL值等一系列特征值來分析檢測惡意域名。Notos系統使用字符串統計特征信息和域名歷史記錄來確定是否是惡意域名。基于機器學習的方法主要通過對惡意域名大數據的分析提取特征值,得出一套檢測規則用于分類。FluxBuster系統第一次將聚類算法應用于速變域名的檢測。國內有利用支持向量機和神經網絡去檢測惡意域名,或通過隨機森林算法完成速變域名檢測模型的構建。

圖1 含兩個隱藏層的堆疊自編碼器

堆疊自編碼器

自編碼器是一種無監督學習算法,包括輸入層、隱藏層、輸出層。自編碼器是一種理想狀態下輸出和輸入相同的特殊神經網絡算法,輸出向量是對輸入向量的復現。整個輸入層和隱藏層稱為編碼器,輸入向量映射到具有不同隱藏層維度的向量。整個隱藏層和輸出層稱為解碼器,隱藏層的向量映射到輸出向量。隱藏層向量可以復現輸入向量,稱之為特征表示向量。自編碼器的主要功能就是生成輸入數據的主要特征表示向量。

圖2 預訓練含三個隱藏層的堆疊自編碼器圖

圖3 特征工程的一般流程

堆疊自編碼器是由兩個或兩個以上的單個自編碼器組合而成的,實則就是增加了隱藏層的數量,經過貪婪算法預訓練和多層非線性網絡,最后從復雜高維的輸入數據中學習到不同維度和層次的抽象特征向量。堆疊自編碼器中的每一個隱藏層都是輸入特征值的另一種表示,并且降低了輸入數據的維數,具有提取輸入特征值的強大學習能力。如圖1所示。

整個堆疊自編碼器的訓練過程包括兩個步驟:第一步是預訓練,通過無監督方式去訓練單個自編碼器,每當上一層訓練完時,輸出被當做下一層的輸入,再繼續訓練,直到訓練完整個隱含層數目,最后輸出。假設有三個隱藏層的堆疊自編碼器,x表示輸入要素向量,hi表示每個隱藏層的表示向量,x",h1’和h2’表示單個自編碼器重建的輸出向量,w和wT都是權重矩陣。預訓練的具體步驟如下,如圖2所示。

(1)用無監督訓練的方式訓練堆疊自編碼器的第一隱藏層;

(2)上一個隱藏層訓練完成的輸出被視為下一個隱藏層的輸入,再以無監督方式進行訓練;

(3)重復執行步驟(2),直到所有的隱藏層都訓練結束。

第二步是微調,是在預訓練結束后,再訓練整個堆疊自編碼器,并且利用誤差反向傳播調整整個系統的參數,使得權值和偏置值都達到最優。

數據分析

1.數據收集

本文提出了一種基于堆疊自編碼器的惡意域名檢測模型,使用的惡意域名數據集來源于域名生成算法(DGA)生成的C&C域名。通過使用一個私有的字符串,每隔一定時間生成一系列隨機字符串用作域名,再從中隨機取出一些作為C&C域名。數據集中的合法域名來自Alexa網站,可認為其中排名靠前的域名為合法域名。判斷是否為惡意域名是一個二分類問題,數據集一共25萬條數據,其中正例是惡意域名,共使用DGA生成15萬條。反例是正常的域名,共收集到近10萬條。

2.特征工程

特征工程是機器學習過程中至關重要的一步,想要提高預測模型的精確度,不僅需要選擇優化的算法,更要獲得好的訓練數據,盡可能從原始數據中挖掘更多有用的信息。從給定數據中挑選一組最具有代表性,有統計意義的特征子集,是特征工程的關鍵任務。特征工程的一般流程如圖3所示。

特征工程需要經過循環往復的挑選檢驗,對選擇的特征用分類算法檢驗并評價結果,假如結果達不到預想效果,應舍棄并重新選擇特征。本次實驗挑選了根域名,域名各個字符出現的隨機性,域名字符長度,連續單字符、雙字符、三字符出現的頻率的平均排名,域名的連續分散性等17個特征值來描述域名信息。并歸一化特征值,獲得最終的數據集。

表1 分類指標

表2 分類結果

圖4 ROC曲線圖

實驗結果分析

本文中基于堆疊自編碼器的惡意域名檢測模型是通過MATLAB R2016a平臺進行實現,將25萬條域名數據集分為20萬條域名訓練集,剩下的5萬條域名作為測試集。

1.評價指標

判斷是否為惡意域名是一個二分類問題,通常采用精確率、召回率、誤判率和準確率四個指標來衡量。本文中惡意域名是正例,用“1”表示,合法域名是反例,用“0”表示。分類結果如表1所示。

TP表示被檢測為惡意域名的惡意域名數量,FP表示被檢測為惡意域名的合法域名數量,TN表示被檢測為合法域名的合法域名數量,FN表示被檢測為合法域名的惡意域名數量,N=TP+FP+FN+TN表示測試集總的域名個數。

(1)精確率 :TP/(TP+FP),表示被檢測為惡意域名的惡意域名數占總被檢測為惡意域名數的比率。

(2)召回率 :TP/(TP+FN),表示惡意域名被檢測為惡意域名的個數占實際總惡意域名個數的比率。

(3)誤判率 :FP/(FP+TN),表示被檢測為惡意域名的合法域名數與合法域名總數的比率。

(4)準確率:(TP+TN)/N,表示檢測到的正確域名數量與測試集域名總數的比率。

在計算實驗結果的數據之后,獲得如表2所示的4個評價指標的值。

2.ROC與AUC

ROC曲線是橫坐標上的假陽性率和縱坐標上的召回率。根據定義,誤判率越小,召回率越大,模型的分類效果越好。故ROC曲線越靠近坐標系左上方,模型的分類效果越好。本次實驗的ROC曲線如圖4所示。

AUC是指ROC曲線以下的面積。AUC值介于0到1之間,當模型的AUC值越大,分類效果更好,模型更合適。實驗的AUC值為0.9992,接近于 1,表示本文提出的基于堆疊自編碼器的惡意域名檢測模型分類效果較好,檢測精確度較高。

結語

本文基于堆疊自編碼器的惡意域名檢測模型,挖掘了域名信息的各項特征,利用堆疊自編碼器重構特征值,最后用分類器檢測。實驗結果表明,該模型能夠有效識別出惡意域名,檢測精度高達97.3%,有較好的分類效果,提高了惡意域名的檢測效率。

猜你喜歡
分類特征檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 久久综合亚洲鲁鲁九月天| 久久99精品久久久大学生| 亚洲久悠悠色悠在线播放| 亚洲日韩精品欧美中文字幕| 国产好痛疼轻点好爽的视频| 亚洲欧洲日产国产无码AV| 日本a级免费| 国产精品无码AV片在线观看播放| 老汉色老汉首页a亚洲| 97视频精品全国在线观看| 国产成人久久777777| 国产一级在线播放| 成人免费视频一区二区三区| 亚洲精品片911| 欧美不卡在线视频| 国产性精品| 丁香亚洲综合五月天婷婷| 无码AV日韩一二三区| 亚洲成在线观看 | 一级毛片免费不卡在线| 国产一在线| 激情综合图区| 啊嗯不日本网站| 亚洲欧美成人在线视频| 久久精品人人做人人爽| 国产精品欧美激情| 啪啪啪亚洲无码| 欧美成人怡春院在线激情| 91久久天天躁狠狠躁夜夜| 欧美区日韩区| 青青青草国产| 国产成人综合日韩精品无码首页| 国产精品视频猛进猛出| 精品国产91爱| 亚洲成a人片在线观看88| 亚洲第一成人在线| 国产自在线拍| 无码 在线 在线| 99久久无色码中文字幕| 亚洲一区二区三区香蕉| 综合五月天网| 99久久精品国产自免费| 亚洲成人高清在线观看| 中文字幕亚洲综久久2021| 色婷婷色丁香| 日本免费高清一区| 一区二区三区四区日韩| 成人亚洲天堂| 四虎在线观看视频高清无码| 免费看的一级毛片| 欧美日韩在线观看一区二区三区| 亚洲性网站| 欧美日本在线一区二区三区| 精品一区二区三区中文字幕| 国内精品小视频在线| 国产一区亚洲一区| 国产综合无码一区二区色蜜蜜| 一级片一区| 人人爱天天做夜夜爽| 精品国产黑色丝袜高跟鞋| 久久免费看片| 亚洲欧美日韩视频一区| 一级不卡毛片| 丝袜国产一区| 久久久久亚洲av成人网人人软件| 51国产偷自视频区视频手机观看| 国产传媒一区二区三区四区五区| 毛片大全免费观看| 男人的天堂久久精品激情| 国产午夜一级毛片| 国产精品浪潮Av| 国产精品99一区不卡| 久久精品视频一| 欧美三级视频网站| 日本一区高清| 日韩 欧美 小说 综合网 另类 | 欧美在线中文字幕| 亚洲色图欧美一区| 狠狠色成人综合首页| 大乳丰满人妻中文字幕日本| 欧亚日韩Av| 亚洲AV免费一区二区三区|