999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SECUNIA漏洞庫的數據挖掘算法研究*

2015-05-22 02:25:56宋晨陽蔣丹婷
通信技術 2015年1期
關鍵詞:數據挖掘關聯規則

周 密,宋晨陽,蔣丹婷

(上海通用識別技術研究所,上海201112)

0 引言

當今信息技術的飛快發展,加速了現代社會向信息化社會邁進的步伐。但伴隨而來的信息安全問題也涉及到國家的各個層面面,各種漏洞的產生使目前信息安全形勢面臨嚴峻考驗。如何從既有漏洞數據中發現有價值的信息,為信息安全事件的預防和安全措施的建立提供前瞻性的分析,成為極具意義的工作。通過數據挖掘,分析不同軟件之間、同一軟件不同版本之間漏洞的關聯關系,建立關聯規則表。從而當發現某一軟件發現漏洞時,按關聯規則檢查其他軟件或軟件的其他版本,提前發現漏洞、預防風險。

數據挖掘(DM,Data Mining)技術的出現可以有效解決此類問題。數據挖掘是從大量包含噪聲的隨機數據中,提取隱含在其中具備潛在意義的信息和知識的過程[1]。通過對信息安全漏洞庫進行數據挖掘,建立關聯規則,可以對漏洞出現趨勢實現預測,為防范信息安全問題和信息安全事件的發生提供依據。

1 基礎概念介紹

1.1 數據挖掘

數據挖掘(DM)融合了多個領域的理論和技術,如人工智能、數據庫、模式識別、統計學等技術[2]。數據挖掘常與數據庫中的“知識發現”(KDD,Knowledge Discovery in Database)進行比較,對于兩者之間的關系,學術界有很多不同見解[3]。數據挖掘屬于整個知識挖掘過程的一個核心步驟,如圖1所示。

圖1 KDD過程示意Fig.1 Schematic diagram of KDD

1.2 信息安全漏洞

漏洞(Vulnerability),又稱為缺陷。對信息安全漏洞的定義最早是在1982年,由美國著名計算機安全專家 D.Denning[4]提出,D.Longley 等人從風險管理的角度分三個方面描述漏洞的含義,M.Bishop等人采用狀態空間描述法定義漏洞,權威機構如美國NIST在《信息安全關鍵術語詞匯表》[5]以及國際標準化組織發布的ISO/IEC《IT安全術語詞匯表》[6]中也對漏洞進行定義。

世界上比較較知名的漏洞數據庫包括美國國家漏洞庫 NVD(National Vulnerability Database)、丹麥的Secunia漏洞信息庫等,我國在2009年也建成了中國國家信息安全漏洞庫CNNVD。本文選取Secunia漏洞庫的漏洞數據作為樣本進行數據挖掘。

2 數據挖掘算法

2.1 數據挖掘任務

數據挖掘任務主要是發現在數據中隱藏的潛在價值。數據挖掘模式主要分為兩種:描述型和預測型。描述模式是對歷史數據中包含的事實進行規范描述,從而呈現出數據的一般特性;預測模式通常以時間作為參考標準,通過數據的歷史值預測可能的未來值。依照不同的模式特征,細分六類模式:預測模式、關聯模式、序列模式、分類模式、回歸模式以及聚類模式。本文主要針對關聯模式進行深入探討。

2.2 關聯規則分析及算法

關聯規則算法是指相關性統計分析,基于分析離散事件之間的相關性統計而建立關聯規則,關聯規則算法是定量分析,所以必須將樣本中的數據進行離散化操作,此算法是基于大量數據樣本的優化算法。

(1)關聯算法中的幾個基本概念

關聯規則算法包含4個基本概念項集。項集是一組項的集合,每個項都包含一個屬性,例如,項集{A,B}。項集的大小是指向集中含有項的數量。頻繁項集為樣本中出現頻率高的項集。

支持度。支持度用來衡量項集出現的頻率。項集{A,B}的支持度定義為同時包含項A和項B的項集的總數。定義為:

最小支持度Min_Support是對項集進行限制的閾值參數。

置信度。置信度描述了項集關聯的屬性,規則A推導出規則B(A→B)的置信度為:

最小置信度Min_Confidence為閾值參數。

重要性。重要性用于度量項集和規則,項集重要性定義為:

項集重要性值反映項集之間的相關性。如果Importance=1,則A和B是獨立的項;如果Importance>1,表示正相關;如果 Importance<1,則表示負相關。

規則的重要性公式為:

規則重要性值與0比較,反映規則的關聯性。Importance>0表示A發生,則B發生的概率會升高;Importance<0表示A發生,則B發生的概率會降低。

(2)Apriori關聯算法

Apriori算法將發現關聯規則的過程分為兩個階段:首先通過迭代,檢索出數據集中所有的頻繁項集,即支持度不低于最小支持度的項集;第二階段利用頻繁項集構造滿足最小信任度的規則。步驟如下[7]:

步驟1:產生長度為1的頻繁項集。掃描數據庫D,產生頻繁項集L1。

步驟2:關聯。在第k(k>1)次掃描時,通過Lk-1⊕Lk-1,從而產生候選項集 ck。

步驟3:剪枝。刪減非頻繁項集。設:ck∈Ck,若ck的所有長度為 k - 1 的子集 ck-1都屬于 Lk-1,則該ck將被保留;否則則從Ck中去除該ck。

步驟4:產生強關聯規則。根據最小置信度Minimum_Confidence遍歷頻繁項集,得出強關聯規則,算法結束。

3 運用關聯規則算法挖掘Secunia漏洞數據庫

Secunia漏洞庫覆蓋范圍包含程序和系統中的各種漏洞。該數據庫持續更新體現最新的漏洞信息。Secunia漏洞公告主要包括:漏洞名稱、Secunia公告號、日期、漏洞等級、漏洞來源、影響范圍、操作系統版本等。

以Secunia漏洞庫中的信息為樣本,構建關聯挖掘規則,反映出漏洞信息在不同系統中的關聯性。

3.1 構建關聯規則

(1)挖掘任務

通過歷史漏洞信息,挖掘分析不同軟件出現同類型漏洞的概率。

(2)挖掘結構

結合挖掘任務,數據挖掘關聯表為事例表結合嵌套表的方式。建立漏洞表Vulnerabilities,此表為事例表,漏洞id作為主鍵。嵌套表為Softwares表,記錄軟件名和軟件版本類型,軟件id作為兩張表進行關聯的外鍵。關聯規則挖掘結構如圖2所示。

圖2 挖掘結構Fig.2 Mining Structure

3.2 關聯規則挖掘結果

通過采集的Secunia庫的數據作為樣本,應用Apriori算法模型。依據最低支持度(Min_S)和最低置信度(Min_P)的閾值,形成相應的規則集。通過調整Min_S和最低Min_P的值,得到如表1所示的值。

表1 關聯規則挖掘結果Table 1 Result of Association Rule Mining

通過表1中結果,可以分析出隨著最低支持度的增加,對應的關聯規則的數量呈遞減趨勢;當最低支持度閾值大于0.04時,則關聯規則數量很少。當最低支持度恒定時,隨著最低置信度的增長,關聯規則數量逐漸增加。為了能夠取得可靠的關聯規則,采用最低支持度為0.02,最低置信度為80%,并且將規則重要度閾值設定為大于1.6,一共獲得40條關聯規則結果,部分規則如表2所示。

表2 挖掘產生的部分關聯規則Table 2 Part association rules of mineing

在表2中關聯規則一欄中,“現有”的含義是一種已經存在的漏洞。規則1:軟件Red Hat Enter-prise Linux ES 4和Red Hat Desktop 4.x出現相同漏洞的置信度是1,即概率是100%,重要度是3.438;規則2:若軟件Red Hat Enterprise Linux HPC Node 6和Red Hat Enterprise Linux Desktop 6同時出現某種漏洞,則Red Hat Enterprise Linux Server 6出現該漏洞的概率是100%,重要度是2.317;規則3:open-SUSE 11.1和openSUSE 11.2出現某種漏洞的概率是100%,重要度為1.899。

通過上述例子可以看出,當關聯規則的置信度越高、重要度越高,則該條關聯規則的價值越高,根據具體情況,可以設置最低置信度和最小重要度作為該條規則是否有價值的標準,即(Confidence(A→B)min,Importance(A→B)min),根據對置信度和重要的綜合考慮,可以得出價值更高的關聯規則,從而對信息安全事件有更好的預警分析。

4 結語

本文主要研究了基于Secunia漏洞庫的關聯規則挖掘算法。介紹了數據挖掘的相關概念、關聯規則相關算法、Secunia漏洞庫的基本信息。以Secunia漏洞庫的數據為樣本進行關聯規則挖掘,分析了漏洞與軟件關系的關聯規則,建立了不同軟件中出現相關漏洞的聯系。如今,世界各國都在建立信息安全漏洞庫并發布信息安全漏洞信息,將漏洞信息與數據挖掘結合,可以對信息安全事件進行提前預警,具有重要而且長遠的意義。

[1]Han J,Kamber M.Data Mining:Concepts and Techniques[M].Canada:Morgan Kaufmann Publishers,2001.

[2]王光宏,蔣平.數據挖掘綜述[J].同濟大學學報,2004,32(02):246-252.WANG Guang - hong,JIANG Ping.Summary of Data Mining[J].Journal of Tongji University.2004,32(2):246-252.

[3]毛國君,段立娟,王實,等.數據挖掘原理與算法[M].第2版.北京:清華大學出版社,2007:7-8.MAO Guo- jun,DUAN Li- Juan,WANG Shi.Principles and Algorithms of Data Mining[M].Tsinghua University Press.2007:7 -8.

[4]Denning D.Crytography and Data Security[M].Reading,MA,USA:Addison -Wesley,1982.

[5]Kissel R.Glossary of Key Information Security Terms,NIST IR 7298[R].National Institute of Standards and Technology(NIST),2006.

[6]ISO/IEC SC 27 SD6.Glossary of Information Security Terms[S].International Organization for Standardization(ISO),2009.

[7]劉維曉,陳俊麗,曲世富,等.一種改進的Apriori算法[J].計算機工程與應用,2011,47(11):149-151.LIU Wei-xiao,CHEN Jun -Li,QU Shi-Fu.Improved Apriori Algorithm[J].Computer Engineering and Applications.2011,47(11):149 -151.

猜你喜歡
數據挖掘關聯規則
撐竿跳規則的制定
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
數獨的規則和演變
探討人工智能與數據挖掘發展趨勢
奇趣搭配
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規則對我國的啟示
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 午夜福利免费视频| 尤物在线观看乱码| 国产成年无码AⅤ片在线 | 2022国产无码在线| 亚洲激情99| 99视频在线精品免费观看6| 高清不卡一区二区三区香蕉| 国产在线小视频| 久久中文无码精品| 丁香五月亚洲综合在线 | 手机精品福利在线观看| 国产女人在线视频| 日韩国产 在线| 成人综合网址| 亚洲女同欧美在线| 免费观看亚洲人成网站| 精品久久人人爽人人玩人人妻| a天堂视频| 日韩免费无码人妻系列| AV片亚洲国产男人的天堂| 亚洲欧洲自拍拍偷午夜色| 国产午夜无码片在线观看网站| 精品丝袜美腿国产一区| 拍国产真实乱人偷精品| 91在线激情在线观看| 免费高清a毛片| 99这里只有精品免费视频| 色偷偷一区二区三区| 国产91在线|日本| 国产中文一区a级毛片视频| 国产亚洲欧美日韩在线观看一区二区| 一区二区三区四区精品视频 | 99久久精品无码专区免费| 中字无码av在线电影| 亚洲狼网站狼狼鲁亚洲下载| 欧美日本在线| 老司机aⅴ在线精品导航| 国产真实二区一区在线亚洲| 99视频在线精品免费观看6| 欧美日本在线观看| 国产欧美日韩18| 性欧美精品xxxx| 亚洲成人播放| 日本免费精品| 一级毛片免费高清视频| 亚洲精品成人片在线观看| 久久国产黑丝袜视频| 国产一二三区在线| 一本大道香蕉久中文在线播放| 激情综合网激情综合| 色网在线视频| 久久国产av麻豆| 久久永久免费人妻精品| 欧美第二区| 国内视频精品| 欧美激情视频二区| 亚洲欧美日韩视频一区| 国产噜噜噜| 久久久久久久97| 国产一区成人| 久久久噜噜噜久久中文字幕色伊伊| 欧美在线综合视频| 99999久久久久久亚洲| AV老司机AV天堂| 五月激情综合网| 污视频日本| 四虎影视国产精品| 欧美日韩国产成人高清视频| 91九色国产porny| 99这里只有精品免费视频| 久久美女精品| 欧美亚洲激情| 色婷婷视频在线| 日韩黄色大片免费看| 玩两个丰满老熟女久久网| 亚洲人成亚洲精品| 97久久精品人人| 人妻少妇乱子伦精品无码专区毛片| 永久免费无码日韩视频| 手机在线免费毛片| 亚洲精品高清视频| 久久国产精品波多野结衣|