999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多源通信研發機構入侵監測大數據挖掘方法

2021-11-18 04:09:10藍志威任志寬
計算機仿真 2021年1期
關鍵詞:數據挖掘方法

藍志威,袁 杰,2*,任志寬,3

(1. 中國社會科學院,北京 102445;2. 華南理工大學,廣東 廣州 510640;3. 廣東省科學技術情報研究所,廣東 廣州 510033)

1 引言

多源通信網絡以其傳輸速度快、分集度高等優勢得到廣泛使用,已經成為運營商新的重點業務。一些研發機構通常使用入侵監測系統,及時發現網絡中可疑行為,同時采取一定措施,避免入侵行為進一步發展。但是,大數據時代到來,使入侵監測面對海量數據時力不從心,無法準確高效的得出監測結果。而數據挖掘在網絡安全領域受到廣泛關注,它能對入侵監測大數據做進一步處理,提高入侵監測性能等相關安全監測指標。

為此,相關領域學者研究數據挖掘在入侵監測領域的應用。文獻[1]提出基于神經網絡的數據挖掘方法。該方法挖掘聚類效果較好,挖掘過程收斂性強。文獻[2]研究一種新的多層次數據挖掘改進方法,為改進挖掘效率低的弊端,在時間復雜度要求較低的情況下,采用XMASK方法對隨機擾動方式改進,所需挖掘時間較短。文獻[3]對船舶數據庫管理系統中的入侵行為檢測研究現狀進行分析,采用支持向量機對船舶數據庫管理系統中的入侵行為變化特點進行刻畫,有效保證船舶數據庫系統的安全。

但上述挖掘方法隨著入侵形式多樣化,無法應對多變的網絡環境,不能保證數據挖掘的完成度。為此,本文利用NoSQL方法對多源通信研發機構入侵監測大數據進行挖掘。NoSQL表示一種結合物理分散邏輯實現數據規劃的分布式數據庫,能有效提高挖掘方法的準確性和完整度,同時具有靈活、實用價格低廉等優勢。入侵監測大數據具有復雜屬性,包括位置、方向和長度。計算屬性之間關聯程度,將其作為數據挖掘依據,再對不同屬性關聯程度進行聚類,便可得到最終挖掘結果,成為本文方法的創新之處。

2 多源通信研發機構入侵風險識別

2.1 多源通信研發機構主要科研內容

多源通信可以實現不同平臺之間的業務數據共享,使管理信息系統中的數據動態反映到其它系統中去?,F有研發機構研究的多源通信系統實現過程圖如圖1所示。

圖1 多源通信系統結構圖

將整個通信過程分為以下四個不同層次:

1)數據庫之間通信:用來解決數據庫之間訪問問題;

2)訪問層次:完成系統與多源數據業務查詢;

3)邏輯層次:滿足對多源數據需求定義,實現數據交換;

4)通信層次:實現系統與數據庫之間互相訪問[4]。

2.2 研究機構獨特性研究

多源通信研發機構屬于新型研發機構,在組織架構方面也與其它研究機構存在差異,它屬于以傳統職能式為主的弱矩陣式組織架構[5],示意圖如圖2所示。

圖2 多源通信研發機構組織架構

2.3 入侵風險識別

1)信息資產識別

信息安全風險為入侵風險評估的主要條件,是構建信息安全管理的目標。具體資產分類與名稱如表1所示。

表1 信息資產分類表

2)威脅識別

威脅是對組織與資產形成潛在破壞的可能因素,它屬于客觀存在的,且多數威脅無法完全消除。

表2 研發機構信息威脅表

對研發機構的各個方面風險進行分析,有利于監測入侵行為,全方面獲取監測數據。

3 基于NoSQL分布式入侵監測大數據挖掘

3.1 入侵數據特征提取

對入侵監測大數據進行挖掘之前,需要對入侵特征進行提取[6],為數據降維提供依據。將獲取的痕跡信息轉換為頻域信號df,分析其頻譜特性,結合時間變換幅值將其轉換為隨頻譜變動的功率。頻譜分析主要根據頻率中心fFC、均方根頻率fRMSF以及跟方差頻率fRVF,它們分別表示信號主頻方位、變化情況與功率譜集中性,表達式依次為

(1)

(2)

(3)

式中,S(f)代表功率譜。將獲取的痕跡信息變換為頻域信號的表示形式

ei=(fFC+fRMSF+fRVF)S(f)

(4)

本文利用核主元分析法實現入侵痕跡數據信號的特征提取。此方法核心思想為:通過非線性轉換方式將入侵行為的樣本痕跡數據從輸入空間引入到高維特征空間[7],再在此空間內進行頻域特征提取。

如果y表示n維痕跡信息矢量,{yi,i=1,2,…,N}則代表y的某個痕跡信息信號樣本集合,利用非線性H將樣本數據信號從空間Rn映射到高維特征空間Rt中,再對該空間進行主成分分析。

(5)

式中特征值和特征向量的關聯性可表示為

λk=Cvk

(6)

式中,特征值λk≥0,vk(k=1,2,…,t)代表特征向量。

將式(5)與式(6)相結合,得到

(7)

假設與所有非零特征值λk對應的特征向量vk位于{H(xi),i=1,2,…,N}所在的平面內,具有不都為零的系數[Ti,i=1,2,…,N],令

(8)

綜合分析式(6)~(8)能夠得出

(9)

如果N×N矩陣表示為如下形式

Kij=k(yi,yj)=〈H(yi),H(yj)〉

(10)

式中k(yi,yj)表示滿足要求的核函數,對式(5)進行簡化處理為NλkK=K2,考慮到實際簡化需求,則有

λk=KN

(11)

因此K的特性值和特征矢量分別表示為Nλk和Tk。對特征值從大到小進行排序,若前m個特征值的和與所有特征值和的比值大于設定閾值,則主元數量為m。

為實現特征向量vk的歸一化,必須對T進行規范化處理

(12)

因此能夠獲得入侵痕跡數據的信號樣本yi在Rm空間內第k個主向量vk內的投影,即為yi特征值

(13)

利用上述方法實現對入侵監測數據的特征提取。

3.2 大數據降維

由于入侵監測大數據中包含無用信息較多,因此要刪除對最終結果影響較小的屬性信息,將樣本從高維空間映射到低維空間中,本文在空間相關性基礎上結合上述入侵監測特征提取結果,實現大數據降維。

因入侵監測是一個分類問題,所以采用一個分類方式將數據集合分成五類,其中包括一個正常類型Normal與四個入侵類型Prb,R21,Dos,U21,將質心數量設置為5,降維過程如下:

步驟一:利用改進的k-Means聚類方法獲取訓練數據集合內5簇的質心c0,c1,…,c4。每個簇的原始質心根據訓練樣本已知類別獲得,同時進行迭代運算獲取質心坐標,確保原始質心不會太過集中,以免影響降維效果。

步驟二:獲取待降維數據集合中樣本和質心ci(i=0,1,…,4)的空間關聯性。例如將45維的樣本和質心ci通過向量形式引入到歐式距離[8]公式中

(14)

利用上述公式計算獲得樣本x到質心ci的空間距離,將其當作二者之間空間關聯程度,將di當作x降維后的新樣本x′的第i維特性值。最后的降維樣本x′描述為初始樣本x與每個簇質心的距離,即x′(d0,d1,…,d4)。

步驟三:重復步驟二,直至全部樣本降維成新的數據集合。

經過上述步驟,將所有入侵監測數據從初始的45維降至5維,完成所有降維過程。

3.3 挖掘聚類

為提高挖掘方法性能,需事先對挖掘工作進行約束,約束內容必須保證挖掘工作運算量小,且效果強。

利用confidence(Q?W)代表特征集合Q中包含特征集合W的概率,confidence(W?Q)與上述意義相反,則在綜合入侵監測大數據位置關聯度、方向關聯度、長度關聯度三方面進行入侵監測挖掘。

1)位置關聯度挖掘

2)方向關聯度挖掘

方向關聯度挖掘表示大數據集合Q與W傳輸方向之間的角度(s1,s2),它的余弦值描述為

(15)

通過式(17)可知,入侵監測大數據集合Q與W傳輸方向角度越大,cos(s1,s2)值越小。如果(s1,s2)的值大于180度,則cos(s1,s2)值為負。為減少位置關聯度挖掘結果對方向關聯度挖掘結果造成的影響,基于NoSQL分布式大數據挖掘方法利用[1-cos(s1,s2)]的正弦值描述法代替傳統[1-cos2(s1,s2)]描述法,使方向關聯度被準確挖掘。

sim(dist)=avg(|s1||s2|)[1-cos(s1,s2)]

(16)

3)長度關聯度挖掘

長度關聯度挖掘是對位置關聯度挖掘的異向思維計算,也是對其挖掘結果的加成預算,其核心是對兩個數據集合傳輸通道長度計算的過程。因此挖掘結果可表示為

(17)

4)挖掘聚類

對降維后的入侵監測數據利用式(15)、(16)與(17)結合給出的約束條件進行聚類,獲取最終的挖掘結果。假設利用F代表挖掘頻率,則Fs即為挖掘聚類,也就是最終挖掘結果,表達式如下

(18)

式中,Fj為大數據位置、方向與長度屬性一起出現的概率,Fmax則為上述屬性關聯度的極大值,A與As分別是挖掘前、后樣本總數。

4 仿真數據分析與研究

選取某個多源通信研發機構的通信環境作為研究實驗目標,仿真環境為一臺PC機,其配置是P4CPU2.40GHz,內存與硬盤大小分別為256MB和80G。數據來源為KDNuggets (http:∥www.kdnuggets.com/datasets/index.html),從中隨機挑選包括23個研發機構在內的相關通信數據,排除不適應預分類的數據集,剩余20個數據集,以此為數據樣本,分別從挖掘時間與完整度兩方面對所提方法、文獻[1]、文獻[2]方法進行比較。實驗結果分別如圖3所示。

圖3 不同方法挖掘所需時間對比圖

從圖3中能夠看出,在6次迭代過程中,所提方法最高一次挖掘時間為12秒,而文獻[1]與文獻[2]所需最高時間分別為15秒和18秒,文獻[3]最高所需時間為17.5秒,與其它方法相比挖掘效率具有明顯優勢。因為該方法對入侵監測大數據結合入侵特性進行降維處理,去除冗余數據,縮短數據挖掘時間。此外,三種方法挖掘完整度對比結果如圖4所示。

圖4 所提方法挖掘完整度

由圖4挖掘完整度結果可知,所提方法挖掘完整度在80%左右,其它三種方法的挖掘完整度都在80%以下。這是由于所提方法經過全面的屬性分析,分別從大數據位置、方向與長度三方面進行挖掘,得到較為全面的挖掘結果。

5 結論

1)為提高多源通信研發機構研發數據的安全性,本文利用NoSQL挖掘方法從入侵監測大數據的不同維度進行挖掘,挖掘時間最高僅為11.5秒,能夠保持較好的挖掘效率。

2)在空間相關性基礎上結合上述入侵監測特征提取結果,進行大數據降維,且在降維的同時能夠保證挖掘結果全面、完整度高,挖掘完整度在80%左右。具有較強實用性。

3)在今后研究工作中,將會繼續深入研究大數據挖掘在網絡安全領域的應用,使該方法稱為研發機構信息安全的支撐技術之一。

猜你喜歡
數據挖掘方法
探討人工智能與數據挖掘發展趨勢
學習方法
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
一種基于Hadoop的大數據挖掘云服務及應用
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 日本欧美精品| 午夜性刺激在线观看免费| 国产精品亚洲五月天高清| 欧美在线一级片| 婷婷午夜天| 亚洲欧美日韩中文字幕在线一区| 亚洲人成在线精品| 激情综合网激情综合| 免费国产小视频在线观看| 1769国产精品免费视频| 国产在线拍偷自揄拍精品| 中国美女**毛片录像在线| www.91中文字幕| 精品国产aⅴ一区二区三区| 久久精品国产免费观看频道| 亚洲中文字幕日产无码2021| 凹凸国产分类在线观看| 亚洲码在线中文在线观看| 激情在线网| 亚洲精品色AV无码看| 欧美日韩激情在线| 77777亚洲午夜久久多人| 国产精品亚欧美一区二区三区| 热re99久久精品国99热| 69av在线| 日韩色图区| 又黄又湿又爽的视频| 日韩精品中文字幕一区三区| 欧美日本二区| 国产国产人成免费视频77777| 欧美高清国产| 毛片视频网| 亚洲午夜综合网| 日本免费一级视频| 国产91小视频| 欧美特级AAAAAA视频免费观看| 中文字幕丝袜一区二区| 亚洲午夜福利精品无码| 91国内外精品自在线播放| 亚洲欧美h| 四虎国产精品永久一区| 亚洲欧美在线综合一区二区三区 | 一本一道波多野结衣一区二区| 色偷偷男人的天堂亚洲av| 国产XXXX做受性欧美88| 亚洲男人天堂2020| 日韩一级毛一欧美一国产| 国内精品视频区在线2021| 一个色综合久久| 中文字幕在线播放不卡| 久久综合激情网| 亚洲69视频| 精品一区二区三区四区五区| 国产免费怡红院视频| 国产精品一线天| 欧美午夜理伦三级在线观看| 欧美亚洲日韩中文| 青草精品视频| 国产人成乱码视频免费观看| 亚洲va在线∨a天堂va欧美va| 国产主播一区二区三区| 特级做a爰片毛片免费69| 欧美不卡视频在线观看| 亚洲天堂视频在线观看免费| 久久免费视频播放| 伊人狠狠丁香婷婷综合色| 国产H片无码不卡在线视频| 强奷白丝美女在线观看| 99热国产这里只有精品无卡顿"| 99资源在线| 99人妻碰碰碰久久久久禁片| 亚洲AV成人一区二区三区AV| 看国产毛片| 在线看片国产| 夜精品a一区二区三区| 国产成人AV大片大片在线播放 | 中国国产一级毛片| 欧美www在线观看| 国产微拍精品| 欧美成人第一页| 天天做天天爱天天爽综合区| 日韩成人在线一区二区|