999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于決策樹算法的移動終端數(shù)據(jù)安全檢測技術(shù)研究

2017-04-01 23:49:39劉江林袁宏彥
現(xiàn)代電子技術(shù) 2017年5期
關(guān)鍵詞:檢測技術(shù)數(shù)據(jù)挖掘

劉江林 袁宏彥

摘 要: 通過對決策樹、k?Nearest Neighbor、貝葉斯三種不同數(shù)據(jù)挖掘算法的比較研究,基于可移動端數(shù)據(jù)的特點,建立了可移動端數(shù)據(jù)安全檢測的模型框架,并通過實驗對其加以驗證。結(jié)果表明,決策樹算法的檢測分類結(jié)果最好,其查準率和查全率結(jié)果都很高;貝葉斯算法的檢測分類結(jié)果性能穩(wěn)定,但準確性不高,分類精度不理想,這是由該算法本身固有的特點決定的;k?Nearest Neighbor算法在開始時受到樣本向量多少的影響,檢測分類的效果不太穩(wěn)定,分類效果在樣本向量較少的情況下較差。通過對數(shù)據(jù)挖掘的可移動終端數(shù)據(jù)安全檢測技術(shù)的研究,為今后數(shù)據(jù)安全檢測技術(shù)的應(yīng)用提供了一定的指導(dǎo)價值。

關(guān)鍵詞: 數(shù)據(jù)挖掘; 移動終端; 數(shù)據(jù)安全; 檢測技術(shù)

中圖分類號: TN915.08?34 文獻標識碼: A 文章編號: 1004?373X(2017)05?0082?03

Abstract: By comparatively studying on the data mining algorithms of decision tree, k?Nearest Neighbor and Bayesian, a model framework of the mobile terminal data security detection was established according to the characteristics of the mobile terminal data, and verified with the experiment. The results show that the decision tree algorithm has the best detection and classification result, and its precision ratio and recall ratio are both high; the Bayesian algorithm has the stable performance of the detection and classification result, but its accuracy is low and classification precision is unsatisfied because of the inherent characteristics of the algorithm itself; the k?Nearest Neighbor algorithm reflected by the quantity of the sample vectors has unstable detection and classification result, and the classification result is poor when the algorithm has less sample vectors. The mobile terminal data security detection technology of the data mining is studied, which provides a certain guidance value for the application of the data security detection technology.

Keywords: data mining; mobile terminal; data security; detection technology

0 引 言

伴隨著移動通信技術(shù)的飛速發(fā)展,移動終端在人們的日常生活中愈來愈多地承擔(dān)互聯(lián)網(wǎng)的應(yīng)用和服務(wù),但同時也帶來了許多負面的影響,其中最大的挑戰(zhàn)就是如何確保可移動端數(shù)據(jù)的安全[1?3]。可移動終端在承擔(dān)以前PC端互聯(lián)網(wǎng)的應(yīng)用和服務(wù)時,自己也成了被攻擊的對象,如何快速地檢測、識別對可移動端數(shù)據(jù)存在安全威脅的數(shù)據(jù),這一問題急需解決。

數(shù)據(jù)挖掘是將人工智能、機器學(xué)習(xí)、模式識別等多學(xué)科、多領(lǐng)域的知識結(jié)合,通過對當前大量信息數(shù)據(jù)的分析,找出各類事物之間新的聯(lián)系和發(fā)展趨勢等[4?7]。數(shù)據(jù)挖掘為解決可移動端數(shù)據(jù)安全監(jiān)測問題提供了一種新的思路和途徑,成為一個新的研究熱點[8]。

1 可移動端數(shù)據(jù)安全檢測模型框架

1.1 數(shù)據(jù)挖掘算法比較

在利用數(shù)據(jù)挖掘技術(shù)對可移動端數(shù)據(jù)進行檢測時,算法的選擇直接影響整個模型是否可以快速自動、準確無誤地識別對數(shù)據(jù)安全有威脅的信息,因此對數(shù)據(jù)挖掘算法的比較研究是基于數(shù)據(jù)挖掘的可移動端數(shù)據(jù)安全檢測技術(shù)的核心。

1.1.1 決策樹算法

該算法的主體是利用樹狀結(jié)構(gòu)對可移動端數(shù)據(jù)記錄進行分類[9],具有非常高的可讀性,對數(shù)據(jù)記錄的分類準確率和速度都很高等優(yōu)點。

1.1.2 k?Nearest Neighbor算法

k?Nearest Neighbor算法是基于統(tǒng)計分類的一種算法。該算法的優(yōu)點是不需要分割所有數(shù)據(jù)記錄組成的向量空間,通過對模型數(shù)據(jù)進行訓(xùn)練,找出[K]個相似向量即可,分類效果較好;缺點是對異常值不敏感。計算公式如下:

[Simdi,dj=k-1MWik×Wjkk-1MW2ikk-1MW2jk] (1)

1.1.3 貝葉斯算法

貝葉斯算法是基于概率理論的數(shù)據(jù)檢測分類算法。該算法可以將事件的先驗概率和后驗概率聯(lián)系在一起,利用樣本數(shù)據(jù)與先驗信息來確定事件的后驗概率,其優(yōu)點是模型構(gòu)建簡單,效率和穩(wěn)定性很高,缺點是數(shù)據(jù)分類效果不佳。計算公式如下:

[Pcjdi=pcjpdicjpdi] (2)

1.2 可移動端數(shù)據(jù)安全檢測模型框架

完成對數(shù)據(jù)挖掘算法的研究,本文提出了一種基于數(shù)據(jù)挖掘的可移動端數(shù)據(jù)安全檢測的模型,模型框架圖如圖1所示。

整個可移動端數(shù)據(jù)安全檢測的過程分為訓(xùn)練過程和分類過程。首先,從可移動端采集到原始數(shù)據(jù),將采集來的可移動端數(shù)據(jù)以數(shù)據(jù)包的形式作為一個分類單位,數(shù)據(jù)包中包括已經(jīng)檢測的數(shù)據(jù)和待檢測的數(shù)據(jù),將已經(jīng)檢測過的數(shù)據(jù)作為訓(xùn)練過程的基礎(chǔ),先對其進行預(yù)處理,即將可移動端HTTP請求數(shù)據(jù)進行文本化,然后提取文本數(shù)據(jù)的向量特征,將數(shù)據(jù)包中的文本數(shù)據(jù)轉(zhuǎn)化為可用于分類的空間向量,隨后,利用該訓(xùn)練數(shù)據(jù)集對數(shù)據(jù)檢測分類算法模型進行訓(xùn)練,再利用測試數(shù)據(jù)集按一定的測試方法測試建立好的分類模型的性能,通過不斷的學(xué)習(xí)和調(diào)整,實現(xiàn)對移動數(shù)據(jù)的自動化安全檢測。

1.2.1 數(shù)據(jù)的向量化

數(shù)據(jù)預(yù)處理之后的文本數(shù)據(jù)是不可以直接使用的,必須將這些文本數(shù)據(jù)向量化,轉(zhuǎn)換成檢測分類算法可以識別的數(shù)據(jù),即把數(shù)據(jù)全部用向量表示,使數(shù)據(jù)包成為[N]維向量空間的一個點集,如下:

[T=TD1,W1,D2,W2,…,DN,WN] (3)

文本轉(zhuǎn)化為向量后,特征項為[D,]相對應(yīng)的特征項的權(quán)值為[W,]也就是當前特征項在文本中的重要程度。這一建模過程方法很多,目前常用的有概率模型、布爾模型以及向量空間模型等。

1.2.2 向量特征值的選擇

將文本數(shù)據(jù)進行向量化之后,數(shù)據(jù)就成了[N]維向量空間的一個點集,每一個點需要有一個特征向量,這樣才可以進行下一步的分類。因為在高緯度的向量空間中進行分類效率會很低,所以在提取特征向量前,要降低一下向量空間的維度,這就需要對數(shù)據(jù)的特征項進行處理和過濾。本文設(shè)計的基于數(shù)據(jù)挖掘的可移動端數(shù)據(jù)安全檢測模型中,提取了14個向量特征來表示每個可移動端的數(shù)據(jù),這樣一來就可以大大降低向量空間的維度,而且還能保證數(shù)據(jù)的有效性。

1.2.3 數(shù)據(jù)的檢測分類

從可移動端收集的數(shù)據(jù)被分為兩個部分:一部分為正常數(shù)據(jù);另一部分為惡意數(shù)據(jù),這兩部分數(shù)據(jù)一定要具有良好的區(qū)分性,測試檢測模型是否對這兩部分數(shù)據(jù)有足夠的敏感性,是否可以穩(wěn)健快速的區(qū)別[10]。經(jīng)過數(shù)據(jù)劃分之后,惡意數(shù)據(jù)和安全數(shù)據(jù)被劃分為惡意數(shù)據(jù)和正常數(shù)據(jù)兩類,預(yù)處理后作為目標數(shù)據(jù)對模型的檢測分類算法進行訓(xùn)練,這是一個自動、機器學(xué)習(xí)的過程,模型訓(xùn)練后可以對數(shù)據(jù)進行有效地分類和性能檢驗。

2 實驗結(jié)果與分析

2.1 實驗數(shù)據(jù)與環(huán)境

本文選擇的實驗數(shù)據(jù)共有61 937條安全數(shù)據(jù)和17 592條惡意數(shù)據(jù),分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集兩部分,分布情況如表1所示。

2.2 結(jié)果評估方法

本文采用查準率、查全率對分類結(jié)果進行評價。查準率和查全率是評價分類結(jié)果的常用方法,查準率衡量檢測準確的概率,查全率是衡量檢測到的概率。

惡意數(shù)據(jù)包檢測結(jié)果的查準率和查全率分別如下所示:

式中:真實結(jié)果為惡意用[Nm-m]表示,檢測結(jié)果為惡意的數(shù)據(jù)包的數(shù)目;真實結(jié)果為安全用[Ns-m]表示,檢測結(jié)果為惡意的移動數(shù)據(jù)包數(shù)目;惡意移動數(shù)據(jù)包的總數(shù)用[Nm]表示。

式中:真實結(jié)果為安全用[Ns-s]表示,檢測結(jié)果為安全的數(shù)據(jù)包的數(shù)目;真實結(jié)果為惡意用[Nm-s]表示,檢測結(jié)果為安全的移動數(shù)據(jù)包數(shù)目;安全移動數(shù)據(jù)包的總數(shù)用[Ns]表示。

2.3 分類結(jié)果評估指標

評估分類結(jié)果,首先要對模型的算法性能進行評估。在本文提出的檢測模型中,數(shù)據(jù)的檢測分為訓(xùn)練部分和分類部分,因此對算法的評估也需要分兩個階段進行。對于k?Nearest Neighbor算法,其在訓(xùn)練部分的時間是線性的,而在分類部分的時間是非線性的;對于決策樹算法,其在訓(xùn)練部分的時間是非線性的,而在分類部分的時間又是線性的;而貝葉斯算法,其在訓(xùn)練部分和分類部分的時間都是線性的,因此通常用于對算法性能進行評估,而在本文中并不適用,對于可移動端數(shù)據(jù)安全檢測的算法則不再使用一些常用指標去評估衡量算法的性能,而是引用信息檢索中的相關(guān)指標來評估算法的性能,這些指標主要有兩個,即查全率和查準率。對可移動端數(shù)據(jù)的所有類別進行標記,每一個類別使用一個二值標記,這樣數(shù)據(jù)的分類結(jié)果就形成一個二值分類鄰接表,利用這個表進行計算,便可以對分類的結(jié)果進行評估。

2.4 實驗結(jié)果與分析

在本文提出的檢測模型中,數(shù)據(jù)的檢測分為訓(xùn)練部分和分類部分。在實驗過程中,也將實驗分成兩組進行,第一組實驗研究各個分類算法模型的二分類檢測結(jié)果,第二組實驗研究各個分類算法模型的多類分類檢測結(jié)果。為了保證最后實驗結(jié)果的可比性,在每組實驗中只改變算法,不改變輸入的檢測數(shù)據(jù),實驗數(shù)據(jù)見表2。

在二分類檢測中,將實驗的數(shù)據(jù)類別只設(shè)定為安全數(shù)據(jù)和惡意數(shù)據(jù)兩種,并且把測試的數(shù)據(jù)分為五組輸入到檢測模型中對算法進行驗證,計算出平均查準率和查全率。從實驗結(jié)果數(shù)據(jù)可以看出,在進行安全數(shù)據(jù)和惡意數(shù)據(jù)的二分類檢測時,各個算法的性能都良好,其中性能穩(wěn)定和分類效果最好的是決策樹算法,其次是k?Nearest Neighbor算法,檢測分類效果不夠理想的是貝葉斯算法。

根據(jù)多類分類的實驗結(jié)果可以看出,k?Nearest Neighbor算法開始變得不夠穩(wěn)定,其檢測分類的效果直接受到樣本向量多少的影響,在樣本向量較少的情況下其分類效果變差;貝葉斯算法的檢測分類結(jié)果性能穩(wěn)定,但準確性卻不高,分類精度不理想,這是由該算法本身固有的特點決定的;檢測分類結(jié)果最好的是決策樹算法,無論是查準率還是查全率,其檢測分類的結(jié)果都很高。

3 結(jié) 語

決策樹算法是一種廣泛使用的數(shù)據(jù)挖掘分類算法,該算法通過訓(xùn)練數(shù)據(jù)自動生成分類模型,并可利用生成的決策樹對未知分類數(shù)據(jù)進行預(yù)測。本文通過查準率、查全率對決策樹算法的移動終端數(shù)據(jù)安全檢測結(jié)果進行評價,得出以下結(jié)論:

在進行安全數(shù)據(jù)和惡意數(shù)據(jù)的二分類檢測時,各個算法的性能都良好,其中性能穩(wěn)定,分類效果最好的是決策樹算法,其次是k?Nearest Neighbor算法,檢測分類效果不夠理想的是貝葉斯算法。

在進行安全數(shù)據(jù)和惡意數(shù)據(jù)的多類分類檢測時,k?Nearest Neighbor算法不夠穩(wěn)定,其檢測分類的效果直接受到樣本向量多少的影響,在樣本向量較少的情況下其分類效果變差;貝葉斯算法的檢測分類結(jié)果性能穩(wěn)定,但準確性卻不高,分類精度不理想;決策樹算法檢測分類結(jié)果最好,查準率和查全率都很高。

決策樹算法雖比其他兩種算法的效果要好,但其對個別威脅類型如DOS,U2R等的查準率還未超過90%,因此在今后研究中,還需要進一步提高決策樹算法對各威脅類型檢測的查準率及查全率。

參考文獻

[1] 張瑞華,周延泉,王樅,等.移動終端離線瀏覽系統(tǒng)的新聞推薦服務(wù)研究[J].北京郵電大學(xué)學(xué)報,2011(4):132?135.

[2] 張愛麗,劉廣利,劉長宇.基于SVM的多類文本分類研究[J].情報方法,2004(9):125?127.

[3] COVER T M, HART P E. Nearest neighbor pattern classification [J]. IEEE transactions on information theory, 1968, 13(1): 21?27.

[4] LEE W, STOLFO S. A framework for constructing features and models for intrusion detection systems [J]. ACM transactions on information and system security, 2000, 3(4): 227?261.

[5] 房秉毅,張云勇,徐雷.移動互聯(lián)網(wǎng)環(huán)境下云計算安全淺析[J].移動通信,2011(9):25?28.

[6] 傅建慶,陳健,范容,等.基于代理簽名的移動通信網(wǎng)絡(luò)匿名漫游認證協(xié)議[J].電子與信息學(xué)報,2011,33(1):156?162.

[7] 李濤,胡愛群.可信模塊與強制訪問控制結(jié)合的安全防護方案[J].東南大學(xué)學(xué)報(自然科學(xué)版),2011,41(3):513?517.

[8] 陳祎荻,秦玉平.基于機器學(xué)習(xí)的文本分類方法綜述[J].渤海大學(xué)學(xué)報(自然科學(xué)版),2010(2):201?205.

[9] 楊靜,張楠男,李建,等.決策樹算法的研究與應(yīng)用[J].計算機技術(shù)與發(fā)展,2010,20(2):114?116.

[10] 柴春梅,李翔,林祥.基于改進KNN算法實現(xiàn)網(wǎng)絡(luò)媒體信息智能分類[J].計算機技術(shù)與發(fā)展,2009(1):1?4.

猜你喜歡
檢測技術(shù)數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
食品安全檢測技術(shù)研究現(xiàn)狀
公路工程試驗檢測存在的問題及措施
價值工程(2016年30期)2016-11-24 16:39:03
煤礦機電產(chǎn)品檢測技術(shù)
鍋爐檢測應(yīng)用壓力管道無損檢測技術(shù)的分析
淺談現(xiàn)代汽車檢測技術(shù)與安全管理
科技視界(2016年20期)2016-09-29 12:55:31
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
食品安全檢測技術(shù)存在的主要問題及對策探究
科技視界(2015年25期)2015-09-01 18:19:31
主站蜘蛛池模板: 精品伊人久久大香线蕉网站| 玖玖免费视频在线观看| 成人午夜免费视频| 国产成人精品高清在线| 欧洲日本亚洲中文字幕| 麻豆国产在线不卡一区二区| 四虎成人在线视频| 91国内在线观看| 在线观看免费黄色网址| 国产乱视频网站| 亚洲天堂久久| 欧美精品黑人粗大| 欧美在线视频不卡第一页| 国产91高跟丝袜| 久久99精品久久久久纯品| 国产小视频在线高清播放| 国产亚洲精品91| 亚洲AV无码不卡无码| 麻豆国产原创视频在线播放| 亚洲欧美日韩成人高清在线一区| 国产一在线观看| 韩日无码在线不卡| 国产欧美日韩一区二区视频在线| 囯产av无码片毛片一级| 国产一线在线| 小13箩利洗澡无码视频免费网站| 日本国产在线| 亚洲日韩精品欧美中文字幕| 亚洲性色永久网址| 一区二区理伦视频| 91成人在线免费观看| 成人在线不卡视频| 亚洲精品在线观看91| 欧美午夜网站| 国产女人18毛片水真多1| 国产欧美在线观看一区| 依依成人精品无v国产| 日韩少妇激情一区二区| 91年精品国产福利线观看久久 | 亚洲欧美一级一级a| 国产在线高清一级毛片| 久久黄色免费电影| 日韩专区欧美| 精品欧美视频| 国产成人调教在线视频| 在线免费观看AV| 九色91在线视频| 亚洲国产清纯| 99re热精品视频国产免费| 幺女国产一级毛片| 一级在线毛片| 亚洲日韩欧美在线观看| 日韩AV无码一区| 搞黄网站免费观看| 一级不卡毛片| 四虎永久免费网站| 国产精品欧美日本韩免费一区二区三区不卡 | 一本一道波多野结衣av黑人在线| 成人免费一级片| 成·人免费午夜无码视频在线观看| 青青青国产精品国产精品美女| 青青青视频91在线 | 99性视频| 99久久精品国产麻豆婷婷| 国产在线一区二区视频| 中文字幕免费在线视频| 亚洲国产成人久久77| 97久久精品人人| A级毛片无码久久精品免费| 久久精品日日躁夜夜躁欧美| 久久天天躁狠狠躁夜夜躁| 色婷婷国产精品视频| 国产精品无码AV片在线观看播放| 精品少妇人妻av无码久久| 国产成人高清精品免费软件| 自偷自拍三级全三级视频| 午夜小视频在线| 国产成人一区免费观看| 久久黄色免费电影| 黄片一区二区三区| 特级欧美视频aaaaaa| 亚洲精品无码AⅤ片青青在线观看|