999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于混合特征值的托攻擊檢測算法

2021-10-28 05:08:58雷夢寧丁愛玲王新美韓佳倩
關(guān)鍵詞:特征用戶檢測

雷夢寧,丁愛玲,王新美,韓佳倩,曹 苗

(長安大學(xué) 信息工程學(xué)院,陜西 西安 710061)

0 引 言

互聯(lián)網(wǎng)時代的迅速發(fā)展,使“信息過載”現(xiàn)象愈發(fā)嚴(yán)重,尋找一種可以辨別有效信息的手段至關(guān)重要。隨著用戶對信息篩選的需求,搜索引擎應(yīng)運而生,其通過在特定位置輸入一些簡單的關(guān)鍵詞尋找與該關(guān)鍵詞相關(guān)的信息。但其提供的海量信息仍需用戶消耗大量時間精力去篩選。

推薦系統(tǒng)(recommender systems)[1-4]的出現(xiàn)有效緩解了信息過多帶來的影響,其能夠在海量的搜索結(jié)果中,依據(jù)用戶的瀏覽記錄、行為習(xí)慣、興趣愛好等記錄進(jìn)行分析,為用戶推薦最符合搜索預(yù)期的信息,從而縮短用戶尋找有效信息的時間,為客戶信息檢索帶來了極大的便利。其中,協(xié)同過濾(collaborative filtering,CF)作為推薦系統(tǒng)中最為有效的手段之一,廣泛應(yīng)用于生活中的各種領(lǐng)域,如Facebook、YouTube等。

推薦系統(tǒng)依靠其龐大的用戶群體來為客戶推薦較為準(zhǔn)確的信息,一些商家利用該系統(tǒng)的開放性,通過注入大量攻擊概貌[5]影響系統(tǒng)推薦結(jié)果,以此來提高或降低商品的系統(tǒng)推薦頻率,從而謀取暴利。這種行為被稱為托攻擊(shilling attacks)[6-7]。其不正當(dāng)?shù)纳虡I(yè)競爭行為造成系統(tǒng)推薦信息虛假或精確度不高等影響,偏離客戶搜索預(yù)期。因此對托攻擊進(jìn)行防范檢測具有重大的意義。

現(xiàn)有的托攻擊檢測方法對基本托攻擊模型檢測效果明顯,文獻(xiàn)[8-9]提出了一種基于特征分析的托攻擊檢測算法,可以針對不同類型的托攻擊選取有效的檢測指標(biāo),通過托攻擊檢測指標(biāo)識別出攻擊用戶。但該方法不適合用在復(fù)雜的攻擊模型下。文獻(xiàn)[10]對推薦系統(tǒng)中現(xiàn)有的托攻擊檢測技術(shù)和魯棒性能進(jìn)行了分析,發(fā)現(xiàn)現(xiàn)有的檢測算法大多是基于評分值差異提取的特征,容易造成誤判率過高的問題。

受此啟發(fā),文中針對用戶選擇評分項目方式的不同,提出了一種基于混合特征值的托攻擊檢測算法。該算法考慮到項目流行度和新穎度的特性,選擇了五項特征檢測指標(biāo)構(gòu)建特征模型對托攻擊進(jìn)行檢測。最后,通過在MovieLens數(shù)據(jù)集上的實驗,驗證該特征模型可以有效檢測出攻擊用戶。

1 相關(guān)工作

1.1 攻擊概貌

攻擊概貌由攻擊者的所有評分構(gòu)成,包括四個部分[7]:填充項目集、選擇填充項目集、未評分項目填充集、目標(biāo)項目集。填充項目是攻擊者選取其他評分項目進(jìn)行填充,填充項往往是隨機(jī)的,可以掩護(hù)目標(biāo)項目躲避檢測。選擇填充項目是特定的,由攻擊者精心挑選,進(jìn)行有效攻擊。即攻擊用戶除對目標(biāo)項目進(jìn)行評分外,還對其他項目進(jìn)行評分,使得攻擊用戶與正常用戶更加接近,增加檢測難度。攻擊概貌的結(jié)構(gòu)如表1所示。

表1 攻擊概貌的結(jié)構(gòu)

1.2 攻擊類型

文獻(xiàn)[11]提出了隨機(jī)攻擊和均值攻擊,其為兩種基本的標(biāo)準(zhǔn)攻擊模型,文獻(xiàn)[12-13]提出了流行攻擊、分段攻擊和love/hate攻擊。Gunes等[14]在流行攻擊基礎(chǔ)上,討論了逆流行攻擊等混淆攻擊。不同攻擊模型對推薦系統(tǒng)評分集所需的先驗知識不同。表2列出了4種常見攻擊模型的生成策略,其中IS代表選擇填充項目集,IF代表填充項目集,IT代表目標(biāo)項目集。

表2 四種攻擊模型

表中,rmax表示在評分時給予最高分,rmin表示給予最低分,rrandom表示隨機(jī)評分,raverage表示均值評分。由表2可以觀察到,不同攻擊模式的主要區(qū)別在于對裝填項目的評分方式不同。

根據(jù)攻擊用戶信息的生成策略可知,攻擊用戶與真實用戶不同之處主要體現(xiàn)在3個方面:①目標(biāo)項目的評分;②填充項目的評分;③由于所有的攻擊用戶信息采用同樣的生成策略,致使攻擊用戶信息之間具有高度的相似性。文中利用以上數(shù)據(jù)差異生成統(tǒng)計特征,提出基于混合特征的攻擊檢測算法,以此區(qū)分正常用戶與攻擊用戶。

1.3 托攻擊檢測指標(biāo)

特征指標(biāo)用于捕捉攻擊用戶與正常用戶在評分方式上的差異。文獻(xiàn)[15-16]中定義的9個統(tǒng)計量從不同角度反映了攻擊用戶概貌有別于真實用戶概貌的特征。

文獻(xiàn)[8]針對流行攻擊對統(tǒng)計量進(jìn)行了研究,給出了有效檢測指標(biāo)排行,文中選擇其前三項作為檢測指標(biāo),如下所示:

(1)K近鄰用戶相似度(DegSim)。

在進(jìn)行托攻擊時,大量注入系統(tǒng)的攻擊概貌往往具有相同的攻擊模型,具有數(shù)量大,相似度高的特點,故攻擊用戶的此項特征值比真實用戶高。DegSim的計算公式如下:

(1)

(2)均值方差(MeanVar)。

對用戶評分項目進(jìn)行均值方差運算,體現(xiàn)用戶模型評分項目與所有評分項目平均值之間的二階矩關(guān)系,第u個用戶的MeanVar的計算公式如下:

(2)

(3)加權(quán)評分一致度(WDA)。

此特征值通過計算相應(yīng)項目評分?jǐn)?shù)目的逆向權(quán)重,以此衡量用戶對項目的評分背離該項目評分均值的程度。第u個用戶的加權(quán)評分一致度的計算公式如下:

(3)

其中,Nu表示用戶u評價過的項目個數(shù),NRi表示項目i被評價過的次數(shù),ri表示項目i的評分均值,ru,i表示用戶u對項目i的評分。

目前很多檢測器通過計算出各個特征指標(biāo)值,形成用戶評分矩陣構(gòu)建特征模型,以此作為屬性對分類器進(jìn)行訓(xùn)練,最終能夠?qū)⒄鎸嵱脩艉凸粲脩暨M(jìn)行分類。文中結(jié)合以上三個特征指標(biāo)得到特征模型,繪制三維圖,如圖1所示,圖中“+”代表攻擊用戶,即圓圈中的數(shù)據(jù),“o”代表正常用戶。由圖可知該特征模型可以較好地區(qū)分真實用戶和攻擊用戶,但部分攻擊用戶與正常用戶數(shù)據(jù)重疊,存在一定誤判率。

該特征模型在實際應(yīng)用中準(zhǔn)確率和召回率不夠高,為進(jìn)一步提高檢測準(zhǔn)確率,文中加入對項目流行度和新穎度的考量。考慮到項目流行度、項目新穎度以及攻擊用戶裝填項目服從不同的概率分布,其所得到的用戶平均流行度以及新穎度數(shù)值與正常用戶的平均流行度以及新穎度數(shù)值始終具有差異,因此文中提出了兩個新的特征檢測指標(biāo),分別是檢測項目與流行項目之間的卡方估計值(Chi-square of popular item,CHIP)和與新穎項目之間的卡方估計值(Chi-square of novel item,CHIN),通過這兩個指標(biāo)統(tǒng)計檢測項目與所選的流行項目或新穎項目之間的相關(guān)程度。其中流行項目的選擇依據(jù)項目流行度(item popularity,IPop),新穎項目的選擇依據(jù)項目新穎度(item novelty,INov),其計算公式分別如下所示:

(4)

其中,Di表示所給數(shù)據(jù)庫中所有真實用戶的合集,rui表示用戶u對任意一個項目i的評分。若rui=?,則φ(rui)=0,若rui≠?,則φ(rui)=1。

(5)

其中,|Dg|表示現(xiàn)在集合中的所有用戶數(shù)目,Novu,i表示該用戶對其任意一個項目的新穎程度,Nu表示用戶u的項目評分?jǐn)?shù),也就是相似度。

流行項目以及新穎項目的卡方估計值通用公式如下:

CHI=|I|×

(6)

其中,I表示數(shù)據(jù)集中所有的項目,A表示既屬于有評分項目又屬于流行項目/新穎項目的個數(shù),B表示屬于有評分的項目但是不屬于流行項目/新穎項目的個數(shù),C表示雖然不屬于有評分項目卻屬于流行項目/新穎項目的個數(shù),D表示既不屬于有評分項目的也不屬于流行項目/新穎項目的個數(shù)。通過計算用戶評分項目與新穎項目/流行項目之間的關(guān)聯(lián)程度,得到特征矩陣。

2 K-means聚類算法

聚類作為統(tǒng)計數(shù)據(jù)分析中的一項重要技術(shù),目前在各個領(lǐng)域得到廣泛應(yīng)用,如數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等。它通過靜態(tài)分類的方法,將更為相似的對象分到相同的組別,即該組別中的對象擁有較多相似的屬性。

K-means聚類算法源于信號處理中的一種向量量化方法,其主要目的是將所給的樣本數(shù)據(jù)聚類。其算法流程為:

(1)隨機(jī)創(chuàng)建K個對象作為起始聚類中心;

(2)計算每個對象與K個聚類中心點之間的歐氏距離,將每個對象分到距聚類中心距離最短的類別中;

(3)重新對每一類中的對象進(jìn)行計算,找到新的聚類中心點,重復(fù)(2)過程;

(4)直到聚類中心點的位置不再改變,樣本聚類完成。

文中使用K-means聚類算法對攻擊用戶與真實用戶集合進(jìn)行初步分類。

3 基于混合特征值的托攻擊檢測算法

文中構(gòu)建了一種新的特征模型,該特征模型由兩部分組成:①由特征指標(biāo)Degsim、MeanVar、WDA組成特征模型的第一層;②由特征指標(biāo)CHIP和CHIN組成特征模型的第二層。在該特征模型的基礎(chǔ)上提出了一種基于混合特征值的托攻擊檢測算法,將其命名為T-Kmeans算法。該算法的具體步驟如下:

步驟一:向用戶評分矩陣注入攻擊概貌,得到混合數(shù)據(jù)集;對其提取特征Degsim、MeanVar、WDA、CHIP、CHIN,并按列排序,得到用戶特征向量矩陣V。

步驟二:提取特征向量矩陣V的前三列,即DegSim、MeanVar、WDA三個特征值,通過K-means聚類算法將用戶初步聚成兩類,稱為第一真實用戶集合和第一攻擊用戶集合。

步驟三:對特征矩陣V的后兩列進(jìn)行閾值判斷操作;將大于閾值的標(biāo)記為真實用戶,小于閾值的標(biāo)記為攻擊用戶,稱其為第二真實用戶集合和第二攻擊用戶集合;其中閾值的選擇根據(jù)經(jīng)驗選擇[17]。

步驟四:將步驟二、步驟三中得到的第一攻擊用戶集合和第二攻擊用戶集合做交集,得到最終檢測結(jié)果,即攻擊用戶集合,剩余的用戶則為真實用戶集合。

算法流程如圖2所示。

圖2 T-Kmeans算法流程

4 仿真實驗

文中實驗采用Movielens數(shù)據(jù)集,包括943個觀眾對1 682部電影的隨機(jī)評價,共計100 000條評分,采取5分制,即最高分記5分,最低分記1分,未評分的記為0。

實驗選取的攻擊模型為流行攻擊,攻擊目的為推攻擊。分別在攻擊規(guī)模為3%,5%,8%,10%,12%,填充規(guī)模為3%,5%,8%,10%的條件下進(jìn)行實驗。

4.1 算法評估標(biāo)準(zhǔn)

文中通過計算準(zhǔn)確率(precision)和召回率(recall),與主成分分析(principal components analysis,PCA)檢測方法進(jìn)行對比,以此評估T-Kmeans檢測算法的有效性與準(zhǔn)確率。其計算公式如下:

(7)

(8)

其中,TP表示被正確識別的攻擊用戶的數(shù)目,F(xiàn)P表示被誤判的真實用戶的數(shù)目,F(xiàn)N表示未被識別出來的攻擊用戶的數(shù)目。

4.2 實驗結(jié)果與對比

4.2.1 準(zhǔn)確率對比

將文中提出的檢測方法的準(zhǔn)確率與PCA檢測算法的準(zhǔn)確率進(jìn)行對比,得到的實驗結(jié)果如圖3(a)~(d)所示。

如圖3所示,在填充規(guī)模分別為3%、5%、8%、10%的情況下,隨著攻擊規(guī)模的增大,PCA檢測算法和 T-Kmeans檢測算法的準(zhǔn)確率都在持續(xù)增加,但T-Kmeans檢測算法準(zhǔn)確率一直比PCA檢測算法準(zhǔn)確率高,且最高時候可達(dá)到98%,這說明在小規(guī)模攻擊情況下T-Kmeans檢測算法在準(zhǔn)確率方面比PCA檢測算法效果好。

4.2.2 召回率對比

將文中檢測方法的召回率與PCA檢測算法的召回率進(jìn)行對比,得到的實驗結(jié)果如圖4(a)~(d)所示。

圖3 T-Kmeans與PCA準(zhǔn)確率對比

圖4 T-Kmeans與PCA召回率對比

如圖4所示,在填充規(guī)模分別為3%、5%、8%、10%的情況下,隨著攻擊規(guī)模的增大,T-Kmeans檢測算法的召回率變動較大,但其一直比PCA檢測算法的召回率高,且最高時候可達(dá)到97%,這說明T-Kmeans檢測算法在召回率方面比PCA檢測算法的檢測效果好。

5 結(jié)束語

文中提出了一種基于混合特征值的托攻擊檢測算法。該算法構(gòu)建了一種新的特征模型,在傳統(tǒng)Degsim、MeanVar、WDA這三個特征檢測指標(biāo)基礎(chǔ)上,考慮到項目與流行項目、項目與新穎項目之間的關(guān)聯(lián)程度,引入CHIP,CHIN檢測指標(biāo),構(gòu)成特征模型。通過對Degsim、MeanVar、WDA形成的特征矩陣進(jìn)行K-means聚類,以及對CHIP、CHIN形成的特征矩陣進(jìn)行閾值判斷,并進(jìn)行求交集操作,得到最終檢測出的攻擊用戶集合。實驗結(jié)果表明,該算法提高了檢測準(zhǔn)確度,具有一定的優(yōu)越性。

猜你喜歡
特征用戶檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達(dá)“特征”
不忠誠的四個特征
抓住特征巧觀察
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
小波變換在PCB缺陷檢測中的應(yīng)用
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 亚洲综合婷婷激情| 国产网站免费看| 中文精品久久久久国产网址| 97视频精品全国免费观看| 日本成人不卡视频| 亚洲六月丁香六月婷婷蜜芽| 在线观看欧美精品二区| 欧美另类视频一区二区三区| 国产精品久久久久无码网站| 国产一级视频久久| 日韩专区第一页| 波多野结衣一二三| 中文字幕在线视频免费| 国产成人综合亚洲网址| 国产精品美女免费视频大全 | 玖玖免费视频在线观看| 手机在线国产精品| 日本www色视频| 国产精品主播| 久草热视频在线| 欧美日韩精品一区二区在线线| 国产真实自在自线免费精品| 视频国产精品丝袜第一页| 最新午夜男女福利片视频| 亚洲精品少妇熟女| 波多野结衣无码中文字幕在线观看一区二区| 亚洲人网站| 青青青国产视频| 国产永久在线观看| 熟女成人国产精品视频| 亚洲午夜福利精品无码不卡| 黄片在线永久| 国产成人午夜福利免费无码r| 国产成人无码Av在线播放无广告| 国产 在线视频无码| 91综合色区亚洲熟妇p| 亚洲日本一本dvd高清| 极品尤物av美乳在线观看| 国产爽歪歪免费视频在线观看| 亚洲欧洲AV一区二区三区| 最新精品国偷自产在线| 伊人久综合| 99精品视频播放| 国产全黄a一级毛片| 91亚洲精选| 亚洲无限乱码| 久久精品aⅴ无码中文字幕| 国产精品第一区在线观看| 亚洲AⅤ波多系列中文字幕| 蜜臀AV在线播放| 国产菊爆视频在线观看| 亚洲精品在线影院| 亚洲毛片一级带毛片基地| 国产成人精品一区二区不卡| julia中文字幕久久亚洲| 91精品国产一区自在线拍| 波多野结衣中文字幕一区二区| 欧美精品v欧洲精品| 亚洲国产高清精品线久久| 天天躁狠狠躁| 久草网视频在线| 欧美精品一区二区三区中文字幕| 97在线免费视频| 一区二区在线视频免费观看| 久久久噜噜噜| 最新日本中文字幕| 久热这里只有精品6| 精品自拍视频在线观看| 日韩欧美国产三级| 在线国产毛片手机小视频| 男女性午夜福利网站| 在线看片中文字幕| 精品色综合| 91精品免费高清在线| 色婷婷电影网| 亚洲精品午夜无码电影网| 午夜精品久久久久久久无码软件| 久久久久青草大香线综合精品| 亚洲欧美另类中文字幕| 在线欧美一区| 日韩色图在线观看| 欧美性精品|