999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于IMI-WNB算法的垃圾郵件過(guò)濾技術(shù)研究

2021-03-26 03:29:50吉小鵬
電子元器件與信息技術(shù) 2021年11期
關(guān)鍵詞:特征文本

吉小鵬

(南京理工大學(xué)自動(dòng)化學(xué)院,江蘇 南京 210094)

0 引言

工業(yè)互聯(lián)網(wǎng)快速發(fā)展的今天,在信息傳遞上起到關(guān)鍵作用的電子郵件深刻改變了工作方式,與此同時(shí)大量無(wú)效的垃圾郵件卻成了工業(yè)互聯(lián)網(wǎng)界難以解決的問(wèn)題,對(duì)郵箱存儲(chǔ)和網(wǎng)絡(luò)傳輸都造成了巨大困擾[1]。到目前為止,垃圾郵件過(guò)濾的方法主要包括基于黑名單過(guò)濾、基于行為識(shí)別過(guò)濾以及基于內(nèi)容過(guò)濾等手段。由于從郵件文本中提取互信息特征,并通過(guò)樸素貝葉斯分類的方法簡(jiǎn)便、快捷,基于此方法的內(nèi)容過(guò)濾逐漸成為了垃圾郵件的主流上應(yīng)用技術(shù)[2]。

實(shí)際上,傳統(tǒng)互信息方法并未計(jì)算出詞頻度,導(dǎo)致詞頻對(duì)互信息的偏置影響較大[3]。另外,多個(gè)垃圾郵件類別的樣本差異性對(duì)樸素貝葉斯方法也較為敏感,造成傳統(tǒng)方法對(duì)于樣本差異較大的情況出現(xiàn)較高的誤檢率或漏檢率。因此,在文本中,通過(guò)引入詞頻率因子和類別間差異因子來(lái)改進(jìn)互信息計(jì)算,并將計(jì)算結(jié)果作為樸素貝葉斯分類的屬性權(quán)重,建立基于IMI-WNB的垃圾郵件過(guò)濾算法,完成對(duì)垃圾郵件過(guò)濾的魯棒性,降低垃圾郵件過(guò)濾時(shí)的誤檢率和漏檢率。

1 基于IMI-WNB算法的工業(yè)互聯(lián)網(wǎng)垃圾郵件過(guò)濾算法

1.1 改進(jìn)的IMI互信息算法

傳統(tǒng)互信息算法在計(jì)算過(guò)程中僅考慮文本頻率,并未統(tǒng)計(jì)詞出現(xiàn)的頻率,在詞頻率不均衡的工業(yè)互聯(lián)網(wǎng)垃圾郵件文本中過(guò)濾效果較差[4]。例如,文本頻率相同的兩個(gè)詞,但是詞頻率的特征差距較大,在傳統(tǒng)方法中認(rèn)為詞頻率特征更大的詞具有與類別更高的相關(guān)程度。然而,這種情況下采用傳統(tǒng)方式互信息計(jì)算方式相關(guān)程度相同,與實(shí)際情況顯著不符。因此,本文分別引進(jìn)詞頻率因子和類間差異因子對(duì)IMI互信息算法進(jìn)行改進(jìn)。

首先,引入詞頻率因子α用于描述不同詞頻率特征之間的差異性,通過(guò)下式定義:

根據(jù)上述定義可以看出,如果某個(gè)特征的詞頻率高于文本頻率,那么相應(yīng)的詞頻因子的權(quán)重將會(huì)更大,此時(shí)垃圾郵件過(guò)濾時(shí)采用該特征的比重將會(huì)越高。

此外,當(dāng)多個(gè)類別中的特征分布不均勻?qū)е聦?duì)類別的判定產(chǎn)生影響時(shí),一般在某些類別中出現(xiàn)的次數(shù)較多而在另一些類別中出現(xiàn)的次數(shù)較少,這種情況下一般可認(rèn)為該特征對(duì)于工業(yè)互聯(lián)網(wǎng)垃圾郵件過(guò)濾的影響較大。實(shí)際上,這樣的特征在統(tǒng)計(jì)學(xué)中被稱為標(biāo)準(zhǔn)差較大的特征,能夠反映出郵件文本的離散程度,從而有利于垃圾郵件的過(guò)濾。因此,在本文中,我們通過(guò)垃圾郵件Cspam和正常郵件Cham之間特征頻率wi的標(biāo)準(zhǔn)差改進(jìn)互信息計(jì)算過(guò)程。假設(shè)垃圾郵件中特征的頻率為tfCspam(wi),正常郵件對(duì)應(yīng)的特征頻率為tfCham(wi),二者共同的平均特征頻率為tfavg(wi),那么可以表示為:

上式(7)在式(3)的基礎(chǔ)上增加了不同類間的頻率差異權(quán)重因子,因而能夠在對(duì)垃圾郵件過(guò)濾過(guò)程中體現(xiàn)出類間頻率差異的影響,從而提升互信息計(jì)算方法的特征選擇效率。

1.2 基于改進(jìn)的IMI互信息的樸素貝葉斯算法

針對(duì)工業(yè)互聯(lián)網(wǎng)垃圾郵件過(guò)濾的分類算法通常采用樸素貝葉斯分類器(NB),通常傳統(tǒng)NB中的條件獨(dú)立性假設(shè)會(huì)對(duì)工業(yè)互聯(lián)網(wǎng)垃圾郵件的過(guò)濾造成不利影響[5]。因此,在本文中,我們通過(guò)在貝葉斯概率公式中添加屬性權(quán)重,通過(guò)權(quán)重控制不同特征對(duì)于垃圾郵件過(guò)濾的貢獻(xiàn)。實(shí)際的屬性權(quán)重可通過(guò)改進(jìn)的IMI互信息值獲取,互信息值的結(jié)果偏大表明特征與類別相關(guān)程度較高,反過(guò)來(lái),互信息值偏小則表明特征與類別相關(guān)程度較低。通過(guò)互信息值作為NB的屬性權(quán)重,我們新提出的WNB將會(huì)消除獨(dú)立性假設(shè)的影響,保證垃圾郵件過(guò)濾的穩(wěn)定性。通常來(lái)講,帶權(quán)重的WNB的分類過(guò)程可以表示為:

綜上,本文提出的基于IMI-WNB的工業(yè)互聯(lián)網(wǎng)垃圾郵件過(guò)濾具體過(guò)程如下:

(1)預(yù)處理階段處理郵件文本的停用詞,然后將文本完成自動(dòng)分詞;

(2)采用改進(jìn)的IMI互信息算法選擇分詞后的文本特征,篩選過(guò)濾無(wú)關(guān)的特征;

(3)統(tǒng)計(jì)郵件文本訓(xùn)練樣本的先驗(yàn)概率、條件概率,然后使用IMI-WNB算法完成最大后驗(yàn)概率的求解,通過(guò)概率是否超過(guò)閾值,判斷是否為垃圾郵件。

2 仿真實(shí)驗(yàn)與結(jié)果分析

為了驗(yàn)證本文提出的基于IMI-WNB算法的工業(yè)互聯(lián)網(wǎng)垃圾郵件過(guò)濾算法可行性與有效性,我們采用能明顯反映工業(yè)互聯(lián)網(wǎng)特性的trec06c開(kāi)源郵件語(yǔ)料庫(kù),進(jìn)行工業(yè)互聯(lián)網(wǎng)垃圾郵件過(guò)濾對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)對(duì)比的算法對(duì)象包括傳統(tǒng)NB算法以及改進(jìn)的IMI-WNB算法。實(shí)驗(yàn)平臺(tái)為Unbutu11.0,硬件配置為i7-6700K CPU配合16GB內(nèi)存以及SSD固態(tài)硬盤,實(shí)驗(yàn)編程平臺(tái)采用Matlab R2012b。由于實(shí)驗(yàn)采用的trec06c語(yǔ)料庫(kù)中郵件文本較多,我們?cè)诰唧w實(shí)驗(yàn)中采用其中較為關(guān)鍵的15000個(gè)郵件樣本,其中7500個(gè)垃圾郵件,7500個(gè)正常郵件,兩種類別的樣本數(shù)量保持均衡。為了對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行客觀評(píng)價(jià), 我們?cè)趯?shí)驗(yàn)中采用準(zhǔn)確率和召回率兩種指標(biāo)對(duì)算法進(jìn)行客觀評(píng)價(jià)。針對(duì)開(kāi)源郵件語(yǔ)料庫(kù)的垃圾郵件過(guò)濾對(duì)比實(shí)驗(yàn)步驟如下:

(1)對(duì)所有15000個(gè)包含垃圾郵件和正常郵件的樣本進(jìn)行分詞處理,并通過(guò)查找停用詞表保留能進(jìn)行垃圾郵件過(guò)濾的主要特征。在特征提取中,分別采用傳統(tǒng)的互信息特征提取以及本文改進(jìn)的互信息特征提取方法獲得對(duì)應(yīng)的特征集合TMI和TIMI;

(2)分別從互信息特征集合以及改進(jìn)的互信息特征集合中n提取個(gè)樣本 {t1,t2,...,tn},分別組成郵件文本特征向量RMI和RIMI,將特征向量集合作為NB的屬性權(quán)重產(chǎn)生WNB分類算法,并通過(guò)IMI-WNB算法完成對(duì)垃圾郵件過(guò)濾的訓(xùn)練和驗(yàn)證;

(3)為了進(jìn)行垃圾郵件過(guò)濾的訓(xùn)練和驗(yàn)證,我們?cè)诒疚闹胁捎媒?jīng)典的十乘交叉驗(yàn)證方法進(jìn)行訓(xùn)練和驗(yàn)證。其中,我們將15000個(gè)樣本隨機(jī)大亂,并劃分為10份,每次驗(yàn)證取其中的9份作為訓(xùn)練樣本集合,剩下的1份作為驗(yàn)證樣本集合。最后,將十次驗(yàn)證結(jié)果的平均準(zhǔn)確率、平均召回率以及平均F-score記錄下來(lái),通過(guò)記錄的數(shù)據(jù)驗(yàn)證本文提出算法的可行性與有效性。

經(jīng)過(guò)十乘交叉驗(yàn)證后,圖1(a)給出了傳統(tǒng)NB算法與本文改進(jìn)IMI-WNB算法的平均準(zhǔn)確率對(duì)比。從圖1(a)中的結(jié)果可以看出,傳統(tǒng)NB算法能夠在較低的特征維度(<50)時(shí)保證垃圾郵件過(guò)濾時(shí)的精準(zhǔn)率上升,當(dāng)特征維度較大的時(shí)候傳統(tǒng)算法的垃圾郵件過(guò)濾準(zhǔn)確率出現(xiàn)下降,直到特征維度超過(guò)200維時(shí)才繼續(xù)上升。相比于傳統(tǒng)NB算法,本文提出的IMI-WNB算法在較低特征維度時(shí)的準(zhǔn)確率差距不大,但是隨著特征維度的提升,傳統(tǒng)NB算法的垃圾郵件過(guò)濾顯著下降,但是IMI-WNB算法卻只有少量的精度下降,隨后一直保持精確度上升的趨勢(shì),本文提出算法在召回率上具有較強(qiáng)的魯棒性。

圖1 傳統(tǒng)NB算法與本文改進(jìn)IMI-WNB算法的對(duì)比

此外,圖1(b)給出了傳統(tǒng)NB算法與本文改進(jìn)IMI-WNB算法的平均召回率對(duì)比。從圖1(b)中的結(jié)果可以看出,傳統(tǒng)NB算法能夠在較低的特征維度(<20)時(shí)保證垃圾郵件過(guò)濾時(shí)的召回率上升,當(dāng)特征維度較大的時(shí)候傳統(tǒng)算法的垃圾郵件過(guò)濾準(zhǔn)確率出現(xiàn)下降,直到特征維度超過(guò)180維時(shí)才繼續(xù)上升。相比于傳統(tǒng)NB算法,本文提出的IMI-WNB算法在較低特征維度時(shí)的準(zhǔn)確率差距不大,但是隨著特征維度的提升,傳統(tǒng)NB算法的垃圾郵件過(guò)濾顯著下降,但是IMI-WNB算法卻只有少量的精度下降,隨后一直保持精確度上升的趨勢(shì),本文提出算法在召回率上具有較強(qiáng)的魯棒性。

表1給出了垃圾郵件過(guò)濾的常用算法與本文提出算法的計(jì)算性能對(duì)比。從表1的結(jié)果中可以看出,經(jīng)典的PTw2v算法在準(zhǔn)確率和召回率上差距不大,垃圾郵件過(guò)濾效果較好;本文提出的IMI-WNB算法比傳統(tǒng)C4.5算法擁有更高的召回率,因此垃圾郵件的漏檢率顯著低于傳統(tǒng)算法;GWO_GA算法雖然具有較高的召回率,但是其準(zhǔn)確率卻顯著低于本文提出的IMI-WNB算法,因此正常郵件的誤檢率顯著高于本文提出算法。

表1 主流算法與本文提出算法的性能對(duì)比

綜合上述實(shí)驗(yàn)結(jié)果可以看出,本文提出算法在魯棒性上優(yōu)于傳統(tǒng)的NB分類、PTw2v等算法,在準(zhǔn)確率和召回率的雙向?qū)Ρ壬弦矁?yōu)于近年來(lái)流行的C4.5 和GWO_GA算法。因此,本文提出的IMI-WNB算法對(duì)垃圾郵件過(guò)濾具較高的準(zhǔn)確性和魯棒性。

3 結(jié)論

在本文中,為了解決傳統(tǒng)工業(yè)互聯(lián)網(wǎng)垃圾郵件過(guò)濾時(shí)的詞頻、樣本類別差異對(duì)漏檢率和誤檢率的影響,提出了一種全新的工業(yè)互聯(lián)網(wǎng)垃圾郵件過(guò)濾算法。該算法通過(guò)引入詞頻率因子和類別間差異因子來(lái)改進(jìn)互信息計(jì)算,并將計(jì)算結(jié)果作為樸素貝葉斯分類的屬性權(quán)重,建立基于IMI-WNB的垃圾郵件過(guò)濾算法。在開(kāi)源數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果表明,本文提出算法能夠比傳統(tǒng)算法獲得更魯棒的垃圾郵件過(guò)濾結(jié)果,有效降低了垃圾郵件過(guò)濾時(shí)的誤檢率和漏檢率。

猜你喜歡
特征文本
抓住特征巧觀察
新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠(chéng)的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 国产三级韩国三级理| 在线免费观看AV| 免费毛片视频| 欧美黄色网站在线看| 在线观看精品自拍视频| 久久夜色撩人精品国产| 亚洲欧美天堂网| 国产成人AV大片大片在线播放 | 久青草免费在线视频| 亚洲成人免费在线| 中文字幕在线看| 亚洲视频四区| 性激烈欧美三级在线播放| 伊人久久精品亚洲午夜| 无码在线激情片| 在线免费看片a| 国产精品原创不卡在线| 国产好痛疼轻点好爽的视频| 午夜福利无码一区二区| 一本色道久久88| 国产精品久久久久久久伊一| 国产精品白浆无码流出在线看| 91福利在线观看视频| 美女毛片在线| 国内黄色精品| 91福利免费视频| 欧美一级视频免费| 久久精品aⅴ无码中文字幕| 最新亚洲人成无码网站欣赏网| 真实国产乱子伦视频| 有专无码视频| 国产丝袜一区二区三区视频免下载 | 国产成熟女人性满足视频| 五月天综合婷婷| 国产视频自拍一区| 精品视频福利| 一本一道波多野结衣av黑人在线| 国产97色在线| 青青青草国产| 亚洲天堂网站在线| 中文国产成人久久精品小说| 天堂网国产| 香蕉在线视频网站| 亚洲一级毛片免费看| 国产精品成人久久| 国产精品无码AV中文| 精品伊人久久久久7777人| 91人人妻人人做人人爽男同| 国产精品浪潮Av| 日韩精品免费一线在线观看 | 成人日韩视频| 国内精品小视频福利网址| 亚洲 欧美 日韩综合一区| 国产污视频在线观看| 免费一级全黄少妇性色生活片| 2020国产免费久久精品99| 91麻豆精品国产91久久久久| 中文字幕av一区二区三区欲色| 精品国产香蕉伊思人在线| 伊人中文网| 三级视频中文字幕| 2022国产91精品久久久久久| 国产第一页屁屁影院| 伊人网址在线| 国产91成人| 亚洲综合激情另类专区| 亚洲国产午夜精华无码福利| 亚洲欧美在线精品一区二区| 日韩国产精品无码一区二区三区| 国产va欧美va在线观看| 亚洲三级影院| Aⅴ无码专区在线观看| 国产一级毛片yw| 亚洲人成网18禁| 热这里只有精品国产热门精品| 伊人久久精品亚洲午夜| 国产91导航| 国产成人福利在线| 午夜电影在线观看国产1区| 国产亚洲欧美在线视频| 真实国产乱子伦高清| 嫩草国产在线|