999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

新的基于最小風(fēng)險的貝葉斯郵件過濾模型

2008-01-01 00:00:00裘國永何聚厚

摘要:分析了目前在垃圾郵件過濾中廣泛應(yīng)用的基于最小風(fēng)險的樸素貝葉斯模型,提出了一種新的基于直線幾何分割的樸素貝葉斯郵件過濾模型LGDNBF,定義了新的風(fēng)險因子。新的風(fēng)險因子對決策風(fēng)險的描述更加精確,同時使得LGDNBF具有一定的可擴(kuò)展性。實(shí)驗(yàn)結(jié)果證明,LGDNBF的分類準(zhǔn)確率比傳統(tǒng)的基于最小風(fēng)險的樸素貝葉斯模型有明顯的改善。

關(guān)鍵詞:垃圾郵件過濾; 樸素貝葉斯; 最小風(fēng)險; 風(fēng)險因子

中圖分類號:TP393.098文獻(xiàn)標(biāo)志碼:A

文章編號:1001-3695(2008)04-1147-02

0引言

隨著互聯(lián)網(wǎng)的快速發(fā)展,電子郵件已經(jīng)成為人們在日常生活中信息交互的重要工具。與此同時,垃圾郵件在網(wǎng)絡(luò)上也逐漸呈現(xiàn)泛濫之勢。大量的商業(yè)郵件、政治宣傳郵件在沒有得到用戶許可的情況下發(fā)送到用戶的郵箱中,耗費(fèi)了大量的網(wǎng)絡(luò)資源、增加了用戶的使用成本。近年來垃圾郵件發(fā)送的手段更加隱蔽和狡猾,垃圾郵件的危害性更大。病毒“網(wǎng)絡(luò)釣魚”等破壞性的垃圾郵件增多。垃圾郵件已經(jīng)演變成全世界較為廣泛的網(wǎng)絡(luò)安全威脅。

反垃圾郵件過濾的主要技術(shù)有基于信件源的技術(shù),包括IP地址黑名單、HashCash、發(fā)送者政策框架(SPF)、Domain Keys技術(shù)等;基于內(nèi)容的技術(shù)主要是將數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的理論引入到垃圾郵件內(nèi)容過濾中。在基于內(nèi)容的垃圾郵件過濾方法中,樸素貝葉斯是一種簡單的機(jī)器學(xué)習(xí)方法,它通過區(qū)分垃圾郵件和合法郵件的特征進(jìn)行自學(xué)習(xí)。在新郵件到來時,由分類器根據(jù)訓(xùn)練學(xué)習(xí)的結(jié)果預(yù)測新郵件為垃圾郵件(spam)或正常郵件(ham)的可能性,將郵件歸入可能性最大的那一類。Nave Bayes以其運(yùn)算速度快、易于實(shí)現(xiàn)等特點(diǎn)在垃圾郵件過濾中得到了廣泛的應(yīng)用。

本文提出了一種新的基于最小風(fēng)險的樸素貝葉斯郵件過濾模型,即基于直線幾何分割的NBF模型。在這個模型中,郵件文本被看做是平面中的一點(diǎn),而分類器對應(yīng)一條直線,利用點(diǎn)和直線的幾何關(guān)系來決策新郵件的類型。實(shí)驗(yàn)證明,對PU系列語料的分類,該模型比傳統(tǒng)的基于最小風(fēng)險的NBF有較為明顯的改進(jìn)。

1基于最小風(fēng)險的NB過濾模型

傳統(tǒng)的NBF通常是將郵件文本形式化描述成向量E:{t1,t2,…,tn}[1,2]。其中:ti是特征詞。將郵件文本的類別定義為:c∈C={spam,ham}。NBF主要分為訓(xùn)練子系統(tǒng)和分類子系統(tǒng)兩部分。對于訓(xùn)練子系統(tǒng),首先收集一定數(shù)量的郵件訓(xùn)練集,將郵件訓(xùn)練集分為垃圾郵件和正常郵件兩部分,由分類器自己學(xué)習(xí)不同郵件類別的特征。在新郵件到來時,郵件分類器的任務(wù)就是計(jì)算出待分類郵件是c=spam的概率。如果它超過某一個閾值則認(rèn)為該郵件為垃圾郵件。

根據(jù)貝葉斯理論,未知郵件的類別概率由如下公式計(jì)算:

實(shí)驗(yàn)中對于風(fēng)險因子RFS和RFH的選取基于經(jīng)驗(yàn)和實(shí)驗(yàn)結(jié)果的對比。需要指出的是,基于用戶對正常郵件被誤判的敏感,RFH可以取一個較小的值,而RFS可以取一個較大的值。如圖3所示,直線1為分類器,它與直線2的距離為RFH,與直線3的距離為RFS。直線2和3以外的區(qū)域?yàn)榘踩珱Q策區(qū)域,以內(nèi)的區(qū)域?yàn)楦唢L(fēng)險決策區(qū)域。因此,處于安全決策區(qū)域的郵件文本點(diǎn)就可以先作出決策,而處于高風(fēng)險決策區(qū)域的郵件文本點(diǎn)可以采用分類精度更高的分類器對其進(jìn)行二次分類。從這一點(diǎn)可以看出LGDNBF模型的可擴(kuò)展性。如果考慮基于最小風(fēng)險進(jìn)行決策,也可以只考慮風(fēng)險因子RFS,即對于新郵件,計(jì)算出其所對應(yīng)的點(diǎn)(X,Y)到分類直線的距離d。若X+Z>Y,同時d>RFS,才認(rèn)為該郵件為spam;否則均認(rèn)為是ham。

表1給出了針對PU3語料NBF和LGDNBF的實(shí)驗(yàn)效果對比。其中,NBF中的λ=999。可以看出,LGDNBF在SR、SP和AC三個指標(biāo)上效果都優(yōu)于傳統(tǒng)的NBF,尤其是可以反復(fù)調(diào)整RFS值,使得SP穩(wěn)定在100%。同時,反映了本文定義的風(fēng)險因子RFS對決策風(fēng)險的描述,準(zhǔn)確度要高于傳統(tǒng)的基于最小風(fēng)險的NBF中的λ。這說明LGDNBF是一個更有效的基于最小風(fēng)險的貝葉斯郵件過濾模型。

4結(jié)束語

本文綜合分析了傳統(tǒng)的基于最小風(fēng)險的NBF模型特點(diǎn),提出基于直線幾何分割的NBF模型LGDNBF。通過實(shí)驗(yàn)證明,LGDNBF的有效性。同時,LGDNBF表現(xiàn)出一定的擴(kuò)展性,即對于處在高風(fēng)險決策區(qū)域中的郵件文本,可以在不考慮速度的情況下對其進(jìn)行二次分類,以進(jìn)一步提高分類效果。這就體現(xiàn)出本文定義兩個風(fēng)險因子RFS和RFH的優(yōu)勢。下一步的研究重點(diǎn)是建立兩層或n層的LGDNBF,進(jìn)一步提高其過濾能力;并比較研究在不同的垃圾郵件語料上RFS和RFH的值,尋求兩個風(fēng)險因子可能存在的變化規(guī)律。

參考文獻(xiàn):

[1]ANDROUTSOPOULOS I, KOUTSIAS J, CHANDR I K, et al. An evaluation of Naive Bayesian anti-spam filtering[C]//Proc of the Workshop on Machine Learning in the New Information Age, the 11th European Conference on Machine Learning (ECML’00). Barcelona:Lecture Notes in Computer Science,2000: 9-17.

[2]葉吉祥,譚冠政.一種基于AIS和Bayes網(wǎng)絡(luò)的垃圾郵件過濾算法[J].計(jì)算機(jī)工程,2006,32(11):26-28.

[3]GRAHAM P.A plan for spam [EB/OL].[2007-01-27].http://www.paulgraham.com/spam.html.

[4]李翔鷹,葉楓.一種基于多貝葉斯算法的垃圾郵件過濾方法[J].計(jì)算機(jī)工程與應(yīng)用,2006, 3 (31):114-116.

[5]段宏斌,張健.改進(jìn)的Nave Bayes技術(shù)在反垃圾郵件系統(tǒng)中的應(yīng)用[J].西北大學(xué)學(xué)報:自然科學(xué)版,2006,36(5):737-740.

[6]METSIS V, ANDROUTSOPOULOS I, PALIOURAS G. Spam filtering with Naive Bayes-Which Naive Bayes?[C]//Proc of the 2nd Conference on E-mail and AntiSpam(CEAS). California Mountain View, 2006:27-28.

[7]WITTEN L H, FRANK E. Data mining practical machine learning tools and techniques[M].2nd ed.San Francisco:Morgan Kaufmann Publishers, 2005: 88-97.

“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文”

主站蜘蛛池模板: 一本大道无码高清| 亚洲色图欧美一区| 国产chinese男男gay视频网| 影音先锋丝袜制服| 亚洲国产成人精品青青草原| 国产成人a在线观看视频| 亚洲乱码视频| 亚洲最新地址| 日日碰狠狠添天天爽| 欧美福利在线观看| 国产亚洲精| 午夜日本永久乱码免费播放片| 熟妇人妻无乱码中文字幕真矢织江| 高清色本在线www| 精品三级在线| 国产女人18水真多毛片18精品| 丁香婷婷在线视频| 2024av在线无码中文最新| 国产乱人伦精品一区二区| 免费A级毛片无码无遮挡| 亚洲成a人在线播放www| 午夜国产理论| 欧美第二区| 国产乱人伦精品一区二区| 国产精品无码一二三视频| 欧美成人h精品网站| AV老司机AV天堂| 欧美精品v日韩精品v国产精品| 91无码人妻精品一区| 国产中文一区a级毛片视频| 成人欧美日韩| 国产一级毛片网站| 国内熟女少妇一线天| 日本一本正道综合久久dvd| 国产精品夜夜嗨视频免费视频| 日韩精品一区二区深田咏美| 欧美日韩国产在线播放| 国产91精选在线观看| 综合天天色| 99热这里只有精品免费| 日本一本在线视频| 免费A级毛片无码免费视频| 久久熟女AV| 特级aaaaaaaaa毛片免费视频| 国产日韩精品欧美一区灰| 午夜毛片免费看| 四虎影视库国产精品一区| 精品欧美视频| 国产色伊人| 国产h视频在线观看视频| 亚洲欧美日韩天堂| 99尹人香蕉国产免费天天拍| 亚洲无线观看| 91福利片| 亚洲一区二区三区麻豆| 日韩av电影一区二区三区四区 | 最近最新中文字幕免费的一页| 一级片一区| 欧美怡红院视频一区二区三区| 欧美日韩在线成人| 一级爱做片免费观看久久| 九色视频一区| 就去吻亚洲精品国产欧美| 香蕉在线视频网站| 国产精品高清国产三级囯产AV| 97国产精品视频人人做人人爱| 91人人妻人人做人人爽男同| 2020极品精品国产| 伦伦影院精品一区| 国产成人精品一区二区| 国产午夜人做人免费视频中文| 久久久久久高潮白浆| 91网址在线播放| 黄色网址免费在线| 国产av一码二码三码无码| 久久国产精品电影| 九九热精品在线视频| 72种姿势欧美久久久久大黄蕉| 她的性爱视频| 91久久夜色精品| 国产视频资源在线观看| 91在线视频福利|