新的基于最小風(fēng)險的貝葉斯郵件過濾模型

2008-01-01 00:00:00王濤裘國永何聚厚

計(jì)算機(jī)應(yīng)用研究 2008年4期

摘要：分析了目前在垃圾郵件過濾中廣泛應(yīng)用的基于最小風(fēng)險的樸素貝葉斯模型，提出了一種新的基于直線幾何分割的樸素貝葉斯郵件過濾模型LGDNBF，定義了新的風(fēng)險因子。新的風(fēng)險因子對決策風(fēng)險的描述更加精確，同時使得LGDNBF具有一定的可擴(kuò)展性。實(shí)驗(yàn)結(jié)果證明，LGDNBF的分類準(zhǔn)確率比傳統(tǒng)的基于最小風(fēng)險的樸素貝葉斯模型有明顯的改善。

關(guān)鍵詞：垃圾郵件過濾；樸素貝葉斯；最小風(fēng)險；風(fēng)險因子

中圖分類號：TP393．098文獻(xiàn)標(biāo)志碼：A

文章編號：1001－3695(2008)04－1147－02

0引言

隨著互聯(lián)網(wǎng)的快速發(fā)展，電子郵件已經(jīng)成為人們在日常生活中信息交互的重要工具。與此同時，垃圾郵件在網(wǎng)絡(luò)上也逐漸呈現(xiàn)泛濫之勢。大量的商業(yè)郵件、政治宣傳郵件在沒有得到用戶許可的情況下發(fā)送到用戶的郵箱中，耗費(fèi)了大量的網(wǎng)絡(luò)資源、增加了用戶的使用成本。近年來垃圾郵件發(fā)送的手段更加隱蔽和狡猾，垃圾郵件的危害性更大。病毒“網(wǎng)絡(luò)釣魚”等破壞性的垃圾郵件增多。垃圾郵件已經(jīng)演變成全世界較為廣泛的網(wǎng)絡(luò)安全威脅。

反垃圾郵件過濾的主要技術(shù)有基于信件源的技術(shù)，包括IP地址黑名單、HashCash、發(fā)送者政策框架（SPF）、Domain Keys技術(shù)等；基于內(nèi)容的技術(shù)主要是將數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的理論引入到垃圾郵件內(nèi)容過濾中。在基于內(nèi)容的垃圾郵件過濾方法中，樸素貝葉斯是一種簡單的機(jī)器學(xué)習(xí)方法，它通過區(qū)分垃圾郵件和合法郵件的特征進(jìn)行自學(xué)習(xí)。在新郵件到來時，由分類器根據(jù)訓(xùn)練學(xué)習(xí)的結(jié)果預(yù)測新郵件為垃圾郵件（spam）或正常郵件（ham）的可能性，將郵件歸入可能性最大的那一類。Nave Bayes以其運(yùn)算速度快、易于實(shí)現(xiàn)等特點(diǎn)在垃圾郵件過濾中得到了廣泛的應(yīng)用。

本文提出了一種新的基于最小風(fēng)險的樸素貝葉斯郵件過濾模型，即基于直線幾何分割的NBF模型。在這個模型中，郵件文本被看做是平面中的一點(diǎn)，而分類器對應(yīng)一條直線，利用點(diǎn)和直線的幾何關(guān)系來決策新郵件的類型。實(shí)驗(yàn)證明，對PU系列語料的分類，該模型比傳統(tǒng)的基于最小風(fēng)險的NBF有較為明顯的改進(jìn)。

1基于最小風(fēng)險的NB過濾模型

傳統(tǒng)的NBF通常是將郵件文本形式化描述成向量E：{t1，t2，…，tn}[1，2]。其中：ti是特征詞。將郵件文本的類別定義為：c∈C={spam，ham}。NBF主要分為訓(xùn)練子系統(tǒng)和分類子系統(tǒng)兩部分。對于訓(xùn)練子系統(tǒng)，首先收集一定數(shù)量的郵件訓(xùn)練集，將郵件訓(xùn)練集分為垃圾郵件和正常郵件兩部分，由分類器自己學(xué)習(xí)不同郵件類別的特征。在新郵件到來時，郵件分類器的任務(wù)就是計(jì)算出待分類郵件是c=spam的概率。如果它超過某一個閾值則認(rèn)為該郵件為垃圾郵件。

根據(jù)貝葉斯理論，未知郵件的類別概率由如下公式計(jì)算：

實(shí)驗(yàn)中對于風(fēng)險因子RFS和RFH的選取基于經(jīng)驗(yàn)和實(shí)驗(yàn)結(jié)果的對比。需要指出的是，基于用戶對正常郵件被誤判的敏感，RFH可以取一個較小的值，而RFS可以取一個較大的值。如圖3所示，直線1為分類器，它與直線2的距離為RFH，與直線3的距離為RFS。直線2和3以外的區(qū)域?yàn)榘踩珱Q策區(qū)域，以內(nèi)的區(qū)域?yàn)楦唢L(fēng)險決策區(qū)域。因此，處于安全決策區(qū)域的郵件文本點(diǎn)就可以先作出決策，而處于高風(fēng)險決策區(qū)域的郵件文本點(diǎn)可以采用分類精度更高的分類器對其進(jìn)行二次分類。從這一點(diǎn)可以看出LGDNBF模型的可擴(kuò)展性。如果考慮基于最小風(fēng)險進(jìn)行決策，也可以只考慮風(fēng)險因子RFS，即對于新郵件，計(jì)算出其所對應(yīng)的點(diǎn)(X，Y)到分類直線的距離d。若X+Z>Y，同時d＞RFS，才認(rèn)為該郵件為spam；否則均認(rèn)為是ham。

表1給出了針對PU3語料NBF和LGDNBF的實(shí)驗(yàn)效果對比。其中，NBF中的λ=999。可以看出，LGDNBF在SR、SP和AC三個指標(biāo)上效果都優(yōu)于傳統(tǒng)的NBF，尤其是可以反復(fù)調(diào)整RFS值，使得SP穩(wěn)定在100%。同時，反映了本文定義的風(fēng)險因子RFS對決策風(fēng)險的描述，準(zhǔn)確度要高于傳統(tǒng)的基于最小風(fēng)險的NBF中的λ。這說明LGDNBF是一個更有效的基于最小風(fēng)險的貝葉斯郵件過濾模型。

4結(jié)束語

本文綜合分析了傳統(tǒng)的基于最小風(fēng)險的NBF模型特點(diǎn)，提出基于直線幾何分割的NBF模型LGDNBF。通過實(shí)驗(yàn)證明，LGDNBF的有效性。同時，LGDNBF表現(xiàn)出一定的擴(kuò)展性，即對于處在高風(fēng)險決策區(qū)域中的郵件文本，可以在不考慮速度的情況下對其進(jìn)行二次分類，以進(jìn)一步提高分類效果。這就體現(xiàn)出本文定義兩個風(fēng)險因子RFS和RFH的優(yōu)勢。下一步的研究重點(diǎn)是建立兩層或n層的LGDNBF，進(jìn)一步提高其過濾能力；并比較研究在不同的垃圾郵件語料上RFS和RFH的值，尋求兩個風(fēng)險因子可能存在的變化規(guī)律。

參考文獻(xiàn)：

[1]ANDROUTSOPOULOS I， KOUTSIAS J， CHANDR I K， et al. An evaluation of Naive Bayesian anti－spam filtering[C]//Proc of the Workshop on Machine Learning in the New Information Age， the 11th European Conference on Machine Learning (ECML’00). Barcelona:Lecture Notes in Computer Science，2000: 9－17.

[2]葉吉祥，譚冠政.一種基于AIS和Bayes網(wǎng)絡(luò)的垃圾郵件過濾算法[J].計(jì)算機(jī)工程，2006，32(11):26－28.

[3]GRAHAM P.A plan for spam [EB/OL].[2007-01-27].http://www.paulgraham.com/spam.html.

[4]李翔鷹，葉楓.一種基于多貝葉斯算法的垃圾郵件過濾方法[J].計(jì)算機(jī)工程與應(yīng)用，2006， 3 (31):114－116.

[5]段宏斌，張健.改進(jìn)的Nave Bayes技術(shù)在反垃圾郵件系統(tǒng)中的應(yīng)用[J].西北大學(xué)學(xué)報:自然科學(xué)版，2006，36(5):737－740.

[6]METSIS V， ANDROUTSOPOULOS I， PALIOURAS G. Spam filtering with Naive Bayes－Which Naive Bayes?[C]//Proc of the 2nd Conference on E－mail and AntiSpam(CEAS). California Mountain View， 2006:27－28.

[7]WITTEN L H， FRANK E. Data mining practical machine learning tools and techniques[M].2nd ed.San Francisco:Morgan Kaufmann Publishers， 2005: 88－97.

“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文”

計(jì)算機(jī)應(yīng)用研究2008年4期

計(jì)算機(jī)應(yīng)用研究的其它文章: 一種改進(jìn)的面向ＥＲＰ的工作流管理系統(tǒng); 基于Ｌｕｃｅｎｅ和ＧＭＬ／ＳＶＧ的地圖搜索引擎模型研究與實(shí)現(xiàn); 基于模型的業(yè)務(wù)流程建模平臺研究與實(shí)現(xiàn); 磁盤陣列多終端配置管理模塊設(shè)計(jì)與實(shí)現(xiàn); 兼容Ｘ８６指令的３２位乘法器的分析與設(shè)計(jì); 一種嵌入式紙幣特征采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)