摘要:分析了目前在垃圾郵件過濾中廣泛應(yīng)用的基于最小風(fēng)險的樸素貝葉斯模型,提出了一種新的基于直線幾何分割的樸素貝葉斯郵件過濾模型LGDNBF,定義了新的風(fēng)險因子。新的風(fēng)險因子對決策風(fēng)險的描述更加精確,同時使得LGDNBF具有一定的可擴(kuò)展性。實(shí)驗(yàn)結(jié)果證明,LGDNBF的分類準(zhǔn)確率比傳統(tǒng)的基于最小風(fēng)險的樸素貝葉斯模型有明顯的改善。
關(guān)鍵詞:垃圾郵件過濾; 樸素貝葉斯; 最小風(fēng)險; 風(fēng)險因子
中圖分類號:TP393.098文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2008)04-1147-02
0引言
隨著互聯(lián)網(wǎng)的快速發(fā)展,電子郵件已經(jīng)成為人們在日常生活中信息交互的重要工具。與此同時,垃圾郵件在網(wǎng)絡(luò)上也逐漸呈現(xiàn)泛濫之勢。大量的商業(yè)郵件、政治宣傳郵件在沒有得到用戶許可的情況下發(fā)送到用戶的郵箱中,耗費(fèi)了大量的網(wǎng)絡(luò)資源、增加了用戶的使用成本。近年來垃圾郵件發(fā)送的手段更加隱蔽和狡猾,垃圾郵件的危害性更大。病毒“網(wǎng)絡(luò)釣魚”等破壞性的垃圾郵件增多。垃圾郵件已經(jīng)演變成全世界較為廣泛的網(wǎng)絡(luò)安全威脅。
反垃圾郵件過濾的主要技術(shù)有基于信件源的技術(shù),包括IP地址黑名單、HashCash、發(fā)送者政策框架(SPF)、Domain Keys技術(shù)等;基于內(nèi)容的技術(shù)主要是將數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的理論引入到垃圾郵件內(nèi)容過濾中。在基于內(nèi)容的垃圾郵件過濾方法中,樸素貝葉斯是一種簡單的機(jī)器學(xué)習(xí)方法,它通過區(qū)分垃圾郵件和合法郵件的特征進(jìn)行自學(xué)習(xí)。在新郵件到來時,由分類器根據(jù)訓(xùn)練學(xué)習(xí)的結(jié)果預(yù)測新郵件為垃圾郵件(spam)或正常郵件(ham)的可能性,將郵件歸入可能性最大的那一類。Nave Bayes以其運(yùn)算速度快、易于實(shí)現(xiàn)等特點(diǎn)在垃圾郵件過濾中得到了廣泛的應(yīng)用。
本文提出了一種新的基于最小風(fēng)險的樸素貝葉斯郵件過濾模型,即基于直線幾何分割的NBF模型。在這個模型中,郵件文本被看做是平面中的一點(diǎn),而分類器對應(yīng)一條直線,利用點(diǎn)和直線的幾何關(guān)系來決策新郵件的類型。實(shí)驗(yàn)證明,對PU系列語料的分類,該模型比傳統(tǒng)的基于最小風(fēng)險的NBF有較為明顯的改進(jìn)。
1基于最小風(fēng)險的NB過濾模型
傳統(tǒng)的NBF通常是將郵件文本形式化描述成向量E:{t1,t2,…,tn}[1,2]。其中:ti是特征詞。將郵件文本的類別定義為:c∈C={spam,ham}。NBF主要分為訓(xùn)練子系統(tǒng)和分類子系統(tǒng)兩部分。對于訓(xùn)練子系統(tǒng),首先收集一定數(shù)量的郵件訓(xùn)練集,將郵件訓(xùn)練集分為垃圾郵件和正常郵件兩部分,由分類器自己學(xué)習(xí)不同郵件類別的特征。在新郵件到來時,郵件分類器的任務(wù)就是計(jì)算出待分類郵件是c=spam的概率。如果它超過某一個閾值則認(rèn)為該郵件為垃圾郵件。
根據(jù)貝葉斯理論,未知郵件的類別概率由如下公式計(jì)算:
實(shí)驗(yàn)中對于風(fēng)險因子RFS和RFH的選取基于經(jīng)驗(yàn)和實(shí)驗(yàn)結(jié)果的對比。需要指出的是,基于用戶對正常郵件被誤判的敏感,RFH可以取一個較小的值,而RFS可以取一個較大的值。如圖3所示,直線1為分類器,它與直線2的距離為RFH,與直線3的距離為RFS。直線2和3以外的區(qū)域?yàn)榘踩珱Q策區(qū)域,以內(nèi)的區(qū)域?yàn)楦唢L(fēng)險決策區(qū)域。因此,處于安全決策區(qū)域的郵件文本點(diǎn)就可以先作出決策,而處于高風(fēng)險決策區(qū)域的郵件文本點(diǎn)可以采用分類精度更高的分類器對其進(jìn)行二次分類。從這一點(diǎn)可以看出LGDNBF模型的可擴(kuò)展性。如果考慮基于最小風(fēng)險進(jìn)行決策,也可以只考慮風(fēng)險因子RFS,即對于新郵件,計(jì)算出其所對應(yīng)的點(diǎn)(X,Y)到分類直線的距離d。若X+Z>Y,同時d>RFS,才認(rèn)為該郵件為spam;否則均認(rèn)為是ham。
表1給出了針對PU3語料NBF和LGDNBF的實(shí)驗(yàn)效果對比。其中,NBF中的λ=999。可以看出,LGDNBF在SR、SP和AC三個指標(biāo)上效果都優(yōu)于傳統(tǒng)的NBF,尤其是可以反復(fù)調(diào)整RFS值,使得SP穩(wěn)定在100%。同時,反映了本文定義的風(fēng)險因子RFS對決策風(fēng)險的描述,準(zhǔn)確度要高于傳統(tǒng)的基于最小風(fēng)險的NBF中的λ。這說明LGDNBF是一個更有效的基于最小風(fēng)險的貝葉斯郵件過濾模型。
4結(jié)束語
本文綜合分析了傳統(tǒng)的基于最小風(fēng)險的NBF模型特點(diǎn),提出基于直線幾何分割的NBF模型LGDNBF。通過實(shí)驗(yàn)證明,LGDNBF的有效性。同時,LGDNBF表現(xiàn)出一定的擴(kuò)展性,即對于處在高風(fēng)險決策區(qū)域中的郵件文本,可以在不考慮速度的情況下對其進(jìn)行二次分類,以進(jìn)一步提高分類效果。這就體現(xiàn)出本文定義兩個風(fēng)險因子RFS和RFH的優(yōu)勢。下一步的研究重點(diǎn)是建立兩層或n層的LGDNBF,進(jìn)一步提高其過濾能力;并比較研究在不同的垃圾郵件語料上RFS和RFH的值,尋求兩個風(fēng)險因子可能存在的變化規(guī)律。
參考文獻(xiàn):
[1]ANDROUTSOPOULOS I, KOUTSIAS J, CHANDR I K, et al. An evaluation of Naive Bayesian anti-spam filtering[C]//Proc of the Workshop on Machine Learning in the New Information Age, the 11th European Conference on Machine Learning (ECML’00). Barcelona:Lecture Notes in Computer Science,2000: 9-17.
[2]葉吉祥,譚冠政.一種基于AIS和Bayes網(wǎng)絡(luò)的垃圾郵件過濾算法[J].計(jì)算機(jī)工程,2006,32(11):26-28.
[3]GRAHAM P.A plan for spam [EB/OL].[2007-01-27].http://www.paulgraham.com/spam.html.
[4]李翔鷹,葉楓.一種基于多貝葉斯算法的垃圾郵件過濾方法[J].計(jì)算機(jī)工程與應(yīng)用,2006, 3 (31):114-116.
[5]段宏斌,張健.改進(jìn)的Nave Bayes技術(shù)在反垃圾郵件系統(tǒng)中的應(yīng)用[J].西北大學(xué)學(xué)報:自然科學(xué)版,2006,36(5):737-740.
[6]METSIS V, ANDROUTSOPOULOS I, PALIOURAS G. Spam filtering with Naive Bayes-Which Naive Bayes?[C]//Proc of the 2nd Conference on E-mail and AntiSpam(CEAS). California Mountain View, 2006:27-28.
[7]WITTEN L H, FRANK E. Data mining practical machine learning tools and techniques[M].2nd ed.San Francisco:Morgan Kaufmann Publishers, 2005: 88-97.
“本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文”