999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于神經網絡集成的垃圾郵件過濾系統設計

2010-01-01 00:00:00劉寶萍李愛軍
電腦知識與技術 2010年1期

摘要:垃圾郵件的處理是電子郵件服務中非常重要的功能,該文在對標準郵件集表示為向量空間模型,降維處理處理工作的基礎上,運用神經網絡集成的方法來構造郵件分類器,對郵件進行過濾;該方法在垃圾郵件語料庫上進行了實驗,實驗證明該方法對于垃圾郵件的過濾有較好的效果。

關鍵詞:郵件過濾;預處理;特征選擇;神經網絡集成

中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2010)01-171-03

The design of Spam Filtering System Based on Neural Network Ensemble

LIU Bao-ping, LI Ai-jun

(Information Management,Shanxi University of Finance Economics,Taiyuan 030006,China)

Abstract: It is a very important function to deal with spam in the email services.On the basis of expressing the standard email corpus as the form of vector space model,and reducing the emails dimension,this paper uses neural network ensemble to construct the email classifier,then to filter the email;this method experiments on the spam corpus,it proved that the method of the spam filtering is effective.

Key words: email filtering;preprocess;feature selection;neural network ensemble

隨著Internet的普及,垃圾郵件問題日益嚴重。垃圾郵件不僅占用網絡帶寬,降低整個網絡運行效率,給用戶時間和精力造成極大浪費,而且可能侵犯收件人隱私權,成為黑客利用的工具,對現實社會造成危害。對電子郵件進行過濾是有效對付垃圾郵件的主要手段。

目前,很多研究者已經對垃圾郵件的過濾方法進行了研究,其主要的郵件過濾方法有:1)黑白名單過濾,提供實時的黑白名單服務。其優點是節省帶寬,缺點是對垃圾郵件識別率不高。2)基于規則的過濾方法,設置一些規則對郵件進行評估,郵件特征符合規則則加分,分數達到預先設定的閾值就判定為垃圾郵件。優點是易理解、推廣,缺點是依賴于不斷地更新郵件規則。3)基于統計的過濾方法,是針對郵件內容進行過濾的一種機器學習的方法,過濾正確率高,速度快,被認為是垃圾郵件處理技術中很受歡迎的一種方法[1]。這種基于機器學習的過濾方法已成為當前研究的主要方向,已有的算法包括貝葉斯分類方法、神經網絡方法、KNN方法、Winnow方法等。但如何進一步提高郵件分類的準確率成為新的研究目標。

要提高郵件分類的準確率,分類器設計就成為郵件過濾過程中極其重要的環節。目前基于機器學習的分類方法已有多種,其中,基于神經網絡的分類器是郵件分類中比較有效的方法[2]。但是,神經網絡容易限于局部極小值,造成郵件的誤分。而神經網絡集成是用有限個神經網絡對同一個問題進行學習,集成在某輸入示例下的輸出,由構成集成的各神經網絡在該示例下的輸出共同決定[3]。該方法可以顯著地提高神經網絡系統的泛化能力[4]。因此,采用神經網絡集成的方法設計郵件分類器將會進一步提高郵件分類的準確性,本文就此方面進行研究。

1 基于神經網絡集成的垃圾郵件過濾

1.1系統模型

本郵件過濾系統(如圖1)主要是針對電子郵件內容進行識別、過濾。電子郵件過濾系統主要由郵件預處理、特征選擇、分類器設計三個環節組成。本過濾系統中對郵件的處理過程:首先對郵件的原始語料庫進行預處理,把標準郵件集處理成了機器學習算法可以直接處理的向量空間模型的形式;然后利用基于信息增益(IG)的屬性選擇方法對其進行降維處理,選取合適的維數;最后利用神經網絡集成算法分別進行分類分析。

1.2 郵件預處理

為了便于郵件的過濾,對郵件數據集要進行預處理。

1.2.1 基于向量空間模型的郵件表示

本系統通過對郵件的原始語料庫進行預處理,把標準郵件集處理成了機器學習算法可以直接處理的向量空間模型的形式。具體處理步驟如下:

1) 初始情況下,先定義一個特征項集合,把郵件語料庫中所有出現的詞都作為特征項集合的候選特征,輸出一個特征項集合的字典。

2) 掃描語料庫,把語料庫中的每一封郵件都表示成維數(維數等于字典的長度)相等的向量形式,并以稀疏矩陣的形式存儲(降低內存使用量)。

3) 移除那些在語料庫中出現次數不大于4次(低頻詞),以及在每篇郵件中都出現的候選特征。這是因為低頻詞在語料庫中出現的次數太少,對分類幾乎不起作用;在每篇郵件中都出現的高頻詞,不具備區分類別的能力。這一步的特征移除可以加速特征選擇過程,進一步降低內存需求。

4) 輸出經步驟3)處理后的以向量空間模型表示的郵件數據集。

1.2.2 特征選擇

為了能有效地分析垃圾郵件的特征,要對郵件數據進行降維。對于垃圾郵件常用的特征選擇方法有:文檔頻率(Document Frequency)、信息增益(Information Gain)、互信息(Mutual Information)、 ?字2統計量(EHI)等。其中,信息增益被認為是最有效的屬性選擇方法之一[5]。因此,本文采用信息增益的方法對郵件數據集進行降低維處理,取信息增益值最大的前M個詞為特征詞。將郵件數據集進一步表示成M維的向量空間形式。信息增益表征的是特征詞t在語料庫中出現前后的信息熵之差,具體到分為垃圾郵件(spam)和正常郵件(ham)的二類問題,IG的公式如下:

其中,C1和C2分別代表合法郵件和垃圾郵件的類別;表示Ci類郵件在語料庫中所占的比率;P(t)和P(t)分別表示特征詞t 在語料中出現的概率和未出現的概率;表示t出現在Ci類中的概率;表示t未出現在Ci類中的概率。

1.3 分類器設計

在眾多關于郵件分類的研究中,主要以單分類器為主,對過濾垃圾郵件效率的進一步提高又一定的局限,而集成分類器分類效果的貢獻是非常顯著的,因此采用集成的方法可以有效地提高垃圾郵件的過濾。

集成學習目的是利用模型之間的差異性提高學習系統的泛化性能。集成實現方法的研究主要集中在兩個方面,即如何生成集成中的各個個體以及怎樣將個體的輸出結論組合。在生成集成中個體方面,最重要的技術是Boosting[6]和Bagging[7]。Boosting和Bagging是兩種用來提高學習算法準確度的方法,大量關于Boosting和Bagging的實驗和應用已證明了這兩種方法的有效性。結論的結合的方法有投票法,加權投票法以及樸素貝葉斯法等等,其中,投票法包括絕對多數投票法或相對多數投票法。通常,在對分類器進行集成時,大多采用相對多數投票法,即若輸出結果為某一分類的神經網絡的數目最多,則判定屬于該分類。

神經網絡在很多領域已得到成功的應用,其網絡模型在學習過程中容易陷入局部極小值被認為是它的主要缺點之一。然而,Perrone和Cooper[8]卻認為,這一特性對神經網絡集成泛化能力的提高起到了重要作用。因此神經網絡集成用于郵件過濾系統,能夠提高過濾系統的性能。

1.3.1集成系統中個體分類器的生成

經過實驗,系統選取RBF神經網絡作為基分類器,個體分類器的生成則采用基于樣本選擇的Boosting和Bagging。

1) Boosting算法的步驟見表1所示。

2 )Bagging算法的主要步驟見表2所示。

1.3.2 集成系統中結論的合成

Bagging采用多數投票方法進行假設的綜合,有研究表明,簡單的、不加權的投票方法是魯棒的。 Boosting對每個基分類器的分類結果根據其分類錯誤率加以權值,然后對加權后的結果投票,最常用的權值計算方法是分類正確率或其變形。

2 實驗及結果分析

2.1 語料選擇

本文選取垃圾郵件的PU系列語料 作為實驗數據。PU系列語料由希臘學者Androutsopoulos提供,其來源于提供者某個時段收到的真實電子郵件。該語料去掉了郵件的附件、HTML標記等,只保留了郵件主題和正文的純文本內容,為保護提供者的隱私,語料采用加密的形式,用不同的整數替代郵件中的每個詞干。

2.2 評價指標

垃圾郵件過濾系統的性能主要通過以下幾個指標來評價:

1) 召回率(Recall):即垃圾郵件檢出率,反映了過濾系統對垃圾郵件的發現能力,召回率越高,“漏識別”的垃圾郵件就越少。

2) 正確率(Precision):即垃圾郵件檢對率,反映了過濾系統對垃圾郵件的判對能力,正確率越大,誤判垃圾郵件的可能性越小。

3) 精確率(Accuracy):對所有郵件做出正確判斷的概率。

4) 錯誤率(Error rate):對所有郵件做出錯誤判斷的概率。

5) F值:將召回率和正確率綜合成一個指標,是召回率和正確率的調和平均值。

此外,在垃圾郵件過濾的實際過程中,我們容易想到,將合法郵件判為垃圾郵件比將垃圾郵件判為合法郵件的代價要大,本文中用混淆矩陣(Confusion Matrix)反應此代價。

2.3 實驗結果與分析

有研究者[9]用實驗證明了,PU1語料、PU2語料、PUA語料效率最好的維數分別為1000維、100維、200維。據此,本文將PU1語料、PU2語料、PUA語料分別處理成了1000維、100維、200維的向量空間模型形式。然后將處理好的數據采用的RBF神經網絡、AdaBoost(目前最流行的Boosting算法[10])、Bagging等分類算法對實例進行分類,采用十折交互驗證法(10-fold-cross-validation)作為評估方法,得到如下實驗結果,如圖2、圖3、圖4和表3所示:

圖2PU1上的試驗結果 圖3PU2上的試驗結果

上述實驗結果表明,對同一個語料庫,神經網絡集成算法較RBF神經網絡算法,提高了精確率和F值,而正確率在提高的同時召回率有所下降,召回率在提高的同時,正確率有所下降,這是判別指標本身的性質。而且,從表3的混淆矩陣,可以看出AdaBoost算法和Bagging算法較RBF算法來說,將正確郵件誤分為垃圾的郵件的概率也減少了,即代價減少了。

整體來說,評價指標值提高了,主要的原因就是神經網絡集成將經過單個訓練的神經網絡的輸出結果加以合成,采用了多數表決的方法,提高了郵件過濾的性能。實驗結果表明神經網絡集成方法對于垃圾郵件過濾的是非常有效的。

3 結論

該文重點研究了采用神經網絡集成對垃圾郵件進行過濾的方法,同時對郵件過濾系統的數據進行了預處理,經過實驗,與單分類器的過濾性能進行比較,結果證明了神經網絡集成方法可以進一步提高垃圾郵件過濾的準確率。今后的工作重點是研究郵件多標簽分類方法。

參考文獻:

[1] 蔣秋香.垃圾郵件過濾技術的發展與現狀[J].網絡與通訊安全,2007(09).

[2] 黃國玉,龍潤生.基于神經網絡的郵件分類識別模型研究[J].南京大學學報,2008(06).

[3] Sollich P,Krogh A.Learning with ensembles:How overfitting can be useful.In: Touretzky D,Mozer M,Hasselmo Meds.Advances in Neural Information Processing Systems 8,Cambridge,MA:MIT Press,1996.190-196.

[4] 周志華.神經網絡集成[J].計算機學報,2002(01).

[5] Y.Yang.A Comparative Study on Feature Selection in Text Categorization[C].Proceedings of the Fourteenth International Conference on Machine Learning,1997.

[6] Schapire R E.The strength of weak learnability.Machine Learning,1990,5(2):197-227.

[7] Breiman L.Bagging predictors.Machine Learning,1996,24(2):123-140.

[8] Perrone M P,Cooper L N.When networks disagree:Ensemble method for neural networks.In:Mammone R J ed.Artificial Neural Networks for Speech and Vision,New York:Chapman Hall,1993.126-142.

[9] 楊麗華.郵件過濾系統中預處理方法的研究與實現[J].湖北汽車工業學院學報,2007(09).

[10] I.Androutsopoulos,J.Koutsias,K.V.Chandrinos,G.Paliouras and C.D.Spyropoulos,An Evaluation of Na?ve Bayesian Anti-Spam Filtering[A].In:Proc.of the Workshop on Machine Learning in the New Information Age,11th.

主站蜘蛛池模板: 小说 亚洲 无码 精品| 久久久久亚洲精品无码网站| 欧美日韩中文字幕二区三区| 亚洲国产综合精品中文第一| 国产精品永久在线| 色国产视频| 国产精品黄色片| 国产超碰一区二区三区| 欧美日在线观看| 91小视频在线观看| 精品色综合| 国产麻豆永久视频| 精品国产成人高清在线| 亚洲成人动漫在线| 国产99视频精品免费视频7| 视频国产精品丝袜第一页| 国产特一级毛片| 亚洲AⅤ无码国产精品| 99er这里只有精品| 亚洲bt欧美bt精品| 蜜桃视频一区| 久久久噜噜噜久久中文字幕色伊伊| 欧美乱妇高清无乱码免费| 日韩久草视频| 亚洲婷婷在线视频| 国产麻豆91网在线看| 特级毛片8级毛片免费观看| 国内精品视频区在线2021| 99re免费视频| 国产高清无码第一十页在线观看| 中国国产A一级毛片| 日本三级欧美三级| 午夜小视频在线| 99re在线免费视频| 成人综合久久综合| 久久婷婷六月| 亚洲人人视频| 在线欧美日韩国产| 亚洲毛片网站| 亚洲日韩第九十九页| 午夜限制老子影院888| a毛片免费在线观看| 91在线精品免费免费播放| 久久婷婷国产综合尤物精品| www.91在线播放| 噜噜噜久久| 欧美第九页| 国产精品手机视频| 亚洲天堂网在线播放| 99青青青精品视频在线| 成人韩免费网站| 九九热精品视频在线| 亚洲国产综合自在线另类| 亚洲日韩Av中文字幕无码| 岛国精品一区免费视频在线观看| 亚洲欧美一级一级a| 国产成人高清精品免费软件| 成人国产免费| 婷婷开心中文字幕| 国产欧美高清| 666精品国产精品亚洲| 乱人伦中文视频在线观看免费| 天堂成人av| 欧美激情首页| 日韩第九页| 国产高清在线观看91精品| 亚洲欧美另类日本| 国产精品免费p区| 色哟哟精品无码网站在线播放视频| 久久精品视频一| 亚洲国产天堂久久九九九| 欧美成人综合视频| 青青极品在线| 欧美黄色a| 国产在线观看成人91 | 久久亚洲精少妇毛片午夜无码| 99热这里只有免费国产精品| 国产精品hd在线播放| 22sihu国产精品视频影视资讯| 天天色综网| 99热这里只有精品免费| 88av在线|