999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多項式樸素貝葉斯算法的垃圾郵件過濾器的設計與實現

2018-03-07 02:40:54李騰飛
科技資訊 2018年33期

李騰飛

摘 要:基于概率的樸素貝葉斯分類器因其算法復雜度低、分類精度高而被廣泛應用于垃圾郵件過濾領域。該文在對傳統樸素貝葉斯分類器進行分析的同時,結合垃圾郵件過濾的特性,設計并實現了基于多項式樸素貝葉斯算法的垃圾郵件過濾器。該過濾器引入拉普拉斯平滑因子降低合法郵件被誤判為垃圾郵件的概率,得到了較好的分類效果。實驗結果驗證了方法的有效性。

關鍵詞:垃圾郵件分類 多項式樸素貝葉斯 網格搜索 平滑因子

中圖分類號:TP393.098 文獻標識碼:A 文章編號:1672-3791(2018)11(c)-0001-03

Abstract: Probability-based naive bayes classifiers are widely used in spam filtering because of their low algorithm complexity and high classification accuracy. In this paper, the traditional naive bayes classifier is analyzed, and combined with the characteristics of spam filtering, a spam filter based on polynomial naive bayes algorithm is designed and implemented. The filter introduces a Laplacian smoothing factor to reduce the probability that a legitimate mail is misjudged as spam, and a better classification effect is obtained. The experimental results verify the effectiveness of the method.

Key Words: Spam classification; Polynomial naive bayes; Grid search; Smoothing factor

隨著互聯網的迅速發展,網絡改變了人們傳統的通訊方式[1]。電子郵件因為其方便快捷而被人們廣泛接受和使用。但是郵件系統的安全和可靠性依然是人們關注的焦點,尤其是垃圾郵件日益泛濫的問題更加值得我們去關注。根據中國網絡不良與垃圾信息舉報受理中心的數據顯示,中國網民平均每周收到的垃圾郵件達12封,全國網民每年收到的垃圾郵件總計3700億封。所以垃圾郵件嚴重干擾了正常的互聯網秩序,研究并設計有效的垃圾郵件過濾器具有非常重要的現實意義。

白名單、行為監控、黑名單以及關鍵字過濾等是目前常用的垃圾郵件過濾技術,但這些過濾技術缺乏自適應性,面對內容多變的垃圾郵件其過濾效果不夠理想。針對這一問題,面向內容的多項式樸素貝葉斯過濾器不僅具有自適應性[2],而且也可以根據用戶需求進行個性化過濾,加之其算法復雜度低、分類精度高,故而被廣泛使用。

1 樸素貝葉斯算法

1.1 貝葉斯原理在郵件過濾中的應用

18世紀英國學者貝葉斯提出了貝葉斯原理。根據貝葉斯原理,我們可以通過計算某事件已經發生過的頻率來估計該事件未來發生的概率。基于此,貝葉斯理論被廣泛應用于文本分類中。垃圾郵件過濾是文本分類中的二分類問題。在垃圾郵件過濾中,首先把收集到的非垃圾郵件和垃圾郵件劃分為訓練集和測試集,然后將訓練集中的郵件用于分類器的訓練,使用訓練好的貝葉斯分類器對測試集的郵件進行分類,最終將該待分類歸為概率最大的類別中去,從而準確地對垃圾郵件進行過濾[3]。

1.2 樸素貝葉斯分類器

其中:P和r分別為類別ci的正確率和召回率,TP為被正確判定為類別ci的文本數量,FP為被分類器錯誤判定為類別ci的文本的數量,FN為實際屬于類別ci但被分類器判定為其他類別的文本數量。現實中,我們并不希望非郵件被錯誤劃分為垃圾郵件,也就是說在垃圾郵件分類過程中我們希望的FP值為0,即式(7)的值為1。表1列出了不同平滑因子對應的正確率、召回率和精確率;表2列出了精確率為1時對應的平滑因子、正確率和召回率。

從實驗結果中可以看出,改變平滑因子的大小會對分類結果產生顯著影響。當取16.4、16.5、16.6或16.7時,對應的精確率為1,且此時的正確率和召回率均不變。

4 結語

本文描述了一種基于多項式樸素貝葉斯算法的垃圾郵件過濾器的設計與實現方法,該方法包括數據集預處理、特征工程、分類器分類和分類性能評估4個部分。數據集預處理是指將數據讀入計算機內并劃分訓練集和測試集,同時進行分詞和去停用詞操作;特征工程把預處理后的特征詞轉化為對應的特征向量;使用特征向量訓練多項式樸素貝葉斯分類器,把訓練好的分類器應用在測試集上;最后使用正確率、召回率和精確率評估分類性能。實驗結果表明該系統實現了較高精度的垃圾郵件分類,并且可以保證所有非垃圾郵件都能被正確分類。

參考文獻

[1] 周文霞.現代文本分類技術研究[J].武警學院學報,2007,23(12):93-96.

[2] 王國才.樸素貝葉斯的研究與應用[D].重慶交通大學,2010.

[3] 謝小民.基于樸素貝葉斯的垃圾郵件過濾算法設計研究[J].電子技術與軟件工程,2014(15):42-43.

[4] 張龍飛.基于互信息的樸素貝葉斯改進模型研究[D].吉林大學,2010.

[5] 楊赫,孫廣路,何勇軍.基于樸素貝葉斯模型的垃圾郵件過濾技術[J].哈爾濱理工大學學報,2014(1:49-53.

[6] 陸旭.文本挖掘中若干關鍵問題研究[M].北京:中國科學技術大學出版社,2008.

[7] 尚文倩.文本分類及其相關技術研究[D].北京交通大學,2007.

主站蜘蛛池模板: 97se亚洲综合在线| 亚洲人成网站18禁动漫无码 | 日韩视频免费| 亚洲国产91人成在线| 99精品国产高清一区二区| 波多野结衣第一页| 黄色污网站在线观看| 国产在线八区| 热re99久久精品国99热| 国产va视频| 婷婷色在线视频| 日韩午夜片| 亚洲日韩久久综合中文字幕| 88av在线| 91国内在线观看| 毛片视频网| a网站在线观看| 日本亚洲欧美在线| 日韩天堂网| 欧美午夜精品| 国产91av在线| 亚洲日韩AV无码一区二区三区人| 在线国产你懂的| 热这里只有精品国产热门精品| 国产丰满大乳无码免费播放| 精品久久久久久中文字幕女| av尤物免费在线观看| 香蕉视频在线精品| 99在线观看视频免费| 99热这里只有成人精品国产| 亚洲天堂免费观看| 思思99思思久久最新精品| 香蕉在线视频网站| 538国产视频| 狠狠色丁婷婷综合久久| 亚洲日本中文字幕天堂网| 91无码人妻精品一区| 69国产精品视频免费| 亚洲天堂伊人| 亚洲第一成网站| 亚洲一区二区三区香蕉| 天堂岛国av无码免费无禁网站| 97超碰精品成人国产| 国产熟女一级毛片| 午夜国产小视频| 99热国产这里只有精品9九| 亚洲精品片911| 欧美激情第一欧美在线| 伊人天堂网| 有专无码视频| 性视频一区| 在线a网站| 少妇精品久久久一区二区三区| 国产精品开放后亚洲| 欧美一级专区免费大片| 九九热在线视频| 欧美成一级| 国产精品欧美日本韩免费一区二区三区不卡 | 久久青草视频| 天天摸天天操免费播放小视频| 亚洲精品免费网站| 午夜啪啪网| 国产91麻豆免费观看| h视频在线播放| 免费Aⅴ片在线观看蜜芽Tⅴ| 国产丝袜无码精品| 99性视频| 免费欧美一级| 伊人久久大线影院首页| 亚洲男人天堂2020| 国产精品一线天| 中文字幕1区2区| 色亚洲成人| 国产丝袜啪啪| 在线欧美日韩| 色婷婷天天综合在线| 国产福利不卡视频| 999精品视频在线| 精品亚洲国产成人AV| 久草网视频在线| 国产精品v欧美| 四虎精品黑人视频|