999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

樸素貝葉斯算法在垃圾郵件過濾中的應用

2013-12-31 00:00:00趙學民
中國電子商情 2013年18期

引言:垃圾郵件嚴重影響了正常的網絡通信和商務活動,給網民造成了巨大的經濟損失。

本文將樸素貝葉斯算法運用于郵件分類,設計和實現了基于樸素貝葉斯算法的郵件過濾器,能夠實現郵件的過濾和識別功能,具有高效、經濟的優點,應用于垃圾郵件過濾領域可以明顯提高過濾的效果。

因特網的快速發展和應用使電子郵件已經成為人們生活和工作不可缺少的工具。但是,隨著而來出現了大量的垃圾郵件。據中國互聯網協會反垃圾郵件中心發布的《2012年中國反垃圾郵件狀況調查報告》顯示,中國網民每周收到垃圾郵件數量為15.3封,平均每周收到垃圾郵件比例為34.7%,用戶平均每周需要花費7.3分鐘來處理垃圾郵件。垃圾郵件不但給用戶帶來了不便,而且嚴重影響了正常的網絡通信和商務活動。本文將樸素貝葉斯算法用于垃圾郵件過濾,因此,研究有效的垃圾郵件過濾器具有很重要的現實意義。

1.反垃圾郵件技術

1.1電子郵件原理

電子郵件與普通郵件原理相似,郵件先根據發信者的地址存入發送服務器,發送服務器根據收件人者的郵件地址把郵件傳到收件方服務器,收信人登錄郵箱時,收件方服務器會把郵件送入收件人郵箱。具體的傳送過程如下:發信人利用客戶端軟件寫好郵件,客戶端軟件利用SMTP協議將要發送的郵件發送到本地的郵件服務器,接著本地服務器查看收信人的郵件地址,如果收信人的地址不在本郵件服務器,那么本郵件服務器就將本郵件發往相鄰的郵件服務器或直接發往目標郵件服務器里。如果用戶使用客戶端查看郵件內容,客戶端軟件使用POP協議從郵件服務器取得郵件內容,用戶才能查看。

1.2反垃圾郵件技術

目前,主要存在反向查詢、挑戰、密碼技術和過濾等四種辦法減少垃圾郵件的產生。反向查詢類似黑白名單,可以智能地識別哪些是偽造的郵件,哪些是合法的郵件,能從很大程度上解決垃圾郵件問題。挑戰是通過延緩郵件處理過程來阻礙大量郵件發送者。采用密碼技術采用證書方式來驗證郵件發送者的方案,如果沒有適當的證書,就可以認為是偽造垃圾郵件。反向查詢、挑戰和密碼技術實現起來較為復雜。而過濾是一種最簡單卻很直接的處理垃圾郵件技術,主要用于接收系統來辨別和處理垃圾郵,通過在郵件服務器上安裝反垃圾郵件插件、反垃圾郵件網關和在客戶端上安裝反垃圾郵件插件,但存在漏報和誤報的可能。貝葉斯技術過濾技術準確性高、誤報率低,具有能夠根據新來的郵件進行調整自主學習的能力。將其用用于過濾垃圾郵件是高效經濟解決垃圾郵件的技術之一。

2.貝葉斯過濾原理

貝葉斯是統計學上用來隨機事件A和B的條件概率(或邊緣概率)的一則定理。P(A|B) 和P(B|A)用來描述兩個條件概率之間的關系,P(A|B)表示的是在B發生的情況下A發生的可能性。P(A)稱為先驗概率,即在B事件發生之前對A事件概率的一個判斷。P(A|B)稱為后驗概率,即在B事件發生之后對A事件概率的重新評估。P(B|A)/P(B)稱為\"可能性函數\",這是一個調整因子,使得預估概率更接近真實概率。貝葉斯定理的描述如下[3]:對于一個統計試驗ε,樣本中間S是所有可能結果的集合,并且{B1,B2....Br}是S的一個劃分,令{P(A):A?S}表示定義在s中所有事件上的一個概率分布,則對于s中的任意事件A和B,都有P(A)>0, P(B|A)=P(∩B)/P(A)表示條件概率,貝葉斯定理表示如下:

P(Bi|A)=P(A|Bi)*P(Bi)/P(A) (i=1,2,3……,r)

將貝葉斯算法運用于垃圾郵件過濾時, 首先要收集大量的垃圾郵件和非垃圾郵件,建立垃圾郵件集和非垃圾郵件集;其次是提取垃圾郵件集和非垃圾郵件集特征來源中的獨立字符串TOKEN,并統計提取出其出現的次數即字頻;第三是對垃圾郵件和非垃圾郵件個建立一個哈希表,表中是各獨立字符串到字頻的映射關系;第四是計算每個哈希表中TOKEN串出現的概率,根據概率推斷出當新來的郵件中出現某個TOKEN串時,該新郵件為垃圾郵件的概率。同時將新到達的郵件重新經過貝葉斯過濾器分析,通過使用各個特征來計算郵件是spam的概率。通過不斷的分析,過濾器也不斷地獲得自更新。從而使得貝葉斯過濾器就具有了自適應能力,能夠處理新的陌生郵件,所接收到的垃圾郵件數量越多,準確率就越高

3.基于樸素貝葉斯算法的垃圾郵件過濾系統

3.1 系統流程

該系統的工作流程是將已知類別的郵件集作為訓練樣本,分類器進行訓練;當有新的郵件到來時,分類器將該郵件的特征詞與特征詞庫中的特征詞進行匹配,若匹配成功則記錄該詞的權重,最后從未知郵件中存在于特征詞庫的所有特征詞中選取一定數目的單詞,將它們權重進行相乘,得到該郵件屬于垃圾郵件的權重,若權重值大于給定闕值,則判斷該郵件為垃圾郵件,否則為正常郵件。

3.2系統實現

系統采用Java+ MyEclipse編程實現,具體包括預處理模塊、過濾模塊、數據模塊和數據模塊組成。

3.2.1預處理模塊

預處理模塊包括郵件內容提取、郵件解碼實現、中文分詞實現、特征值提取、生成特征詞庫等。郵件內容提取主要是提取電子郵件的郵件頭和郵件體,郵件頭包含發件人地址、收件人地址、發送時間、郵件主題、郵件ID等信息。本模塊通過分析電子郵件的字段得到該郵件的郵件體內容。中文分詞模塊采用機械匹配法,將詞典文件讀入并構造為一個哈希詞典。根據字符串匹配的結果,提取特征值,進而生成特征詞庫。

3.2.2過濾模塊

過濾模塊是整個系統的核心,其主要功能是通過貝葉斯文本分類技術對郵件進行處理,進而判斷郵件是否是垃圾郵件,并對結果進行分類處理。具體實現步驟如下:

(1)收集一定數量的垃圾郵件和正常郵件,建立一組正常郵件集和一組垃圾郵件集

(2)對郵件的內容進行解析,并提取關鍵詞,統計其出現的次數。

(3)建立兩個哈希表分別用于存儲垃圾郵件集和正常郵件集中的關鍵詞和出現的次數。Java語言提供了不同類型的哈希表,在此采用了效率高的HashMap,把關鍵詞作為HashMap的關鍵字,并把該關鍵詞出現的次數作為HashMap相應的關鍵詞的值。

(4)計算每一個關鍵詞的概率

(5)對于要判定的郵件,提取關鍵詞并計算這些關鍵詞的聯合概率

(6)設定一個判斷垃圾郵件的闕值,若計算出的聯合概率大于該值,則判定為垃圾郵件。反之,則判定為正常郵件。

3.2.3數據模塊

數據模塊包括系統中所用的詞典、關鍵詞表、訓練樣本集等信息。分詞詞典直接影響到算法的性能和運行的時間。系統采用HashMap構造一個中文詞典。HashMap是基于哈希表的Map接口的實現,HashMap類與Hashtable類大致相同,可以提供所有可選的映射操作,進而構造出關鍵詞表和訓練樣本集。

3.2.4訓練模塊

訓練模塊模塊的主要作用訓練出特征詞庫,形成系統的自學習自適應功能。本系統中采用100封正常郵件和100封垃圾郵件作為訓練樣本集,通過統計關鍵詞在每個郵件集中出現的頻率來計算該詞的先驗概率,然后將所有關鍵詞和先驗概率寫入數據詞典中,最后導出特征詞庫。

4.結束語

采用Java+MyEclipse設計實現的基于樸素貝葉斯算法的郵件過濾系統具有郵件過濾、添加合法(非法)郵件集等功能,可以對手機短信和郵箱郵件等進行分類。與傳統的垃圾郵件過濾技術相比,具有高效、經濟的優點,樸素貝葉斯算法用于垃圾郵件過濾可以明顯提高過濾的效果。

參考文獻

[1]垃圾郵件 [EB/OL] http://baike.baidu.com/view/1522.htm.

[2] 趙凡.基于貝葉斯算法的垃圾郵件過濾系統的研究與發現[D].成都:電子科技大學,2010.05.

[3]鄭煒.基于改進樸素貝葉斯算法的垃圾郵件過濾器的研究[J] -《西北工業大學學報》 2010.4.

作者簡介

趙學民,(1977-),男,碩士,講師,研究方向網絡安全。

(作者單位:鄭州航空工業管理學院 )

主站蜘蛛池模板: 欧美成人综合在线| 九月婷婷亚洲综合在线| 精品亚洲麻豆1区2区3区| 国产女人水多毛片18| 国产91导航| 在线观看网站国产| 国产三级国产精品国产普男人| 成人一级黄色毛片| 久久夜色精品| 免费一级毛片不卡在线播放| 色成人亚洲| 亚洲an第二区国产精品| 欧洲日本亚洲中文字幕| 精品久久久久成人码免费动漫| 亚洲va欧美ⅴa国产va影院| 伊人久久久久久久| 青青操视频在线| 天天综合色网| 亚欧成人无码AV在线播放| 婷婷久久综合九色综合88| 亚洲精品无码人妻无码| 亚洲黄色激情网站| 黄色网站不卡无码| 国产一二视频| 国产真实乱人视频| 伊人久综合| 五月天综合网亚洲综合天堂网| 国产精品亚洲αv天堂无码| 激情视频综合网| 亚洲国产精品日韩欧美一区| 国产精品蜜臀| 国产亚洲精品无码专| 国产成人免费视频精品一区二区| 日本成人福利视频| 国产理论精品| 国产成人AV综合久久| 国产精品熟女亚洲AV麻豆| 成人第一页| 天天爽免费视频| 99这里精品| 波多野结衣视频网站| 国产欧美日韩综合一区在线播放| 国产精品私拍99pans大尺度| 成人福利在线视频免费观看| 一区二区午夜| 91精品视频在线播放| 亚洲人成网站在线观看播放不卡| 久草视频一区| 久久精品国产亚洲AV忘忧草18| 欧美一级在线| 午夜成人在线视频| 乱系列中文字幕在线视频| 香蕉eeww99国产在线观看| 日本成人精品视频| 69免费在线视频| 国产美女无遮挡免费视频网站| 国产真实乱人视频| 久久中文字幕不卡一二区| 欧美不卡在线视频| a级毛片一区二区免费视频| 久草热视频在线| 91福利在线观看视频| 91免费国产在线观看尤物| 高潮毛片免费观看| 久久久精品国产SM调教网站| 国产激爽大片高清在线观看| 91娇喘视频| 91av国产在线| 无码专区在线观看| 天天躁日日躁狠狠躁中文字幕| 国产精品内射视频| 色天天综合久久久久综合片| 欧美日韩国产在线观看一区二区三区| 日韩精品无码免费专网站| 在线国产欧美| 青草视频免费在线观看| 日本少妇又色又爽又高潮| 亚洲an第二区国产精品| 91网在线| 99久久精品国产综合婷婷| 欧洲成人在线观看| 777午夜精品电影免费看|