摘要:電子郵件服務現已成為現代生活通信中不可缺少的一部分,也是Internet服務的一個主要的組成部分。但是垃圾郵件的蔓延給用戶帶來了嚴重的損失,如何防范垃圾郵件具有重要的實用意義。本文簡單的介紹了幾種常用的郵件過濾技術并分析比較了各種技術的優缺點。
關鍵詞:垃圾郵件;過濾;貝葉斯;支持向量機
中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2008)16-21218-03
Research and Development of Keeping Away Spam Technique
HUANG Quan1,2
(1.Computer Department,Hunan Institute of Humanities,Science and Technology,Loudi 417000,China; 2.Hunan University,Changsha 4100820,China)
Abstract:E-Mail has become indispensability part of our life, it's also mainly consitute part of internet.However,the spread of junk mail has bring people serous loss. It's meaningful to keep away the junk mail. This article has introduced some useful methods to solve the problem,and also analyed and compared these methods' strongpoint and shortcoming.
Key words:Spam;Filtering;Bayes;Support Vector Machin
隨著Internet越來越深入到日常生活中,電子郵件其高速快捷、操作簡單、價格低廉的特點也越來越受到人們的青睞。電子郵件已成為現在最為常用的通信方式之一,可隨之而來的是垃圾郵件(SPAM)的泛濫。如何防范垃圾郵件已成為電子郵件研究熱點之一。
1 垃圾郵件的定義及其危害
根據《中國互聯網協會反垃圾郵件規范》對垃圾郵件的定義為:(1)收件人事先沒有提出要求或者同意接收的廣告、電子刊物、各種形式的宣傳品等宣傳性的電子郵件;(2)收件人無法拒收的電子郵件;(3)隱藏發件人身份、地址、標題等信息的電子郵件;(4)含有虛假的信息源、發件人、路由等信息的電子郵件。普通的未經用戶許可而發送大量的出于商業宣傳、政治和色情的非正常目的的郵件和病毒郵件均屬于垃圾郵件的范籌[1]。
垃圾郵件一般具有發件IP固定;發件人不固定;主題、同容、附件有著相對的隨機性;在不同的時間段內所發送的內容不固定等特點。
垃圾郵件的泛濫給人們的日常生活帶來了及大的危害。首先,由于垃圾郵件發送量的巨大占用了大量的傳輸、存儲和計算資源,造成了郵件服務器的擁堵,降低了網絡的使用效率;其次,垃圾郵件嚴重的干擾了收件人的正常生活,侵犯了收件人的個人隱私,耗費了收件人的時間、精力和金錢;第三,嚴重的影響了我國郵件服務商的形象,國外曾大量封殺我國的IP地址就是垃圾郵件帶來的直接危害之一;最后,垃圾郵件極容易被黑客所利用,成為攻攻擊網絡的一個有力的跳板,更加值得注意的是利用垃圾郵件來傳播反動、色情等信息,已對現實社會效造成了危害。
2 常用技術的介紹
目前,針對對抗垃圾郵件最常用的技術是采用郵件過濾技術。郵件過濾從電子郵件體系結構來分可分成:郵件傳輸代理(MTA)過濾、郵件投遞代理(MDA)過濾、郵件用戶代理(MUA)過濾[2]。垃圾郵件的過濾一般從二個方面入手實現:一是基于服務器端的郵件過濾,二是基于客戶端的郵件過濾。
2.1 基于地址的郵件過濾技術
由于每個郵件都有一個發送地址,所以根據郵件的發送地址或是IP、域名來進行郵件過濾 已成為最為成熟的一種技術。這種技術的最典型的代表就是實時黑名單法。這種方法就是建立起一個基于用戶投訴或采集積累的由域名或IP組成的數據庫,數據庫中保存的域名或IP均是非法的。當郵件傳輸時供MTA進行查詢,一但發現需傳輸的郵件域名或IP與數據庫中的數據相符合則認為是垃圾郵件給予拒絕傳輸。這種方法很直觀,技術方面也很容易實現,但也存在著缺點,比如說域名和IP地址收集不完整,數據庫的及時更新等。
2.2 反向域名驗證技術
當MTA接收到MUA或是上一MTA傳送過來的郵件,并不是立即進行傳送,而是利用郵件信頭查找郵件的IP地址并采用反向DNS檢查其地址的真實性。如果反向DNS提供的域名與IP相符合則認為是合法的郵件,反之則認為是垃圾郵件。例如:一封聲稱的名字為www.yahoo.com,而其連接地址為20.200.200.200,與其DNS記錄不符,則予以拒收。這種方法用來檢測利用域名偽造的方式來發送的垃圾郵件優勢比較明顯。但由于各方面的原因,很多反向DNS目錄沒有被建立或無法正常建立,而造成了較高的誤報率。
2.3 基于規則(關鍵字)的郵件過濾技術
這種過濾技術就是在郵件內容中查找一些特定的內容,比如一些特定的字眼如:“免費”、“sex”、“法輪功”等。通過與事先定下的規則來比較來確定是否為垃圾郵件。這種技術的優點在于:規則的多樣性及共享性,推廣性強。在文獻[2]中,作者設計了一個基于關鍵字的郵件過濾模型(圖1)。這種模型能將關鍵詞庫和過濾規則庫相結合,對垃圾郵件進行過濾。這種過濾技術比較有效實用,但其缺點也相當的明顯:一、由于規則是通過人工編寫的,規則的更新速度成為制約這項技術發展的瓶頸;二、由于在自然語言中存在著多義詞和同義詞,也是使這項技術有著其固有的缺陷。從現在的趨勢可以看出,新規則的推出總是落后于垃圾郵件新品種的出現。
圖1 基于規則(關鍵字)的郵件過濾模型
2.4 基于機器統計學習的文本分類郵件過濾技術
這種技術目前是郵件過濾技術的主流,常見的方法有:貝葉斯(Bayes)分類器、支持向量機(SVM)、K近鄰算法(k-Nearest Neighbor)等。這類技術訓練的過程其實質就是一個統計學習的過程。
2.4.1 貝葉斯分類算法
貝葉斯算法是目前較為常用的一種分類算法,其最基本的的形式為樸素貝葉斯分類器。這種算法的基本思想是將郵件分成垃圾郵件和合法郵件兩類,通過計算收到的郵件屬于某個類別的概率來判別其是否為垃圾郵件[3]。計算時主要利用貝葉斯公式:
■
利用這種方法,用戶可以根據自己的需要提供一定數量的垃圾郵件和非垃圾郵件,根據訓練集自動訓練,訓練結果反映訓練集的性質這一特性來進行過濾器的設置。利用這種特性,發展了多種基于貝葉斯分類器的郵件過濾技術,比如文獻[4]中以貝葉斯過濾為基礎,加以規則過濾設計了一種基于貝葉斯的郵件過濾模型(圖2),又如文獻[5]利用貝葉斯分類建立了一個基于有監督Bayesian網絡的垃圾郵件過濾,并給出了基于垃圾郵件特征的完備Bayesian網絡結構圖(圖3)。由于所提供訓練集的多樣性導致過濾器的設置也具有其獨特性,意味著垃圾郵件制造者根本無法猜測用戶的過濾器是如何配置的,也就能很好的過濾垃圾郵件。
圖2 基于貝葉斯的郵件過濾模型框架圖圖3 基于垃圾郵件特征的完備Bayesian網絡結構圖
2.4.2 基于支持向量機的算法
支持向量機(SVM)方法是一種基于結構風險最小化的模式識別方法,SVM方法是從線性可分情況下的最優分類面(Optimal Hyperplane)提出的,所謂最優分類面就是要求分類面不但能將兩類無錯地分開,而且要使兩類的分類空隙(margin)最大,過兩類樣本中離分類面最近的點且平行于最優分類面的超平面上的訓練樣本就稱為支持向量(Support Vectors)。其問題的數學形式為:
■
支持向量機的基本思想可以總結為:首先將輸入空間轉換到一個新的空間,然后再在這個新空間中來求最優線性分類面。SVM是一種能在訓練樣本很小的情況下達到很好分類推廣能力的算法,能做到與數據的維數無關[6]。文獻[7]采用支持向量機的技術設計了一種郵件過濾的模型(圖4),并達到了較好的效果。
3 結束語
隨著垃圾郵件的泛濫,垃圾郵件過濾技術也在不斷發展,產生了許多新的對付垃圾郵件方法,例如文獻[8]中提出的利用別名機制建立的一個垃圾郵件過濾系統來過濾垃圾郵件等等,但是由于垃圾郵件方式的多樣化,加之過濾技術的相對不成熟,使得現有的過濾方法不僅會漏掉一些垃圾郵件,還存在著相對較高的“錯糾率”,這是用戶所不希望看到的,也是垃圾郵件過濾技術需要改的方向。
防范垃圾郵件要將目前的各項技術結合起來使用,從郵件的傳輸機制入手,層層過濾。并且要加強用戶端的過濾力度。當然要根治垃圾郵件不僅僅只能出發展過濾技術出發,國家出臺相關的法律法規從源頭上對垃圾郵件的制造者進行法律的制裁也是一個重要的方面。只有法律和技術二方面同時出擊,才能根治垃圾郵件。
參考文獻:
[1] 石艷榮.反垃圾郵件技術[J].內蒙古石油化工,2006,(1):70-71.
[2] 胡永杰,卜紅霞.垃圾郵件過濾技術研究[J].河北師范大學學報(自然科學版),2006,30(2):158-160.
[3] 張羿,周建國,晏蒲柳.垃圾郵件過濾系統的研究與實現[J].計算機工程,2006,32(18):106-108.
[4] 肖旻,劉曉璐,屠立忠.基于貝葉斯分類的郵件過濾方法及模型研究[J].南京師范大學學報(工程技術版),2006,6(2):86-89.
[5] 劉震,周明天.基于有監督Bayesian網絡的垃圾郵件過濾[J].計算機應用,2006,26(3):558-561
[6] 劉江華,程君實,陳佳品.支持向量機算法綜述[J].信息與控制,2002,31(1):45-49.
[7] 王清翔,廣凱,潘金貴.基于向量機的郵件過濾[J].計算機科學,2007,34(9):93-94
[8] Jacek Maitan.Fighting the Spam Wars:A Remailer Approach with Restrictive Aliasing[J].ACM Transactions on Internet Technology,Vol.4,No.1,February 2004.
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。