摘要:在基于內容的反垃圾郵件技術中,基于貝葉斯的反垃圾郵件技術顯現了較強的分類能力和較高的準確性,而基于人工免疫系統的反垃圾郵件技術則具有良好的自適應、自學習和魯棒性,兩者的結合在實踐測試中取得了良好的效果。
關鍵詞:反垃圾郵件;貝葉斯;人工免疫系統
中圖分類號:TP3文獻標識碼:A文章編號:1009-3044(2010)21-6083-02
Analysis on Two Kinds Of Anti-spam Technical
WU Peng, WANG Jian
(Dept.of Computer Science and Technology, Sichuan Engineering Technical College, Deyang 618000, China)
Abstract: In the content_based anti-spam technology , which is based on bayesreveals its strong categorization, high precision character, which is based on AIS(Artificial Immune System ) reveals its outstanding adaptive, self-learning and robust character. The anti-spam filtering system that is based on bayes and AIS has been proved to be effective in the practical tests.
Key words: anti-spam; bayes; artificial immune system
隨著互聯網應用的推廣,電子郵件作為人們交流的一種常用工具被更多的人使用,與此同時,那些收件人事先沒有提出要求或者同意接收的廣告、電子刊物、各種宣傳性的信息甚至病毒、惡意代碼、色情、反動等不良信息或有害信息也以電子郵件為載體在互聯網中廣泛地傳播,這些電子郵件我們俗稱垃圾郵件,它們污染著互聯網的文明環境,影響企業和個人的正常工作和生活,因此,對垃圾郵件進行綜合治理顯得意義重大。
根據中國互聯網協會反垃圾郵件中心的《2008年第三季度中國反垃圾郵件調查報告》顯示,中國網民平均每周收到垃圾郵件的數量為17.86封,所占比例為57.89%,.垃圾郵件仍然以高比例存在于電子郵件中。對于電子郵件這樣一個有效通信資源的利用總是無時無刻地進行著,也就必然存在著符合或者違背收件人主觀意愿的行為,其目的只有一個:讓收件人知曉一些信息。站在反垃圾郵件的角度,我們自然希望是利用電子郵件解決通信雙方正當、合法的通信需求,維護通信環境的高效、文明;而對于垃圾郵件制造者或者發送者來說,電子郵件卻作為承載著利益甚至阻礙文明發展的工具被利用著,所以他們也會不惜一切代價地去規避現有的反、防措施,去制造一些新的手段多樣化的垃圾郵件,不過無論垃圾郵件如何包裝、掩飾,它始終都包含屬于垃圾的部分,這點是我們反垃圾郵件的根本和著力點。
1 貝葉斯相關理論
貝葉斯方法以概率理論為基礎,用于處理統計學中不確定性問題。
對于概率公式:
(1)
其中,A,B表示兩個事件,且P(A)>0,該公式表示在事件A發生的前提下事件B發生的條件概率。
在此基礎上,有貝葉斯(Bayes)公式如下:
(2)
其中B1,B2,…,Bn為一系列互不相容事件,且P(Bi)>0(i=1,2,…,n)。
一般而言,人們能根據歷史經驗或主觀判斷給出某些事件發生的概率,這樣的概率沒有經過檢驗,被稱之為先驗概率。貝葉斯方法則是利用貝葉斯公式,結合調查、統計、實驗等方式獲取新的信息,對先驗概率進行修正,從而得到更符合實際的可能發生概率的預計。
基于貝葉斯的統計分析技術常常被應用于各行各業的分類應用系統中,因其模型塑造簡單易行,運行效果良好而廣受歡迎。
2 人工免疫系統(Artificial Immune System,AIS)[1]的相關理論
生物免疫系統是一個高度進化的生物系統,它旨在區分外部有害抗原和自身組織,從而清除病原并保持有機體的穩定[2]。而AIS則是以此為原型從計算的角度產生的面向應用的計算模型。
AIS的免疫算法一般步驟為:
1) 定義抗原:將有待解決的問題抽象成抗原,抗體則對應為問題的求解。
2) 產生初始抗體:抗體與抗原之間的親和度對應問題的評估:親和度越高,說明解越好。
3) 計算親和度:計算抗原與抗體之間的親和度。
4) 克隆選擇:與抗原有較大親和度的抗體即為問題的解,在這個過程中,要盡量抑制濃度過高的抗體即是避免局部解,也要淘汰低親和度的抗體,同時為獲得解的多樣性以求最佳解,抗體在克隆時會經歷變異(如高頻變異等)。
5) 評估新的抗體:若不能滿足終止條件,則轉向第3)步,重新開始;若滿足終止條件,則當前的抗體為問題的最優解。
AIS因其復雜的仿生原理往往在實踐應用中較難建模,但又因其強大的智能化、自學習、自適應等特性吸引著越來越多的研發者將其應用于各技術領域,以期在智能化發展上有新的突破。
3 兩種技術在反垃圾郵件系統中的應用
縱觀現有的反垃圾郵件技術,可謂百花齊放,層出不窮,歸納一下,大致有三種:1)基于IP的過濾;2)基于內容的過濾;3)基于行為的過濾。而研究人員也致力于研究這三種層次上的新技術新方法,或者對已有的技術進行整合、實踐評測、改進。本文分析的技術是基于內容的過濾技術。
在反垃圾郵件過濾系統中我們常會使用樸素貝葉斯算法,其模型如圖1所示。
該模型采用特征變量獨立假設,即假設每個特征變量Xi都從屬于同一個類別變量C,而它們彼此之間相互獨立。
在反垃圾郵件過濾系統中,我們只考慮兩個類別:一類為垃圾郵件,一類為非垃圾郵件,設c=1表示垃圾郵件,c=0表示非垃圾郵件,則應用樸素貝葉斯算法的目標是計算:
(3)
其中x是若干特征變量值(x1,x2,…,xn)構成的一個實例,在計算的過程中,屬于垃圾郵件類情況下,特征變量xi出現的概率可以采用如下方式計算:
(4)
基于貝葉斯算法的反垃圾郵件過濾系統具有較強分類能力,但在識別時很大程度依賴于以往的統計結果,自適應能力較弱,且對已有樣本的變異樣本辨識效果不盡人意。
鑒于上述弱點,人工免疫系統以其良好的自適應、自學習和魯棒性啟示著反垃圾郵件技術的研發,依據此開發的反垃圾郵件過濾系統的運作原理如下:
當一封郵件到達時,提取郵件的特征向量,以此生成待定抗原,抗原首先通過記憶細胞檢測器,與記憶細胞進行匹配,若出現匹配,則確認該郵件為垃圾郵件;若未出現匹配,則將抗原與未成熟細胞檢測器中的抗體進行匹配,匹配程度用親和度表示,若親和度達到設定的閥值,則抗原為陽性,郵件被判為垃圾郵件;若親和度小于閥值,則抗原為陰性,這時,郵件被判為正常郵件。
在將該技術進行實例應用時,決定系統性能的關鍵在于抗體、抗原、記憶細胞、未成熟細胞的定義以及親和度的計算、閥值的設定等。
為測試兩種技術在反垃圾郵件系統中的應用效果,我們進行了基于貝葉斯算法和基于貝葉斯及人工免疫系統綜合算法的兩種測試,使用了中、英文語料庫,中文語料庫選取的是中國教育和科研計算機網緊急相應組(CCERT)發布的數據集“2005-Jul” ,包含20308條垃圾郵件和9042條正常郵件[3],英文語料庫選用Spam Assassin語料,可從http://www.spamassassin.org獲得,該語料包含了1897條垃圾郵件和4150條正常郵件。所進行的測試是把語料庫中郵件分為10份,其中的9份作為訓練集,另外1份作為測試集,如此交叉做10次,最后取10次實驗的平均值作為最后的實驗數據,得到了如圖2所示的對比結果。
4 結束語
可見,在隨著郵件數目增多的情況下,基于AIS的過濾系統比單純基于貝葉斯的過濾系統更能保持穩定和較高的準確性,當然現在還沒有一種可以稱得上完美的技術方案來徹底解決垃圾郵件的問題,就基于AIS的反垃圾郵件技術而言,仍然還有很多值得探索和改進的地方,畢竟AIS的仿生機理是很復雜的,我們要能融會貫通靈活運用還需要時日,加之現有方案中,對于一些關鍵值,關鍵算法的測試也還不夠完備,如此種種,這都將是我們今后繼續研究的內容。
參考文獻:
[1] 肖人彬,王磊.人工免疫系統-原理、模型、分析及展望[J].計算機學報,2002.12:1281-1293.
[2] 陳國良,王煦法等.遺傳算法及其應用[M].北京:人民郵電出版社,1996.
[3] 蔡立軍,施榮華.一種新的電子郵件過濾系統模型的設計[J]. 計算機工程 2003.9:167-169.
[4] 周濟,查建中,肖人彬.智能設計[M].北京:高等教育出版社,1998.
[5] Dasgupta D,Forrest S.Artificial immune systems in industrial applications.In:Proc 2nd International Conference on Intelligent Processing and Manufacturing of Materials[C],Honolulu,1999.257-267.
[6] 莫宏偉.人工免疫系統原理與應用[M].哈爾濱:哈爾濱工業大學出版社,2002.11.
[7] 李濤.計算機免疫學[M].北京:電子工業出版社,2004.
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文