摘要:在基于內(nèi)容的反垃圾郵件技術中,基于貝葉斯的反垃圾郵件技術顯現(xiàn)了較強的分類能力和較高的準確性,而基于人工免疫系統(tǒng)的反垃圾郵件技術則具有良好的自適應、自學習和魯棒性,兩者的結(jié)合在實踐測試中取得了良好的效果。
關鍵詞:反垃圾郵件;貝葉斯;人工免疫系統(tǒng)
中圖分類號:TP3文獻標識碼:A文章編號:1009-3044(2010)21-6083-02
Analysis on Two Kinds Of Anti-spam Technical
WU Peng, WANG Jian
(Dept.of Computer Science and Technology, Sichuan Engineering Technical College, Deyang 618000, China)
Abstract: In the content_based anti-spam technology , which is based on bayesreveals its strong categorization, high precision character, which is based on AIS(Artificial Immune System ) reveals its outstanding adaptive, self-learning and robust character. The anti-spam filtering system that is based on bayes and AIS has been proved to be effective in the practical tests.
Key words: anti-spam; bayes; artificial immune system
隨著互聯(lián)網(wǎng)應用的推廣,電子郵件作為人們交流的一種常用工具被更多的人使用,與此同時,那些收件人事先沒有提出要求或者同意接收的廣告、電子刊物、各種宣傳性的信息甚至病毒、惡意代碼、色情、反動等不良信息或有害信息也以電子郵件為載體在互聯(lián)網(wǎng)中廣泛地傳播,這些電子郵件我們俗稱垃圾郵件,它們污染著互聯(lián)網(wǎng)的文明環(huán)境,影響企業(yè)和個人的正常工作和生活,因此,對垃圾郵件進行綜合治理顯得意義重大。
根據(jù)中國互聯(lián)網(wǎng)協(xié)會反垃圾郵件中心的《2008年第三季度中國反垃圾郵件調(diào)查報告》顯示,中國網(wǎng)民平均每周收到垃圾郵件的數(shù)量為17.86封,所占比例為57.89%,.垃圾郵件仍然以高比例存在于電子郵件中。對于電子郵件這樣一個有效通信資源的利用總是無時無刻地進行著,也就必然存在著符合或者違背收件人主觀意愿的行為,其目的只有一個:讓收件人知曉一些信息。站在反垃圾郵件的角度,我們自然希望是利用電子郵件解決通信雙方正當、合法的通信需求,維護通信環(huán)境的高效、文明;而對于垃圾郵件制造者或者發(fā)送者來說,電子郵件卻作為承載著利益甚至阻礙文明發(fā)展的工具被利用著,所以他們也會不惜一切代價地去規(guī)避現(xiàn)有的反、防措施,去制造一些新的手段多樣化的垃圾郵件,不過無論垃圾郵件如何包裝、掩飾,它始終都包含屬于垃圾的部分,這點是我們反垃圾郵件的根本和著力點。
1 貝葉斯相關理論
貝葉斯方法以概率理論為基礎,用于處理統(tǒng)計學中不確定性問題。
對于概率公式:
(1)
其中,A,B表示兩個事件,且P(A)>0,該公式表示在事件A發(fā)生的前提下事件B發(fā)生的條件概率。
在此基礎上,有貝葉斯(Bayes)公式如下:
(2)
其中B1,B2,…,Bn為一系列互不相容事件,且P(Bi)>0(i=1,2,…,n)。
一般而言,人們能根據(jù)歷史經(jīng)驗或主觀判斷給出某些事件發(fā)生的概率,這樣的概率沒有經(jīng)過檢驗,被稱之為先驗概率。貝葉斯方法則是利用貝葉斯公式,結(jié)合調(diào)查、統(tǒng)計、實驗等方式獲取新的信息,對先驗概率進行修正,從而得到更符合實際的可能發(fā)生概率的預計。
基于貝葉斯的統(tǒng)計分析技術常常被應用于各行各業(yè)的分類應用系統(tǒng)中,因其模型塑造簡單易行,運行效果良好而廣受歡迎。
2 人工免疫系統(tǒng)(Artificial Immune System,AIS)[1]的相關理論
生物免疫系統(tǒng)是一個高度進化的生物系統(tǒng),它旨在區(qū)分外部有害抗原和自身組織,從而清除病原并保持有機體的穩(wěn)定[2]。而AIS則是以此為原型從計算的角度產(chǎn)生的面向應用的計算模型。
AIS的免疫算法一般步驟為:
1) 定義抗原:將有待解決的問題抽象成抗原,抗體則對應為問題的求解。
2) 產(chǎn)生初始抗體:抗體與抗原之間的親和度對應問題的評估:親和度越高,說明解越好。
3) 計算親和度:計算抗原與抗體之間的親和度。
4) 克隆選擇:與抗原有較大親和度的抗體即為問題的解,在這個過程中,要盡量抑制濃度過高的抗體即是避免局部解,也要淘汰低親和度的抗體,同時為獲得解的多樣性以求最佳解,抗體在克隆時會經(jīng)歷變異(如高頻變異等)。
5) 評估新的抗體:若不能滿足終止條件,則轉(zhuǎn)向第3)步,重新開始;若滿足終止條件,則當前的抗體為問題的最優(yōu)解。
AIS因其復雜的仿生原理往往在實踐應用中較難建模,但又因其強大的智能化、自學習、自適應等特性吸引著越來越多的研發(fā)者將其應用于各技術領域,以期在智能化發(fā)展上有新的突破。
3 兩種技術在反垃圾郵件系統(tǒng)中的應用
縱觀現(xiàn)有的反垃圾郵件技術,可謂百花齊放,層出不窮,歸納一下,大致有三種:1)基于IP的過濾;2)基于內(nèi)容的過濾;3)基于行為的過濾。而研究人員也致力于研究這三種層次上的新技術新方法,或者對已有的技術進行整合、實踐評測、改進。本文分析的技術是基于內(nèi)容的過濾技術。
在反垃圾郵件過濾系統(tǒng)中我們常會使用樸素貝葉斯算法,其模型如圖1所示。
該模型采用特征變量獨立假設,即假設每個特征變量Xi都從屬于同一個類別變量C,而它們彼此之間相互獨立。
在反垃圾郵件過濾系統(tǒng)中,我們只考慮兩個類別:一類為垃圾郵件,一類為非垃圾郵件,設c=1表示垃圾郵件,c=0表示非垃圾郵件,則應用樸素貝葉斯算法的目標是計算:
(3)
其中x是若干特征變量值(x1,x2,…,xn)構成的一個實例,在計算的過程中,屬于垃圾郵件類情況下,特征變量xi出現(xiàn)的概率可以采用如下方式計算:
(4)
基于貝葉斯算法的反垃圾郵件過濾系統(tǒng)具有較強分類能力,但在識別時很大程度依賴于以往的統(tǒng)計結(jié)果,自適應能力較弱,且對已有樣本的變異樣本辨識效果不盡人意。
鑒于上述弱點,人工免疫系統(tǒng)以其良好的自適應、自學習和魯棒性啟示著反垃圾郵件技術的研發(fā),依據(jù)此開發(fā)的反垃圾郵件過濾系統(tǒng)的運作原理如下:
當一封郵件到達時,提取郵件的特征向量,以此生成待定抗原,抗原首先通過記憶細胞檢測器,與記憶細胞進行匹配,若出現(xiàn)匹配,則確認該郵件為垃圾郵件;若未出現(xiàn)匹配,則將抗原與未成熟細胞檢測器中的抗體進行匹配,匹配程度用親和度表示,若親和度達到設定的閥值,則抗原為陽性,郵件被判為垃圾郵件;若親和度小于閥值,則抗原為陰性,這時,郵件被判為正常郵件。
在將該技術進行實例應用時,決定系統(tǒng)性能的關鍵在于抗體、抗原、記憶細胞、未成熟細胞的定義以及親和度的計算、閥值的設定等。
為測試兩種技術在反垃圾郵件系統(tǒng)中的應用效果,我們進行了基于貝葉斯算法和基于貝葉斯及人工免疫系統(tǒng)綜合算法的兩種測試,使用了中、英文語料庫,中文語料庫選取的是中國教育和科研計算機網(wǎng)緊急相應組(CCERT)發(fā)布的數(shù)據(jù)集“2005-Jul” ,包含20308條垃圾郵件和9042條正常郵件[3],英文語料庫選用Spam Assassin語料,可從http://www.spamassassin.org獲得,該語料包含了1897條垃圾郵件和4150條正常郵件。所進行的測試是把語料庫中郵件分為10份,其中的9份作為訓練集,另外1份作為測試集,如此交叉做10次,最后取10次實驗的平均值作為最后的實驗數(shù)據(jù),得到了如圖2所示的對比結(jié)果。
4 結(jié)束語
可見,在隨著郵件數(shù)目增多的情況下,基于AIS的過濾系統(tǒng)比單純基于貝葉斯的過濾系統(tǒng)更能保持穩(wěn)定和較高的準確性,當然現(xiàn)在還沒有一種可以稱得上完美的技術方案來徹底解決垃圾郵件的問題,就基于AIS的反垃圾郵件技術而言,仍然還有很多值得探索和改進的地方,畢竟AIS的仿生機理是很復雜的,我們要能融會貫通靈活運用還需要時日,加之現(xiàn)有方案中,對于一些關鍵值,關鍵算法的測試也還不夠完備,如此種種,這都將是我們今后繼續(xù)研究的內(nèi)容。
參考文獻:
[1] 肖人彬,王磊.人工免疫系統(tǒng)-原理、模型、分析及展望[J].計算機學報,2002.12:1281-1293.
[2] 陳國良,王煦法等.遺傳算法及其應用[M].北京:人民郵電出版社,1996.
[3] 蔡立軍,施榮華.一種新的電子郵件過濾系統(tǒng)模型的設計[J]. 計算機工程 2003.9:167-169.
[4] 周濟,查建中,肖人彬.智能設計[M].北京:高等教育出版社,1998.
[5] Dasgupta D,F(xiàn)orrest S.Artificial immune systems in industrial applications.In:Proc 2nd International Conference on Intelligent Processing and Manufacturing of Materials[C],Honolulu,1999.257-267.
[6] 莫宏偉.人工免疫系統(tǒng)原理與應用[M].哈爾濱:哈爾濱工業(yè)大學出版社,2002.11.
[7] 李濤.計算機免疫學[M].北京:電子工業(yè)出版社,2004.
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文