摘要:隨著校園網信息化的進程不斷的加快,越來越多的學校搭建了自己的郵件系統,提供給教師或學生使用,系統除了SMTP會話層的反垃圾郵件措施,SurfControl郵件安全信息網關RiskFilter在應用層上,反垃圾郵件引擎ASA集成了四種反垃圾郵件技術:數字指紋、啟發式分析、語義分析和Internet威脅庫,由SurfControl全球眾多內容安全專家,365x7x24小時不間斷維護更新ASA數據庫,每天自動更新4次,提供準確率高于99.2%、誤判率低于0.1%的垃圾郵件過濾效果。該文通過對垃圾郵件的處理辦法進行比較,結合校園郵件的特點,提出了有關實際應用的解決方案,以便更好地滿足校園網的郵件系統的需求。
關鍵詞:校園網;垃圾郵件;反垃圾郵件技術
中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2008)26-1676-03
According to the Technical Research in Mail in Versa Garbage of the Campus Inside Net
WU Xiu-mei, JIANG Jing, CAI Wu-quan
(School of Computer and Information, Shanghai Second Polytechnic University, Shanghai 201209, China)
Abstract:As the process of campus network informatization speeding up continuously,An Increasing number of schools built their own mail system which is available to both teachers and students. In addition to SMTP Session Layer’s anti-spam measures,SurfControl e-mail information security gateway riskFilter is on the application layer, anti-spam engine ASA integrates four anti-spam technology: Digital fingerprints, heuristic analysis, semantic analysis and the Internet threat database. Many surfControl content security experts from all over the world maintain and update ASA databases 365 x7x24 hours continually, and also it wouldautomatically updated four times daily, providing an accurate rate of 99.2 percent or more higher andbelow 0.1 percent rate of misjudgment of the spam filtering effect. This paper via compared with the disposal method of spam and combined with the characteristics of the campus mails we have raised relevant solutions to practical applications so that meet the requirements of campus network mail system well.
Key words: campus network; spam; anti-spam technology
1 引言
垃圾郵件一般具有批量發送的特征。內容包括賺錢信息、成人廣告、商業或個人網站廣告、電子雜志、連環信等。垃圾郵件可以分為良性和惡性的。良性垃圾郵件是各種宣傳廣告等對收件人影響不大的信息郵件。惡性垃圾郵件是指具有破壞性的電子郵件。一些有心人會從網上多個BBS論壇、新聞組等收集網民的電腦地址,再售予廣告商,從而發送垃圾郵件到該些地址。在這些郵件,往往可找到從收信人的清單移除的連結。當使用者依照連結指示去做時,廣告商便知道該地址有效,使用者便會收到更多垃圾郵件。隨著垃圾郵件的問題日趨嚴重,多家軟件商也各自推出反垃圾郵件的軟體。
垃圾郵件可以說是因特網帶給人類最具爭議性的副產品,它的泛濫已經使整個因特網不堪重負。歸結如下:占用網絡帶寬,造成郵件服務器擁塞,進而降低整個網絡的運行效率;侵犯收件人的隱私權,侵占收件人信箱空間,耗費收件人的時間、精力和金錢。有的垃圾郵件還盜用他人的電子郵件地址做發信地址,嚴重損害了他人的信譽;被黑客利用成為助紂為虐的工具。如在2000年2月,黑客攻擊雅虎等五大熱門網站就是一個例子。黑客先是侵入并控制了一些高帶寬的網站,集中眾多服務器的帶寬能力,然后用數以億萬計的垃圾郵件猛烈襲擊目標,造成被攻擊網站網路堵塞,最終癱瘓;嚴重影響ISP的服務形象。在國際上,頻繁轉發垃圾郵件的主機會被上級國際因特網服務提供商列入國際垃圾郵件數據庫,從而導致該主機不能訪問國外許多網絡。而且收到垃圾郵件的用戶會因為ISP沒有建立完善的垃圾郵件過濾機制,而轉向其它ISP。一項調查表明:ISP每爭取一個用戶要花費75美元,但是每年因垃圾郵件要失去7.2%的用戶;妖言惑眾,騙人錢財,傳播色情等內容的垃圾郵件,已經對現實社會造成了危害。
2 構建學校的郵件系統
與商業郵件系統和政府機關郵件系統不同,校園網郵件系統主要實現內部辦公室郵件系統,并要求與外部Internet郵件系統進行交互。但對于內部與外部系統中所涉及的一些垃圾郵件過濾方案采用不同的判斷閾值。郵件系統安裝時需要安裝POP3(郵局協議第3版本),以及SMTP(簡單郵件傳輸協議)和MIME(通用因特網郵件擴充)。校園的郵件系統主要有三個組成構件,即MUA、MTA、MDA。客戶端標識為MUA,(Mail User Agent,郵件用戶代理);用于郵件的接收、發送、編輯及打印等等。而把服務器叫做MTA(Mail Transfer Agenet,郵件傳輸代理)一般用于郵件的存儲與轉發等等。而MDA用于完成最后的投遞工作。校園郵件系統的搭建需要首先在教育網或互聯網上擁有若干個固定的IP地址,并有自主域名,且能完成域名解析。例如:IP:192.168.0.1,域名為:mail.ecnu.edu.cn。在該IP機器上安裝上相關的郵件系統,并系統配置。在完成郵件系統的安裝與配置后,需要進行用戶注冊。校園用戶一般較為穩定,且數目不大,相對集中。因此,可以采用集中申請和集中注冊的方式來進行管理。校園郵件傳遞路徑主要有以下三種方式:一是校園內部用戶互發,二是校園郵件系統向外部郵件系統發送郵件,三是由外部郵件系統轉發到校園郵件系統。對于第一種情況,可直接通過郵件系統內部協議。第二種則先將郵件通過SMTP送至網關,網關進行防毒處理后,向接收方郵件服務器所在地址進行轉發。對于第三種情況,鑒于校園郵件系統的容量小以及安全措施的考慮,根據有關的反垃圾郵件的算法進行探測,對郵件進行判斷,若為可疑的垃圾郵件則將其暫存于服務器,通過詢問用戶來決定是進行接收還是直接刪除。
3 反垃圾郵件的技術
在現有的反垃圾郵件的方案中,包含了從郵件的發送到接收的全過程可能采取的手段。從過濾的對象和方法來看,我們可以采用基于規則進行信息過濾,也可以基于語義進行過濾。而從郵件報文的載體內容來看,主要可以分為明文與密文的若干過濾規則。如:數字指紋庫:從垃圾郵件和風險郵件中提取的17類指紋特征,允許用戶根據安全策略自定義內容過濾規則;包括文本內容、圖像文件、影音文件和屏幕保護程序等;有效過濾傳統貝葉斯算法無法過濾的圖片類垃圾郵件等;采集自全球不同地區的垃圾郵件數字指紋;一天內4次更新。啟發式規則庫,根據 “垃圾郵件廣譜特征”對郵件進行測試分析和打分;根據設定的觸發閾值判斷垃圾郵件的可能性;提供5種過濾級別,用戶可根據安全策略設置不同的攔截敏感度;支持快速掃描方式(僅掃描郵件頭)和郵件大小閾值(如僅100KB)。語義分析規則庫,高級布爾表達式AND/OR/NEAR精確匹配;應對爆發性的垃圾郵件和風險內容。互聯網風險地址庫,掃描郵件中的含有互聯網風險和不適當內容的網站地址鏈接;提供成人/色情、釣魚、毒品/煙草/酒精、賭博、黑客、反動/仇恨言論、暴力、武器等八個鏈接分類。與高質量的SurfControl Web Filter URL數據庫保持同步。SurfControl郵件安全信息網關RiskFilter攔截垃圾郵件后,將歸檔供日后處理。管理員/最終郵件用戶可以通過瀏覽器的方式登錄到RiskFilter上,查看處理系統/個人的垃圾郵件,處理方式包括刪除、放行、下載、加入白名單等等。這樣就保證了“誤判率”對郵件用戶造成的影響趨于零。管理員訪問接口,https://rf.example.com/admin,郵件用戶訪問接口,https://rf.example.com/。
另外,從方便的角度考慮,SurfControl郵件安全信息網關RiskFilter還具有垃圾郵件摘要的功能:定時將垃圾郵件摘要信息以郵件的形式通知給郵件用戶,便于郵件用戶查詢處理個人垃圾郵件。而在實際運用中,主要在以上的過濾技術的基礎上,采用多種技術進行綜合防治。
1) 基于內容的過濾(Content-Based Filtering),又叫認知過濾,是利用用戶需求模板與信息的相似程度進行的過濾。傳統的內容過濾技術主要是根據開發人員認定的垃圾郵件的特征詞來掃描郵件內容,一般經過分詞、特征向量提取、歸類識別的三個步驟,進而判斷是否為垃圾郵件。現有的系統一般采用關鍵詞、規則或分類的方法描述用戶的信息需求,描述方法不同,匹配算法也不同. 例如對于采用關鍵詞描述的系統,適合用布爾模型、向量空間模型或概率推理模型等進行匹配;對于采用規則描述的系統,可以通過規則推算出用戶雖然沒有瀏覽過但可能會感興趣的信息;對于采用分類描述的系統,可以用自動分類的方法如TFIDF 分類器和Bayes分類器等進行匹配。但在進行內容過濾的過程中,增加了計算的難度和計算所需要花費的時間,同時關鍵詞庫需要不斷地更新和維護,耗費了大量的系統資源,使郵件系統效率低下。
2) 貝葉斯算法。貝葉斯算法通過收集大量的垃圾郵件和非垃圾郵件,建立相關的垃圾郵件集和非垃圾郵件集,然后提取郵件主題和獨立字符串,建立相應的哈希表,再根據建立的哈希表分析新到的郵件是垃圾郵件的可能性。它能有效地阻截各種垃圾郵件,但當識別率到達一定的程度后很難再提高,而對于中文,由于沒有準確高效的分詞器,貝葉斯分類算法的應用受到一定的限制。
3) 黑白名單技術。若IP地址在白名單中,則該發件人的任何郵件都被認為是合法郵件,而黑名單中的發件人發送的任何郵件都認為是垃圾郵件。該技術需要不斷人為地維護IP地址清單。并且黑名單能過濾已知發件人卻對未知的發件人的郵件無法判斷;而白名單卻對可能阻止接收潛在的聯系人的合法郵件。而在校園郵件系統中,因為其較為封閉的體系,一般采用白名單法,將來自系統內部的IP列入白名單,而對來自外部的IP發送的郵件則進行攔截。
4) 行為模式識別的反垃圾郵件技術。基于內容與黑白名單技術主要是從截獲樣本、解析特征、生成規則進行郵件的過濾,是被動的防治方法,并且需要不斷地更新有關的特征數據和地址數據,并且可能攔截正常的郵件,造成誤判。通過對垃圾郵件發送行為規律的總結,我們可以發現其具有IP固定性、發送頻率大、時間集中、借用郵件服務器漏洞、發信地址不明、路由地址不明、服務器不明和會話異常等特點。通過對發送垃圾郵件行為的統計分析,垃圾郵件行為主要可以分為三種。(1)濫發郵件行為。濫發郵件是垃圾郵件最本質的特征之一。垃圾郵件者通過各種方式投遞郵件。(2)匿名郵件行為。垃圾郵件者刻意隱瞞了使發件人、收件人、發件主機或郵件路由等信息。(3)偽造郵件行為。刻意偽造郵件頭等干擾住處,使發件人、收件人、發件主機或郵件路由等信息不屬實。針對以上的垃圾郵件行為,提出了相應的防范策略。一是系統通過分析垃圾郵件的行為模式主動地追蹤垃圾郵件。二是結合用戶查收郵件的行為對策來處理有關的垃圾郵件。①系統通過分析垃圾郵件的行為模式主動地追蹤垃圾郵件主要有以下的方法。通過深入追蹤郵件原始發送數據,取得TCP連接時所需的IP地址及SMTP連接建立的域名,來統計在特定時間段內發送的郵件數量,做出是否是垃圾郵件的判斷。在此過程中,一旦發現郵件傳輸記錄信息不真實,就將判斷為具有匿名行為的垃圾郵件。或者,發現發送人聲明域名與實際來源的IP不符合,發件人的郵件傳輸值多處變化,信息不一,就將其判斷為具有偽造行為的垃圾郵件。本方法主要涉及頻率限制技術、可變陌生訪問限制技術、域名解析與反解析技術等技術。②結合用戶查收郵件的行為對策來處理有關的垃圾郵件主要是通過反饋用戶在查收郵件過程中的行為記錄來對是否是垃圾進行甄別。首先,將SpamRank作為記錄一封郵件為垃圾郵件的可能值。對于用戶尚未打開就刪除的郵件或者是用戶打開后在低于N秒中刪除的郵件,SpamRank相應地減1。這里N作為一個域值,取我們通常閱讀一封Email所需要的最短的時間。而對于用戶將發件人加入通訊簿,回復了相關郵件或者將郵件移到至其他非垃圾郵件箱或者廢件箱,則SpamRank加1。而對于用戶閱讀郵件后,其閱讀時間高于N秒,則此郵件可能為垃圾郵件也可能為正常郵件,則SpamRank加0.5。而當SpamRank超過一定閾值,則將其判斷為垃圾郵件。閥值可以根據郵件系統中用戶的數據,取一定的比例來計算。
4 基于校園網絡特點的反垃圾郵件系統
校園網電子郵件系統與企業和公眾免費電子郵件系統相比。存在著以下的特點:使用群體相對單一,總體素質較高,使用者偏好接近;在校園網電子郵件系統與外部郵件系統之間的通信過程中,校園網電子郵件系統和外部郵件系統具有不同的可信度;校園網電子郵件內容集中度高;校園網電子郵件用戶的通信內容主要集中于郵件列表,學術會議,個人往來。故而,校園網電子郵件系統接收的垃圾郵件和正常郵件在關鍵詞庫上有著較高的區分度。校園電子郵箱一般采用集中申請的措施,對于教師和學生,通過設置rcpt而使其擁有不同的發信權限和郵箱容量。
校園的郵件系統進行垃圾郵件的過濾與監控,主要采用了多種反垃圾郵件技術相結合的反垃圾郵件技術。綜合應用基于內容的過濾、貝葉斯算法、黑白名單技術以及行為模式識別的反垃圾郵件技術。在以上幾種技術這間設置相關的參數,有效地防治各種垃圾郵件。
首先,將根據郵件的來源而設置不同的參數,對于來自Internet的郵件和來自學校內部的郵件采用綜合過濾方法,但調節基于內容的過濾、貝葉斯算法、黑白名單技術以及行為模式識別的反垃圾郵件技術之間的值。
然后通過基于內容的過濾、貝葉斯算法、黑白名單技術以及行為模式識別的反垃圾郵件技術的綜合應用對郵件進行過濾。首先,通過收集大量的垃圾郵件和非垃圾郵件,建立垃圾郵件和非垃圾郵件集。再提取郵件主題和郵件體中的獨立字符串;垃圾郵件集和非垃圾郵件集分別對應不同的哈希表hashtable_bad和hashtable_good,并且表中存儲TOKEN串到字頻的映射關系。計算每個哈希表中TOKEN出現的概率。假設A事件代表郵件為垃圾郵件,該郵件共得到N個TOKEN串,t1,t2......tn,則P(A|ti)表示在郵件中出現TOKEN串ti時,該郵件為垃圾郵件概率。當新郵件到后,生成TOKEN串,查詢哈希表得到該TOKEN串的鍵值。由復合概率公式可得P(A|t1,t2,t3......tn)=(P1*P2*......PN)/[P1*P2*......PN+(1-P1)*(1-P2)*......(1-PN)]。
當P(A|t1,t2,t3......tn)超過預定閾值時,則判斷其為垃圾郵件。
若檢測得出是正常郵件,則將其存儲到服務器上。
若檢測出是疑似垃圾郵件,則將其暫存于服務器上,保留N天,然后詢問用戶,看是否是垃圾。若用戶認定是垃圾郵件,則將其刪除;若用戶認定不是垃圾郵件,則將其轉遞,同時將其標識為正常郵件保存在服務器中。倘若超過N天,用戶還不對其進行處理,則將其從服務器中刪除。其邏輯如下圖2。
在本反垃圾郵件網關中,還可以讓用戶自己設置黑白名單。使防護措施更有針對性。在本系統里采用了實時黑名單技術。即為了有效地拒絕來自惡意的垃圾郵件來源站點和/或被利用的垃圾郵件來源站點所發來的垃圾郵件,采用最直接和有效的辦法——即拒絕該來源(IP)的連接。也就是通過將確認后的垃圾郵件來源站點(無論是否是惡意與否)放入一個黑名單,然后通過實時發布該名單來實現不斷更新被阻斷的IP;而郵件服務器每當接收到郵件連接,會通過實時地查詢該黑名單及時確認是否需要阻斷該IP地址。
5 結束語
隨著校園信息化的逐步普及,校園電子郵件的日益增多,其中垃圾郵件數量也飛速增長,反垃圾郵件系統顯得日益重要。本文通過對常見的反垃圾郵件技術進行分析,結合校園郵件的特點,分析了億郵反垃圾郵件系統的處理流程,希望供國內各院校參考。
參考文獻:
[1] 何建昭,梁曉誠,郭紅賓.基于行為模式識別的反垃圾郵件技術[J].電腦知識與技術(學術交流),2007,1(04):957-958.
[2] 張晉,于磊.局域網電子郵件監控系統的設計與實現[J].信息技術,2007,31(06):14-16,27.
[3] 瞿慶海,汪為農.校園網反垃圾郵件系統設計與實現[D].上海交通大學碩士學位論文,2007.
[4] 潘健鴻,林欽.校園郵件系統的研究及搭建[J].科技資訊,2006(21):232.
[5] 陳建發,吳順祥.一種基于用戶行為分析的協同反垃圾郵件策略[J].電腦知識與技術(學術交流),2007,2(07):36-37.