999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于主題模型的垃圾郵件過濾系統的設計與實現

2017-12-04 02:42:54寇曉淮程華
電信科學 2017年11期
關鍵詞:分類方法模型

寇曉淮,程華

(華東理工大學信息科學與工程學院,上海200237)

基于主題模型的垃圾郵件過濾系統的設計與實現

寇曉淮,程華

(華東理工大學信息科學與工程學院,上海200237)

垃圾郵件過濾技術在保證信息安全、提高資源利用、分揀信息數據等方面都發揮著重要作用。然而,垃圾郵件的出現影響了用戶的體驗,并且會造成不必要的經濟與時間損失。針對現有的垃圾郵件過濾技術的不足,基于多個主題詞理論,構建了基于樸素貝葉斯的垃圾郵件分類方法。在郵件主題獲取中,采用主題模型LDA得到郵件的相關主題及主題詞;并進一步采用Word2Vec尋找主題詞的同義詞和關聯詞,擴展主題詞集合。在郵件分類中,對訓練數據集進行統計學習得到詞語的先驗概率;基于擴展的主題詞集合及其概率,通過貝葉斯公式推導得到某個主題和某封郵件的聯合概率,以此作為垃圾郵件判定的依據。同時,基于主題模型的垃圾郵件過濾系統具有簡潔易應用的特點。通過與其他典型垃圾郵件過濾方法的對比實驗,證明基于主題模型的垃圾郵件分類方法及基于Word2Vec的改進方法均能有效提高垃圾郵件過濾的準確度。

文本分類;垃圾郵件;主題模型;貝葉斯原理

1 引言

伴隨著互聯網的發展和普及,電子郵件已經成為人們日常工作、生活中通信、交流的重要手段。但由于早期的SMTP缺乏發件人認證、大量開放式郵件中轉服務器以及互聯網分布式管理性質等原因,垃圾郵件已經成為亟待解決的問題。從電子郵件出現以來,研究者就在垃圾郵件攔截方面做出了大量的研究工作。然而,垃圾郵件制造者總會找到更加隱蔽且混淆的手段來躲避相關算法的檢測。對于此類研究工作,目前仍然存在兩個重要的問題:郵件是一種快速且便捷的通信方式,而大面積的廣告推廣動機促成了大量為非正當利益而開發的反過濾技術;中文詞語的豐富性和特殊性導致垃圾郵件與正常郵件區分難度較大,很多國外的優秀算法在移植過程中將遭遇新的挑戰。

針對以上問題,本文深入分析和比較傳統垃圾郵件處理方法,指出了現有垃圾郵件過濾方法的不足,對主題模型算法及其在自然語言處理中的應用進行了研究,指出了主題模型算法應用于垃圾郵件過濾的可行性與能夠解決的問題;提出了基于主題模型的垃圾郵件過濾算法;設計并實現了一種基于主題模型的垃圾郵件過濾模型,通過與其他方法的對比實驗,證明本文基于主題模型的垃圾郵件過濾方法及基于Word2Vec[1]的改進方法均明顯提升了過濾準確度,具有較高的應用價值。

2 基于郵件過濾的相關技術

2.1 面向內容的電子郵件過濾技術

常見的郵箱對于垃圾郵件的過濾策略中,基于內容對郵件過濾的方法有黑白名單、手工建立過濾規則等。手工建立規則的方法通過用戶建立一系列規則來判定垃圾郵件。顯然,這些方法的主觀性會造成大量合法郵件的誤判和垃圾郵件的漏判,并且很難做到實時的手工維護,對郵件服務商的人力及經濟造成很大壓力。因此,垃圾郵件工具逐漸傾向于引入基于內容的機器學習判別方法[2,3]。

基于內容垃圾郵件判別的機器學習方法,一般步驟如下。

步驟1獲取訓練數據集合,通過多種手段渠道獲取各類電子郵件,并備注該電子郵件是否是垃圾郵件。

步驟2建立模型,使用訓練集合訓練模型,更新模型中的參數。

步驟3使用訓練好的模型,對新的電子郵件進行過濾。

總結起來就是通過已有的訓練集合(正例、反例)訓練出相應的垃圾郵件規則(包括顯式規則或隱式規則),然后將規則應用到新的郵件判別中。

最近幾年,國內外研究者在此領域已經取得了大量的研究成果。Sheu等人[4]利用決策樹模型構建了三步法垃圾郵件過濾模式。Feng等人[5]提出了基于樸素貝葉斯分類器的訓練集分類方法,提升了數據處理的頑健性,提出的SVM-NB方法能夠達到較高的垃圾郵件檢測精度。而Bansal等人[6]構建了基于穿梭判定算法的垃圾詞語檢測方法,并且在谷歌郵件系統中做了初步的應用。另外,廣告產業的發展為垃圾郵件攔截與過濾提出了新的要求,Chan等人[7]在此方向上做了針對性研究,推出了廣告環境下的垃圾郵件過濾方法。除此之外,一些其他的研究成果也引起了學術界和 IT產業界的廣泛關注[8-10]。曹玉東等人[11]基于改進的局部敏感散列算法實現了圖像型垃圾郵件過濾,將垃圾郵件過濾方法的應用范圍擴大。

2.2 垃圾郵件常用文本分類方法

(1)Decision Tree方法

決策樹利用熵的概念對每次決策產生的結果進行分類[4]。決策樹使用樹狀結構對目標分類,樹中每個節點表示某個對象,每個分叉路徑代表某個可能的屬性值,而每個葉節點則對應從根節點到該葉節點所經歷的路徑所表示的對象的值。

決策樹也可以被稱為分類樹,它是非常常用的分類方法。從另一個角度來說,決策樹是一種監督學習方法。在給定樣本機器類別屬性后,決策樹通過學習能夠得到一個固定的分類器,從而給出新進數據的具體類別。

(2)AdaBoost方法

自適應增強(adaptive boosting,AdaBoost)是加權組合多個弱分類器分類結果,進而得到更好的分類器的方法。Carreras和 Nicholas[12,13]將AdaBoost引入垃圾郵件過濾,獲得了很高的性能。AdaBoost方法的自適應在于:后面的分類器會在那些被之前分類器分錯的樣本上訓練。AdaBoost方法對于噪聲數據和異常數據很敏感。但在一些問題中,相比于大多數學習算法,AdaBoost方法對于過擬合問題不夠敏感。AdaBoost方法中使用的分類器可能很弱(比如出現很大錯誤率),但其分類效果只要比隨機好一點(比如它的二分類錯誤率略小于 0.5),就能夠改善最終模型。

(3)Rough Sets方法

Rough Sets算法是一種比較新穎的算法,粗糙集理論對于數據的挖掘提供了一個新的概念和

2.3 用于垃圾郵件過濾的貝葉斯方法

研究方法。將Rough Sets引入垃圾郵件過濾,采用11種非文本屬性(包括收信人數、中繼個數等)來進行郵件分類(正常、廣告和反動)。

具體來說,所有屬性分為2種屬性:1類為條件屬性,1類為決策屬性。本文姑且把決策屬性設置在數據列的最后一列,算法的步驟依次判斷條件屬性是否能被約簡,如果能被約簡,此輸出約簡屬性后的規則,規則的形式大體類似于IF-THEN的規則。

(4)kNN方法

k-近鄰方法(k-nearest neighbour,kNN)在線性模型中是最常見的方法,通過選擇特征與數據集合中所有特征對比最近的幾個樣本的標簽平均值表示。

對于郵件的垃圾分類,一方面郵件就是文本,屬于文本分類領域。另一方面,由郵件中的某些關鍵詞來推斷是否是垃圾郵件,就是一種貝葉斯條件概率方法的應用。數據挖掘領域主要使用兩種貝葉斯方法,即樸素貝葉斯方法和貝葉斯網絡方法。貝葉斯方法的一個顯著特點,就是在知道結果的情況下了解假設的情況,也就是說,當對某些知識知之甚少,或者毫不知情的時候,貝葉斯方法具有獨特優勢。

在垃圾郵件檢測過程中,其主要依據正常郵件與垃圾郵件的先驗概率。而貝葉斯分類模型能夠通過適當的獨立性假設來簡化分布,也就是樸素貝葉斯假設。在這樣的假設條件下,能夠形成樸素貝葉斯網絡。

貝葉斯分類算法是基于概率統計原理的一種分類方法,它具有運算速度快、方法簡單、分類精度高等優點,因而被廣泛應用在文本分類領域,并表現出非常好的效果。

目前,貝葉斯過濾算法被廣泛使用于智能和概率系統中,它具有單詞學習的模式和頻率,而不需要提前預設任何規則。具體來說,貝葉斯過濾技術能夠根據垃圾郵件與正常郵件的聯系與特點進行判斷。與傳統的關鍵詞檢測過濾技術相比,貝葉斯過濾算法更加復雜且智能,而反過濾方法不能破解過濾器內部的配置,從而提升了安全性與頑健性。

2.4 基于樸素貝葉斯的文本分類及流程

樸素貝葉斯分類器是垃圾郵件內容過濾中智能應用的分類方法。利用這種方法,可以根據訓練集自動訓練,訓練的結果反映了訓練集的性質。因此訓練者可以利用一定數量的垃圾郵件和非垃圾郵件,訓練郵件過濾器,從而達到高效、準確過濾垃圾郵件的目的。

樸素貝葉斯分類的流程如圖1表示。

圖1 樸素貝葉斯分類流程

然而,樸素貝葉斯分類也有缺陷,它的假設是基于“各特征項相互條件獨立”。在很多的實際問題中,如果此下設表現不夠明顯,甚至出現不成立時,錯誤的分類將會出現,從而影響算法的最終表現。在本文中,貝葉斯模型的使用將會被改善,而具體的內容將會在第3節中被介紹。

3 主題模型在垃圾郵件過濾中的研究

3.1 基于關鍵詞的垃圾郵件過濾

3.1.1 算法思想

主要算法思想是基于關鍵詞技術,采用樸素貝葉斯分類方法得到關鍵詞,分析郵件內容分類到垃圾郵件的置信概率,進而產生分類結果。這種方法的優勢在于復雜度低,且應用范圍較廣。3.1.2 基于關鍵詞的郵件過濾算法流程

從內容上看,郵件過濾可以看成一個二值分類問題,即把郵件分為垃圾郵件類和合法郵件類。基于關鍵詞的郵件過濾算法流程簡單來講是樸素貝葉斯方法,貝葉斯過濾算法大致由以下基本步驟組成。

步驟 1收集大量的垃圾郵件和合法郵件,建立垃圾郵件集和合法郵件集。

步驟 2提取郵件主題和郵件體中的獨立字符串,例如sale、cash等作為token串并統計提取出的token串出現的次數即字頻。按照上述的方法分別處理垃圾郵件集和合法郵件集中的所有郵件。采用貝葉斯文本分類法對訓練樣本學習,得到P(S|W)。

步驟 3每一個郵件集對應一個散列表,合法郵件集對應表 hashtable_good,垃圾郵件集對應表hashtable_bad,表中存儲token串到字頻的映射關系。

步驟 4計算每個散列表中 token串出現的概率,可以得到 P1(ti)和 P2(ti), P1(ti)表示 ti在hashtable_good中的值(也就是token串ti在合法郵件中的概率);P2(ti)表示ti在hashtable_bad中的值(也就是token串ti在垃圾郵件中的概率):

步驟 5由步驟 2中貝葉斯文本分類法得到的 P(S|W),綜合考慮散列表 hashtable_good和hashtable_bad,推斷出當新來的郵件中出現某個token串時,該新郵件為垃圾郵件的概率。計算式為:

其中,A事件表示郵件為垃圾郵件;t1,t2,…,tn代表token串;P(A|ti)表示當token串ti出現在所收到的郵件中時,該郵件為垃圾郵件的概率。

假設該郵件共得到N個 token串t1,t2,…,tn,hashtable_probability中對應的值為 P1,P2,…,Pn,P(A|t1,t2,…,tn)表示在郵件中同時出現多個token串t1,t2,…,tn時,該郵件為垃圾郵件的概率。

由聯合概率公式可得:

當 P(A|t1,t2,…,tn)超過預定閾值(例如 0.95)時,就可以判斷郵件為垃圾郵件。

3.2 LDA主題模型

LDA(latent Dirichlet allocation)的產生和發展歷經TF-IDF、LSA、pLSA等多種主題模型方法,由于LDA模型的良好的數學基礎和靈活的擴展性,一經提出即得到了來自各個領域研究者的關注,被廣泛應用在文本挖掘及信息處理的研究中[14]。

LDA模型最初是作為一種文本分類和主題聚類方法被提出,它將文檔集中每篇文檔的主題以概率分布形式給出,從而通過分析便能夠得到聚類結果。與此同時,它是一種典型的詞袋模型。也就是說,每篇文檔將會被分解為一組詞,而不用考慮先后順序。

LDA是一個三層的貝葉斯概率生成模型,由“主題—詞語”和“文檔—主題”構成。在LDA模型中需要求解“詞語—主題”和“主題—文檔”兩個模型參數。LDA假設文本集D中各文本w有如下生成過程,如圖2所示,T表示主題的個數,D表示文檔的個數,Nd表示第d篇文檔中詞語的個數。

圖2 LDA模型

步驟1 確定文檔中的詞語數N,使之服從參數為ξ的泊松分布。

步驟3對于文本中N個詞中的每一個wn:確定一個主題 zn,使之服從參數為θ的多項式分布;依照概率 p( wn|zn,β)選擇每一個詞語wn。

3.3 基于主題模型的垃圾郵件過濾方法

基于主題模型抽取垃圾郵件的主題,對已知的垃圾郵件樣本進行訓練,提取垃圾郵件的特征,采用貝葉斯估計分類算法,構造垃圾郵件的過濾器。利用得到的垃圾郵件過濾器,對新的郵件進行分析、判斷,區分垃圾郵件和合法郵件,實現垃圾郵件的過濾。

具體實現步驟如下。

步驟 1采集一定數量的垃圾郵件與合法郵件,建立相應的垃圾郵件集和合法郵件集,計算詞頻得到每個詞語出現的情況下該郵件是垃圾郵件的概率P(S|W)。

步驟 2利用 LDA主題模型對郵件進行主題抽取,分類算法對已知的垃圾郵件樣本進行訓練,對垃圾郵件集和合法郵件集中的郵件進行解析,并提取郵件的特征,統計相應數據。LDA是一種文檔主體生成模型,也成為一個三層貝葉斯概率模型,包含詞、主體、文檔這三層結構。生成模型,即一篇文章的每個詞都是通過以一定的概率選擇了一個主題,并從這個主題中以一定的概率選擇這個詞語的過程得到的。

步驟 3由聯合概率公式計算每個主題中所有詞語的聯合概率;得到每個主題出現的情況下該郵件是垃圾郵件的概率;構造郵件分類器。

步驟 4采用貝葉斯分類器。選取一個判斷垃圾郵件適當的閾值,利用所建立的郵件分類器實現對郵件的分類。

預應力鋼絲繩的一端直接穿入端部錨具的開口,另一端通過張拉器進行張拉。采用對稱張拉的原則,以防結構產生扭轉、側彎。張拉時從兩側向中間對稱前進,鋼絲繩布置如圖5所示。

3.4 模型的改進

傳統判斷兩個文檔相似性的辦法是查看兩個文檔共同出現的單詞的多少,如TF-IDF等,但這種辦法沒有考慮到文字背后的語義關聯,有可能兩個文檔說的是相似的內容但并沒有詞語上的交集。LDA提取出來的郵件主題關鍵詞能夠表達郵件較高級別的主題內容,能夠消除主題關鍵詞之間的歧義。但是此時每個主題關鍵詞并不是使用向量表達,此時本文使用Word2Vec方法,將詞語轉化為向量空間,有利于計算詞語之間的相似程度。同時使用主題詞向量距離計算方式計算距離主題最近的詞語,即用Word2Vec生成每個主題中詞語的關聯詞,作為主題詞語的擴容,在此基礎上再進行垃圾郵件判斷。

4 垃圾郵件過濾器的設計及實驗分析

4.1 郵件樣本集的選取

4.1.1 垃圾郵件過濾的語料庫

本文采用的垃圾郵件語料庫從網上采集,包含正常郵件和垃圾郵件各8 000封。圖3為比較典型的用于廣告的垃圾郵件案例。

用這兩類郵件建立垃圾郵件過濾器中詞的先驗概率。過程如下。

首先,解析所有郵件,提取每一個詞。然后,計算每個詞語在正常郵件和垃圾郵件中的出現頻率。例如,假定“發票”這個詞,在8 000封垃圾郵件中,有200封包含這個詞,那么它的出現頻率就是2.5%;而在8 000封正常郵件中,只有2封包含這個詞,那么出現頻率就是0.025%。有可能某個詞在已有的某一類郵件語料中未出現,為了避免該詞的先驗概率出現為0的情況,設定該詞的出現頻次為 1。假設某個詞只出現在垃圾郵件中,正常郵件中沒有,就設定它在正常郵件的出現頻率是0.012 5%(1/8 000),反之亦然。隨著郵件數量的增加,詞的先驗概率計算結果會更接近于真實情況。

4.1.2 垃圾郵件評價指標

為了對垃圾郵件過濾系統的效果做分析,需要一個評價體系來進行評估,即一個系統可以判定未知文檔是否屬于某類。假定有N個郵件文檔通過分類器分別分類,可以用表1來表示人工與系統對郵件的評判情況。A為人工與系統都評判為垃圾的郵件數;B為人工評判為正常,而系統評判為垃圾的郵件數;C為系統評判為正常,而人工評判為垃圾的郵件數;D為人工與系統都評判為正常的郵件數。

表1 垃圾郵件測評

定義如下幾個指標來檢測算法對垃圾郵件的過濾效果。

(1)召回率(recall)

描述收到一封垃圾郵件時,分類器判定為垃圾郵件的概率,召回率越高,表示分類器對郵件分類效果越顯著,計算式為:

(2)正確率(precision)

描述分類器對正常郵件和垃圾郵件都能正確分辨的概率,將垃圾郵件判為垃圾郵件和將非垃圾郵件判為合法郵件的概率,正確率越高表示分類器的效果越理想,計算式為:

(3)誤判率(misjudge)

圖3 垃圾郵件案例

描述正常郵件的誤判率,將非垃圾郵件判為垃圾郵件的概率,這是描述一個分類器是否有效的關鍵指標,如果誤判率很高,則說明分類器沒有起到很好的分類效果,誤判率越低表示正常郵件被判為垃圾郵件的概率越小,計算式為:

(4)精確率(accuracy)

分類器對正常郵件分類的正確性,精確率越高表示郵件對正常郵件的判別越正確,計算式為:

在對實驗結果的評估中將會比較以上數值。準確率 P 是郵件被正確分類的概率,召回率是指實驗方法將郵件正確分類的概率,F1值則是指β=1時的F值,是最常用的F值之一,可以看作模型準確率和召回率的一種加權平均。這3個值都是數值越高所代表的分類效果越優秀。

4.2 實驗結果與分析

4.2.1 LDA主題抽取

步驟 1首先用 jieba分詞算法分詞后得到300個分詞文件,名稱如1-seg.txt、2-seg.txt等。例如,“合金”“批發”“朋友”“爸媽”等詞語。

步驟2再用LDA主題模型算法解析300封郵件,得到20個主題詞組,如:“0.090*‘交涉’+0.090*‘小白臉’+0.090*‘力阻’+ 0.090*‘撕破臉’+ 0.090*‘私事’”。

步驟3最后得到300×20維的權值矩陣,300表示300封郵件,20表示20個主題,即每封郵件和20個主題之間的相關度。

采用 LDA主題模型算法,從測試集中選取300封郵件進行主題抽取20個主題,主題詞確定為10個,選取兩個具有代表性的主題,結果見表2。4.2.2 LDA反垃圾郵件過濾實驗結果與分析

為了有效地驗證該方法的可行性,選用正常郵件和垃圾郵件各8 000封,共16 000封作為訓練集;另取正常郵件和垃圾郵件各150封,共300封作為測試集。用本文基于LDA的垃圾郵件過濾方法進行實驗,其中主題數確定為20個,主題詞為10個,共完成5組實驗,結果見表3。

表2 主題模型結果

表3 基于LDA的垃圾郵件過濾方法測試結果

在實驗中,把垃圾郵件的概率跟合法郵件的概率做比較,需要選擇判定垃圾郵件概率的閾值。閾值的控制比較重要,如果太大則會漏掉大量垃圾郵件,通過實驗確定最佳閾值為0.43左右。

(1)與其他方法比較

為了更好地說明本文設計算法的有效性,本文選取了積累典型的垃圾郵件過濾方法進行比較,包括基于Na?ve Bayes的郵件過濾方法[15,16]、基于SVM的郵件過濾方法[17]、基于kNN的郵件過濾方法[18]、基于MTM(message topic model)的郵件過濾方法[3]、基于決策樹的三步郵件過濾方法[4]、基于SVM-NB的郵件過濾方法[5]。其中,前3種方法是以簡單機器學習為基礎的郵件過濾方法,MTM方法建立了一種有效的方式,用來檢測郵件主題詞,三步郵件過濾法是以決策樹為基礎的,而SVM-NB方法是基于樸素貝葉斯分類分類的方式,對比見表4。

表4 各種不同方法郵件測試結果

由表4可知,本文基于LDA的垃圾郵件過濾方法使垃圾郵件的召回率相比Na?ve Bayes方法、SVM方法、kNN方法、MTM方法、決策樹方法有很大提升,分別上升了17%、2%、10%、3%、4%;識別正確率和Na?ve Bayes相同,而相比SVM方法、kNN方法則分別提高了2%、10%;F1值相比Na?ve Bayes方法、SVM方法、kNN方法、MTM方法、決策樹方法以及SVM-NB方法分別提高了10%、2%、10%、3%、4%、2%。

在基于決策樹三步郵件過濾方法中,它利用決策樹模型構建了三步法垃圾郵件過濾模式。對于SVM-NB算法,它提出了基于樸素貝葉斯分類器的訓練集分類方法,提升了數據處理的頑健性,此方法能夠達到較高的垃圾郵件檢測精度。相比于這兩種方法,本文推出的LDA算法能夠更好地提取文本特征,從而達到更高的分類精度。基于LDA的垃圾郵件過濾方法在垃圾郵件正確率方面和 Na?ve Bayes方法相同,在垃圾郵件的召回率方面高于這3種方法,并且具有較高的F1測試值。這說明該方法在性能上要優于Na?ve Bayes、SVM、kNN方法。

(2)采用不同主題數的結果比較

在實驗(1)中,選擇主題數為20個,主題詞為10個,共完成了5組實驗,并且與另外3種郵件過濾方法進行了比較。在本實驗中選擇主題詞仍為10個,分別選擇主題數為10、15、20、25個進行實驗,結果見表5。

表5 不同主題數下的測試結果

分析實驗結果如圖4、圖5所示,在選取合適閾值的條件下,系統的召回率和正確率隨著主題數的增加而提高。其原因是,隨著主題數的增加,對測試集郵件的語義劃分更明確,進而使得系統的召回率和正確率明顯提升。基于這樣的原理,本方法可以取得較好的垃圾郵件過濾結果。4.2.3 基于改進的主題垃圾郵件過濾方法實驗結果與分析

圖4 不同主題數下的召回率和正確率

圖5 不同主題數下的閾值

改進的方法主要將獲得的主題進行擴展,用Word2Vec方法得到每個主題中詞的幾個相關的詞,將獲得的詞重新構建主題組。

下面列舉幾個主題詞經過 Word2Vec計算后得到的結果,如圖6所示。

圖6 主題詞經過Word2Vec計算后得到的結果

以其中一個主題為例,通過Word2Vec擴展原主題詞為12個詞,見表6。

表6 原主題與擴展主題

這里實驗過程分兩個步驟。

步驟1 將重建的主題組再次經LDA算法獲得權值矩陣。

步驟2 再用測試集進行測試,得到最終的實驗結果。

在本實驗中選擇主題數為 20個,主題詞由10個擴展為12個,共完成了5組實驗。

測試結果見表7。

表7 基于Word2Vec改進的垃圾郵件過濾方法測試結果

分析表7,改進方法在增加2個關聯主題詞的情況下,在F1值上比原方法改進明顯,在5次實驗中有3次獲得了較大的提高,證明了改進方法的有效性。

5 結束語

本文對基于主題模型的垃圾郵件過濾系統的設計與實現進行了分析和驗證,與傳統的關鍵詞檢測過濾技術相比,貝葉斯過濾算法更加有效且智能,從而提升了系統的安全性與頑健性。通過與其他典型垃圾郵件過濾方法的對比及驗證,證明基于主題模型的垃圾郵件分類方法及基于Word2Vec的改進方法均能有效提高垃圾郵件過濾的準確度。

在未來的研究中,基于語義的文本分類具有非常大的潛力。針對自然語言的具體層次結構,機器學習與深度學習的方式已經在其他領域表現出非常強大的處理能力。在這種背景下,郵件攔截方法的設計可以參考相關研究成果進行深入探索。總之,未來的郵件攔截系統將會具有非常大的改進空間,因此相關的研究需要被重點關注。

[1] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv:1301.3781, 2013.

[2] 祝毅鳴, 張波. 實時黑名單在垃圾郵件過濾系統中的應用[J].科技資訊,2012(12):33.ZHU Y M, ZHANG B. Application of real time blacklist in spam filtering system[J]. Science & Technology Information,2012(12):33.

[3] MA J, ZHANG Y, WANG Z, et al. A message topic model for multi-grain SMS spam filtering[J]. International Journal of Technology & Human Interaction, 2016, 12(2):83-95.

[4] SHEN J J, CHEN Y K, CHU K T, et al. An intelligent three-phase spam filtering method based on decision tree data mining[J]. Security & Communication Networks, 2016, 9(17):4013-4026.

[5] FENG W, SUN J, ZHANG L, et al. A support vector machine based naive Bayes algorithm for spam filtering[C]// 2016 Performance Computing and Communications Conference, Dec 9-11, 2016, Las Vegas, NV, USA. New Jersey: IEEE Press,2017:1-8.

[6] BANSAL R P, HAMILTON I R A. O'CONNELL B M, et al.System and method to control email whitelists: US, US 8676903 B2[P]. 2014.

[7] CHAN P P K, YANG C, YEUNG D S, et al. Spam filtering for short messages in adversarial environment[J]. Neurocomputing,2015, 155(C):167-176.

[8] DEVI K S, RAVI R. A new feature selection algorithm for Efficient Spam Filtering using Adaboost and Hashing techniques[J].Indian Journal of Science & Technology, 2015, 8(13).

[9] AFZAL H, MEHMOOD K. Spam filtering of bi-lingual tweets using machine learning[C]// International Conference on Advanced Communication Technology, Jan 31-Feb 3, 2016,Pyeongchang, South Korea. New Jersey: IEEE Press, 2016.

[10] DAS M, BHOMICK A, SINGH Y J, et al. A modular approach towards image spam filtering using multiple classifiers[C]//2014 IEEE International Conference on Computational Intelligence and Computing Research. Dec 20, 2014, Coimbatore, India. New Jersey: IEEE Press, 2015:1-8.

[11] 曹玉東, 劉艷洋, 賈旭, 等. 基于改進的局部敏感散列算法實現圖像型垃圾郵件過濾[J]. 計算機應用研究, 2016,33(6):1693-1696.CAO Y D, LIU Y Y, JIA X, et al. Image spam filtering with improved LSH algorithm[J]. Application Research of Computers,2016, 33(6):1693-1696.

[12] 徐凱, 陳平華, 劉雙印. 基于 Adaboost-Bayes算法的中文文本分類系統[J]. 微電子學與計算機, 2016, 33(6):63-67.XU K, CHEN P H, LIU S Y. A Chinese text classification system based on Adaboost-Bayes algorithm[J]. Microelectronics & Computer, 2016, 33(6):63-67.

[13] 周慶良. 一種基于 Adaboost和分類回歸樹的垃圾郵件過濾算法[D]. 武漢: 華中科技大學, 2016.ZHOU Q L. A spam filtering algorithm based on Adaboost and classification regression tree[D]. Wuhan: Huazhong University of Science and Technology, 2016.

[14] SMITH D A, MCMANIS C. Classification of text to subject using LDA[C]//2015 IEEE International Conference on Semantic Computing (ICSC), Feb 7- Feb 9, 2015, Anaheim, CA, USA.New Jersey: IEEE Press, 2015: 131-135.

[15] 趙治國, 譚敏生, 李志敏. 基于改進貝葉斯的垃圾郵件過濾算法綜述[J]. 南華大學學報: 自然科學版, 2006, 20(1): 33-38.ZHAO Z G, TAN M S, LI Z M. Review of spam filter algorithms based on improved Bayes[J]. Journal of Nanhua University(Science and Technology), 2006, 20(1): 33-38.

[16] 林巧民, 許建真, 許棣華, 等. 基于貝葉斯算法的垃圾郵件過濾技術[J]. 南京師范大學學報: 工程技術版, 2005, 5(4):61-64.LIN Q M, XU J Z, XU D H, et al. Research on Bayes-based spam filtering[J]. Journal of Nanjing Normal University(Engineering and Technology), 2005, 5(4): 61-64.

[17] LI L, MAO T, HUANG D. Extracting location names from Chinese texts based on SVM and KNN[C]// 2005 IEEE International Conference on Natural Language Processing and Knowledge Engineering(IEEE NLP-KE'05), Oct 30-Nov 1, Wuhan,China. New Jersey: IEEE Press, 2005: 371-375.

[18] 林文香. 改進的KNN算法在過濾垃圾郵件中的應用研究[D].長沙: 湖南大學, 2010.LIN W X. Application of improved KNN algorithm in spam e-mail filtering[D]. Changsha: Hunan University, 2010.

Design and implementation of spam filtering system based on topic model

KOU Xiaohuai, CHENG Hua
College of Information Science and Engineering, East China University of Science and Technology, Shanghai 200237, China

Spam filtering technology plays a key role in many areas including information security, transmission efficiency, and automatic information classification. However, the emergence of spam affects the user's sense of experience, and can cause unnecessary economic and time loss. The deficiency of spam filtering technology was researched, and a method of spam classification based on naive Bayesian was put forward based on multiple keywords.In the subject of mail, the theme model was used by LDA to get the related subject and keyword of the message, and Word2Vec was further used to search keyword synonyms and related words, extending the keyword collection. In the classification of mails, the transcendental probability of the words in the training dataset was obtained by statistical learning. Based on the extended keyword collection and its probability, the joint probability of a subject and a message was deduced by the Bayesian formula as a basis for the spam judgment. At the same time, the spam filtering system based on topic model was simple and easy to apply. By comparing experiments with other typical spam filtering method, it is proved that the method of spam classification based on theme model and the improved method based on Word2Vec can effectively improve the accuracy of spam filtering.

text classification, spam, topic model, Bayesian theory

TP393

A

10.11959/j.issn.1000?0801.2017313

2017?05?12;

2017?09?16

寇曉淮(1989?),男,華東理工大學信息科學與工程學院碩士生,主要研究方向為信息分析與處理、智能信號處理和網絡與信息安全。

程華(1975?),男,博士,華東理工大學信息科學與工程學院副教授,主要研究方向為信息安全、信號處理、網絡行為學和流量工程。

猜你喜歡
分類方法模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 久操中文在线| 99国产精品免费观看视频| 久久亚洲AⅤ无码精品午夜麻豆| 久久国产精品影院| 精品久久香蕉国产线看观看gif| а∨天堂一区中文字幕| 亚洲欧美成人在线视频| 日韩国产精品无码一区二区三区 | 青青青亚洲精品国产| 国产精品一区二区无码免费看片| 久久a级片| 在线网站18禁| 久久国产亚洲偷自| 四虎永久免费在线| a级毛片在线免费观看| 福利小视频在线播放| 国产精品偷伦视频免费观看国产| 久久中文字幕av不卡一区二区| 国内精品视频| 国产成人一区二区| 午夜欧美理论2019理论| 伊人91视频| 91久久夜色精品国产网站| 日韩色图区| 久久免费成人| 性欧美在线| 亚洲日韩第九十九页| 国内精品手机在线观看视频| 91福利一区二区三区| 日本www色视频| 亚洲一道AV无码午夜福利| 日韩在线2020专区| 亚洲无码高清免费视频亚洲| 免费看的一级毛片| 伊人色婷婷| 欧美亚洲一二三区| a级毛片网| 国产福利免费在线观看| 97超爽成人免费视频在线播放| 99久久精品免费观看国产| 日本成人福利视频| 亚洲乱强伦| 全部毛片免费看| 国产乱子伦一区二区=| 华人在线亚洲欧美精品| 欧美人在线一区二区三区| 亚洲天堂区| a级毛片免费在线观看| 国产成人免费观看在线视频| 国产精品浪潮Av| 国产丰满大乳无码免费播放 | 五月天久久综合| 婷婷99视频精品全部在线观看| 毛片免费在线| 国产人在线成免费视频| 97精品伊人久久大香线蕉| 99视频精品全国免费品| 亚洲福利视频网址| 日韩亚洲高清一区二区| 99久久亚洲综合精品TS| 亚洲人成亚洲精品| www亚洲天堂| 91在线丝袜| 天天色天天综合网| P尤物久久99国产综合精品| 久久婷婷六月| 免费在线观看av| 欧美一道本| a国产精品| 999精品视频在线| 午夜无码一区二区三区在线app| 亚洲性网站| 日韩精品中文字幕一区三区| 亚洲AⅤ波多系列中文字幕| 国产一区二区三区精品久久呦| 狠狠色狠狠色综合久久第一次| 日本免费福利视频| 中字无码精油按摩中出视频| 久操线在视频在线观看| 中文成人在线视频| 精品剧情v国产在线观看| 伊大人香蕉久久网欧美|