999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種新的郵件過濾技術(shù)研究

2017-01-11 14:23:23朱俚治朱梧檟侯愛蓮

朱俚治 朱梧檟 侯愛蓮

摘要:為了改進(jìn)已有郵件過濾算法的不足之處,提出一種新的郵件過濾算法。以往的大部分過濾算法采用的都是郵件屬性精確匹配算法,并未使用模糊匹配思想,因此郵件的漏檢率較高,并且發(fā)現(xiàn)未知郵件的效率較低。針對(duì)以往郵件過濾算法中漏檢率比較高的不足之處,文中提出的郵件過濾算法的改進(jìn)思路是:首先使用傳統(tǒng)的黑白名單過濾技術(shù)對(duì)已知的郵件進(jìn)行分類,那些是正常郵件,那些是垃圾郵件。在此基礎(chǔ)之上使用相似性算法來計(jì)算未知郵件與已知郵件的相似度,從而達(dá)到對(duì)未知郵件分類目的,最后使用MMTD算法對(duì)的郵件相似度的好壞做出衡量,并且以此為郵件過濾提供有效的依據(jù),經(jīng)過以上的三個(gè)步驟之后,最后進(jìn)行郵件的過濾。

關(guān)鍵詞:垃圾郵件;MMTD;相似性

中圖分類號(hào):TP301.6文獻(xiàn)標(biāo)識(shí)碼:A

Abstract:The widely used mail attributes exact matching algorithm does not use fuzzy matching ideas, so the rate of missed messages is high and the efficiency of finding the unknown message is low. This paper presented the improved spam filtering idea. First, the traditional black and white list of known email filtering technology was used to classify the messages into normal email and spam. Based on this, similarity algorithm was used to calculate the unknown email message with the known similarity, so as to achieve the unknown message classification purposes. Then, MMTD mail similarity algorithm was used to measure the quality of email message, which provides the effective basis for message filter. After the above three steps, the email messages were filtered.

Key words:spam; MMTD; similarity

1引言

正常郵件與垃圾郵件是兩種性質(zhì)的郵件,垃圾郵件是缺乏實(shí)際意義和沒有用處的郵件,因此為了保護(hù)有限的郵件資源,必須阻止垃圾郵件在網(wǎng)絡(luò)中肆意傳播。到目前為止郵件過濾研究人員已開發(fā)出了許多郵件過濾技術(shù)。但由于垃圾郵件技術(shù)發(fā)展速度較快,單一的郵件過濾技術(shù)難以勝任某些的郵件過濾任務(wù) 。

現(xiàn)有的郵件過濾技術(shù)主要包括:①基于黑白名單郵件過濾技術(shù),②基于過濾規(guī)則的郵件過濾技術(shù),③基于郵件內(nèi)容的過濾技術(shù)[1-3]。這些郵件過濾技術(shù)都各自的優(yōu)勢(shì)同時(shí)也有不足的地方。最早出現(xiàn)的黑白名單過濾技術(shù)的缺點(diǎn)是漏檢率較高,并且效率低于基于其它的郵件過濾技術(shù)[1-3]。基于內(nèi)容過濾技術(shù)與基于貝葉斯過濾算法在當(dāng)今的郵件過濾技術(shù)中有較為廣泛的應(yīng)用,過濾郵件時(shí)誤判率有所降低[1-3]。現(xiàn)在有以下幾種技術(shù)在郵件過濾技術(shù)中進(jìn)行應(yīng)用:決策樹,使用SPF協(xié)議該改進(jìn)SMTP協(xié)議,人工免疫,ripper算法等等各種算法[3]。根據(jù)上述原因,為了將大部分垃圾郵件進(jìn)行過濾,只有將已有的過濾技術(shù)綜合應(yīng)用才能夠達(dá)到過濾郵件的目的。

本文提出的郵件過濾的算法中使用了黑白名單技術(shù),相似性計(jì)算算法和MMTD算法,該郵件過濾的思路是:①提取已知的黑白名單郵件屬性,②使用相似性算法計(jì)算未知郵件與已知郵件的相似性,③最后使用MMTD算法對(duì)相似性的計(jì)算結(jié)果做出衡量和估計(jì)。新郵件過濾算法優(yōu)點(diǎn)在于①使用了兩種近似算法:相似性計(jì)算和MMTD算法,②將傳統(tǒng)的郵件過濾技術(shù)與相似性算法相互結(jié)合,③將郵件屬性之間的精確匹配改為郵件屬性之間的相似性匹配。

2現(xiàn)有的郵件過濾技術(shù)簡(jiǎn)介

2.1二黑白名單過濾技術(shù)

在黑白名單過濾技術(shù)中:網(wǎng)絡(luò)管理人員把屬于黑名的郵件設(shè)定為垃圾郵件名單,白名單設(shè)定為正常的郵件名單。因此根據(jù)已有的新名單可以將已知的郵件進(jìn)行分類。黑/白名單的建立是周期性的而非實(shí)時(shí)的,并且黑/白名單還很容易出錯(cuò),容易出現(xiàn)誤判的現(xiàn)象[1-4]。

2.2基于過濾規(guī)則的郵件過濾技術(shù)

基于過濾規(guī)則的郵件過濾技術(shù)是用戶根據(jù)已有的郵件信息來制定若干條郵件的過濾規(guī)則。一般來說,過濾規(guī)則通常從信頭分析、群發(fā)過濾、關(guān)鍵詞精確匹配和郵件內(nèi)容的其他特征幾個(gè)方面來進(jìn)行設(shè)置[1-4],在過濾規(guī)則中符合其中一條或多條的就認(rèn)為是垃圾郵件[1-4] 。

2.3基于郵件內(nèi)容的過濾技術(shù)

對(duì)于未知特征的新垃圾郵件,黑/白名單技術(shù)與過濾規(guī)則技術(shù)一般不能將垃圾郵件與正常郵件進(jìn)行有效的區(qū)分,這時(shí)誤判現(xiàn)象較高[1-4]。然而基于郵件內(nèi)容過濾技術(shù)的優(yōu)勢(shì)在于能夠過濾新的垃圾郵件。郵件內(nèi)容過濾技術(shù)在一定程度上能夠自動(dòng)地對(duì)這些郵件進(jìn)行識(shí)別,因此能夠近一步提高過濾系統(tǒng)的智能性,減少誤判現(xiàn)象。

因此針對(duì)目前垃圾郵件過濾技術(shù)發(fā)展的狀況,本文的作者在查閱有關(guān)的郵件過濾技術(shù)之后,提出了一種新的郵件過濾算法,以下是本文提出的郵件過濾算法描述。

3郵件的特征屬性

3.1區(qū)分垃圾郵件與正常郵件主要的屬性

①發(fā)件人地址和回復(fù)地址是否相同,②郵件抄送個(gè)數(shù),③郵件主題,④X-Mailer信頭,⑤Received:字段出現(xiàn)次數(shù),⑥是否含有偽造Received字段,⑦信體中關(guān)鍵詞個(gè)數(shù),⑧郵件附件類型,⑨郵件正文大小[5]。

在郵件的特性中:屬性郵件正文內(nèi)容的屬性有:①信體中關(guān)鍵詞個(gè)數(shù),②郵件附件類型,③郵件正文大小[5]。屬于郵件結(jié)構(gòu)的屬性有:①發(fā)件人地址和回復(fù)地址是否相同, ②郵件抄送個(gè)數(shù),③郵件主題,④XMailer信頭,⑤Received字段出現(xiàn)次數(shù),⑥是否含有偽造Received字段[5]。

3.2本文過濾垃圾郵件時(shí)采用的郵件屬性

郵件結(jié)構(gòu)特征屬性:①發(fā)件人地址和回復(fù)地址是否相同, ②郵件抄送個(gè)數(shù),③郵件主題,⑤Received:字段出現(xiàn)次數(shù),⑥是否含有偽造Received字段[5]。

郵件的正文內(nèi)容特征屬性:⑦信體中關(guān)鍵詞個(gè)數(shù),⑧郵件附件類型,⑨郵件正文大小[5]。

4黑/白名單對(duì)已知的郵件進(jìn)行分類

1)電子郵件中存在兩種屬性的郵件:①正常的郵件,②垃圾郵件。

2)黑名單的郵件是垃圾郵件,白名單的郵件是正常郵件。

5歐氏距離公式與相似性計(jì)算

5.1歐氏距離公式的簡(jiǎn)介

在聚類算法中研究人員常常使用歐氏距離作為聚類對(duì)象屬性之間相似性計(jì)算,常用的公式有歐氏距離公式和馬氏距離公式。因此本文采用歐氏距離作為衡量對(duì)象相似性的計(jì)算公式。

歐氏距離計(jì)算公式[6-7]:

5.3區(qū)分垃圾郵件與正常郵件主要的屬性等待識(shí)別的郵件A′與已知郵件A之間的相似性計(jì)算

函數(shù):f(x)=1-等待識(shí)別郵件的屬性已知郵件的屬性(1)

在本文中采用A′表示等待識(shí)別的郵件,用A表示已知郵件。

說明:y=f(x)的含義是等待識(shí)別的郵件偏離與已知郵件屬性的函數(shù)。

函數(shù):g(x)=1-f(x)(2)

說明:y=g(x)的含義是等待識(shí)別郵件與已知郵件相似性的函數(shù)。

分析和討論:

1)郵件A′與郵件A的相似性計(jì)算

(1)如果郵件A′的某個(gè)屬性值十分接近于郵件A的某個(gè)屬性值時(shí),那么XipXjp的比值將十分逼近1值。如果XipXjp的比值十分逼近1時(shí),那么函數(shù)f(x)=1-XipXjp就十分接近于0的值,這時(shí)郵件A′的屬性值偏離郵件A的屬性值將趨向于0。根據(jù)以上的分析有此結(jié)論:如果y=f(x)的值越小,則郵件A′的屬性偏離郵件A的概率就越小。

(2)如果y=f(x)的值越小,.那么g(x)=1-f(x)的值就越大,就表示郵件A′的屬性偏離郵件A屬性的概率就越小,那么郵件A′的屬性與郵件A的相似的概率就越大。根據(jù)以上的分析有此結(jié)論:此時(shí)等待識(shí)別郵件的屬性與已知郵件屬性的相似度就越強(qiáng)

2)郵件A′偏離郵件A屬性的計(jì)算

(1)如果郵件A′的某個(gè)屬性值大于郵件A的某個(gè)屬性值時(shí),那么XipXjp的比值將大于1時(shí)。當(dāng)XipXjp的比值越大時(shí),函數(shù)f(x)=1-XipXjp的值大于0的程度就越明顯,則這時(shí)郵件A′的屬性值偏離郵件A的程度就越大。

如果y=f(x)的值越大,那么g(x)=1-f(x)的值就越小,就表示郵件A′的屬性偏離郵件A的概率就越大。這時(shí)郵件A′的屬性與郵件A相似的概率就越小,則等待識(shí)別郵件的屬性與已知郵件屬性之間的相似度就越弱。

(2)如果郵件A′的某個(gè)屬性值小于郵件A的某個(gè)屬性值時(shí),那么XipXjp的比值將小于1時(shí)。當(dāng)XipXjp的比值越小時(shí),則郵件A′的屬性偏離郵件A的概率就越大。

如果y=f(x)的值越大,那么g(x)=1-f(x)的值就越小,就表示郵件A′的屬性偏離郵件A的概率就越大。這時(shí)郵件A′的屬性與郵件A的相似的概率就越小,則等待識(shí)別郵件的屬性與已知郵件屬性之間的相似度就越弱。

3)根據(jù)以上分析和討論,以下使用第5節(jié)和第6節(jié)中的MMTD算法實(shí)現(xiàn)郵件A′與郵件A屬性相似度上的匹配。

6歐氏距離公式與相似性計(jì)算

6.1中介真值程度度量知識(shí)簡(jiǎn)介

中介邏輯將事物的屬性描述成三種狀態(tài),事物屬性的兩個(gè)對(duì)立面和對(duì)立面的中間過渡狀態(tài)。在中介真值程度度量方法中,提出了事物超態(tài)屬性概念,該方法符合中介思想事物的屬性并且被劃分為五種狀態(tài):事物的兩個(gè)對(duì)立面,對(duì)立面的中間過渡狀態(tài)和事物超態(tài)對(duì)立面[12-13]。這里用符號(hào)表示為~P,P與P,超態(tài)+p與超態(tài)+p。現(xiàn)用數(shù)軸將以上的描述的概念表達(dá)如下[12-13]:

對(duì)數(shù)軸y=f(x)表示的含義有以下說明[12-13]:

數(shù)軸上用符號(hào)P與P分別表示事物對(duì)立面的兩個(gè)屬性,符號(hào)~P表示反對(duì)對(duì)立面的中間過渡狀態(tài)達(dá)事物的屬性。

1)如果數(shù)軸上數(shù)值點(diǎn)的位置逐步接近P,則事物A所具有P的屬性逐步增強(qiáng)

2)如果該數(shù)值點(diǎn)的位置落在真值P和 P的取范圍之間,則事物A的屬性就部分地具有P的屬性,同時(shí)又部分地具有P的屬性。

3)如果數(shù)軸上數(shù)值點(diǎn)的位置逐步接近P,則事物A所具有P的屬性逐步增強(qiáng)。

6.2距離比率函數(shù)及其定理

在中介真值程度度量的方法中,數(shù)軸上某數(shù)值點(diǎn)通過距離比率函數(shù)來計(jì)算事物所具有屬性的強(qiáng)弱。

7MMTD方法在郵件相似度計(jì)算上的應(yīng)用

7.1度量函數(shù)及其討論

度量函數(shù):y=f(x)=1-δ(1)

說明:δ表示的含義是由歐氏距離公式計(jì)算的的兩封郵件某種屬性之間的比值,如果兩封郵件屬性的相似程度較好,那么有δ≈1。

分析和討論:

1)δ=1時(shí)

如果y=f(x)=1-δ=0,那么表示這兩封郵件的屬性完全相同。這時(shí)郵件屬性的相似性強(qiáng)。

2)δ≈1時(shí)

如果y=f(x)=1-δ≈0,那么表示這封兩郵件屬性的相似性部分強(qiáng)部分弱。

3)δ>1時(shí)

如果y=f(x)=1-δ>1,y=f(x)的值越大,那么表示這兩封郵件的屬性值就相差很大,這時(shí)郵件屬性的相似性就弱,那么這兩封郵件屬于不相同郵件的幾率就越大。

4)δ<1時(shí)

如果y=f(x)=1-δ<1,y=f(x)的值越小,那么表示這兩封郵件的屬性值就相差很大,這時(shí)郵件屬性的相似性就弱,那么這兩封郵件屬于不相同郵件的幾率就越大。

7.2使用中介對(duì)郵件相似匹配的描述

1)以下用中介真值程度度量方法對(duì)郵件A′與郵件A的相似度做以下的研究:

數(shù)軸y=f(x)上有P, ~P,P三個(gè)數(shù)據(jù)區(qū)域,P代表郵件屬性的相似性強(qiáng),P代表郵件屬性的相似性弱,~P代表郵件屬性的相似性部分強(qiáng)部分弱。

從數(shù)軸上y=f(x)可以知道,在數(shù)軸上以~P為對(duì)稱中心,左右分別為P和P。

圖2中介真值程度度量一維函數(shù)的應(yīng)用

y=f(x)的值落在三個(gè)值域范圍(αr+εr,αl-εl),(αr-εr,αr+εr),(αl-εl,αl+εl)。~P的區(qū)域?yàn)?(αr+εr,αl-εl),P的區(qū)域?yàn)椋é羠-εr,αr+εr),P的區(qū)域?yàn)椋é羖-εl,αl+εl)。P的真值為1,P的真值為0。

2)通過距離比率函數(shù)hT(x)對(duì)y值的計(jì)算,如果有

(1)若函數(shù)hT(x)=1,y值落在區(qū)域(αl-εl,αl+εl),則此時(shí)郵件的屬性相似性強(qiáng)。

(2)若函數(shù)hT(x)=0,y值落在區(qū)域(αr-εr,αr+εr),則此時(shí)郵件的屬性相似性弱。

(3)若函數(shù)hT(x)= d(y,αr-εr)d(αl-εl,αr+εr),y值落在區(qū)域(αr+εr,αl-εl),則此時(shí)郵件屬性的相似性部分強(qiáng)部分弱。

8郵件的過濾算法

1)使用郵件的黑/白對(duì)郵件的屬性進(jìn)行分類:①正常郵件,②垃圾郵件。

2)使用相似性計(jì)算算法對(duì)未知郵件與已知郵件相似度進(jìn)行計(jì)算。

3)使用MMTD算法對(duì)相似性的計(jì)算結(jié)果進(jìn)行判定,為郵件過濾提供有效的依據(jù)。

4)對(duì)垃圾郵件進(jìn)行過濾。

9結(jié)束語

為了應(yīng)對(duì)網(wǎng)絡(luò)中的垃圾郵件用戶帶來的危害性,郵件管理人員必須有效的區(qū)分垃圾郵件和正常郵件,從而將垃圾郵件從郵件中過濾除去。本文提出的郵件過濾算法采用了兩種智能性算法,相似性計(jì)算算法和MMTD算法,該算法在一定程度能夠自動(dòng)識(shí)別未知屬性的郵件,能夠減少在過濾郵件時(shí)的誤判率,提高郵過濾技術(shù)的精確性。但已知郵件的特征選取時(shí)是否具有選擇性,如何選取具有代表的郵件屬性還需要進(jìn)一步的研究。

最后該垃圾過濾技術(shù)與傳統(tǒng)垃圾過濾技術(shù)改進(jìn)之處在于:①改進(jìn)了黑白名單的郵件過濾技術(shù)不能發(fā)現(xiàn)新的垃圾郵件的缺點(diǎn),②改進(jìn)了基于過濾規(guī)則的郵件過濾技術(shù),由郵件屬性的精確匹配變?yōu)猷]件屬性的模糊匹配,③根據(jù)已知的郵件特征能夠發(fā)現(xiàn)未知的垃圾郵件。

參考文獻(xiàn)

[1]曾小寧.一種新的垃圾郵件過濾技術(shù)的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2009, 26(7):98-101.

[2]范黎明.一種用于垃圾郵件過濾的中文關(guān)鍵詞匹配算法[J].河南科技大學(xué)學(xué)報(bào),2006,27(5):35-37.

[3]陳志賢.垃圾郵件過濾技術(shù)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2009,26(5):1612-1615.

[4]陳治平.基于自學(xué)習(xí)K近鄰的垃圾郵件過濾算法[J].計(jì)算機(jī)應(yīng)用,2005(25):7-9.

[5]潘文鋒.基于內(nèi)容的垃圾郵件過濾研究[D].中國科學(xué)院研究生院,2004.

[6]孟海東,張玉英,宋飛燕.一種基于加權(quán)歐氏距離聚類方法的研究[J].計(jì)算機(jī)應(yīng)用,2006,26(12):152-153.

[7]董旭,魏振軍.一種加權(quán)歐氏距離聚類方法[J].信息工程大學(xué)學(xué)報(bào),2005, 6(1):23-25.

[8]彭洪,張東娜,吳鐵峰.惡意程序檢測(cè)的粗糙集方法[J].計(jì)算機(jī)應(yīng)用與軟件,2005,22(7):124-125.

[9]邵峰晶,于忠清,王金龍,等編著.數(shù)據(jù)挖掘原理與算法[M].科學(xué)出版社,2009.

[10]羅森林,馬駿,潘麗敏編著.數(shù)據(jù)挖掘理論與技術(shù)[M].電子工業(yè)出版時(shí),2013.

[11]MITCHELL T著.機(jī)器學(xué)習(xí)[M].機(jī)械工業(yè)出版社,2013.

[12]洪龍,肖奚安,朱梧槚.中介真值程度的度量及其應(yīng)用(I)[J].計(jì)算機(jī)學(xué)報(bào),2006,(12):2186-2193.

[13]朱梧槚,肖奚安.數(shù)學(xué)基礎(chǔ)與模糊數(shù)學(xué)基礎(chǔ)[J].自然雜志,1980,(7):723-726.

主站蜘蛛池模板: 亚洲精品无码高潮喷水A| 久久永久免费人妻精品| AV在线麻免费观看网站| 国产高清精品在线91| 超碰aⅴ人人做人人爽欧美| 伊人久久大香线蕉aⅴ色| 日韩国产亚洲一区二区在线观看| 成人在线观看一区| 亚洲精品图区| 夜色爽爽影院18禁妓女影院| 欧美日本激情| 国产麻豆91网在线看| 日韩无码一二三区| 久久综合成人| 亚洲动漫h| 专干老肥熟女视频网站| 日韩不卡高清视频| 国产系列在线| 成人日韩精品| 国内精品久久久久鸭| 亚洲—日韩aV在线| 婷婷综合在线观看丁香| 中文无码毛片又爽又刺激| 国产99视频精品免费视频7| 亚洲综合专区| 18禁高潮出水呻吟娇喘蜜芽| 在线色综合| 成人一级黄色毛片| 精品小视频在线观看| 无码日韩人妻精品久久蜜桃| 日韩毛片视频| 国产美女精品一区二区| www.av男人.com| 久久婷婷六月| 精品人妻系列无码专区久久| 亚洲国产中文在线二区三区免| AV天堂资源福利在线观看| 亚洲人成在线精品| 99精品国产自在现线观看| 亚洲高清免费在线观看| 免费女人18毛片a级毛片视频| 一级成人a毛片免费播放| m男亚洲一区中文字幕| 亚洲国产成人精品无码区性色| 久久五月天国产自| 亚洲人免费视频| 永久免费av网站可以直接看的| 国产三级毛片| 九九九久久国产精品| 色综合婷婷| 日韩精品免费一线在线观看| 国产精品hd在线播放| 九九热这里只有国产精品| 婷婷在线网站| 丁香婷婷久久| 亚洲欧美一级一级a| 亚洲自偷自拍另类小说| 九九热精品在线视频| 国产欧美中文字幕| 久久熟女AV| 91国内在线观看| 国产精品福利尤物youwu | 亚洲妓女综合网995久久| 国产www网站| 精品自窥自偷在线看| 先锋资源久久| 欧美成人国产| 久久不卡精品| 亚洲天堂网视频| 97国产精品视频人人做人人爱| 国产亚洲欧美在线视频| 99人体免费视频| 5555国产在线观看| 亚洲浓毛av| 超清人妻系列无码专区| 又爽又黄又无遮挡网站| 狠狠色综合网| 成人国产免费| 久久国产V一级毛多内射| 国产主播一区二区三区| a国产精品| 久久免费视频6|