999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于用戶知識的中文電子郵件分類

2007-01-01 00:00:00謝偉全李一軍
計算機應用研究 2007年3期

摘要:在垃圾郵件分類和樸素貝葉斯算法研究的基礎上,提出了基于用戶知識的貝葉斯分類算法。通過在分類過程中引入用戶知識,克服了電子郵件內容是非結構化、解讀依賴于用戶的問題。實驗證明,面向用戶知識的貝葉斯分類算法在商業郵件分類中比普通貝葉斯算法有更好的性能。

關鍵詞:電子郵件分類;樸素貝葉斯;文本分類;用戶知識表示

中圖分類號:TN915文獻標志碼:A

文章編號:1001—3695(2007)03—0263—02

隨著互聯網的發展,越來越多的用戶通過互聯網來交流,電子郵件成為人們日常生活交流的重要工具。用戶每星期可能收到成百上千的電子郵件,但是大部分是垃圾郵件。據時代雜志估計,1994年人們發送了7760億封電子郵件,1997年則是26000億封,2000年更是達到了66000億封。電子郵件特別是垃圾郵件的泛濫已經嚴重影響電子商務活動的正常開展。人們通常要花費很多時間對電子郵件進行處理,但效果卻不明顯,嚴重影響了正常的商務活動。對郵件進行合理的分類,為用戶挑選出有意義的電子郵件是所有用戶的迫切要求。

電子郵件分類的研究包括兩方面的內容,一方面是電子郵件分類應用的研究;另一方面是電子郵件分類算法的研究。

從電子郵件分類的應用來說,其他研究者進行了多方面的研究,研究的內容有郵件中心內容的析取、郵件的分類、郵件的應答、與企業的業務開展緊密結合。KenricMock提出了一個電子郵件分類的實驗性框架。DerekLam等人開發了電子郵件內容摘要系統。GerdMaderlechner提出了根據格式與內容進行文檔分類的實驗系統。AniNenkova研究了在聯系中心怎樣開展電子郵件分類。SungShunWeng開展了根據電子郵件內容進行自動應答的研究。目前電子郵件的分類應用研究集中于垃圾郵件分類和反垃圾郵件的研究。但是把電子郵件分類成垃圾郵件和非垃圾郵件還不能滿足企業在電子商務和客戶關系管理中的應用需求。電子郵件分類應用的趨勢是把郵件分類技術應用到各種各樣的商業環境中,提高用戶處理電子郵件的效率。本文研究的目的就是要把郵件分類的技術應用到電子商務中,進行商業郵件分類,把電子郵件分類成商業來往郵件和私人郵件。

從分類算法方面來說,常用的文檔和郵件分類算法有下面四種:決策樹、貝葉斯分類、K-NN和SVM。決策樹算法是一種歸納推理的算法;貝葉斯是一種概率學習方法;K-NN是基于實例學習的;SVM則為核方法的一種應用。當前貝葉斯方法是最為成熟和應用最廣泛的電子郵件分類方法。MehranSahami提出了利用貝葉斯方法進行垃圾郵件分類。IonAndroutsopouos對貝葉斯分類方法的性能進行了評估。LeZhang對貝葉斯分類方法和其他統計學習方法進行了比較。AlexanderK.Seewald研究了結合貝葉斯方法和規則推理的垃圾郵件分類方法。LudovicDenoyer提出利用貝葉斯方法對半結構化的文檔進行分類。

目前的郵件分類方法大多是將郵件分為垃圾郵件與非垃圾郵件,從而實現對郵件的自動過濾。但是經過濾后的電子郵件數量還是巨大的,用戶需要花費大量的時間來處理電子郵件。對已過濾的電子郵件進行分類,把電子郵件分成商業往來郵件和個人往來郵件,可以為用戶處理郵件提供支持,使用戶先處理比較重要的郵件,提高用戶處理郵件的效率。對于電子郵件這樣一種非結構化的文檔,現在的分類算法只考慮了電子郵件本身的客觀知識,不能很好地滿足這一應用的要求。本文提出了基于用戶知識的電子郵件分類算法,通過結合電子郵件本身的客觀知識和用戶的主觀知識,對電子郵件進行商業應用的分類。

1研究方法

1.1基本的貝葉斯分類器

樸素貝葉斯分類器是基于貝葉斯理論構造的。貝葉斯理論是貝葉斯學習方法的基礎。貝葉斯理論如下:

其中,D是訓練數據集,H是備選的假設集,h是任一個備選的假設。

在進行貝葉斯訓練的過程中關鍵是對P(D|h)進行估計,通常情況下可以用頻數來估計,即

1.2用于文本分類的樸素貝葉斯分類器

當使用上面的方法來估算一篇文檔的目標值時,我們假設詞組的概率與詞組在文檔中的位置無關,每個詞組在任何一個位置出現的概率都是一樣的。根據極大后驗假設有

1.3電子郵件分類算法

在電子郵件分類的過程中,把用戶的知識考慮進去以提高算法的正確性。用戶的背景或知識可以用關鍵字來表示,用戶根據自己的行業知識、社會背景等,設定每一類電子郵件的關鍵字,分別對關鍵字設定權重,各個類別的關鍵字應該具有更高的先驗概率。這實際是一種把主觀知識應用到先驗概率的估計當中。要在算法中利用用戶知識,可以利用如下所示的加權的m-估計:

在實驗模型中,每個用戶都有他自己關于關鍵字集與第一個關鍵字的權重W(wk),所以加權的m-estimate如式(6)所示。

所分類的電子郵件是中文電子郵件,從語義上來說,不同詞性的詞在語義上的作用是不同的。有些詞用于表達內容,有些則只是用于表達語氣,很明顯根據內容對文檔進行分類時,只需過濾出表達主要內容的詞就可以了。在算法中,加入了詞性過濾的步驟。在文檔分類之前,會先對文檔進行分詞,并根據詞性對詞組進行過濾,只保留名詞和動詞來代表一篇文檔,這樣可以提高算法的效率。實驗中使用了ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem)對文檔進行分詞,分詞后每個詞組都有詞性。

電子郵件的分類算法的訓練過程如下所示:

Examples為一組文本文檔以及它們的目標值。V為所有可能目標值的集合。此函數作用是學習概率項,它描述了從類別中的一個文檔隨機抽取一個單詞為中文詞組的概率。該函數也學習類別的先驗概率。

(1)對文檔進行分詞,并根據詞性對詞組進行過濾,用Examples′表示根據分詞和過濾的文檔集。

(2)Vocabulary←在Examples′中出現的單詞的集合。

2實驗與結果

2.1實驗結果的評價標準

采用偶然事件表(表1)對分類算法進行評測。

2.2實驗結果

實驗中使用的訓練數據集包括了120封電子郵件,其中60封是個人郵件,60封是商業來往郵件。測試數據集包括30封個人郵件和30封商業來往郵件。實驗結果顯示,改進的算法可以提高郵件分類的準確率,如表2—4所示。

3結束語

將電子郵件分類成商業來往郵件和個人來往郵件是電子商務發展的需要。對于電子郵件這樣一種非結構化的文檔,現在的分類算法只考慮了電子郵件本身的客觀知識,不能很好地滿足這一應用的要求。本文在對現在的文本分類算法和垃圾郵件分類研究的基礎上提出了基于用戶知識的電子郵件分類算法,通過結合電子郵件本身的客觀知識和用戶的主觀知識,對電子郵件進行商業應用的分類,解決了電子郵件是一種非結構化文檔,要根據用戶背景知識進行理解這一問題。

本文是通過用戶自定義關鍵字,并為不同關鍵字設定權重的方法來表現用戶知識的。怎樣更好地在算法中表示用戶知識,提高算法的效率是下一步研究的主要工作。

本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。

主站蜘蛛池模板: 男人的天堂久久精品激情| 久久精品视频亚洲| 欧美成人综合视频| 五月婷婷中文字幕| 69国产精品视频免费| 内射人妻无套中出无码| 四虎国产成人免费观看| 97久久精品人人| 丁香婷婷久久| 欧美69视频在线| 一级福利视频| 美女啪啪无遮挡| 凹凸国产熟女精品视频| 久久久久国产精品嫩草影院| 91福利在线观看视频| 99久久免费精品特色大片| 国产成人1024精品| 国产剧情一区二区| 婷婷色中文| 亚洲人成日本在线观看| 色噜噜在线观看| 国产亚洲精品精品精品| 免费毛片视频| 国产成人精品无码一区二| 成人综合网址| 国产一区二区丝袜高跟鞋| 亚洲欧洲日韩久久狠狠爱| 欧美日韩在线第一页| 成人精品区| 亚洲成人免费看| 亚洲天堂视频网| 国产精品视频猛进猛出| 日韩在线欧美在线| 久久这里只精品热免费99| 亚洲性视频网站| 欧美日韩导航| 高清码无在线看| 免费一级毛片| 免费激情网址| 青青草原国产免费av观看| 亚洲无码精彩视频在线观看| 在线观看亚洲精品福利片| 免费看美女自慰的网站| 精品欧美视频| 夜夜操狠狠操| 少妇人妻无码首页| 真人免费一级毛片一区二区| 香蕉久久国产精品免| 国产毛片高清一级国语| 欧美色综合网站| 久久99国产综合精品女同| 国产综合无码一区二区色蜜蜜| 中文字幕无码中文字幕有码在线| 亚洲欧美日韩久久精品| 综合人妻久久一区二区精品 | 日韩视频精品在线| 欧美成人区| 无码国产伊人| 国产成人免费观看在线视频| 亚洲欧美一区在线| 中文字幕不卡免费高清视频| 日韩欧美在线观看| 国产一级毛片网站| 国产欧美日韩视频怡春院| 国产精品毛片一区| 91精品福利自产拍在线观看| 欧美成人精品高清在线下载| 99爱视频精品免视看| 国产欧美自拍视频| 日韩精品专区免费无码aⅴ| 亚洲精品不卡午夜精品| 69精品在线观看| 美女内射视频WWW网站午夜| 亚洲成人播放| 亚洲福利视频一区二区| 国产福利微拍精品一区二区| 国产又色又爽又黄| 国产精品xxx| 国产毛片高清一级国语| 福利在线不卡| 亚洲首页在线观看| 一本综合久久|