999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

樸素貝葉斯方法在文本分類中的運用

2018-02-25 11:54:22史琬瑩
電子技術與軟件工程 2018年11期

史琬瑩

摘要 在互聯網飛速發展的背景下,面對龐大的數據,我們急需一種有效的數據分類方式,樸素貝葉斯就是在這種情況下得廣泛關注的。樸素貝葉斯是一種基于條件獨立性和貝葉斯定理的分類方法。本文通過樸素貝葉斯原理,樸素貝葉斯分類流程,模型評估,介紹了如何用樸素貝葉斯方法處理文本分類問題。

[關鍵詞]樸素貝葉斯 特征選擇 文本分類

1 引言

隨著互聯網的飛速發展,海量數據注入到通訊設備中。如此大量的信息就讓信息檢索和數據挖掘的重要性更加突出。文本分類作為數據挖掘的一部分也逐漸被人們重視起來。其中文本分類的主要內容是在預先給定的類標簽的集合下,根據文章內容,確定它的類別。當前比較流行的文本分類方法主要包涵文本的表示,分類方法及效果,評估,這三部分。我們接下來將要通過三個方面來介紹:文本表示,分類器構造和分類器評估。

2 樸素貝葉斯原理

樸素貝葉斯是基于條件獨立性和貝葉斯定理的分類方法。

2.1 條件獨立性

條件獨立性是指集合中任意兩個事件均為相互獨立事件,不存在依賴關系,滿足:

P(XY|Z)=P(X|Z)*P(Y|Z)

(1)

2.2 條件概率

條件概率是指事件x在另一個事件y發生的條件下,其發生的概率,可以表示為:

其中,P(X)表示X的先驗概率或者稱為邊緣概率。P(Y|X)表示己知事件x發生后事件Y發生的條件概率,也稱Y的后驗概率。

2.3 全概率公式

設實驗E的樣本空間為S,Y1,…,Yn為S的一個劃分,且P(Yi》O(i=l,2,…,n),則對樣本空間中的任一事件X,恒有

P(X)=∑niP(Yi)P(XIYi)

(3)

2.4 貝葉斯公式

設Y1,Y2,…,Yn為樣本空間的一個劃分,X為Ω中的任一事件,且P(X)>O,則恒有

3 樸素貝葉斯分類流程

3.1 特征選擇

本文使用TFIDF做特征選擇。TF-IDF是一種用以評測某一個文件或是文件集,在所有語料中重要程度的統計方法,字詞的重要性與其在文件中出現的次數成正比,與在語料庫中出現的頻率成反比。

詞頻(TF)表示詞語在文件中出現的頻率。為了減小因文件長度造成的誤差,通常以頻率表示這個數字。

對于在某個特定文件中的文本,它的重要性通常可以表示為:

文件頻率(DF) DF,表示包含詞語t的文檔個數。

逆向文件頻率(IDF)用來表示詞語在文件中的普遍程度。用總文件數與包含該詞語的文件數目相除,可以得到該詞在文件中的普遍程度。若包含該詞的文件越少,則IDF值越大,則可以說明該詞區分某一類文件的能力較強。結算公式為:

在計算得到每個詞匯的TFIDF值以后,按照值的大小進行遞減排序,選出TFIDF值較大的部分詞匯作為特征。

3.2 樸素貝葉斯模型計算流程

樸素貝葉斯模型的計算流程如下所示:

(1)設x為一個待分類項;

(2)有類別集合C={y1,…ym);

(3)計算P(y1|x),…,P(yn|x);

(4) 如果P(yk|x)=max{P(y1|x),…, P(yn|x}),則x屬于yk。

根據上述分析,樸素貝葉斯流程如圖1表示。

4 模型評估

4.1 準確率

準確率是最常用的分類指標。就最常見的二分類問題來說,模型的目的是分析出正類和負類。在測試集合中,被正確識別的量,除以測試集中的總量(包括把正樣本識別為負樣本以及把負樣本識別為負樣本的情況)就是準確率。

4.2 精確度和召回率

精確度容易和準確率混為一談。其實,精確度針對的只是預測正確的樣本中,正樣本的數量。它可以由預測正確的樣本中,正樣本的數量除以模型中所有正樣本的數量總數得到。表現為預測為正的樣本中,真正是正的數目。

召回率表示對于測試集中的正樣本,分類器能識別出來的概率,它是用預測正確的正樣本數目除以測試集中所有的正樣本數目計算得出的。

4.3 混淆矩陣

混淆矩陣將實際樣本數和預測樣本數放到同一表格中進行分析的方法,是用來計算準確率、精確度、召回率常用的一種方法。對于二類分類問題而言,樣本一般會被標為正類和負類,其中正類是我們關注的類型。

參考文獻

[1]蘇金樹,張博鋒,徐昕,基于機器學習的文本分類技術研究進展[J],軟件學報,2006,17 (09):1848-1859.

[2]李學明,李海瑞,薛亮,何光軍,基于信息增益與信息熵的TFIDF算法[J].計算機工程,2012,38 (08):37-40.

主站蜘蛛池模板: 成人综合久久综合| 无码免费试看| 91免费国产高清观看| 色妺妺在线视频喷水| 成人午夜视频在线| 日韩经典精品无码一区二区| 九色在线视频导航91| 99人妻碰碰碰久久久久禁片| 在线视频精品一区| 97人妻精品专区久久久久| 777午夜精品电影免费看| 久久精品视频一| 亚洲一区无码在线| 在线观看热码亚洲av每日更新| 国产成人一区在线播放| 久久黄色免费电影| 五月激激激综合网色播免费| 亚洲熟女偷拍| 日韩欧美91| 亚洲人成色在线观看| 久久综合干| 国产美女在线免费观看| 亚洲精品自拍区在线观看| 亚洲大学生视频在线播放| 强奷白丝美女在线观看| www.亚洲一区| 全免费a级毛片免费看不卡| 婷婷中文在线| 亚洲欧美天堂网| 无码中文字幕乱码免费2| 强乱中文字幕在线播放不卡| 91香蕉视频下载网站| 国产精品一区二区在线播放| 亚洲精品综合一二三区在线| 国产人人乐人人爱| 国国产a国产片免费麻豆| 国产一区二区网站| 永久免费AⅤ无码网站在线观看| 日韩黄色大片免费看| 手机在线国产精品| 国产精品吹潮在线观看中文| 日韩不卡高清视频| 国产黄网站在线观看| 456亚洲人成高清在线| 婷婷六月在线| 成人91在线| 国产农村1级毛片| 超碰aⅴ人人做人人爽欧美 | 成人年鲁鲁在线观看视频| 色哟哟国产精品| www.国产福利| 精品国产美女福到在线不卡f| 欧洲熟妇精品视频| 国产欧美视频在线| 国产永久在线视频| 天天躁狠狠躁| 亚洲一欧洲中文字幕在线| 国产真实二区一区在线亚洲| 欧美午夜在线观看| 手机在线国产精品| 国产精品中文免费福利| 欧美成在线视频| 亚洲精品福利视频| 亚洲欧美在线综合图区| 国产精品一区二区久久精品无码| 亚洲欧美人成人让影院| 色综合天天综合| 日韩人妻少妇一区二区| 成年A级毛片| 国产专区综合另类日韩一区| 亚洲三级片在线看| 婷婷综合在线观看丁香| 日韩在线成年视频人网站观看| 无码人中文字幕| 免费AV在线播放观看18禁强制| 美女无遮挡拍拍拍免费视频| 亚洲综合经典在线一区二区| 亚洲VA中文字幕| 亚洲娇小与黑人巨大交| 无码日韩人妻精品久久蜜桃| 国产亚洲精品在天天在线麻豆| 亚洲欧洲一区二区三区|