史琬瑩

摘要 在互聯網飛速發展的背景下,面對龐大的數據,我們急需一種有效的數據分類方式,樸素貝葉斯就是在這種情況下得廣泛關注的。樸素貝葉斯是一種基于條件獨立性和貝葉斯定理的分類方法。本文通過樸素貝葉斯原理,樸素貝葉斯分類流程,模型評估,介紹了如何用樸素貝葉斯方法處理文本分類問題。
[關鍵詞]樸素貝葉斯 特征選擇 文本分類
1 引言
隨著互聯網的飛速發展,海量數據注入到通訊設備中。如此大量的信息就讓信息檢索和數據挖掘的重要性更加突出。文本分類作為數據挖掘的一部分也逐漸被人們重視起來。其中文本分類的主要內容是在預先給定的類標簽的集合下,根據文章內容,確定它的類別。當前比較流行的文本分類方法主要包涵文本的表示,分類方法及效果,評估,這三部分。我們接下來將要通過三個方面來介紹:文本表示,分類器構造和分類器評估。
2 樸素貝葉斯原理
樸素貝葉斯是基于條件獨立性和貝葉斯定理的分類方法。
2.1 條件獨立性
條件獨立性是指集合中任意兩個事件均為相互獨立事件,不存在依賴關系,滿足:
P(XY|Z)=P(X|Z)*P(Y|Z)
(1)
2.2 條件概率
條件概率是指事件x在另一個事件y發生的條件下,其發生的概率,可以表示為:
其中,P(X)表示X的先驗概率或者稱為邊緣概率。P(Y|X)表示己知事件x發生后事件Y發生的條件概率,也稱Y的后驗概率。
2.3 全概率公式
設實驗E的樣本空間為S,Y1,…,Yn為S的一個劃分,且P(Yi》O(i=l,2,…,n),則對樣本空間中的任一事件X,恒有
P(X)=∑niP(Yi)P(XIYi)
(3)
2.4 貝葉斯公式
設Y1,Y2,…,Yn為樣本空間的一個劃分,X為Ω中的任一事件,且P(X)>O,則恒有
3 樸素貝葉斯分類流程
3.1 特征選擇
本文使用TFIDF做特征選擇。TF-IDF是一種用以評測某一個文件或是文件集,在所有語料中重要程度的統計方法,字詞的重要性與其在文件中出現的次數成正比,與在語料庫中出現的頻率成反比。
詞頻(TF)表示詞語在文件中出現的頻率。為了減小因文件長度造成的誤差,通常以頻率表示這個數字。
對于在某個特定文件中的文本,它的重要性通常可以表示為:
文件頻率(DF) DF,表示包含詞語t的文檔個數。
逆向文件頻率(IDF)用來表示詞語在文件中的普遍程度。用總文件數與包含該詞語的文件數目相除,可以得到該詞在文件中的普遍程度。若包含該詞的文件越少,則IDF值越大,則可以說明該詞區分某一類文件的能力較強。結算公式為:
在計算得到每個詞匯的TFIDF值以后,按照值的大小進行遞減排序,選出TFIDF值較大的部分詞匯作為特征。
3.2 樸素貝葉斯模型計算流程
樸素貝葉斯模型的計算流程如下所示:
(1)設x為一個待分類項;
(2)有類別集合C={y1,…ym);
(3)計算P(y1|x),…,P(yn|x);
(4) 如果P(yk|x)=max{P(y1|x),…, P(yn|x}),則x屬于yk。
根據上述分析,樸素貝葉斯流程如圖1表示。
4 模型評估
4.1 準確率
準確率是最常用的分類指標。就最常見的二分類問題來說,模型的目的是分析出正類和負類。在測試集合中,被正確識別的量,除以測試集中的總量(包括把正樣本識別為負樣本以及把負樣本識別為負樣本的情況)就是準確率。
4.2 精確度和召回率
精確度容易和準確率混為一談。其實,精確度針對的只是預測正確的樣本中,正樣本的數量。它可以由預測正確的樣本中,正樣本的數量除以模型中所有正樣本的數量總數得到。表現為預測為正的樣本中,真正是正的數目。
召回率表示對于測試集中的正樣本,分類器能識別出來的概率,它是用預測正確的正樣本數目除以測試集中所有的正樣本數目計算得出的。
4.3 混淆矩陣
混淆矩陣將實際樣本數和預測樣本數放到同一表格中進行分析的方法,是用來計算準確率、精確度、召回率常用的一種方法。對于二類分類問題而言,樣本一般會被標為正類和負類,其中正類是我們關注的類型。
參考文獻
[1]蘇金樹,張博鋒,徐昕,基于機器學習的文本分類技術研究進展[J],軟件學報,2006,17 (09):1848-1859.
[2]李學明,李海瑞,薛亮,何光軍,基于信息增益與信息熵的TFIDF算法[J].計算機工程,2012,38 (08):37-40.