遲慶云,劉夢琳,姜振鳳,胡 華 (棗莊學院信息科學與工程學院,山東 棗莊 277160)
特征提取方法對樸素貝葉斯文本分類器的影響分析
遲慶云,劉夢琳,姜振鳳,胡 華 (棗莊學院信息科學與工程學院,山東 棗莊 277160)
特征提取方法在文本分類過程中起著重要作用,文本分類的效果受特征提取方法選擇的直接影響。采取信息增益和文檔頻率2種特征提取方法,對樸素貝葉斯分類模型的查全率和準確率進行驗證比較。研究表明,樸素貝葉斯分類器的分類效果隨著維數(shù)的增加先增加后減少;在維數(shù)一定時,信息增益(IG)的分類效果明顯好于文檔頻率(DF)的分類效果。
文本分類;樸素貝葉斯文本分類;特征提取
文本分類能夠改善文本信息雜亂的狀況,其廣泛應用于文本索引、文本信息過濾、自動元數(shù)據(jù)的產(chǎn)生、詞意辨析、Web資源分類和應用程序中的文本管理等方面,其中樸素貝葉斯文本分類算法在垃圾郵件過濾、入侵檢測等領(lǐng)域表現(xiàn)出較好的性能。此外,特征空間的高維性一直是文本分類的難題。在高維特征空間中,特征之間由于可能存在不相關(guān)性或者是冗余性,必然會出現(xiàn)過學習現(xiàn)象,導致時間與空間開銷大。為了降低計算復雜度和提高分類準確率,必須降低特征空間維數(shù),而特征提取是降低特征空間維數(shù)的較好的解決方法。下面,筆者分析了特征項提取方法對樸素貝葉斯文本分類器的影響。
研究表明,貝葉斯分類算法能從各個方面進行考慮,其測試結(jié)果出錯率較小[1]。計算機通過觀察訓練數(shù)據(jù)的特點,來猜測一個可能的分類規(guī)則,完成訓練階段的最終產(chǎn)品——分類器。訓練過程一般花費時間比較長,系統(tǒng)將所有文本訓練一次后,將假設訓練語料包含N個文本D={D1,D2,…,Dn},上述文本分屬于M個文本類別C={C1,C2,…,Cm},訓練語料集共有L個文本特征詞W={W1,W2,…,WL}。
當文本Di屬于類別Cj時,則有P(Cj|Di)=1,否則P(Cj|Di)=0。如果給定文本類別變量,則文本類別Cj的先驗概率估計為:

(1)
若用F(Wk,Di)表示特征詞Wk在文本Di中出現(xiàn)的次數(shù),則特征詞Wk在類別Cj中的概率估計為:
任何文本都可視為一系列有序排列的特征詞的集合,在貝葉斯分類器通過概率方法對數(shù)據(jù)如何生成制定了一個強有力的獨立性假設,并得出類別Cj中產(chǎn)生文本Di的概率為:
(3)
根據(jù)測試文本特征數(shù)據(jù)計算測試文本屬于每個類別的概率,然后按照最大概率對測試文本進行分類。測試文本Di屬于類別Cj的概率:

(4)
文本向量通常采用向量空間模型進行描述。在向量空間模型中,如果不經(jīng)過特征提取,不將非結(jié)構(gòu)化的原始數(shù)據(jù)轉(zhuǎn)化為可處理的結(jié)構(gòu)化的形式,而是直接用分詞算法和詞頻統(tǒng)計方法得到的特征項來表示文本向量中的各個維,那么所得到的向量維度將非常大。這種高維的文本向量必然使文本分類過程效率非常低下,不但給后續(xù)工作帶來巨大計算開銷,而且會降低分類算法的精確性[2]。因此,需要通過特征提取方法來降低特征空間維數(shù),即使用某種算法從原始文本中抽取出的特征詞進行量化來表示文本信息,用來描述和代替原文本,從而達到降低文本向量空間的目的。采取上述方法不但能選出能夠很好反映文本內(nèi)容的詞,提高文本分類的效率,而且能降低系統(tǒng)的開銷。
在文本分類中,用于特征提取的方法主要包括文檔頻率、信息增益等。選擇正確的特征提取方法對于對提高文本分類正確率有著十分重要的影響。
2.1文檔頻率
文檔頻率(DF)是指在整個數(shù)據(jù)集中有多少個文本包含某個單詞。對于文檔頻率,通常會設定一個閾值。針對訓練文本集中每個特征的文檔頻率,若該項的DF值小于閾值,表示該特征是稀有詞,信息含量太少,沒有代表性,應作為噪音加以刪除;若其DF值大于某個閾值也應將其去除,因為其代表了“沒有區(qū)分度”的極端情況。總之,在文本分類中使用文檔頻率進行特征提取具有操作簡便、計算迅速的特點[3]。
2.2信息增益
信息增益(IG)是一種基于熵的評估方法,其計算公式如下:

(5)

文檔集中某個特征項對類的貢獻越大,必然對類也越重要,那么它的信息增益值越大。在類分布和特征值分布高度不平衡的情況下,使用該方法的效果會大大降低,因為此時的函數(shù)值由不出現(xiàn)的特征決定,絕大多數(shù)類都是負類,絕大多數(shù)特征都不會出現(xiàn)。
3.1試驗數(shù)據(jù)
試驗語料庫分為訓練語料庫和測試語料庫2部分,從復旦大學中文語料庫中下載,訓練集由一組已經(jīng)完成分類的文本組成,用來歸納各個類別的特性以構(gòu)造分類器,分別為教育、醫(yī)藥、計算機、經(jīng)濟和環(huán)境。測試集用于測試分類器分類效果的文檔的集合。
3.2文本預處理
針對訓練語料庫分詞預處理部分,采用中科院計算所漢語詞法分析系統(tǒng)(ICTCLAS)進行分詞預處理、數(shù)據(jù)清洗和去除停用詞[4]。ICTCLAS把訓練語料庫中的句子轉(zhuǎn)換成詞,對標點、助詞、連詞、介詞、量詞等進行清洗,并去掉文本中存在的助詞、副詞、連詞、代詞、介詞、嘆詞、量詞、數(shù)詞等。
3.3特征項選擇
特征選擇模塊包括詞頻統(tǒng)計和文本特征選擇。詞頻統(tǒng)計是文本特征項權(quán)值計算的基礎(chǔ),其通過統(tǒng)計一定長度的語言材料計算每個詞出現(xiàn)的次數(shù)并分析統(tǒng)計結(jié)果。文本特征選擇模塊采用信息增益(IG)和文檔頻率(DF)方法,從原始特征項中抽取一定數(shù)量的特征項,從而達到降維目的并形成特征項詞典。在文檔預處理后,將DF和IG特征選擇后的前20個詞取出進行分析。

表1 采用DF和IG特征提取方法提取的特征詞
3.4試驗結(jié)果分析

圖1 特征提取的維數(shù)為3000維時樸素貝葉斯分類算法

從圖1可以看出,“交通”和“體育”2個類別的查全率、查準率和F1值都為100%;“經(jīng)濟”的查全率為77.8%,相對較低;“教育”的查準率只有71.4%,是所有類別中最低的,這是由于這上述類別的訓練文本和測試文本的相似度相對較低的緣故[6]。
測試文檔提取1000維、2000維、3000維、4000維的試驗結(jié)果如圖2所示。

圖2 測試文檔提取1000維、2000維、3000維、 圖3 不同方法提取特征時性能比較圖
由圖2可知,樸素分類器的分類效果隨著維數(shù)的改變而改變,當文檔特征值提取維數(shù)在3000維時,分類器的分類效果比較明顯。在特征提取時采用信息增益(IG)和文檔頻率(DF)提取3000維的試驗結(jié)果如圖3所示。由圖3可知,信息增益(IG)的分類效果明顯好于文檔頻率(DF)的分類效果,這是因為DF所確定的值,即訓練集合中單詞發(fā)生的文本數(shù)在總體上是很小的,但在部分文本中出現(xiàn)的頻率可能會很大[7]。
使用信息增益(IG)和文檔頻率(DF)2種特征提取方法,在去除停用詞上,不單純依據(jù)停用詞表,而是利用詞性標注進行數(shù)據(jù)清洗與停用詞表相結(jié)合,進而達到降維的目的。研究結(jié)果表明,文檔頻率對文本的去停用詞效果要求較高,因而采用該方法的分類效果較差,由于信息增益(IG)考慮了特征項未發(fā)現(xiàn)的情況,因而采用該方法可以取得較好的特征選擇效果。
[1]Sebastian F.Machine learning in automated text categorization [J].ACM Computing Surveys, 2002, 34(1):1-47.
[2]夏克儉,張濤.基于貝葉斯算法的垃圾郵件過濾的研究[J].微計算機信息,2008,24(3):179-180.
[3]鐘慰,周鐵軍.樸素貝葉斯分類在入侵檢測中的應用[J].計算機與信息技術(shù),2007(12):24-27.
[4]余芳.一個基于樸素貝葉斯方法的web文本分類系統(tǒng):web CAT[D].廣州:暨南大學,2004.
[5]王俊英.基于科技文獻的中文文本分類算法研究[D].秦皇島:燕山大學,2005.
[6]楊霞,黃陳英.文本挖掘綜述[J].科技信息,2009,10(3):5-14.
[7]復旦大學語料庫.中文自然語言處理開放平臺[DB/OL].http://ishare.iask. sina.com.cn.ht,2008-09-12 .
[編輯] 李啟棟
TP393.08
A
1673-1409(2013)25-0091-03
2013-06-12
遲慶云(1975-),女,碩士,講師,現(xiàn)主要從事數(shù)據(jù)倉庫、數(shù)據(jù)挖掘方面的教學與研究工作。