摘要:該文介紹了文本分類的定義,主要的特征選擇方法,文本表示的向量空間模型,分類效果的評價指標。
關鍵詞:文本分類;特征選擇;向量空間模型
中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2009)24-6784-02
Technology of Text Categorization
ZHANG Hua
(Institute of Minjiang, Fuzhou 350011, China)
Abstract: This paper introduces the definition of text categorization, primary methods of feature selection, vector space model for text representation, evaluation for the classification result.
Key words: text categorization; feature selection; vector space model
1 文本分類定義
文本分類屬于有監督的機器學習,即利用預定義的文本類別和訓練文本指導新的測試文本的學習,從而確定新文本的類別。從數學角度來說,文本分類可以這樣定義:設文檔集D={d1,d2,…,di},預定義類集C={c1,c2,…,ci},確定任意一個元組
2 文本處理
2.1 分詞
在使用向量空間模型表示文本時,是以特征項為基本單位的,而特征項可以取字、詞或短語,所以,要對文本進行相應的預處理操作,提取出特征項序列。在漢語中,詞是最小的語義基本單位,中文信息處理系統只要涉及句法、語義,就需要以詞為基本單位,而文本分類算法也一般采用特征項表示文本。由于中文的表示中詞與詞之間沒有明顯的間隔符號,因而自動分詞問題是中文信息處理的難點。
2.2 特征選擇
文本分類中的特征選擇方法主要有:特征詞的文檔頻率法DF(Document Frequency)、信息增益法IG(Information Gain)、互信息法MI(Mutual Information),?字2統計法(CHI)、交叉熵(Cross Entropy)等。
1)特征詞的文檔頻率(DF)
一個特征的文檔頻率(Document Frequency)是指在文檔集中含有該特征的文檔數目。采用DF作為特征選擇,基于如下基本假設:DF值低于某個閾值的詞條是低頻詞,它們不含或含有較少的類別信息。我們假定很少出現的特征詞攜帶的信息量為0,或者說對分類性能的影響不大。將這樣的詞條從原始特征空間中除去,不但能夠降低特征空間的維數,而且還有可能提高分類的精度。文檔頻率是最簡單的特征抽取技術,由于其相對于訓練語料規模具有線性的計算復雜度,它能夠很容易被用于大規模語料統計。
2) 信息增益方法(IG)
信息增量(Information Gain)表示文檔中包含某一特征值時文檔類的平均信息量。它定義為某一特征在文檔中出現前后的信息熵之差。假設c為文檔類變量,C為文檔類集合,d為文檔,f為特征。對于特征f,其信息增量記為IG(f),計算公式如下:
3) 交叉熵(CE)
交叉熵(Cross Entropy)和信息增益相似,不同之處在于信息增益中同時考慮到了特征在文本中發生與不發生時的兩種情況,而交叉熵只考慮特征在文本中發生的一種情況。對于特征f,其交叉熵記為CE(f),計算公式如下:
?字2統計也是用于表征兩個變量的相關性,但它比互信息更強,因為它同時考慮了特征詞存在與不存在時的情5) 互信息方法(MI)
互信息是用于表征兩個變量間相關性的。對于文檔類別c和特征f,其互信息記為M(c,f),計算公式如下:
顯然,當f獨立于c時,MI(c,f)為0,在應用時一般取平均值:
3 文本表示
文本表示的模型常用的有:布爾邏輯模型(Boolean Model),向量空間模型(VSM, Vector Space Model), 潛在語義索引(LSI,Latent Semantic Indexing)和概率模型(Probabilitic Model)。目前文本的表示主要采用的是向量空間模型。向量空間模型的基本思想是使用詞袋法(Bag of Word)表示文本,這種表示法的一個關鍵假設,就是文章中詞條出現的先后次序是無關緊要的,每個特征詞對應特征空間的一維,將文本表示成歐氏空間的一個向量。在一個文本中,每個特征項都被賦予一個權重,以表示特征項在該文本中的重要程度舍棄了各個特征項之間的順序信息之后,一個文本就表示成一個向量,即特征空間中的一個點。如文本 的表示:V(di)=(wi1,wi2,…,wik,…,win)。其中,wik=f(tk,ci)為權值函數,反映特征tk決定文檔di是否屬于類ci的重要性。對于所有的文檔都可以映射到此文本向量空間,從而將文檔信息的匹配問題轉化為向量空間中的矢量匹配問題。n維空間中點的距離用向量之間的余弦夾角來度量,也即表示了文檔間的相似程度。假設目標文檔為U,未知文檔為Vi,夾角越小說明文檔的相似度越高。余弦夾角的相似度計算公式如公式(8)所示。
4 文本分類模型評估
文本分類中普遍使用的性能評估指標有召回率(Recall,簡記為r)、準確率(Precision,簡記為p)。對于文本集中的每一個類別,使用列聯表(Contigency Table)來計算召回率和準確率。表1為一個列聯表示例。
這時,r和p分別定義為:
在公式(12)中,當p和r為宏平均值時,那么F1值稱為宏平均F1值(Macro-averaging F1);當p和r為微平均值時,那么F1值稱為微平均F1值(Micro-averaging F1)。
5 結論
本章主要介紹了三個方面的內容,即文本分類的一般過程,文本處理和文本分類模型評估。在文本處理中介紹了文檔頻率法DF、信息增益法IG、互信息法MI,?字2統計法、交叉熵等特征選擇方法;文本表示中主要介紹了向量空間模型。在分類模型評估這一塊列出了常用的分類方法質量評估方法,主要是微平均、宏平均值等。
參考文獻:
[1] Sebastiani F. Machine learning in automated text categorization. ACM Computing Surveys, 2002, 34(1):1-47.
[2] 李榮陸.文本分類及其相關技術研究[D].上海:復旦大學計算機軟件與理論,2005.
[3] Yiming Yang.Jan O Pedersen: A Comparative Study on Feature Selection in Text Categorization,1997.
[4] Thorsten Joachims A Statistical Learning Model of Text Classification for Support Vector Machines,2001.