肖雪
(重慶電子工程職業學院,重慶 401331)
基于最大熵模型的中文文本層次分類方法
肖雪
(重慶電子工程職業學院,重慶 401331)
針對文本信息海量增加的現狀,快速、準確、全面地獲取有用信息的大規模信息處理應用技術越來越受到關注。本文將中文文本分類的類別體系構建為層次結構,并把最大熵模型引入中文文本的層次分類,該模型用于得到未知事件分布的最大熵。實驗證明,最大熵模型方法的層次分類性能在很多時候優于平面分類,是一種有效的中文文本分類方法。
文本分類層次分類特征選擇最大熵模型
在信息技術不斷發展的今天,人們身邊的文本量也出現了飛速增長。如何在這海量的文本信息集合中,快速、準確、全面地找到我們所需要的信息,越來越受到關注。因此,作為大規模信息處理重要的應用技術之一,文本分類成為了有效組織和管理文本數據的重要方式,顯示了其不可忽視的重要性。文本分類可以看作是一個數學上的映射,將未標明類別的文本映射到已有的類別。我們通過構建分類系統來進行分類,構建的過程屬于有指導的機器學習。首先給出一些已經分類的樣本信息,分類系統根據這些信息掌握每類樣本的特點和分類規律,建立適用于所有文本的分類規則,即“學習”的過程;在遇到新的待分類的文本時,分類系統將根據這些規則來決定把文本分到哪個類別。
目前中文文本分類流程大致按照以下步驟[1]:文本預處理、特征選擇、特征加權、訓練文本分類器和進行分類。要把文本這一有內在語義聯系的的信息集合變為可被計算機表示的形式,G.Salton提出了向量空間模型(Vector Space Model, VSM)。在VSM中,文本被表示為可進行數學運算的向量,向量中的每一項叫做特征項,它可以是該文本里的字、詞、短語等。每個特征項對于文本的重要程度都有所不同,為了區別開,將對每個特征相賦予一個權重W,這樣文本可表示為,其中表示第i個特征項的權重。由于每篇文本的特征項數量相當龐大,有的特征出現的次數極少,有的特征在每篇文本里面都大量存在,因此需要在文本的原始特征中選擇出對文本最具代表性的特征項。特征選擇的方法很多,一般都是使用某種特征評估函數對每個特征項打分,最后根據分值取一定數量的特征項作為特征集合。常用的特征選擇方法有文檔頻率DF、信息增益IG、互信息MI和χ2統計CHI等等[2]。

構建分類系統所采用的分類算法一般都是針對向量空間模型的數學計算,主要有:類中心向量最近距離判別法、樸素貝葉斯[3]、KNN[4]和支持向量機(SVM)[5]等。
目前中文文本分類基本都只做一次分類,分類的類別都構建在同一個層次,即處于同一個平面類空間,稱為平面分類。在類別數目比較小、同時類別差別比較大的情況下,平面分類的性能較好。比如當類別只有“計算機”、“體育”和“經濟”時,分類系統能比較容易地判斷包含特征“算法”的文本應該屬于哪個類別。
但實際情況中,文本集合往往比較復雜、類別繁多。面對成千上萬的文本,很多文本既具有共性、又有細微的差別,同時這些文本包含的特征非常相近,對分類起作用的特征往往只是極少數。在這種情況下,平面分類的性能會受到很大制約,分類的精度將受到干擾而降低。因此,可以考慮在構建文本類別時形成層次結構,把具有共性的子類別組成一個集合,以樹形結構的形式呈現類別體系。
層次分類是以層次結構的方式構造文本分類的類別系統,即把所有類別按照一定的內在關系組織成樹狀結構[6]。在這種結構下,第一層的類別數量較少而且差異很大,文本的分類比較容易且精確度較高;同一類別結點下的子類具有大類共性,文本分類時只需要在該大類下的子類別中進行區分,縮小了分類的范圍。這樣的分類方式使文本的定位更準確,分類時自頂向下逐層分類,提高了分類精度。
“熵”本是熱力學中的概念,由shannon將信息熵引入信息論。信息熵是表征事物復雜程度的量度,用來度量隨機出現的事物的不確定性,當隨機變量分布越均勻時,其熵值越大。熵的計算公式如下:

最大熵原理由E.T.Jaynes提出[7],其原則是在對某個事件不了解的情況下,應選擇使它的分布最均勻的模型。因為在已知條件下,熵最大時代表其分布最均勻,隨機變量的狀態最不確定,可能最接近它的真實狀態。在這種情況下,滿足最大熵的概率分布應為:

那么在文本分類問題中,假設a是某個類別,b為某個特征,則:

將此模型應用于中文文本的層次分類中,在每一層均采用最大熵模型,如下:
①在第一層忽略子類類別,以所有大類為類別集合進行第一次特征選擇;使用第一層的特征集合構造出特征函數,建立該層的最大熵模型;使用最大熵模型將文本歸屬為所有大類中的某一大類;
②進入層次結構第二層時,以該層各大類下的子類為基礎再各進行一次特征選擇,并適當調節特征數量,得到新的子類特征集合。這時的特征集合與第一層的特征集合相比將有所變化。分別為各大類構造特征函數,建立各大類的最大熵模型,用于對文本的子類分類。
實驗采用最大熵模型的方法,與常規的平面分類的性能做比較。實驗語料庫由網絡收集整理,共計6352篇,其中訓練語料和測試語料基本按照1:1的比例劃分。語料分為電腦、教育、經濟、娛樂、衛生和體育幾個大類,子類構建如表1所示。實驗中的特征選擇采用IG方法,最大熵模型中的參數估計使用GIS算法,迭代100次后結束。分類結果采用F1測試值。實驗結果如表1所示,其中Hier表示基于最大熵模型的層次分類性能,Plane表示平面分類性能。

表1 最大熵層次分類與平面分類性能比較類別
根據表1可以看到,基于最大熵模型的層次分類性能在很多類別上優于平面分類性能,比如在“硬件”、“籃球”等子類別。層次分類對大類類別的構建較少,文本在進行大類分類時的精度較高,在大類下只需要面對該大類的子類別,比直接面對所有子類別來進行分類更加容易,所以能提高整體的分類性能。由于最后的分類效果依賴于大類分類的結果,因此層次分類在在不同大類下的表現具有差異性。
現有的文本分類多是基于向量空間模型的平面分類方式。本文把中文文本分類的類別體系構建為層次結構,對文本先進行大類分類,再分類到子類別。并把最大熵模型引入中文文本的層次分類,該模型用于得到未知事件分布的最大熵。經實驗驗證,最大熵模型方法的層次分類性能在很多時候優于平面分類,是一種有效的中文文本分類方法。
[1]張玉芳,萬斌侯,熊忠陽.文本分類中的特征降維方法研究[J].計算機應用研究,2012,29(7):2541-2543.
[2]Yiming Yang.An evaluation of statistical approaches to text categorization[J].Inf Retr Boston,1999,1(1):69-90.
[3]T.Joachims.A probabilistic analysis of the rocchio algorithm with TFIDF for text categorization:Proc.Int.Conf.on Machine Learning,1997[C].Nashville,US:1997:143-151
[4]Makato Iwayama.A comparison of category search strategies: ACM Conference on Research and Development on Information,1995[C].Washington:ACM Press,1995:273-281. [5]J.T.Y.Kwok.Automated Text Categorization Using Support Vector Machine:Proceedings of the Int.Conf.on Neural Information Processing,1998[C].Japan:1998:347-351.
[6]SONG Shengli,BAO liang,CHEN ping.Hierarchical text classification and evaluation[J].Xi Tong Gong Cheng Yu Dian Zi Ji Shu/Systems Engineering and Electronics,2010,32(5): 1088-1093.
[7]N Kamal,L John,M Andrew.Using maximum entropy for text classification[C].In Proceedings of the IJCAI-99 Workshop on Information Filtering.Stockholm,Sweden.1999.
Hierarchical Text Categorization Methods Based on Maximum Entropy Model
XIAO Xue
(Chongqing College of Electronic Engineering,Chongqing 401331,China)
In view of the present situation of mass text information,the technology of large-scale information processing and application,with which people can obtain useful information quickly,accurately,and comprehensively,draws more and more attention. This paper organizes categories into hierarchical structure according to the certain relations.And the maximum entropy model is introduced to hierarchical text classification and used to obtain the maximum entropy of unknown event distribution.The experiment results show that the hierarchical classification performance of maximum entropy model outperforms that of plane methods,and it is an effective technique for text classification.
text classification;hierarchical text classification;feature selection;maximum entropy model
TP391
A
1008-1739(2015)09-36-3
定稿日期:2015-04-12