基于優化類中心分類算法的文本分類研究

2011-08-30 06:11:42邵華清

科技傳播 2011年18期

關鍵詞：分類文本

王斌，邵華清，劉振

1.佳木斯大學信息電子技術學院，黑龍江佳木斯 154007

2.佳木斯大學經濟管理學院，黑龍江佳木斯 154007

3.桂林理工大學，廣西桂林 541004

0 引言

當前，隨著計算機技術的飛速發展，各類電子郵件和電子文檔以前所未有速度的迅速增長，用戶如何能從海量文本中快速準確的獲取有效的信息，是人們普遍關注的問題。文本形式是互聯網上大部分信息的載體，文本的識別的速度決定了是否能高效獲取信息的速度。文本分類識別技術可以把海量但缺乏結構的文本數據組織成規范的文本數據，以達到提高檢索信息和利用信息的效率的目的。文本分類已經成為組織和管理文本數據的重要形式。傳統的人工分類已經不能滿足如今的需要，它耗費大量的人力、物力和精力，并且分類結果一致性不高。本文針對傳統類中心分類算法由于訓練文檔分散，不能準確的表示各類別的中心向量，提出了優化算法，從而提高分類準確度。

1 類中心分類算法

文本分類的訓練集是已經分類好的文本，這些分類好的文本都具有各自類別的特點，我們可以通過學習這些分類好的文本，提取出代表每一類別各自的特點，這些特點能唯一的代表一個類別。在用向量空間模型表示的文本中，可以通過提取能代表該類別的特征項來表示類別。類中心分類算法是典型的應用代表類別特點的特征項來表示類別的算法。它具有容易理解、思路清晰、分類效果好等優點。類中心分類算法思路比較簡單，將訓練集中的每個文本應用一定的特征權重算法表示成一個特征權重的向量：為了對不同長度的文檔統一描述，每一篇文檔都被規范化為統一的長度，例如：然后根據平均算法為每類文本生成代表該類的中心向量。令表示預定義的類別集合，類別Ci的中心向量定義為：

類中心分類算法是從訓練集中得到類別的中心向量，它對訓練集依賴性比較大，對訓練集的集中程度和規模非常敏感，一般情況下訓練集文本代表性越強、規模越大分類效果會越好。

2 優化的類中心分類算法

在類中心文本分類算法中，類別的中心向量是由該類別文本特征向量的簡單算術平均得到。在訓練集中，就分類而言，文檔一般比較分散，所以在空間上，有些分類與其它類就會有重疊的區域，如果直接用這些文檔來計算各個類別的中心向量，就會出現模型偏差，因此不能達到理想的分類結果。研究一種優化的類中心分類算法，以修正這種模型偏差。即用當前的中心向量對訓練集進行分類，然后用訓練錯誤文檔來更新中心向量，并假設文檔集中的每一篇文檔都只屬于一個類別。它的中心思想為：在進行的每一次迭代過程中用規范化中心向量對訓練文本進行分類，其目的是為了找出所有訓練錯誤文檔。并對它進行歸類。但因為文檔分散原因的影響，不少文檔的分類弄錯，可以適當增加中心向量中這些文檔特征項的權重，相反，應該減少中心向量中misin-ofi的各文檔特征權重大的特征項的權重。利用這些分類錯誤文檔，更新類中心向量，并規范化，得到迭代后的規范化中心向量。

3 實驗方法與結果

3.1 實驗樣本

在文本自動分類系統中，用于實驗的文本集一般分為兩個部分：訓練集和測試集。訓練集是由一組文本組成，并且這些文本已經分好類，用于歸納出各個類別的特性以構造分類器。根據分類體系的設定，每一個類別都應含有一定數量的訓練文本；測試集是用于測試分類效果的文檔的集合。其中每個文本都通過分類器分類，然后與正確決策的分類結果相對比，從而得到對分類器效果的評價，但測試集并不參與分類器的建設。

3.2 結果評測標準

評估分類準確程度的依據是通過專家對文本的正確分類結果的比較，與人工分類結果越相近，分類的準確程度就越高。文本分類中常用的評測指標有：準確率和查全率。本文使用如下的評估標準：

查準率：是在所有輸入系統中，進行分類處理的文本中與專家分類結果完全吻合的文本所占的比率，即：被正確分到類別i的文本數與所有被分到類別i的文本數的比值。

查全率：是在分類系統中，分類正確的文本所占的比率，即：被正確分到類別i的文本數與實際屬于類別i的文本數的比值。

查準率和查全率反映了分類質量的兩個不同方面，兩者必須綜合考慮，不可偏廢。因此，存在一種新的評估指標，Fl測試值，其數學公式如下：

從對比中可以看到，類中心分類算法在任何類別的分類效果都不如優化后的類中心分類算法。

[1]旺建華.中文文本分類技術研究[D].吉林大學，2007，9.

[2]王小燕.文本分類相關技術應用與研究[D].西北大學，2007，4.