李凱


摘要:由于現實生活中大多數信息被存儲為文本,因此文本挖掘具有在商業上的高潛在價值。實際應用中可以從許多信息來源中挖掘知識,然而,非結構化文本仍然是最容易獲得的知識來源。該文介紹了文本分類的過程以及對三種分類器的概述,并在最后對三種分類器分別實驗,以及對實驗結果分析得知本實驗環境下支持向量機分類器的分類效果要好于另外兩種分類器。
關鍵詞:文本分類;文本表示;特征選擇;權重;文本分類器
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2019)04-0242-03
Abstract: Since most of the information in real life is stored as text, text mining has high commercial potential. In practice, knowledge can be mined from many sources of information, however, unstructured text is still the most accessible source of knowledge.This paper introduces the process of text classification and the overview of the three classifiers. Finally, the experiments of the three classifiers and the analysis of the experimental results show that the classification effect of the support vector machine classifier is better than the other two classifiers.
Key words: text classification;text representation;feature selection;weightstext classifier
自數字文檔開始以來,自動文本分類一直是一個重要的應用和研究課題。文本分類(text categorization)是數據挖掘、機器學習、模式識別這三個學科在某一具體領域應用的結合。由于我們每天都要處理大量的文本文檔,因此,對文本分類的研究是十分有必要的。
1文本分類的一般過程
文本分類的任務可以近似為一個未知的目標函數Φ:D×C→{T, F},其中,D={[d1],[d2],…,[d|D|]}是一個文檔的領域,C={[c1],[c2],…,[c|C|]}是一組預定義的類別。對于<[dj],[ci]>來說T值與F值分別表示文檔[dj]是否屬于類[ci][1]。
2文本預處理
文本預處理的主要任務是首先對中文文本進行分詞處理,然后再刪除停用詞。由于中文中的單詞之間沒有像英文單詞間可以利用空格作為明顯的分割標記,因此首先要對文本進行分詞處理[2]。
中文分詞方法主要方法以及分詞方法之間的比較如表1表示。
3文本表示
5文本分類算法
5.1樸素貝葉斯分類器
樸素貝葉斯分類器(NB)是一種基于貝葉斯定理的概率分類器,具有強大的獨立性假設。它被認為是最基本的文本分類技術之一,在垃圾郵件檢測、個人郵件分類、文檔分類、語言檢測和情感檢測等方面有著廣泛的應用。貝葉斯分類器計算量小,訓練數據量小,是一種高效的分類器[4]。
5.2基于支持向量機的分類器
基于支持向量機(SVM)是一種基于統計學習理論和結構風險最小化原理的有監督學習的機器學習算法。SVM通常被用于解決線性約束凸二次規劃問題(QP),并且該解決方案具有唯一的最優超平面,它的最終目標是找到這樣的最優的高維分類超平面。
5.3 k-最近鄰法
k-最近鄰法(KNN)是一種有監督的機器學習算法,它預先存儲所有可用的樣本,并基于相似性度量(如距離函數)對新的樣本進行分類。KNN算法是基于空間中接近的點(文檔)屬于同一類的原則。
6文本分類性能評測
常用的文本分類器性能評價方法有召回率(Recall),準確率(Precision),F-度量值等。
7 實驗結果與分析
本實驗的數據采用搜狗新聞數據集,該數據集一共有10類新聞,每類新聞60000條文本數據,其中訓練集取90%,測試集取10%。本實驗文檔都是以空間向量的形式表示并且采用信息增益法與TF-IDF權值法來進行特征選擇與特征權重的計算。我們從預處理好的文本中提取80%作為訓練文本集,20%作為測試文本集, 分別將文本集投入樸素貝葉斯分類器(NB)、支持向量機分類器(SVM)、k-最近鄰分類器(KNN)三種分類器中進行三組實驗。為了評估短文本分類系統的性能,評估方法選擇了傳統的評估標準:準確率P、召回率 R ,以及兩者的綜合評價 F-度量值。實驗結果如表2:
從上表來看, 準確率在整體上是要明顯高于召回率。KNN分類器的準確率最高, SVM分類器的召回率最高。從宏平均F-度量值上看, 樸素貝葉斯分類器和K-最近鄰分類器在分類效果上相差較小。支持向量機分類器在分類效果上較優于另外兩種分類器。文本分類的過程中在數據預處理時采取的分詞方法和特征選擇方法對分類效果是有直接影響的,因此上述結論不是絕對的。
8結語
本文主要分析了文本分類的過程并在最后描述了分類器性能評價并從實驗上進行比較。通常情況下,不能將單個文本表示方法和分類器作為任何通用的模型。應根據數據的特征,選擇相應的文本表示方法和分類器,以此來確保分類結果達到預期的效果。
參考文獻:
[1] 宗成慶.統計自然語言處理[M].清華大學出版社,2013.
[2] 林少波.中文文本分類特征提取方法的研究與實現[D].重慶大學,2011.
[3] 奉國和.文本分類性能評價研究[J].情報雜志,2011,30(8):66-70.
[4] YAN Rui, CAO Xian-bin, LI Kai, Dynamic Assembly Classification Algorithm for Short Text[J].ACTA ELECTRONICA SINICA,2009,37(5):1019-1024.
[5] 申紅,呂寶糧,內山將夫,等.文本分類的特征提取方法比較與改進[J].計算機仿真,2006(3):222-224.
【通聯編輯:唐一東】