方秋蓮,王培錦,隋 陽,鄭涵穎,呂春玥,王艷彤
(中南大學 數學與統計學院,長沙 410083)
隨著互聯網的迅猛發展,產生了大量的文本數據,處理文本數據的基礎是文本分類.在文本數據中多數為新聞數據,目前新聞文本數據的分類仍采用由編輯者進行人工分類的方法,這種方法不僅耗費了大量人力、物力,而且可能存在分類結果不一致的情況[1],因此急需建立一個自動文本分類器解決上述問題.
一個文本分類器的實現主要包括下列3個步驟:1) 特征提取;2) 建立分類器;3) 結果輸出.在特征提取方面,常用的方法有文檔頻率(document frequency,DF)法、信息增益(information gain,IG)法、互信息(mutual information,MI)法以及TFIDF(term frequency-inverse document frequency)算法等[2].DF法、IG法和MI法都假設信息量較少的詞對文本的分類過程沒有影響,但這種假設在分類問題中通常并不成立,所以在實際應用中其很少被單獨使用.而TFIDF算法的優勢是其能同時考慮到低頻詞和高頻詞對分類過程的影響,因此其特征向量提取的效果相對較好.在建立分類器方面,目前較流行的分類算法有最小距離分類器、K-最近鄰分類器和樸素Bayes分類器等.最小距離分類器適用于類間間距大、類內間距小的樣本[3];K-最近鄰分類器中K的選擇存在較大的主觀性;而樸素Bayes分類器適用于一般分類樣本且不受主觀因素影響,所以被廣泛應用.在結果輸出方面,通常用準確率或查全率評價分類器的優劣,而為了更全面地研究分類器的輸出結果,龐劍鋒等[4]將兩者結合提出了檢測結果更精準的F1測試值……