韓 玉,李美聰,郭新辰
(1.東北電力大學 理學院,吉林 吉林 132012;2.海南熱帶海洋學院 數學系,三亞 572022)
?
基于粗糙集理論的文本分類屬性約簡算法
韓 玉1,李美聰1,郭新辰2
(1.東北電力大學 理學院,吉林 吉林 132012;2.海南熱帶海洋學院 數學系,三亞 572022)
針對文本分類的特征空間高維問題,本文提出了一種基于粗糙集的屬性約簡算法及其改進的約簡算法。利用該算法有效降低了文本特征向量的維數。通過利用20 Newsgroups數據集進行試驗測試,在召回率、準確率和F-1度的指標上均具有較明顯的優勢。
粗糙集;屬性約簡;文本分類
文本分類[1-2]是指根據帶有類別的文本集合的特點,根據每一個類別的文本子集合的共有特點,找出一個分類函數或分類模型分類器,根據該模型可以把其他文本映射到已有類別中的一個,從而實現自動對文本分類。粗糙集理論[3]是建立在分類機制的基礎上的,它將分類理解為在特定空間上的等價關系,而等價關系構成了對該空間的劃分,它將知識理解為對數據的劃分,每一被劃分的集合稱為概念,其主要思想是利用己知的知識庫,將不精確或不確定的知識用己知的知識庫中的知識來近似刻畫。該理論與其他處理不確定不精確問題理論的區別是:它無需提供問題所需處理的數據集合之外的任何先驗信息,因此和其它理論有很強的互補性。
在文本分類和粗糙集理論的基礎上,提出了基于粗糙集的文本分類系統[4];研究了粗糙集理論中的屬性約簡算法,并找出合適的用于啟發式屬性約簡的屬性重要性衡量方法;……