摘要:文本分類是研究文本數(shù)據(jù)挖掘、信息檢索的重要手段,文本特征項權重值的計算是文本分類算法的關鍵。針對經(jīng)典的特征權重計算方法TF—IDF中存在的不足,提出了一種動態(tài)自適應特征權重計算方法(DATW)。該算法不僅考慮了特征項在文本中出現(xiàn)的頻率及該特征項所屬文本在訓練集中的數(shù)量,而且通過考查特征項的分散度和特征向量梯度差以自適應動態(tài)文本的分類。實驗結果表明,采用DATw方法計算特征權重可以有效提高文本分類的性能。
關鍵詞:文本分類;特征權重;TF-IDF;分散度;梯度差
中圖分類號:TP391 文獻標志碼:A 文章編號:1001—3695(2 011)11—4092—05