摘要:利用訓練文檔集準確高效地挖掘隱藏的用戶文本偏好和概念向量是文本信息過濾和多文檔自動文摘等自然語言處理應用的關鍵技術之一。針對訓練文本集中往往存在多個主題類別的問題,提出一種基于聚類分析策略的文本偏好挖掘方法。其基本思路是對訓練文檔集進行聚類處理,然后對同主題文檔進行共性分析,并經過特征權值調整和特征約簡,獲得表示用戶不同主題偏好的概念向量。實驗結果表明該方法具有對用戶的文本偏好刻畫更加精確,對相關閾值變化不敏感等優點,可以與Rocchio等算法結合來進行用戶興趣建模。
關鍵詞:偏好挖掘;
文檔聚類; 概念向量;
Rocchio算法
中圖法分類號:TP391
文獻標識碼:A
文章編號:1001-3695(2005)12-0021-03